我们在使用Nokogiri抓取网站页面的信息时,如果遇到你要抓取页面的URL里有中文,比如 我们拿豆瓣为例
我们要查找豆瓣里的一本书 :《sql语言艺术》他的查找URL是:http://book.douban.com/subject_search?search_text=SQL语言艺术&cat=1001
那么 你直接这样写代码的时候
url="http://book.douban.com/subject_search?search_text=SQL语言艺术=1001"
Nokogiri::HTML(open(url))
就会报错,因为浏览器打包给服务器发送参数的时候是经过编码的,所以我们也要给汉字经过一次编码,只需在这两句中间加上一句就可以了
url=URI.escape(url)
这样 rul 字符串就被编码成 这样:sql%E8%AF%AD%E8%A8%80%E8%89%BA%E6%9C%AF就没问题了
注意:上边的编码是吧 一个汉字转换成三个字节 语 -》%E8%AF%AD(看百分号就知道到了)如果你要抓取的网站编码是GBK 那么 要把它转换成 一个汉字 对应成 2个字节,%E8%AF 。
分享到:
相关推荐
精华志 蜘蛛爬虫,递归抓取页面的URL 抓取页面URL 京华志&精华志出品 分享资源 C# ASP.NET SQL DBA 源码
蜘蛛爬虫,递归抓取页面的URL
主要介绍了python抓取并保存html页面时乱码问题的解决方法,结合实例形式分析了Python页面抓取过程中乱码出现的原因与相应的解决方法,需要的朋友可以参考下
JAVA实现的能抓取网站url提供分析等功能
数据抓取解决方案数据抓取解决方案数据抓取解决方案数据抓取解决方案
可以把你喜欢的网站页面 抓取到本地,方便学习还浏览
一米URL外链资源批量抓取工具是一款支持谷歌百度等绝大多数搜索引擎脚本(footprint)抓取URL,快来下载体验吧! 软件功能特点 谷歌百度等绝大多数搜索引擎脚本(footprint)抓取URL; 支持手工浏览器获取url,自动过滤...
抓取淘宝页面数据
抓取网页数据
从网上抓取指定URL源码的方案
Web页面图片抓取工具PicpickWeb页面图片抓取工具PicpickWeb页面图片抓取工具Picpick
PHP怎样用正则抓取页面中的网址_.docx
httpwebrequest抓取页面小工具
FLASH页面抓取
威奇托桥梁 使用Nokogiri从抓取的Wichita桥数据并保存到JSON文件。 例子 在查看有关在Google地图中绘制的数据的实时演示
php页面抓取 抓取页面 抓页面 抓页面源码
python爬虫 抓取页面图片python爬虫 抓取页面图片python爬虫 抓取页面图片
nodejs爬虫抓取页面内容,简单好用
公司只能上CSDN 没办法 VBA抓取页面数据
信息采集,c#.net能够抓取页面中的数据