用Nokogiri抓取页面URL中有中文的解决办法 - rails lab - ITeye博客

`

dingr

浏览: 9649 次
性别:
来自: ...

最近访客更多访客>>

angjunwen

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

dingr：呵呵我感觉好像是一回事你可以作个测试你找个GBK的抓取以 ...
用Nokogiri抓取页面URL中有中文的解决办法
Hooopo： <div class="quote_title ...
用Nokogiri抓取页面URL中有中文的解决办法
t0uch： REE安装建议不要用install，进source里自己手动安 ...
ruby-enterprise安装时修改rails版本问题

用Nokogiri抓取页面URL中有中文的解决办法

博客分类：

rails 配置

SQL 浏览器 HTML

阅读更多

我们在使用Nokogiri抓取网站页面的信息时，如果遇到你要抓取页面的URL里有中文，比如我们拿豆瓣为例

我们要查找豆瓣里的一本书：《sql语言艺术》他的查找URL是：http://book.douban.com/subject_search?search_text=SQL语言艺术&cat=1001

那么你直接这样写代码的时候

url="http://book.douban.com/subject_search?search_text=SQL语言艺术=1001"

Nokogiri::HTML(open(url))

就会报错，因为浏览器打包给服务器发送参数的时候是经过编码的，所以我们也要给汉字经过一次编码，只需在这两句中间加上一句就可以了

url=URI.escape(url)

这样 rul 字符串就被编码成这样：sql%E8%AF%AD%E8%A8%80%E8%89%BA%E6%9C%AF就没问题了

注意：上边的编码是吧一个汉字转换成三个字节语 -》%E8%AF%AD（看百分号就知道到了）如果你要抓取的网站编码是GBK 那么要把它转换成一个汉字对应成 2个字节，%E8%AF 。

2
顶

2
踩

分享到：

jquery select下拉选项框二级联动 rails ... | ruby-enterprise安装时修改rails版本问题

2010-04-19 11:13
浏览 2320
评论(2)
分类:编程语言
查看更多

评论

2 楼 dingr 2010-04-19

呵呵我感觉好像是一回事你可以作个测试你找个GBK的抓取以下

1 楼 Hooopo 2010-04-19

引用

注意：上边的编码是吧一个汉字转换成三个字节语 -》%E8%AF%AD（看百分号就知道到了）如果你要抓取的网站编码是GBK 那么要把它转换成一个汉字对应成 2个字节，%E8%AF 。

URL编码和网站编码不是一回事吧？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

精华志蜘蛛爬虫，递归抓取页面的URL 抓取页面URL: 精华志蜘蛛爬虫，递归抓取页面的URL 抓取页面URL 京华志&精华志出品分享资源 C# ASP.NET SQL DBA 源码

抓取页面URL: 蜘蛛爬虫，递归抓取页面的URL

python抓取并保存html页面时乱码问题的解决方法: 主要介绍了python抓取并保存html页面时乱码问题的解决方法,结合实例形式分析了Python页面抓取过程中乱码出现的原因与相应的解决方法,需要的朋友可以参考下

JAVA实现的能抓取网站url提供分析等功能: JAVA实现的能抓取网站url提供分析等功能

数据抓取解决方案数据抓取解决方案: 数据抓取解决方案数据抓取解决方案数据抓取解决方案数据抓取解决方案

静态页面抓取工具: 可以把你喜欢的网站页面抓取到本地，方便学习还浏览

一米URL外链资源批量抓取工具v2016.08.10官方中文绿色版: 一米URL外链资源批量抓取工具是一款支持谷歌百度等绝大多数搜索引擎脚本(footprint)抓取URL，快来下载体验吧！软件功能特点谷歌百度等绝大多数搜索引擎脚本(footprint)抓取URL；支持手工浏览器获取url，自动过滤...

抓取淘宝页面数据: 抓取淘宝页面数据

抓取页面 c# demo: 抓取网页数据

从网上抓取指定URL源码的方案: 从网上抓取指定URL源码的方案

Web页面图片抓取工具Picpick: Web页面图片抓取工具PicpickWeb页面图片抓取工具PicpickWeb页面图片抓取工具Picpick

PHP怎样用正则抓取页面中的网址_.docx: PHP怎样用正则抓取页面中的网址_.docx

httpwebrequest抓取页面小工具: httpwebrequest抓取页面小工具

FLASH页面抓取工具: FLASH页面抓取

wichita-bridges:Nokogiri抓取JSON Goole映射: 威奇托桥梁使用Nokogiri从抓取的Wichita桥数据并保存到JSON文件。例子在查看有关在Google地图中绘制的数据的实时演示

php页面抓取源码（一个小文件）: php页面抓取抓取页面抓页面抓页面源码

python爬虫抓取页面图片: python爬虫抓取页面图片python爬虫抓取页面图片python爬虫抓取页面图片

nodejs爬虫抓取页面内容: nodejs爬虫抓取页面内容，简单好用

VBA抓取页面数据: 公司只能上CSDN 没办法 VBA抓取页面数据

信息采集，c#.net能够抓取页面中的数据: 信息采集，c#.net能够抓取页面中的数据

Global site tag (gtag.js) - Google Analytics