我正在用Ruby(1.9)编写一个爬虫,该爬虫使用了来自许多随机站点的大量HTML。
尝试提取链接时,我决定只使用.scan(/href="(.*?)"/i)
nokogiri / hpricot(主要是提高速度)。问题是我现在收到很多“ invalid byte sequence in UTF-8
”错误。
据我了解,该net/http
库没有任何特定于编码的选项,并且进来的东西基本上没有正确标记。
实际使用该传入数据的最佳方法是什么?我尝试.encode
设置了replace和invalid选项,但到目前为止没有成功...
蓝山帝景
慕的地6264312
相关分类