请问老师及各位朋友,我现在抓取的网页,源代码是unicode,直接使用response.xpath是不能正确匹配的。
但是如果,我将response.text转码为utf-8后赋值给一个str变量,str是不能使用xpath的。
但是同时response.text又不能修改(即转码后给自身赋值)。
这种情况有什么好的办法嘛
已解决,使用lxml的etree配合转码可以解决。
目前转码后发现,爬去的返回信息是JS和data,网页是动态生成的,这个怎么爬取呢
目标网页:
https://b2b.baidu.com/cc?q=%E4%BC%BA%E6%9C%8D%E9%A9%B1%E5%8A%A8%E5%99%A8&from=b2b_factory&srcid=5359&from_ver=v2&from_elem=title