为什么爬虫抓去的某些页面的中文字符会变成���,又解决方法吗?

如题,求指导原因和解决方法。

浮云间
浏览 1617回答 2
2回答

MYYA

一般python的console只能识别GBK的中文,unicode与utf-8都不可以。LZ先查一下爬的网页的编码格式,然后用decode转码成unicode格式的,再用encode转码成GBK,就能正确输出了。html&nbsp;=&nbsp;'<p>***<p>'&nbsp;&nbsp;&nbsp;&nbsp;#比如说这是爬取下来的网页,编码格式为utf-8 html.decode(&nbsp;'utf-8'&nbsp;).encode(&nbsp;'GBK'&nbsp;) print&nbsp;html

万千封印

一般是编码不对,看清是utf8还是gb2312
打开App,查看更多内容
随时随地看视频慕课网APP