我正在写一个爬虫,怎么通过网页内容误别出是否为中文网页?

因定制内容较多,暂时无发现现有爬虫框架满足要求,所以需要自己写(用redis做队列)。
我的问题是在爬虫得到一个网页之后,怎么识别出这个网页是否为中文网页

DIEA
浏览 837回答 2
2回答

胡子哥哥

用 Google Chrome 的识别算法吧,支持 HTML,有 Python 绑定。
打开App,查看更多内容
随时随地看视频慕课网APP