Python爬虫如何正确判断页面是否可以爬取?

用Python27些爬虫,想要爬取一些网站,我需要判断网页是否可以爬取,第一反应是通过状态码来判断,但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面,可他的状态码却是200,结果爬回来好多根本就不存在的页面。这个本来是网站设置的问题,但是现在也不能用状态码来判断了,请问还有什么方法可以正确判断一个页面是不是404该不该爬?

MM们
浏览 4586回答 2
2回答

PIPIONE

做个网页内容的判断,如果他网页里面没有内容就直接返回。
打开App,查看更多内容
随时随地看视频慕课网APP