请教各位一个问题，求解答：Python爬虫怎么爬取不同网页的固定内容怎么回事哈啊？

问题描述我现在有一个网站域名列表，里面有数万个域名，想先定位到每个网站的sitemap，然后把每个sitemap里面的新闻，财经，科技三个大类的url抓取出来，但是因为每个网站结构都不一样，想用一个爬虫很难实现，有人建议可以训练一个模型来识别，但不知道具体步骤，或者有什么别的方式可以推荐一下吗？求大神解答！提供一下思路即可！

守着一只汪

浏览 706回答 2

2回答

波斯汪

·确定每个网站都有sitemap吗？·sitemap里更新的链接及时吗？如果都可以抓到文章页，提取新闻正文（newspaper）等很多库都可以做，但是效率不高。至于时间、作者，只能写通用规则提取了（不一定准且不一定能提取到）。一个爬虫做不到，因为访问不同的网站可能就需要不同的方式、验证。

随时随地看视频慕课网APP