对爬虫爬取到的数据管理

大家在管理爬取到数据的时候,一般对异常数据是怎么进行防御的?

比如对一个网站的商品爬取下来后,每天都自动更新最新的信息,但是如果目标网站大批量返回错误数据,这样一下子就把之前的正确数据洗掉了。而且这些错误数据比如说价格,原来是20块,一下子返回200块,数据类型一样,但是值的意义不同了。

严格来说,这不是技术问题,所以请不要简单给个建议说用xx技术之类的。

这不是技术问题,不是用干什么语言什么框架的问题 (2年前)

精慕HU
浏览 868回答 3
3回答

月关宝盒

感觉你可以建立一个数据校验模块,在抓取完这些数据后通过数据校验模块 检查 数据的变动值,如果超过你设定的阈值 ,那么可以认为刚爬取的数据是异常的,则不更新原有数据

蝴蝶不菲

没有一款爬虫是无敌的,但写爬虫用的Python却可能是无敌的

智慧大石

爬虫 很简单,数据查询管理分类 比较难
打开App,查看更多内容
随时随地看视频慕课网APP