对爬虫爬取到的数据管理

首页课程实战体系课手记专栏慕课教程

大家在管理爬取到数据的时候，一般对异常数据是怎么进行防御的？

比如对一个网站的商品爬取下来后，每天都自动更新最新的信息，但是如果目标网站大批量返回错误数据，这样一下子就把之前的正确数据洗掉了。而且这些错误数据比如说价格，原来是20块，一下子返回200块，数据类型一样，但是值的意义不同了。

严格来说，这不是技术问题，所以请不要简单给个建议说用xx技术之类的。

这不是技术问题，不是用干什么语言什么框架的问题 (2年前)

精慕HU

浏览 989回答 3

月关宝盒

感觉你可以建立一个数据校验模块，在抓取完这些数据后通过数据校验模块检查数据的变动值，如果超过你设定的阈值，那么可以认为刚爬取的数据是异常的，则不更新原有数据

0 0

蝴蝶不菲

没有一款爬虫是无敌的，但写爬虫用的Python却可能是无敌的

0 0

智慧大石

爬虫很简单，数据查询管理分类比较难

0 0

随时随地看视频慕课网APP