大家在管理爬取到数据的时候,一般对异常数据是怎么进行防御的?
比如对一个网站的商品爬取下来后,每天都自动更新最新的信息,但是如果目标网站大批量返回错误数据,这样一下子就把之前的正确数据洗掉了。而且这些错误数据比如说价格,原来是20块,一下子返回200块,数据类型一样,但是值的意义不同了。
严格来说,这不是技术问题,所以请不要简单给个建议说用xx技术之类的。
这不是技术问题,不是用干什么语言什么框架的问题 (2年前)
月关宝盒
蝴蝶不菲
智慧大石