想写一个抓取商城商品详情页的程序,开启多个线程并行抓取,但是这样会对被抓取的网站造成巨大压力,导致IP被封或被请求重定向.
请问如何提高抓取效率并避免抓取失败?
搜索引擎如lucene等也会造成对网站的频繁访问,它是怎么解决这个问题的?
大家有啥推荐的技术?
谢谢!
慕斯709654
largeQ
相关分类