我已经构建了多个爬虫并希望使用CrawlerProcess. 但是,在构建蜘蛛时,我对其进行了设置,因此它们的运行速度会稍慢一些,并且有下载延迟。单独运行蜘蛛时,设置工作正常,但是当我运行所有四个蜘蛛时,它的爬行速度非常快,一些站点将我踢出网络。我想知道的是为什么不CrawlerProcess遵循设置,如果有办法实现这一点,我该如何实现。
这是我如何设置它:
TMP_FILE = os.path.join(os.path.dirname(sys.modules['items'].__file__), 'tmp/items.csv')
process = CrawlerProcess({
'FEED_FORMAT': 'csv',
'FEED_URI': TMP_FILE,
})
process.crawl(Spider1)
process.crawl(Spider2)
process.crawl(Spider3)
process.crawl(Spider4)
process.start()
墨色风雨
相关分类