我正在编写一个爬虫蜘蛛,我想在其中parse()为每个start_url.
我已经从列表中创建了一个映射,start_urls并且additional_data我在方法中使用了该映射。
class ExampleSpider(scrapy.Spider):
name = 'example'
allowed_domains = ['alldomain.com']
start_urls = ['http://a.com/', 'http://b.com/', 'http://c.com/']
additional_data = [x,y,z]
dict_map = dict(zip(start_urls, additional_data))
def parse(self, response):
url_first_additional_data = dict_map[response.url]
# do other processing
有没有其他更好的方法来做同样的事情,我不确定 response.url 是否也会有请求 url,如果我有大量的附加数据,地图会占用大量内存吗?
GCT1015
慕的地10843
随时随地看视频慕课网APP
相关分类