所以我上周运行了一个爬虫并生成了一个 CSV 文件,其中列出了我的项目所需的所有图像 URL。将 CSV 文件读取到 python 列表后,我不确定如何使用 Scrapy 通过管道简单地下载它们。我尝试了很多东西,最近我让它开始工作,但它很丑而且不太正确。对于我的 10 个图像 URL 列表,Scrapy 完成了 20 个请求的抓取,即使 10 个图像被正确存储。我可能在做一些愚蠢的事情,因为我对 Scrapy 还很陌生,但我已经通读了 Scrapy 的大部分文档,并通过谷歌搜索结果进行了多次试验和错误。
我只是想让 Scrapy 为每个 URL 发送一个请求并下载相应的图像。任何帮助,将不胜感激。我已经反对这个 3 天了。我的代码:
蜘蛛.py
import scrapy
import csv
import itertools
from ..items import ImgItem
urls=[]
with open('E:/Chris/imgUrls.csv') as csvDataFile:
csvReader = csv.reader(csvDataFile)
for elem in itertools.islice(csvReader, 0, 10):
urls.append(elem[0]) #Just doing first 10 for testing
#My Csv file is not the problem
# ...1 url per row
class DwImgSpider(scrapy.Spider):
name = 'dw-img'
start_urls = urls
def parse(self, response):
item = ImgItem()
img_urls = urls
item['image_urls'] = img_urls
return item
如果您想查看其他文件,我可以编辑它以添加它们。我只是认为这就是问题所在,因为它在技术上确实有效。再次感谢,感谢任何帮助或重定向。
大话西游666
小唯快跑啊
相关分类