抓取 API

大家,早安,

我尝试在此站点上收集有关汽车的数据:https : //www.caramigo.eu/

为此,我需要在主页的搜索栏上针对指定的位置和日期启动一个请求。这为我提供了一个这样的页面:https : //www.caramigo.eu/be/fr/recherche?address=Belgique%2C+Wallonie%2C+Li%C3%A8ge%2C+4000%2C+Li%C3% A8ge&date_debut=22-03-2019&date_fin=23-03-2019

然后我可以通过我的网络浏览器的开发工具恢复 JSON 文件中的数据并将其废弃。问题是 JSON 文件在我每次启动对新位置的请求时都会更改,并且位于相同的 URL ( https://www.caramigo.eu/services/car )。

有没有人知道我如何创建一个蜘蛛,它会启动一个请求,获取 JSON 文件,然后报废它?或者我可以如何直接更改 API 上的数据以获取其他位置?

提前致谢 !


慕侠2389804
浏览 191回答 1
1回答

互换的青春

Scrapy 过滤对已经访问过的 URL 的请求,以避免循环。由于您需要的资源始终使用相同的 URL,Scrapy 将对其进行过滤。但是您可以通过dont_filter=True在请求中使用来禁用它。例如。:yield scrapy.Request(   url='https://www.caramigo.eu/services/car',   dont_filter=True,   callback=self.parse_item)
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python