抓取 API

大家，早安，

我尝试在此站点上收集有关汽车的数据：https : //www.caramigo.eu/

为此，我需要在主页的搜索栏上针对指定的位置和日期启动一个请求。这为我提供了一个这样的页面：https : //www.caramigo.eu/be/fr/recherche?address=Belgique%2C+Wallonie%2C+Li%C3%A8ge%2C+4000%2C+Li%C3% A8ge&date_debut=22-03-2019&date_fin=23-03-2019

然后我可以通过我的网络浏览器的开发工具恢复 JSON 文件中的数据并将其废弃。问题是 JSON 文件在我每次启动对新位置的请求时都会更改，并且位于相同的 URL ( https://www.caramigo.eu/services/car )。

有没有人知道我如何创建一个蜘蛛，它会启动一个请求，获取 JSON 文件，然后报废它？或者我可以如何直接更改 API 上的数据以获取其他位置？

提前致谢！

慕侠2389804

浏览 249回答 1

1回答

互换的青春

Scrapy 过滤对已经访问过的 URL 的请求，以避免循环。由于您需要的资源始终使用相同的 URL，Scrapy 将对其进行过滤。但是您可以通过dont_filter=True在请求中使用来禁用它。例如。：yield scrapy.Request(   url='https://www.caramigo.eu/services/car',   dont_filter=True,   callback=self.parse_item)

0 0

随时随地看视频慕课网APP