使用 Beautiful Soup 和 Python 抓取多个搜索页面的结果

我正在学习使用 Beautiful Soup 从网站上抓取一些信息。该网站有多个我想要抓取的搜索结果页面。


这很简单,因为每个页面的 URL 都会发生变化:


website.com/page1

website.com/page2

.

.

但我事先不知道会有多少页。因此,website.com/page13如果没有或website.com/page13仅显示最后一个结果页面(可能是website.com/page9.


当我到达最终结果页面时,有没有办法停止抓取?


aluckdog
浏览 117回答 1
1回答

杨__羊羊

通常搜索页面的结果带有某种索引。如果您正在查看的页面已显示索引,当您看到相同的索引两次时,您可以停止。此外,您可能会在页面底部遇到结果分页,您可以从您所在的页面判断您是否位于该列表中分页的末尾。此外,搜索页面通常在每个页面上显示一定数量的结果,因此在这些情况下,如果结果突然少于最后一页,您可以假设您所在的页面是最后一页。在重复页面的情况下区分的另一种方法是保留当前页面的第一个结果并将其与下一页的第一个结果进行比较,如果它们相同,则完成。如果您可以在尝试此操作的页面上提供更多详细信息,或者有关问题范围的更多详细信息,我可能会提供其他输入。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python