当启用 JavaScript 时，使用 R 从网页获取所有搜索结果

首页课程实战体系课手记专栏慕课教程

当启用 JavaScript 时，使用 R 从网页获取所有搜索结果

我是网络抓取新手，我正在尝试使用 R 从以下网站获取搜索结果：

https://devtracker.fcdo.gov.uk/sector/1/projects

获得结果的第一页很容易，例如使用

library(rvest)

library(V8)

link <- 'https://devtracker.fcdo.gov.uk/sector/1/projects'

devtracker = read_html(link)

searchresults = devtracker %>% html_nodes(xpath = '//div[@class="search-result"]//a',) %>% html_attr('href')

但我无法从后续页面获得结果。最初我以为我会找到下一页的链接，然后按照它，一页一页地获取搜索结果。在浏览器中查看 html 代码，它看起来如下行：

pages = devtracker %>% html_nodes(xpath = "//div[@class='six columns']//ul//li",)

应该找到其他页面的链接，但这会返回一个空节点集。我知道这与使用 JavaScript 作为页面列表的页面有关，我尝试在以下博客中使用 V8：https: //www.r-bloggers.com/2017/11/scraping-javascript- render-web-content-using-r/但无法弄清楚如何使用它来显示下一页结果。

有没有一种简单的方法可以让新手获得该页面的所有搜索结果？

猛跑小猪

浏览 106回答 0

0回答

随时随地看视频慕课网APP