当启用 JavaScript 时,使用 R 从网页获取所有搜索结果

我是网络抓取新手,我正在尝试使用 R 从以下网站获取搜索结果:

https://devtracker.fcdo.gov.uk/sector/1/projects

获得结果的第一页很容易,例如使用

library(rvest)

library(V8)

link <- 'https://devtracker.fcdo.gov.uk/sector/1/projects'


devtracker = read_html(link)        

searchresults = devtracker %>% html_nodes(xpath = '//div[@class="search-result"]//a',) %>% html_attr('href')

但我无法从后续页面获得结果。最初我以为我会找到下一页的链接,然后按照它,一页一页地获取搜索结果。在浏览器中查看 html 代码,它看起来如下行:


pages = devtracker %>% html_nodes(xpath = "//div[@class='six columns']//ul//li",)

应该找到其他页面的链接,但这会返回一个空节点集。我知道这与使用 JavaScript 作为页面列表的页面有关,我尝试在以下博客中使用 V8:https: //www.r-bloggers.com/2017/11/scraping-javascript- render-web-content-using-r/但无法弄清楚如何使用它来显示下一页结果。


有没有一种简单的方法可以让新手获得该页面的所有搜索结果?


猛跑小猪
浏览 81回答 0
0回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

JavaScript