我是网络抓取新手,我正在尝试使用 R 从以下网站获取搜索结果:
https://devtracker.fcdo.gov.uk/sector/1/projects
获得结果的第一页很容易,例如使用
library(rvest)
library(V8)
link <- 'https://devtracker.fcdo.gov.uk/sector/1/projects'
devtracker = read_html(link)
searchresults = devtracker %>% html_nodes(xpath = '//div[@class="search-result"]//a',) %>% html_attr('href')
但我无法从后续页面获得结果。最初我以为我会找到下一页的链接,然后按照它,一页一页地获取搜索结果。在浏览器中查看 html 代码,它看起来如下行:
pages = devtracker %>% html_nodes(xpath = "//div[@class='six columns']//ul//li",)
应该找到其他页面的链接,但这会返回一个空节点集。我知道这与使用 JavaScript 作为页面列表的页面有关,我尝试在以下博客中使用 V8:https: //www.r-bloggers.com/2017/11/scraping-javascript- render-web-content-using-r/但无法弄清楚如何使用它来显示下一页结果。
有没有一种简单的方法可以让新手获得该页面的所有搜索结果?
相关分类