无法使用rvest和selectorGadget访问html页面中的特定内容

我正在尝试抓取ncbi 网站(https://www.ncbi.nlm.nih.gov/ Protein/29436380)来获取蛋白质信息。我需要访问gene_synonyms 和GeneID 字段。我尝试使用chrome中的selectorGadget插件和ff中的代码检查器找到相关节点。我试过这段代码:


我正在尝试抓取ncbi 网站(https://www.ncbi.nlm.nih.gov/ Protein/29436380)来获取蛋白质信息。我需要访问gene_synonyms 和GeneID 字段。我尝试使用chrome中的selectorGadget插件和ff中的代码检查器找到相关节点。我试过这段代码:


require("dplyr")

require("rvest")

require("stringr")

GIwebPage <- read_html("https://www.ncbi.nlm.nih.gov/protein/29436380")

TestHTML <- GIwebPage %>% html_node("div.grid , div#maincontent.col.nine_col , div.sequence , pre.genebank , .feature") %>% html_text(trim = TRUE)

然后我尝试查找相关文本,但根本不存在。


str_extract_all(TestHTML, pattern = "(synonym).{30}")

 [[1]]

 character(0)


str_extract_all(TestHTML, pattern = "(GeneID:).{30}")

 [[1]]

 character(0)

我似乎正在访问的只是右侧列的一些文本内容。


str_extract_all(TestHTML, pattern = "(protein).{30}")

 [[1]]

 [1] "protein codes including ambiguities a"

 [2] "protein sequence for myosin-9  (NP_00"

 [3] "protein should not be confused with t"

 [4] "protein, partial [Homo sapiens]gi|294"

 [5] "protein codes including ambiguities a"

我已经尝试了很多节点选择与 html_node() 的组合,以至于我不知道该尝试什么。该内容是否隐藏在我看不到的某些结构中?或者我只是不够熟练,无法实现要选择的节点?


繁华开满天机
浏览 121回答 0
0回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Html5