无法使用rvest和selectorGadget访问html页面中的特定内容

我正在尝试抓取ncbi 网站（https://www.ncbi.nlm.nih.gov/ Protein/29436380）来获取蛋白质信息。我需要访问gene_synonyms 和GeneID 字段。我尝试使用chrome中的selectorGadget插件和ff中的代码检查器找到相关节点。我试过这段代码：

require("dplyr")

require("rvest")

require("stringr")

GIwebPage <- read_html("https://www.ncbi.nlm.nih.gov/protein/29436380")

TestHTML <- GIwebPage %>% html_node("div.grid , div#maincontent.col.nine_col , div.sequence , pre.genebank , .feature") %>% html_text(trim = TRUE)

然后我尝试查找相关文本，但根本不存在。

str_extract_all(TestHTML, pattern = "(synonym).{30}")

[[1]]

character(0)

str_extract_all(TestHTML, pattern = "(GeneID:).{30}")

[[1]]

character(0)

我似乎正在访问的只是右侧列的一些文本内容。

str_extract_all(TestHTML, pattern = "(protein).{30}")

[[1]]

[1] "protein codes including ambiguities a"

[2] "protein sequence for myosin-9 (NP_00"

[3] "protein should not be confused with t"

[4] "protein, partial [Homo sapiens]gi|294"

[5] "protein codes including ambiguities a"

我已经尝试了很多节点选择与 html_node() 的组合，以至于我不知道该尝试什么。该内容是否隐藏在我看不到的某些结构中？或者我只是不够熟练，无法实现要选择的节点？

繁华开满天机

浏览 294回答 0

0回答

随时随地看视频慕课网APP