我正在尝试抓取ncbi 网站(https://www.ncbi.nlm.nih.gov/ Protein/29436380)来获取蛋白质信息。我需要访问gene_synonyms 和GeneID 字段。我尝试使用chrome中的selectorGadget插件和ff中的代码检查器找到相关节点。我试过这段代码:
我正在尝试抓取ncbi 网站(https://www.ncbi.nlm.nih.gov/ Protein/29436380)来获取蛋白质信息。我需要访问gene_synonyms 和GeneID 字段。我尝试使用chrome中的selectorGadget插件和ff中的代码检查器找到相关节点。我试过这段代码:
require("dplyr")
require("rvest")
require("stringr")
GIwebPage <- read_html("https://www.ncbi.nlm.nih.gov/protein/29436380")
TestHTML <- GIwebPage %>% html_node("div.grid , div#maincontent.col.nine_col , div.sequence , pre.genebank , .feature") %>% html_text(trim = TRUE)
然后我尝试查找相关文本,但根本不存在。
str_extract_all(TestHTML, pattern = "(synonym).{30}")
[[1]]
character(0)
str_extract_all(TestHTML, pattern = "(GeneID:).{30}")
[[1]]
character(0)
我似乎正在访问的只是右侧列的一些文本内容。
str_extract_all(TestHTML, pattern = "(protein).{30}")
[[1]]
[1] "protein codes including ambiguities a"
[2] "protein sequence for myosin-9 (NP_00"
[3] "protein should not be confused with t"
[4] "protein, partial [Homo sapiens]gi|294"
[5] "protein codes including ambiguities a"
我已经尝试了很多节点选择与 html_node() 的组合,以至于我不知道该尝试什么。该内容是否隐藏在我看不到的某些结构中?或者我只是不够熟练,无法实现要选择的节点?
相关分类