我正在尝试抓取python发布的文章,并获取引用该文章的所有论文的发布ID。
例如这篇文章(ID:11825149) http://www.ncbi.nlm.nih.gov/pubmed/11825149 具有页面链接到引用它的所有文章: http://www.ncbi.nlm.nih.gov / pubmed?linkname = pubmed_pubmed_citedin&from_uid = 11825149 问题是它具有200多个链接,但每页仅显示20个。网址无法访问“下一页”链接。
有没有办法打开“发送到”选项或使用python查看下一页上的内容?
我目前如何打开已发布页面:
def start(seed):
webpage = urlopen(seed).read()
print webpage
citedByPage = urlopen('http://www.ncbi.nlm.nih.gov/pubmedlinkname=pubmed_pubmed_citedin&from_uid=' + pageid).read()
print citedByPage
从中我可以提取第一页上所有被引用的链接,但是如何从所有页面中提取它们呢?谢谢。
相关分类