我有一个文本文件,其结构如下所示,我想使用 python 提取数据框中的数据。数据框应具有 PMID 以及针对每个 PMID 的作者显示的所有文本。
数据格式
PMID- 唯一的 8 位数字
xyz - 文本(可能是多行)
xyz- 文本(可能是多行)
作者- 文本(可能是多行)
作者- 文本(可能是多行)
PMID- 唯一的 8 位数字
xyz - 文本(可能是多行)
xyz- 文本(可能是多行)
作者- 文本(可能是多行)
作者- 文本(可能是多行)
我在 python 中尝试过的代码如下 - 我能够提取所有 PMID,但我无法找出针对每个 PMID 附加所有作者文本的逻辑。
for lines in open('pubmed-cancerbiol.txt','r'):
if(lines[0:4] == 'PMID'):
print(lines)
富国沪深
相关分类