我正在从像 PyPDF2 这样的库的输出中提取文本段落,然后是像“观察#1”或“观察#2”这样的文本。
但是会有一些错误,所以它可能像“观察#2”一样,我必须避免像“套件#300”这样的规则是“如果有字符,它会是大写的”。
目前的python代码片段如
inspection_observation=pdfFile.getPage(z).extractText()
if 'OBSERVATION' in inspection_observation:
for finding in re.findall(r"[OBSERVATION] #\d+(.*?) OBSERVA'TION #\d?", inspection_observation, re.DOTALL):
#print inspection_observation;
print finding;
请为此实例提供适当的正则表达式,
慕桂英3389331
相关分类