如何从PDF文件中提取文本?

如何从PDF文件中提取文本?

我正在尝试使用提取 PDF文件中包含的文本Python

我正在使用PyPDF2模块,并具有以下脚本:

import PyPDF2pdf_file = open('sample.pdf')read_pdf = PyPDF2.PdfFileReader(pdf_file)number_of_pages = read_pdf.getNumPages()page = read_pdf.getPage(0)page_content = page.extractText()print page_content

当我运行代码时,我得到以下输出,该输出与PDF文档中包含的输出不同:

!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%

如何在PDF文档中提取文本?


www说
浏览 843回答 3
3回答

守着一只汪

正在寻找一个用于python 3.x和windows的简单解决方案。似乎没有textract的支持,这是不幸的,但如果你正在寻找一个简单的解决方案,用于windows / python 3 checkout tika包,真的很直接阅读pdffrom tika import parser raw = parser.from_file('sample.pdf')print(raw['content'])
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python