如何读取亚洲语言（中文，日文，泰文等）的PDF文件并以python字符串形式存储

我正在使用PyPDF2读取python中的PDF文件。虽然该库对英语和欧洲语言（英语字母）非常有效，但该图书馆无法读取日文和中文等亚洲语言。我尝试过encode('utf-8')，decode('utf-8')但似乎没有任何效果。它仅在提取文本时打印空白字符串。

我尝试了其他库，例如textract和PDFMiner，但尚未成功。

当我从PDF复制文本并将其粘贴到笔记本上时，字符变成一些随机格式的文本（可能采用不同的编码）。

def convert_pdf_to_text(filename):

text = ''

pdf = PyPDF2.PdfFileReader(open(filename, "rb"))

if pdf.isEncrypted:

pdf.decrypt('')

for page in pdf.pages:

text = text + page.extractText()

return text

谁能指出我正确的方向？

陪伴而非守候

浏览 356回答 1

1回答

DIEA

我也面临类似的问题。我可以通过使用“ tika-python”库来解决它。import tikatika.initVM()from tika import parserparsed = parser.from_file('fileName.pdf')print(parsed["metadata"])print(parsed["content"])您可以在此处找到有关该库的更多信息。

0 0

随时随地看视频慕课网APP