我正在使用PyPDF2读取python中的PDF文件。虽然该库对英语和欧洲语言(英语字母)非常有效,但该图书馆无法读取日文和中文等亚洲语言。我尝试过encode('utf-8'),decode('utf-8')但似乎没有任何效果。它仅在提取文本时打印空白字符串。
我尝试了其他库,例如textract和PDFMiner,但尚未成功。
当我从PDF复制文本并将其粘贴到笔记本上时,字符变成一些随机格式的文本(可能采用不同的编码)。
def convert_pdf_to_text(filename):
text = ''
pdf = PyPDF2.PdfFileReader(open(filename, "rb"))
if pdf.isEncrypted:
pdf.decrypt('')
for page in pdf.pages:
text = text + page.extractText()
return text
谁能指出我正确的方向?
DIEA
相关分类