我从 PDF 格式的多页简历中提取文本内容,并尝试使用pyPDF2. 但是我在尝试编写内容时收到以下错误消息。
这是我的代码:
import PyPDF2
newFile = open('details.txt', 'w')
file = open("cv3.pdf", 'rb')
pdfreader = PyPDF2.PdfFileReader(file)
numPages = pdfreader.getNumPages()
print(numPages)
page_content = ""
for page_number in range(numPages):
page = pdfreader.getPage(page_number)
page_content += page.extractText()
newFile.write(page_content)
print(page_content)
file.close()
newFile.close()
错误信息:
回溯(最近一次调用):文件“C:/Users/HP/PycharmProjects/CVParser/pdf.py”,第 16 行,在 newFile.write(page_content) 文件“C:\Program Files\Python37\lib\encodings\ cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode character '\u0141' in position 827: character maps to
进程以退出代码 1 结束
此代码已成功处理多页 PDF 文件(转换为 PDF 的 docx 文件)。
如果有人知道解决方案,请帮助我。
慕工程0101907
相关分类