如何在 python 中返回从多个 PDF 中提取的所有文本？

打印文本将允许最后一个 for 循环迭代（使用您提到的“打印（页面）”）。然而，返回页面将终止正在运行的循环，并吐出它到目前为止覆盖的文本。尝试使用类似的东西：def scan_files(root):    pdftext = ''    for path, subdirs, files in os.walk(root):        for name in files:            if name.endswith('.pdf'):                #print(name)                pdf = PyPDF2.PdfFileReader(os.path.join(path,name))                numPages = pdf.getNumPages()                                pages = ''                                    for p in range(0, numPages):                    page = pdf.getPage(p)                    pages += page.extractText()                    pages = pages.replace('\n', '')                pdftext += pages    return pdftext

如何在 python 中返回从多个 PDF 中提取的所有文本？

1回答