我正在尝试使用pdfminer从pdf获取文本数据。我可以使用pdfminer命令行工具pdf2txt.py将数据成功提取到.txt文件中。我目前正在执行此操作,然后使用python脚本清理.txt文件。我想将pdf提取过程合并到脚本中,从而节省了一步。
当我找到此链接时,我以为自己正在研究某些东西,但是任何解决方案都没有成功。也许那里列出的功能需要再次更新,因为我使用的是pdfminer的较新版本。
我也尝试了此处显示的功能,但是也没有用。
我尝试的另一种方法是使用调用脚本内的脚本os.system。这也不成功。
我正在使用Python版本2.7.1和pdfminer版本20110227。
MMMHUHU
侃侃无极
相关分类