从 PDF 获取树木文件(最好使用 Python)

我想制作一系列包含此 PDF 中树木的文件(http://mica.lif.univ-mrs.fr/d6.clean2-backup.pdf)。文件的名称将是左侧相应的树编号(t0、t1 等)。

我曾尝试使用python提取相关信息和树,但遇到了麻烦。具体来说,当我尝试将树木提取为图像时(使用https://nedbatchelder.com/blog/200712/extracting_jpgs_from_pdfs.html),没有任何树木出现(大概是因为树木的格式不正确)。但是,当我尝试将其全部提取为文本(如https://www.geeksforgeeks.org/working-with-pdf-files-in-python/)时,树会丢失所有格式(以及它们的一些信息,我思考)。我怎样才能从这个 PDF 中获取我想要的文件?可以用 Python 完成吗?有没有其他更简单的方法?

或者,我从中获得 PDF的网站(http://mica.lif.univ-mrs.fr/)有另一种形式的树(例如:t27 S##1#l# NP#0#2#l #s NP#0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#5#l#s NP#1#5#r #s VP##3#r# S##1#r#)。有没有什么好的方法可以将这种形式转化为树木形式的良好视觉效果?

对这些方法中的任何一种(或其他人,如果人们有想法)的任何帮助都将不胜感激。谢谢!


jeck猫
浏览 277回答 1
1回答

侃侃尔雅

如果您查看 PDF 文件的元数据,您会发现它是由TeX (LaTeX)创建的文件。我建议您从创建此文档的任何人那里获取原始 LaTeX 源文件(而不是 PDF),而不是尝试对 PDF 中的图表进行 OCR。基本上,由于 PDF 的创建方式,从这个 LaTeX PDF 返回到文档是不可能的(没有大量工作)。您可以考虑尝试将 PDF 重新转换为文档,类似于对某个软件进行逆向工程(有时,如果我想对 PDF 进行一些简单的光学字符识别 (OCR),我会尝试将它们上传到 Google Docs,以查看他们的 OCR 引擎如何从 PDF 文档中提取文本。GDocs OCR 适用于以标准方式格式化的 PDF,但它往往会破坏表格、图表等内容。如果您对将数学方程的图片转换为 LaTeX 感兴趣,您可能想查看这个由哈佛大学的一些研究人员作为 OpenAI 的Call for Research创建的简洁工具, 它将数学方程的图像转换为LaTeX 符号。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python