我想制作一系列包含此 PDF 中树木的文件(http://mica.lif.univ-mrs.fr/d6.clean2-backup.pdf)。文件的名称将是左侧相应的树编号(t0、t1 等)。
我曾尝试使用python提取相关信息和树,但遇到了麻烦。具体来说,当我尝试将树木提取为图像时(使用https://nedbatchelder.com/blog/200712/extracting_jpgs_from_pdfs.html),没有任何树木出现(大概是因为树木的格式不正确)。但是,当我尝试将其全部提取为文本(如https://www.geeksforgeeks.org/working-with-pdf-files-in-python/)时,树会丢失所有格式(以及它们的一些信息,我思考)。我怎样才能从这个 PDF 中获取我想要的文件?可以用 Python 完成吗?有没有其他更简单的方法?
或者,我从中获得 PDF的网站(http://mica.lif.univ-mrs.fr/)有另一种形式的树(例如:t27 S##1#l# NP#0#2#l #s NP#0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#5#l#s NP#1#5#r #s VP##3#r# S##1#r#)。有没有什么好的方法可以将这种形式转化为树木形式的良好视觉效果?
对这些方法中的任何一种(或其他人,如果人们有想法)的任何帮助都将不胜感激。谢谢!
侃侃尔雅
相关分类