我正在开发一个Python Flask网络应用程序,我正在尝试将一些用户上传的PDF转换为格式良好的HTML,就像当您在.iframe
到目前为止,我尝试了几件事:
库,产生凌乱的HTML,pdfminer.six
在渲染带有pdf.js的PDF时,试图抓取生成的HTML,这显然隐藏在影子DOM中,无法访问其内部HTML
最后我遇到了(https://github.com/pdf2htmlEX/pdf2htmlEX),它产生了我想要的东西。pdf2htmlEX
在本地,此解决方案效果很好,但是在生产状态(Heroku)中,我无法正确安装它。该项目已被弃用,文档有限且可怕。问题与损坏的依赖项有关。
那么,如何使用Python或任何其他工具有效地将PDF转换为HTML而不会丢失任何格式?
非常感谢。
如果有人愿意帮助我获得pdf2htmlEX
在heroku上工作,请发表评论,我会在另一篇文章中发布更多详细信息
慕神8447489
相关分类