我们正在开发一个需要将 PDF 文件转换为 HTML 的网站,因为某些 PDF 有一个表格(不一定是可填写的 PDF,这些 PDF 打印出来是为了填写)。
所以我们希望它通过我们的网站填写,而不是打印文件并用笔填写。我们正在实现无纸化。
DocuSign 提供了这些,您可以在其中上传 PDF,然后您可以将其自定义为具有文本框、复选框。所以我们有点使用 DocuSign 作为参考,但仍然没有弄清楚他们是如何做到的(几乎完美地将 PDF 转换为 HTML,反之亦然)。
到目前为止,我已经尝试了几种将 PDF 转换为 HTML 的第三方软件。我试过 XPDF、Poppler 和 ImageMagick。
ImageMagick 将 PDF 转换为不适合的图像,因为这些图像在转换回 PDF 进行打印时尺寸较大。
Poppler 是基于我的研究的一个 fork XPDF,我在使用 XPDF 之后尝试过它是否更好,它基本上可以完成 XPDF 的工作,但它会将 PDF 转换为在转换为 HTML 时在 CSS 上具有更大的像素。这很好,但它失去了字体系列。
XPDF 将 PDF 转换为 HTML 但像素较小,因此当我将其转换回 PDF 时,它不适合整个页面,我仍然需要手动调整所有 CSS 以适应它。
所以在使用了这些 3rd 方软件后,我使用 MPDF 将 HTML 文件转换回 PDF,转换后的文件有很多不一致之处。文本未正确对齐。它基本上与原始PDF不同。
任何帮助将不胜感激谢谢!
PIPIONE