我有一堆PDF文件,其中一些是纯文本,但有些全部或部分保存为“每页一个图像”,因为它们是从扫描仪生成的。
我需要提取PDF中包含的所有图像,然后分别检查每个图像。
我能够使用PYthon脚本提取大部分图像,请参阅问题:
从PDF中提取图像而不重新采样,在蟒蛇中?
一些包含的图像是使用JBIG2编码的,我找不到任何python或其他工具将jbig2转换为可以使用通用图形工具轻松打开的东西。
HUX布斯
相关分类