从某些 PDF 中提取文本时,PDFBox 会返回胡言乱语。这是因为 Unicode 映射丢失或损坏。我可以在控制台上看到以下警告。我希望能够检测到这一点,以便能够将这些PDF标记为损坏。
我正在寻找一种比解析日志更好的解决方案。
感谢您的帮助!
示例控制台日志:
WARNING: No Unicode mapping for CID+32 (32) in font F6 WARNING: Failed to find a character mapping for 32 in TimesNewRoman,Bold
下面提到的帖子也讨论了同样的问题,但没有讨论能够在代码端检测到这个问题并处理相同的问题:使用PDFBox从PDF中读取一些Unicode字符的问题
心有法竹
郎朗坤
GCT1015
随时随地看视频慕课网APP
相关分类