我正在使用 iText5 来解析主要用希伯来语编写的 pdf。
要提取我使用的文本PdfTextExtractor.getTextFromPage
。我没有找到更改库中编码的方法,文本显示为乱码。
我试图解决这样的编码:new String(pdfPage.getBytes(Charset1), Charset2)
。
我使用了所有可能的字符集Charset.availableCharsets()
,其中很少有人给了我希伯来语而不是胡言乱语,而是反过来了。
现在我想我可以逐行反转文本,但是希伯来语是从右到左,数字和英语是从左到右。因此,如果我反转该行,它会修复希伯来语但会破坏数字/英语。
例子:
PdfTextExtractor.getTextFromPage
返回 87.55 úåáééçúä ééåëéð ë"äñ
new String(text.getBytes(Charset.forName("ISO-8859-1")), Charset.forName("windows-1255"))
返回 87.55 תובייחתה ייוכינ כ"הס
如果我扭转这个然后我得到סה"כ ניכויי התחייבות 55.78
数字应该是87.55
而不是55.78
我找到的唯一解决方案是将其拆分为希伯来语和其余部分(英语/数字)并仅反转希伯来语部分,然后将其合并回来。
没有更简单的解决方案吗?我觉得我在编码/RTL 方面遗漏了一些东西
扬帆大鱼
相关分类