Apache火花中的高效字符串匹配

首页课程实战体系课手记专栏慕课教程

使用OCR工具，我从截图中提取文本(每个截图大约有1-5个句子)。但是，在手动验证提取的文本时，我注意到不时发生几个错误。

考虑到“你好，?！我真的很喜欢火花❤️！”，我注意到了这一点：

(1)像“i”、“！”和“l”这样的字母被“x”取代。

2)表情符号未被正确提取或替换为其他字符，或被遗漏。

(3)空白空间不时被移除。

因此，我可能会以这样的字符串结束：“你好，7l！真像火花！”

由于我试图将这些字符串与数据集(包括正确的文本)进行匹配(在这种情况下，“你好，?！我非常喜欢火花❤️！”)，我正在寻找一种有效的方法来匹配火花中的字符串。

有人能提出一个有效的星火算法，让我比较提取的文本(~100.000)与我的数据集(大约1亿)？

智慧大石

浏览 431回答 2

catspeake

似乎numHashTables=5需要为python版本显式设置

0 0

随时随地看视频慕课网APP