Apache火花中的高效字符串匹配

Apache火花中的高效字符串匹配

使用OCR工具,我从截图中提取文本(每个截图大约有1-5个句子)。但是,在手动验证提取的文本时,我注意到不时发生几个错误。

考虑到“你好,?!我真的很喜欢火花❤️!”,我注意到了这一点:

(1)像“i”、“!”和“l”这样的字母被“x”取代。

2)表情符号未被正确提取或替换为其他字符,或被遗漏。

(3)空白空间不时被移除。

因此,我可能会以这样的字符串结束:“你好,7l!真像火花!”

由于我试图将这些字符串与数据集(包括正确的文本)进行匹配(在这种情况下,“你好,?!我非常喜欢火花❤️!”),我正在寻找一种有效的方法来匹配火花中的字符串。

有人能提出一个有效的星火算法,让我比较提取的文本(~100.000)与我的数据集(大约1亿)?


智慧大石
浏览 398回答 2
2回答

catspeake

似乎numHashTables=5需要为python版本显式设置
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python