如何计算给定2个字符串的距离相似性度量?

如何计算给定2个字符串的距离相似性度量?

我需要计算2个字符串之间的相似度。那究竟是什么意思呢?让我用一个例子来解释一下:

  • 真实的一句话: hospital

  • 误区: haspita

现在我的目标是确定修改错误单词以获得真实单词所需的字符数。在这个例子中,我需要修改2个字母。那么百分比是多少?我总是把真正的词长度。因此它变为2/8 = 25%所以这两个给定的字符串DSM是75%。

如何以性能为关键考虑因素来实现这一目标?


慕森卡
浏览 681回答 3
3回答

明月笑刀无情

可以使用大量的字符串相似性距离算法。这里列出的一些(但没有详尽列出):莱文施泰因Needleman Wunch史密斯沃特曼Smith Waterman GotohJaro,Jaro WinklerJaccard相似度欧几里德距离骰子相似度余弦相似度Monge Elkan包含所有这些实现的库称为SimMetrics ,它同时具有java和c#实现。
打开App,查看更多内容
随时随地看视频慕课网APP