我正在尝试确定熊猫数据框中两列的相似性:
Text1 All
Performance results achieved by the approaches submitted to this Challenge. The six top approaches and three others outperform the strong baseline.
Accuracy is one of the basic principles of perfectionist. Where am I?
我想比较'Performance results ... 'with'The six...'和 ' Accuracy is one...'with 'Where am I?'。第一行应该有较高的两列之间的相似度,因为它包含一些词;第二个应该等于 0,因为两列之间没有共同的单词。
要比较我使用的两列,SequenceMatcher如下所示:
from difflib import SequenceMatcher
ratio = SequenceMatcher(None, df.Text1, df.All).ratio()
但是 . 的使用似乎是错误的df.Text1, df.All。
你能告诉我为什么吗?
30秒到达战场
相关分类