我试图通过 python 在单个 csv 文件中查找重复项,因此通过搜索,我找到了 dedupe.io,这是一个使用 python 和机器学习算法来检测重复记录的平台,但它不是一个免费工具。但是,我不想使用应指定比较列的传统方法。我想找到一种高精度检测重复的方法。因此,是否有任何工具或Python库可以查找文本数据集的重复项?
这是一个可以澄清这一点的示例:
Title, Authors, Venue, Year
1- Clustering validity checking methods: part II, Maria Halkidi, Yannis Batistakis, Michalis Vazirgiannis, ACM SIGMOD Record, 2002
2- Cluster validity methods: part I, Yannis Batistakis, Michalis Vazirgiannis, ACM SIGMOD Record, 2002
3- Book reviews, Karl Aberer, ACM SIGMOD Record, 2003
4- Book review column, Karl Aberer, ACM SIGMOD Record, 2003
5- Book reviews, Leonid Libkin, ACM SIGMOD Record, 2003
因此,我们可以确定记录 1 和 2 不重复,即使它们包含几乎相似的数据,但“标题”列略有不同。记录 3 和 4 重复,但记录 5 并不引用同一实体。
慕的地10843
噜噜哒
相关分类