我有一大堆全名示例:
datafile.csv:
full_name, dob,
Jerry Smith,21/01/2010
Morty Smith,18/06/2008
Rick Sanchez,27/04/1993
Jery Smith,27/12/2012
Morti Smith,13/03/2012
我试图用它来fuzz.ration查看 column['fullname'] 中的名称是否有任何相似之处,但代码需要很长时间,主要是因为嵌套的 for 循环。
示例代码:
dataframe = pd.read_csv('datafile.csv')
_list = []
for row1 in dataframe['fullname']:
for row2 in dataframe['fullname']:
x = fuzz.ratio(row1, row2)
if x > 90:
_list.append([row1, row2, x])
print(_list)
是否有更好的方法来迭代单个 pandas 列以获得潜在重复数据的比率?
宝慕林4294392
GCT1015
慕码人8056858
千万里不及你
相关分类