我有一个包含人们信息的 DataFrame,但有重复的行,地址略有不同。
如何基于模糊匹配或其他检测相似性的方式删除重复项,但确保只有在名字和姓氏匹配的情况下才会删除具有相似地址的行?
示例数据:
First name | Last name | Address
0 John Doe ABC 9
1 John Doe KFT 2
2 Michael John ABC 9
3 Mary Jane PEP 9/2
4 Mary Jane PEP, 9-2
5 Gary Young verylongstreetname 1
6 Gary Young 1 verylongstretname
(故意在街上打错字)
示例数据的代码:
df = pd.DataFrame([
['John', 'Doe', 'ABC 9'],
['John', 'Doe', 'KFT 2'],
['Michael', 'John', 'ABC 9'],
['Mary', 'Jane', 'PEP 9/2'],
['Mary', 'Jane', 'PEP, 9-2'],
['Gary', 'Young', 'verylongstreetname 1'],
['Gary', 'Young', '1 verylongstretname']
], columns=['First name', 'Last name', 'Address'])
预期输出:
First name | Last name | Address
0 John Doe ABC 9
1 John Doe KFT 2
2 Michael John ABC 9
3 Mary Jane PEP 9/2
4 Gary Young verylongstreetname 1
九州编程
holdtom
相关分类