假设我有一个这样的数据框
df_test = pd.DataFrame({"ID": [912665, 455378, 938724, 557830
],
"NAME": ["Anna","Anna","Diana","Peter"
],
"LAST_NAME": ["Johns","Johns","Scott","Scott"
],
"ADDRESS": ["Address1","Address2","Address3","Address3"],
"PHONE": ['0000000001','0000000001','0000000002','0000000002'
],
"ngroup": [0, 0,1,1]}
)
df_test
ngroup 列中有两组 - 0 和 1
在每个组中,我想对一些列(如 NAME、LAST_NAME、ADDRESS)进行比较,并给出一个名为 Rate 的新列,它根据这些行是否相同给我一个分数。
例如
对于第 0 组,我们可以获得如下比率:5(因为姓名相同)+ 30(因为姓氏相同)+ 0(因为地址不同)+ 50(因为电话相同)= 85
对于第 1 组:0 + 30 + 15 + 30 = 75
迭代这些行并获取新列 Rate 并将其添加到当前数据帧的最佳方法是什么?我正在尝试一些不同的事情,但目前无法获得任何可行的解决方案。
30秒到达战场
蓝山帝景
相关分类