我已经看到了几个类似的问题,但对我的情况却不是令人满意的答案。这是一个示例DataFrame:
+------+-----+----+
| id|value|type|
+------+-----+----+
|283924| 1.5| 0|
|283924| 1.5| 1|
|982384| 3.0| 0|
|982384| 3.0| 1|
|892383| 2.0| 0|
|892383| 2.5| 1|
+------+-----+----+
我只想通过"id"和"value"列来识别重复项,然后删除所有实例。
在这种情况下:
第1行和第2行是重复的(同样,我们忽略了“类型”列)
第3行和第4行是重复的,因此仅应保留第5行和第6行:
输出为:
+------+-----+----+
| id|value|type|
+------+-----+----+
|892383| 2.5| 1|
|892383| 2.0| 0|
+------+-----+----+
我试过了
df.dropDuplicates(subset = ['id', 'value'], keep = False)
但是“保持”功能不在PySpark中(因为它在中)pandas.DataFrame.drop_duplicates。
我还能怎么做?
相关分类