猿问

删除两个重复的行

各位同事,大家好。我有一个大数据集(约2.370亿行)。有很多列。例如,我需要删除列名所有重复userId,VTS。


userId Vts moreColumn1 moreColumn2

10     150     2           3              -delete

11     160     1           6

10     150     0           1              -delete

我对SQL不好。尝试了与Internet不同的变体,但不起作用。


更新:


输入答案!我忘了说我使用Java。有我针对Java的优化代码:


viewingDataset.groupBy("userId", "VTS")

                .count()

                .where("count = 1")

                .drop("count")

                .join(viewingDataset, JavaConversions.asScalaBuffer(asList("userId", "VTS")))



守候你守候我
浏览 106回答 2
2回答
随时随地看视频慕课网APP

相关分类

Java
我要回答