猿问

使用Spark Java API进行数据集操作?

我是Spark Java API的新手。我有一个像这样的数据集:Ds1


|  account|    Lib     |  amount1 |  amount2   |

+---------+------------+----------+-------------

| 222222  |            |          |            |

| 333333  |            |          |            |

| 888888  |            |          |            |

| 888888  | 

我想获取此数据集:Ds2


|  account|    Lib     |  amount1 |  amount2   |

+---------+------------+----------+-------------

| 222222  |            |          |            |

| 333333  |            |          |            |

| 888888  |            |          |            |

有人可以用Spark Java API的简单表达式来指导我。提前致谢。


守着星空守着你
浏览 202回答 2
2回答

红颜莎娜

请在ds1数据集的顶部使用dropduplicates方法

杨__羊羊

数据集yourDS2 = yourDS1.dropDuplicates();或者数据集yourDS2 = yourDS1.dropDuplicates(“ account”);
随时随地看视频慕课网APP

相关分类

Java
我要回答