在pyspark GroupedData中返回具有最佳字段的行

我正在尝试将一个GroupedData对象聚合成Row具有最佳属性(不是None或最高timestamp)的对象,Dataframe例如:


╔═══════╦═══════════╦════════╦════════╦════════╗

║ group ║ timestamp ║ value1 ║ value2 ║ value3 ║

╠═══════╬═══════════╬════════╬════════╬════════╣

║ a     ║       111 ║ None   ║ None   ║ None   ║

║ a     ║       222 ║ a      ║ None   ║ None   ║

║ a     ║       333 ║ b      ║ 1      ║ 1.1    ║

║ a     ║       444 ║ None   ║ None   ║ 2.2    ║

║ b     ║       111 ║ c      ║ None   ║ 3.3    ║

╚═══════╩═══════════╩════════╩════════╩════════╝

我想要一个Dataframe类似的结果:


╔═══════╦═══════════╦════════╦════════╦════════╗

║ group ║ timestamp ║ value1 ║ value2 ║ value3 ║

╠═══════╬═══════════╬════════╬════════╬════════╣

║ a     ║       444 ║ b      ║ 1      ║ 2.2    ║

║ b     ║       111 ║ c      ║ None   ║ 3.3    ║

╚═══════╩═══════════╩════════╩════════╩════════╝

理想情况下,我想创建一个不同的逻辑来汇总每一列。例如min对于timestamp而是max对value3。


这可能在Dataframes吗?


冉冉说
浏览 156回答 2
2回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python