如何在 Python 中的 Spark 上快速执行 groupby 和计数？

首页课程实战体系课手记专栏慕课教程

我一直在尝试在 Spark DataFrame 上执行 GroupBy 和 count() 很长时间但是它需要永远处理......

处理以下行大约需要 13 秒。从我的角度来看，我认为这需要太多时间，但我不知道如何减少处理时间。

matched.limit(100).groupBy('Date','Period').agg(count("*").alias('cnt')).show()

我正在使用以下配置在 Spark 2.4 上运行：驱动程序：2 个 vCPU 8 GB RAM 10 个执行程序：2 个 vCPU 8 GB RAM

谁能给我提示如何解决这个问题？

神不在的星期二

浏览 123回答 1

12345678_0001

我认为这是正确的方法。花费的时间将取决于那里有多少行。df.groupBy('Date', 'Period').count().show(10, False)

0 0

随时随地看视频慕课网APP