如何在 Python 中的 Spark 上快速执行 groupby 和计数?

我一直在尝试在 Spark DataFrame 上执行 GroupBy 和 count() 很长时间但是它需要永远处理......

处理以下行大约需要 13 秒。从我的角度来看,我认为这需要太多时间,但我不知道如何减少处理时间。

matched.limit(100).groupBy('Date','Period').agg(count("*").alias('cnt')).show()

我正在使用以下配置在 Spark 2.4 上运行:驱动程序:2 个 vCPU 8 GB RAM 10 个执行程序:2 个 vCPU 8 GB RAM

谁能给我提示如何解决这个问题?


神不在的星期二
浏览 103回答 1
1回答

12345678_0001

我认为这是正确的方法。花费的时间将取决于那里有多少行。df.groupBy('Date', 'Period').count().show(10, False)
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python