我一直在尝试在 Spark DataFrame 上执行 GroupBy 和 count() 很长时间但是它需要永远处理......
处理以下行大约需要 13 秒。从我的角度来看,我认为这需要太多时间,但我不知道如何减少处理时间。
matched.limit(100).groupBy('Date','Period').agg(count("*").alias('cnt')).show()
我正在使用以下配置在 Spark 2.4 上运行:驱动程序:2 个 vCPU 8 GB RAM 10 个执行程序:2 个 vCPU 8 GB RAM
谁能给我提示如何解决这个问题?
12345678_0001
相关分类