我目前在 2.4.5 版上有一个由 1 个驱动程序和 2 个工人组成的 Spark 集群。
我想进一步优化并行性,以便在加载和处理数据时获得更好的吞吐量,当我这样做时,我经常在控制台上收到这些消息:
WARN scheduler.TaskSetManager: Stage contains a task of very large size (728 KB). The maximum recommended task size is 100 KB.
这是如何运作的?我对 Spark 技术还很陌生,但了解它的基础知识,我想知道如何优化它,但我不确定它是否涉及配置从属设备以拥有更多执行程序并通过这种方式获得更多并行性,或者我是否需要使用合并或重新分区功能对我的数据帧进行分区。
智慧大石
慕标5832272
随时随地看视频慕课网APP
相关分类