数据倾斜问题

来源:2-3 分布式计算介绍

WHU20163025803504180544

2020-10-26 21:20

请问老师,当集群一共有4个节点时,数据只存储在其中2个节点上,如果4个节点都参与计算时,是不是只有有数据的节点才在真正运算,剩下俩个节点都在空转划水?还是集群会重新把数据平均传输到4个节点上,大家再一起算?

写回答 关注

1回答

  • 徐老师
    2020-10-30 20:54:54

    针对你说的这种场景,会出现这种结果:

    有2个节点读取本地节点中的数据进行本地计算,另外2个节点上没有数据的,则会跨节点拉取数据进行计算。

    默认情况下会优先读取本节点的数据,这是最优的策略,如果由于各种原因无法满足这种策略,会退而求其次,进行跨节点数据传输

快速入门Hadoop3.0大数据处理

快速入门Hadoop3.0数据处理,轻松迈入大数据领域

16784 学习 · 74 问题

查看课程

相似问题