蓝色和绿色是两种不同的key值,为什么会进到同一个parition (2-3 Map-Shuffle-Reduce)

来源:2-3 Map—Shuffle—Reduce

qq_破茧成蝶_8

2018-10-07 16:12

2:04老师说假定文件中只有3种不同的key值(分别是蓝色、绿色、黄色)

2:37又说所有相同key值的数据都会汇聚到一个partition

那么蓝色和绿色这两种不同的key值,为什么会进到一个parition中呢?

老师,这个地方您是不是没将清楚呢?

写回答 关注

3回答

  • _这个昵称已被占用了_
    2018-10-15 17:38:44
    已采纳

    因为老师的例子种reduce的partition只有两个,输入有3个key,所以其中必须有两个key落到同一个partition内。

    所有相同的key汇聚到一个partition,没毛病。所有蓝色的key都在一个partition内,所有绿色的key都在一个partition内,所有黄色的也一样。只是可能有多个key公用一个partition而已。

    为什么蓝色和绿色的两个key会进入到一个partition呢,这个要看具体的key的值和shuffer算法。比如:蓝色key=1,绿色key=3,黄色key=2,shuffer算法是根据partition数量(2)求模运算,那么绿色和蓝色就分到同一个partiton了阿。

    不知道你明白没?

  • qq_破茧成蝶_8
    2018-10-16 17:26:10

    感谢两位朋友的回答!!!

  • 浮_流
    2018-10-08 21:29:19

    我理解的是同一个parition中的任务的数量可以自己进行设置,最大72的那个,这里面的设置数量为2,所以同时两个任务进入同一个parition中,第三个无法容纳所以进入一个新的。如果不对请进行纠正,谢谢

Hadoop进阶

MapReduce原理,并实现简单的推荐

24213 学习 · 68 问题

查看课程

相似问题