2:04老师说假定文件中只有3种不同的key值(分别是蓝色、绿色、黄色)
2:37又说所有相同key值的数据都会汇聚到一个partition
那么蓝色和绿色这两种不同的key值,为什么会进到一个parition中呢?
老师,这个地方您是不是没将清楚呢?
因为老师的例子种reduce的partition只有两个,输入有3个key,所以其中必须有两个key落到同一个partition内。
所有相同的key汇聚到一个partition,没毛病。所有蓝色的key都在一个partition内,所有绿色的key都在一个partition内,所有黄色的也一样。只是可能有多个key公用一个partition而已。
为什么蓝色和绿色的两个key会进入到一个partition呢,这个要看具体的key的值和shuffer算法。比如:蓝色key=1,绿色key=3,黄色key=2,shuffer算法是根据partition数量(2)求模运算,那么绿色和蓝色就分到同一个partiton了阿。
不知道你明白没?
感谢两位朋友的回答!!!
我理解的是同一个parition中的任务的数量可以自己进行设置,最大72的那个,这里面的设置数量为2,所以同时两个任务进入同一个parition中,第三个无法容纳所以进入一个新的。如果不对请进行纠正,谢谢