请问老师，hadoop上运行的时候，没有对map的结果进行sort，为什么会跑成功？-慕课网

首页课程实战体系课手记专栏慕课教程

请问老师，hadoop上运行的时候，没有对map的结果进行sort，为什么会跑成功？

来源：3-2 MapReduce实战

慕瓜1546030

2018-10-24 16:07

在Linux上运行map.py和reduce.py的时候，需要对map.py的结果进行|sort -k1,1| 排序，如果不排序则reduce.py运行的结果不正确；

但是在hadoop上运行的时候，没有排序这个操作，但是我看老师视频里的是运行成功的，我运行失败了，不知道是不是没有排序的问题。

跪求解答

写回答关注

1回答

Cybtron

2018-10-28 16:24:08

一个MapReduce作业由Map阶段和Reduce阶段两部分组成，这两阶段会对数据排序，从这个意义上说，MapReduce框架本质就是一个Distributed Sort。在Map阶段，Map Task会在本地磁盘输出一个按照key排序（采用的是快速排序）的文件（中间可能产生多个文件，但最终会合并成一个），在Reduce阶段，每个Reduce Task会对收到的数据排序，这样，数据便按照Key分成了若干组，之后以组为单位交给reduce（）处理。很多人的误解在Map阶段，如果不使用Combiner便不会排序，这是错误的，不管你用不用Combiner，Map Task均会对产生的数据排序（如果没有Reduce Task，则不会排序，实际上Map阶段的排序就是为了减轻Reduce端排序负载）。由于这些排序是MapReduce自动完成的，用户无法控制，因此，在hadoop 1.x中无法避免，也不可以关闭，但hadoop2.x是可以关闭的。

0 2

Hadoop基础及演练

与大数据密不可分的Hadoop框架，你值得学习

52363 学习 · 65 问题

相似问题

Hadoop2.8.4 上运行的时候卡住了

回答 2

hadoop运行streaming.jar权限不够

回答 1

运行出现了这样的问题

回答 1

我运行hdfs dfs -ls /出现下面的错是什么原因？？

回答 2

请问一下，python在Ubuntu中的hadoop环境如何配置

回答 1

打开慕课网App查看更多内容