在reduce阶段之后合并输出文件

在mapreduce中,每个reduce任务将其输出写入名为part-r-nnnnn的文件,其中nnnnn是与reduce任务关联的分区ID。map / reduce是否合并这些文件?如果有,怎么样?



慕侠2389804
浏览 915回答 3
3回答

www说

不,这些文件不会被Hadoop合并。您获得的文件数与reduce任务数相同。如果您需要它作为下一个作业的输入,那么不要担心有单独的文件。只需将整个目录指定为下一个作业的输入。如果确实需要群集外的数据,那么我通常会在从群集中提取数据时将它们合并到接收端。就是这样的:hadoop fs -cat /some/where/on/hdfs/job-output/part-r-* > TheCombinedResultOfTheJob.txt
打开App,查看更多内容
随时随地看视频慕课网APP