split逻辑运算块: 一个split对应一个mapper任务
K1, V1: K1是相对文本偏移量,V1代表该行文本
Shuffle:一个线程 将map产生结果拉取到reduce端做汇总
分布式存储包括map和reduce操作
一个block对应一个split,一个split对应一个map任务
MapReduce原理分析
MapReduce原理分析
MapReduce原理分析
MapReduce概述
1、MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题
2、MapReduce是分布式运行的,由两个阶段组成:Map和Reduce
3、MapReduce框架都有默认实现,,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常简单。