Hadoop2.0移除了原有的JobTracker和TaskTracker,改由Yarn平台的ResourceManager负责集群中所有资源的统一管理和分配,NodeManager管理Hadoop集群中单个计算节点
YARN的设计减少了JobTracker的资源消耗,减少了Hadoop1.0中发生单点故障的风险。
ResourceManager
NodeManager
nameNode
dataNaode 64M
JobTracker
taskTracker
HDFS==YARN
YARN可以实现统一的资源调度
TaskTracker 的作用是执行MapReduce的作业,JobTracker是管理TaskTracker
213123
2313424
Hadoop2.0
移除了原有的JobTracker和TaskTracker,改由Yarn平台的ResourceManager负责集群中所有资源的统一管理和分配,NodeManager管理Hadoop集群中单个计算节点
HDFS:分布式文件系统,若干台计算机组成,存放PB,TB数量级以上的文件,每份文件可以有多个副本,高冗余,高荣错的文件系统
hdfs架构
这是一个笔记
HDFS架构图
DataNode:数据节点,作用(存放文件和文件的副本,最小存储单元是块(Block) 64MB)
NameNode:名称节点,存放的数据分2个部分,1个是块信息,起到地址映射的作用,能让NameNode快速定位到某个文件的位置
Secondary NameNode:辅助名称节点;在NameNode运行时,辅助名称节点会通过镜像文件和变更日志,备份NameNode原数据,若NameNode挂了,可通过Secondary NameNode备份的原数据进行恢复
HDFS。
HDFS是Hadoop分布式文件系统的简称,由若干台计算机组成,用于存放PB、TB数量级以上的文件,每份文件可以有多个副本,多以HDFS是一个具有高冗余、高容错的文件系统。
Hadoop是一个分布式系统基础架构。具有高可靠性、高扩展性、高效性、高容错性、低成本。
HDFS,Hadoop分布式文件系统的简称。它所存放的每份文件可以有多个副本,所以HDFS是一个具有高冗余、高容错的文件系统。DataNode存放文件的单元为block。2.4以前,block的默认大小为64MB,2.6以后为128MB。
MapReduce是面向大数据并行处理的计算模型、框架和平台。一个基于集群的高性能并行计算平台;一个并行计算与运行软件框架;一个并行程序设计模型与方法。
yarn是hadoop的资源管理器,是一个通用资源管理系统。其中ResourceManager负责集群中所有资源的同一管理和分配,NodeManager管理Hadoop集群中单个计算节点。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。具有高可靠、高扩展、高有效、高容错、低成本。
HDFS,Hadoop分布式文件系统的简称。它所存放的每份文件可以有多个副本,所以HDFS是一个具有高冗余、高容错的文件系统。DataNode存放文件的单元为block。2.4以前,block的默认大小为64MB,2.6以后为128MB。
MapReduce是面向大数据并行处理的计算模型、框架和平台。一个基于集群的高性能并行计算平台;一个并行计算与运行软件框架;一个并行程序设计模型与方法。
yarn是hadoop的资源管理器,是一个通用资源管理系统。其中ResourceManager负责集群中所有资源的同一管理和分配,NodeManager管理Hadoop集群中单个计算节点。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。具有高可靠、高扩展、高有效、高容错、低成本。
HDFS,Hadoop分布式文件系统的简称。它所存放的每份文件可以有多个副本,所以HDFS是一个具有高冗余、高容错的文件系统。DataNode存放文件的单元为block。2.4以前,block的默认大小为64MB,2.6以后为128MB。
MapReduce是面向大数据并行处理的计算模型、框架和平台。一个基于集群的高性能并行计算平台;一个并行计算与运行软件框架;一个并行程序设计模型与方法。
yarn是hadoop的资源管理器,是一个通用资源管理系统。其中ResourceManager负责集群中所有资源的同一管理和分配,NodeManager管理Hadoop集群中单个计算节点。
HDFS:分布式文件系统
DataNode:存放文件或文件副本。块:最小64MB。
hadoop
架构图