HDFS分布式文件系统:存储是大数据技术的基础
HDFS总结
普通的成百上千的机器
按TB甚至PB为单位的大量的数据
简单便捷的文件获取
HDFS概念
数据块:数据块是抽象块而非整个文件作为存储单元,默认大小为64M,一般设置为128M,备份X3
NameNode:管理文件系统的命名空间,存放文件元数据,维护着文件系统的所有文件和目录,文件与数据块的映射,记录每个文件中各个快所在数据节点的信息
DataNode:存储并检索数据块,向NameNode更新所存储块的列表
HDFS优点:
适合大文件存储,支持TB、PB级的数据存储,并有副本策略
可以构建在廉价的机器上,并有一定的容错和恢复机制
支持流式数据访问,一次写入,多次读取最高效
HDFS缺点:
不适合大量小文件存储
不适合并发写入,不支持文件随机修改
不支持随机读等低延时的访问方式
Hadoop 是一个开源的大数据框架;也是是一个分布式计算的解决方案;
那么Hadoop+HDFS(分布式文件系统)+MapReduce(分布式计算);
Hadoop 核心:HDFS 分布式文件系统:存储是大数据计算的基础,没有这个做不了大数据;
MapReduce(分布式计算):编程模型,分布式计算是大数据应用的解决方案;
HDFS总结:有很多特性支持大数据的存储,为了大量数据横跨成百上千的机器,用数据跟本地调用一样简单,HDFS自动搞定;
1、普通的成百上千的机器;
2、按TB甚至PB为单位的大量数据;
3、简单便捷的文件获取;
概念:1、数据块;数据块是抽象概念的块而非整个文件作为存储单元;
块默认大小64M,一般设置128M,(副本策略)备份X3;比如存10M文件,那么这个文件独占一个文件,如果300M文件,那么会占3份;这样会简化存储数据的设计,提升数据的容错能力和扩容性;;
2、NameNode;主 ,管理文件系统的命名空间和存放文件元数据;维护着文件系统的所有文件和目录,文件和数据库的映射;
记录每个文件各个块所在数据节点的信息;
如果namenode挂了咋办?百度
3、DataNode 从的关系,一般一个namenode主,多个从;
datanode ,存储并检索数据块,向namenode更新所存块的列表;
HDFS优点:
1、适合大文件的存储,支持TB、PB级的数据存储,并有副本策略;
2、可以构建在廉价的机器上,并有一定的容错和恢复机制;
3、支持流式数据访问,一次写入,多次读取取最高效;
缺点:
1、不适合大量小文件存储;
2、不适合并发写入,不支持文件随机修改,只能后续添加apd;
3、不支持随机读等低时延的访问方式;
问题;1、数据块的大小设置多少合适?为啥?
2、namenode有哪些容错机制,他如果挂掉咋办?
hdfs的存储单元为数据块。
一个hdfs由1个Namenode和多个datanode组成。
namenode:
datanode:存储检索数据块,向namenode更新数据列表。
hdfs总结
hadoop核心
hadoop是什么?
1.开源的大数据框架
2.分布式计算的解决方案
3.hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算)
hadoop的核心?
1.HDFS分布式文件系统:存储大数据技术的基础
2.MapReduce编程模型:分布式计算提供处理大数据应用的解决方
HDFS概念
1.数据块
抽象的单个文件作为单元存储单元,默认大小为64MB,一般设置为128M,备份X3
2.NameNode
管理文件系统的命名空间,存放文件元数据
维护文件系统的所有文件和目录,文件于数据块的映射
记录每个文件中各个块所在数据节点的信息
3.DataNode
存储并检索数据块
向NameNode发送并更新所存储的列表
HDFS的优缺点
1.优点
适合大文件,可以构建在廉价的机器上,并有一定的容错和恢复机制,支持流式数据访问,一次写入,多次读取最高效
2.缺点
不适合小文件存储,不适合并发写入,不支持随机修改和随机读等低延时的访问方式
问题1:如果NameNode挂掉了怎么办?
将SecondaryNameNode中数据拷贝到namenode存储数据的目录
Hadoop优缺点:适合大量文件TB、PB级的文件存储有副本出策略,适合一次写入多次读取;
不适合小规模数据以及随机读取这种场景
Hadoop 是大数据存储与计算的分布式解决方案,其中HDFS大叔模具存储而MapReduce是大数据计算的解决方案
NameNode 存储文件元数据、维护文件系统的所有文件和目录以及文件与数据块的映射。记录每个文件中各个块所在数据节点的信息。
HDFS缺点
HDFS优点
DataNode的定义
NameNode的概念
Hadoop=HDFS+MapReduce
hadoop 是一个开源的大数据框架,是一个分布式计算的解决方案。hadoop是由HDFS(分布式文件系统)+ MapReduce(分布式计算)组成。
HDFS :存储是大数据技术的基础;
MapReduce编程模型: 分布式计算是大数据应用的解决方案
Hadoop的核心技术
Hadoop是一个开源的大数据框架;
Hadoop是一个分布式计算的解决方案;
Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算)
Hadoop基础架构:数据块、NameNode、DataNode
HDFS的优点:
1、存储大文件有副本策略
2、构建在廉价机器上,有容错和恢复机制
3、支持流式数据访问,一次写入多次读取最高效
分布式的主从模式,NameNode是主,DataNode是从
HDFS概念:数据块、NameNode、DataNode
hadoop的核心= HDFS+MapReduce
hadoop是什么
数据块是抽象块而非整个文件作为存储单元
默认大小64M,一般设置为128M,备份X3
HDFS缺点
HDFS优点
NameNode
默认大小为64MB,一般设置为128M,备份X3 ?
HDFS总结
NameNode
数据块是抽象块而非整个文件作为存储单元
默认大小64M,一般设置为128M,备份X3
Hadoop