一、Hadoop创始人介绍
Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在Cloudera 公司从事架构工作。
二、Hadoop简介
Hadoop名字来源于Doug Cutting儿子的玩具大象。
2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch
Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目。
三、Hadoop简介:http://hadoop.apache.org
分布式存储系统HDFS (Hadoop Distributed File System )POSIX
分布式存储系统
提供了 高可靠性、高扩展性和高吞吐率的数据存储服务
分布式计算框架MapReduce
分布式计算框架(计算向数据移动)
具有 易于编程、高容错性和高扩展性等优点。
分布式资源管理框架YARN(Yet Another Resource Management)
负责集群资源的管理和调度
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
四、Hadoop架构模型
*文件元数据MetaData,文件数据
·元数据
·数据本身
*(主)NameNode节点保存文件元数据:单节点 posix
*(从)DataNode节点保存文件Block数据:多节点
*DataNode与NameNode保持心跳,提交Block列表
*HdfsClient与NameNode交互元数据信息
*HdfsClient与DataNode交互文件Block数据
五、Hadoop解决哪些问题?
海量数据需要及时分析和处理
海量数据需要深入分析和挖掘
数据需要长期保存
海量数据存储的问题:
磁盘IO称为一种瓶颈,而非CPU资源
网络带宽是一种稀缺资源
硬件故障成为影响稳定的一大因素
六、Hadoop 相关技术
(1)Hbase
Nosql数据库,Key-Value存储
最大化利用内存
(2)HDFS
hadoop distribute file system(分布式文件系统)
最大化利用磁盘
(3)MapReduce
编程模型,主要用来做数据分析
最大化利用CPU
七、Hadoop的优点
Hadoop的四大特性(优点)
扩容能力(Scalable):Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计个节点中。
成本低(Economical):Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
高效率(Efficient):通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。
Freestyle
通过真实企业项目,掌握 JAVA 高并发、负载均衡、NoSQL、服务器集群、性能优化、数据库集群等架构师技能,实现年薪翻番。
作者:A尚学堂Nancy老师
链接:https://www.jianshu.com/p/6d131e3ba051