手记

程序员必备大数据技能之分布式云平台Hadoop

一、Hadoop创始人介绍

Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在Cloudera 公司从事架构工作。

二、Hadoop简介

Hadoop名字来源于Doug Cutting儿子的玩具大象。

2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch

Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目。

三、Hadoop简介:http://hadoop.apache.org

分布式存储系统HDFS (Hadoop Distributed File System )POSIX

分布式存储系统

提供了 高可靠性、高扩展性和高吞吐率的数据存储服务

分布式计算框架MapReduce

分布式计算框架(计算向数据移动)

具有 易于编程、高容错性和高扩展性等优点。

分布式资源管理框架YARN(Yet Another Resource Management)

负责集群资源的管理和调度

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

四、Hadoop架构模型

*文件元数据MetaData,文件数据

·元数据

·数据本身

*(主)NameNode节点保存文件元数据:单节点 posix

*(从)DataNode节点保存文件Block数据:多节点

*DataNode与NameNode保持心跳,提交Block列表

*HdfsClient与NameNode交互元数据信息

*HdfsClient与DataNode交互文件Block数据

五、Hadoop解决哪些问题?

海量数据需要及时分析和处理

海量数据需要深入分析和挖掘

数据需要长期保存

海量数据存储的问题:

磁盘IO称为一种瓶颈,而非CPU资源

网络带宽是一种稀缺资源

硬件故障成为影响稳定的一大因素

六、Hadoop 相关技术

(1)Hbase

Nosql数据库,Key-Value存储

最大化利用内存

(2)HDFS

hadoop distribute file system(分布式文件系统)

最大化利用磁盘

(3)MapReduce

编程模型,主要用来做数据分析

最大化利用CPU

七、Hadoop的优点

Hadoop的四大特性(优点)

扩容能力(Scalable):Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计个节点中。

成本低(Economical):Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

高效率(Efficient):通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。

可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Freestyle

通过真实企业项目,掌握 JAVA 高并发、负载均衡、NoSQL、服务器集群、性能优化、数据库集群等架构师技能,实现年薪翻番。



作者:A尚学堂Nancy老师
链接:https://www.jianshu.com/p/6d131e3ba051


0人推荐
随时随地看视频
慕课网APP