手记

【学习打卡】第9天 Hadoop入门

第一模块

课程名称:Hadoop 系统入门+核心精讲

章节名称:2-1 ~ 2-10

讲师姓名:Michael_PK


第二模块

内容概述:

2-1 ~ 2-10 章节系统的介绍了Hadoop和Hadoop的3大核心组件——HDFS、MapReduce和YARN,已经Haddop的各个发行版的优缺点,系统而全面的带领我认识了Hadoop,很大程度上打消了我对Hadoop的神秘感,感觉大数据也不在那么高不可攀!


第三模块

学习心得:

毕业到现在走的技术路线都是java 的web开发,对大数据相关的技术知道的不多,这次借助本门课很好的阔宽了自己的技术视野,知道了java开发的另一条技术路线——java开发大数据方向。当今最火的技术当属ABC,而java转大数据开发具有天然的优势,而Hadoop又是大数据开发中绕不开的·一个技术栈,有必要进行深入学习,下面附上学习笔记:

2-3 Hadoop核心组件之分布式文件系统HDFS

源自于Google的GFS论文,论文发表于2003年10月

HDFS是GFS的克隆版

HDFS特点:扩展性&容错性&海量数据存储

容错实现方式:把数据/文件拆成块,以block为单位进行存储,每个block都存在多个副本,每个副本存在不同机器上。


HDFS工作方式:

1.将文件切分成指定大小的数据块并以多份副本存储在多个机器上。

解析:


2.数据切分、多副本、容错性等操作对用户是透明的


2-4 Hadoop核心组件之MapReduce(分布式计算框架)

源自于Google的MapReduce论文,发布于2004年12月

MapREduce是Google MapReduce的克隆版


特点:扩展性&容错性&海量数据离线处理


MapReduce应用统计实例——词频统计


2-5 Hadoop核心组件之YARN(资源调度器)、

YARN:yet another resource negotiator

负责整个资源的管理和调度

特点:扩展性&容错性&多框架资源统一调度


理解多框架资源统一调度:

借助YARN可以很方便的进行资源管理和作业调度


2-6 Hadoop优势

高可靠性:

  • 数据块多副本

  • 重新调度计算

扩展信:

  • 水平扩展

  • 一个集群中可以容纳千计万计的节点

其他:

  • 机器廉价,成本低

  • 成熟生态圈


2-7 Hadoop发展史

链接:infoQ中有一篇文章......


2-8 Hadoop生态圈

狭义的Haddop:

  • HDFS

  • YARN

  • MapReduce


广义的Haoop:

以hadoop为核心构建起来的一套大数据技术的生态圈!!!

圈中的子系统只去解决特定的问题域,而不是搞一个全能的大系统。

Mahout:不推荐使用,因为差不多已经停止维护


Hadoop生态系统特点:

  • 开源、社区活跃

  • 包括了大数据的方方面面

  • 成熟的生态圈

注意:JD上的职位描述,Hadoop指的就是狭义上的Hadoop


2-9 Hadoop发行版

常用Hadoop发行版:

  • apache

         优点:纯开源

         缺点:不同版本不同框架之间的整合很容易出现jar冲突,会吐血的!!!安装方式只支持纯手工安装

  • CDH(国内的使用率在60 - 70)

          优点:安装简单,官方提供了cm(cloudera manager)通过页面就可以一键安装,升级,底层支持impala;与spark联系的非常紧密,文档也写的非常好

          缺点:cm不开源,但CDH版本开源,与社区版本有些许出入(不开源的化,用起来,不踏实!!!

  • Hortonworks:HDP 企业发布自己的数据平台可以直接基于页面框架进行改造

         优点:原装Hadoop,纯开源、支持tez

         缺点:企业级安全不开源

  • MapR(了解下就行,不建议使用)

实际使用时建议选用CDH、HDP


第四模块

学习截图:

1人推荐
随时随地看视频
慕课网APP

热门评论

大佬多写点,让我多学习学习。

查看全部评论