手记

Hadoop概述

现在很多人把大数据就理解为Hadoop,虽然Hadoop生来就是为了处理大数据的,但是完全的划等号是有点不对的。

  • Hadoop是一个虚构的名词
  • Hadoop的项目作者的孩子给一个棕黄色的大象起的名字

什么是Hadoop

Hadoop是一个开源的,高可靠的,考扩展的,分布式的计算框架。

Hadoop是一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解底层分布式细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。

它包含的模块:

  • Hadoop Common 通用的工具类
  • HDFS Hadoop的分布式文件系统
  • Hadoop Yarn 任务调度,和集群资源的管理
  • MapReduce 并行的处理大数据集
  • Ozone Hadoop的对象存储

狭义Hadoop & 广义Hadoop

狭义的Hadoop: 是一个适合大数据分布式存储,分布式计算和资源调度的平台
广义的Hadoop:指Hadoop生态系统,hadoop是其中最重要最基础的一部分,生态系统中的每一个子系统,只解决特定某一个问题域,不搞统一型的全能系统,而是小而精的多个系统。

注:Pig和Mahout基本上不用了

Hadoop流行原因

  • 开源,可以对源码二次开发
  • 社区活跃,参与者很多
  • 涉及到分布式存储和计算的方方面面,Flume进行数据采集,Spark/MR/Hive进行数据处理,HDFS/HBase进行数据存储
  • 已经得到业界的验证

最后

这就是Hadoop的概述

参考

1人推荐
随时随地看视频
慕课网APP