一、 Hadoop 是什么?
首次听到 hadoop 这次单词,相信很多人跟我当时是一样,不免心中画上一个大大的问号——这是什么东西? Hadoop 是什么?百度百科的解释是: Hadoop 是一个由 Apache 基金会所开发的 分布式系统 基础架构 。 换句话说就是 hadoop 是 一个能够对大量数据进行 分布式处理 的 软件 框架 。
Hadoopd 之所谓会诞生,主要是由于进入到大数据时代,计算机需要处理的数据量太过庞大。这时就需要将这些庞大数据切割分配到 N 台计算机进行处理。当大量信息被分配到不同计算机进行处理时,要确保最终得到的结果正确就需要对这些分布处理的信息进行管理, hadoop 就是这样的一套解决方案。
通过一个简单通俗的例子说明: 假如说你有一个篮子水果,你想知道苹果和梨的数量是多少,那么只要一个一个数就可以知道有多少了。如果你有一个集装箱水果,这时候就需要很多人同时帮你数了,这相当于多进程或多线程。如果你很多个集装箱的水果,这时就需要分布式计算了,也就是 Hadoop 。
二、 hadoop 的版本
随着这几年大数据浪潮的兴起, hadoop 的各种版本也快速在国内流传和使用。当前主要的 hadoop 版本有以下几种:
1、 Apache hadoop 的 2.0 版本,它的模块主要有以下几个:
(1) hadoop 通用模块,支持其他 hadoop 模块的通用工具集;
(2) Hadoop 分布式文件系统,支持对应数据高吞吐量访问的分布式文件系统;
(3) 用于作业调度和集群资源管理的 Hadoop YANRN 框架;
(4) Hadoop MapReduce ,基于 YARN 的大数据并行处理系统 。
2 、 Cloudera hadoop : Cloudera 版本层次更加清晰,且它提供了适用于各种操作系统的 Hadoop 安装包,可直接使用 apt-get或者 yum 命令进行安装,更加省事。
3 、 Hortonworks : Hortonworks 的主打产品是 Hortonworks Data Platform (HDP) ,也同样是 100% 开源的产品, HDP 除了常见的项目外还包含了 Ambari ,一款开源的安装和管理系统。 HCatalog ,一个元数据管理系统, HCatalog 现已集成到 Facebook 开源的 Hive 中。 Hortonworks 的Stinger 开创性地极大地优化了 Hive 项目。 Hortonworks 为入门提供了一个非常好的,易于使用的沙盒。 Hortonworks 开发了很多增强特性并提交至核心主干,这使得 Apache Hadoop 能够在包括 Windows Server 和 Windows Azure 在内的 Microsoft Windows 平台上本地运行。加QQ群:834325294,免费领取资料
三、国产 hadoop 发行版有哪些
国内做 hadoop 发行版的像 华为 、 大快搜索 都有推出自己的发行版。华为在硬件上有天然的有事, 华为的 FusionInsight Hadoop 版本基于 Apache Hadoop ,构建 NameNode 、 JobTracker 、 HiveServer 的 HA 功能,进程故障后系统自动 Failover ,无需人工干预,这个也是对Hadoop 的小修补,远不如 MapR 解决的彻底。
大快搜索推出的 DKhaoop , 是目前已知的国产发行版中唯一一个纯原生态的开发, 集成了整个 HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。
作者:大数据首席数据师
链接:https://www.jianshu.com/p/dc65a9db818f