扣丁学堂大数据培训学习Hadoop技术优缺点详解@慕课网原创_慕课网

在现如今，随着互联网时代IT技术飞速的发展和进步，目前大数据开发行业Hadoop应运而生，庞大的信息流有了新的处理平台，今天扣丁学堂大数据培训课程给大家详细介绍一下关于Hadoop技术的优缺点，下面我们一起来看一下吧。

　　1、Hadoop的优点

　　(1)Hadoop具有按位存储和处理数据能力的高可靠性。

　　(2)Hadoop通过可用的计算机集群分配数据，完成存储和计算任务，这些集群可以方便地扩展到数以千计的节点中，具有高扩展性。

　　(3)Hadoop能够在节点之间进行动态地移动数据，并保证各个节点的动态平衡，处理速度非常快，具有高效性。

　　(4)Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配，具有高容错性。

　　2、Hadoop的缺点

　　(1)Hadoop不适用于低延迟数据访问。

　　(2)Hadoop不能高效存储大量小文件。

　　(3)Hadoop不支持多用户写入并任意修改文件。

　　3、Hadoop版本简介：

　　Hadoop自诞生以来，主要出现了Hadoop1、Hadoop2、Hadoop3三个系列多个版本。HDFS和MapReduce是Hadoop1的核心组件，Hadoop生态圈里的很多组件都是基于HDFS和MapReduce发展出来的。在继Hadoop1之后出现了Hadoop2，Hadoop2在Hadoop1的基础上做了改进。相比Hadoop1，Hadoop2的三大核心组件分别是HDFS、MapReduce、Yarn。目前市面上绝大部分企业使用的是Hadoop2。

　　Hadoop2的一个公共模块和三大核心组件组成了四个模块，简介如下：

　　(1)HadoopCommon：为其他Hadoop模块提供基础设施。

　　(2)HDFS：具有高可靠性、高吞吐量的分布式文件系统。

　　(3)MapReduce：基于Yarn系统，分布式离线并行计算框架。

　　(4)Yarn：负责作业调度与集群资源管理的框架。

　　4.HBASE(分布式列存数据库)

　　源自Google的Bigtable论文，发表于2006年11月，HBase是GoogleBigtable克隆版

　　HBase是一个建立在HDFS之上，面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。

　　HBase采用了BigTable的数据模型：增强的稀疏排序映射表(Key/Value)，其中，键由行关键字、列关键字和时间戳构成。

　　HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

　　5.Zookeeper(分布式协作服务)

　　源自Google的Chubby论文，发表于2006年11月，Zookeeper是Chubby克隆版

　　解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。

　　Hadoop的许多组件依赖于Zookeeper，它运行在计算机集群上面，用于管理Hadoop操作。

　　6.HIVE(数据仓库)

　　由facebook开源，最初用于解决海量结构化的日志数据统计问题。

　　Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。

　　HQL用于运行存储在Hadoop上的查询语句，Hive让不熟悉MapReduce开发人员也能编写数据查询语句，然后这些语句被翻译为Hadoop上面的MapReduce任务。

作者：扣丁学堂
链接：https://www.jianshu.com/p/a78626bc8474