大数据的重点知识都在这里，还不赶快学习-原创手记-慕课网

一、大数据

指的是传统数据处理应用软件不足以处理(存储和计算)它们大而复杂的数据集。

1.MB:普通用户数据级别

2.PB:企业级数据级别

3.ZB:全球数据总量级别

容量大，种类多，速度快，价值高

1.概念：Apache旗下的一套开源软件平台

2.功能：利用服务式集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理

3.核心组件：

Common(基础功能组件)(工具包，RPC框架)JNDI 和 RPC

HDFS(Hadoop Distribute File System分布式文件系统)

YARN(Yet another Resouces Negotiator运算资源调度系统)

MapReduce(Map 和 Reduce 分布式运算编程框架)

4.重点组件：

HDFS：Hadoop 的分布式文件存储系统

MapReduce：Hadoop 的分布式程序运算框架，也可以叫做一种编程模型

Hive：基于 Hadoop 的类 SQL 数据仓库工具

HBase：基于 Hadoop 的列式分布式 NoSQL 数据库

ZooKeeper：分布式协调服务组件

Mahout：基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库

Oozie/Azkaban：工作流调度引擎

Sqoop：数据迁入迁出工具

Flume：日志采集工具

5.分布式系统：

利用多个节点共同协作完成一项或多项具体业务功能的系统

1.HDFS工作机制：

(1)概述：

1)HDFS 集群分为两大主要角色：namenode、datanode (secondarynamenode 和 client)

2)namenode 负责管理整个文件系统的元数据，并且负责响应客户端的请求

3)datanode 负责管理用户的文件数据块，并且通过心跳机制汇报给 namenode

4)文件会按照固定的大小(dfs.blocksize)切成若干块后分布式存储在若干台 datanode 上

5)每一个文件块可以有多个副本，并存放在不同的 datanode 上

6)datanode 会定期向 namenode 汇报自身所保存的文件 block 信息，而namenode 则会负责保持文件的副本数量

7)HDFS 的内部工作机制对客户端保持透明，客户端请求访问 HDFS 都是通过向 namenode 申请来进行

作者：清风_d587
链接：https://www.jianshu.com/p/1a746f2929dd