手记

大数据的重点知识都在这里,还不赶快学习

一、大数据

(一)概念:

指的是传统数据处理应用软件不足以处理(存储和计算)它们大而复杂的数据集。

1

2

(二)数据级别:

    1.MB:普通用户数据级别

    2.PB:企业级数据级别

    3.ZB:全球数据总量级别

1

2

3

4

(三)特点:

容量大,种类多,速度快,价值高

1

2

(四)Hadoop

    1.概念:Apache旗下的一套开源软件平台

    2.功能:利用服务式集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

    3.核心组件:

        Common(基础功能组件)(工具包,RPC框架)JNDI 和 RPC

        HDFS(Hadoop Distribute File System分布式文件系统)

        YARN(Yet another Resouces Negotiator运算资源调度系统)

        MapReduce(Map 和 Reduce 分布式运算编程框架)

    4.重点组件:

        HDFS:Hadoop 的分布式文件存储系统

        MapReduce:Hadoop 的分布式程序运算框架,也可以叫做一种编程模型

        Hive:基于 Hadoop 的类 SQL 数据仓库工具

        HBase:基于 Hadoop 的列式分布式 NoSQL 数据库

        ZooKeeper:分布式协调服务组件

        Mahout:基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库

        Oozie/Azkaban:工作流调度引擎

        Sqoop:数据迁入迁出工具

        Flume:日志采集工具

    5.分布式系统:

        利用多个节点共同协作完成一项或多项具体业务功能的系统

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

(五)HDFS原理剖析

    1.HDFS工作机制:

        (1)概述:

            1)HDFS 集群分为两大主要角色:namenode、datanode (secondarynamenode 和 client)

            2)namenode 负责管理整个文件系统的元数据,并且负责响应客户端的请求

            3)datanode 负责管理用户的文件数据块,并且通过心跳机制汇报给 namenode

            4)文件会按照固定的大小(dfs.blocksize)切成若干块后分布式存储在若干台 datanode 上

            5)每一个文件块可以有多个副本,并存放在不同的 datanode 上

            6)datanode 会定期向 namenode 汇报自身所保存的文件 block 信息,而namenode 则会负责保持文件的副本数量

            7)HDFS 的内部工作机制对客户端保持透明,客户端请求访问 HDFS 都是通过向 namenode 申请来进行



作者:清风_d587
链接:https://www.jianshu.com/p/1a746f2929dd


0人推荐
随时随地看视频
慕课网APP