大数据学习思路分解（1）：hadoop学习-原创手记-慕课网

我们在上篇文章中大概的了解了大数据学习的一些思路(路线)，主要包括以下几点(Linux+hadoop+机器学习+流式计算+内存计算+云平台开发)，当然还有很多知识点，我们就以这个课程大纲来进行讲解学习。

而在大数据开发中hadoop是最先学习的重点。为了让大家更加准确和快速的入门学习大数据，我们这篇文章就和大家介绍一下大数据Hadoop主要需要学习哪些方面的知识。

注：此学习路线非零基础学习线路，要求有一定的java基础。

hadoop具体的学习路线，主要分为以下几步：

1.我们要掌握Linux的安装及基本操作

需要学习Linux的安装、了解其常用命令有哪些、系统进程管理基本原理、启动流程、系统文件权限管理、网络配置和维护等等

这时候只需要掌握基础即可，后边遇到问题再学习，这样才不会混乱，学的才扎实。

2. 搭建Hadoop分布式环境

我们要做的是在自己的电脑上安装Linux，然后准备环境nat配置，搭建Hadoop集群先让Hadoop在自己的电脑上跑起来。使用VMware来搭建。

这时候我们会Host配置、IP配置、SSH免密登录等。

3.学习HDFS分布式文件系统

这一步要学习架构分析、容灾容错策略、local数据策略、数据块概念、机架感应，功能逻辑实现等。要真正的去敲敲，掌握Linux下HDFS Shell常用命令的使用。

4.学习MapReduce计算框架

MapReduce是Hadoop核心编程模型。在Hadoop中，数据处理核心就是MapReduce程序设计模型。这一步需要学的东西很多，大家一定要有耐心，把MR的知识学牢固。

首先我们需要学习MR的基本原理、任务执行流程、Shuffle策略。自己动手写一个MR任务，来实现wordcount。然后要学习表单join、表单查询、数据清洗、全局排序、多目录输入输出、自定义partition分区，掌握二分法算法。

接下来学习自然语言处理方法(NLP)，掌握如何提取关键词，TF-IDF算法。这里我们可以实践一下，统计文本中的词频。

学习中文分词，分词的质量直接影响数据挖掘的质量。

5.学习Strom流式计算

Storm是一个开源分布式实时计算系统，它可以实时可靠地处理流数据。

这一步我们要知道Hadoop和Storm的区别，知道他们如何进行互补。了解Storm的体系架构、Zookeeper在架构中的作用和数据流处理的过程。弄懂Storm的工作原理和核心组件(Spout、Bolt)

6.学习Zookeeper分布式协作服务

这一步我们学会数据管理的树形结构，学会根据应用场景选择不同类型的节点、节点权限管理ACL和监控机制。学会Zookeeper开源自带Client工具的Shell使用，开发java代码实现不同类型的节点进行新建、修改、删除和节点的监控。

7.学习数据仓库工具Hive

这一步要了解Hive的体系架构和其与mysql的对比。要掌握Mysql的基本知识、系统搭建标准SQL语(增删查改)。

8.学习分布式存储系统Hbase

这一步要掌握Hbase的体系架构(HMaster、HRegionServer、HStore、HFile、HLog)，物理存储、数据逻辑存储、核心功能模块。

9.项目实战

最最重要的是项目的实战，任何的学习没有项目的应用都是徒劳，所以在一个知识学扎实之后要有相对应的项目来就行练手。

细化一点要掌握Hbase表结构设计、Shell操作(增删查改)、javaAPI操作、数据迁移、备份与恢复。与MR结合实现批量导入与导出，与Hive结合使用，集群管理和性能调优。

到这里，按照上边的路线认真学习，肯定能学好hadoop开发，在学习的时候一定要亲自动手去敲，要去不断的尝试，把看到的知识尽快转化为自己的技能，这样才能高效率的学会hadoop，学任何一门技术都是一样，需要实际动手。

作者：尚学先生
链接：https://www.jianshu.com/p/7da62e6a345e