第一模块
课程名称: HBase入门
章节名称:卡弗卡大数据
讲师名称:1-1 ~ 3-3
第二模块
课程内容概述:
介绍了啥是Hbase,讲解了HBase在实际业务场景中的应用,HBase在实际业务中解决什么样的问题,后来基于官网对HBase概念的描述,介绍HBase版本的发展及在hadoop2.x生态系统中的定位。
第三模块
学习心得:
通过课程的学习是我入门了Hbase,知道了Hbase在大数据领域的广泛应用,也对大数据、海量数据有了概念,一张Hbase的表就可以支撑上【百万的列 * 上百亿的行】,这样的规模才城的上大数据!下面附上学习笔记:
1-1 学习目标:
1-2 HBase应用场景和特点:
支持海量数据,海量的标准:
一个表可以达到 上百亿的行 * 上百万的列
对比关系型数据库的表:
一张表的列不会超过30个,超过30个则表名这张表的设计是有问题的
支持准实时查询:一次查询在百毫秒内完成(一般能在毫秒内完成的,可以称之为“实时查询”)
一句话:
任何场景的数据,HBase都可以存,唯一需要考虑的只有【适不适】的问题;
判断标准:
上百万行的数据,传统的关系型数据库是完全能在“准实时”的时间窗口期内完成查询,如果做不到,则表明sql还存在优化空间!!!关系型数据库中一般以500万的数据为界,超过这个值就要开始考虑【分库分表】了!!!
当数据达到上千万行,上亿万行时,hbase的优势才会变得明显!!!
实际使用HBase的场景:
交通
金融
电商
移动电话信息
HBase的特点:
面向列也就以为着“列的数量是动态增加”,并不是固定死,这和关系型数据库面向行是类似的,关系型数据库中行数是动态变化的!!!因为是面向列的,所以可以对我们需要的列进行各种单独操作!!!
稀疏性图解:
好处:物理空间不够用时直接扩物理节点就可以了,通过“分布式系统”的调配,将dataNode和leadNode进行接入就可以了!!!
LSM数据结构特点:数据的存储方式是“一棵树”,在树的末端也就是“叶子节点”,这些叶子节点的数据是存在于【内存】中,所以查叶子节点的数据就会比较快,当叶子节点的数据达到一定规模之后,就会触发【磁盘回写】,即:按照一定的策略,将叶子节点的部分数据回写到磁盘中,从而腾出位置放新的数据!!!
在回写磁盘的时候,是以树上的节点为单位进行回写,并且会发生节点的合并。
2-3 深刻理解HBase的概念:
......
HBase起源于【谷歌的3篇论文】,即:GFS、MapReduce、BigTable
技术发展:
GFS --> HDFS
BigTable --> HBase
MapReduce --> Hdoop --> Spark
2-4 如何选择HBase的版本:
企业选版本的一条铁律:不选最新只选最稳!!!
HBase版本演化图:
HBase的版本源:
如何看版本:如果一个大版本号持续迭代,这说明这个大版本在持续改进,是一个比较好的选择;
本课程选择的版本是:0.98.x (是一个官网版本)
cdh版本举例:
3-3 HBase在Hadoop2.x中的生态位:
看懂一张图:
第四模块
课程学习截图: