为什么必须一样?
目的不是让你学会,让你感觉很高大尚就可以了
用手敲啊 手动手动
regionserver就是集群节点啊,所以你说谁不能小于呢
snappy压缩后大小是压缩前的22%,压缩率最低
进入到hbase配置的数据目录,假设是 /home/ubuntu/hbase-data,进入到这个目录后,执行tree命令即可,如果提示命令不存在 在ubuntu下可以使用 sudo apt install tree 安装
一个表有多行数据, 是一对多的关系; 一个表可以有多个列簇, 一个列簇可以有一个或多个列, 列簇是表的一部分, 列是列簇的组成部分, 一个列簇对应一个物理存储文件在hdfs上; region是按照rowkey进行分割, 是逻辑上的分割, 一个region只能属于一个regionserver
闭环查询指的包话开始和结束的romkey
什么鬼
测试测试
没有rowKey怎么询吗?
如果根据rowkey查询数据, 肯定是预先知道了rowkey的值的, get '表名', 'rowkey', api也有类似的方式
2. 如何获得全部的rowKey?
scan '表名' 取出全部rowkey, api操作也是类似的
大数据看书的话,只能说是补充理论方面的东西,如果有Java基础的话,就推荐看主流大数据框架相关的书,包括Hadoop、Spark、Flink等。
大数据书籍推荐:
《Hadoop权威指南》
《Hadoop权威指南》这本书可以说是Hadoop入门的经典书目,对于Hadoop的生态体系做了全面深入的解读,包括如何使用Hadoop构建可靠、可伸缩的分布式系统,如何分析海量数据集,如何建立与运行Hadoop集群等知识。
《Hive编程指南》
一本Apache Hive的编程指南,对于Hadoop Hive走了全面而详细的介绍,如何使用Hive的SQL方法,理论与实例结合,介绍如何在用户环境下安装和配置Hive,Hadoop和MapReduce工作机制,Hive如何在Hadoop生态系统进行工作等。
《Hbase权威指南》
对是Hbase非常全面可靠的知识讲解,HBase架构的细节,包括存储格式、预写日志、后台进程等;在HBase中集成MapReduce框架;如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等;如何通过使用与HBase高度集成的Hadoop将HBase的可伸缩性变得简单等。
《Hadoop虚拟化》
旨在帮助读者了解和掌握不同虚拟化Hadoop选择的优缺点、虚拟化Hadoop的配置及其注意事项。
《Spark快速大数据分析》
为Spark初学者准备的书,不仅仅限于Spark的用法,对Spark的核心概念和基本原理也有较为全面的介绍。
《Spark机器学习:核心技术与实践》
采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。
《Flink入门与实战》
关于Flink框架的入门级图书,详解Flink基础理论与实际操作,旨在帮助读者从零开始快速掌握Flink的基本原理与核心功能。
《Kafka入门与实践》
基于Kafka 0.10.1.1版本,深入剖析Kafka源码与框架。书中的大量实例来源于作者在实际工作中的实践,具有现实指导意义。
可以逆序,但不能自定义
........