CDH环境集成KUDU安装与使用说明

This new open source complement to HDFS andApache HBase is designed to fill gaps in Hadoop’s storage layer that have givenrise to stitched-together, hybrid architectures.

可以看出这个新组件有两个特点：1）开源（免费，ASL 2.0）；2）这是一个融合HDFS和HBase的功能的新组件，具备介于两者之间的新存储组件

2. Kudu的使用场景

Strong performance for both scan and randomaccess to help customers simplify complex hybrid architectures（适用于那些既有随机访问，也有批量数据扫描的复合场景）

High CPU efficiency in order to maximizethe return on investment that our customers are making in modern processors（高计算量的场景）

High IO efficiency in order to leveragemodern persistent storage（使用了高性能的存储设备，包括使用更多的内存）

The ability to update data in place, toavoid extraneous processing and data movement（支持数据更新，避免数据反复迁移）

The ability to support active-activereplicated clusters that span multiple data centers in geographically distantlocations（支持跨地域的实时数据备份和查询）

总结上述内容，可以归纳为两个亮点：1）将不同组件结合起来的异构生态圈打通，使得数据、操作在一个圈内进行；2）将CPU、磁盘IO统一考量，便于资源的最优分配，尤其是未来CPU的计算资源成为瓶颈后；

3. 总结

kudu目前来看，是把analytics 和 online两个应用场景进行了整合，目的在于将分散的大数据生态圈组件进行融合，估计这也是未来大数据生态圈急需解决的一个问题，也是一个趋势。

2.2、kudu使用方法：

2.2.1使用方法：

1．可通过Java client、C++ client、Pythonclient操作kudu表，但要构建client并编写应用程序；

2．可通过kudu-spark包集成kudu与spark，并编写spark应用程序来操作kudu表；

3．可通过impala的shell对kudu表进行交互式的操作，因为impala2.8及以上的版本已经集成了对kudu的操作。下面主要讲述基于impala的使用方法。

2.2.2基本要求：

安装2.8及以上版本的impala，并安装hive，使用其metastore服务来存储impala的元数据。此处Hadoop、hive、impala的安装过程省略。

注：需通过CDH 管理界面配置impala操作kudu；

2.3、基于kudu的基本操作（impala）

创建表：示例一

CREATE TABLE my_first_table
(
id BIGINT,
name STRING,
PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU;
 
CREATE TABLE new_table
PRIMARY KEY (ts, name)
PARTITION BY HASH(name) PARTITIONS 8
STORED AS KUDU
AS SELECT ts, name, value FROM old_table;

注：创建内部表时，类似partition by ………stored as kudu的分区声明语句是必须的。

无论是通过client创建的kudu表还是通过impala创建的表，都可以在master节点的UI界面的tables选项中查看，如下图：