猿问

为什么在Hive里建立外部表之后进行的计数结果和在Hbase里直接count的结果不一致?

由于不方便截图,所以只能描述了,我尽量描述的清楚一些:

在Hbase中有个表,但是不方便分字段进行统计,所以在Hive里建了一个外部表指向Hbase中的这个表,便于使用HQL进行查询,但是问题来了:

在Hive中查询的记录数(无论是count1还是count*),都只有很少的记录(3600),但是在Hbase中这个记录数可是有两千多万!

然后就查问题出现在哪里:在Hive里select所有记录导出到一个txt文件里,打开发现实际是有两千多万条记录的,但是如果在Hive用subtring函数截取id号的首字母进行统计,发现各个字母(A-Z)+数字(0-9)之和还是3600,我就惊了!!明明txt文件里是有两千多万行的有效记录啊,怎么hive里就只能查出来3600呢?

请教各位大神,给个思路也行啊。。。

木子二月鸟
浏览 2550回答 1
1回答

姆姆姆

hive表可能count是当前页的记录,只有3600。也有可能是hive没有完全映射habse的表
随时随地看视频慕课网APP
我要回答