由于不方便截图,所以只能描述了,我尽量描述的清楚一些:
在Hbase中有个表,但是不方便分字段进行统计,所以在Hive里建了一个外部表指向Hbase中的这个表,便于使用HQL进行查询,但是问题来了:
在Hive中查询的记录数(无论是count1还是count*),都只有很少的记录(3600),但是在Hbase中这个记录数可是有两千多万!
然后就查问题出现在哪里:在Hive里select所有记录导出到一个txt文件里,打开发现实际是有两千多万条记录的,但是如果在Hive用subtring函数截取id号的首字母进行统计,发现各个字母(A-Z)+数字(0-9)之和还是3600,我就惊了!!明明txt文件里是有两千多万行的有效记录啊,怎么hive里就只能查出来3600呢?
请教各位大神,给个思路也行啊。。。
姆姆姆