请教一下MPP 与 Hadoop是什么关系?

MPP 与 Hadoop是什么关系


犯罪嫌疑人X
浏览 1799回答 4
4回答

RISEBY

二者处理数据的思路是一样的, 分布式并行处理, 某种程度上也都能完成同样的工作.但mpp仍是关系型数据库技术, 能较好支持SQL, 使用更方便 (举例:GreenPlum)hadoop是开源平台, 本身不是数据库, 但可处理非结构化数据, 这点关系数据库很难做到.

动漫人物

hive跟mpp的内存管理方式不大一样,mpp内存管理比较精细,他主要的想法是在每个机器上放个数据库,传统数据库的内存管理比较复杂,主要是内外存交互的东西,这样的架构决定了mpp在小数据量的时候,latency可以做的比较小,但是在大数据量的时候,throughput做不上去。而hive的内存管理非常粗放,他后来就是mapreduce的job,mr的job是没有太多精细的内存管理的,他就是拼了命地scan,完了顶多就是个spill,这样的架构导致throughput很大,但是latency很高,当你集群规模很大的时候,你一般会追求很大的throughput,当数据量很大的时候,如果你用mpp那种传统的内存管理的话,大批量的计算反而会慢,而且更加占资源,所以vertica这种一开始就考虑了列式存储就是这个道理。

陪伴而非守候

 hive跟mpp的存储模型不一样,hive用的hdfs,而mpp需要自己做切分,自己做切分就带来动态调整的问题。  hdfs的扩展是通过元数据来做的,他有中心节点用来存元数据,在加入新的节点的时候,只需要修改元数据就可以了,所以hdfs的扩展能力是受到管理元数据那台机器的性能限制的,一般来说可以到10k这个规模,再向上就不行了。  实测对比GreenPlum和Hive,GP比Hive性能高出至少一个数量级,但是大部分场景下,依然是秒级甚至分钟级的延迟,距离具体通常意义的实时毫秒级,差距巨大。
打开App,查看更多内容
随时随地看视频慕课网APP