MYYA
对于Spark设计我目前最大的不满其实是RDD这个层面只是非常接近physical,但并不是完全physical的(有一部分pipelining的优化)。如果重新设计Spark的话,我会主张做出一个完全physical的layer。不过这个主要是出于代码纯粹性的考虑,对上层实现其实没有多大影响。以后基于DataFrame/SQL,Spark还会有很多优化的空间。传统数据库的设计其实很简单,大多数在analytics上也比较过时了。数据库领域最近几年在analtyical query processing性能优化上有很多新颖的想法(比如说Hyper, X100, C-Store/Vertica,DB2 BLU),我们会选择性的在Spark上实现。