Spark 2.0 Dataset vs DataFrame
从spark 2.0.1开始我有一些问题。我阅读了很多文档,但到目前为止找不到足够的答案:
有什么区别
df.select("foo")
df.select($"foo")
我能正确理解吗
myDataSet.map(foo.someVal)
是类型安全的,不会转换为RDD
但保留在DataSet表示/没有额外的开销(2.0.0的性能明智)
所有其他命令,例如select,..只是语法糖。它们不是类型安全的,可以使用地图代替。如果df.select("foo")
没有地图声明,我怎么能输入?
为什么我应该使用UDF / UADF而不是地图(假设地图保留在数据集表示中)?
ABOUTYOU