DataFrame/DataSet组的行为/优化
假设我们有DataFramedf由下列栏组成:
df
姓名,姓氏,大小,宽度,长度,体重
现在我们想要执行几个操作,例如,我们希望创建包含大小和宽度数据的几个DataFrame。
val df1 = df.groupBy("surname").agg( sum("size") )val df2 = df.groupBy("surname").agg( sum("width") )
您可以注意到,其他列,如Length,在任何地方都不使用。斯派克是否足够聪明,在洗牌阶段之前丢弃多余的列,还是它们被随身携带?Wil Run:
val dfBasic = df.select("surname", "size", "width")
在分组之前对性能有什么影响?
繁星淼淼
相关分类