DataFrame/DataSet组的行为/优化

假设我们有DataFramedf由下列栏组成：

姓名，姓氏，大小，宽度，长度，体重

现在我们想要执行几个操作，例如，我们希望创建包含大小和宽度数据的几个DataFrame。

val df1 = df.groupBy("surname").agg( sum("size") )val df2 = df.groupBy("surname").agg( sum("width") )

您可以注意到，其他列，如Length，在任何地方都不使用。斯派克是否足够聪明，在洗牌阶段之前丢弃多余的列，还是它们被随身携带？Wil Run：

val dfBasic = df.select("surname", "size", "width")

在分组之前对性能有什么影响？

慕姐4208626

浏览 828回答 2

繁星淼淼

我试图搜索和读取任何解释跨节点混合操作的源，这些操作的性能和分布是DataFrame(特别是)和RDD在节点上的操作，但是可以找到，给出的只是示例和输出。你能指导教授这样的概念的课程吗(比如RDD中的groupbyKey是昂贵的，而df中的groupby不是)

随时随地看视频慕课网APP