DataFrame/DataSet组的行为/优化

DataFrame/DataSet组的行为/优化

假设我们有DataFramedf由下列栏组成:

姓名,姓氏,大小,宽度,长度,体重

现在我们想要执行几个操作,例如,我们希望创建包含大小和宽度数据的几个DataFrame。

val df1 = df.groupBy("surname").agg( sum("size") )val df2 = df.groupBy("surname").agg( sum("width") )

您可以注意到,其他列,如Length,在任何地方都不使用。斯派克是否足够聪明,在洗牌阶段之前丢弃多余的列,还是它们被随身携带?Wil Run:

val dfBasic = df.select("surname", "size", "width")

在分组之前对性能有什么影响?



撒科打诨
浏览 288回答 2
2回答

慕尼黑8549860

我试图搜索和读取任何解释跨节点混合操作的源,这些操作的性能和分布是DataFrame(特别是)和RDD在节点上的操作,但是可以找到,给出的只是示例和输出。你能指导教授这样的概念的课程吗(比如RDD中的groupbyKey是昂贵的,而df中的groupby不是)
打开App,查看更多内容
随时随地看视频慕课网APP