如何在 Java 中转置 Apache Spark 数据集

不幸的是，spark 中没有内置函数可以做到这一点。有一个使用的解决方案pivot，但您需要先“分解”数据框。它应该比基于联合的解决方案快得多。在 Scala 中，它会按如下方式进行。我在下面添加了一个 java 版本。// scalaval cols = df.columns  .filter(_ != "names")  .map(n => struct(lit(n) as "c", col(n) as "v"))val exploded_df = df.select(col("names"), explode(array(cols : _*)))// javaColumn[] cols = Arrays    .stream(df.columns())    .filter(x -> ! x.equals("names"))    .map(n -> struct(lit(n).alias("c"), col(n).alias("v")))    .toArray(Column[]::new);Dataset<Row> exploded_df = df.select(col("names"), explode(array(cols)));exploded_df.show();+------+-------------+| names|          col|+------+-------------+|   rho|    [rho_0,1]||   rho| [rho_1,0.89]||   rho| [rho_2,0.66]||   rho|[rho_3,0.074]||absRho|    [rho_0,1]||absRho| [rho_1,0.89]||absRho| [rho_2,0.66]||absRho|[rho_3,0.074]||   lag|    [rho_0,0]||   lag|    [rho_1,1]||   lag|    [rho_2,2]||   lag|    [rho_3,3]|+------+-------------+基本上，我构建了一个数组列，其中包含由列名及其值组成的结构。然后，我使用 explode 函数来展平这个数组。从那里，我们可以pivot像往常一样使用 ;-)// scala and javaexploded_df  .groupBy(col("col.c"))  .pivot("names")  .agg(first(col("col.v")))  .orderBy("c")  .show();+-----+------+---+-----+|    c|absRho|lag|  rho|+-----+------+---+-----+|rho_0|     1|  0|    1||rho_1|  0.89|  1| 0.89||rho_2|  0.66|  2| 0.66||rho_3| 0.074|  3|0.074|+-----+------+---+-----+

如何在 Java 中转置 Apache Spark 数据集

1回答