使用 java 将索引列添加到 apache spark Dataset<Row>

上面的答案经过一些调整对我有用。下面是一个功能性的 Intellij Scratch 文件。我在 Spark 2.3.0 上：import org.apache.spark.api.java.JavaRDD;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.SparkSession;import org.apache.spark.sql.functions;import org.apache.spark.sql.types.DataTypes;import org.apache.spark.sql.types.Metadata;import org.apache.spark.sql.types.StructField;import org.apache.spark.sql.types.StructType;import java.util.ArrayList;class Scratch {    public static void main(String[] args) {        SparkSession spark = SparkSession                    .builder()                    .appName("_LOCAL")                    .master("local")                    .getOrCreate();        Dataset<Row> df = spark.range(5)                .withColumn("index1", functions.monotonicallyIncreasingId());        Dataset<Row> result = zipWithIndex(df, "good_index");        result.show();    }    public static Dataset<Row> zipWithIndex(Dataset<Row> df, String name) {        JavaRDD<Row> rdd = df.javaRDD().zipWithIndex().map(t -> {            Row r = t._1;            Long index = t._2 + 1;            ArrayList<Object> list = new ArrayList<>();            scala.collection.Iterator<Object> iterator = r.toSeq().iterator();            while(iterator.hasNext()) {                Object value = iterator.next();                assert value != null;                list.add(value);            }            list.add(index);            return RowFactory.create(list.toArray());        });        StructType newSchema = df.schema()                .add(new StructField(name, DataTypes.LongType, true, Metadata.empty()));        return df.sparkSession().createDataFrame(rdd, newSchema);    }}输出：+---+------+----------+| id|index1|good_index|+---+------+----------+|  0|     0|         1||  1|     1|         2||  2|     2|         3||  3|     3|         4||  4|     4|         5|+---+------+----------+

使用 java 将索引列添加到 apache spark Dataset<Row>

2回答