Spark：减去同一数据集行中的值

您可以考虑静态方法。简而言之：import static org.apache.spark.sql.functions.expr;...df = df    .withColumn("time_spent", expr("end - start"))    .drop("start")    .drop("end");expr()将评估您的列中的值。这是正确导入的完整示例。抱歉，示例的大部分内容是关于创建数据框。package net.jgp.books.sparkInAction.ch12.lab990Others;import static org.apache.spark.sql.functions.expr;import java.util.ArrayList;import java.util.List;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.SparkSession;import org.apache.spark.sql.types.DataTypes;import org.apache.spark.sql.types.StructField;import org.apache.spark.sql.types.StructType;/** * Use of expr(). *  * @author jgp */public class ExprApp {  /**   * main() is your entry point to the application.   *    * @param args   */  public static void main(String[] args) {    ExprApp app = new ExprApp();    app.start();  }  /**   * The processing code.   */  private void start() {    // Creates a session on a local master    SparkSession spark = SparkSession.builder()        .appName("All joins!")        .master("local")        .getOrCreate();    StructType schema = DataTypes.createStructType(new StructField[] {        DataTypes.createStructField(            "title",            DataTypes.StringType,            false),        DataTypes.createStructField(            "start",            DataTypes.IntegerType,            false),        DataTypes.createStructField(            "end",            DataTypes.IntegerType,            false) });    List<Row> rows = new ArrayList<Row>();    rows.add(RowFactory.create("bla", 10, 30));    Dataset<Row> df = spark.createDataFrame(rows, schema);    df.show();    df = df        .withColumn("time_spent", expr("end - start"))        .drop("start")        .drop("end");    df.show();  }}

Spark：减去同一数据集行中的值

1回答