如何仅从 kafka 源获取值以激发？

3回答

哔哔one

我已经用 from_json 函数完成了！！        SparkSession spark = SparkSession.builder()                .master("local")                .appName("MYApp").getOrCreate();        Dataset<Row> df = spark                .readStream()                .format("kafka")                .option("kafka.bootstrap.servers", Kafka_source)                .option("subscribe", Kafka_topic)                .option("startingOffsets", "earliest")                .option("failOnDataLoss",false)                .load();        Dataset<Row> dg = df.selectExpr("CAST(value AS STRING)");        Dataset<Row> dz = dg.select(                        from_json(dg.col("value"), DataTypes.createStructType(                        new StructField[] {                                DataTypes.createStructField("Name", StringType,true)                        })).getField("Name").alias("Name")                        ,from_json(dg.col("value"), DataTypes.createStructType(                        new StructField[] {                                DataTypes.createStructField("Age", IntegerType,true)                        })).getField("Age").alias("Age")        StreamingQuery queryone = dg.writeStream()                .format("json")                .outputMode("append")                .option("checkpointLocation",Hadoop_path)                .option("path",Hadoop_path)                .start();

0 0

白猪掌柜的

您可以使用 Spark 获得预期的结果，如下所示：SparkSession spark = SparkSession.builder()                .master("local")                .appName("MYApp").getOrCreate();Dataset<Row> df = spark                .readStream()                .format("kafka")                .option("kafka.bootstrap.servers", Kafka_source)                .option("subscribe", Kafka_topic)                .option("startingOffsets", "earliest")                .option("failOnDataLoss",false)                .load();Dataset<Row> dg = df.selectExpr("CAST(value AS STRING)")        .withColumn("Name", functions.json_tuple(functions.col("value"),"Name"))        .withColumn("Age", functions.json_tuple(functions.col("value"),"Age"));StreamingQuery queryone = dg.writeStream()                .format("json")                .outputMode("append")                .option("checkpointLocation",Hadoop_path)                .option("path",Hadoop_path)                .start();基本上，您必须为值列中 json 字符串中的每个字段创建单独的列。

0 0

拉丁的传说

使用以下内容：Dataframe<Row> df = spark                .readStream()                .format("kafka")                .option("kafka.bootstrap.servers", Kafka_source)                .option("subscribe", Kafka_topic)                .option("startingOffsets", "earliest")                .option("failOnDataLoss",false)                .load();df.printSchema();StreamingQuery queryone = df.selectExpr("CAST(value AS STRING)")            .writeStream()            .format("json")            .outputMode("append")            .option("checkpointLocation",Hadoop_path)            .option("path",Hadoop_path)            .start();确保架构包含value作为列。

0 0