通过执行数据库提取操作动态生成 Spark 列

我有一个包含2列的火花数据帧。

我想在火花数据帧上生成第3列。

第 3 列必须由使用前 2 列从 DB 提取的值填充。

data = data.withColumn("z", getValueOfZ(col("x"),col("y")));

我无法弄清楚,如何在函数中使用x和y填充y的值。getValueOfZ() 需要根据 x 和 y 的值执行选择查询,并返回 Z 的值getValueOfZ()


慕无忌1623718
浏览 138回答 1
1回答

芜湖不芜

我不知道应该做什么。使用 Spark 有 3 个选项。getValueOfY()操作简单如果是简单的操作,则可以使用.例如,如果结果是 x 和 y 的总和,则可以使用:expr()df = df.withColumn("y", expr("x + y")));您可以通过以下方式使用:expr()import static org.apache.spark.sql.functions.expr;内置函数Spark提供了很多这样的功能。他们的Javadoc可以在这里找到。自定义 UDF 转换如果您的代码更复杂,并且无法通过表达式或函数进行处理,则可以调用 UDF(用户定义函数)。我希望它有帮助,不要犹豫,评论提出更多问题。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Java