我对 PySpark 比较陌生,正在尝试解决数据问题。我有一个 pyspark DF,它是用从 MS SQL Server 中提取的数据创建的,有 2 列:ID(整数)和 XMLMsg(字符串)。第 2 列 XMLMsg 包含 XML 格式的数据。目标是解析 XMLMsg 列并在同一个 DF 中使用从 XML 中提取的列创建其他列。
以下是 pyspark DF 的示例结构:
ID XMLMsg
101 ...<a><b>name1</b><c>loc1</c></a>...<d>dept1</d>...
102 ...<a><b>name2</b><c>loc2</c></a>...<d>dept2</d>...
103 ...<a><b>name3</b><c>loc3</c></a>...<d>dept3</d>...
预期输出是:
ID XMLMsg b c d
101 ...<a><b>name1</b><c>loc1</c></a>...<d>dept1</d>... name1 loc1 dept1
102 ...<a><b>name2</b><c>loc2</c></a>...<d>dept2</d>... name2 loc2 dept2
103 ...<a><b>name3</b><c>loc3</c></a>...<d>dept3</d>... name3 loc3 dept3
根据我在 SO 中的搜索,我尝试了一些建议;然而,未能达到预期的效果。因此,寻求一些帮助和指导。谢谢你的时间。
largeQ
相关分类