解析 Pyspark 数据框中的 XML 列

考虑到我必须从一个巨大的 XML 文件中获取来自 4 个节点的文本，我最终使用 Lambda 和 UDF 解决了这个问题。由于 XML 文件已经在列中并且是 pyspark Dataframe 的一部分，我不想写成文件并再次解析整个 XML。我还想避免使用 XSD 架构。实际的 xml 有多个命名空间和一些具有特定条件的节点。例子：<ap:applicationproduct xmlns:xsi="http://www.example.com/2005/XMLSchema-instance" xmlns:ap="http://example.com/productinfo/1_6" xmlns:ct="http://example.com/commontypes/1_0" xmlns:dc="http://example.com/datacontent/1_0" xmlns:tp="http://aexample.com/prmvalue/1_0" ....." schemaVersion="..">  <ap:ParameterInfo>    <ap:Header>      <ct:Version>1.0</ct:Version>      <ct:Sender>ABC</ct:Sender>      <ct:SenderVersion />      <ct:SendTime>...</ct:SendTime>    </ap:Header>    <ap:ProductID>      <ct:Model>        <ct:Series>34AP</ct:Series>        <ct:ModelNo>013780</ct:ModelNo>     ..............      ..............   <ap:Object>        <ap:Parameter schemaVersion="2.5" Code="DDA">          <dc:Value>            <tp:Blob>mbQAEAgBTgKQEBAX4KJJYABAIASL0AA==</tp:Blob>          </dc:Value>        </ap:Parameter>.................在这里我需要从 ct:ModelNo 和 tp:Blob 中提取值from pyspark.sql.types import *from pyspark.sql.functions import udfimport xml.etree.ElementTree as ET# List of namespaces to be used:ns = {'ap' : 'http://example.com/productinfo/1_6', 'ct':'http://example.com/commontypes/1_0', 'dc':'http://example.com/datacontent/1_0', 'tp':'http://aexample.com/prmvalue/1_0'     }parsed_model = (lambda x:    ET.fromstring(x).find('ap:ParameterInfo/ap:ProductID/ct:Model/ct:ModelNo', ns).text)udf_model = udf(parsed_model)parsed_model_df = df.withColumn('ModelNo', udf_Model('XMLMsg'))同样对于具有 blob 值的节点，可以编写类似的函数，但节点的路径将是：'ap:ParameterInfo/ap:Object/ap:Parameter[@Code="DDA"]/dc:Value/tp:Blob'这对我有用，我能够在 pyspark DF 中添加所需的值。欢迎提出任何建议以使其变得更好。谢谢你！

解析 Pyspark 数据框中的 XML 列

1回答