对大型XML文件使用Python Iterparse

以我的经验，有或没有element.clear（请参阅F. Lundh和L. Daly）的iterparse 不能总是处理非常大的XML文件：它运行良好一段时间，突然内存消耗飞速上升，并且发生内存错误或系统崩溃。如果遇到相同的问题，也许可以使用相同的解决方案：expat解析器。另请参见F. Lundh或以下使用OP的XML代码段的示例（另加两个表示检查是否存在编码问题的文字）：import xml.parsers.expatfrom collections import dequedef iter_xml(inpath: str, outpath: str) -> None:    def handle_cdata_end():        nonlocal in_cdata        in_cdata = False    def handle_cdata_start():        nonlocal in_cdata        in_cdata = True    def handle_data(data: str):        nonlocal in_cdata        if not in_cdata and open_tags and open_tags[-1] == 'desc':            data = data.replace('\\', '\\\\').replace('\n', '\\n')            outfile.write(data + '\n')    def handle_endtag(tag: str):        while open_tags:            open_tag = open_tags.pop()            if open_tag == tag:                break    def handle_starttag(tag: str, attrs: 'Dict[str, str]'):        open_tags.append(tag)    open_tags = deque()    in_cdata = False    parser = xml.parsers.expat.ParserCreate()    parser.CharacterDataHandler = handle_data    parser.EndCdataSectionHandler = handle_cdata_end    parser.EndElementHandler = handle_endtag    parser.StartCdataSectionHandler = handle_cdata_start    parser.StartElementHandler = handle_starttag    with open(inpath, 'rb') as infile:        with open(outpath, 'w', encoding = 'utf-8') as outfile:            parser.ParseFile(infile)iter_xml('input.xml', 'output.txt')input.xml中：<root>    <item>    <title>Item 1</title>    <desc>Description 1ä</desc>    </item>    <item>    <title>Item 2</title>    <desc>Description 2ü</desc>    </item></root>output.txt的：Description 1äDescription 2ü

对大型XML文件使用Python Iterparse

3回答