使用 BeautifulSoup 遍历 XML 并拉取下一个兄弟

我已将 PDF 转换为 XML 以便于解析。我的 XML 示例如下：

“日期：”在一行上，下一个兄弟（我认为这就是它的名字）的值是“02/26/2020”。

我试过了：

from bs4 import BeautifulSoup

xml = open("test3.xml").read()

soup = BeautifulSoup(xml)

print(soup.find(text="Date:").findNext('LTTextLineHorizontal').contents[0])

我得到错误：

AttributeError: 'NoneType' object has no attribute 'findNext'

我的目标是遍历 XML 并提取所需的变量（即日期）并将它们放入数据框中。但我什至还没有走到那一步。

输出可能是字典或日期字符串：02/26/2020

慕虎7371278

浏览 216回答 1

1回答

慕娘9325324

使用正则表达式re。import refrom bs4 import BeautifulSoupxml = open("test3.xml").read()soup = BeautifulSoup(xml,'lxml')print(soup.find('lttextboxhorizontal',text=re.compile("Date:")).find_next('lttextboxhorizontal').text)或者import refrom bs4 import BeautifulSoupxml = open("test3.xml").read()soup = BeautifulSoup(xml,'lxml')print(soup.find(text=re.compile("Date:")).find_next('lttextboxhorizontal').text)您可以在没有正则表达式的情况下执行此操作，也可以放置一个空格。from bs4 import BeautifulSoupxml = open("test3.xml").read()soup = BeautifulSoup(xml,'lxml')print(soup.find(text="Date: ").find_next('lttextboxhorizontal').text)

0 0

随时随地看视频慕课网APP