我有 1000 个 html 文件,我想从这些文件中提取“项目 1A。风险因素”部分。这些文件都没有任何 id 或任何东西,而且大多数文件都有不同的格式,例如,其中一些在“div”标签中包含文本,其他文件在“p”、“table”等中。
给定特定格式,我可以提取一段文本。例如,这里;我能够从 ITEM 1A 部分中提取文本。使用这段代码的风险因素。
should_print = False
for item in soup.find_all("div"):
if (item.name == "div" and item.parent.name != "div"):
if "ITEM" in item.text and "1A" in item.text and "RISK" in item.text and "FACTORS" in item.text:
should_print = True
elif "ITEM" in item.text and "1B" in item.text:
break
if should_print:
with open(r"RF.html", "a") as f:
f.write(str(item))
我可以编写一个代码来满足所有格式,但我将如何确定在哪个文件上运行什么代码?假设,如果我在包含“p”标签中的文本的文件上运行这个^代码,它会给我垃圾文本。
这里和这里是 html 文件的更多示例。
繁华开满天机
皈依舞
相关分类