我正在尝试从p块中提取链接,但我想忽略括号内的任何内容。例如,
<p>
Some text (even more text <a href='link_text'>link_text</a>) another link <a href='link_text2'>link_text2</a>
</p>
我只想在括号中的内容之后选择任何链接,因此在上述情况下只选择link_text2链接。我目前使用这个获取链接......
ps = content.find_all('p', recursive=False)
for p in ps:
as = p.find_all('a', recursive=False)
我想我必须使用正则表达式,但不确定如何合并它,以便忽略括号中的任何链接。此正则表达式用于隔离括号中的任何内容 - \(.*?\)。
任何人都可以提供帮助?
呼唤远方
相关分类