我正在使用 Beautifulsoup 在 Python 中进行网络抓取。我正在尝试以粗体或斜体或两者提取文本。考虑以下 HTML 片段。
<div>
<b>
<i>
HelloWorld
</i>
</b>
</div>
如果我使用 command sp.find_all(['i', 'b'])
,可以理解,我会得到两个结果,一个对应于粗体,另一个对应于斜体。IE
['<b><i>HelloWorld</i></b>', '<i>HelloWorld</i>']
我的问题是,有没有办法唯一地提取它并获取标签?我想要的输出是这样的 -
标签:文本 - HelloWorld,标签名:[b,i]
请注意,比较文本并剔除文本的非唯一出现不是一个可行的选择,因为我可能在文本中重复了很多次“HelloWorld”,而我想将其提取出来。
谢谢!
元芳怎么了
婷婷同学_
相关分类