使用漂亮的汤和 python 从无序列表中抓取文本

我正在使用 python 和漂亮的汤从网页上抓取信息。我对以下源代码部分感兴趣:


<ul class="breadcrumb">

<li><a href="/" title="Return to the home page">Home</a><span 

class="sprite icon-delimiter"></span></li>

<li><a href="/VehicleSearch/Search/Mini" title="View our range of Mini 

vehicles">Mini</a><span class="sprite icon-delimiter"></span></li>

<li class="active"><a href="/VehicleSearch/Search/Mini/Countryman" 

title="View our range of Mini Countryman">Countryman</a></li>

</ul>

我想提取无序列表项目符号的文本,即“Home”、“Mini”和“Countryman”(也是所有链接)。


到目前为止,我最接近的尝试是:


for ul in soup.findAll('ul', class_='breadcrumb'):

    print(ul.find('a').contents[0])

但这只能找到“主页”链接,而不是其他两个链接。请问如何找到所有三个链接文本?


长风秋雁
浏览 187回答 2
2回答

浮云间

尝试为链接文本添加内循环:for ul in soup.findAll('ul', class_='breadcrumb'):&nbsp; &nbsp; for link in ul.findAll('a'):&nbsp; &nbsp; &nbsp; &nbsp; print(link.text)
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python