Python BeautifulSoup 在特定标签之后提取文本

3回答

慕标5832272

你可以用很多方法来做。给你。from bs4 import BeautifulSouphtmldata='''<div class="row">    ::before    <div class="four columns">        <p class="title">Procurement type</p>        <p class="data strong">Services</p>    </div>  <div class="four columns">      <p class="title">Reference</p>      <p class="data strong">ANAJSKJD23423-Commission</p>  </div>  <div class="four columns">      <p class="title">Funding Agency</p>      <p class="data strong">Health Commission</p>  </div>  ::after</div><div class="row">    ::before    ::after</div><hr><div class="row">    ::before    <div class="twelve columns">        <p class="title">Countries</p>        <p class="data strong">            <span class>Belgium</span>            ", "            <span class>France</span>            ", "            <span class>Luxembourg</span>        </p>        <p></p>    </div>    ::after</div>'''soup=BeautifulSoup(htmldata,'html.parser')items=soup.find_all('p', class_='title')for item in items:    if ('Procurement type' in item.text) or ('Reference' in item.text):        print(item.findNext('p').text)

0 0

Qyouu

您还可以:contains在 bs4 4.7.1 中使用伪类。虽然我已经通过了一个列表，但您可以将每个条件分开from bs4 import BeautifulSoup as bsimport rehtml = 'yourHTML'   soup = bs(html, 'lxml')items=[re.sub(r'\n\s+','', item.text.strip()) for item in soup.select('p.title:contains("Procurement type") + p, p.title:contains(Reference) + p, p.title:contains(Countries) + p')]print(items)输出：

0 0

江户川乱折腾

您可以添加参数检查，当你使用特定的文本.find()或.find_all()再使用.next_sibling或findNext()抓住与内容的下一个标签IE：soup.find('p', {'class':'title'}, text = 'Procurement type')鉴于：html = '''<div class="row">    ::before    <div class="four columns">        <p class="title">Procurement type</p>        <p class="data strong">Services</p>    </div>  <div class="four columns">      <p class="title">Reference</p>      <p class="data strong">ANAJSKJD23423-Commission</p>  </div>  <div class="four columns">      <p class="title">Funding Agency</p>      <p class="data strong">Health Commission</p>  </div>  ::after</div><div class="row">    ::before    ::after</div><hr><div class="row">    ::before    <div class="twelve columns">        <p class="title">Countries</p>        <p class="data strong">            <span class>Belgium</span>            ", "            <span class>France</span>            ", "            <span class>Luxembourg</span>        </p>        <p></p>    </div>    ::after</div>'''你可以这样做：from bs4 import BeautifulSoup     soup = BeautifulSoup(html, 'html.parser')alpha = soup.find('p', {'class':'title'}, text = 'Procurement type')for sibling in alpha.next_siblings:    try:        print (sibling.text)    except:        continue输出：Services或者ref = soup.find('p', {'class':'title'}, text = 'Reference')for sibling in ref.next_siblings:    try:        print (sibling.text)    except:        continue输出：ANAJSKJD23423-Commission    或者countries = soup.find('p', {'class':'title'}, text = 'Countries')names = countries.findNext('p', {'class':'data strong'}).text.replace('", "','').strip().split('\n')names = [name.strip() for name in names if not name.isspace()]for country in names:    print (country)输出：BelgiumFranceLuxembourg

0 0