如何使用Beautiful Soup提取HTML标记内的特定文本？

首页课程实战体系课手记专栏慕课教程

如何使用Beautiful Soup提取HTML标记内的特定文本？

我有一个这样的HTML标记：

"<li><span class="bold-title">Starts:</span> October 2013</li>"

</ul>

我想提取“ 2013年10月”。

我的代码是：

start_date = articl.find('ul', class_='clearfix').find('li').text.strip()

...摘录为“开始时间：2013年10月”。

如何只取日期呢？

牛魔王的故事

浏览 262回答 3

3回答

catspeake

使用正则表达式：import ress = '''<ul class="clearfix">  <li><span class="bold-title">Starts:</span> October 2013</li>"</ul>blah blah<ul class="clearfix">  <li><<a href="/derives/certificats/"> November 2014     </li>"</ul>   '''regx = re.compile('<ul +class="clearfix">.+?'                  '<li>.*? *([^<>]+?) *</li>',                  re.DOTALL)print regx.findall(ss)# prints ['October 2013', 'November 2014']

0 0

收到一只叮咚

hold = li.textfor eachTag in li.findAll():    hold = hold.replace(eachTag.text,'')

0 0

慕尼黑5688855

使用.contents，它返回一个列表：>>> from bs4 import BeautifulSoup as BS>>> html = (stuff above)>>> soup = BS(html)>>> print soup.find('li').contents[1].strip()October 2013

0 0

随时随地看视频慕课网APP