用Python字符串解码HTML实体？

首页课程实战体系课手记专栏慕课教程

用Python字符串解码HTML实体？

我正在用BeautifulSoup 3解析一些HTML，但是它包含的HTML实体不是针对我自动解码的：

>>> from BeautifulSoup import BeautifulSoup

>>> soup = BeautifulSoup("£682m")

>>> text = soup.find("p").string

>>> print text

£682m

如何解码HTML实体text得到"£682m"而不是"£682m".

智慧大石

浏览 1282回答 4

4回答

慕村9548890

美丽的汤处理实体转换。在“美丽汤”3中，您需要指定convertEntities对BeautifulSoup构造函数(请参阅“实体转换”(存档文档的部分)。在美汤4，实体被自动解码。美汤3>>> from BeautifulSoup import BeautifulSoup>>> BeautifulSoup("£682m", ...                convertEntities=BeautifulSoup.HTML_ENTITIES)£682m美汤4>>> from bs4 import BeautifulSoup>>> BeautifulSoup("£682m")<html><body>£682m</body></html>

0 0

千万里不及你

您可以使用w3lib.html库中的替换_实体。In [202]: from w3lib.html import replace_entitiesIn [203]: replace_entities("£682m")Out[203]:  u'\xa3682m'In [204]: print replace_entities("£682m")£682m

0 0

随时随地看视频慕课网APP