这是示例程序:
from bs4 import BeautifulSoup
import HTMLParser
soup = BeautifulSoup('', 'html.parser')
html = soup.new_tag('html')
head = soup.new_tag('head')
body = soup.new_tag('body')
html.insert(0, head)
html.insert(1, body)
soup.insert(0, html)
blockquote = soup.new_tag('blockquote')
sourceStr = "This is <i>My Website Title</i>, just for example."
blockquote.insert(0, BeautifulSoup(HTMLParser.HTMLParser().unescape(sourceStr), 'html.parser'))
soup.body.insert(1, blockquote)
print soup.prettify()
它生成以下输出:
<html>
<head>
</head>
<body>
<blockquote>
This is
<i>
My Website Title
</i>
, just for example.
</blockquote>
</body>
</html>
它实际上显示在浏览器中,例如:
这是我的网站标题,例如。
在“我的网站标题”和以下逗号之间添加了额外的空格。如何避免通过 BeautifulSoup 添加额外的空格?
如果不使用任何字符串操作,有没有办法使用 BeautifulSoup 方法来处理这个问题?
相关分类