我目前正在使用Beautiful Soup解析HTML文件并调用get_text()
,但似乎我剩下很多\ xa0 Unicode表示空格。有没有一种有效的方法可以在Python 2.7中将其全部删除,并将其更改为空格?我想更笼统的问题是,有没有办法删除Unicode格式?
我尝试使用:line = line.replace(u'\xa0',' ')
,如另一个线程所建议的那样,但是将\ xa0更改为u,所以现在到处都是“ u”。):
编辑:问题似乎已由解决str.replace(u'\xa0', ' ').encode('utf-8')
,但.encode('utf-8')
不这样做replace()
似乎会导致它吐出甚至更奇怪的字符,例如\ xc2。谁能解释一下?
繁星淼淼
Smart猫小萌
相关分类