将XML/HTML实体转换为Python中的Unicode字符串
我正在做一些Web抓取,网站经常使用HTML实体来表示非ascii字符。Python是否有一个带有HTML实体的字符串并返回Unicode类型的实用程序?
例如:
我回来了:
ǎ
表示带有音调标记的“ǎ”。在二进制文件中,这被表示为16位01ce。我希望将html实体转换为值。u'\u01ce'
u'\u01ce'
饮歌长啸
哔哔one
婷婷同学_
相关问题
相关分类