我正在做的是:
通过javascript,阅读网页的DOM
转换为json字符串
作为ajax发送到python
在Python中,json将字符串解码为对象
我想要的是将json中包含的任何文本都采用unicode以避免任何字符问题。我曾经为此使用beautifulsoup:
from bs4 import *
from bs4.dammit import UnicodeDammit
text_unicode = UnicodeDammit(text, [None, None], "html", True).unicode_markup
但这不适用于json字符串。当我尝试对字符串进行json解码时,通过UnicodeDammit运行字符串会导致错误。
问题是,我什至不确定收集DOM不会自动处理此问题。
因此,对于初学者来说,我想要一系列测试网页来对此进行测试。其中一个是用utf-8编码的,另一个是用其他东西编码的,依此类推。例如,如果您认为它是utf-8,但不是,则使用看起来错误的字符。请注意,我什至不用考虑网页的声明编码。这常常是错误的。
慕沐林林
相关分类