python utf-8编码的'潜水' 被识别为gb2312

现在是科普时间。（fault 需要科普的太多了，大部分问题根本不是不会，而是基础不行）首先你得先搞清楚什么是编码。对于计算机来说，它认识的就是01，称为 1bit，然后我们一般将 8bit 称为 1byte。那么这 1byte 能表示多少个字符呢？ 2^8 = 256 种。那么问题来了，对于中文来说，上万个字，怎么表示得完啊。于是，就有了用多个 bytes 表示一个字的方法，这个表示方法就叫做编码。而编码有各种不同的标准，比如 gb2312 比如 gb18030 比如 utf8。当你看到一个二进制串的时候，你的告诉我，它是什么编码的，别人才能理解。所以单独给出一个二进制串，它是什么编码的，是没有办法知道的，只能猜。因为很重要，再说一遍，一个二进制串是什么编码的，只能猜，通过组合多个 bytes 看他是否在某个编码下合法，组合出来的字是否常见，猜！所以对于短文本，这是很不准的。甚至有一个二进制传，同时在 utf8 和 gb2312 下都是合法，合理的文字。所以，回到你这个问题，一般来说 gb2312 是 2bytes 的，而且几乎所有的 2bytes 都能转换成 gb2312，所以，当它是一个字的时候，chardet 不会猜它是 gb2312，但是两个字的时候就有可能会。什么是 unicode 这一堆编码有两个问题：世界上有很多语言，有更多种编码 gb2312 只有两字节，表示不完所有语言文字，而 utf8 是不定长的，你没法通过数二进制串知道它有几个字。为了解决这两个问题，unicode 出现了，unicode 设计能够在编码空间内（不准确），容纳所有语言的所有字符。并且它是定长的（不准确）。所以，在 Python 中，我们提倡所有文字都使用 unicode。但是，回到计算机体系中，计算机只认识 01，你是不能将一个 unicode 传递给别的系统的（不准确）。他们之间的传递，必须是二进制串。在这时，你必须将 unicode encode 为一个特定编码，而且这个编码是和对方系统约定好的。不然就会出现乱码，或者异常。这个过程发生在，例如： print 输出将文字保存到文件储存数据库网络发包调用 shell 程序等等。因为很重要再说一遍，你必须和对方系统约定正确的编码。二进制串不指定编码，别人是无法理解的。

python utf-8编码的'潜水' 被识别为gb2312

5回答