前言
编码问题是开发人员必须接触的问题,也是必须重视的问题,而针对编码比较重点的其实就是中文编码,如何让中文的显示不出现乱码,是开发人员注意的重中之重。
1 为什么要编码
人类有很多种语言,但是在计算机中,只有0和1,通过计算机中基本的存储单元-字节(byte)来表如此众多的语言,显然是一个非常巨大的工程,我们可以把计算机能够理解的语言假定为英语,毕竟也真的是英语,然后其他语言要能够在计算机中使用,必须经过一次翻译,把它翻译成英语,这个过程就是编码。
一句话,我们的汉语变英语,英语再变成0和1.
2 几种编码格式
编号 | 名称 | 简介 |
---|---|---|
1 | ASCII 码 | 总共128个,可以表示键盘上的基本字符 |
2 | ISO-8859-1 | 单字节编码,扩展了ASCII编码,总共能表示256个字符 |
3 | GB2312 | 全称是《信息技术 中文编码字符集》,双字节编码 |
4 | GBK | 全称是《汉子内码扩展规范》与GB2312兼容 |
5 | GB18030 | 全称《信息技术中文编码字符集》,使用不广泛 |
6 | UTF-16 | Universal Code 统一码,ISO师徒创建一个全新的超语言字典,世界上所有语言都用这个翻译。该编码统一使用两个字节来表示,每两个字节表示一个字符,简化字符串的操作。 |
7 | UTF-8 | 长度变长,不像Unicode统一用两个字节来编码,UTF-8长度可变,不同类型的字符可以由1-6个字节组成 |