彻底搞懂困扰程序员多年的GBK 和 UTF8

其实当你了解了这两个编码方式后，你就会知道GBK是中国标准，UTF8是网络传输标准，Unicode是全球标准。

我们首先介绍下GBK:（GBK的发展史）

那么我们不得不提的是区位码：

其中前两位为“区”，后两位为“位”，中文汉字的编号区号是从16开始的，位号从1开始。前面的区号有一些符号、数字、字母、注音符号（台）、制表符、日文等等。简单来说就是0~1599表示的是除汉字之外的字符编号。1600~9999其中部分代表汉字编号，当然当时的汉字数量应该没有占用完所有的编号。

接下来发展到GB2312：

是基于区位码的，用双字节编码表示中文和中文符号。一般编码方式是：0xA0+区号，0xA0+位号。如下表中的 “安”，区位号是1618（十进制），那么“安”字的GB2312编码就是 0xA0+16 0xA0+18 也就是 0xB0 0xB2 。根据区位码表，GB2312的汉字编码范围是0xB0A1~0xF7FE

彻底搞懂困扰程序员多年的GBK 和 UTF8

以ASCII编码，也就是说现代的GBK编码是兼容ASCII编码的。比如一个数字2，对应的二进制是0x32，而不是 0xA3 0xB2。那么问题来了，0xA3 0xB2 又对应到什么呢？还是２。注意看了，这里的２跟2是不是有点不太一样？！确实是不一样的。这里的双字节２是全角的二，ASCII的2是半角的二，一般输入法里的切换全角半角就是这里不同。

彻底搞懂困扰程序员多年的GBK 和 UTF8