精华内容
参与话题
问答
  • Unicode 和 UTF-8、UTF-16UTF-32之间的关系 要厘清它们之间的关系就要先从编码开始说起: ASCII码 我们都知道,在计算机的世界里,信息的表示方式只有 0 和 1,但是我们人类信息表示的方式却与之大不相同,很多时候...

    Unicode 和 UTF-8、UTF-16、UTF-32之间的关系

    要厘清它们之间的关系就要先从编码开始说起:

    ASCII码

    我们都知道,在计算机的世界里,信息的表示方式只有 0 和 1,但是我们人类信息表示的方式却与之大不相同,很多时候是用语言文字、图像、声音等传递信息的。
    那么我们怎样将其转化为二进制存储到计算机中,这个过程我们称之为编码。更广义地讲就是把信息从一种形式转化为另一种形式的过程。
    我们知道一个二进制有两种状态:”0” 状态 和 “1”状态,那么它就可以代表两种不同的东西,我们想赋予它什么含义,就赋予什么含义,比如说我规定,“0” 代表 “吃过了”, “1”代表 “还没吃”。
    这样,我们就相当于把现实生活中的信息编码成二进制数字了,并且这个例子中是一位二进制数字,那么 2 位二进制数可以代表多少种情况能?对,是四种,2^2,分别是 00、01、10、11,那7种呢?
    答案是2^7=128。
    我们知道,在计算机中每八个二进制位组成了一个字节(Byte),计算机存储的最小单位就是字节,字节如下图所示 :

    在这里插入图片描述
    所以早期人们用 8 位二进制来编码英文字母(最前面的一位是 0),也就是说,将英文字母和一些常用的字符和这 128 中二进制 0、1 串一一对应起来,比如说 大写字母“A”所对应的二进制位“01000001”,转换为十六进制为 41。
    在美国,这 128 是够了,但是其他国家不答应啊,他们的字符和英文是有出入的,比如在法语中在字母上有注音符号,如 é ,这个怎么表示成二进制?
    所以各个国家就决定把字节中最前面未使用的那一个位拿来使用,原来的 128 种状态就变成了 256 种状态,比如 é 就被编码成 130(二进制的 10000010)。
    为了保持与 ASCII 码的兼容性,一般最高位为 0 时和原来的 ASCII 码相同,最高位为 1 的时候,各个国家自己给后面的位 (1xxx xxxx) 赋予他们国家的字符意义。
    但是这样一来又有问题出现了,不同国家对新增的 128 个数字赋予了不同的含义,比如说 130 在法语中代表了 é,但是在希伯来语中却代表了字母 Gimel(这不是希伯来字母,只是读音翻译成英文的形式)具体的希伯来字母 Gimel 看下图
    在这里插入图片描述
    所以这就成了不同国家有不同国家的编码方式,所以如果给你一串二进制数,你想要解码,就必须知道它的编码方式,不然就会出现我们有时候看到的乱码 。

    Unicode的出现

    Unicode 为世界上所有字符都分配了一个唯一的数字编号,这个编号范围从 0x000000 到 0x10FFFF (十六进制),有 110 多万,每个字符都有一个唯一的 Unicode 编号,这个编号一般写成 16 进制,在前面加上 U+。例如:“马”的 Unicode 是U+9A6C。
    Unicode 就相当于一张表,建立了字符与编号之间的联系。
    在这里插入图片描述
    它是一种规定,Unicode 本身只规定了每个字符的数字编号是多少,并没有规定这个编号如何存储。
    有的人会说了,那我可以直接把 Unicode 编号直接转换成二进制进行存储,是的,你可以,但是这个就需要人为的规定了,而 Unicode 并没有说这样弄,因为除了你这种直接转换成二进制的方案外,还有其他方案,接下来我们会逐一看到。
    编号怎么对应到二进制表示呢?有多种方案:主要有 UTF-8,UTF-16,UTF-32。

    1、UTF-32

    这个就是字符所对应编号的整数二进制形式,四个字节。这个就是直接转换。 比如马的 Unicode 为:U+9A6C,那么直接转化为二进制,它的表示就为:1001 1010 0110 1100。
    这里需要说明的是,转换成二进制后计算机存储的问题,我们知道,计算机在存储器中排列字节有两种方式:大端法和小端法,大端法就是将高位字节放到低地址处,比如 0x1234, 计算机用两个字节存储,一个是高位字节 0x12,一个是低位字节 0x34,它的存储方式为下:
    在这里插入图片描述
    UTF-32 用四个字节表示,处理单元为四个字节(一次拿到四个字节进行处理),如果不分大小端的话,那么就会出现解读错误,比如我们一次要处理四个字节 12 34 56 78,这四个字节是表示 0x12 34 56 78 还是表示 0x78 56 34 12?不同的解释最终表示的值不一样。
    我们可以根据他们高低字节的存储位置来判断他们所代表的含义,所以在编码方式中有 UTF-32BE 和 UTF-32LE,分别对应大端和小端,来正确地解释多个字节(这里是四个字节)的含义。

    2、UTF-16

    UTF-16 使用变长字节表示
    ① 对于编号在 U+0000 到 U+FFFF 的字符(常用字符集),直接用两个字节表示。
    ② 编号在 U+10000 到 U+10FFFF 之间的字符,需要用四个字节表示。
    同样,UTF-16 也有字节的顺序问题(大小端),所以就有 UTF-16BE 表示大端,UTF-16LE 表示小端。

    3、UTF-8

    UTF-8 就是使用变长字节表示,顾名思义,就是使用的字节数可变,这个变化是根据 Unicode 编号的大小有关,编号小的使用的字节就少,编号大的使用的字节就多。使用的字节个数从 1 到 4 个不等。
    UTF-8 的编码规则是:

    ① 对于单字节的符号,字节的第一位设为 0,后面的7位为这个符号的 Unicode 码,因此对于英文字母,UTF-8 编码和 ASCII 码是相同的。

    ② 对于n字节的符号 (n>1),第一个字节的前 n 位都设为 1,第 n+1 位设为 0,后面字节的前两位一律设为 10,剩下的没有提及的二进制位,全部为这个符号的 Unicode 码 。

    举个例子:比如说一个字符的 Unicode 编码是 130,显然按照 UTF-8 的规则一个字节是表示不了它(因为如果是一个字节的话前面的一位必须是 0),所以需要两个字节(n = 2)。
    根据规则,第一个字节的前 2 位都设为 1,第 3(2+1) 位设为 0,则第一个字节为:110X XXXX,后面字节的前两位一律设为 10,后面只剩下一个字节,所以后面的字节为:10XX XXXX。
    所以它的格式为 110XXXXX 10XXXXXX 。

    下面我们来具体看看具体的 Unicode 编号范围对应的 UTF-8 二进制格式
    在这里插入图片描述
    那么对于一个具体的 Unicode 编号,具体怎么进行 UTF-8 的编码呢?
    首先找到该 Unicode 编号所在的编号范围,进而可以找到与之对应的二进制格式,然后将该 Unicode 编号转化为二进制数(去掉高位的 0),最后将该二进制数从右向左依次填入二进制格式的 X 中,如果还有 X 未填,则设为 0 。
    比如:“马”的 Unicode 编号是:0x9A6C,整数编号是 39532,对应第三个范围(2048 - 65535),其格式为:1110XXXX 10XXXXXX 10XXXXXX,39532 对应的二进制是 1001 1010 0110 1100,将二进制填入进去就为:
    11101001 10101001 10101100 。

    在这里插入图片描述
    在这里插入图片描述
    由于 UTF-8 的处理单元为一个字节(也就是一次处理一个字节),所以处理器在处理的时候就不需要考虑这一个字节的存储是在高位还是在低位,直接拿到这个字节进行处理就行了,因为大小端是针对大于一个字节的数的存储问题而言的。

    综上所述,UTF-8、UTF-16、UTF-32 都是 Unicode 的一种实现。

    展开全文
  • 首先需要知道 Unicode 编码范围 [U+00, U+10FFFF], 其中 [U+00, U+FFFF] 称为基础平面...0x010000 - 0x10FFFF 为辅助平面,共可存放16 * 65536个字符,划分为16个不同的平面 http://www.oschina.net/code/snipp...
    首先需要知道 Unicode 编码范围 [U+00, U+10FFFF], 其中 [U+00, U+FFFF] 称为基础平面(BMP), 这其中的字符最为常用.
    当然, 这 65536 个字符是远远不够的.
    0x010000 - 0x10FFFF 为辅助平面, 共可存放16 * 65536个字符,划分为16个不同的平面
     
    http://www.oschina.net/code/snippet_179574_15065
    按照如下的编码方式,对UTF8和UTF16之间进行转换 

    从UCS-2到UTF-8的编码方式如下(没有处理扩展面):

    UCS-2编码(16进制) UTF-8 字节流(二进制)
    0000 - 007F 0xxxxxxx
    0080 - 07FF 110xxxxx 10xxxxxx
    0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
     
    typedef unsigned long   UTF32;  /* at least 32 bits */
    typedef unsigned short  UTF16;  /* at least 16 bits */
    typedef unsigned char   UTF8;   /* typically 8 bits */
    typedef unsigned int    INT;
     
    /*
    UCS-2编码    UTF-8 字节流(二进制)
    0000 - 007F  0xxxxxxx
    0080 - 07FF 110xxxxx 10xxxxxx
    0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
    */
     
    #define UTF8_ONE_START      (0xOOO1)
    #define UTF8_ONE_END        (0x007F)
    #define UTF8_TWO_START      (0x0080)
    #define UTF8_TWO_END        (0x07FF)
    #define UTF8_THREE_START    (0x0800)
    #define UTF8_THREE_END      (0xFFFF)
     
     
    void UTF16ToUTF8(UTF16* pUTF16Start, UTF16* pUTF16End, UTF8* pUTF8Start, UTF8* pUTF8End)
    {
        UTF16* pTempUTF16 = pUTF16Start;
        UTF8* pTempUTF8 = pUTF8Start;
     
        while (pTempUTF16 < pUTF16End)
        {
            if (*pTempUTF16 <= UTF8_ONE_END
                && pTempUTF8 + 1 < pUTF8End)
            {
                //0000 - 007F  0xxxxxxx
                *pTempUTF8++ = (UTF8)*pTempUTF16;
            }
            else if(*pTempUTF16 >= UTF8_TWO_START && *pTempUTF16 <= UTF8_TWO_END
                && pTempUTF8 + 2 < pUTF8End)
            {
                //0080 - 07FF 110xxxxx 10xxxxxx
                *pTempUTF8++ = (*pTempUTF16 >> 6) | 0xC0;
                *pTempUTF8++ = (*pTempUTF16 & 0x3F) | 0x80;
            }
            else if(*pTempUTF16 >= UTF8_THREE_START && *pTempUTF16 <= UTF8_THREE_END
                && pTempUTF8 + 3 < pUTF8End)
            {
                //0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
                *pTempUTF8++ = (*pTempUTF16 >> 12) | 0xE0;
                *pTempUTF8++ = ((*pTempUTF16 >> 6) & 0x3F) | 0x80;
                *pTempUTF8++ = (*pTempUTF16 & 0x3F) | 0x80;
            }
            else
            {
                break;
            }
            pTempUTF16++;
        }
        *pTempUTF8 = 0;
    }
     
    void UTF8ToUTF16(UTF8* pUTF8Start, UTF8* pUTF8End, UTF16* pUTF16Start, UTF16* pUTF16End)
    {
        UTF16* pTempUTF16 = pUTF16Start;
        UTF8* pTempUTF8 = pUTF8Start;
     
        while (pTempUTF8 < pUTF8End && pTempUTF16+1 < pUTF16End)
        {
            if (*pTempUTF8 >= 0xE0 && *pTempUTF8 <= 0xEF)//是3个字节的格式
            {
                //0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
                *pTempUTF16 |= ((*pTempUTF8++ & 0xEF) << 12);
                *pTempUTF16 |= ((*pTempUTF8++ & 0x3F) << 6);
                *pTempUTF16 |= (*pTempUTF8++ & 0x3F);
     
            }
            else if (*pTempUTF8 >= 0xC0 && *pTempUTF8 <= 0xDF)//是2个字节的格式
            {
                //0080 - 07FF 110xxxxx 10xxxxxx
                *pTempUTF16 |= ((*pTempUTF8++ & 0x1F) << 6);
                *pTempUTF16 |= (*pTempUTF8++ & 0x3F);
            }
            else if(*pTempUTF8 >= 0 && *pTempUTF8 <= 0x7F)//是1个字节的格式
            {
                //0000 - 007F  0xxxxxxx
                *pTempUTF16 = *pTempUTF8++;
            }
            else
            {
                break;
            }
            pTempUTF16++;
        }
        *pTempUTF16 = 0;
    }
     
     
    int main()
    {
        UTF16 utf16[256] = {L"你a好b吗234中国~!"};
        UTF8 utf8[256];
         
        UTF16ToUTF8(utf16, utf16+wcslen(utf16), utf8, utf8+256);
     
        memset(utf16, 0, sizeof(utf16));
     
        UTF8ToUTF16(utf8, utf8 + strlen(utf8), utf16, utf16+256);
     
     
        return 0;
    }
    

      UTF-16 并不比 UTF-8 更受待见, 只是 Windows 默认使用 UTF-16 而已, 所以不得不在它们之间做转换(如果你还在使用非 Unicode 编码, 那你已经是受到微软的毒害了)

      当然, 万恶的微软还是给出了更简单的方法的, 那就是下面的两个函数:

    WideCharToMultiByte

    将UTF-16(宽字符)字符串映射到新的字符串。新的字符串不一定来自多字节字符集。(那你取这个名字是闹哪样? 多字节字符集是什么鬼??? 你怎么不去屎)

    https://msdn.microsoft.com/en-us/library/windows/desktop/dd374130(v=vs.85).aspx

    MultiByteToWideChar 

    将字符串映射到UTF-16(宽字符)字符串。字符串不一定来自多字节字符集。

     https://msdn.microsoft.com/en-us/library/windows/desktop/dd319072(v=vs.85).aspx

     

    程序: 将 UTF-16 编码的字符串转换为 UTF-8 编码, 并在控制台输出

    #include <Windows.h>
    #include <stdio.h>
    #include <stdlib.h>
    #include <string.h>
    
    void use(const char *utf8str) {
    	system("Pause");
    	system("chcp 65001");
    	if (utf8str == NULL) {
    		printf("NULL\n");
    		return;
    	}
    	printf("%s\n", utf8str);
    }
    
    char *utf16to8(const wchar_t *str) {
    	if (str == NULL) {
    		return NULL;
    	}
    	int cBuf = 0; // 缓冲区大小
    	// 计算缓冲区需要的大小, 如果函数成功, 则返回值至少是 2 (UTF-8以0x0000结尾)
    	if (cBuf = WideCharToMultiByte(
    		CP_UTF8,
    		0,
    		str,
    		-1,
    		NULL,
    		0,
    		NULL,
    		NULL), !cBuf ){
    			// 计算失败
    			fprintf(stderr, "计算内存失败!");
    			return NULL;
    	}
    	printf("缓冲区大小 %d .\n", cBuf);
    	char *buf = NULL; // 指向缓冲区
    	buf = (char *)malloc(cBuf); // 分配缓冲区
    	if (!WideCharToMultiByte(
    		CP_UTF8,
    		0,
    		str,
    		-1,
    		buf,
    		1024,
    		NULL,
    		NULL) ){
    			fprintf(stderr, "转换失败!\n");
    			return NULL;
    	}
    	// 返回缓冲区地址
    	return buf;
    }
    
    void run() {
    	const wchar_t *str = L"Hello你好我的朋友!";
    	char *utf8str = utf16to8(str);
    	use(utf8str);
         free(utf8str); } int main(int argc, char* argv[]) { run(); system("Pause"); return EXIT_SUCCESS; }

      Output如下------>

    缓冲区大小 25 .
    请按任意键继续. . .

    Active code page: 65001
    Hello你好我的朋友!
    Press any key to continue . . .

    上面这个函数调用了两次 WideCharToMultiByte(), 第一次是计算转换所需的空间, 第二次开始转换(It's stupid!)

    那么依葫芦画瓢, 你现在可以将 UTF-8 -> UTF16了吗?

     

     

    补两张图

     

     

     

     

    转载于:https://www.cnblogs.com/develon/p/9164566.html

    展开全文
  • 最近需要对Linux与Windows平台下的字符传输出现乱码,对...参考了网上的UTF-8/UTF-16转换的资料,只有0x10000以下的Unicode编码进行了转换;对其代码进行了修改和补充,可以实现所有的UTF-8/UTF-16的转换,分享给大家。
  • UTF8与UTF16区别

    千次阅读 2017-12-06 09:17:16
     为啥需要Unicode    我们知道计算机其实挺笨的,它只认识0101这样的字符串,当然了我们看这样的01串时肯定会比较头晕的,所以很多时候为了描述简单都用十进制,十六进制,八进制表示.实际上都是等价的,没啥太多...
    

    为啥需要Unicode

     

          我们知道计算机其实挺笨的,它只认识0101这样的字符串,当然了我们看这样的01串时肯定会比较头晕的,所以很多时候为了描述简单都用十进制,十六进制,八进制表示.实际上都是等价的,没啥太多不一样.其他啥文字图片之类的其他东东计算机不认识.那为了在计算机上表示这些信息就必须转换成一些数字.你肯定不能想怎么转换就怎么转,必须得有定些规则.于是刚开始的时候就有ASCII字符集(American Standard Code for Information Interchange, "美国信息交换标准码),它使用7 bits来表示一个字符,总共表示128个字符,我们一般都是用字节(byte,即8个01串)来作为基本单位.那么怎么当用一个字节来表示字符时第一个bit总是0,剩下的七个字节就来表示实际内容.后来IBM公司在此基础上进行了扩展,用8bit来表示一个字符,总共可以表示256个字符.也就是当第一个bit是0时仍表示之前那些常用的字符.当为1时就表示其他补充的字符.

            英文字母再加一些其他标点字符之类的也不会超过256个.一个字节表示主足够了.但其他一些文字不止这么多 ,像汉字就上万个.于是又出现了其他各种字符集.这样不同的字符集交换数据时就有问题了.可能你用某个数字表示字符A,但另外的字符集又是用另外一个数字表示A.这样交互起来就麻烦了.于是就出现了Unicode和ISO这样的组织来统一制定一个标准,任何一个字符只对应一个确定的数字.ISO取的名字叫UCS(Universal Character Set),Unicode取的名字就叫unicode了.

          总结起来为啥需要Unicodey就是为了适应全球化的发展,便于不同语言之间的兼容交互,而ASCII不再能胜任此任务了.

     

    Unicode详细介绍

     

    1.容易产生后歧义的两字节

            unicode的第一个版本是用两个字节(16bit)来表示所有字符

            .实际上这么说容易让人产生歧义,我们总觉得两个字节就代表保存在计算机中时是两个字节.于是任何字符如果用unicode表示的话保存下来都占两个字节.其实这种说法是错误的.

         其实Unicode涉及到两个步骤,首先是定义一个规范,给所有的字符指定一个唯一对应的数字,这完全是数学问题,可以跟计算机没半毛钱关系.第二步才是怎么把字符对应的数字保存在计算机中,这才涉及到实际在计算机中占多少字节空间.

         所以我们也可以这样理解,Unicode是用0至65535之间的数字来表示所有字符.其中0至127这128个数字表示的字符仍然跟ASCII完全一样.65536是2的16次方.这是第一步.第二步就是怎么把0至65535这些数字转化成01串保存到计算机中.这肯定就有不同的保存方式了.于是出现了UTF(unicode transformation format),有UTF-8,UTF-16.

     

    2.UTF-8 与UTF-16的区别

        UTF-16比较好理解,就是任何字符对应的数字都用两个字节来保存.我们通常对Unicode的误解就是把Unicode与UTF-16等同了.但是很显然如果都是英文字母这做有点浪费.明明用一个字节能表示一个字符为啥整两个啊.

       于是又有个UTF-8,这里的8非常容易误导人,8不是指一个字节,难道一个字节表示一个字符?实际上不是.当用UTF-8时表示一个字符是可变的,有可能是用一个字节表示一个字符,也可能是两个,三个.当然最多不能超过3个字节了.反正是根据字符对应的数字大小来确定.

       于是UTF-8和UTF-16的优劣很容易就看出来了.如果全部英文或英文与其他文字混合,但英文占绝大部分,用UTF-8就比UTF-16节省了很多空间.而如果全部是中文这样类似的字符或者混合字符中中文占绝大多数.UTF-16就占优势了,可以节省很多空间.另外还有个容错问题,等会再讲

      看的有点晕了吧,举个例子.假如中文字"汉"对应的unicode是6C49(这是用十六进制表示,用十进制表示是27721为啥不用十进制表示呢?很明显用十六进制表示要短点.其实都是等价的没啥不一样.就跟你说60分钟和1小时一样.).你可能会问当用程序打开一个文件时我们怎么知道那是用的UTF-8还是UTF-16啊.自然会有点啥标志,在文件的开头几个字节就是标志.

    EF BB BF 表示UTF-8

    FE FF 表示UTF-16.

     

    用UTF-16表示"汉"

    假如用UTF-16表示的话就是01101100   01001001(共16 bit,两个字节).程序解析的时候知道是UTF-16就把两个字节当成一个单元来解析.这个很简单.

    用UTF-8表示"汉"

    用UTF-8就有复杂点.因为此时程序是把一个字节一个字节的来读取,然后再根据字节中开头的bit标志来识别是该把1个还是两个或三个字节做为一个单元来处理.

    0xxxxxxx,如果是这样的01串,也就是以0开头后面是啥就不用管了XX代表任意bit.就表示把一个字节做为一个单元.就跟ASCII完全一样.

    110xxxxx 10xxxxxx.如果是这样的格式,则把两个字节当一个单元

    1110xxxx 10xxxxxx 10xxxxxx 如果是这种格式则是三个字节当一个单元.

    这是约定的规则.你用UTF-8来表示时必须遵守这样的规则.我们知道UTF-16不需要用啥字符来做标志,所以两字节也就是2的16次能表示65536个字符.

    而UTF-8由于里面有额外的标志信息,所有一个字节只能表示2的7次方128个字符,两个字节只能表示2的11次方2048个字符.而三个字节能表示2的16次方,65536个字符.

    由于"汉"的编码27721大于2048了所有两个字节还不够,只能用三个字节来表示.

    所有要用1110xxxx 10xxxxxx 10xxxxxx这种格式.把27721对应的二进制从左到右填充XXX符号(实际上不一定从左到右,也可以从右到左,这是涉及到另外一个问题.等会说.

    刚说到填充方式可以不一样,于是就出现了Big-Endian,Little-Endian的术语.Big-Endian就是从左到右,Little-Endian是从右到左.

    由上面我们可以看出UTF-8需要判断每个字节中的开头标志信息,所以如果一当某个字节在传送过程中出错了,就会导致后面的字节也会解析出错.而UTF-16不会判断开头标志,即使错也只会错一个字符,所以容错能力强.

     

    Unicode版本2

        前面说的都是unicode的第一个版本.但65536显然不算太多的数字,用它来表示常用的字符是没一点问题.足够了,但如果加上很多特殊的就也不够了.于是从1996年开始又来了第二个版本.用四个字节表示所有字符.这样就出现了UTF-8,UTF16,UTF-32.原理和之前肯定是完全一样的,UTF-32就是把所有的字符都用32bit也就是4个字节来表示.然后UTF-8,UTF-16就视情况而定了.UTF-8可以选择1至8个字节中的任一个来表示.而UTF-16只能是选两字节或四字节..由于unicode版本2的原理完全是一样的,就不多说了.

    前面说了要知道具体是哪种编码方式,需要判断文本开头的标志,下面是所有编码对应的开头标志

    EF BB BF    UTF-8
    FE FF     UTF-16/UCS-2, little endian
    FF FE     UTF-16/UCS-2, big endian
    FF FE 00 00  UTF-32/UCS-4, little endian.
    00 00 FE FF  UTF-32/UCS-4, big-endian.

    其中的UCS就是前面说的ISO制定的标准,和Unicode是完全一样的,只不过名字不一样.ucs-2对应utf-16,ucs-4对应UTF-32.UTF-8是没有对应的UCS


    转自https://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html

    展开全文
  • 字符编码的概念(UTF-8、UTF-16UTF-32都是什么鬼)

    万次阅读 多人点赞 2017-11-30 17:11:56
    字符集为每个字符分配了一个唯一的编号,通过这个编号就能找到对应的字符。在编程过程中我们经常会使用字符,而使用字符的前提就是把字符放入内存中,毫无疑问,放入内存中的仅仅是字符的编号,而不是真正的字符实体...

    字符集为每个字符分配了一个唯一的编号,通过这个编号就能找到对应的字符。在编程过程中我们经常会使用字符,而使用字符的前提就是把字符放入内存中,毫无疑问,放入内存中的仅仅是字符的编号,而不是真正的字符实体。


    这就抛出了一个问题,如何才能将字符编号放入内存中呢?


    对于 ASCII 字符集,这很容易。ASCII 总共包含 128 个字符,用 7 个比特位(Bit)恰好能够存储,不过考虑到计算机一般把字节(Byte)作为基本单元,为了操作方便,我们不妨用一个字节(也就是 8 个比特位)来存储 ASCII。这样虽然浪费了一个比特位,但是读写效率提高了。


    但是对于 Unicode,问题就没有这么简单了。Unicode 目前已经包含了上百万的字符,位置靠前的字符用一个字节就能存储,位置靠后的字符用三个字节才能存储。我们可以为所有字符都分配三个字节的内存,也可以为编号小的字符分配一个字节或者两个字节的内存,而为编号大的字符分配三个字节的内存。


    这两种方案各有优缺点,请读者看下面的分析。

    字符集和字符编码不是一个概念,字符集定义了文字和二进制的对应关系,为字符分配了唯一的编号,而字符编码规定了如何将文字的编号存储到内存中。有的字符集在制定时就考虑到了编码的问题,是和编码结合在一起的;有的字符集只管制定字符的编号,至于怎么编码,是其他人的事情。

    方案1:为每个字符分配固定长度的内存

    一种方案是为每个字符分配固定长度的内存,并且这块内存要足够大,可以容纳下所有的字符编号。这种方案最简单,直接将字符编号放入内存中即可,不需要任何转换,并且以后在字符串中定位字符、修改字符都非常容易。

    字符串就是一串连续的字符序列,它们在内存中按次序挨着存放。在C语言中,字符串由双引号" "包围起来。

    目前的 Unicode 已经收录了上百万的字符,至少需要三个字节才能容纳下所有的字符编号。假设字符串"A3中¥"的 Unicode 编码值(十六进制形式)分别是 2A、31、DA49、BB672C,那么它们在内存中的存储形式为:



    在几乎所有的字符集中,常用字符的编号往往比较小,罕见字符的编号往往比较大,包括 Unicode 在内。


    A3是 ASCII 编码中的字符,Unicode 为了兼容 ASCII,在设计时刻意保留了原来 ASCII 中字符的编号,所以英文字母和阿拉伯数字在 Unicode 中的编号都非常小,用一个字节足以容纳。是一个汉字,编号比较大,一般要用两个字节才能容纳。可以看做是一个极其少见,或者只有极少数地区才会使用到的字符,这样的字符编号往往比较大,有时候需要三个字节才能容纳。

    是人民币符号,是汉字文化的一部分,它和其它汉字一样,实际上是用两个字节存储的,不过这里我们为了演示,故意犯错地说它需要三个字节。

    上图中带灰色背景的字节是没有用到的字节,它们就是被浪费掉的一部分内存空间,这就是用固定长度的内存来存储字符编号的缺点:常用字符的编号都比较小,这种方案会浪费很多内存空间,对于以英文为主的国家,比如美国、加拿大、英国等,内存利用率甚至会低于 50%。

    方案2:为每个字符分配尽量少的内存

    既然上面的方案有缺点,那我们就来改进一下。改进的思路也很明确,就是把空闲的内存压缩掉,为每个字符分配尽量少的字节,例如,A3分配一个字节足以,分配两个字节足以,如下图所示:


    这样虽然没有了空闲字节,不浪费任何内存空间了,但是又出现新的问题了:如果我不告诉你,你怎么知道2A表示一个字符,而不是2A31或者2A31DA才表示一个字符呢?后面的字符也有类似的问题。


    对于第一种方案,每个字符占用的字节数是固定的,很容易区分各个字符;而这种方案,不同的字符占用的字节数不同,字符之间也没有特殊的标记,计算机是无法定位字符的。


    这种方案还需要改进,必须让不同的字符编码有不同的特征,并且字符处理程序也需要调整,要根据这些特征去识别不同的字符。


    要想让不同的字符编码有不同的特征,可以从两个方面下手:

    1) 一是从字符集本身下手,在设计字符集时,刻意让不同的字符编号有不同的特征。


    例如,对于编号较小的、用一个字节足以容纳的字符,我们就可以规定这个字符编号的最高位(Bit)必须是 0;对于编号较大的、要用两个字节存储的字符,我们就可以规定这个字符编号的高字节的最高位必须是 1,低字节的最高位必须是 0;对于编号更大的、需要三个字节存储的字符,我们就可以规定这个字符编号的所有字节的最高位都必须是 1。


    程序在定位字符时,从前往后依次扫描,如果发现当前字节的最高位是 0,那么就把这一个字节作为一个字符编号。如果发现当前字节的最高位是 1,那么就继续往后扫描,如果后续字节的最高位是 0,那么就把这两个字节作为一个字符编号;如果后续字节的最高位是 1,那么就把挨着的三个字节作为一个字符编号。


    这种方案的缺点很明显,它会导致字符集不连续,中间留出大量空白区域,这些空白区域不能定义任何字符。


    2) 二是从字符编号下手,可以设计一种转换方案,字符编号在存储之前先转换为有特征的、容易定位的编号,读取时再按照相反的过程转换成字符本来的编号。


    那么,转换后的编号要具备什么样的特征呢?其实也可以像上面一样,根据字节的最高位是 0 还是 1 来判断字符到底占用了几个字节。


    相比第一种方案,这种方案有缺点也有优点:

    • 缺点就是多了转换过程,字符在存储和读取时要经过转换,效率低;
    • 优点就是在制定字符集时不用考虑存储的问题,可以任意排布字符。

    Unicode 到底使用哪种编码方案

    Unicode 是一个独立的字符集,它并不是和编码绑定的,你可以采用第一种方案,为每个字符分配固定长度的内存,也可以采用第二种方案,为每个字符分配尽量少的内存。


    需要注意的是,Unicode 只是一个字符集,在制定的时候并没有考虑编码的问题,所以采用第二种方案时,就不能从字符集本身下手了,只能从字符编号下手,这样在存储和读取时都要进行适当的转换。


    Unicode 可以使用的编码有三种,分别是:

    • UFT-8:一种变长的编码方案,使用 1~6 个字节来存储;
    • UFT-32:一种固定长度的编码方案,不管字符编号大小,始终使用 4 个字节来存储;
    • UTF-16:介于 UTF-8 和 UTF-32 之间,使用 2 个或者 4 个字节来存储,长度既固定又可变。


    UTF 是 Unicode Transformation Format 的缩写,意思是“Unicode转换格式”,后面的数字表明至少使用多少个比特位(Bit)来存储字符。

    1) UTF-8

    UTF-8 的编码规则很简单:如果只有一个字节,那么最高的比特位为 0;如果有多个字节,那么第一个字节从最高位开始,连续有几个比特位的值为 1,就使用几个字节编码,剩下的字节均以 10 开头。


    具体的表现形式为:

    • 0xxxxxxx:单字节编码形式,这和 ASCII 编码完全一样,因此 UTF-8 是兼容 ASCII 的;
    • 110xxxxx 10xxxxxx:双字节编码形式;
    • 1110xxxx 10xxxxxx 10xxxxxx:三字节编码形式;
    • 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx:四字节编码形式。


    xxx 就用来存储 Unicode 中的字符编号。


    下面是一些字符的编码实例(绿色部分表示本来的 Unicode 编号):

    字符 N æ
    Unicode 编号(二进制) 01001110 11100110 00101110 11101100
    Unicode 编号(十六进制) 4E E6 2E EC
    UTF-8 编码(二进制) 01001110 11000011 10100110 11100010 10111011 10101100
    UTF-8 编码(十六进制) 4E C3 A6 E2 BB AC

    对于常用的字符,它的 Unicode 编号范围是 0 ~ FFFF,用 1~3 个字节足以存储,只有及其罕见,或者只有少数地区使用的字符才需要 4~6个字节存储。

    2) UTF-32

    UTF-32 是固定长度的编码,始终占用 4 个字节,足以容纳所有的 Unicode 字符,所以直接存储 Unicode 编号即可,不需要任何编码转换。浪费了空间,提高了效率。

    3) UTF-16

    UFT-16 比较奇葩,它使用 2 个或者 4 个字节来存储。


    对于 Unicode 编号范围在 0 ~ FFFF 之间的字符,UTF-16 使用两个字节存储,并且直接存储 Unicode 编号,不用进行编码转换,这跟 UTF-32 非常类似。


    对于 Unicode 编号范围在 10000~10FFFF 之间的字符,UTF-16 使用四个字节存储,具体来说就是:将字符编号的所有比特位分成两部分,较高的一些比特位用一个值介于 D800~DBFF 之间的双字节存储,较低的一些比特位(剩下的比特位)用一个值介于 DC00~DFFF 之间的双字节存储。


    如果你不理解什么意思,请看下面的表格:

    Unicode 编号范围
    (十六进制)
    具体的 Unicode 编号
    (二进制)
    UTF-16 编码 编码后的
    字节数
    0000 0000 ~ 0000 FFFF xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx 2
    0001 0000---0010 FFFF yyyy yyyy yyxx xxxx xxxx 110110yy yyyyyyyy 110111xx xxxxxxxx 4

    位于 D800~0xDFFF 之间的 Unicode 编码是特别为四字节的 UTF-16 编码预留的,所以不应该在这个范围内指定任何字符。如果你真的去查看 Unicode 字符集,会发现这个区间内确实没有收录任何字符。


    UTF-16 要求在制定 Unicode 字符集时必须考虑到编码问题,所以真正的 Unicode 字符集也不是随意编排字符的。

    总结

    只有 UTF-8 兼容 ASCII,UTF-32 和 UTF-16 都不兼容 ASCII,因为它们没有单字节编码。


    如果你希望查看完整的 Unicode 字符集,以及各种编码方式,请猛击:https://unicode-table.com/cn/

    虽然这个网站有时候无法访问,但它是最好的一个查看 Unicode 字符集的网站。

    GB2312、Shift-JIS 等国家(地区)字符集怎么编码

    GB2312、GBK、Shift-JIS 等特定国家的字符集都是在 ASCII 的基础上发展起来的,它们都兼容 ASCII,所以只能采用变长的编码方案:用一个字节存储 ASCII 字符,用多个字节存储本国字符。


    以 GB2312 为例,该字符集收录的字符较少,所以使用 1~2 个字节编码。

    • 对于 ASCII 字符,使用一个字节存储,并且该字节的最高位是 0;
    • 对于中国的字符,使用两个字节存储,并且规定每个字节的最高位都是 1。


    由于单字节和双字节的最高位不一样,所以很容易区分一个字符到底用了几个字节。

    宽字符和窄字符(多字节字符)

    有的编码方式采用 1~n 个字节存储,是变长的,例如 UTF-8、GB2312、GBK 等;如果一个字符使用了这种编码方式,我们就将它称为多字节字符,或者窄字符。


    有的编码方式是固定长度的,不管字符编号大小,始终采用 n 个字节存储,例如 UTF-32、UTF-16 等;如果一个字符使用了这种编码方式,我们就将它称为宽字符。


    Unicode 字符集可以使用窄字符的方式存储,也可以使用宽字符的方式存储;GB2312、GBK、Shift-JIS 等国家编码一般都使用窄字符的方式存储;ASCII 只有一个字节,无所谓窄字符和宽字符。


    说了这么多,C语言到底使用哪种字编码方式呢?其实这个问题有点复杂,我们将在《C语言到底使用什么编码?谁说C语言使用ASCII码,真是荒谬!》一节中展开讲解。

    展开全文
  • Unicode、UTF-8、UTF-16之间的区别

    万次阅读 多人点赞 2018-08-29 14:51:24
    为啥需要Unicode    我们知道计算机其实挺笨的,它只认识0101这样的字符串,当然了我们看这样的01串时肯定会比较头晕的,所以很多时候为了描述简单都用十进制,十六进制,八进制表示.实际上都是等价的,没啥太多不一样...
  • UTF-16编码详解

    千次阅读 2019-03-18 16:05:48
    首先我们来思考UTF-16的设计思路: 我们知道Unicode的范围为0x0~0x10FFFF 首先是BMP区间,也就是0x0~0xFFFF这段区间,正好16位就可以表示,也兼容,两全其美 那么超过BMP区间的怎么办呢? 也就是0xFFFF~0x10FFFF这段...
  • (Unicode) UTF-8与UTF-16之间转换

    万次阅读 2016-10-21 13:33:39
    一、Unicode的由来  1、我们知道计算机其实只认识0101这样的字符串,当然了让我们看这样的01串会比较头晕,所以为了描述简单一般都用八进制、十进制、十六进制表示。 实际上都是等价的。其它像文字图片音视频等...
  • Unicode是Unicode.org制定的编码标准,目前得到了绝大部分[请注意文明用语]作系统和编程语言的支持。Unicode.org官方对 Unicode的定义是:Unicode provides a unique number for every character。...
  • 简介 实际项目开发中,我们有时候可能需要将字符串转换成字节数组,而转化字节数组跟编码格式有关,不同的编码格式转化的字节数组不一样。下面列举了java支持的几种编码格式: US-ASCII Seven-bit ASCII, a.k.a....
  • 原文2链接:UTF8,UTF16,UTF32,UTF16-LE,UTF16-BE,GBK 之间的转换 文章1 最近遇到的麻烦事  charset里的问题, 一般我们都用unicode来作为统一编码, 但unicode也有多种表现形式  首先, 我们说的unicode, 其实...
  • UTF-16UTF-16BE、UTF-16LE编码方式的区别 文章分类:Java编程Java代码 import java.io.IOException; /**  * UTF-16BE: 16 位 UCS 转换格式,Big Endian(最低地址存放高位字节,符合人们的阅读习惯...
  • ASII(American Standard Code for Information Interchange,美国信息互换标准代码)。(部分摘自 https://www.zhihu.com/question/23374078 作者:于洋https://www.zhihu.com/question/23374078/answer/24385963 ...
  • UTF-16UTF-8的方法,防止文件有BOM头

    千次阅读 2019-01-27 10:25:07
    在读公司代码的时候,发现了一个UTF-16UTF-8的方法,这还是博主第一次见到这种方法,不由的好奇了起来。为什么要转,应用场景是什么呢?这里大家一起来探讨下 二、贴代码 /** * @desc UTF-16转为UTF-8编码, 必须...
  • UTF-8, UTF-16, UTF-16LE, UTF-16BE的区别

    千次阅读 2015-06-22 20:39:39
    首先, 我们说的unicode, 其实就是utf-16, 但最通用的却是utf-8 原因: 我猜大概是英文占的比例比较大, 这样utf-8的存储优势比较明显, 因为utf-16是固定16位的(双字节), 而utf-8则是看情况而定, 即可变长度, 常规的128...
  • UTF-8、UTF-16UTF-32编码的相互转换

    千次阅读 2014-02-23 21:37:34
    最近在考虑写一个可以跨平台的通用字符串类,首先需要搞定的就是编码转换问题...而windows下的unicode是UTF-16编码;linux则使用UTF-8或UTF-32。因此不论在哪种系统里,程序在处理字符串时都需要考虑UTF编码之间的相互
  • 最近遇到的麻烦事  charset里的问题, 一般我们都用unicode来...原因: 我猜大概是英文占的比例比较大, 这样utf-8的存储优势比较明显, 因为utf-16是固定16位的(双字节), 而utf-8则是看情况而定, 即可变长度, 常规的128
  • Unicode(UTF-8, UTF-16)令人混淆的概念

    千次阅读 2017-02-17 10:01:13
    部分转载自: http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html 部分转载自:http://www.qianxingzhem.com/post-1499.html 部分转载自:http://blog.csdn.net/leftstrang/article/details/52450318...
  • http://www.cnblogs.com/criedshy/archive/2012/08/07/2625358.html前言 众所周知计算机只能识别二进制数字,如1010,1001。我们屏幕所看到的文字,字符都是和二进制转换后的结果。将我们的文字按照某种规则转换二...
  • C#:UTF-8、UTF-16UTF-32之间的编码转换

    万次阅读 2011-05-12 22:02:00
    开发工具: Visual ... 功能描述:C#语言实现基于UTF-8、UTF-16、UTF-32之间的编码转换 接口函数: UCS4ToUTF8 UTF8ToUCS4 UCS4ToUTF16 UTF16ToUCS4 UCS4ToString<br
  • UTF-8到UTF-16LE Javascript

    2014-06-24 06:09:15
    <pre><code>iconv("UTF-8", "UTF-16LE", $string); </code></pre> <p>The output should be like this: <p>49 00 6e 00 64 00 65 00 78 00 <p>I found this func to decode UTF-16LE and it's works fine ...
  • Java中Unicode与utf-8、utf-16的关系

    千次阅读 2019-06-05 20:20:00
    基础知识: 字符集合(ASCII、Unicode):由一套用于特定用途的字符组成,例如支持西欧语言的字符集合,支持中文的字符集合。字符集合只定义了符号和他们的语意,其实跟计算机没有直接关系。现实生活中,不同的...
  • Unicode(UTF-8, UTF-16)区分

    2016-05-25 11:28:44
    为啥需要Unicode    我们知道计算机其实挺笨的,它只认识0101这样的字符串,当然了我们看这样的01串时肯定会比较头晕的,所以很多时候为了描述简单都用十进制,十六进制,八进制表示.实际上都是等价的,没啥太多不一样...
  • <p>Given a string of UTF-8 data in PHP, how can I convert and save it to a UTF-16LE file (this particular file happens to be destined for Indesign - to be placed as a tagged text document). ...
  • 用于UTF-8、UTF-16(UCS2)、UTF-32(UCS4)之间的编码转换。下载地址:UnicodeConverter.zip版本历史:V1.0 2010年03月12日完成正式版本。源代码:UnicodeConverter.h/* ----------------------------------------...
  •   为了在计算机中表示字符,人们指定了一种编码:ASCII码,ASCII码由一个字节的7位表示,共128个字符,由于发展需要使用一个字节的全部8位来表示字符,共256个字符,称为扩展ASCII码,中国为了表示汉字用两个扩展...
  • 写在前面的话 本文属于 字符编码系列文章之一,更多请前往 字符编码系列。 大纲 不同编码转换的理论基础 UTF-16UTF-8 ...不同的编码直接如何转换的,这里先简单的描述下UTF-16UTF-8、GBK直接的...
  • UTF-16汉字编码表

    2016-07-10 08:50:33
    UTF-16汉字编码表,txt格式的
  •  下面主要讲UTF-8、UTF-16BE、UTF-16LE之间的区别  这3种编码都属于Unicode编码方式。 UTF-8的特点是对不同范围的字符使用不同长度的编码 Unicode编码(16进制)  UTF-8 字节流(二进制) 000000 - ...
  • UTF-16

    2018-07-13 15:19:47
    全球所有的字符都收录在Unicode字符表中,每个...UTF-16分为UTF-16UTF-16BE,UTF-16LE。采用UTF-8,一个字符编码成1或2或3个字节,采用UTF-16BE,UTF-16LE,一个字符编码成两个字节,采用UTF-16,一个字符编码成...

空空如也

1 2 3 4 5 ... 20
收藏数 583,770
精华内容 233,508
关键字:

utf16