精华内容
下载资源
问答
  • ---- 判断题关注:288答案:5mip版解决时间 2021-03-09 12:02提问者等妳¬硪唯一鍀执念2021-03-09 06:16计算机基本知识 ---- 判断题==============================================================1.DOS的中文含义是...

    计算机基本知识 ---- 判断题

    关注:288  答案:5  mip版

    解决时间 2021-03-09 12:02

    e6cb1a03ad541b3098697807b7bf1798.png

    提问者等妳¬硪唯一鍀执念

    2021-03-09 06:16

    计算机基本知识 ---- 判断题

    ==============================================================

    1.DOS的中文含义是“中文操作系统”。

    2.磁盘操作系统,即DOS,是在微型计算机上常用的操作系统之一。

    3.计算机系统包括硬件系统和操作系统两大部分。

    4.开机的顺序是先开主机,后开外部设备。

    5.关机顺序是先关主机,后关外部设备。

    6.计算机性能指标中字长表示内存贮器的容量。

    7.任何的数字、符号、字母、汉字在计算机内都是以二进制代码形式存储和处理。

    8.计算机工作时突然停电,随机存储器里的数据将全部丢失。

    9.为保证计算机在稳定正常的电源电压下工作,系统应使用直流电源。

    10.字母A、B、C、D、E等均可用来表示软盘的盘符。

    11.软盘要经格式化后才能使用,硬盘则不需要。

    12.内存贮器和外存贮器都能永久保存数据。

    13.计算机的热启动和冷启动的工作过程是一样的。

    14.ROM存储的数据不能改变,而RAM存储的数据可以改变。

    15.出现“死机”时,不需要重新检查系统配置和内存的情况下,通常采用冷启动来摆脱错误状态。

    16.微机在使用过程中突然断电,RAM中保存的信息不会全部丢失,ROM中保存的信息会全部丢失。

    17.计算机主机内装有硬盘和软盘驱动器,软磁盘是计算机的外贮器,机内硬盘则是属于内贮器。

    18.已格式化过的软盘,不能再进行格式化。

    19.软盘进行格式化后,原来保存在磁盘的信息全部消失。

    20.3.5英寸软盘是通过写保护窗进行写保护的,方法为()。A.写保护窗开表示写保护B.写保护窗关表示写保护

    21.文件名不同的文件,不论其内容是否相同,计算机都认为是不同的文件。

    22.在拼音输入法状态下不能输入英文字母。

    23.用拼音输入法或五笔字型输入法,只能在小写状态下才能输入汉字。

    24.不同的汉字系统,其五笔字型输入法的汉字编码也不同。

    25.中文操作系统只适用于使用汉字操作,而不适用于英文操作。

    ==============================================================

    最佳答案

    e6cb1a03ad541b3098697807b7bf1798.png

    二级知识专家就当涐的真心喂了狗

    2021-03-09 07:19

    1.DOS的中文含义是“中文操作系统”。 错误

    2.磁盘操作系统,即DOS,是在微型计算机上常用的操作系统之一。正确

    3.计算机系统包括硬件系统和操作系统两大部分。 错误

    4.开机的顺序是先开主机,后开外部设备。 错误

    5.关机顺序是先关主机,后关外部设备。 正确

    6.计算机性能指标中字长表示内存贮器的容量。 正确

    7.任何的数字、符号、字母、汉字在计算机内都是以二进制代码形式存储和处理。 正确

    8.计算机工作时突然停电,随机存储器里的数据将全部丢失。 正确

    9.为保证计算机在稳定正常的电源电压下工作,系统应使用直流电源。错误

    10.字母A、B、C、D、E等均可用来表示软盘的盘符。 错误

    11.软盘要经格式化后才能使用,硬盘则不需要。 错误

    12.内存贮器和外存贮器都能永久保存数据。 错误

    13.计算机的热启动和冷启动的工作过程是一样的。 错误

    14.ROM存储的数据不能改变,而RAM存储的数据可以改变。 正确

    15.出现“死机”时,不需要重新检查系统配置和内存的情况下,通常采用冷启动来摆脱错误状态。 错误

    16.微机在使用过程中突然断电,RAM中保存的信息不会全部丢失,ROM中保存的信息会全部丢失。 错误

    17.计算机主机内装有硬盘和软盘驱动器,软磁盘是计算机的外贮器,机内硬盘则是属于内贮器。

    错误

    18.已格式化过的软盘,不能再进行格式化。 错误

    19.软盘进行格式化后,原来保存在磁盘的信息全部消失。正确

    20.3.5英寸软盘是通过写保护窗进行写保护的,方法为(A)。A.写保护窗开表示写保护B.写保护窗关表示写保护

    21.文件名不同的文件,不论其内容是否相同,计算机都认为是不同的文件。正确

    22.在拼音输入法状态下不能输入英文字母。 错误

    23.用拼音输入法或五笔字型输入法,只能在小写状态下才能输入汉字。 正确

    24.不同的汉字系统,其五笔字型输入法的汉字编码也不同。 错误

    25.中文操作系统只适用于使用汉字操作,而不适用于英文操作。错误

    全部回答

    e6cb1a03ad541b3098697807b7bf1798.png

    1楼吃貨一枚

    2021-03-09 10:53

    看不到,最好打下

    e6cb1a03ad541b3098697807b7bf1798.png

    2楼el孤酒el

    2021-03-09 09:27

    1.DOS的中文含义是“中文操作系统”。

    错误,Disk Operating System

    2.磁盘操作系统,即DOS,是在微型计算机上常用的操作系统之一。

    以前是的,现在不是了,由Windows 代替了

    3.计算机系统包括硬件系统和操作系统两大部分。

    是的,硬件就是BIOS (Basic Input Output System)软件 Windows

    4.开机的顺序是先开主机,后开外部设备。

    错误,但现在的电脑已无所谓了,你爱什么时开都可以

    5.关机顺序是先关主机,后关外部设备。

    同上

    6.计算机性能指标中字长表示内存贮器的容量。

    错误

    7.任何的数字、符号、字母、汉字在计算机内都是以二进制代码形式存储和处理。

    是的,正确 只有 0 和 1

    8.计算机工作时突然停电,随机存储器里的数据将全部丢失。

    如果已存储,那就不会丢失 (有时电脑会帮你存)

    9.为保证计算机在稳定正常的电源电压下工作,系统应使用直流电源。

    是的

    10.字母A、B、C、D、E等均可用来表示软盘的盘符。

    不,E 不行

    11.软盘要经格式化后才能使用,硬盘则不需要。

    错误

    12.内存贮器和外存贮器都能永久保存数据。

    错误

    13.计算机的热启动和冷启动的工作过程是一样的。

    错误,有很少的一点差别

    14.ROM存储的数据不能改变,而RAM存储的数据可以改变。

    是的

    15.出现“死机”时,不需要重新检查系统配置和内存的情况下,通常采用冷启动来摆脱错误状态。

    错误

    16.微机在使用过程中突然断电,RAM中保存的信息不会全部丢失,ROM中保存的信息会全部丢失。

    刚好相反

    17.计算机主机内装有硬盘和软盘驱动器,软磁盘是计算机的外贮器,机内硬盘则是属于内贮器。

    是的

    18.已格式化过的软盘,不能再进行格式化。

    不对,可以再格式化

    19.软盘进行格式化后,原来保存在磁盘的信息全部消失。

    理论上是的,但还有残留

    20.3.5英寸软盘是通过写保护窗进行写保护的,方法为()。A.写保护窗开表示写保护B.写保护窗关表示写保护

    A。

    21.文件名不同的文件,不论其内容是否相同,计算机都认为是不同的文件。

    是的

    22.在拼音输入法状态下不能输入英文字母。

    错误

    23.用拼音输入法或五笔字型输入法,只能在小写状态下才能输入汉字。

    是的

    24.不同的汉字系统,其五笔字型输入法的汉字编码也不同。

    不对

    25.中文操作系统只适用于使用汉字操作,而不适用于英文操作。

    不对

    e6cb1a03ad541b3098697807b7bf1798.png

    3楼此生不换的執著

    2021-03-09 08:48

    Y NYNYNYNYNYNYNYNYNYNYNYNYNYNYNYNY

    e6cb1a03ad541b3098697807b7bf1798.png

    4楼烟╰ゝ刺痛了眼伤了心

    2021-03-09 08:06

    1楼的回答好象全对

    我要举报

    如以上问答内容为低俗/色情/暴力/不良/侵权的信息,可以点下面链接进行举报,我们会做出相应处理,感谢你的支持!

    →点此我要举报以上信息!←

    推荐资讯

    大家都在看

    展开全文
  • 汉字系统中的过程包括区位、国标内码,其中的转换关系如下: 1.区位(十进制)转换成区位(十六进制)。 这里要把前两个位换成十六进制,然后后两位换成十六进制。 例如,某汉字的区位是5448,这样把...
    一、ASCII、机内码、区位码、国标码、Unicode码他们之间是如何转换的,方程式是什么
    汉字系统中的过程包括区位码、国标码和机内码,其中的转换关系如下:
    1.区位码(十进制)转换成区位码(十六进制)。 这里要把前两个位换成十六进制,然后后两位换成十六进制。 例如,某汉字的区位码是5448,这样把54转换为16进制数36;再把位码48转换为16进制数为30,得到十六进制数3630。
    2.国际码=区位码(十六进制)+2020H 例如,3630H+2020H=5050H 得到国标码GB2312 
    3.汉字机内码=国际码+8080H 机内码就是5050H+8080H=D0D0HASCII码是八位的一个字节 最高位为0,这样可以区分和汉字编码的区别。
     Unicode是欧洲提出来的编码。如果大段的数据包中的字节是大于A0A0H的双字节信息,可以初步认定为汉字内容编码。说明一下,汉字你在数据包中只能获得机内码。区位码是输入码,不在计算机当中的,呵呵

    二、GBK内码 Unicode码 区位码有什么区别和联系 怎样互相转化

    ANSI , 这是美国国家标准协会制定的编码格式,例如"A汉" 在这种编码方式下的内存值为 41 BA BA ,'A'占用一个字节,"汉"用两个字节,

    而且 BA BA 正式 GBK内码的值, 那让我们先认识GBK编码.

    GB2312,GBK,GB18030都是中国人自己发明的(中国之外并不使用的), 他们出现的时间顺序是GB2312 -> GBK -> GB18030 ,他们是包含关系,GB我猜是 "国标" 的意思 "k" 可能是 "扩展", 这些编码都是书面协议,要在计算机内部表示所以GB2312的内存值须在原来的每个字节值(区位码)上加0x80得到机内码,加上0x80是为了使得每个字节的最高位为1,这样就可以在内存中区分汉字和ASCII了[因为ASCII的最高位都为0]. 但是后来要在GB2312上扩展(得到GBK,GB18030),就需要更多的编码空间,所以GBK,GB18030就没有要求第二个字节的的最高位为1了,而是通过第一个字节来判断这是一个字节的ASCII还是两个字节的GBK.另外需要说明一点GB2312,GBK,GB18030是向下兼容的,例如 "汉" 在GB2312,GBK,GB18030中都是BA,BA .

    另外,GB2312,GBK并没有因为GB18030的出现退出市场,在一些嵌入式设备中还是应用广泛的,因为减少字库容量可以大大减少成本.

    回到之前的ANSI, 我们大概知道了GBK(不知道人们为什么喜欢用GBK而不是GB18030,姑且认为是GBK只有3个字母,书写方便吧!),那么ANSI又是怎么回事呢? ANSI就像一个指针,本身没有内容,如果指向"中国的编码",那么它就是GBK,如果指向"印度的编码",他就是x??x.也就是说在中国ANSI是GBK,在日本ANSI是XXX,在印度ANSI是???,但是他们在windows的记事本中都只能看到ANSI.但是ANSI也做了一些小的变动,就像刚才一样,'A'在内存中只占用了一个字节,也就是说ANSI = ASCII + 本地编码

    Unicode:

    但是,我们怎么在一个汉语资料中书写日文符号呢?这时,Unicode出现了,不过它是谁发明的,反正Unicode把世界上的所有文字符号都包含进来了,不仅解决了刚才说的问题,而且程序员用Unicode写的程序可以在全世界的电脑上运行.C语言中用wchar_t表示.

    UCS:

    据说UCS是和Unicode一样的工程,最后两个工程达成共识,所以编码完全兼容.所以我就把UCS看做Unicode.

    这里的UCS-2就是常说的UCS,只使用了两个字节保存一个字符,而UCS-4则是使用4个字节保存一个字符.

    UTF-8:

    (ucs transformation format),为什么要创造UTF-8呢?其中一个原因是:0x00在C语言及操作系统文件名(等..)中有特殊意义(如字符串结尾),然而按照Unicode编码的话,很可能这个字符的第一个字节(高字节)为非零数值,而低字节为零,这样C语言就会误认为这是字符串的结尾.所以UTF-8的一个功能是保证Unicode编码表中不出现0x00(当然正常的0x00是可以的)

    UCS-2编码,Unicode(16进制) UTF-8 字节流(二进制)
    0000 - 007F 0xxxxxxx 
    0080 - 07FF 110xxxxx 10xxxxxx (第一个1之后有几个1就表示后面还有一个字节,这里后面还有1个)
    0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (第一个1之后有几个1就表示后面还有一个字节,这里后面还有2个)

    应为UTF-8的这种编码方式,它不需要判断大小端模式,所以它是利于网路传输的(我也不知道是为什么)

    (BOM) EF BB BF ,我们可以通过BOM来判断文本是否为UTF-8编码格式.

    打开一个文本文件时如何判断是何种编码呢?

    1)提示用户选择编码类型

    2)根据一定的规则猜测编码类型

    3)检测文件头标识识别编码类型
    EF BB BF    UTF-8
    FE FF      UTF-16/UCS-2(Unicode), little endian,(在文件一个只含一个字母'A'的中文件中,文件内容为 FE FF 00 41 )
    FF FE      UTF-16/UCS-2(Unicode), big endian,(在文件一个只含一个字母'A'的中文件中,文件内容为 FF FE 41 00 )
    FF FE 00 00   UTF-32/UCS-4, little endian.
    00 00 FE FF   UTF-32/UCS-4, big-endian.

    区位码 国标(GBK) 内码

    "汉" 1A1A 3A3A BABA

    国标 = 区位码 + 0x20 (每个字节)

    内码 = 国标(GBK) + 0x80 (每个字节)


    三、汉字编码与编程相关问题总结

    汉字编码有很多种,常用UNICODE,GB(内码),GB2312-80(区位码),其中UNICODE为国际字符集编码标准只和ASCII编码兼容。
    GB(内码)和GB2312-80(区位码)的区别是GB(内码)是由4位16进制数表示的,而GB(内码)是以4位10进制数表示的,这二者转换关系如下:
    GB(内码) = (GB2312-80(区位码)/100+160)<<16 | (GB2312-80(区位码)%100+160)
     
    1、如何转换或查询汉字编码?
    比如一个汉字:"汉",在记事本里写上这个汉字用WinHex打开可以看到的编码"BABA"就是这个字GB(内码)的编码。我们也可以利用上面的方法计算出他的区位码:
    (高字节 - 0xA0   低字节 - 0xA0)转换为10进制 => GB2312-80(区位码), 注意: 0xA0 等于 160,一个是16进制一个是十进制表达而已
        (0xBA - 0xA0)*100 + (0xBA - 0xA0) => 2626 就是GB2312-80(区位码)
    2、编程中如果有大量汉字可以利用WinHex的转换功能直接生成C对应的代码,不用一个个自己输入。
    比如,一个文档或图片数据,可以直接把文件拖到WinHex里面,然后对着数据点: 右键->编辑->全部复制->C源,就把数据的C语言格式复制到剪切板中了,再粘贴到一个文档里面就好了。
     
    3、怎样通过文本的汉字得到汉字对应的unicode码?
    用个另一编辑器叫NotePad++的免费开源软件(说实话作为编辑器很好用,内置各种语言高亮格式)。用NotePad++打开一个文档,如下操作:
    格式->转换为UCS-2 big/little Endian 编码格式,然后保存,即可转换为汉字的unicode编码保存。
    如果再用WinHex打开就可以看到unicode编码了,至于选择big Endian还是little Endian只是出来的高低字节顺序不同而已,可以根据自己需要选择,big Endian是将高字节显示在前面(低地址位置)。
    下面再辅一篇转载的文章和汉字区位码标准,有助于理解各种编码格式:
    《谈谈Unicode编码》作者:fmddlmyy 
      Unicode也是一种字符编码方法,可以容纳全世界所有语言文字的编码方案。从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。如“汉”字的Unicode编码是6C49,而GB码是BABA。
     这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题:
     
      问题一:
      使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢?
      我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unicode),FE、FF(Unicode big endian),EF、BB、BF(UTF-8)。但这些标记是基于什么标准呢?
     
      问题二:
      最近在网上看到一个ConvertUTF.c,实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式,我原来就了解。但这个程序让我有些糊涂,想不起来UTF-16和UCS2有什么关系。
      查了查相关资料,总算将这些问题弄清楚了,顺带也了解了一些Unicode的细节。写成一篇文章,送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂,但要求读者知道什么是字节,什么是十六进制。
     
    0、big endian和little endian
      big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?如果将6C写在前面,就是big endian。还是将49写在前面,就是little endian。
      “endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开,由此曾发生过六次叛乱,其中一个皇帝送了命,另一个丢了王位。
      我们一般将endian翻译成“字节序”,将big endian和little endian称作“大尾”和“小尾”。
     
    1、字符编码、内码,顺带介绍汉字编码
      字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。
      GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。
      GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030,对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。
      从ASCII、GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼,GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。
      有的中文Windows的缺省内码还是GBK,可以通过GB18030升级包升级到GB18030。不过GB18030相对GBK增加的字符,普通人是很难用到的,通常我们还是用GBK指代中文Windows内码。
      这里还有一些细节:
      GB2312的原文还是区位码,从区位码到内码,需要在高字节和低字节上分别加上A0。
      在DBCS中,GB内码的存储格式始终是big endian,即高位在前。
      GB2312的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。不过这不影响DBCS字符流的解析:在读取DBCS字符流时,只要遇到高位为1的字节,就可以将下两个字节作为一个双字节编码,而不用管低字节的高位是什么。
     
    2、Unicode、UCS和UTF
      前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。
      Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。
      根据维基百科全书(http://zh.wikipedia.org/wiki/)的记载:历史上存在两个试图独立设计Unicode的组织,即国际标准化组织(ISO)和一个软件制造商的协会(unicode.org)。ISO开发了ISO 10646项目,Unicode协会开发了Unicode项目。
      在1991年前后,双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode2.0开始,Unicode项目采用了与ISO 10646-1相同的字库和字码。
      目前两个项目仍都存在,并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是10646-3:2003。
      UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码,是由UTF(UCS Transformation Format)规范规定的,常见的UTF规范包括UTF-8、UTF-7、UTF-16。
      IETF的RFC2781和RFC3629以RFC的一贯风格,清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。我总是记不得IETF是Internet Engineering Task Force的缩写。但IETF负责维护的RFC是Internet上一切规范的基础。
     
    3、UCS-2、UCS-4、BMP
      UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码。下面让我们做一些简单的数学游戏:
      UCS-2有2^16=65536个码位,UCS-4有2^31=2147483648个码位。
      UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个plane。每个plane根据第3个字节分为256行 (rows),每行包含256个cells。当然同一行的cells只是最后一个字节不同,其余都相同。
      group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中,高两个字节为0的码位被称作BMP。
      将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。在UCS-2的两个字节前加上两个零字节,就得到了UCS-4的BMP。而目前的UCS-4规范中还没有任何字符被分配在BMP之外。
     
    4、UTF编码
      UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:
    UCS-2编码(16进制) UTF-8 字节流(二进制)
    0000 - 007F 0xxxxxxx
    0080 - 07FF 110xxxxx 10xxxxxx
    0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
      例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001,用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
      读者可以用记事本测试一下我们的编码是否正确。
      UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码,UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于0x10000的UCS码,定义了一个算法。不过由于实际使用的UCS2,或者UCS4的BMP必然小于0x10000,所以就目前而言,可以认为UTF-16和UCS-2基本相同。但UCS-2只是一个编码方案,UTF-16却要用于实际的传输,所以就不得不考虑字节序的问题。
     
    5、UTF的字节序和BOM
      UTF-8以字节为编码单元,没有字节序的问题。UTF-16以两个字节为编码单元,在解释一个UTF-16文本前,首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E,“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”,那么这是“奎”还是“乙”?
      Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表,而是Byte Order Mark。BOM是一个有点小聪明的想法:
      在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。
      这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。
      UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF(读者可以用我们前面介绍的编码方法验证一下)。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。
      Windows就是使用BOM来标记文本文件的编码方式的。
     
    6、进一步的参考资料
      本文主要参考的资料是 "Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)。
      我还找了两篇看上去不错的资料,不过因为我开始的疑问都找到了答案,所以就没有看:
    "Understanding Unicode A general introduction to the Unicode Standard" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a) 
    "Character set encoding basics Understanding character set encodings and legacy encodings" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)
      我写过UTF-8、UCS-2、GBK相互转换的软件包,包括使用Windows API和不使用Windows API的版本。以后有时间的话,我会整理一下放到我的个人主页上(http://fmddlmyy.home4u.china.com)。
      我是想清楚所有问题后才开始写这篇文章的,原以为一会儿就能写好。没想到考虑措辞和查证细节花费了很长时间,竟然从下午1:30写到9:00。希望有读者能从中受益。
    //
    GB = (Hex)(GB2312(H)+160) + (Hex)(GB2312(L)+160)
     
         中华人民共和国国家标准
        信息交换用汉字编码字符集
             基   本   集
              GB 2312-80
     
     
    01 0 1 2 3 4 5 6 7 8 9
    0     、 。 · ˉ ˇ ¨ 〃 々
    1 — ~ ‖ … ‘ ’ “ ” 〔 〕
    2 〈 〉 《 》 「 」 『 』 〖 〗
    3 【 】 ± × ÷ ∶ ∧ ∨ ∑ ∏
    4 ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠ ⌒ ⊙
    5 ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯
    6 ≤ ≥ ∞ ∵ ∴ ♂ ♀ ° ′ ″
    7 ℃ $ ¤ ¢ £ ‰ § № ☆ ★
    8 ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※
    9 → ← ↑ ↓ 〓
     
    02 0 1 2 3 4 5 6 7 8 9
    0   ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ
    1 ⅹ       ⒈ ⒉ ⒊
    2 ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔
    3 ⒕ ⒖ ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶
    4 ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾ ⑿ ⒀
    5 ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③
    6 ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩   ㈠
    7 ㈡ ㈢ ㈣ ㈤ ㈥ ㈦ ㈧ ㈨ ㈩ 
    8  Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ
    9 Ⅹ Ⅺ Ⅻ  
     
    03 0 1 2 3 4 5 6 7 8 9
    0   ! " # ¥ % & ' ( )
    1 * + , - . / 0 1 2 3
    2 4 5 6 7 8 9 : ; < =
    3 > ? @ A B C D E F G
    4 H I J K L M N O P Q
    5 R S T U V W X Y Z [
    6 \ ] ^ _ ` a b c d e
    7 f g h i j k l m n o
    8 p q r s t u v w x y
    9 z { | }  ̄
     
    04 0 1 2 3 4 5 6 7 8 9
    0   ぁ あ ぃ い ぅ う ぇ え ぉ
    1 お か が き ぎ く ぐ け げ こ
    2 ご さ ざ し じ す ず せ ぜ そ
    3 ぞ た だ ち ぢ っ つ づ て で
    4 と ど な に ぬ ね の は ば ぱ
    5 ひ び ぴ ふ ぶ ぷ へ べ ぺ ほ
    6 ぼ ぽ ま み む め も ゃ や ゅ
    7 ゆ ょ よ ら り る れ ろ ゎ わ
    8 ゐ ゑ を ん      
    9     
     
    05 0 1 2 3 4 5 6 7 8 9
    0   ァ ア ィ イ ゥ ウ ェ エ ォ
    1 オ カ ガ キ ギ ク グ ケ ゲ コ
    2 ゴ サ ザ シ ジ ス ズ セ ゼ ソ
    3 ゾ タ ダ チ ヂ ッ ツ ヅ テ デ
    4 ト ド ナ ニ ヌ ネ ノ ハ バ パ
    5 ヒ ビ ピ フ ブ プ ヘ ベ ペ ホ
    6 ボ ポ マ ミ ム メ モ ャ ヤ ュ
    7 ユ ョ ヨ ラ リ ル レ ロ ヮ ワ
    8 ヰ ヱ ヲ ン ヴ ヵ ヶ   
    9     
     
    06 0 1 2 3 4 5 6 7 8 9
    0   Α Β Γ Δ Ε Ζ Η Θ Ι
    1 Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ
    2 Υ Φ Χ Ψ Ω     
    3    α β γ δ ε ζ η
    4 θ ι κ λ μ ν ξ ο π ρ
    5 σ τ υ φ χ ψ ω   
    6     ︵ ︶ ︹ ︺ ︿ ﹀
    7 ︽ ︾ ﹁ ﹂ ﹃ ﹄   ︻ ︼
    8 ︷ ︸ ︱  ︳ ︴    
    9     
     
    07 0 1 2 3 4 5 6 7 8 9
    0   А Б В Г Д Е Ё Ж З
    1 И Й К Л М Н О П Р С
    2 Т У Ф Х Ц Ч Ш Щ Ъ Ы
    3 Ь Э Ю Я      
    4          а
    5 б в г д е ё ж з и й
    6 к л м н о п р с т у
    7 ф х ц ч ш щ ъ ы ь э
    8 ю я        
    9     
     
    08 0 1 2 3 4 5 6 7 8 9
    0   ā á ǎ à ē é ě è ī
    1 í ǐ ì ō ó ǒ ò ū ú ǔ
    2 ù ǖ ǘ ǚ ǜ ü ê ɑ  ń
    3 ň  ɡ     ㄅ ㄆ ㄇ
    4 ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ
    5 ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ
    6 ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ
    7 ㄦ ㄧ ㄨ ㄩ      
    8          
    9     
     
    09 0 1 2 3 4 5 6 7 8 9
    0      ─ ━ │ ┃ ┄ ┅
    1 ┆ ┇ ┈ ┉ ┊ ┋ ┌ ┍ ┎ ┏
    2 ┐ ┑ ┒ ┓ └ ┕ ┖ ┗ ┘ ┙
    3 ┚ ┛ ├ ┝ ┞ ┟ ┠ ┡ ┢ ┣
    4 ┤ ┥ ┦ ┧ ┨ ┩ ┪ ┫ ┬ ┭
    5 ┮ ┯ ┰ ┱ ┲ ┳ ┴ ┵ ┶ ┷
    6 ┸ ┹ ┺ ┻ ┼ ┽ ┾ ┿ ╀ ╁
    7 ╂ ╃ ╄ ╅ ╆ ╇ ╈ ╉ ╊ ╋
    8          
    9     
     
    10 0 1 2 3 4 5 6 7 8 9
    0           
    1          
    2          
    3          
    4          
    5          
    6          
    7          
    8          
    9     
     
    11 0 1 2 3 4 5 6 7 8 9
    0           
    1          
    2          
    3          
    4          
    5          
    6          
    7          
    8          
    9     
     
    12 0 1 2 3 4 5 6 7 8 9
    0           
    1          
    2          
    3          
    4          
    5          
    6          
    7          
    8          
    9     
     
    13 0 1 2 3 4 5 6 7 8 9
    0           
    1          
    2          
    3          
    4          
    5          
    6          
    7          
    8          
    9     
     
    14 0 1 2 3 4 5 6 7 8 9
    0           
    1          
    2          
    3          
    4          
    5          
    6          
    7          
    8          
    9     
     
    15 0 1 2 3 4 5 6 7 8 9
    0           
    1          
    2          
    3          
    4          
    5          
    6          
    7          
    8          
    9     
     
    16 0 1 2 3 4 5 6 7 8 9
    0   啊 阿 埃 挨 哎 唉 哀 皑 癌
    1 蔼 矮 艾 碍 爱 隘 鞍 氨 安 俺
    2 按 暗 岸 胺 案 肮 昂 盎 凹 敖
    3 熬 翱 袄 傲 奥 懊 澳 芭 捌 扒
    4 叭 吧 笆 八 疤 巴 拔 跋 靶 把
    5 耙 坝 霸 罢 爸 白 柏 百 摆 佰
    6 败 拜 稗 斑 班 搬 扳 般 颁 板
    7 版 扮 拌 伴 瓣 半 办 绊 邦 帮
    8 梆 榜 膀 绑 棒 磅 蚌 镑 傍 谤
    9 苞 胞 包 褒 剥
     
    17 0 1 2 3 4 5 6 7 8 9
    0   薄 雹 保 堡 饱 宝 抱 报 暴
    1 豹 鲍 爆 杯 碑 悲 卑 北 辈 背
    2 贝 钡 倍 狈 备 惫 焙 被 奔 苯
    3 本 笨 崩 绷 甭 泵 蹦 迸 逼 鼻
    4 比 鄙 笔 彼 碧 蓖 蔽 毕 毙 毖
    5 币 庇 痹 闭 敝 弊 必 辟 壁 臂
    6 避 陛 鞭 边 编 贬 扁 便 变 卞
    7 辨 辩 辫 遍 标 彪 膘 表 鳖 憋
    8 别 瘪 彬 斌 濒 滨 宾 摈 兵 冰
    9 柄 丙 秉 饼 炳
     
    18 0 1 2 3 4 5 6 7 8 9
    0   病 并 玻 菠 播 拨 钵 波 博
    1 勃 搏 铂 箔 伯 帛 舶 脖 膊 渤
    2 泊 驳 捕 卜 哺 补 埠 不 布 步
    3 簿 部 怖 擦 猜 裁 材 才 财 睬
    4 踩 采 彩 菜 蔡 餐 参 蚕 残 惭
    5 惨 灿 苍 舱 仓 沧 藏 操 糙 槽
    6 曹 草 厕 策 侧 册 测 层 蹭 插
    7 叉 茬 茶 查 碴 搽 察 岔 差 诧
    8 拆 柴 豺 搀 掺 蝉 馋 谗 缠 铲
    9 产 阐 颤 昌 猖
     
    19 0 1 2 3 4 5 6 7 8 9
    0   场 尝 常 长 偿 肠 厂 敞 畅
    1 唱 倡 超 抄 钞 朝 嘲 潮 巢 吵
    2 炒 车 扯 撤 掣 彻 澈 郴 臣 辰
    3 尘 晨 忱 沉 陈 趁 衬 撑 称 城
    4 橙 成 呈 乘 程 惩 澄 诚 承 逞
    5 骋 秤 吃 痴 持 匙 池 迟 弛 驰
    6 耻 齿 侈 尺 赤 翅 斥 炽 充 冲
    7 虫 崇 宠 抽 酬 畴 踌 稠 愁 筹
    8 仇 绸 瞅 丑 臭 初 出 橱 厨 躇
    9 锄 雏 滁 除 楚
     
    20 0 1 2 3 4 5 6 7 8 9
    0   础 储 矗 搐 触 处 揣 川 穿
    1 椽 传 船 喘 串 疮 窗 幢 床 闯
    2 创 吹 炊 捶 锤 垂 春 椿 醇 唇
    3 淳 纯 蠢 戳 绰 疵 茨 磁 雌 辞
    4 慈 瓷 词 此 刺 赐 次 聪 葱 囱
    5 匆 从 丛 凑 粗 醋 簇 促 蹿 篡
    6 窜 摧 崔 催 脆 瘁 粹 淬 翠 村
    7 存 寸 磋 撮 搓 措 挫 错 搭 达
    8 答 瘩 打 大 呆 歹 傣 戴 带 殆
    9 代 贷 袋 待 逮
     
    21 0 1 2 3 4 5 6 7 8 9
    0   怠 耽 担 丹 单 郸 掸 胆 旦
    1 氮 但 惮 淡 诞 弹 蛋 当 挡 党
    2 荡 档 刀 捣 蹈 倒 岛 祷 导 到
    3 稻 悼 道 盗 德 得 的 蹬 灯 登
    4 等 瞪 凳 邓 堤 低 滴 迪 敌 笛
    5 狄 涤 翟 嫡 抵 底 地 蒂 第 帝
    6 弟 递 缔 颠 掂 滇 碘 点 典 靛
    7 垫 电 佃 甸 店 惦 奠 淀 殿 碉
    8 叼 雕 凋 刁 掉 吊 钓 调 跌 爹
    9 碟 蝶 迭 谍 叠
     
    22 0 1 2 3 4 5 6 7 8 9
    0   丁 盯 叮 钉 顶 鼎 锭 定 订
    1 丢 东 冬 董 懂 动 栋 侗 恫 冻
    2 洞 兜 抖 斗 陡 豆 逗 痘 都 督
    3 毒 犊 独 读 堵 睹 赌 杜 镀 肚
    4 度 渡 妒 端 短 锻 段 断 缎 堆
    5 兑 队 对 墩 吨 蹲 敦 顿 囤 钝
    6 盾 遁 掇 哆 多 夺 垛 躲 朵 跺
    7 舵 剁 惰 堕 蛾 峨 鹅 俄 额 讹
    8 娥 恶 厄 扼 遏 鄂 饿 恩 而 儿
    9 耳 尔 饵 洱 二
     
    23 0 1 2 3 4 5 6 7 8 9
    0   贰 发 罚 筏 伐 乏 阀 法 珐
    1 藩 帆 番 翻 樊 矾 钒 繁 凡 烦
    2 反 返 范 贩 犯 饭 泛 坊 芳 方
    3 肪 房 防 妨 仿 访 纺 放 菲 非
    4 啡 飞 肥 匪 诽 吠 肺 废 沸 费
    5 芬 酚 吩 氛 分 纷 坟 焚 汾 粉
    6 奋 份 忿 愤 粪 丰 封 枫 蜂 峰
    7 锋 风 疯 烽 逢 冯 缝 讽 奉 凤
    8 佛 否 夫 敷 肤 孵 扶 拂 辐 幅
    9 氟 符 伏 俘 服
     
    24 0 1 2 3 4 5 6 7 8 9
    0   浮 涪 福 袱 弗 甫 抚 辅 俯
    1 釜 斧 脯 腑 府 腐 赴 副 覆 赋
    2 复 傅 付 阜 父 腹 负 富 讣 附
    3 妇 缚 咐 噶 嘎 该 改 概 钙 盖
    4 溉 干 甘 杆 柑 竿 肝 赶 感 秆
    5 敢 赣 冈 刚 钢 缸 肛 纲 岗 港
    6 杠 篙 皋 高 膏 羔 糕 搞 镐 稿
    7 告 哥 歌 搁 戈 鸽 胳 疙 割 革
    8 葛 格 蛤 阁 隔 铬 个 各 给 根
    9 跟 耕 更 庚 羹
     
    25 0 1 2 3 4 5 6 7 8 9
    0   埂 耿 梗 工 攻 功 恭 龚 供
    1 躬 公 宫 弓 巩 汞 拱 贡 共 钩
    2 勾 沟 苟 狗 垢 构 购 够 辜 菇
    3 咕 箍 估 沽 孤 姑 鼓 古 蛊 骨
    4 谷 股 故 顾 固 雇 刮 瓜 剐 寡
    5 挂 褂 乖 拐 怪 棺 关 官 冠 观
    6 管 馆 罐 惯 灌 贯 光 广 逛 瑰
    7 规 圭 硅 归 龟 闺 轨 鬼 诡 癸
    8 桂 柜 跪 贵 刽 辊 滚 棍 锅 郭
    9 国 果 裹 过 哈
     
    26 0 1 2 3 4 5 6 7 8 9
    0   骸 孩 海 氦 亥 害 骇 酣 憨
    1 邯 韩 含 涵 寒 函 喊 罕 翰 撼
    2 捍 旱 憾 悍 焊 汗 汉 夯 杭 航
    3 壕 嚎 豪 毫 郝 好 耗 号 浩 呵
    4 喝 荷 菏 核 禾 和 何 合 盒 貉
    5 阂 河 涸 赫 褐 鹤 贺 嘿 黑 痕
    6 很 狠 恨 哼 亨 横 衡 恒 轰 哄
    7 烘 虹 鸿 洪 宏 弘 红 喉 侯 猴
    8 吼 厚 候 后 呼 乎 忽 瑚 壶 葫
    9 胡 蝴 狐 糊 湖
     
    27 0 1 2 3 4 5 6 7 8 9
    0   弧 虎 唬 护 互 沪 户 花 哗
    1 华 猾 滑 画 划 化 话 槐 徊 怀
    2 淮 坏 欢 环 桓 还 缓 换 患 唤
    3 痪 豢 焕 涣 宦 幻 荒 慌 黄 磺
    4 蝗 簧 皇 凰 惶 煌 晃 幌 恍 谎
    5 灰 挥 辉 徽 恢 蛔 回 毁 悔 慧
    6 卉 惠 晦 贿 秽 会 烩 汇 讳 诲
    7 绘 荤 昏 婚 魂 浑 混 豁 活 伙
    8 火 获 或 惑 霍 货 祸 击 圾 基
    9 机 畸 稽 积 箕
     
    28 0 1 2 3 4 5 6 7 8 9
    0   肌 饥 迹 激 讥 鸡 姬 绩 缉
    1 吉 极 棘 辑 籍 集 及 急 疾 汲
    2 即 嫉 级 挤 几 脊 己 蓟 技 冀
    3 季 伎 祭 剂 悸 济 寄 寂 计 记
    4 既 忌 际 妓 继 纪 嘉 枷 夹 佳
    5 家 加 荚 颊 贾 甲 钾 假 稼 价
    6 架 驾 嫁 歼 监 坚 尖 笺 间 煎
    7 兼 肩 艰 奸 缄 茧 检 柬 碱 硷
    8 拣 捡 简 俭 剪 减 荐 槛 鉴 践
    9 贱 见 键 箭 件
     
    29 0 1 2 3 4 5 6 7 8 9
    0   健 舰 剑 饯 渐 溅 涧 建 僵
    1 姜 将 浆 江 疆 蒋 桨 奖 讲 匠
    2 酱 降 蕉 椒 礁 焦 胶 交 郊 浇
    3 骄 娇 嚼 搅 铰 矫 侥 脚 狡 角
    4 饺 缴 绞 剿 教 酵 轿 较 叫 窖
    5 揭 接 皆 秸 街 阶 截 劫 节 桔
    6 杰 捷 睫 竭 洁 结 解 姐 戒 藉
    7 芥 界 借 介 疥 诫 届 巾 筋 斤
    8 金 今 津 襟 紧 锦 仅 谨 进 靳
    9 晋 禁 近 烬 浸
     
    30 0 1 2 3 4 5 6 7 8 9
    0   尽 劲 荆 兢 茎 睛 晶 鲸 京
    1 惊 精 粳 经 井 警 景 颈 静 境
    2 敬 镜 径 痉 靖 竟 竞 净 炯 窘
    3 揪 究 纠 玖 韭 久 灸 九 酒 厩
    4 救 旧 臼 舅 咎 就 疚 鞠 拘 狙
    5 疽 居 驹 菊 局 咀 矩 举 沮 聚
    6 拒 据 巨 具 距 踞 锯 俱 句 惧
    7 炬 剧 捐 鹃 娟 倦 眷 卷 绢 撅
    8 攫 抉 掘 倔 爵 觉 决 诀 绝 均
    9 菌 钧 军 君 峻
     
    31 0 1 2 3 4 5 6 7 8 9
    0   俊 竣 浚 郡 骏 喀 咖 卡 咯
    1 开 揩 楷 凯 慨 刊 堪 勘 坎 砍
    2 看 康 慷 糠 扛 抗 亢 炕 考 拷
    3 烤 靠 坷 苛 柯 棵 磕 颗 科 壳
    4 咳 可 渴 克 刻 客 课 肯 啃 垦
    5 恳 坑 吭 空 恐 孔 控 抠 口 扣
    6 寇 枯 哭 窟 苦 酷 库 裤 夸 垮
    7 挎 跨 胯 块 筷 侩 快 宽 款 匡
    8 筐 狂 框 矿 眶 旷 况 亏 盔 岿
    9 窥 葵 奎 魁 傀
     
    32 0 1 2 3 4 5 6 7 8 9
    0   馈 愧 溃 坤 昆 捆 困 括 扩
    1 廓 阔 垃 拉 喇 蜡 腊 辣 啦 莱
    2 来 赖 蓝 婪 栏 拦 篮 阑 兰 澜
    3 谰 揽 览 懒 缆 烂 滥 琅 榔 狼
    4 廊 郎 朗 浪 捞 劳 牢 老 佬 姥
    5 酪 烙 涝 勒 乐 雷 镭 蕾 磊 累
    6 儡 垒 擂 肋 类 泪 棱 楞 冷 厘
    7 梨 犁 黎 篱 狸 离 漓 理 李 里
    8 鲤 礼 莉 荔 吏 栗 丽 厉 励 砾
    9 历 利 傈 例 俐
     
    33 0 1 2 3 4 5 6 7 8 9
    0   痢 立 粒 沥 隶 力 璃 哩 俩
    1 联 莲 连 镰 廉 怜 涟 帘 敛 脸
    2 链 恋 炼 练 粮 凉 梁 粱 良 两
    3 辆 量 晾 亮 谅 撩 聊 僚 疗 燎
    4 寥 辽 潦 了 撂 镣 廖 料 列 裂
    5 烈 劣 猎 琳 林 磷 霖 临 邻 鳞
    6 淋 凛 赁 吝 拎 玲 菱 零 龄 铃
    7 伶 羚 凌 灵 陵 岭 领 另 令 溜
    8 琉 榴 硫 馏 留 刘 瘤 流 柳 六
    9 龙 聋 咙 笼 窿
     
    34 0 1 2 3 4 5 6 7 8 9
    0   隆 垄 拢 陇 楼 娄 搂 篓 漏
    1 陋 芦 卢 颅 庐 炉 掳 卤 虏 鲁
    2 麓 碌 露 路 赂 鹿 潞 禄 录 陆
    3 戮 驴 吕 铝 侣 旅 履 屡 缕 虑
    4 氯 律 率 滤 绿 峦 挛 孪 滦 卵
    5 乱 掠 略 抡 轮 伦 仑 沦 纶 论
    6 萝 螺 罗 逻 锣 箩 骡 裸 落 洛
    7 骆 络 妈 麻 玛 码 蚂 马 骂 嘛
    8 吗 埋 买 麦 卖 迈 脉 瞒 馒 蛮
    9 满 蔓 曼 慢 漫
     
    35 0 1 2 3 4 5 6 7 8 9
    0   谩 芒 茫 盲 氓 忙 莽 猫 茅
    1 锚 毛 矛 铆 卯 茂 冒 帽 貌 贸
    2 么 玫 枚 梅 酶 霉 煤 没 眉 媒
    3 镁 每 美 昧 寐 妹 媚 门 闷 们
    4 萌 蒙 檬 盟 锰 猛 梦 孟 眯 醚
    5 靡 糜 迷 谜 弥 米 秘 觅 泌 蜜
    6 密 幂 棉 眠 绵 冕 免 勉 娩 缅
    7 面 苗 描 瞄 藐 秒 渺 庙 妙 蔑
    8 灭 民 抿 皿 敏 悯 闽 明 螟 鸣
    9 铭 名 命 谬 摸
     
    36 0 1 2 3 4 5 6 7 8 9
    0   摹 蘑 模 膜 磨 摩 魔 抹 末
    1 莫 墨 默 沫 漠 寞 陌 谋 牟 某
    2 拇 牡 亩 姆 母 墓 暮 幕 募 慕
    3 木 目 睦 牧 穆 拿 哪 呐 钠 那
    4 娜 纳 氖 乃 奶 耐 奈 南 男 难
    5 囊 挠 脑 恼 闹 淖 呢 馁 内 嫩
    6 能 妮 霓 倪 泥 尼 拟 你 匿 腻
    7 逆 溺 蔫 拈 年 碾 撵 捻 念 娘
    8 酿 鸟 尿 捏 聂 孽 啮 镊 镍 涅
    9 您 柠 狞 凝 宁
     
    37 0 1 2 3 4 5 6 7 8 9
    0   拧 泞 牛 扭 钮 纽 脓 浓 农
    1 弄 奴 努 怒 女 暖 虐 疟 挪 懦
    2 糯 诺 哦 欧 鸥 殴 藕 呕 偶 沤
    3 啪 趴 爬 帕 怕 琶 拍 排 牌 徘
    4 湃 派 攀 潘 盘 磐 盼 畔 判 叛
    5 乓 庞 旁 耪 胖 抛 咆 刨 炮 袍
    6 跑 泡 呸 胚 培 裴 赔 陪 配 佩
    7 沛 喷 盆 砰 抨 烹 澎 彭 蓬 棚
    8 硼 篷 膨 朋 鹏 捧 碰 坯 砒 霹
    9 批 披 劈 琵 毗
     
    38 0 1 2 3 4 5 6 7 8 9
    0   啤 脾 疲 皮 匹 痞 僻 屁 譬
    1 篇 偏 片 骗 飘 漂 瓢 票 撇 瞥
    2 拼 频 贫 品 聘 乒 坪 苹 萍 平
    3 凭 瓶 评 屏 坡 泼 颇 婆 破 魄
    4 迫 粕 剖 扑 铺 仆 莆 葡 菩 蒲
    5 埔 朴 圃 普 浦 谱 曝 瀑 期 欺
    6 栖 戚 妻 七 凄 漆 柒 沏 其 棋
    7 奇 歧 畦 崎 脐 齐 旗 祈 祁 骑
    8 起 岂 乞 企 启 契 砌 器 气 迄
    9 弃 汽 泣 讫 掐
     
    39 0 1 2 3 4 5 6 7 8 9
    0   恰 洽 牵 扦 钎 铅 千 迁 签
    1 仟 谦 乾 黔 钱 钳 前 潜 遣 浅
    2 谴 堑 嵌 欠 歉 枪 呛 腔 羌 墙
    3 蔷 强 抢 橇 锹 敲 悄 桥 瞧 乔
    4 侨 巧 鞘 撬 翘 峭 俏 窍 切 茄
    5 且 怯 窃 钦 侵 亲 秦 琴 勤 芹
    6 擒 禽 寝 沁 青 轻 氢 倾 卿 清
    7 擎 晴 氰 情 顷 请 庆 琼 穷 秋
    8 丘 邱 球 求 囚 酋 泅 趋 区 蛆
    9 曲 躯 屈 驱 渠
     
    40 0 1 2 3 4 5 6 7 8 9
    0   取 娶 龋 趣 去 圈 颧 权 醛
    1 泉 全 痊 拳 犬 券 劝 缺 炔 瘸
    2 却 鹊 榷 确 雀 裙 群 然 燃 冉
    3 染 瓤 壤 攘 嚷 让 饶 扰 绕 惹
    4 热 壬 仁 人 忍 韧 任 认 刃 妊
    5 纫 扔 仍 日 戎 茸 蓉 荣 融 熔
    6 溶 容 绒 冗 揉 柔 肉 茹 蠕 儒
    7 孺 如 辱 乳 汝 入 褥 软 阮 蕊
    8 瑞 锐 闰 润 若 弱 撒 洒 萨 腮
    9 鳃 塞 赛 三 叁
     
    41 0 1 2 3 4 5 6 7 8 9
    0   伞 散 桑 嗓 丧 搔 骚 扫 嫂
    1 瑟 色 涩 森 僧 莎 砂 杀 刹 沙
    2 纱 傻 啥 煞 筛 晒 珊 苫 杉 山
    3 删 煽 衫 闪 陕 擅 赡 膳 善 汕
    4 扇 缮 墒 伤 商 赏 晌 上 尚 裳
    5 梢 捎 稍 烧 芍 勺 韶 少 哨 邵
    6 绍 奢 赊 蛇 舌 舍 赦 摄 射 慑
    7 涉 社 设 砷 申 呻 伸 身 深 娠
    8 绅 神 沈 审 婶 甚 肾 慎 渗 声
    9 生 甥 牲 升 绳
     
    42 0 1 2 3 4 5 6 7 8 9
    0   省 盛 剩 胜 圣 师 失 狮 施
    1 湿 诗 尸 虱 十 石 拾 时 什 食
    2 蚀 实 识 史 矢 使 屎 驶 始 式
    3 示 士 世 柿 事 拭 誓 逝 势 是
    4 嗜 噬 适 仕 侍 释 饰 氏 市 恃
    5 室 视 试 收 手 首 守 寿 授 售
    6 受 瘦 兽 蔬 枢 梳 殊 抒 输 叔
    7 舒 淑 疏 书 赎 孰 熟 薯 暑 曙
    8 署 蜀 黍 鼠 属 术 述 树 束 戍
    9 竖 墅 庶 数 漱
     
    43 0 1 2 3 4 5 6 7 8 9
    0   恕 刷 耍 摔 衰 甩 帅 栓 拴
    1 霜 双 爽 谁 水 睡 税 吮 瞬 顺
    2 舜 说 硕 朔 烁 斯 撕 嘶 思 私
    3 司 丝 死 肆 寺 嗣 四 伺 似 饲
    4 巳 松 耸 怂 颂 送 宋 讼 诵 搜
    5 艘 擞 嗽 苏 酥 俗 素 速 粟 僳
    6 塑 溯 宿 诉 肃 酸 蒜 算 虽 隋
    7 随 绥 髓 碎 岁 穗 遂 隧 祟 孙
    8 损 笋 蓑 梭 唆 缩 琐 索 锁 所
    9 塌 他 它 她 塔
     
    44 0 1 2 3 4 5 6 7 8 9
    0   獭 挞 蹋 踏 胎 苔 抬 台 泰
    1 酞 太 态 汰 坍 摊 贪 瘫 滩 坛
    2 檀 痰 潭 谭 谈 坦 毯 袒 碳 探
    3 叹 炭 汤 塘 搪 堂 棠 膛 唐 糖
    4 倘 躺 淌 趟 烫 掏 涛 滔 绦 萄
    5 桃 逃 淘 陶 讨 套 特 藤 腾 疼
    6 誊 梯 剔 踢 锑 提 题 蹄 啼 体
    7 替 嚏 惕 涕 剃 屉 天 添 填 田
    8 甜 恬 舔 腆 挑 条 迢 眺 跳 贴
    9 铁 帖 厅 听 烃
     
    45 0 1 2 3 4 5 6 7 8 9
    0   汀 廷 停 亭 庭 挺 艇 通 桐
    1 酮 瞳 同 铜 彤 童 桶 捅 筒 统
    2 痛 偷 投 头 透 凸 秃 突 图 徒
    3 途 涂 屠 土 吐 兔 湍 团 推 颓
    4 腿 蜕 褪 退 吞 屯 臀 拖 托 脱
    5 鸵 陀 驮 驼 椭 妥 拓 唾 挖 哇
    6 蛙 洼 娃 瓦 袜 歪 外 豌 弯 湾
    7 玩 顽 丸 烷 完 碗 挽 晚 皖 惋
    8 宛 婉 万 腕 汪 王 亡 枉 网 往
    9 旺 望 忘 妄 威
     
    46 0 1 2 3 4 5 6 7 8 9
    0   巍 微 危 韦 违 桅 围 唯 惟
    1 为 潍 维 苇 萎 委 伟 伪 尾 纬
    2 未 蔚 味 畏 胃 喂 魏 位 渭 谓
    3 尉 慰 卫 瘟 温 蚊 文 闻 纹 吻
    4 稳 紊 问 嗡 翁 瓮 挝 蜗 涡 窝
    5 我 斡 卧 握 沃 巫 呜 钨 乌 污
    6 诬 屋 无 芜 梧 吾 吴 毋 武 五
    7 捂 午 舞 伍 侮 坞 戊 雾 晤 物
    8 勿 务 悟 误 昔 熙 析 西 硒 矽
    9 晰 嘻 吸 锡 牺
     
    47 0 1 2 3 4 5 6 7 8 9
    0   稀 息 希 悉 膝 夕 惜 熄 烯
    1 溪 汐 犀 檄 袭 席 习 媳 喜 铣
    2 洗 系 隙 戏 细 瞎 虾 匣 霞 辖
    3 暇 峡 侠 狭 下 厦 夏 吓 掀 锨
    4 先 仙 鲜 纤 咸 贤 衔 舷 闲 涎
    5 弦 嫌 显 险 现 献 县 腺 馅 羡
    6 宪 陷 限 线 相 厢 镶 香 箱 襄
    7 湘 乡 翔 祥 详 想 响 享 项 巷
    8 橡 像 向 象 萧 硝 霄 削 哮 嚣
    9 销 消 宵 淆 晓
     
    48 0 1 2 3 4 5 6 7 8 9
    0   小 孝 校 肖 啸 笑 效 楔 些
    1 歇 蝎 鞋 协 挟 携 邪 斜 胁 谐
    2 写 械 卸 蟹 懈 泄 泻 谢 屑 薪
    3 芯 锌 欣 辛 新 忻 心 信 衅 星
    4 腥 猩 惺 兴 刑 型 形 邢 行 醒
    5 幸 杏 性 姓 兄 凶 胸 匈 汹 雄
    6 熊 休 修 羞 朽 嗅 锈 秀 袖 绣
    7 墟 戌 需 虚 嘘 须 徐 许 蓄 酗
    8 叙 旭 序 畜 恤 絮 婿 绪 续 轩
    9 喧 宣 悬 旋 玄
     
    49 0 1 2 3 4 5 6 7 8 9
    0   选 癣 眩 绚 靴 薛 学 穴 雪
    1 血 勋 熏 循 旬 询 寻 驯 巡 殉
    2 汛 训 讯 逊 迅 压 押 鸦 鸭 呀
    3 丫 芽 牙 蚜 崖 衙 涯 雅 哑 亚
    4 讶 焉 咽 阉 烟 淹 盐 严 研 蜒
    5 岩 延 言 颜 阎 炎 沿 奄 掩 眼
    6 衍 演 艳 堰 燕 厌 砚 雁 唁 彦
    7 焰 宴 谚 验 殃 央 鸯 秧 杨 扬
    8 佯 疡 羊 洋 阳 氧 仰 痒 养 样
    9 漾 邀 腰 妖 瑶
     
    50 0 1 2 3 4 5 6 7 8 9
    0   摇 尧 遥 窑 谣 姚 咬 舀 药
    1 要 耀 椰 噎 耶 爷 野 冶 也 页
    2 掖 业 叶 曳 腋 夜 液 一 壹 医
    3 揖 铱 依 伊 衣 颐 夷 遗 移 仪
    4 胰 疑 沂 宜 姨 彝 椅 蚁 倚 已
    5 乙 矣 以 艺 抑 易 邑 屹 亿 役
    6 臆 逸 肄 疫 亦 裔 意 毅 忆 义
    7 益 溢 诣 议 谊 译 异 翼 翌 绎
    8 茵 荫 因 殷 音 阴 姻 吟 银 淫
    9 寅 饮 尹 引 隐
     
    51 0 1 2 3 4 5 6 7 8 9
    0   印 英 樱 婴 鹰 应 缨 莹 萤
    1 营 荧 蝇 迎 赢 盈 影 颖 硬 映
    2 哟 拥 佣 臃 痈 庸 雍 踊 蛹 咏
    3 泳 涌 永 恿 勇 用 幽 优 悠 忧
    4 尤 由 邮 铀 犹 油 游 酉 有 友
    5 右 佑 釉 诱 又 幼 迂 淤 于 盂
    6 榆 虞 愚 舆 余 俞 逾 鱼 愉 渝
    7 渔 隅 予 娱 雨 与 屿 禹 宇 语
    8 羽 玉 域 芋 郁 吁 遇 喻 峪 御
    9 愈 欲 狱 育 誉
     
    52 0 1 2 3 4 5 6 7 8 9
    0   浴 寓 裕 预 豫 驭 鸳 渊 冤
    1 元 垣 袁 原 援 辕 园 员 圆 猿
    2 源 缘 远 苑 愿 怨 院 曰 约 越
    3 跃 钥 岳 粤 月 悦 阅 耘 云 郧
    4 匀 陨 允 运 蕴 酝 晕 韵 孕 匝
    5 砸 杂 栽 哉 灾 宰 载 再 在 咱
    6 攒 暂 赞 赃 脏 葬 遭 糟 凿 藻
    7 枣 早 澡 蚤 躁 噪 造 皂 灶 燥
    8 责 择 则 泽 贼 怎 增 憎 曾 赠
    9 扎 喳 渣 札 轧
     
    53 0 1 2 3 4 5 6 7 8 9
    0   铡 闸 眨 栅 榨 咋 乍 炸 诈
    1 摘 斋 宅 窄 债 寨 瞻 毡 詹 粘
    2 沾 盏 斩 辗 崭 展 蘸 栈 占 战
    3 站 湛 绽 樟 章 彰 漳 张 掌 涨
    4 杖 丈 帐 账 仗 胀 瘴 障 招 昭
    5 找 沼 赵 照 罩 兆 肇 召 遮 折
    6 哲 蛰 辙 者 锗 蔗 这 浙 珍 斟
    7 真 甄 砧 臻 贞 针 侦 枕 疹 诊
    8 震 振 镇 阵 蒸 挣 睁 征 狰 争
    9 怔 整 拯 正 政
     
    54 0 1 2 3 4 5 6 7 8 9
    0   帧 症 郑 证 芝 枝 支 吱 蜘
    1 知 肢 脂 汁 之 织 职 直 植 殖
    2 执 值 侄 址 指 止 趾 只 旨 纸
    3 志 挚 掷 至 致 置 帜 峙 制 智
    4 秩 稚 质 炙 痔 滞 治 窒 中 盅
    5 忠 钟 衷 终 种 肿 重 仲 众 舟
    6 周 州 洲 诌 粥 轴 肘 帚 咒 皱
    7 宙 昼 骤 珠 株 蛛 朱 猪 诸 诛
    8 逐 竹 烛 煮 拄 瞩 嘱 主 著 柱
    9 助 蛀 贮 铸 筑
     
    55 0 1 2 3 4 5 6 7 8 9
    0   住 注 祝 驻 抓 爪 拽 专 砖
    1 转 撰 赚 篆 桩 庄 装 妆 撞 壮
    2 状 椎 锥 追 赘 坠 缀 谆 准 捉
    3 拙 卓 桌 琢 茁 酌 啄 着 灼 浊
    4 兹 咨 资 姿 滋 淄 孜 紫 仔 籽
    5 滓 子 自 渍 字 鬃 棕 踪 宗 综
    6 总 纵 邹 走 奏 揍 租 足 卒 族
    7 祖 诅 阻 组 钻 纂 嘴 醉 最 罪
    8 尊 遵 昨 左 佐 柞 做 作 坐 座
    9     
     
    56 0 1 2 3 4 5 6 7 8 9
    0   亍 丌 兀 丐 廿 卅 丕 亘 丞
    1 鬲 孬 噩 丨 禺 丿 匕 乇 夭 爻
    2 卮 氐 囟 胤 馗 毓 睾 鼗 丶 亟
    3 鼐 乜 乩 亓 芈 孛 啬 嘏 仄 厍
    4 厝 厣 厥 厮 靥 赝 匚 叵 匦 匮
    5 匾 赜 卦 卣 刂 刈 刎 刭 刳 刿
    6 剀 剌 剞 剡 剜 蒯 剽 劂 劁 劐
    7 劓 冂 罔 亻 仃 仉 仂 仨 仡 仫
    8 仞 伛 仳 伢 佤 仵 伥 伧 伉 伫
    9 佞 佧 攸 佚 佝
     
    57 0 1 2 3 4 5 6 7 8 9
    0   佟 佗 伲 伽 佶 佴 侑 侉 侃
    1 侏 佾 佻 侪 佼 侬 侔 俦 俨 俪
    2 俅 俚 俣 俜 俑 俟 俸 倩 偌 俳
    3 倬 倏 倮 倭 俾 倜 倌 倥 倨 偾
    4 偃 偕 偈 偎 偬 偻 傥 傧 傩 傺
    5 僖 儆 僭 僬 僦 僮 儇 儋 仝 氽
    6 佘 佥 俎 龠 汆 籴 兮 巽 黉 馘
    7 冁 夔 勹 匍 訇 匐 凫 夙 兕 亠
    8 兖 亳 衮 袤 亵 脔 裒 禀 嬴 蠃
    9 羸 冫 冱 冽 冼
     
    58 0 1 2 3 4 5 6 7 8 9
    0   凇 冖 冢 冥 讠 讦 讧 讪 讴
    1 讵 讷 诂 诃 诋 诏 诎 诒 诓 诔
    2 诖 诘 诙 诜 诟 诠 诤 诨 诩 诮
    3 诰 诳 诶 诹 诼 诿 谀 谂 谄 谇
    4 谌 谏 谑 谒 谔 谕 谖 谙 谛 谘
    5 谝 谟 谠 谡 谥 谧 谪 谫 谮 谯
    6 谲 谳 谵 谶 卩 卺 阝 阢 阡 阱
    7 阪 阽 阼 陂 陉 陔 陟 陧 陬 陲
    8 陴 隈 隍 隗 隰 邗 邛 邝 邙 邬
    9 邡 邴 邳 邶 邺
     
    59 0 1 2 3 4 5 6 7 8 9
    0   邸 邰 郏 郅 邾 郐 郄 郇 郓
    1 郦 郢 郜 郗 郛 郫 郯 郾 鄄 鄢
    2 鄞 鄣 鄱 鄯 鄹 酃 酆 刍 奂 劢
    3 劬 劭 劾 哿 勐 勖 勰 叟 燮 矍
    4 廴 凵 凼 鬯 厶 弁 畚 巯 坌 垩
    5 垡 塾 墼 壅 壑 圩 圬 圪 圳 圹
    6 圮 圯 坜 圻 坂 坩 垅 坫 垆 坼
    7 坻 坨 坭 坶 坳 垭 垤 垌 垲 埏
    8 垧 垴 垓 垠 埕 埘 埚 埙 埒 垸
    9 埴 埯 埸 埤 埝
     
    60 0 1 2 3 4 5 6 7 8 9
    0   堋 堍 埽 埭 堀 堞 堙 塄 堠
    1 塥 塬 墁 墉 墚 墀 馨 鼙 懿 艹
    2 艽 艿 芏 芊 芨 芄 芎 芑 芗 芙
    3 芫 芸 芾 芰 苈 苊 苣 芘 芷 芮
    4 苋 苌 苁 芩 芴 芡 芪 芟 苄 苎
    5 芤 苡 茉 苷 苤 茏 茇 苜 苴 苒
    6 苘 茌 苻 苓 茑 茚 茆 茔 茕 苠
    7 苕 茜 荑 荛 荜 茈 莒 茼 茴 茱
    8 莛 荞 茯 荏 荇 荃 荟 荀 茗 荠
    9 茭 茺 茳 荦 荥
     
    61 0 1 2 3 4 5 6 7 8 9
    0   荨 茛 荩 荬 荪 荭 荮 莰 荸
    1 莳 莴 莠 莪 莓 莜 莅 荼 莶 莩
    2 荽 莸 荻 莘 莞 莨 莺 莼 菁 萁
    3 菥 菘 堇 萘 萋 菝 菽 菖 萜 萸
    4 萑 萆 菔 菟 萏 萃 菸 菹 菪 菅
    5 菀 萦 菰 菡 葜 葑 葚 葙 葳 蒇
    6 蒈 葺 蒉 葸 萼 葆 葩 葶 蒌 蒎
    7 萱 葭 蓁 蓍 蓐 蓦 蒽 蓓 蓊 蒿
    8 蒺 蓠 蒡 蒹 蒴 蒗 蓥 蓣 蔌 甍
    9 蔸 蓰 蔹 蔟 蔺
     
    62 0 1 2 3 4 5 6 7 8 9
    0   蕖 蔻 蓿 蓼 蕙 蕈 蕨 蕤 蕞
    1 蕺 瞢 蕃 蕲 蕻 薤 薨 薇 薏 蕹
    2 薮 薜 薅 薹 薷 薰 藓 藁 藜 藿
    3 蘧 蘅 蘩 蘖 蘼 廾 弈 夼 奁 耷
    4 奕 奚 奘 匏 尢 尥 尬 尴 扌 扪
    5 抟 抻 拊 拚 拗 拮 挢 拶 挹 捋
    6 捃 掭 揶 捱 捺 掎 掴 捭 掬 掊
    7 捩 掮 掼 揲 揸 揠 揿 揄 揞 揎
    8 摒 揆 掾 摅 摁 搋 搛 搠 搌 搦
    9 搡 摞 撄 摭 撖
     
    63 0 1 2 3 4 5 6 7 8 9
    0   摺 撷 撸 撙 撺 擀 擐 擗 擤
    1 擢 攉 攥 攮 弋 忒 甙 弑 卟 叱
    2 叽 叩 叨 叻 吒 吖 吆 呋 呒 呓
    3 呔 呖 呃 吡 呗 呙 吣 吲 咂 咔
    4 呷 呱 呤 咚 咛 咄 呶 呦 咝 哐
    5 咭 哂 咴 哒 咧 咦 哓 哔 呲 咣
    6 哕 咻 咿 哌 哙 哚 哜 咩 咪 咤
    7 哝 哏 哞 唛 哧 唠 哽 唔 哳 唢
    8 唣 唏 唑 唧 唪 啧 喏 喵 啉 啭
    9 啁 啕 唿 啐 唼
     
    64 0 1 2 3 4 5 6 7 8 9
    0   唷 啖 啵 啶 啷 唳 唰 啜 喋
    1 嗒 喃 喱 喹 喈 喁 喟 啾 嗖 喑
    2 啻 嗟 喽 喾 喔 喙 嗪 嗷 嗉 嘟
    3 嗑 嗫 嗬 嗔 嗦 嗝 嗄 嗯 嗥 嗲
    4 嗳 嗌 嗍 嗨 嗵 嗤 辔 嘞 嘈 嘌
    5 嘁 嘤 嘣 嗾 嘀 嘧 嘭 噘 嘹 噗
    6 嘬 噍 噢 噙 噜 噌 噔 嚆 噤 噱
    7 噫 噻 噼 嚅 嚓 嚯 囔 囗 囝 囡
    8 囵 囫 囹 囿 圄 圊 圉 圜 帏 帙
    9 帔 帑 帱 帻 帼
     
    65 0 1 2 3 4 5 6 7 8 9
    0   帷 幄 幔 幛 幞 幡 岌 屺 岍
    1 岐 岖 岈 岘 岙 岑 岚 岜 岵 岢
    2 岽 岬 岫 岱 岣 峁 岷 峄 峒 峤
    3 峋 峥 崂 崃 崧 崦 崮 崤 崞 崆
    4 崛 嵘 崾 崴 崽 嵬 嵛 嵯 嵝 嵫
    5 嵋 嵊 嵩 嵴 嶂 嶙 嶝 豳 嶷 巅
    6 彳 彷 徂 徇 徉 後 徕 徙 徜 徨
    7 徭 徵 徼 衢 彡 犭 犰 犴 犷 犸
    8 狃 狁 狎 狍 狒 狨 狯 狩 狲 狴
    9 狷 猁 狳 猃 狺
     
    66 0 1 2 3 4 5 6 7 8 9
    0   狻 猗 猓 猡 猊 猞 猝 猕 猢
    1 猹 猥 猬 猸 猱 獐 獍 獗 獠 獬
    2 獯 獾 舛 夥 飧 夤 夂 饣 饧 饨
    3 饩 饪 饫 饬 饴 饷 饽 馀 馄 馇
    4 馊 馍 馐 馑 馓 馔 馕 庀 庑 庋
    5 庖 庥 庠 庹 庵 庾 庳 赓 廒 廑
    6 廛 廨 廪 膺 忄 忉 忖 忏 怃 忮
    7 怄 忡 忤 忾 怅 怆 忪 忭 忸 怙
    8 怵 怦 怛 怏 怍 怩 怫 怊 怿 怡
    9 恸 恹 恻 恺 恂
     
    67 0 1 2 3 4 5 6 7 8 9
    0   恪 恽 悖 悚 悭 悝 悃 悒 悌
    1 悛 惬 悻 悱 惝 惘 惆 惚 悴 愠
    2 愦 愕 愣 惴 愀 愎 愫 慊 慵 憬
    3 憔 憧 憷 懔 懵 忝 隳 闩 闫 闱
    4 闳 闵 闶 闼 闾 阃 阄 阆 阈 阊
    5 阋 阌 阍 阏 阒 阕 阖 阗 阙 阚
    6 丬 爿 戕 氵 汔 汜 汊 沣 沅 沐
    7 沔 沌 汨 汩 汴 汶 沆 沩 泐 泔
    8 沭 泷 泸 泱 泗 沲 泠 泖 泺 泫
    9 泮 沱 泓 泯 泾
     
    68 0 1 2 3 4 5 6 7 8 9
    0   洹 洧 洌 浃 浈 洇 洄 洙 洎
    1 洫 浍 洮 洵 洚 浏 浒 浔 洳 涑
    2 浯 涞 涠 浞 涓 涔 浜 浠 浼 浣
    3 渚 淇 淅 淞 渎 涿 淠 渑 淦 淝
    4 淙 渖 涫 渌 涮 渫 湮 湎 湫 溲
    5 湟 溆 湓 湔 渲 渥 湄 滟 溱 溘
    6 滠 漭 滢 溥 溧 溽 溻 溷 滗 溴
    7 滏 溏 滂 溟 潢 潆 潇 漤 漕 滹
    8 漯 漶 潋 潴 漪 漉 漩 澉 澍 澌
    9 潸 潲 潼 潺 濑
     
    69 0 1 2 3 4 5 6 7 8 9
    0   濉 澧 澹 澶 濂 濡 濮 濞 濠
    1 濯 瀚 瀣 瀛 瀹 瀵 灏 灞 宀 宄
    2 宕 宓 宥 宸 甯 骞 搴 寤 寮 褰
    3 寰 蹇 謇 辶 迓 迕 迥 迮 迤 迩
    4 迦 迳 迨 逅 逄 逋 逦 逑 逍 逖
    5 逡 逵 逶 逭 逯 遄 遑 遒 遐 遨
    6 遘 遢 遛 暹 遴 遽 邂 邈 邃 邋
    7 彐 彗 彖 彘 尻 咫 屐 屙 孱 屣
    8 屦 羼 弪 弩 弭 艴 弼 鬻 屮 妁
    9 妃 妍 妩 妪 妣
     
    70 0 1 2 3 4 5 6 7 8 9
    0   妗 姊 妫 妞 妤 姒 妲 妯 姗
    1 妾 娅 娆 姝 娈 姣 姘 姹 娌 娉
    2 娲 娴 娑 娣 娓 婀 婧 婊 婕 娼
    3 婢 婵 胬 媪 媛 婷 婺 媾 嫫 媲
    4 嫒 嫔 媸 嫠 嫣 嫱 嫖 嫦 嫘 嫜
    5 嬉 嬗 嬖 嬲 嬷 孀 尕 尜 孚 孥
    6 孳 孑 孓 孢 驵 驷 驸 驺 驿 驽
    7 骀 骁 骅 骈 骊 骐 骒 骓 骖 骘
    8 骛 骜 骝 骟 骠 骢 骣 骥 骧 纟
    9 纡 纣 纥 纨 纩
     
    71 0 1 2 3 4 5 6 7 8 9
    0   纭 纰 纾 绀 绁 绂 绉 绋 绌
    1 绐 绔 绗 绛 绠 绡 绨 绫 绮 绯
    2 绱 绲 缍 绶 绺 绻 绾 缁 缂 缃
    3 缇 缈 缋 缌 缏 缑 缒 缗 缙 缜
    4 缛 缟 缡 缢 缣 缤 缥 缦 缧 缪
    5 缫 缬 缭 缯 缰 缱 缲 缳 缵 幺
    6 畿 巛 甾 邕 玎 玑 玮 玢 玟 珏
    7 珂 珑 玷 玳 珀 珉 珈 珥 珙 顼
    8 琊 珩 珧 珞 玺 珲 琏 琪 瑛 琦
    9 琥 琨 琰 琮 琬
     
    72 0 1 2 3 4 5 6 7 8 9
    0   琛 琚 瑁 瑜 瑗 瑕 瑙 瑷 瑭
    1 瑾 璜 璎 璀 璁 璇 璋 璞 璨 璩
    2 璐 璧 瓒 璺 韪 韫 韬 杌 杓 杞
    3 杈 杩 枥 枇 杪 杳 枘 枧 杵 枨
    4 枞 枭 枋 杷 杼 柰 栉 柘 栊 柩
    5 枰 栌 柙 枵 柚 枳 柝 栀 柃 枸
    6 柢 栎 柁 柽 栲 栳 桠 桡 桎 桢
    7 桄 桤 梃 栝 桕 桦 桁 桧 桀 栾
    8 桊 桉 栩 梵 梏 桴 桷 梓 桫 棂
    9 楮 棼 椟 椠 棹
     
    73 0 1 2 3 4 5 6 7 8 9
    0   椤 棰 椋 椁 楗 棣 椐 楱 椹
    1 楠 楂 楝 榄 楫 榀 榘 楸 椴 槌
    2 榇 榈 槎 榉 楦 楣 楹 榛 榧 榻
    3 榫 榭 槔 榱 槁 槊 槟 榕 槠 榍
    4 槿 樯 槭 樗 樘 橥 槲 橄 樾 檠
    5 橐 橛 樵 檎 橹 樽 樨 橘 橼 檑
    6 檐 檩 檗 檫 猷 獒 殁 殂 殇 殄
    7 殒 殓 殍 殚 殛 殡 殪 轫 轭 轱
    8 轲 轳 轵 轶 轸 轷 轹 轺 轼 轾
    9 辁 辂 辄 辇 辋
     
    74 0 1 2 3 4 5 6 7 8 9
    0   辍 辎 辏 辘 辚 軎 戋 戗 戛
    1 戟 戢 戡 戥 戤 戬 臧 瓯 瓴 瓿
    2 甏 甑 甓 攴 旮 旯 旰 昊 昙 杲
    3 昃 昕 昀 炅 曷 昝 昴 昱 昶 昵
    4 耆 晟 晔 晁 晏 晖 晡 晗 晷 暄
    5 暌 暧 暝 暾 曛 曜 曦 曩 贲 贳
    6 贶 贻 贽 赀 赅 赆 赈 赉 赇 赍
    7 赕 赙 觇 觊 觋 觌 觎 觏 觐 觑
    8 牮 犟 牝 牦 牯 牾 牿 犄 犋 犍
    9 犏 犒 挈 挲 掰
     
    75 0 1 2 3 4 5 6 7 8 9
    0   搿 擘 耄 毪 毳 毽 毵 毹 氅
    1 氇 氆 氍 氕 氘 氙 氚 氡 氩 氤
    2 氪 氲 攵 敕 敫 牍 牒 牖 爰 虢
    3 刖 肟 肜 肓 肼 朊 肽 肱 肫 肭
    4 肴 肷 胧 胨 胩 胪 胛 胂 胄 胙
    5 胍 胗 朐 胝 胫 胱 胴 胭 脍 脎
    6 胲 胼 朕 脒 豚 脶 脞 脬 脘 脲
    7 腈 腌 腓 腴 腙 腚 腱 腠 腩 腼
    8 腽 腭 腧 塍 媵 膈 膂 膑 滕 膣
    9 膪 臌 朦 臊 膻
     
    76 0 1 2 3 4 5 6 7 8 9
    0   臁 膦 欤 欷 欹 歃 歆 歙 飑
    1 飒 飓 飕 飙 飚 殳 彀 毂 觳 斐
    2 齑 斓 於 旆 旄 旃 旌 旎 旒 旖
    3 炀 炜 炖 炝 炻 烀 炷 炫 炱 烨
    4 烊 焐 焓 焖 焯 焱 煳 煜 煨 煅
    5 煲 煊 煸 煺 熘 熳 熵 熨 熠 燠
    6 燔 燧 燹 爝 爨 灬 焘 煦 熹 戾
    7 戽 扃 扈 扉 礻 祀 祆 祉 祛 祜
    8 祓 祚 祢 祗 祠 祯 祧 祺 禅 禊
    9 禚 禧 禳 忑 忐
     
    77 0 1 2 3 4 5 6 7 8 9
    0   怼 恝 恚 恧 恁 恙 恣 悫 愆
    1 愍 慝 憩 憝 懋 懑 戆 肀 聿 沓
    2 泶 淼 矶 矸 砀 砉 砗 砘 砑 斫
    3 砭 砜 砝 砹 砺 砻 砟 砼 砥 砬
    4 砣 砩 硎 硭 硖 硗 砦 硐 硇 硌
    5 硪 碛 碓 碚 碇 碜 碡 碣 碲 碹
    6 碥 磔 磙 磉 磬 磲 礅 磴 礓 礤
    7 礞 礴 龛 黹 黻 黼 盱 眄 眍 盹
    8 眇 眈 眚 眢 眙 眭 眦 眵 眸 睐
    9 睑 睇 睃 睚 睨
     
    78 0 1 2 3 4 5 6 7 8 9
    0   睢 睥 睿 瞍 睽 瞀 瞌 瞑 瞟
    1 瞠 瞰 瞵 瞽 町 畀 畎 畋 畈 畛
    2 畲 畹 疃 罘 罡 罟 詈 罨 罴 罱
    3 罹 羁 罾 盍 盥 蠲 钅 钆 钇 钋
    4 钊 钌 钍 钏 钐 钔 钗 钕 钚 钛
    5 钜 钣 钤 钫 钪 钭 钬 钯 钰 钲
    6 钴 钶 钷 钸 钹 钺 钼 钽 钿 铄
    7 铈 铉 铊 铋 铌 铍 铎 铐 铑 铒
    8 铕 铖 铗 铙 铘 铛 铞 铟 铠 铢
    9 铤 铥 铧 铨 铪
     
    79 0 1 2 3 4 5 6 7 8 9
    0   铩 铫 铮 铯 铳 铴 铵 铷 铹
    1 铼 铽 铿 锃 锂 锆 锇 锉 锊 锍
    2 锎 锏 锒 锓 锔 锕 锖 锘 锛 锝
    3 锞 锟 锢 锪 锫 锩 锬 锱 锲 锴
    4 锶 锷 锸 锼 锾 锿 镂 锵 镄 镅
    5 镆 镉 镌 镎 镏 镒 镓 镔 镖 镗
    6 镘 镙 镛 镞 镟 镝 镡 镢 镤 镥
    7 镦 镧 镨 镩 镪 镫 镬 镯 镱 镲
    8 镳 锺 矧 矬 雉 秕 秭 秣 秫 稆
    9 嵇 稃 稂 稞 稔
     
    80 0 1 2 3 4 5 6 7 8 9
    0   稹 稷 穑 黏 馥 穰 皈 皎 皓
    1 皙 皤 瓞 瓠 甬 鸠 鸢 鸨 鸩 鸪
    2 鸫 鸬 鸲 鸱 鸶 鸸 鸷 鸹 鸺 鸾
    3 鹁 鹂 鹄 鹆 鹇 鹈 鹉 鹋 鹌 鹎
    4 鹑 鹕 鹗 鹚 鹛 鹜 鹞 鹣 鹦 鹧
    5 鹨 鹩 鹪 鹫 鹬 鹱 鹭 鹳 疒 疔
    6 疖 疠 疝 疬 疣 疳 疴 疸 痄 疱
    7 疰 痃 痂 痖 痍 痣 痨 痦 痤 痫
    8 痧 瘃 痱 痼
    展开全文
  • 汉字系统中的过程包括区位、国标内码,其中的转换关系如下: 1.区位(十进制)转换成区位(十六进制)。 这里要把前两个位换成十六进制,然后后两位换成十六进制。 例如,某汉字的区位是5448,这样...
    一、ASCII、机内码、区位码、国标码、Unicode码他们之间是如何转换的,方程式是什么
    汉字系统中的过程包括区位码、国标码和机内码,其中的转换关系如下:
    1.区位码(十进制)转换成区位码(十六进制)。 这里要把前两个位换成十六进制,然后后两位换成十六进制。 例如,某汉字的区位码是5448,这样把54转换为16进制数36;再把位码48转换为16进制数为30,得到十六进制数3630。
    2.国际码=区位码(十六进制)+2020H 例如,3630H+2020H=5050H 得到国标码GB2312 
    3.汉字机内码=国际码+8080H 机内码就是5050H+8080H=D0D0HASCII码是八位的一个字节 最高位为0,这样可以区分和汉字编码的区别。
     Unicode是欧洲提出来的编码。如果大段的数据包中的字节是大于A0A0H的双字节信息,可以初步认定为汉字内容编码。说明一下,汉字你在数据包中只能获得机内码。区位码是输入码,不在计算机当中的,呵呵

    二、GBK内码 Unicode码 区位码有什么区别和联系 怎样互相转化

    ANSI , 这是美国国家标准协会制定的编码格式,例如"A汉" 在这种编码方式下的内存值为 41 BA BA ,'A'占用一个字节,"汉"用两个字节,

    而且 BA BA 正式 GBK内码的值, 那让我们先认识GBK编码.

    GB2312,GBK,GB18030都是中国人自己发明的(中国之外并不使用的), 他们出现的时间顺序是GB2312 -> GBK -> GB18030 ,他们是包含关系,GB我猜是 "国标" 的意思 "k" 可能是 "扩展", 这些编码都是书面协议,要在计算机内部表示所以GB2312的内存值须在原来的每个字节值(区位码)上加0x80得到机内码,加上0x80是为了使得每个字节的最高位为1,这样就可以在内存中区分汉字和ASCII了[因为ASCII的最高位都为0]. 但是后来要在GB2312上扩展(得到GBK,GB18030),就需要更多的编码空间,所以GBK,GB18030就没有要求第二个字节的的最高位为1了,而是通过第一个字节来判断这是一个字节的ASCII还是两个字节的GBK.另外需要说明一点GB2312,GBK,GB18030是向下兼容的,例如 "汉" 在GB2312,GBK,GB18030中都是BA,BA .

    另外,GB2312,GBK并没有因为GB18030的出现退出市场,在一些嵌入式设备中还是应用广泛的,因为减少字库容量可以大大减少成本.

    回到之前的ANSI, 我们大概知道了GBK(不知道人们为什么喜欢用GBK而不是GB18030,姑且认为是GBK只有3个字母,书写方便吧!),那么ANSI又是怎么回事呢? ANSI就像一个指针,本身没有内容,如果指向"中国的编码",那么它就是GBK,如果指向"印度的编码",他就是x??x.也就是说在中国ANSI是GBK,在日本ANSI是XXX,在印度ANSI是???,但是他们在windows的记事本中都只能看到ANSI.但是ANSI也做了一些小的变动,就像刚才一样,'A'在内存中只占用了一个字节,也就是说ANSI = ASCII + 本地编码

    Unicode:

    但是,我们怎么在一个汉语资料中书写日文符号呢?这时,Unicode出现了,不过它是谁发明的,反正Unicode把世界上的所有文字符号都包含进来了,不仅解决了刚才说的问题,而且程序员用Unicode写的程序可以在全世界的电脑上运行.C语言中用wchar_t表示.

    UCS:

    据说UCS是和Unicode一样的工程,最后两个工程达成共识,所以编码完全兼容.所以我就把UCS看做Unicode.

    这里的UCS-2就是常说的UCS,只使用了两个字节保存一个字符,而UCS-4则是使用4个字节保存一个字符.

    UTF-8:

    (ucs transformation format),为什么要创造UTF-8呢?其中一个原因是:0x00在C语言及操作系统文件名(等..)中有特殊意义(如字符串结尾),然而按照Unicode编码的话,很可能这个字符的第一个字节(高字节)为非零数值,而低字节为零,这样C语言就会误认为这是字符串的结尾.所以UTF-8的一个功能是保证Unicode编码表中不出现0x00(当然正常的0x00是可以的)

    UCS-2编码,Unicode(16进制) UTF-8 字节流(二进制)
    0000 - 007F 0xxxxxxx 
    0080 - 07FF 110xxxxx 10xxxxxx (第一个1之后有几个1就表示后面还有一个字节,这里后面还有1个)
    0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (第一个1之后有几个1就表示后面还有一个字节,这里后面还有2个)

    应为UTF-8的这种编码方式,它不需要判断大小端模式,所以它是利于网路传输的(我也不知道是为什么)

    (BOM) EF BB BF ,我们可以通过BOM来判断文本是否为UTF-8编码格式.

    打开一个文本文件时如何判断是何种编码呢?

    1)提示用户选择编码类型

    2)根据一定的规则猜测编码类型

    3)检测文件头标识识别编码类型
    EF BB BF    UTF-8
    FE FF      UTF-16/UCS-2(Unicode), little endian,(在文件一个只含一个字母'A'的中文件中,文件内容为 FE FF 00 41 )
    FF FE      UTF-16/UCS-2(Unicode), big endian,(在文件一个只含一个字母'A'的中文件中,文件内容为 FF FE 41 00 )
    FF FE 00 00   UTF-32/UCS-4, little endian.
    00 00 FE FF   UTF-32/UCS-4, big-endian.

    区位码 国标(GBK) 内码

    "汉" 1A1A 3A3A BABA

    国标 = 区位码 + 0x20 (每个字节)

    内码 = 国标(GBK) + 0x80 (每个字节)


    三、汉字编码与编程相关问题总结

    汉字编码有很多种,常用UNICODE,GB(内码),GB2312-80(区位码),其中UNICODE为国际字符集编码标准只和ASCII编码兼容。
    GB(内码)和GB2312-80(区位码)的区别是GB(内码)是由4位16进制数表示的,而GB(内码)是以4位10进制数表示的,这二者转换关系如下:
    GB(内码) = (GB2312-80(区位码)/100+160)<<16 | (GB2312-80(区位码)%100+160)
     
    1、如何转换或查询汉字编码?
    比如一个汉字:"汉",在记事本里写上这个汉字用WinHex打开可以看到的编码"BABA"就是这个字GB(内码)的编码。我们也可以利用上面的方法计算出他的区位码:
    (高字节 - 0xA0   低字节 - 0xA0)转换为10进制 => GB2312-80(区位码), 注意: 0xA0 等于 160,一个是16进制一个是十进制表达而已
        (0xBA - 0xA0)*100 + (0xBA - 0xA0) => 2626 就是GB2312-80(区位码)
    2、编程中如果有大量汉字可以利用WinHex的转换功能直接生成C对应的代码,不用一个个自己输入。
    比如,一个文档或图片数据,可以直接把文件拖到WinHex里面,然后对着数据点: 右键->编辑->全部复制->C源,就把数据的C语言格式复制到剪切板中了,再粘贴到一个文档里面就好了。
     
    3、怎样通过文本的汉字得到汉字对应的unicode码?
    用个另一编辑器叫NotePad++的免费开源软件(说实话作为编辑器很好用,内置各种语言高亮格式)。用NotePad++打开一个文档,如下操作:
    格式->转换为UCS-2 big/little Endian 编码格式,然后保存,即可转换为汉字的unicode编码保存。
    如果再用WinHex打开就可以看到unicode编码了,至于选择big Endian还是little Endian只是出来的高低字节顺序不同而已,可以根据自己需要选择,big Endian是将高字节显示在前面(低地址位置)。
    下面再辅一篇转载的文章和汉字区位码标准,有助于理解各种编码格式:
    《谈谈Unicode编码》作者:fmddlmyy 
      Unicode也是一种字符编码方法,可以容纳全世界所有语言文字的编码方案。从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。如“汉”字的Unicode编码是6C49,而GB码是BABA。
     这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题:
     
      问题一:
      使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢?
      我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unicode),FE、FF(Unicode big endian),EF、BB、BF(UTF-8)。但这些标记是基于什么标准呢?
     
      问题二:
      最近在网上看到一个ConvertUTF.c,实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式,我原来就了解。但这个程序让我有些糊涂,想不起来UTF-16和UCS2有什么关系。
      查了查相关资料,总算将这些问题弄清楚了,顺带也了解了一些Unicode的细节。写成一篇文章,送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂,但要求读者知道什么是字节,什么是十六进制。
     
    0、big endian和little endian
      big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?如果将6C写在前面,就是big endian。还是将49写在前面,就是little endian。
      “endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开,由此曾发生过六次叛乱,其中一个皇帝送了命,另一个丢了王位。
      我们一般将endian翻译成“字节序”,将big endian和little endian称作“大尾”和“小尾”。
     
    1、字符编码、内码,顺带介绍汉字编码
      字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。
      GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。
      GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030,对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。
      从ASCII、GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼,GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。
      有的中文Windows的缺省内码还是GBK,可以通过GB18030升级包升级到GB18030。不过GB18030相对GBK增加的字符,普通人是很难用到的,通常我们还是用GBK指代中文Windows内码。
      这里还有一些细节:
      GB2312的原文还是区位码,从区位码到内码,需要在高字节和低字节上分别加上A0。
      在DBCS中,GB内码的存储格式始终是big endian,即高位在前。
      GB2312的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。不过这不影响DBCS字符流的解析:在读取DBCS字符流时,只要遇到高位为1的字节,就可以将下两个字节作为一个双字节编码,而不用管低字节的高位是什么。
     
    2、Unicode、UCS和UTF
      前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。
      Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。
      根据维基百科全书(http://zh.wikipedia.org/wiki/)的记载:历史上存在两个试图独立设计Unicode的组织,即国际标准化组织(ISO)和一个软件制造商的协会(unicode.org)。ISO开发了ISO 10646项目,Unicode协会开发了Unicode项目。
      在1991年前后,双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode2.0开始,Unicode项目采用了与ISO 10646-1相同的字库和字码。
      目前两个项目仍都存在,并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是10646-3:2003。
      UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码,是由UTF(UCS Transformation Format)规范规定的,常见的UTF规范包括UTF-8、UTF-7、UTF-16。
      IETF的RFC2781和RFC3629以RFC的一贯风格,清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。我总是记不得IETF是Internet Engineering Task Force的缩写。但IETF负责维护的RFC是Internet上一切规范的基础。
     
    3、UCS-2、UCS-4、BMP
      UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码。下面让我们做一些简单的数学游戏:
      UCS-2有2^16=65536个码位,UCS-4有2^31=2147483648个码位。
      UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个plane。每个plane根据第3个字节分为256行 (rows),每行包含256个cells。当然同一行的cells只是最后一个字节不同,其余都相同。
      group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中,高两个字节为0的码位被称作BMP。
      将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。在UCS-2的两个字节前加上两个零字节,就得到了UCS-4的BMP。而目前的UCS-4规范中还没有任何字符被分配在BMP之外。
     
    4、UTF编码
      UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:
    UCS-2编码(16进制) UTF-8 字节流(二进制)
    0000 - 007F 0xxxxxxx
    0080 - 07FF 110xxxxx 10xxxxxx
    0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
      例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001,用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
      读者可以用记事本测试一下我们的编码是否正确。
      UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码,UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于0x10000的UCS码,定义了一个算法。不过由于实际使用的UCS2,或者UCS4的BMP必然小于0x10000,所以就目前而言,可以认为UTF-16和UCS-2基本相同。但UCS-2只是一个编码方案,UTF-16却要用于实际的传输,所以就不得不考虑字节序的问题。
     
    5、UTF的字节序和BOM
      UTF-8以字节为编码单元,没有字节序的问题。UTF-16以两个字节为编码单元,在解释一个UTF-16文本前,首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E,“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”,那么这是“奎”还是“乙”?
      Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表,而是Byte Order Mark。BOM是一个有点小聪明的想法:
      在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。
      这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。
      UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF(读者可以用我们前面介绍的编码方法验证一下)。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。
      Windows就是使用BOM来标记文本文件的编码方式的。
     
    6、进一步的参考资料
      本文主要参考的资料是 "Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)。
      我还找了两篇看上去不错的资料,不过因为我开始的疑问都找到了答案,所以就没有看:
    "Understanding Unicode A general introduction to the Unicode Standard" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a) 
    "Character set encoding basics Understanding character set encodings and legacy encodings" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)
      我写过UTF-8、UCS-2、GBK相互转换的软件包,包括使用Windows API和不使用Windows API的版本。以后有时间的话,我会整理一下放到我的个人主页上(http://fmddlmyy.home4u.china.com)。
    展开全文
  • 400,企业 主被叫分摊付费电话业务,是一项由固网运营商推出的为被叫客户提供一个全国范围的唯一400号,并把对该号码的呼叫接至被叫客户事先规定目的地(电话 号码或呼叫中心)的全国性智能网业务。企业申请了...
    
    

    电话号码正则表达式

    (支持手机号码,3-4位区号,7-8位直播号码,1-4位分机号)

    ((\d{11})|^((\d{7,8})|(\d{4}|\d{3})-(\d{7,8})|(\d{4}|\d{3})-(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1})|(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1}))$)

    匹配格式:
    11位手机号码
    3-4位区号,7-8位直播号码,1-4位分机号
    如:12345678901、1234-12345678-1234

    "^\d+$"  //非负整数(正整数 + 0) 
    "^[0-9]*[1-9][0-9]*$"  //正整数 
    "^((-\d+)|(0+))$"  //非正整数(负整数 + 0) 
    "^-[0-9]*[1-9][0-9]*$"  //负整数 
    "^-?\d+$"    //整数 
    "^\d+(\.\d+)?$"  //非负浮点数(正浮点数 + 0) 
    "^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"  //正浮点数 
    "^((-\d+(\.\d+)?)|(0+(\.0+)?))$"  //非正浮点数(负浮点数 + 0) 
    "^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"  //负浮点 
    数 
    "^(-?\d+)(\.\d+)?$"  //浮点数 
    "^[A-Za-z]+$"  //由26个英文字母组成的字符串 
    "^[A-Z]+$"  //由26个英文字母的大写组成的字符串 
    "^[a-z]+$"  //由26个英文字母的小写组成的字符串 
    "^[A-Za-z0-9]+$"  //由数字和26个英文字母组成的字符串 
    "^\w+$"  //由数字、26个英文字母或者下划线组成的字符串 
    "^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"    //email地址 
    "^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"  //url 
    /^13\d{9}$/gi手机号正则表达式 
    public static bool IsValidMobileNo(string MobileNo) 

       const string regPattern = @"^(130|131|132|133|134|135|136|137|138|139)\d{8}$"; 
       return Regex.IsMatch(MobileNo, regPattern); 

    正则表达式--验证手机号码:13[0-9]{9} 
    实现手机号前带86或是+86的情况:^((\+86)|(86))?(13)\d{9}$ 
    电话号码与手机号码同时验证:(^(\d{3,4}-)?\d{7,8})$|(13[0-9]{9}) 
    提取信息中的网络链接:(h|H)(r|R)(e|E)(f|F) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?   
    提取信息中的邮件地址:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*   
    提取信息中的图片链接:(s|S)(r|R)(c|C) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)? 
    提取信息中的IP地址:(\d+)\.(\d+)\.(\d+)\.(\d+)     
    提取信息中的中国手机号码:(86)*0*13\d{9}     
    提取信息中的中国固定电话号码:(\(\d{3,4}\)|\d{3,4}-|\s)?\d{8}     
    提取信息中的中国电话号码(包括移动和固定电话):(\(\d{3,4}\)|\d{3,4}-|\s)?\d{7,14}     
    提取信息中的中国邮政编码:[1-9]{1}(\d+){5}     
    提取信息中的中国身份证号码:\d{18}|\d{15}     
    提取信息中的整数:\d+     
    提取信息中的浮点数(即小数):(-?\d*)\.?\d+     
    提取信息中的任何数字 :(-?\d*)(\.\d+)?   
    提取信息中的中文字符串:[\u4e00-\u9fa5]*     
    提取信息中的双字节字符串 (汉字):[^\x00-\xff]*
    ================================================================

    手机号为什么以13开头2008-02-16 22:06大家都知道以前电信移动邮政还没有分家阿,邮电资源是邮电部(现信息产业部)统一调度的。在分配号段的时候,做了一些细致的规划,大体是这样: 
    10开头,电信服务号码,如103国际半自动挂号,108国际对方付费电话,10000中国电信服务中心,10010中国联通服务中心,10050中国铁通服务中心,10060中国网通服务中心,10070中国卫通服务中心,10086中国移动服务中心等等 
    11开头,赋予特种服务号码,如110匪警,111电信内部测试,112报修,113、115国内人工长途挂号,114查号台,116国内人工长途查询,117报时,119火警等 
    12开头,赋予民用特殊号码,如120(医院),121(天气预报),122交通事故告警,12312保护知识产权举报中心,12315消费投诉热 线,12319城建服务,12348法律咨询,12358价格举报中心,12365质量监督,12366纳税服务,12369环境保护投诉,126、 127、128、129寻呼台(BP机时代) 
    所以分配到手机用户时,以13开始做号段。后来分配130~133为联通,134~139为移动,13800138000中国移动充值。 
    日前新推出号段:以153开始做号段分给联通,以158、159开始做号段分给了移动。 
    以188开始做号段为TD-SCDMA制式的3G手机,将陆续有预先挑选出来的测试用户使用以“188”为开头的手机号码,在包括北京、青岛、厦门、保定等在内的几大城市中率先试用TD-SCDMA网络。 
    (查看日志《用号码以“188”开头的TD-SCDMA制式手机 体验读邮件、看手机电视等3G业务》) 
    其他的特殊号段号码有: 
    16,声讯类,如160中国电信工人信息服务接入码,166语音信箱业务,167吉通计算机互联网业务接入码,168声讯服务,中国电信公众多媒体网接入码等 
    17,长途电话服务,如170国内长途全自动话费查询台,173国内立接制长途半自动挂号台,176国内长途半自动查询台,177国内长途半自动班长台,179IP语音服务接入码等 
    18,部分服务台,如180邮政服务,184邮政编码查询接入码,185国家邮政局电话信息服务接入码,186移动服务中心,188固定电话交费台,189中国电信业务受理特服台等 (大多已停用,或换新号) 
    19,寻呼接入,191联通无线电人工寻呼接入码,192联通无线电自动寻呼接入码等等 
    20,30,电话卡服务 
    另外,8、9开头的号段部分也作电信及民用服务号码 
    95,金融及民用服务号码,95501深圳发展银行,95502永安财产保险,95505天安保险,95508广州发展银行,95511中国平安人 寿,95512中国平安产险,95515合众人寿,95516中国银联,95518中国人民保险,95519中国人寿保险,95522泰康人 寿,95528浦东发展银行,95533中国建设银行,95555招商银行,95556中信银行,95559交通银行,95561兴业银行,95566中 国银行,95567中国新华人寿,95568中国民生银行,95569安邦财产保险,95577华夏银行,95585中国联合财保,95588中国工商银 行,95590中国大地财产保险,95595光大银行,95596民生人寿保险,95599中国农业银行,95598供电服务,96100民政服 务,96118旅游投诉,96178廉政投诉,96198农业信用联社,96310城管执法,95105366中铁快运,95105768海康人寿 
    400,企业 主被叫分摊付费电话业务,是一项由固网运营商推出的为被叫客户提供一个全国范围内的唯一400号码,并把对该号码的呼叫接至被叫客户事先规定目的地(电话 号码或呼叫中心)的全国性智能网业务。企业申请了400业务,无疑将有效提高企业的市场形象,但是如果背后没有呼叫中心作为支撑,400也就只是一个将来 电转移的号码,其价值也大大降低。如:4006789000宅急送4008108000 DHL快递4008111111顺丰速运4008208388 UPS快递4008861888联邦快递4008888400上海证券交易所 
    800,为受话人集中付费业务,它的主要特征是由被叫方(企业)集中支付话费,而主叫方(客户)不支付任何费用。800电话的使用充分体现了企业“客户至上”的先进理念,它在国外的使用已是十分普遍。 
    以上号码均作分配,内容太多未详细列出,部分号码目前已经升级,如电信服务台,天气预报,邮政服务台等等

    010123444444   
    01,02开头的是3个开头,其余的是4个开头   
    01x   北京   
    02x   广州,上海,天津,重庆,沈阳,南京,,武汉,成都   
    03xx   河北,河南,山西   
    04xx   辽宁,吉林,黑龙江,内蒙古   
    05xx   江苏,山东,安徽,浙江,福建   
    06xx   这个保留?   
    07xx   江西,广西,湖北   
    08xx   四川,贵州   
    09xx   甘肃   青海   新疆,陕西

    1.忽略非数字的(只留下数字)   
    2.判断前两个都是0,或86开头,且大于11位,为国际编码,国际编码后如果是0,到第4步   
    3.第一个是0,第二个非0,为国内编码,   
    4.根据上述我提供的得到身份

    区号+座机号码+分机号码:regexp="^(0[0-9]{2,3}\-)?([2-9][0-9]{6,7})+(\-[0-9]{1,4})?$"

    手机(中国移动手机号码):regexp="^((\(\d{3}\))|(\d{3}\-))?13[456789]\d{8}|15[89]\d{8}"

    所有手机号码:regexp="^((\(\d{3}\))|(\d{3}\-))?13[0-9]\d{8}|15[89]\d{8}"(新添加了158,159两个号段)

    展开全文
  • 汉字区位查询与算法 收藏  汉字区位查询与算法——microsoft visual studio 2005系列 www.tuenhai.com 20060427 要从事学术研究,一定要学好数学,数学可以把对事物的描述精确化。 tuenhai为什么要...
  • 汉字编码之GBK编码(附完整码表)

    万次阅读 多人点赞 2016-03-04 12:21:24
    今天介绍一下GBK(汉字内码扩展规范),GB 2312 GB18030。引用网友的话可以概括一下: GBK和UTF8的区别:GBK就是在保存你的帖子的时候,一个汉字占用两个字节。。外国人看会出现乱码,此为我中华为自己汉字编码而形成...
  • 也许是由于手机电池刚刚完成了一次镍电池到锂电池的革命,所以人们对锂电池的认识并不统一,在许多情况下不正确的说法和做法颇为流行。因此,懂得 一点锂电池的知识,掌握锂电池的正确使用方法是非常有
  • $("#btnSendCode").val("请在" + curCount + "秒输入验证码"); InterValObj = window.setInterval(SetRemainTime, 1000); // 启动计时器,1秒执行一次 // 向后台发送处理数据 $.ajax({ type: "POST", // ...
  • GetLastError错误码中文大全

    千次阅读 2015-06-15 18:35:29
    错误代码中文查询GetLastError返回代码的含义  〖0〗-操作成功完成。  〖1〗-功能错误。  〖2〗-系统找不到指定的文件。  〖3〗-系统找不到指定的路径。  〖4〗-系统无法打开文件。  〖5〗-拒绝访问。 ...
  • 电脑故障维修判断指导大全(联想内部文件)前 言: 本《电脑故障维修判断指导大全》中所有编辑文章版权归原作者和本站所有。一切商业媒体如要引用本教程内容请与本站联系!网上非盈利媒体引用本教程时请注明作者及...
  • 向其他节点发送 PING 数据包,以此来检查目标节点是否正常运作。 在特定事件发生时,发送集群信息。 除此之外,集群连接还用于在集群中发布或订阅信息。 因为集群节点不能代理(proxy)命令请求,所以...
  • 为了使每一个汉字有一个全国统一的代码,1980年,我国颁布了第一个汉字编码的国家标准: GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的...
  • 验证登录流程判断逻辑 前端 账户名、密码、验证码 是否为空? 密码是否符合规则(特殊字符、大小写、数字、长度..) 服务端 验证码是否正确 (对应时间戳是否过期) 账户是否存在 (未注册、已注销) 密码...
  • 字符,字节和编码, ASCII, DBCS,SBCS 与Unicode http://www.regexlab.com/zh/encoding.htm 1. 编码问题的由来,相关概念的理解 1.1 字符与编码的发展 从计算机对多国语言的支持角度看,大致可以分为...
  • 5第二部分常见故障判断... 7第一章加电类故障... 7第二章启动与关闭类故障... 10第三章磁盘类故障... 13第四章显示类故障... 17第五章安装类故障... 20第六章操作与应用类故障... 23第七章局域网类故障... 25第八
  • 一个汉字的前一半是 ASCⅡ为“160+区”的字符,后一半是ASCⅡ为“160+ 位”的字符。 '例如:“刘”的区位是 3385,其意为区33位85,它是由ASCⅡ为160+33=193和160+85=245的两个字符组成。 ...
  • 大华条码称同步商品时,商品名需要转化为区位才可以成功显示,简单记录一下转化方式,目前存在的缺陷是有的特殊字符不能正确识别。 /** * 获取完整的区位 * * @param name 原始字符串 * @return 区位 ...
  • 密码破解工具集合

    万次阅读 2015-09-10 10:19:19
    可以自动判断ACCESS97/2000、更易于使用,同时修改了界面,修正了多个错误。增加了查看ACCESS2000XP密码的功能.... 15、 ACCESS超级密探 2.0 [url]http://hlbr.onlinedown.net/down/ACCESSpassword.rar[/url] ...
  • [摩斯密码表]摩斯密码对照表

    万次阅读 多人点赞 2017-10-24 14:48:00
    它由两种基本信号和不同的间隔时间组成:短促的点信号" .",读" 的 "(Di);...2、在一个字母或数字,各点、划之间的间隔应为两点的长度。 3、字母(数字)与字母(数字)之间的间隔为7点的长度。 摩
  • 在检查你的自订破解模式是否正确的完成. -beep -quiet 当发现密码 是/否 要发出声响 你可以在 ~/john.ini 中指定你所要的预设值. -noname -nohash 不要使用记忆体来储存 login name 跟其它的资料 在你没有足够的记忆...
  • 电脑故障维修判断指导大全

    千次阅读 2015-10-11 16:58:44
    这里所述原则、方法等是第二部分分类判断的基础,需要认真遵守执行。 §1.1 进行电脑维修应遵循的基本原则: 一、 进行维修判断须从最简单的事情做起 简单的事情,一方面指观察,另一方面是指简捷的环境。 简单...
  • 点击上面"脑接口社区"关注我们更多技术干货第一时间送达本研究将基于稳态视觉诱发电位(SSVEP)的脑-接口(BCI)应用于肌萎缩性侧索硬化症(ALS)患者,并验证了其...
  • 安:[摩斯密码表]摩斯密码对照表

    万次阅读 多人点赞 2019-06-12 20:37:00
    词频法其实就是计算各个字母在文章中的出现频率,然后大概猜测出明码表,最后验证自己的推算是否正确。[]这种方法由于要统计字 母出现频率,需要花费时间较长,本人在此不举例和出题了,有兴趣的话,参考《跳舞...
  • 字库芯片学习之汉字内码

    千次阅读 2012-08-27 16:31:56
    前言:  汉字机内码,又称“汉字ASCII”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。输入被接受后就由汉字操作系统的...汉字在计算机内部其内码是唯一的,GB机内
  • 但对于机器来说就没有那么简单,以下提到的文本的是非判断是我开发过的项目中所使用的计算方法,本质上来说是朴素贝叶斯分类计算,只是在这个的基础上做了改良,用于文本(新闻)是否属于某城市的判断正确率80%...
  • 1、CD-ROM既可以作为输入设备,又可以作为输出设备。 答案: 错误 2、操作系统的主要功能是控制和管理计算机的硬件和软件系统资源。...7、中文操作系统只适用于使用汉字操作,而不适用于英文操作。 答案: 错误

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 47,596
精华内容 19,038
关键字:

判断汉字机内码是否正确