精华内容
下载资源
问答
  • GB2312汉字编码

    2013-01-29 20:29:47
    国家标准GB2312汉字编码表,可以用来查询汉字编码。
  • GB2312汉字编码表与其字符数组 又是20字
  • GB2312汉字编码实现

    千次阅读 2014-03-15 14:20:16
    问题描述: 很多软件中,输入拼音的首写字母就可以快速定位到... GB2312汉字编码方式中,一级汉字的3755个是按照拼音顺序排列的。我们可以利用这个特征,对常用汉字求拼音首字母。  GB2312编码方案对每个汉字采用

    问题描述:

    在很多软件中,输入拼音的首写字母就可以快速定位到某个词条。比如,在铁路售票软件中,输入: “bj”就可以定位到“北京”。怎样在自己的软件中实现这个功能呢?问题的关键

    在于:对每个汉字必须能计算出它的拼音首字母。

        GB2312汉字编码方式中,一级汉字的3755个是按照拼音顺序排列的。我们可以利用这个特征,对常用汉字求拼音首字母。

        GB2312编码方案对每个汉字采用两个字节表示。第一个字节为区号,第二个字节为区中的偏移号。为了能与已有的ASCII编码兼容(中西文混排),区号和偏移编号都从

    0xA1开始。

        我们只要找到拼音a,b,c,...x,y,z 每个字母所对应的GB2312编码的第一个汉字,就可以定位所有一级汉字的拼音首字母了(不考虑多音字的情况)。下面这个表给出了前述信

    息。请你利用该表编写程序,求出常用汉字的拼音首字母。


    a 啊 B0A1

    b 芭 B0C5

    c 擦 B2C1

    d 搭 B4EE

    e 蛾 B6EA

    f 发 B7A2

    g 噶 B8C1

    h 哈 B9FE

    j 击 BBF7

    k 喀 BFA6

    l 垃 C0AC

    m 妈 C2E8

    n 拿 C4C3

    o 哦 C5B6

    p 啪 C5BE

    q 期 C6DA

    r 然 C8BB

    s 撒 C8F6

    t 塌 CBFA

    w 挖 CDDA

    x 昔 CEF4

    y 压 D1B9

    z 匝 D4D1

    #include <iostream>  
    #include <string>   
    #include <cstring>
    using namespace std;  
      
    char a[23][3]={"啊","芭","擦","搭","蛾","发","噶","哈","击","喀","垃","妈","拿","哦","啪","期","然","撒","塌","挖","昔","压","匝"};  
    char ax[23]={'A','B','C','D','E','F','G','H','J','K','L','M','N','O','P','Q','R','S','T','W','X','Y','Z'};  
      
    string solve(string ch)  
    {  
        int i,j;  
        string ans;  
    	char b[3];  
    	b[2]='\0';  
    	for(i=0;ch[i]!='\0';i+=2)  
        {  
           b[0]=ch[i];  
           b[1]=ch[i+1];  
           for(j=0;j<22;j++)
               if(strcmp(b,a[j])>=0&&strcmp(b,a[j+1])<0)  
                   break;  
           ans+=ax[j];
        }  
        return ans;  
    }  
      
    int main()  
    {  
        string  b="测试案例"; 
    
    	cout<<solve(b)<<endl;  
        return 0;  
    }  


    展开全文
  • 汉字GB2312编码

    2011-03-09 15:05:09
    在汉字区分为两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺 序排列。故而GB2312为6763个汉字
  • 简单的汉字GB2312编码查询工具,暂时只支持查询汉字,能查一些中文字符,英文字符会被识别错误!!!ASCII表中包含的那些字符不可以用,适用于单片机开发者做字符取模时查询编码
  • 取得网页文本后显示时,经常出现乱码的现象,这就需要把不同编码之间进行转换,了解不同汉字编码的区别才好进行转换呀。。。 本文中先介绍一下ASCII,GB2312,GBK和GB18030编码。 之所以把这几个放在一起介绍,是...

    取得网页文本后显示时,经常出现乱码的现象,这就需要把不同编码之间进行转换,了解不同汉字编码的区别才好进行转换呀。。。

    本文中先介绍一下ASCII,GB2312,GBK和GB18030编码。

    之所以把这几个放在一起介绍,是因为他们的相关性非常强。兼容性关系是GB18030兼容GBK,GBK兼容GB2312,GB2312兼容ASCII。所谓兼容,你可以简单理解为子集、不冲突的关系。例如GB2312编码的文件中可以出现ASCII字符,GBK编码的文件中可以出现GB2312和ASCII字符,GB18030编码的文件可以出现GBK、GB2312、ASCII字符。

    每种编码方式的特点:

    【1】ASCII 每个字符占据1bytes,用二进制表示的话最高位必须为0(扩展的ASCII不在考虑范围内),因此ASCII只能表示128个字

    【2】GB2312 最早一版的中文编码,每个字占据2bytes。由于要和ASCII兼容,那这2bytes最高位不可以为0了(否则和ASCII会有冲突)。在GB2312中收录了6763个汉字以及682个特殊符号,已经囊括了生活中最常用的所有汉字。

    【3】GBK 由于GB2312只有6763个汉字,我汉语博大精深,只有6763个字怎么够?于是GBK中在保证不和GB2312、ASCII冲突(即兼容GB2312和ASCII)的前提下,也用每个字占据2bytes的方式又编码了许多汉字。经过GBK编码后,可以表示的汉字达到了20902个,另有984个汉语标点符号、部首等。值得注意的是这20902个汉字还包含了繁体字。

    【4】GB18030 然而,GBK的两万多字也已经无法满足我们的需求了,还有更多可能你自己从来没见过的汉字需要编码。这时候显然只用2bytes表示一个字已经不够用了(2bytes最多只有65536种组合,然而为了和ASCII兼容,最高位不能为0就已经直接淘汰了一半的组合,只剩下3万多种组合无法满足全部汉字要求)。因此GB18030多出来的汉字使用4bytes编码。当然,为了兼容GBK,这个四字节的前两位显然不能与GBK冲突(实操中发现后两位也并没有和GBK冲突)。我国在2000年和2005年分别颁布的两次GB18030编码,其中2005年的是在2000年基础上进一步补充。至此,GB18030编码的中文文件已经有七万多个汉字了,甚至包含了少数民族文字。

    这图中展示了前文所述的几种编码在编码完成后,前2个byte的值的范围(用16进制表示)。每个byte可以表示00到FF(即0至255)。从图中我们可以一目了然地看到为什么GB18030可以兼容GBK,GB2312和ASCII了。他们几种编码之间前两位没有重合部分。需要注意的是ASCII只有1byte,所以是没有第二位的。另外GB18030在上图中占的面积虽然很小,但是它是4bytes编码,这图只展示了前两位。如果后两位也算上,GB18030的字数要远多于GBK。另外需要注意的是,由于GBK兼容GB2312,因此属于GB2312的蓝色区域其实也可以算作是GBK的区域。同理GBK的区域理论上也属于GB18030的区域。上表中只是展示了多出来的部分。

    实际生活中,我们用到的99%以上的汉字,其实都在GB2312那一块区域内。在实际使用中,GBK编码已经可以满足大部分场景了,GB18030编码中所有汉字都是我们这辈子都不一定能见到的文字,这也是平时为什么经常会使用GBK的原因吧。

    转载于:https://www.cnblogs.com/hb01846/p/10948931.html

    展开全文
  • GB2312简体中文编码表+Unicode汉字编码表+特殊符号UNICODE码
  • 编码gb2312 的所有汉字集合
  • 汉字GB2312编码字符集

    千次阅读 2019-04-22 18:19:52
    GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。整个字符集分成94个区,每区有94个位...

      由于编码规则是固定的,因此汉字编码后的结果也是确定的,因此可以直接使用字典查找方法进行编解码,本文列举下编码后对应的数值,方便查找。

    概要说明

      GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。整个字符集分成94个区,每区有94个位。

      GB2312,又称为GB0,由中国国家标准总局发布,1981年5月1日实施,GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个,GB2312只是编码表,在计算机中通常都是用"EUC-CN"表示法,即在每个区位加上0xA0来表示。区和位分别占用一个字节。GB2312是一种区位码。分为94个区(01-94),每区94个字符(01-94)。

    • 01-09区为特殊符号
    • 10-15区没有编码
    • 16-55区为一级汉字,按拼音排序,共3755个
    • 56-87区为二级汉字,按部首/笔画排序,共3008个
    • 88-94区没有编码

    详细编码对照表

    GB2312汉字编码字符集对照表:(点击传送门进入)

    转自:http://tools.jb51.net/table/gb2312

    展开全文
  • gb2312汉字拼音对照表

    2018-09-25 17:46:23
    gb2312汉字拼音对照表,包括汉字,字母,拼音;还包括sql语句
  • 汉字编码-GB2312、GBK、GB18030、Big5.

    1. GB2312

    GB2312字符集由中国国家标准总局1980年发布,其中收录了6763个常用汉字和682个其它符号(6763+682=7445),并将该字符集分为94个区,每个区94位,每个位对应一个字符或零个字符(94x94=8836,8836-7745=1391说明有1391个位置是空的)。

    区号内容
    01-09区特殊符号,如:标点符号、数字序列、全角字符、日语假名、拼音音标等
    10-15区
    16-55区一级汉字,按拼音排序
    56-87区二级汉字,按部首/笔画排序
    88-94区

    如果将GB2312看做是一种“字符集”,则可以用多种编码方式对它进行编码。比如“区位码”就是对GB2312字符集最简单的一种编码方式,它直接使用区号和位号组成一个编码值(例如:GB2312字符集中的第一个汉字“啊”,它的区号为16,位号为01,它的区位码就是1601)。这里GB2312 编码列出了GB2312区位码编码。

    但通常,人们所说的GB2312指的是一种编码(并且不是指区位码),它是指通常采用EUC方法对GB2312字符集中的“区”和“位”进行处理后的编码。EUC方法的处理方式:区号和位号分别加上0xA0,结果分别作为GB2312编码的两个字节的值(例如:“啊”字的区号和位号分别为16和01,即十六进制0x10和0x01,分别加0xA0得到编码0xB0A1),这样做是为了兼容ASCII编码(GB2312编码的俩字节都大于ASCII码的最大值)。这里GB2312简体中文编码表列出了通常更常用的GB2312编码。

    有趣的是:GB2312中也收录了英文字母和数字等符号(ASCII码中也有这些符号),并且仍然是以俩字节编码,于是GB2312中的英文字母和数字等就成了我们平常所说的全角符号,而ASCII码的符号就叫做半角符号

    关于GB2312还有另一种声音:谁设计的GB2312,被日笨人说是抄的,尼玛,汉字都是我大中华的,谁抄谁啊…_

    2. Big5

    维基上说:Big5是由台湾财团法人信息产业策进会为五大中文套装软件(并因此得名Big-5)所设计的中文共通内码,在1983年12月完成公告。那个之前还没有繁体字编码,GB2312又不含繁体字,因此才有了Big-5。

    传说Big5产生前,有着“中文电脑之父”之称的朱邦复也设计了一套中文编码,可容纳50000多字(包括繁体和简体),但是未被采纳。

    3. GBK

    话说Unicode 1.1推出时,收录了两万多个中日韩通用字符集的汉字,同一年我国也定制了相应的GB13000,但是一直未被业界采用。而微软利用了GB2312中未使用的编码空间,并且收录了GB13000中的全部字符,从而定制了GBK编码(虽然收录了GB13000的全部字符,但是编码方式并不相同),并且实现于Windows95中文版中。GBK自身并非国家标准,不过1995年由国标局等机构确定为“技术规范指导性文件”。

    简单地说:GBK是从GB2312扩展而来的,支持繁体,并且兼容GB2312

    GBK编码范围:8140-FEFE。

    GBK编码,是对GB2312编码的扩展,因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案,其编码范围:8140-FEFE,剔除xx7F码位,共23940个码位。共收录汉字和图形符号21886个,其中汉字(包括部首和构件)21003个,图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布,这一版的GBK规范为1.0版

    一、字汇

    GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充。具体包括:

    1. GB 2312 中的全部汉字、非汉字符号。
    2. GB 13000.1 中的其他 CJK 汉字。以上合计 20902 个 GB 化汉字。
    3. 《简化字总表》中未收入 GB 13000.1 的 52 个汉字。
    4. 《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。
    5. 13 个汉字结构符。
    6. BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形符号。
    7. GB 12345 增补的 6 个拼音符号。
    8. 汉字“〇”。
    9. GB 12345 增补的 19 个竖排标点符号(GB 12345 较 GB 2312 增补竖排标点符号 29 个,其中 10 个未被 GB 13000.1 收入,故 GBK 亦不收)。
    10. 从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。
    11. GB 13000.1 收入的 31 个 IBM OS/2 专用符号。
      12.未录入《新华字典》上的一些字,如“韡”的简体。

    二、码位分配及顺序

    GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

    全部编码分为三大部分:

    1. 汉字区。包括:
      a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。
      b. GB 13000.1 扩充汉字区。包括:
      (1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。
      (2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。
      (3) 汉字“〇”安排在图形符号区GBK/5:A996。

    2. 图形符号区。包括:
      a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外,还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。
      b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“〇”排列在此区。计符号 166 个。

    3. 用户自定义区:分为(1)(2)(3)三个小区。
      (1) AAA1-AFFE,码位 564 个。
      (2) F8A1-FEFE,码位 658 个。
      (3) A140-A7A0,码位 672 个。
      第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。

    三、字形

    GBK 对字形作了如下的规定:

    1. 原则上与 GB 13000.1 G列(即源自中国大陆法定标准的汉字)下的字形/笔形保持一致。
    2. 在 CJK 汉字认同规则的总框架内,对所有的 GBK 编码汉字实施“无重码正形”(“GB 化”);即在不造成重码的前提下,尽量采用中国新字形。
    3. 对于超出 CJK 汉字认同规则的、或认同规则尚未明确规定的汉字,在 GBK 码位上暂安放旧字形。这样,在许多情况下 GBK 收入了同一汉字的新旧两种字形。
    4. 非汉字符号的字形,凡 GB 2312 已经包括的,与 GB 2312 保持一致;超出 GB 2312 的部分,与 GB 13000.1 保持一致。
    5. 带声调的拼音字母取半角形式。

    若要查询具体字符的编码请前往:汉字字符集编码查询

    GBK 编码表

    参看:https://www.qqxiuzi.cn/zh/hanzi-gbk-bianma.php

    4. GB18030

    GB2312和GBK都是用两个字节来编码的,就算用完所有的位(256*256=65536)也不够为所有的汉字编码。于是就有了目前最新的GB18030,它采用类似UTF-8的编码方式进行编码(每个字符的编码可以是1、2或4个字节),拥有上百万个编码空间,足以支持中日韩三国所有汉字,并且还可以支持国内少数民族的文字。

    5. CJK

    CJK:中日韩统一表意文字(CJK Unified Ideographs)。在Unicode中,收集各国相同的汉字,并且进行合并相同的编码点(code point)上,可以避免相同文字重复编码,浪费编码空间。

    参考:

    本系列文章包括:

    参考文献:

    1. 汉字编码:GB2312, GBK, GB18030, Big5
    展开全文
  • gb2312_unicode_utf8汉字编码对照表
  • 汉字编码GB2312、GB 13000、GBK、GB18030 介绍 GB 13000、GB 18030 和 Unicode 之间的比较 Unicode 标准万国码相关介绍 汉字区位码 介绍
  • utf-8 unicode gb2312 汉字编码
  • gb2312-信息交换用汉字编码字符集

    千次阅读 2014-08-08 11:05:00
    来自百度百科:...信息交换用汉字编码字符集编辑GB2312一般指信息交换用汉字编码字符集 《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套
  • 汉字编码对照表(gb2312/Big5/GB2312)

    万次阅读 2019-01-07 23:37:30
    一、汉字编码的种类  1、GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。它是一个简化字的编码规范,当然也包括其他的符号、字母、日文假名等,共7445个图形字符...
  • 一 GB2312与cp936 1. GB2312简介 GB2312GB2312-80,诞生于1981年,共收录6763个汉字,其中一级汉字...GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。用区
  • 中国汉字GB2312编码

    2010-10-25 21:27:24
    中国汉字GB2312编码表,如像QR编码问题上的,中国汉字模式
  • Java之将GB2312编码转化为汉字

    千次阅读 2019-03-07 14:29:52
    GB2312是信息交换汉字编码字符集,适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆。使用区位码表示方式,对所收汉字进行了“分区”处理,每区含有94个汉字/符号。 01-09区为特殊符号。 16-55区为...
  • 下面小编就为大家带来一篇php输出全部gb2312编码内的汉字方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
  • GB 2312-1980 信息交换用汉字编码字符集 基本集
  • 汉字编码转换工具,实现了汉字与 utf-8 gb2312 unicode 互转,开发者多百多度 qq:547170882
  • EFM32 GB2312 汉字显示

    2012-05-13 16:14:11
    基于EFM32 GG DK上的汉字显示。 汉字字库使用的是GB2312编码。请在使用时,将该工程放到EFM32 GG DK的example目录下。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 44,733
精华内容 17,893
关键字:

在使用gb2312汉字编码