精华内容
下载资源
问答
  • 汉字编码字符集

    2006-01-04 16:22:00
    )4GB18030字符集我国政府于2000年3月发布2001年8月31日后在中国市场上发布的软件必须符合该标准覆盖中文、日文、朝鲜语和中国少数民族文字并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的...

    介绍下面几种

    1GB2312字符集

    简体中文字符集

    2GBK字符集

    对GB2321的扩展,主要扩展了对繁体中文字的支持

    3BIG5字符集

    繁体中文字符集(不知道是否正确?)

    4GB18030字符集

    我国政府于2000年3月发布

    2001年8月31日后在中国市场上发布的软件必须符合该标准

    覆盖中文、日文、朝鲜语和中国少数民族文字

    并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容,并且与以前

    的国家字符编码标准(GB2321,GB13000.1)兼容。

    展开全文
  • gb2312-信息交换用汉字编码字符集

    千次阅读 2014-08-08 11:05:00
    来自百度百科:...信息交换用汉字编码字符集编辑GB2312一般指信息交换用汉字编码字符集 《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套

    来自百度百科:http://baike.baidu.com/view/443268.htm?from_id=483170&type=syn&fromtitle=GB2312&fr=aladdin


    信息交换用汉字编码字符集编辑GB2312一般指信息交换用汉字编码字符集

    《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。
    GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
    基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码
    把换算成十六进制的区位码加上2020H,就得到国标码国标码加上8080H,就得到常用的计算机机内码。1995年又颁布了《汉字编码扩展规范》(GBK)。GBK与GB 2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字,共计20902字。

    1简介编辑

    信息交换用汉字编码字符集和汉字输入编码之间的关系是,根据不同的汉字输入方法,通过必要的设备向计算机输入汉字的编码,计算机接收之后,先转换成信息交换用汉字编码字符,这时计算机就可以识别并进行处理;汉字输出是先把机内码转成汉字编码,再发送到输出设备

    2收录编辑

    GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符
    GB 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。
    对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。

    3分区表示编辑

    GB 2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码
    01-09区为特殊符号。
    16-55区为一级汉字,按拼音排序。
    56-87区为二级汉字,按部首/笔画排序。
    10-15区及88-94区则未有编码
    举例来说,“啊”字是GB2312之中的第一个汉字,它的区位码就是1601。

    4字节结构编辑

    在使用GB2312的程序中,通常采用EUC储存方法,以便兼容于ASCII。浏览器编码表上的“GB2312”,通常都是指“EUC-CN”表示法。
    每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”(也称“区字节)”,第二个字节称为“低位字节”(也称“位字节”)。
    “高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上 0xA0)。 由于一级汉字从16区起始,汉字区的“高位字节”的范围是0xB0-0xF7,“低位字节”的范围是0xA1-0xFE,占用的码位是 72*94=6768。其中有5个空位是D7FA-D7FE。
    例如“啊”字在大多数程序中,会以两个字节,0xB0(第一个字节) 0xA1(第二个字节)储存。区位码=区字节+位字节(与区位码对比:0xB0=0xA0+16,0xA1=0xA0+1)。

    5编码表编辑

    GB2312简体中文编码表
    code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
    A1A0   、 。 · ˉ ˇ ¨ 〃 々 — ~ ‖ … ‘ ’
    A1B0 “ ” 〔 〕 〈 〉 《 》 「 」 『 』 〖 〗 【 】
    A1C0 ± × ÷ ∶ ∧ ∨ ∑ ∏ ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠
    A1D0 ⌒ ⊙ ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯ ≤ ≥ ∞ ∵
    A1E0 ∴ ♂ ♀ ° ′ ″ ℃ $ ¤ ¢ £ ‰ § № ☆ ★
    A1F0 ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※ → ← ↑ ↓ 〓
    code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
    A2A0 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ ? ? ? ? ?
    A2B0 ? ⒈ ⒉ ⒊ ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔ ⒕ ⒖
    A2C0 ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶ ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾
    A2D0 ⑿ ⒀ ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③ ④ ⑤ ⑥ ⑦
    A2E0 ⑧ ⑨ ⑩ ? ? 一 二 三 四 五 六 七 八 九 十 ?
    A2F0 ? Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ ? ?
    code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
    A3A0 ! " # ¥ % & ' ( ) * + , - . /
    A3C0 @ A B C D E F G H I J K L M N O
    A3D0 P Q R S T U V W X Y Z [ \ ] ^ _
    A3E0 ` a b c d e f g h i j k l m n o
    A3F0 p q r s t u v w x y z { | }

    展开全文
  • 《信息交换用汉字编码字符集》是由我国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。它是计算机可以识别的编码,适用于汉字处理、汉字通信等系统之间的信息交换。基本集共...

      《信息交换用汉字编码字符集》是由我国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。它是计算机可以识别的编码,适用于汉字处理、汉字通信等系统之间的信息交换。基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码

      这个码是唯一的,不会有重码字。把换算成十六进制的区位码加上2020H,就得到国标码。国标码加上8080H,就得到常用的计算机机内码。1995年又颁布了《汉字编码扩展规范》(GBK)。GBK与GB 2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字,共计20902字。信息交换用汉字编码字符集和汉字输入编码之间的关系是,根据不同的汉字输入方法,通过必要的设备向计算机输入汉字的编码,计算机接收之后,先转换成信息交换用汉字编码字符,这时计算机就可以识别并进行处理;汉字输出是先把机内码转成汉字编码,再发送到输出设备。

    GB 2312

      GB 2312或GB 2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集•基本集》,又称为GB0,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。

      GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母希腊字母、日文平假名片假名字母、俄语西里尔字母在内的682个全角字符。

      GB 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。

      对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。

    分区表示

      GB 2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。

      • 01-09区为特殊符号。

      • 16-55区为一级汉字,按拼音排序。

      • 56-87区为二级汉字,按部首/笔画排序。

      10-15区及88-94区则未有编码。

      举例来说,“啊”字是GB2312之中的第一个汉字,它的区位码就是1601。

    字节结构

      在使用GB2312的程序中,通常采用EUC储存方法,以便兼容于ASCII。浏览器编码表上的“GB2312”,通常都是指“EUC-CN”表示法。

      每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”(也称“区字节)”,第二个字节称为“低位字节”(也称“位字节”)。

      “高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上 0xA0)。 由于一级汉字从16区起始,汉字区的“高位字节”的范围是0xB0-0xF7,“低位字节”的范围是0xA1-0xFE,占用的码位是 72*94=6768。其中有5个空位是D7FA-D7FE。

      例如“啊”字在大多数程序中,会以两个字节,0xB0(第一个字节) 0xA1(第二个字节)储存。区位码=区字节+位字节(与区位码对比:0xB0=0xA0+16,0xA1=0xA0+1)。

    展开全文
  • GB2312-80信息交换用汉字编码字符集 基本集 ...

    GB2312-80信息交换用汉字编码字符集 基本集

     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     

    转载于:https://www.cnblogs.com/msnadair/archive/2009/04/15/1436595.html

    展开全文
  • 中国于1981年发布了《信息处理交换用汉字编码字符集 基本集》GB2312-80 GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两 个字节的值分别为区号值和位号值加32(2OH),因此也称为区位...
  • 《信息交换用汉字编码字符集》是由我国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。它是计算机可以识别的编码,适用于汉字处理、汉字通信等系统之间的信息交换。基本集共...
  • GB2312简体中文编码表:http://www.knowsky.com/resource/gb2312tbl.htm 《信息交换用汉字编码字符集》是由我国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。它是计算机...
  • 常说的字符集和编码区别,其实就是编码字符集和字符集编码的区别,其实,单单如果只是说字符集,没有任何编码的概念的话,那么字符集其实仅仅是一个简单的字符的集合,或者说是一个抽象的字符的集合,包括文字,符号...
  • 看到TAOBAO采用了GB18030字符集,收集下资料meta http-equiv="Content-Type" content="text/html; charset=GB18030" / GB18030有两
  • 字库表、编码字符集、字符编码

    千次阅读 2019-05-09 08:50:14
    参考文章: 1、十分钟搞清字符集和字符编码 ...编码字符集(coded character set):即用一个编码值 code point 来表示一个字符在字库中的位置,从而来表示一个字符。 字符编码:将编码字符集和实际存储数值之间的...
  • 汉字GB2312编码字符集

    千次阅读 2019-04-22 18:19:52
    GB2312标准共收录6763个汉字,其中一...整个字符集分成94个区,每区有94个位。 GB2312,又称为GB0,由中国国家标准总局发布,1981年5月1日实施 GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个 GB2...
  • 汉字字符集编码查询 unicode编码查询

    万次阅读 2018-09-13 09:04:06
    GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。 BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053...
  • 编码字符集

    千次阅读 2021-03-09 18:43:48
    在计算机中,只有二进制的数据,不管数据是在内存中,还是在外部存储设备上。对于我们所看到的字符,也是以二进制数据的形式存在的。不同字符对应二进制数的规则,就是字符的编码。字符编码的集合称为字符集
  • java字符集与字符编码 Unicode字符集
  • 需要再一次强调的是,无论历史上的UCS还是现如今的Unicode,两者指的都是编码字符集,而不是字符集编码。花费一点时间来理解好这件事,然后你会发现对所有网页的,系统的,编码标准之间的来回转换等等繁杂事务都会...
  • Oracle中文乱码之编码字符集

    千次阅读 2017-09-18 16:10:21
    Oracle中文乱码之编码字符集 执行sql脚本,通过PL/SQL Developer工具等方式执行、修改带中文的数据经常遇到乱码,简单描述通过统一以下几个地方的字符集设置解决实际乱码/看起来乱码的问题: Oracle服务端字符集 ...
  • 编码字符集和字符集编码

    千次阅读 2009-04-14 17:22:00
    1. 字符字符是抽象的最小文本单位。它没有固定的形状(可能是一个字形),而且没有...2. 字符集字符集是字符的集合。例如,汉字字符是中国人最先发明的字符,在中文、日文、韩文和越南文的书写中使用。这也说明了
  • 编码字符集与字符集编码的区别2

    千次阅读 2010-07-15 15:21:00
    看了几天的字符集编码的文章,一直感觉自己模模糊糊的,今天终于看到一篇好文章,分享下~~需要再一次强调的是,无论历史上的UCS还是现如今的Unicode,两者指的都是编码字符集,而不是字符集编码。花费一点时间来理解...
  • java编码字符集及jdbc连接数据库指定字符集  2012-03-24 17:11:12| 分类: java|举报|字号 订阅 java中String的编码格式为unicode,如果要将中文插入mysql,则表中字符列的编码属性应该设为...
  • 中文字符集编码转换

    千次阅读 2019-04-18 11:45:27
    字符集,windows 又称代码页, 与操作系统的当前字符集项不匹配时,会显示乱码。 常见的简体中文字符集( windows 代码页 936 ) GB18030: 1字节 兼容 ascii 字符 2 字节 普通中文 ...
  • 常见的汉字字符集编码

    千次阅读 2017-07-13 16:59:27
    GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。 BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字...
  • 字符集与字符编码

    2018-11-16 14:22:38
    中文字符集(GBK/GB2312/GB18030) ANSI 字符集和字符编码一直是一个让人头疼的问题,我们经常在访问某些网站或者打开某些文件的时候,会显示乱码。归根到底,就是字符编码的问题。今天,我就跟大家好好聊聊字符编码...
  • 结合Java详谈字符编码字符集

    万次阅读 多人点赞 2018-07-07 14:04:45
    字符编码字符集是两个基础性的概念,很多开发人员对其都并不陌生,但是很少有人能将其讲得很准确。当应用出现乱码时,如何分析和定位原因,很多人仍是一头雾水。这篇文章,将从字符编码字符集的相关概念开始讲解...
  • Java与编码字符集

    2012-04-14 16:44:15
    本文介绍了编码字符集的概念以及Java与编码字符集之间的关系,文章的内容来自于本人工作过程中的经验积累以及网络中的相关文章介绍,如果文章中有任何纰漏欢迎读者指正,让我们共同讨论学习J 1. 字符 字符是...
  • 在介绍字符集之前,我们先了解下为什么要有字符集。我们在计算机屏幕上看到的是实体化的文字,而在计算机存储介质中存放的实际是二进制的比特流。那么在这两者之间的转换规则就需要一个统一的标准,否则把我们的U盘...
  • QT 编码 字符集

    千次阅读 2010-10-20 13:10:00
    http://dxwang.blog.51cto.com/384651/216271【Qt 编码简单实验】 首先,Qt中得QString 类对字符串进行了封装,其内部使用Unicode对传入的串进行编码。这样一来,QString就可以处理绝大多数的国际语言。将...
  • C--中文汉字占用字节长度(字符集和字符编码

    千次阅读 多人点赞 2019-01-21 21:59:17
    中文汉字占用字节长度一、字符集和字符编码1、概念2、英文字母和中文汉字在不同字符集编码下的字节数二、环境对应的字符编码1、Ubuntu16.04虚拟机2、Notepad++三、sizeof运算汉字占用字节长度参考 一、字符集和字符...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 135,852
精华内容 54,340
关键字:

中文编码字符集