精华内容
下载资源
问答
  • 2019-04-22 18:19:52

      由于编码规则是固定的,因此汉字编码后的结果也是确定的,因此可以直接使用字典查找方法进行编解码,本文列举下编码后对应的数值,方便查找。

    概要说明

      GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。整个字符集分成94个区,每区有94个位。

      GB2312,又称为GB0,由中国国家标准总局发布,1981年5月1日实施,GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个,GB2312只是编码表,在计算机中通常都是用"EUC-CN"表示法,即在每个区位加上0xA0来表示。区和位分别占用一个字节。GB2312是一种区位码。分为94个区(01-94),每区94个字符(01-94)。

    • 01-09区为特殊符号
    • 10-15区没有编码
    • 16-55区为一级汉字,按拼音排序,共3755个
    • 56-87区为二级汉字,按部首/笔画排序,共3008个
    • 88-94区没有编码

    详细编码对照表

    GB2312汉字编码字符集对照表:(点击传送门进入)

    转自:http://tools.jb51.net/table/gb2312

    更多相关内容
  • 本标准的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(即0x8139EE39--0x82358738)部分为强制性。
  • GB2312汉字编码字符集对照表.xls
  • GB 2312-1980 信息交换用汉字编码字符集 基本集
  • GB 18030-2005 信息技术 中文编码字符集
  • GB18030-2005收录了70244个汉字。GB18030的总编码空间超过150万个码位,为解决人名、地名用字问题提供了方案,为汉字研究、古籍整理等领域提供了统一的信息平台基础。
  • gb18030中文编码字符集

    2018-10-18 17:48:47
    GB18030-2005 信息技术 中文编码字符集,单双四字节所有字符,包含简繁生僻字。
  • 汉字编码字符集分析.ppt
  • GB 5007.2-2008 信息技术 汉字编码字符集(辅助集) 24点阵字型 宋体
  • GB 2312-1980信息交换用汉字编码字符集基本集.PDF
  • GB 18030-2000,《信息技术 中文编码字符集》 ,本标准规定了信息技术用的中文图形字符及其二进制编码的十六进制表示。
  • 文章预览:一. 基本概念 1、字符集 2、编码字符集 3、字符编码方式 4、编码字符集与编码方式间对应关系二. 字符集与编码 1、ASCII字符集&编码 2、GBXXXX字符集&编码 3、UCS字符...
    • 📢博客主页:https://blog.csdn.net/weixin_43197380
    • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
    • 📢本文由 Loewen丶原创,首发于 CSDN,转载注明出处🙉
    • 📢现在的付出,都会是一种沉淀,只为让你成为更好的人✨


    一. 基本概念

    1、字符集

     字符集是指各种文字和符号的集合,包括各个国家文字、标点符号、图形符号、数字等。

    2、编码字符集

     编码字符集是所有字符以及对应代码值的集合。编码字符集中的每个字符都对应一个唯一的代码值。这些代码值就称为码点值(code point),可以看做字符在编码字符集中的编号。

    常见的编码字符集:ASCII字符集GBXXXX字符集BIG5字符集Unicode字符集等。

    3、字符编码方式

     是将编码字符集中的字符代码值转换为实际的存储字节序列的一种映射规则。

     编码字符集中只规定了字符的代码值并未规定具体如何存储,字符编码方式解决了字符在计算机中如何存储的问题。

    常见字符编码方式:ASCII编码GBXXXX编码BIG5编码UTF-8编码UTF-16编码UTF-32编码等。

    4、编码字符集与编码方式间对应关系

    每种编码字符集至少对应一种字符编码方式,也可以对应多种编码方式。


    二. 字符集与编码

    1、ASCII字符集&编码

      ASCII字符集:即美国信息交换标准码,分为标准ASCII码和扩展ASCII码。

    • 标准ASCII:标准ASCII字符集共有128个字符,其中有96个可打印字符,包括常用的英文字母、数字和标点符号等,同时还有32个控制字符。
      编码方式标准ASCII编码是采用7位编码方式,以1个字节存储一个ASCII字符,字节最高位为0,即00000000-011111110x00-0x7F
    • 扩展ASCII:由于标准ASCII字符集字符有限,往往无法满足实际需求,因此国际标准组织制定了在与标准ASCII规范相兼容的前提下将ASCII字符集扩充为8位代码的方法。
      每种扩充ASCII字符集可以扩充128个字符,这些扩充字符的编码均为最高位为1的8位代码。扩充的ASCII字符集即为扩展ASCII字符集,编码方式称为扩展ASCII编码。
      编码方式:常见的一种扩展ASCII为ISO-8859-1(也称为Latin-1)编码规范用于支持部分欧洲语言

    2、GBXXXX字符集&编码

      是指中国汉字编码字符集以及后续扩展的一系列规范,包括GB2312-80GBKGB18030

    • GB2312-80中国国家标准简体中文字符集,全称为《信息交换用汉字编码字符集-基本集》,包括了6763个常用汉字和682个全角的非汉字字符。
      编码方式:GB2312编码的另一种表示方法为EUC-CN,采用双字节编码,其中汉字的区码和位码各占一个字节,每个汉字占两个字节的存储空间。由于区码和位码的取值范围都为1—94,如果直接将其值作为存储值,会导致与ASCII码冲突,实际存储时将区码和位码分别加上0xA0的方式转换为存储码(也称为内码)。比如,汉字“啊”,区位码为1601(0x1001),其存储码为0xB0A10xB0 = 0x10+0xA00xA1 = 0x01 + 0xA1。编码范围:0xA1A1~0xFEFE
    • GBK全称为《汉字内码扩展规范》GBK兼容GB2312内码,是对GB2312内码的扩展,共收录了21003个汉字,883个字符,包含了简体、繁体中文以及日语、朝鲜语中的汉字。
      编码方式:GBK编码方式采用双字节编码,占用两个字节的存储空间,编码范围是0x8140~0xFEFE,不包括xx7F编码。windows对应代码页是CP936
    • GB18030:全称为《信息技术中文编码字符集》。GB18030完全兼容GB2312-80内码,基本兼容GBK内码,是目前最新的中国国家编码字符集标准,共收录了70244个字符,增加了对CJK统一汉字扩充A、CJK统一汉字扩充B以及少数民族文字等字符的支持。windows对应的代码页为CP54936。
      编码方式:GB18030编码采用变长多字节编码方式,包括1字节、2字节或4字节编码。单字节编码与ASCII码相同双字节编码与GBK编码相同并增加了一些扩展,四字节用于扩充汉字的编码,第一、三字节的编码范围为:0x81—0xFE,第二、四字节的编码范围为:0x30—0x39

    3、UCS字符集&编码

      UCS即通用字符集,是ISO组织为了统一所有语言的文字和符号而制定的编码字符集。编码方式包括:UCS-2和UCS-4

    • UCS-2编码:针对UCS字符集的编码方式,采用双字节编码,只对基本平面(BMP)内的字符编码,即码点范围在0x0000~0xFFFF之间的字符编码。

    4、Unicode字符集&编码

      Unicode字符集是统一码联盟为了统一所有语言的文字和符号而制定的编码字符集。编码方式包括:UTF-8UTF-16UTF-32。Unicode字符集分为17个平面,其中0号平面为基本面(BMP)占用2字节,其他平面为辅助平面占用4字节。

    • UTF-8编码:UTF-8编码是针对Unicode字符集的可变长度字符编码。UTF-8兼容ASCII字符编码,对于ASCII字符只占一个字节,对于其他字符占用多个字节,其第一个字节从最高位开始,连续的二进制位为1的个数决定了编码占用的字节数,其余字节均以10开头,最多可占用6个字节。
      在这里插入图片描述
      UTF-8中可以用来表示字符编码的实际位数最多为31位,即上表中x的个数;除去控制位剩余的x表示的位与Unicode中的码值是一一对应的,顺序也是一致的。
    • UTF-8带BOM与不带BOM:UTF-8是与字节序无关的,UTF-8可以带BOM也可以不带BOM,UTF-8带BOM是在字节流前边增加3个字节(0xEFBBBF)的前缀,用来说明编码格式为UTF-8。UTF-8不带BOM才是标准形式,带BOM是微软的习惯,在其他操作系统中一般都是采用不带BOM的形式。
    • UTF-16编码:针对Unicode字符集的编码方式,采用2字节或4字节长度编码,对于基本平面(BMP)内的字符编码采用2字节与UCS-2编码相同,超出基本平面的字符编码采用4字节编码。
      UTF-16与UCS-2编码在存储和传输时会有两种不同的字节序,即big endian(大端)和litte endian(小端)。大端序是高字节在前低字节在后,小端序是低字节在前高字节在后,比如汉字“啊”(U+554A),大端序为0x554A,小端序为0x4A55。
      为了说明字节流的顺序,需要在字节流前加上BOM(字节序标记),0xFEFF表示大端序,0xFFFE表示小端序。
      对应的编码名称有:UCS-2BE、UCS-2LE、UCS-2、UTF-16BE、UTF-16LE、UTF-16。

    Unicode字符集UCS字符集(通用字符集)的编码表是相互兼容的,即每个字符在字符集中的位置(码位)是一致的。

    5、ANSI编码

     ANSI编码是指系统默认的编码方式,Windows可以在命令窗口中通过chcp指令查看系统默认编码。

    • 简体中文系统:ANSI编码为GBKGB2312
    • 英文系统:ANSI编码为ASCII码
    • 繁体中文系统:ANSI编码为BIG-5

    6、源字符集编码

    C++源字符集是指编写C++源程序的所有字符源字符集编码主要指编写的源代码在磁盘中存储的编码格式。VS2015中可以通过“文件”-》“高级保存选项”-》指定当前源代码存储在磁盘中的编码格式

     VS2015源字符集编码格式默认是GBK格式,建议保存成UTF-8的格式。

    7、可执行字符集编码

    可执行字符集编码C/C++语言的程序编译后字符所使用的编码方式,即对可执行文件.obj所使用的一种编码格式。编译器在编译时会将源代码中的字符常量和字符串常量转换为可执行字符集指定的编码方式。

     VS中可以使用#pragma execution_character_set(“编码方式”)预编译指令设置源文件中的可执行字符集使用的编码方式。

    C++11中也可以直接使用u8、u、U前缀直接指定字符或字符串常量的编码方式。


    三、总结

    字符集是否定长编码方式其他说明
    标准ASCII单字节7位编码最早的奠基性字符集
    扩展ASCII(ISO-8859-1(也称为Latin-1))单字节8位编码用于支持部分欧洲语言
    GB2312-80双字节编码早期标准,不推荐在使用
    GBK双字节编码对GB2312内码的扩展
    GB18030变长多字节编码单字节编码和ASCII编码相同,双字节编码同GBK编码
    并增加了一些扩展,四字节编码是用于扩充汉字的编码
    UCS(通用字符集)UCS-2编码(双字节编码)ISO组织为了统一所有语言的文字和符号
    而制定的编码字符集,Windows2000内部用UCS-2
    Unicode字符集UTF-8编码(1~4字节编码)UTF-8兼容ASCII字符编码,对于ASCII字符
    只占一个字节,对于其他字符占用多个字节
    Unicode字符集UTF-16编码(2/4字节编码)Java和Windows XP/NT等内部使用UTF-16
    Unicode字符集UTF-8编码(1~4字节编码)UTF-8兼容ASCII字符编码,对于ASCII字符
    只占一个字节,对于其他字符占用多个字节
    ANSI编码系统默认的编码方式,不同系统中编码方式有所不同
    源字符集编码编写的源代码在磁盘中存储的编码格式,VS2015
    源字符集编码格式默认是GBK格式,建议保存成UTF-8的格式。
    可执行字符集编码可用#pragma execution_character_set(“编码方式”)
    预编译指令设置VS源文件中的可执行字符集使用的编码方式

    戳戳小手帮忙点个免费的赞和关注吧,嘿嘿。

    姐妹篇:[字符编码] 实战篇:QT中文乱码的解决办法

    展开全文
  • GB-T 2312-1980 信息交换用汉字编码字符集 基本集
  • gb2312-信息交换用汉字编码字符集

    千次阅读 2014-08-08 11:05:00
    来自百度百科:...信息交换用汉字编码字符集编辑GB2312一般指信息交换用汉字编码字符集 《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套

    来自百度百科:http://baike.baidu.com/view/443268.htm?from_id=483170&type=syn&fromtitle=GB2312&fr=aladdin


    信息交换用汉字编码字符集编辑GB2312一般指信息交换用汉字编码字符集

    《信息交换用汉字 编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是 GB 2312—1980。
    GB2312 编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
    基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行 编码,称为 区位码
    把换算成十六进制的 区位码加上2020H,就得到 国标码国标码加上8080H,就得到常用的计算机机内码。1995年又颁布了《汉字 编码扩展规范》(GBK)。GBK与GB 2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字,共计20902字。

    1简介编辑

    信息交换用汉字 编码字符集和 汉字输入编码之间的关系是,根据不同的汉字输入方法,通过必要的设备向计算机输入汉字的编码,计算机接收之后,先转换成信息交换用汉字编码字符,这时计算机就可以识别并进行处理;汉字输出是先把机内码转成汉字编码,再发送到 输出设备

    2收录编辑

    GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括 拉丁字母希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个 全角字符
    GB 2312的出现,基本满足了汉字的计算机处理需要,它所 收录的汉字已经覆盖中国大陆99.75%的使用频率。
    对于人名、 古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来 GBK及GB 18030汉字字符集的出现。

    3分区表示编辑

    GB 2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为 区位码
    01-09区为特殊符号。
    16-55区为一级汉字,按拼音排序。
    56-87区为二级汉字,按部首/笔画排序。
    10-15区及88-94区则未有 编码
    举例来说,“啊”字是GB2312之中的第一个汉字,它的 区位码就是1601。

    4字节结构编辑

    在使用GB2312的程序中,通常采用EUC储存方法,以便兼容于ASCII。浏览器 编码表上的“GB2312”,通常都是指“ EUC-CN”表示法。
    每个汉字及符号以两个字节来表示。第一个 字节称为“高位字节”(也称“区字节)”,第二个字节称为“低位字节”(也称“位字节”)。
    “高位 字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上 0xA0)。 由于一级汉字从16区起始,汉字区的“高位 字节”的范围是0xB0-0xF7,“低位字节”的范围是0xA1-0xFE,占用的码位是 72*94=6768。其中有5个空位是D7FA-D7FE。
    例如“啊”字在大多数程序中,会以两个 字节,0xB0(第一个字节) 0xA1(第二个字节)储存。 区位码=区 字节+位字节(与区位码对比:0xB0=0xA0+16,0xA1=0xA0+1)。

    5编码表编辑

    GB2312简体中文编码表
    code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
    A1A0   、 。 · ˉ ˇ ¨ 〃 々 — ~ ‖ … ‘ ’
    A1B0 “ ” 〔 〕 〈 〉 《 》 「 」 『 』 〖 〗 【 】
    A1C0 ± × ÷ ∶ ∧ ∨ ∑ ∏ ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠
    A1D0 ⌒ ⊙ ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯ ≤ ≥ ∞ ∵
    A1E0 ∴ ♂ ♀ ° ′ ″ ℃ $ ¤ ¢ £ ‰ § № ☆ ★
    A1F0 ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※ → ← ↑ ↓ 〓
    code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
    A2A0 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ ? ? ? ? ?
    A2B0 ? ⒈ ⒉ ⒊ ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔ ⒕ ⒖
    A2C0 ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶ ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾
    A2D0 ⑿ ⒀ ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③ ④ ⑤ ⑥ ⑦
    A2E0 ⑧ ⑨ ⑩ ? ? 一 二 三 四 五 六 七 八 九 十 ?
    A2F0 ? Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ ? ?
    code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
    A3A0 ! " # ¥ % & ' ( ) * + , - . /
    A3C0 @ A B C D E F G H I J K L M N O
    A3D0 P Q R S T U V W X Y Z [ \ ] ^ _
    A3E0 ` a b c d e f g h i j k l m n o
    A3F0 p q r s t u v w x y z { | }

    展开全文
  • 字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集有:ASCII字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集...

    编码
    字符是各种文字和符号的总称,包括各个国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集有:ASCII字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

    1、ASCII字符集编码

    ASCII(American Standard Code for Information Interchange),是一种单字节的编码。计算机世界里一开始只有英文,而单字节可以表示256个不同的字符,可以表示所有的英文字符和许多的控制符号。

    ASCII码是7位编码,字符在计算机中以其ASCII码方式表示,其长度为1个字节, 有符号字符型数。编码范围是0x00-0x7F(0~127)。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。

    2、GB2312,GBK和GB18030

    GB2312字符集编码

    当中国人们得到计算机时,已经没有可以利用的字节状态来表示汉字,况且有6000多个常用汉字需要保存,于是GB2312 是对 ASCII 的中文扩展。兼容ASCII。

    GB2312 是汉字字符集和编码的代号,中文全称为“信息交换用汉字编码字符集”,由中华人民共和国国家标准总局发布,一九八一年五月一日实施。GB 是“国标” 二字的汉语拼音缩写。

    GB2312 字符集 (character set) 只收录简化字汉字,以及一般常用字母和符号,主要通行于中国大陆地区和新加坡等地。GB2312 共收录有 7445 个字符,其中简化汉字 6763 个,字母和符号 682 个。

    GB2312 将所收录的字符分为 94 个区,编号为 01 区至 94 区;每个区收录 94 个字符,编号为 01 位至 94 位。GB2312 的每一个字符都由与其唯一对应的区号和位号所确定。

    GB2312 编码 GB2312 原始编码 (encoding) 是对所收录的每个字符都用两个字节 (byte) 表示。第一字节为“高字节”,由字符的区号值加上 32 而形成;第二字节为“低字节”,由字符的位号值加上 32 而形成。例如:汉字“啊”,编号为 16 区 01 位。它的高字节为 16 + 32 = 48 (0x30),低字节为 01 + 32 = 33 (0x21),合并而成的编码为 0x3021。

    在区位号值上加 32 的原因大慨是为了避开低值字节区间。由于 GB2312 原始编码与 ASCII 编码的字节有重叠,现在通行的 GB2312 编码是在原始编码的两个字节上各加 128 修改而形成。例如:汉字“啊”,编号为 16 区 01 位。它的原始编码为 0x3021,通行编码为 0xB0A1。

    GBK字符集编码

    但是中国的汉字太多了,我们很快就就发现有许多人的人名没有办法在这里打出来,不得不继续把 GB2312 没有用到的码位找出来用上。后来还是不够用,于是干脆不再要求低字节一定是127号之后的内码,只要第一个字节是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 “GBK” 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。

    GBK 编码是GB2312编码的超集,向下完全兼容GB2312,同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。同 GB2312一样,GBK也支持希腊字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。GBK还收录了GB2312不包含的 汉字部首符号、竖排标点符号等字符。

    GB18030字符集编码

    后来少数民族也要用电脑了,于是我们再扩展,又加了几千个新的少数民族的字,GBK 扩成了 GB18030。GB18030编码向下兼容GBK和GB2312,兼容的含义是不仅字符兼容,而且相同字符的编码也相同。GB18030收录了所有Unicode3.1中的字符,包括中国少数民族字符,GBK不支持的韩文字符等等,也可以说是世界大多民族的文字符号都被收录在内。

    GBK和GB2312都是双字节等宽编码,如果算上和ASCII兼容所支持的单字节,也可以理解为是单字节和双字节混合的变长编码。GB18030编码是变长编码,有单字节、双字节和四字节三种方式。

    3、Unicode字符集编码

    每一种语言的不同的编码页,增加了那些需要支持不同语言的软件的复杂度。因而人们制定了一个世界标准,叫做unicode。unicode为每个字符提供了唯一的特定数值,不论在什么平台上、不论在什么软件中,也不论什么语言。也就是说,它把世界上使用的所有字符都列出来,并给每一个字符一个唯一特定数值。Unicode的最初目标,是用1个16位的编码来为超过65000字符提供映射。但这还不够,它不能覆盖全部历史上的文字,也不能解决传输的问题 (implantation head-ache’s),尤其在那些基于网络的应用中。已有的软件必须做大量的工作来存储16位的数据。

    因 此,Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。正如名字所示,在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF-8保留了ASCII字符的编码作为它的一部分,例如,在UTF-8 和ASCII中,“A”的编码都是0x41.

    UTF-16和UTF-32分别是Unicode的16位和32位编码方式。考虑到最初的目的,通常说的Unicode就是指UTF-16。在讨论Unicode时,搞清楚哪种编码方式非常重要。

    4、UTF-8字符集编码

    UTF-8,即Unicode Transformation Format-8bit,允许含BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需下载IE的中文语言支持包。

    GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBD大。

    GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换:

    • GBK、GB2312 >> Unicode >> UTF8
    • UTF8 >> Unicode >> GBK、GB2312
    展开全文
  • 编码字符集

    千次阅读 2021-03-09 18:43:48
    在计算机中,只有二进制的数据,不管数据是在内存中,还是在外部存储设备上。对于我们所看到的字符,也是以二进制数据的形式存在的。不同字符对应二进制数的规则,就是字符的编码。字符编码的集合称为字符集
  • 中国于1981年发布了《信息处理交换用汉字编码字符集 基本集》GB2312-80 GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两 个字节的值分别为区号值和位号值加32(2OH),因此也称为区位...
  • GB 14245.2-2008 信息技术汉字编码字符集(基本集)64点阵字型 第2部分 黑体.pdf
  • 编程输出《信息交换汉字编码字符集》及其交换码标准GB2312-80 包括3755个常用汉字和3008个次常用汉字,及其区位码
  • GB2312-80(国标码).txt GBK(大字库).txt Big5(大五码).txt Unicode(大字符集).txt
  • GB 14245.3-2008 信息技术汉字编码字符集(基本集)64点阵字型 第3部分 楷体.pdf
  • GB 14245.1-2008 信息技术汉字编码字符集(基本集)64点阵字型 第1部分 宋体.pdf
  • 字符集编码查询/反查工具
  • 国标一二级汉字字符集,GB2312、GBK等全部汉字,用于编码查询等。
  • - UTF-8是一种常见的基于Unicode字符集编码方式。 - GB2312是面向简体中文,BIG5是面向繁体中文。 - Unicode还在其发展期,Unicode、GB2312以及BIG5等多种编码共存的状况可能在以后较长的时间内都会持续下去。
  • Java常用字符集编码详解

    千次阅读 2021-02-26 12:01:02
    Java常用字符集编码详解Web开发的时候经常会遇到一些字符编码的错误,如页面乱码等问题,所以有必要需对字符编码有所了解,以下是Ricki收集的一些资料(可能不是很全,但希望对你有所帮助)Java标准字符集:所谓Java...
  • 字库表、编码字符集、字符编码

    千次阅读 2019-05-09 08:50:14
    参考文章: 1、十分钟搞清字符集和字符编码 ...编码字符集(coded character set):即用一个编码值 code point 来表示一个字符在字库中的位置,从而来表示一个字符。 字符编码:将编码字符集和实际存储数值之间的...
  • 常见的字符集编码

    2021-06-22 10:24:00
    文章目录ASCIIISO-8859-1GB2312GBKBig5UTF-8UTF-16...美国信息交换标准代码是由美国国家标准学会(American National Standard Institute , ANSI )制定的,是一种标准的单字节字符编码方案,用于基于文本的数据。它最初

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 154,442
精华内容 61,776
关键字:

中文编码字符集

友情链接: PPT.zip