精华内容
参与话题
问答
  • 中文在unicode中的编码范围

    万次阅读 2012-08-07 14:53:46
    以前写过一篇贴子是写中文在unicode中的编码范围 unicode中文范围,但写的不是很详细,今天再次研究了下unicode,并给出详细的unicode取值范围。 本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版 ...

     

    喜欢古典小说的 可以关注  头条号 古典小说  公众号 古典小说网
    喜欢编程的     可以关注 头条号 讨厌编程

     

     

    以前写过一篇贴子是写中文在unicode中的编码范围unicode中文范围,但写的不是很详细,今天再次研究了下unicode,并给出详细的unicode取值范围。

     

    本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版

    对于这次研究的unicode把编码分为以下几个平面(英文中是plane,可以认为就是不同的区位)

    Unicode可以逻辑分为17平面(Plane),每个平面拥有65536( = 216)个代码点,虽然目前只有少数平面被使用。

    平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).
    平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP).
    平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP).
    平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).
    平面4 to 13 (40000–DFFFF)尚未使用
    平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP)
    平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA)
    平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)

     

    最有用的当然就是BMP平面0了编码从U+0000至U+FFFF。那里包含了几乎全部的常用字符。
    unicode基本平面区的编码区间含义


    为鉴于Unicode原有的16位空间不足以应用,于是从Unicode 3.1版本开始,设立了16个扩展字码空间,称为辅助平面,
    使 Unicode 的可使用空间由6万多字增至约100万字。辅助平面字符要用上4字节来存储。
    unicode中的几大区间

     

    最后小结下:

    1、现在网上大多数用于判断中文字符的是 U+4E00..U+9FA5 这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等;

    2E80-A4CF 加上 F900-FAFF 加上 FE30-FE4F

    其中 

    2E80-A4CF 

    包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根

     F900-FAFF

    中日朝兼容表意文字

    FE30-FE4F

    中日朝兼容形式

    所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF  ||   F900-FAFF || FE30-FE4F

     

    2、全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

    3、不要太关心简繁中文的区别,如果要明确非要简体中文可参考unicode中简体中文编码

     

    参考:

    http://www.iteye.com/topic/977671

    展开全文
  • 汉字unicode编码范围

    2019-04-16 10:57:11
    汉字unicode编码范围
                   
    

    GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字

    BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。

    GBK编码:1995年12月发布的汉字编码国家标准,是对GB2312编码的扩充,对汉字采用双字节编码。GBK字符集共收录21003个汉字,包含国家标准GB13000-1中的全部中日韩汉字,和BIG5编码中的所有汉字。

    GB18030编码:2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。

    Unicode编码:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。

     

    汉字unicode编码表:

    一般使用2w基本汉字就够了
    字符集字数Unicode 编码
    基本汉字20902字4E00-9FA5
    基本汉字补充38字9FA6-9FCB
    扩展A6582字3400-4DB5
    扩展B42711字20000-2A6D6
    扩展C4149字2A700-2B734
    扩展D222字2B740-2B81D
    康熙部首214字2F00-2FD5
    部首扩展115字2E80-2EF3
    兼容汉字477字F900-FAD9
    兼容扩展542字2F800-2FA1D
    PUA(GBK)部件81字E815-E86F
    部件扩展452字E400-E5E8
    PUA增补207字E600-E6CF
    汉字笔画36字31C0-31E3
    汉字结构12字2FF0-2FFB
    汉语注音22字3105-3120
    注音扩展22字31A0-31BA
    1字3007
               
    展开全文
  • 汉字编码范围对照表

    2020-10-30 13:17:33
    汉字 Unicode 编码范围 ☞字符集编码在线查询☜ 字符集 字数 Unicode 编码 基本汉字 20902字 4E00-9FA5 基本汉字补充 38字 9FA6-9FCB 扩展A 6582字 3400-4DB5 扩展B 42711字 20000-2A6D6 扩展C 4149字...

    汉字编码范围


    字符集编码在线查询


    字符集 字数 Unicode 编码
    基本汉字 20902字 4E00-9FA5
    基本汉字补充 38字 9FA6-9FCB
    扩展A 6582字 3400-4DB5
    扩展B 42711字 20000-2A6D6
    扩展C 4149字 2A700-2B734
    扩展D 222字 2B740-2B81D
    康熙部首 214字 2F00-2FD5
    部首扩展 115字 2E80-2EF3
    兼容汉字 477字 F900-FAD9
    兼容扩展 542字 2F800-2FA1D
    PUA(GBK)部件 81字 E815-E86F
    部件扩展 452字 E400-E5E8
    PUA增补 207字 E600-E6CF
    汉字笔画 36字 31C0-31E3
    汉字结构 12字 2FF0-2FFB
    汉语注音 22字 3105-3120
    注音扩展 22字 31A0-31BA
    1字 3007
    展开全文
  • 汉字 Unicode 编码范围

    千次阅读 2018-08-24 15:46:52
    Unicode 编码 基本汉字 20902字 4E00-9FA5 基本汉字补充 74字 9FA6-9FEF 扩展A 6582字 3400-4DB5 扩展B 42711字 20000-2A6D6 扩展C 4149字 2A700-2B734 扩展D 222...
    字符集 字数 Unicode 编码
    基本汉字 20902字 4E00-9FA5
    基本汉字补充 74字 9FA6-9FEF
    扩展A 6582字 3400-4DB5
    扩展B 42711字 20000-2A6D6
    扩展C 4149字 2A700-2B734
    扩展D 222字 2B740-2B81D
    扩展E 5762字 2B820-2CEA1
    扩展F 7473字 2CEB0-2EBE0
    康熙部首 214字 2F00-2FD5
    部首扩展 115字 2E80-2EF3
    兼容汉字 477字 F900-FAD9
    兼容扩展 542字 2F800-2FA1D
    PUA(GBK)部件 81字 E815-E86F
    部件扩展 452字 E400-E5E8
    PUA增补 207字 E600-E6CF
    汉字笔画 36字 31C0-31E3
    汉字结构 12字 2FF0-2FFB
    汉语注音 43字 3105-312F
    注音扩展 22字 31A0-31BA
    1字 3007

    Unicode 是全球文字统一编码。它把世界上的各种文字的每一个字符指定唯一编码,实现跨语种、跨平台的应用。

    中文用户最常接触的是汉字 Unicode 编码。中文字符数量巨大,日常使用的汉字数量有数千个,再加上生僻字,数量达到数万个。这个表格将中文字符集的 Unicode 编码范围列出,点击字库条目可见具体字符。若要查询具体字符的编码请前往:汉字字符集编码查询

    展开全文
  • Unicode汉字编码

    千次阅读 2019-02-20 23:10:28
      1 Unicode编码表   Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9... Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意...
  • Unicode汉字编码范围\u4E00-\u9FA5

    万次阅读 2015-08-26 14:47:58
    Unicode世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。为什么电子邮件常常出现乱码?就是...
  • utf-8吗表中所有汉字的...汉字常用字unicode吗表 String base ="\u7684\u4e00\u4e86\u662f\u6211\u4e0d\u5728\u4eba\u4eec\u6709\u6765\u4ed6\u8fd9\u4e0a\u7740\u4e2a\u5730\u5230\u5927\u91cc\u8bf4\u5c...
  • 中文unicode编码范围

    千次阅读 2018-07-31 20:16:46
    中文unicode编码范围是: \u4E00-\u9FA5\uf900-\ufa2d
  • Unicode 编码范围 各国文字 Unicode 编码范围 各国文字 Unicode 编码范围 各国文字 Unicode 编码范围 各国文字 Unicode 编码范围 各国文字 Unicode 编码范围 各国文字
  • 中文汉字、英文数字的unicode编码范围
  • Unicode编码范围

    万次阅读 2014-09-05 15:14:27
    引言 unicode是全世界统一的编码规则,但只规定了各种字符的数字编码(相当于一种标准),具体实现的存储方式有utff-8,utf-16,utf-32等形式,各种形式有不同的存储和与...中文字符范围 Unicode CJK 的范围分布在多个
  • 常见Unicode编码范围

    万次阅读 2018-01-17 10:35:10
    常见Unicode编码范围 经常我们会用到判断某个字符或者字符串是否包含中文,英文,特殊符号等等。这时候可以通过判断Unicode所在区间来确定某个字符所处类型。当然可以通过直接判断Unicode码,但是鉴于习惯,以下...
  • unicode编码范围

    2018-12-28 09:59:32
    unicode编码范围汉字:[0x4e00,0x9fa5](或十进制[19968,40869]) 数字:[0x30,0x39](或十进制[48, 57]) 小写字母:[0x61,0x7a](或十进制[97, 122]) 大写字母:[0x41,0x5a](或十进制[65, 90])...
  • 最全的常用汉字Unicode码表,举例:\u7684\u4e00\u662f\u4e86\u6211\u4e0d\u4eba\u5728\u4ed6\u6709\u8fd9\u4e2a\u4e0a\u4eec\u6765\u5230\u65f6\u5927\u5730\u4e3a\u5b50\u4e2d\u4f60\u8bf4\u751f\u56fd\u5e74 。
  • Unicode中文和特殊字符的编码范围  编程中有时候需要用到匹配中文的正则,一般用 [ \u4e00-\u9fa5]+ 即可搞定。不过这正则对一般的火星文鸟语就不太适用了,甚至全角的标点符号都不包含在内。例如游戏里面的玩家...
  • Unicode 编码范围中文编码范围

    千次阅读 2014-04-27 13:47:41
    首先将,unicode是全世界统一的编码规则,但是这个只规定了各种字符的数字编码(相当于一种标准),具体实现的存储方式有utff-8,utf-16,utf-32等形式。各种形式有不同的存储和与unicode代码的映射规则。 所以utf8...
  • unicode编码范围

    千次阅读 2018-03-16 09:54:08
    unicode编码范围汉字:[0x4e00,0x9fa5](或十进制[19968,40869]) 数字:[0x30,0x39](或十进制[48, 57]) 小写字母:[0x61,0x7a](或十进制[97, 122]) 大写字母:[0x41,0x5a](或十进制[65, 90])
  • Unicode汉字编码表(全)

    2018-04-20 09:08:34
    Unicode汉字编码表,包含几乎完整的汉字编码,PDF格式。资源分想给0分的,可是没这个选项,只好选择最低的2分。
  • Unicode编码方式参见: https://blog.csdn.net/m372897500/article/details/37592543 十进制 十六进制 字符数 编码分类(中文编码分类(英文) 起始 终止 起始 终止 (个) 0 127 0000 007F 128 C0控制符及...
  • * 为了解决中文乱码问题,一律转城Unicode * @param str * @return */ public String chinaToUnicode(String str) { String result = ""; for (int i = 0; i (); i++) { int chr1 = (char) str.cha
  • 汉字UNICODE编码范围

    千次阅读 2012-06-25 10:46:05
    基本多文种平面是Unicode中的一个编码区段。编码从U+0000至U+FFFF。 常用汉字在此区间对应。   对应关系如下: 3400-4DBF:CJK 统一表意符号扩展 A (CJK Unified Ideographs Extension A) 4DC0-4...
  • 最全的unicode 汉字编码范围为4e00-9fa5,格式为txt
  • Unicode 字符编码表|汉字Unicode编码的区间为:0x4E00→0x9FA5 十进制 十六进制  字符数 编码分类(中文) 编码分类(英文) 起始 终止 起始 终止 (个)     0 127 ...
  • 汉字Unicode编码

    千次阅读 2015-03-09 16:39:23
    这里是几个主要非英文语系字符范围(google上找到的):  [plain] view plaincopy 2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩...
  • 汉字字符集编码查询 unicode编码查询

    万次阅读 2018-09-13 09:04:06
    GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。 BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053...
  • 下面常用到的几个国家的Unicode编码范围 u4e00-u9fa5 (中文)x0400-x052f (俄语) xAC00-xD7A3 (韩文)u0800-u4e00 (日文)匹配表达式判断字符串是否是俄语 $rupattn = '/[\x{0400}-\x{052f}]+/siu'; $str = 'горя...
  • 常用汉字unicode编码

    2013-02-26 09:49:19
    常用汉字unicode编码,写验证码能用到
  • 原文地址:http://blog.csdn.net/xzl04/article/details/6307416

空空如也

1 2 3 4 5 ... 20
收藏数 134,941
精华内容 53,976
关键字:

unicode汉字编码范围