精华内容
下载资源
问答
  • Unicode编码

    2019-01-13 12:13:20
    在Unicode 2.0之后(最新Unicode 11.0),Unicode编码与UCS(Universal Coded Character Set)基本保持一致。Uincode 版本列表,点击查看。 Unicode 编码提供了一组基本单元编码,为每个基本单元分配一个唯一的编...

    简介

    Unicode(世界统一码)是由世界统一码联盟制定的一套字符编码,其中包含了世界绝大部分的语言文字,还包含了表情文字。在Unicode 2.0之后(最新Unicode 11.0),Unicode编码与UCS(Universal Coded Character Set)基本保持一致。Uincode 版本列表,点击查看

    Unicode 编码提供了一组基本单元编码,为每个基本单元分配一个唯一的编码点(Code Point)。一个文本元素是有一个或多个基本单元组成。例如法语中的Ç 可以看做是由 C 和¸ 组合成的。

    名词解释

    • Basic Multilingual Plane (BMP) 基础多语言层面
    • Supplementary Multilingual Plane (SMP) 多语言补充层皮
    • Supplementary Ideographic Plane (SIP) 表意文字补充平面
    • Supplementary Special-purpose Plane (SSP) 特别用途补充平面
    • Private Use Area-A Plane (PUA-A) 私人使用区-A平面
    • Private Use Area-B Plane (PUA-B) 私人使用区-B平面
    • CJK 中国、日本、韩国 三个国家的简称
    • CJKV 中国、日本、韩国、越南 四个国家的简称
    • RTL right-to-left 从右到左
    • BE big-endian 大端序列, 高位在前(低地址),低在后(高地址)
    • LE little-endian 小端序列, 一个单元在计算机中的存放时按照低位在前(低地址),高位在后(高地址)的模式存放。

    分配情况

    整体

    BMP 分配情况

    图片截自UnicodeStandard-11.0.pdf

    基础层面中D800-DFFF 区间为代理区间,区间内的代码点不表示任何字符。一个UTF-16编码只能表示BMP中的字符,无法表示BMP外的其他层面。通过代理区我们可以使用两个UTF-16编码来表示BMP外层面的一个字符。

    SMP 分配情况

    图片截自UnicodeStandard-11.0.pdf

    编码的实现方式

    计算机处理信息的最小单元为字节,而一个字节无法表示Unicode中的所有字符。为了表示所有的字符,就需要一种实现方式将Unicode中的字符编码转换为计算机可以处理的字节序列。

    Unicode编码的实现方式有:

    • UTF-8
    • UTF-16
    • UTF-32
    展开全文
  • UniCode编码

    万次阅读 多人点赞 2019-06-27 15:59:48
    Unicode编码则是采用双字节16位来进行编号,可编65536字符,基本上包含了世界上所有的语言字符,它也就成为了全世界一种通用的编码,而且用十六进制4位表示一个编码,非常简结直观,为大多数开发者所接受,特别是...

    Unicode编码则是采用双字节16位来进行编号,可编65536字符,基本上包含了世界上所有的语言字符,它也就成为了全世界一种通用的编码,而且用十六进制4位表示一个编码,非常简结直观,为大多数开发者所接受,特别是十六进制编码后,可以解决汉字在js再编码过程中出现乱码问题,提高解释速度,我们建议在js脚本中使用十六进制unicode编码。

    UniCode汉字转换,网上很多,但相对比较好使的比较少,大都写法一样,转换的效果差别不大,或多或少有些遗憾,我这找到个相对较好的,能直接转换标点符号的转换器。

    地址:http://javawind.net/tools/native2ascii.jsp?action=transform

    另附上Unicode编号表,这下完美了

     

    Unicode编码表/0000-0FFF

    图例: Unicode 3.1
    Unicode 1.0 Unicode 3.2
    Unicode 1.1 Unicode 4.0
    Unicode 2.0 Unicode 4.1
    Unicode 2.1 未使用
    Unicode 3.0 不作编码
    Unicode 编码表
    0000-0FFF 8000-8FFF 10000-10FFF 20000-20FFF 28000-28FFF
    1000-1FFF 9000-9FFF   21000-21FFF 29000-29FFF
    2000-2FFF A000-AFFF   22000-22FFF 2A000-2AFFF
    3000-3FFF B000-BFFF   23000-23FFF  
    4000-4FFF C000-CFFF 1D000-1DFFF 24000-24FFF 2F000-2FFFF
    5000-5FFF D000-DFFF   25000-25FFF  
    6000-6FFF E000-EFFF   26000-26FFF  
    7000-7FFF F000-FFFF   27000-27FFF E0000-E0FFF

     

    【Unicode 码表】

    0000-007F:C0控制符及基本拉丁文 (C0 Control and Basic Latin)
    0080-00FF:C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement) 
    0100-017F:拉丁文扩展-A (Latin Extended-A) 
    0180-024F:拉丁文扩展-B (Latin Extended-B) 
    0250-02AF:国际音标扩展 (IPA Extensions) 
    02B0-02FF:空白修饰字母 (Spacing Modifiers) 
    0300-036F:结合用读音符号 (Combining Diacritics Marks) 
    0370-03FF:希腊文及科普特文 (Greek and Coptic) 
    0400-04FF:西里尔字母 (Cyrillic) 
    0500-052F:西里尔字母补充 (Cyrillic Supplement) 
    0530-058F:亚美尼亚语 (Armenian) 
    0590-05FF:希伯来文 (Hebrew) 
    0600-06FF:阿拉伯文 (Arabic) 
    0700-074F:叙利亚文 (Syriac) 
    0750-077F:阿拉伯文补充 (Arabic Supplement) 
    0780-07BF:马尔代夫语 (Thaana) 
    07C0-077F:西非書面語言 (N'Ko) 
    0800-085F:阿维斯塔语及巴列维语 (Avestan and Pahlavi) 
    0860-087F:Mandaic 
    0880-08AF:撒马利亚语 (Samaritan) 
    0900-097F:天城文书 (Devanagari) 
    0980-09FF:孟加拉语 (Bengali) 
    0A00-0A7F:锡克教文 (Gurmukhi) 
    0A80-0AFF:古吉拉特文 (Gujarati) 
    0B00-0B7F:奥里亚文 (Oriya) 
    0B80-0BFF:泰米尔文 (Tamil) 
    0C00-0C7F:泰卢固文 (Telugu) 
    0C80-0CFF:卡纳达文 (Kannada) 
    0D00-0D7F:德拉维族语 (Malayalam) 
    0D80-0DFF:僧伽罗语 (Sinhala) 
    0E00-0E7F:泰文 (Thai) 
    0E80-0EFF:老挝文 (Lao) 
    0F00-0FFF:藏文 (Tibetan) 
    1000-109F:缅甸语 (Myanmar) 
    10A0-10FF:格鲁吉亚语 (Georgian) 
    1100-11FF:朝鲜文 (Hangul Jamo) 
    1200-137F:埃塞俄比亚语 (Ethiopic) 
    1380-139F:埃塞俄比亚语补充 (Ethiopic Supplement) 
    13A0-13FF:切罗基语 (Cherokee) 
    1400-167F:统一加拿大土著语音节 (Unified Canadian Aboriginal Syllabics) 
    1680-169F:欧甘字母 (Ogham) 
    16A0-16FF:如尼文 (Runic) 
    1700-171F:塔加拉语 (Tagalog) 
    1720-173F:Hanunóo 
    1740-175F:Buhid 
    1760-177F:Tagbanwa 
    1780-17FF:高棉语 (Khmer) 
    1800-18AF:蒙古文 (Mongolian) 
    18B0-18FF:Cham 
    1900-194F:Limbu 
    1950-197F:德宏泰语 (Tai Le) 
    1980-19DF:新傣仂语 (New Tai Lue) 
    19E0-19FF:高棉语记号 (Kmer Symbols) 
    1A00-1A1F:Buginese 
    1A20-1A5F:Batak 
    1A80-1AEF:Lanna 
    1B00-1B7F:巴厘语 (Balinese) 
    1B80-1BB0:巽他语 (Sundanese) 
    1BC0-1BFF:Pahawh Hmong 
    1C00-1C4F:雷布查语(Lepcha) 
    1C50-1C7F:Ol Chiki 
    1C80-1CDF:曼尼普尔语 (Meithei/Manipuri) 
    1D00-1D7F:语音学扩展 (Phonetic Extensions) 
    1D80-1DBF:语音学扩展补充 (Phonetic Extensions Supplement) 
    1DC0-1DFF:结合用读音符号补充 (Combining Diacritics Marks Supplement) 
    1E00-1EFF:拉丁文扩充附加 (Latin Extended Additional) 
    1F00-1FFF:希腊语扩充 (Greek Extended) 
    2000-206F:常用标点 (General Punctuation) 
    2070-209F:上标及下标 (Superscripts and Subscripts) 
    20A0-20CF:货币符号 (Currency Symbols) 
    20D0-20FF:组合用记号 (Combining Diacritics Marks for Symbols) 
    2100-214F:字母式符号 (Letterlike Symbols) 
    2150-218F:数字形式 (Number Form) 
    2190-21FF:箭头 (Arrows) 
    2200-22FF:数学运算符 (Mathematical Operator) 
    2300-23FF:杂项工业符号 (Miscellaneous Technical) 
    2400-243F:控制图片 (Control Pictures) 
    2440-245F:光学识别符 (Optical Character Recognition) 
    2460-24FF:封闭式字母数字 (Enclosed Alphanumerics) 
    2500-257F:制表符 (Box Drawing) 
    2580-259F:方块元素 (Block Element) 
    25A0-25FF:几何图形 (Geometric Shapes) 
    2600-26FF:杂项符号 (Miscellaneous Symbols) 
    2700-27BF:印刷符号 (Dingbats) 
    27C0-27EF:杂项数学符号-A (Miscellaneous Mathematical Symbols-A) 
    27F0-27FF:追加箭头-A (Supplemental Arrows-A) 
    2800-28FF:盲文点字模型 (Braille Patterns) 
    2900-297F:追加箭头-B (Supplemental Arrows-B) 
    2980-29FF:杂项数学符号-B (Miscellaneous Mathematical Symbols-B) 
    2A00-2AFF:追加数学运算符 (Supplemental Mathematical Operator) 
    2B00-2BFF:杂项符号和箭头 (Miscellaneous Symbols and Arrows) 
    2C00-2C5F:格拉哥里字母 (Glagolitic) 
    2C60-2C7F:拉丁文扩展-C (Latin Extended-C) 
    2C80-2CFF:古埃及语 (Coptic) 
    2D00-2D2F:格鲁吉亚语补充 (Georgian Supplement) 
    2D30-2D7F:提非纳文 (Tifinagh) 
    2D80-2DDF:埃塞俄比亚语扩展 (Ethiopic Extended) 
    2E00-2E7F:追加标点 (Supplemental Punctuation) 
    2E80-2EFF:CJK 部首补充 (CJK Radicals Supplement) 
    2F00-2FDF:康熙字典部首 (Kangxi Radicals) 
    2FF0-2FFF:表意文字描述符 (Ideographic Description Characters) 
    3000-303F:CJK 符号和标点 (CJK Symbols and Punctuation) 
    3040-309F:日文平假名 (Hiragana) 
    30A0-30FF:日文片假名 (Katakana) 
    3100-312F:注音字母 (Bopomofo) 
    3130-318F:朝鲜文兼容字母 (Hangul Compatibility Jamo) 
    3190-319F:象形字注释标志 (Kanbun) 
    31A0-31BF:注音字母扩展 (Bopomofo Extended) 
    31C0-31EF:CJK 笔画 (CJK Strokes) 
    31F0-31FF:日文片假名语音扩展 (Katakana Phonetic Extensions) 
    3200-32FF:封闭式 CJK 文字和月份 (Enclosed CJK Letters and Months) 
    3300-33FF:CJK 兼容 (CJK Compatibility) 
    3400-4DBF:CJK 统一表意符号扩展 A (CJK Unified Ideographs Extension A) 
    4DC0-4DFF:易经六十四卦符号 (Yijing Hexagrams Symbols) 
    4E00-9FBF:CJK 统一表意符号 (CJK Unified Ideographs) 
    A000-A48F:彝文音节 (Yi Syllables) 
    A490-A4CF:彝文字根 (Yi Radicals) 
    A500-A61F:Vai 
    A660-A6FF:统一加拿大土著语音节补充 (Unified Canadian Aboriginal Syllabics Supplement) 
    A700-A71F:声调修饰字母 (Modifier Tone Letters) 
    A720-A7FF:拉丁文扩展-D (Latin Extended-D) 
    A800-A82F:Syloti Nagri 
    A840-A87F:八思巴字 (Phags-pa) 
    A880-A8DF:Saurashtra 
    A900-A97F:爪哇语 (Javanese) 
    A980-A9DF:Chakma 
    AA00-AA3F:Varang Kshiti 
    AA40-AA6F:Sorang Sompeng 
    AA80-AADF:Newari 
    AB00-AB5F:越南傣语 (Vi?t Thái) 
    AB80-ABA0:Kayah Li 
    AC00-D7AF:朝鲜文音节 (Hangul Syllables) 
    D800-DBFF:High-half zone of UTF-16 
    DC00-DFFF:Low-half zone of UTF-16 
    E000-F8FF:自行使用區域 (Private Use Zone) 
    F900-FAFF:CJK 兼容象形文字 (CJK Compatibility Ideographs) 
    FB00-FB4F:字母表達形式 (Alphabetic Presentation Form) 
    FB50-FDFF:阿拉伯表達形式A (Arabic Presentation Form-A) 
    FE00-FE0F:变量选择符 (Variation Selector) 
    FE10-FE1F:竖排形式 (Vertical Forms) 
    FE20-FE2F:组合用半符号 (Combining Half Marks) 
    FE30-FE4F:CJK 兼容形式 (CJK Compatibility Forms) 
    FE50-FE6F:小型变体形式 (Small Form Variants) 
    FE70-FEFF:阿拉伯表達形式B (Arabic Presentation Form-B) 
    FF00-FFEF:半型及全型形式 (Halfwidth and Fullwidth Form) 
    FFF0-FFFF:特殊 (Specials)

     

     

     

     

    U+0123456789ABCDEF
    0000 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
    0010 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
    0020   ! " # $ % & ' ( ) * + , - . /
    0030 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
    0040 @ A B C D E F G H I J K L M N O
    0050 P Q R S T U V W X Y Z [ \ ] ^ _
    0060 ` a b c d e f g h i j k l m n o
    0070 p q r s t u v w x y z { | } ~ DEL
    0080 PAD HOP BPH NBH IND NEL SSA ESA HTS HTJ VTS PLD PLU RI SS2 SS3
    0090 DCS PU1 PU2 STS CCH MW SPA EPA SOS SGCI SCI CSI ST OSC PM APC
    00A0 NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SHY ® ¯
    00B0 ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
    00C0 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
    00D0 Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
    00E0 à á â ã ä å æ ç è é ê ë ì í î ï
    00F0 ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ
    U+0123456789ABCDEF
    0100 Ā ā Ă ă Ą ą Ć ć Ĉ ĉ Ċ ċ Č č Ď ď
    0110 Đ đ Ē ē Ĕ ĕ Ė ė Ę ę Ě ě Ĝ ĝ Ğ ğ
    0120 Ġ ġ Ģ ģ Ĥ ĥ Ħ ħ Ĩ ĩ Ī ī Ĭ ĭ Į į
    0130 İ ı IJ ij Ĵ ĵ Ķ ķ ĸ Ĺ ĺ Ļ ļ Ľ ľ Ŀ
    0140 ŀ Ł ł Ń ń Ņ ņ Ň ň ʼn Ŋ ŋ Ō ō Ŏ ŏ
    0150 Ő ő Œ œ Ŕ ŕ Ŗ ŗ Ř ř Ś ś Ŝ ŝ Ş ş
    0160 Š š Ţ ţ Ť ť Ŧ ŧ Ũ ũ Ū ū Ŭ ŭ Ů ů
    0170 Ű ű Ų ų Ŵ ŵ Ŷ ŷ Ÿ Ź ź Ż ż Ž ž ſ
    0180 ƀ Ɓ Ƃ ƃ Ƅ ƅ Ɔ Ƈ ƈ Ɖ Ɗ Ƌ ƌ ƍ Ǝ Ə
    0190 Ɛ Ƒ ƒ Ɠ Ɣ ƕ Ɩ Ɨ Ƙ ƙ ƚ ƛ Ɯ Ɲ ƞ Ɵ
    01A0 Ơ ơ Ƣ ƣ Ƥ ƥ Ʀ Ƨ ƨ Ʃ ƪ ƫ Ƭ ƭ Ʈ Ư
    01B0 ư Ʊ Ʋ Ƴ ƴ Ƶ ƶ Ʒ Ƹ ƹ ƺ ƻ Ƽ ƽ ƾ ƿ
    01C0 ǀ ǁ ǂ ǃ DŽ Dž dž LJ Lj lj NJ Nj nj Ǎ ǎ Ǐ
    01D0 ǐ Ǒ ǒ Ǔ ǔ Ǖ ǖ Ǘ ǘ Ǚ ǚ Ǜ ǜ ǝ Ǟ ǟ
    01E0 Ǡ ǡ Ǣ ǣ Ǥ ǥ Ǧ ǧ Ǩ ǩ Ǫ ǫ Ǭ ǭ Ǯ ǯ
    01F0 ǰ DZ Dz dz Ǵ ǵ Ƕ Ƿ Ǹ ǹ Ǻ ǻ Ǽ ǽ Ǿ ǿ
    U+0123456789ABCDEF
    0200 Ȁ ȁ Ȃ ȃ Ȅ ȅ Ȇ ȇ Ȉ ȉ Ȋ ȋ Ȍ ȍ Ȏ ȏ
    0210 Ȑ ȑ Ȓ ȓ Ȕ ȕ Ȗ ȗ Ș ș Ț ț Ȝ ȝ Ȟ ȟ
    0220 Ƞ ȡ Ȣ ȣ Ȥ ȥ Ȧ ȧ Ȩ ȩ Ȫ ȫ Ȭ ȭ Ȯ ȯ
    0230 Ȱ ȱ Ȳ ȳ ȴ ȵ ȶ ȷ ȸ ȹ Ⱥ Ȼ ȼ Ƚ Ⱦ ȿ
    0240 ɀ Ɂ                            
    0250 ɐ ɑ ɒ ɓ ɔ ɕ ɖ ɗ ɘ ə ɚ ɛ ɜ ɝ ɞ ɟ
    0260 ɠ ɡ ɢ ɣ ɤ ɥ ɦ ɧ ɨ ɩ ɪ ɫ ɬ ɭ ɮ ɯ
    0270 ɰ ɱ ɲ ɳ ɴ ɵ ɶ ɷ ɸ ɹ ɺ ɻ ɼ ɽ ɾ ɿ
    0280 ʀ ʁ ʂ ʃ ʄ ʅ ʆ ʇ ʈ ʉ ʊ ʋ ʌ ʍ ʎ ʏ
    0290 ʐ ʑ ʒ ʓ ʔ ʕ ʖ ʗ ʘ ʙ ʚ ʛ ʜ ʝ ʞ ʟ
    02A0 ʠ ʡ ʢ ʣ ʤ ʥ ʦ ʧ ʨ ʩ ʪ ʫ ʬ ʭ ʮ ʯ
    02B0 ʰ ʱ ʲ ʳ ʴ ʵ ʶ ʷ ʸ ʹ ʺ ʻ ʼ ʽ ʾ ʿ
    02C0 ˀ ˁ ˂ ˃ ˄ ˅ ˆ ˇ ˈ ˉ ˊ ˋ ˌ ˍ ˎ ˏ
    02D0 ː ˑ ˒ ˓ ˔ ˕ ˖ ˗ ˘ ˙ ˚ ˛ ˜ ˝ ˞ ˟
    02E0 ˠ ˡ ˢ ˣ ˤ ˥ ˦ ˧ ˨ ˩ ˪ ˫ ˬ ˭ ˮ ˯
    02F0 ˰ ˱ ˲ ˳ ˴ ˵ ˶ ˷ ˸ ˹ ˺ ˻ ˼ ˽ ˾ ˿
    U+0123456789ABCDEF
    0300  ̀  ́  ̂  ̃  ̄  ̅  ̆  ̇  ̈  ̉  ̊  ̋  ̌  ̍  ̎  ̏
    0310  ̐  ̑  ̒  ̓  ̔  ̕  ̖  ̗  ̘  ̙  ̚  ̛  ̜  ̝  ̞  ̟
    0320  ̠  ̡  ̢  ̣  ̤  ̥  ̦  ̧  ̨  ̩  ̪  ̫  ̬  ̭  ̮  ̯
    0330  ̰  ̱  ̲  ̳  ̴  ̵  ̶  ̷  ̸  ̹  ̺  ̻  ̼  ̽  ̾  ̿
    0340  ̀  ́  ͂  ̓  ̈́  ͅ  ͆  ͇  ͈  ͉  ͊  ͋  ͌  ͍  ͎ CGJ
    0350  ͐  ͑  ͒  ͓  ͔  ͕  ͖  ͗  ͘  ͙  ͚  ͛  ͜  ͝  ͞  ͟
    0360  ͠  ͡  ͢  ͣ  ͤ  ͥ  ͦ  ͧ  ͨ  ͩ  ͪ  ͫ  ͬ  ͭ  ͮ  ͯ
    0370         ʹ ͵         ͺ       ;  
    0380         ΄ ΅ Ά · Έ Ή Ί   Ό   Ύ Ώ
    0390 ΐ Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο
    03A0 Π Ρ   Σ Τ Υ Φ Χ Ψ Ω Ϊ Ϋ ά έ ή ί
    03B0 ΰ α β γ δ ε ζ η θ ι κ λ μ ν ξ ο
    03C0 π ρ ς σ τ υ φ χ ψ ω ϊ ϋ ό ύ ώ  
    03D0 ϐ ϑ ϒ ϓ ϔ ϕ ϖ ϗ Ϙ ϙ Ϛ ϛ Ϝ ϝ Ϟ ϟ
    03E0 Ϡ ϡ Ϣ ϣ Ϥ ϥ Ϧ ϧ Ϩ ϩ Ϫ ϫ Ϭ ϭ Ϯ ϯ
    03F0 ϰ ϱ ϲ ϳ ϴ ϵ ϶ Ϸ ϸ Ϲ Ϻ ϻ ϼ Ͻ Ͼ Ͽ
    U+0123456789ABCDEF
    0400 Ѐ Ё Ђ Ѓ Є Ѕ І Ї Ј Љ Њ Ћ Ќ Ѝ Ў Џ
    0410 А Б В Г Д Е Ж З И Й К Л М Н О П
    0420 Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
    0430 а б в г д е ж з и й к л м н о п
    0440 р с т у ф х ц ч ш щ ъ ы ь э ю я
    0450 ѐ ё ђ ѓ є ѕ і ї ј љ њ ћ ќ ѝ ў џ
    0460 Ѡ ѡ Ѣ ѣ Ѥ ѥ Ѧ ѧ Ѩ ѩ Ѫ ѫ Ѭ ѭ Ѯ ѯ
    0470 Ѱ ѱ Ѳ ѳ Ѵ ѵ Ѷ ѷ Ѹ ѹ Ѻ ѻ Ѽ ѽ Ѿ ѿ
    0480 Ҁ ҁ ҂  ҃  ҄  ҅  ҆    ҈  ҉ Ҋ ҋ Ҍ ҍ Ҏ ҏ
    0490 Ґ ґ Ғ ғ Ҕ ҕ Җ җ Ҙ ҙ Қ қ Ҝ ҝ Ҟ ҟ
    04A0 Ҡ ҡ Ң ң Ҥ ҥ Ҧ ҧ Ҩ ҩ Ҫ ҫ Ҭ ҭ Ү ү
    04B0 Ұ ұ Ҳ ҳ Ҵ ҵ Ҷ ҷ Ҹ ҹ Һ һ Ҽ ҽ Ҿ ҿ
    04C0 Ӏ Ӂ ӂ Ӄ ӄ Ӆ ӆ Ӈ ӈ Ӊ ӊ Ӌ ӌ Ӎ ӎ  
    04D0 Ӑ ӑ Ӓ ӓ Ӕ ӕ Ӗ ӗ Ә ә Ӛ ӛ Ӝ ӝ Ӟ ӟ
    04E0 Ӡ ӡ Ӣ ӣ Ӥ ӥ Ӧ ӧ Ө ө Ӫ ӫ Ӭ ӭ Ӯ ӯ
    04F0 Ӱ ӱ Ӳ ӳ Ӵ ӵ Ӷ ӷ Ӹ ӹ            
    U+0123456789ABCDEF
    0500 Ԁ ԁ Ԃ ԃ Ԅ ԅ Ԇ ԇ Ԉ ԉ Ԋ ԋ Ԍ ԍ Ԏ ԏ
    0510                                
    0520                                
    0530   Ա Բ Գ Դ Ե Զ Է Ը Թ Ժ Ի Լ Խ Ծ Կ
    0540 Հ Ձ Ղ Ճ Մ Յ Ն Շ Ո Չ Պ Ջ Ռ Ս Վ Տ
    0550 Ր Ց Ւ Փ Ք Օ Ֆ     ՙ ՚ ՛ ՜ ՝ ՞ ՟
    0560   ա բ գ դ ե զ է ը թ ժ ի լ խ ծ կ
    0570 հ ձ ղ ճ մ յ ն շ ո չ պ ջ ռ ս վ տ
    0580 ր ց ւ փ ք օ ֆ և   ։ ֊          
    0590   ֑ ֒ ֓ ֔ ֕ ֖ ֗ ֘ ֙ ֚ ֛ ֜ ֝ ֞ ֟
    05A0 ֠ ֡ ֢ ֣ ֤ ֥ ֦ ֧ ֨ ֩ ֪ ֫ ֬ ֭ ֮ ֯
    05B0 ְ ֱ ֲ ֳ ִ ֵ ֶ ַ ָ ֹ   ֻ ּ ֽ ־ ֿ
    05C0 ׀ ׁ ׂ ׃ ׄ ׅ ׆ ׇ                
    05D0 א ב ג ד ה ו ז ח ט י ך כ ל ם מ ן
    05E0 נ ס ע ף פ ץ צ ק ר ש ת          
    05F0 װ ױ ײ ׳ ״                      
    U+0123456789ABCDEF
    0600                       ؋ ، ؍ ؎ ؏
    0610 ؐ ؑ ؒ ؓ ؔ ؕ           ؛     ؞ ؟
    0620   ء آ أ ؤ إ ئ ا ب ة ت ث ج ح خ د
    0630 ذ ر ز س ش ص ض ط ظ ع غ          
    0640 ـ ف ق ك ل م ن ه و ى ي ً ٌ ٍ َ ُ
    0650 ِ ّ ْ ٓ ٔ ٕ ٖ ٗ ٘ ٙ ٚ ٛ ٜ ٝ ٞ  
    0660 ٠ ١ ٢ ٣ ٤ ٥ ٦ ٧ ٨ ٩ ٪ ٫ ٬ ٭ ٮ ٯ
    0670 ٰ ٱ ٲ ٳ ٴ ٵ ٶ ٷ ٸ ٹ ٺ ٻ ټ ٽ پ ٿ
    0680 ڀ ځ ڂ ڃ ڄ څ چ ڇ ڈ ډ ڊ ڋ ڌ ڍ ڎ ڏ
    0690 ڐ ڑ ڒ ړ ڔ ڕ ږ ڗ ژ ڙ ښ ڛ ڜ ڝ ڞ ڟ
    06A0 ڠ ڡ ڢ ڣ ڤ ڥ ڦ ڧ ڨ ک ڪ ګ ڬ ڭ ڮ گ
    06B0 ڰ ڱ ڲ ڳ ڴ ڵ ڶ ڷ ڸ ڹ ں ڻ ڼ ڽ ھ ڿ
    06C0 ۀ ہ ۂ ۃ ۄ ۅ ۆ ۇ ۈ ۉ ۊ ۋ ی ۍ ێ ۏ
    06D0 ې ۑ ے ۓ ۔ ە ۖ ۗ ۘ ۙ ۚ ۛ ۜ ۝ ۞ ۟
    06E0 ۠ ۡ ۢ ۣ ۤ ۥ ۦ ۧ ۨ ۩ ۪ ۫ ۬ ۭ ۮ ۯ
    06F0 ۰ ۱ ۲ ۳ ۴ ۵ ۶ ۷ ۸ ۹ ۺ ۻ ۼ ۽ ۾ ۿ
    U+0123456789ABCDEF
    0700 ܀ ܁ ܂ ܃ ܄ ܅ ܆ ܇ ܈ ܉ ܊ ܋ ܌ ܍    
    0710 ܐ ܑ ܒ ܓ ܔ ܕ ܖ ܗ ܘ ܙ ܚ ܛ ܜ ܝ ܞ ܟ
    0720 ܠ ܡ ܢ ܣ ܤ ܥ ܦ ܧ ܨ ܩ ܪ ܫ ܬ ܭ ܮ ܯ
    0730 ܰ ܱ ܲ ܳ ܴ ܵ ܶ ܷ ܸ ܹ ܺ ܻ ܼ ܽ ܾ ܿ
    0740 ݀ ݁ ݂ ݃ ݄ ݅ ݆ ݇ ݈ ݉ ݊     ݍ ݎ ݏ
    0750 ݐ ݑ ݒ ݓ ݔ ݕ ݖ ݗ ݘ ݙ ݚ ݛ ݜ ݝ ݞ ݟ
    0760 ݠ ݡ ݢ ݣ ݤ ݥ ݦ ݧ ݨ ݩ ݪ ݫ ݬ ݭ    
    0770                                
    0780 ހ ށ ނ ރ ބ ޅ ކ އ ވ މ ފ ދ ތ ލ ގ ޏ
    0790 ސ ޑ ޒ ޓ ޔ ޕ ޖ ޗ ޘ ޙ ޚ ޛ ޜ ޝ ޞ ޟ
    07A0 ޠ ޡ ޢ ޣ ޤ ޥ ަ ާ ި ީ ު ޫ ެ ޭ ޮ ޯ
    07B0 ް ޱ                            
    07C0                                
    07D0                                
    07E0                                
    07F0                                
    U+0123456789ABCDEF
    0800                                
    0810                                
    0820                                
    0830                                
    0840                                
    0850                                
    0860                                
    0870                                
    0880                                
    0890                                
    08A0                                
    08B0                                
    08C0                                
    08D0                                
    08E0                                
    08F0                                
    U+0123456789ABCDEF
    0900  
    0910
    0920
    0930     ि
    0940    
    0950      
    0960
    0970                            
    0980        
    0990    
    09A0  
    09B0             ি
    09C0          
    09D0                        
    09E0    
    09F0          
    U+0123456789ABCDEF
    0A00            
    0A10    
    0A20  
    0A30             ਿ
    0A40                
    0A50                      
    0A60            
    0A70                      
    0A80      
    0A90  
    0AA0  
    0AB0         િ
    0AC0        
    0AD0                              
    0AE0    
    0AF0                              
    U+0123456789ABCDEF
    0B00        
    0B10    
    0B20  
    0B30         ି
    0B40              
    0B50                      
    0B60        
    0B70                            
    0B80            
    0B90            
    0BA0                  
    0BB0         ி
    0BC0            
    0BD0                              
    0BE0            
    0BF0          
    U+0123456789ABCDEF
    0C00      
    0C10  
    0C20  
    0C30           ి
    0C40        
    0C50                            
    0C60        
    0C70                                
    0C80        
    0C90  
    0CA0  
    0CB0       ಿ
    0CC0        
    0CD0                          
    0CE0        
    0CF0                                
    U+0123456789ABCDEF
    0D00        
    0D10  
    0D20  
    0D30         ി
    0D40          
    0D50                              
    0D60        
    0D70                                
    0D80      
    0D90      
    0DA0
    0DB0        
    0DC0              
    0DD0    
    0DE0                                
    0DF0                          
    U+0123456789ABCDEF
    0E00  
    0E10
    0E20
    0E30         ฿
    0E40
    0E50        
    0E60                                
    0E70                                
    0E80                  
    0E90          
    0EA0            
    0EB0      
    0EC0        
    0ED0        
    0EE0                                
    0EF0                                
    U+0123456789ABCDEF
    0F00
    0F10
    0F20
    0F30 ༿
    0F40  
    0F50
    0F60          
    0F70   ཿ
    0F80        
    0F90  
    0FA0
    0FB0   ྿
    0FC0    
    0FD0                            
    0FE0                                
    0FF0                                
    展开全文
  • 中文转Unicode编码: text.encode("unicode_escape") exp: # 中文转Unicode编码 text = "中国" res = text.encode("unicode_escape") # 输出结果 res = b'\\u4e2d\\u56fd' Unicode编码转中文: u....

    中文转Unicode编码:

    text.encode("unicode_escape")

    exp:

    # 中文转Unicode编码
    text = "中国" 
    
    res = text.encode("unicode_escape")
    
    # 输出结果
    res = b'\\u4e2d\\u56fd'

     

     

    Unicode编码转中文:

    u.decode("unicode_escape")

    exp:

    # unicode编码 转 中文
    # u = b'\u76f8\u673a'
    u= b'\\u4e2d\\u56fd'
    
    u.decode('unicode_escape')
    
    Out[114]: '中国'

     

     

    --------------- END ------------

    展开全文
  • UNICODE编码

    千次阅读 2010-01-27 00:33:00
    本例介绍了微软C语言使用的两种字符集, ASCII(ISO-8859-1)和...从程序中我们可以学习到, 除过早期C语言支持的ASCII编码外, 新的C语言还支持UNICODE编码, 这是一种可以包含国际化文字的编码格式, 是Windows2000之后

      本例介绍了C语言使用的两种字符集, 多字节编码字符集(GBK, UTF-8等)和UNICODE(UCS-2)字符集以及它们的区别。

      从程序中我们可以学习到, 除过早期C语言支持的ASCII编码外, 新的C语言还支持多字节编码和UNICODE编码, 后两者都这是一种可以包含国际化文字的编码格式, 而且从Windows2000之后系统内核统一采用UNICODE文字编码格式。

      C语言同时支持多字节编码和UNICODE编码, 所以对应的数据类型也就提供了两个, char类型和wchar_t类型。对应的字符、字符串操作函数也同时提供了两套, 普通的C标准字符串函数库和以w开头的UNICODE版本扩展函数库(注意, 原有以str开头的字符串函数, 其UNICODE版本是以wcs开头的)

    #include <stdio.h>
    #include <stdlib.h>
    #include <string.h>
    #include <locale.h>
    
    // 定义缓冲区长度为256个字符
    // (注意, 这里为什么用"字符"而不是"字节")
    #define BUFFER_LEN 256
    
    int main(int argc, char* argv[]) 
    {
        // 定义一个ASCII字符变量
        char ce = 'A';
        // 定义一个UNICODE字符变量
        wchar_t wce = 'A';
    
        //    定义一个ASCII字符串变量, 包含一个汉字
        // (由于一个汉字占用2字节(GB10080编码)), 
        //    所以一个char类型变量无法存储, 需要一个字符串来存储, 
        // 所以实际上这个“大”字占据了3个字节, 两个字节存放字符
        // 本身编码, 还有一个/0结束符
        char szC[] = "大";
       
        //    定义一个UNICODE字符变量, wchar_t变量可以存放一个汉
        // 字, 注意字符前的大写L, 这个符号表示该字符为UNICODE字
        // 符集字符
        wchar_t wcC = L'大';
    
        // 定义ASCII字符集字符串变量
        const char cszHello[] = "Hello";
       
        //    定义UNICODE字符集字符串变量, 注意字符串前的大写L,
        // 这个符号表示该字符串为UNICODE字符集字符串
        const wchar_t cwszHello[] = L"Hello";
    
        /*********************************************************
         *    学习字符集, 一开始要搞清楚不同字符集占据的空间大小。
         *    ASCII字符集每个字符占据1字节, 使用char表示
         *    UNICODE字符集每个字符占据2字节, 使用wchar_t(部分
         * 版本C语言使用unsigned short)表示
         *********************************************************/
    
        //    定义ASCII字符集字符串指针
        // (思考一下, pcszHello和cszHello这两个变量定义的区别在
        // 哪里, 它们各自代表了什么?)
        const char* pcszHello = "大家好";
       
        // 定义UNICODE字符集字符串指针
        const wchar_t* pcwszHello = L"大家好";
    
        //    定义BUFFER_LEN长度存放字节的缓冲区
        // (定义的同时初始化缓冲区是一个好习惯)
        char szBuffer[BUFFER_LEN] = "";
       
        // 定义BUFFER_LEN长度存放UNICODE字符的缓冲区
        wchar_t wszBuffer[BUFFER_LEN];
    
        // 使用memset函数可以初始化任何数组, 包括字符串数组
        memset(wszBuffer, 0, sizeof(wszBuffer));
    
        //    在最新的C语言标准中, 所有UNICODE字符在显示前需要
        // 设置其国家代码(或称为地域信息), 这里设置为中国
        //    LC_ALL表示设置所有相关项目为中国, 包括文字、时间和
        // 货币
        _wsetlocale(LC_ALL, L"zhi");
    
        // 输出ASCII英文字符
        printf("size of %c is %d, code is: %u", ce, sizeof(ce), (int)ce);
       
        // 输出UNICODE英文字符
        wprintf(L"/nsizeof %c is %d, code is: %u", wce, sizeof(wce), (int)wce);
    
        /*********************************************************
         *    通过上述代码可以发现, 对于英文字符, ASCII编码和
         * UNICODE编码的内码相同, 但占用空间不同
         *********************************************************/
    
        // 输出ASCII中文字符(实际是一个字符串)
        printf("/nsize of %s is %d, code is: %u", szC, sizeof(szC), (int)*(unsigned short*)szC);
       
        // 输出UNICODE中文字符
        wprintf(L"/nsizeof %c is %d, code is: %u", wcC, sizeof(wcC), (int)wcC);
    
        /*********************************************************
         *    通过上述代码可以发现, GB10080编码和UNICODE编码在
         * 编码“大”字时, 编码值是不同的, 但都占据2字节空间
         *********************************************************/
       
        // 使用printf函数输出ASCII字符集字符串并输出其占据空间的字节数
        printf("/nsize of %s is %d", cszHello, sizeof(cszHello));
       
        // 使用wprintf函数输出UNICODE字符集字符串并输出其占据空间的字节数
        wprintf(L"/nsize of %s is %d", cwszHello, sizeof(cwszHello));
       
        /*********************************************************
         * 通过上述的练习可以发现:
         *    ASCII字符集字符串长度和其占用空间的字节数一致
         * (包括结束符/0, 占据1 byte)
         *    UNICODE字符集字符串长度是其占用空间字节数的2倍
         * (包括结束符/0, 占据2 byte), 这一点和wchar_t类型为2字
         * 节一致
         *********************************************************/
       
        // 使用strlen函数测量ASCII字符串长度
        printf("/nlength of %s is %d", pcszHello, strlen(pcszHello));
       
        // 使用wcslen函数测量UNICODE字符串长度
        wprintf(L"/nlength of %s is %d", pcwszHello, wcslen(pcwszHello));
    
        // 使用strcpy_s函数复制ASCII字符串(后缀为_s的函数是原函数的"安全版本", 
        // 改进了可能出现缓冲区溢出问题的漏洞)
        strcpy_s(szBuffer, BUFFER_LEN, cszHello);
       
        // 使用strcat_s函数连接ASCII字符串
        strcat_s(szBuffer, BUFFER_LEN, pcszHello);
        printf("/nlength of %s is %d", szBuffer, strlen(szBuffer));
    
        // 使用wcscpy_s函数复制UNICODE字符串
        wcscpy_s(wszBuffer, BUFFER_LEN, cwszHello);
       
        // 使用wcscat_s函数连接UNICODE字符串
        wcscat_s(wszBuffer, BUFFER_LEN, pcwszHello);
        wprintf(L"/nlength of %s is %d", wszBuffer, wcslen(wszBuffer));
    
        wprintf(L"/n");
        system("pause");
        return 0;
    }


    展开全文
  • unicode编码

    千次阅读 2017-01-20 14:26:40
    https://my.oschina.net/goldenshaw/blog/310331http://www.freebuf.com/articles/others-articles/25623.htmlhttp://www.ruanyifeng.com/blog/2014/12/unicode.htmlhttp://blog.csdn.net/stephen1315/article/detail
  • unicode编码:用两个字节来表示一个字符(可以是英文也可以是汉字)————对支持汉字比较ok   非unicode编码:用一个字节表示一个字母,用两个字节表示一个汉字
  • 一,中文转Unicode编码 chinese = "你好" re = chinese.encode("unicode_escape") print(re) 返回:b'\\u4f60\\u597d' 二,Unicode编码转中文 方法一 unicode = b'\\u4f60\\u597d' re = unicode.decode("unicode_...
  • java之字符串转Unicode编码Unicode编码转字符串,使用实用工具类 解决方法: Stringstr="你好"; 工具类:http://www.yayihouse.com/yayishuwu/chapter/1643
  • unicode编码

    千次阅读 2020-11-10 21:12:41
    1 unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS...
  • 最全unicode编码

    万次阅读 2019-05-17 21:00:44
    UniCode编码Unicode编码则是采用双字节16位来进行编号,可编65536字符,基本上包含了世界上所有的语言字符,它也就成为了全世界一种通用的编码,而且用十六进制4位表示一个编码,非常简结直观,为大多数开发者所...
  • Python open()读取文件 Unicode编码问题

    万次阅读 2017-10-12 22:03:57
    Python open()读取文件 Unicode编码问题
  • Unicode编码及其编码方式

    千次阅读 2016-11-03 14:00:00
    什么是 UnicodeUnicode (或者叫 Unicode 编码)是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。目前的...
  • Unicode编码 ASCII编码 字符的ascii编码可以对照ASCII编码表 中文的ASCII编码是对照unicode编码表 string = input("请输入一个字符: ") print(string+" 的ASCII码为:",ord(string)) #将字符转换为ascii码值 ...
  • Unicode编码

    千次阅读 2016-10-21 09:07:44
    以下为Unicode编码清单,具体字符的编码表请下载Unicode编码表 1. 【0020-007F】 Basic Latin 基本拉丁字母 2. 【00A0-00FF】 Latin-1 Supplement 拉丁字母补充-1 3. 【0100-017F】 Latin Extended-A 拉丁字母...
  • html中使用unicode编码

    千次阅读 2020-02-12 19:01:33
    生成unicode编码 使用unicode编码 访问效果
  • unicode编码详解_转载

    千次阅读 2021-03-01 16:09:13
    一、Unicode编码 1 UTF-8 -16 -32编码和Unicode编码  Unicode编码是一种计算机字符编码标准,其实个人认为叫字符集更为准确;而我们熟悉的UTF-8 UTF-16 UTF-32是Unicode的具体实现(怎么存储在计算机)。  1)...
  • Unicode编码的实现

    千次阅读 2019-03-23 15:25:35
    一点睛 Unicode的实现和编码方式不一定等价。...Unicode编码的实现方式主要由UTF-8,UTF-16,UFT-32等,分别以字节(BYTE)、字(OWORD,2个字节)、双子(DWORD,4个字节,实际只用了31位,最高位为...
  • IDEA转换unicode编码

    千次阅读 2019-03-04 20:52:13
    IDEA转换unicode编码 unicode编码是这样的 首先打开设置 搜索框搜索File Encodings,然后打钩保存 就ok啦
  • C++ UNICODE编码

    千次阅读 2018-06-29 21:12:29
    //UNICODE编码 //返回转换后的UNICODE数据长度 int ConvUniStr2Unicode(LPCSTR szUnicodeString, WCHAR *pWchar, int iBuffSize) { int iRet = 0; int iUstrLen = strlen(szUnicodeString); ASSERT(pWchar); ...
  • 彻底弄懂 Unicode 编码

    万次阅读 多人点赞 2017-12-26 10:37:26
    想到了之间学习 ES6 时关于字符串的 Unicode 表示法,突然就很想知道 UTF-16 是如何进行编码的,我尝试将一些汉字转换成二进制数,然后简单的按 2 个字节一组转换成十六进制,发现对于那些码点较大的汉字,结果
  • python中unicode编码问题

    千次阅读 2019-04-11 11:08:04
    字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。 decode的作用是将其他...
  • 今天使PHP开发用到了Unicode的编码与解码,将unicode转为中文,再将...1:下面来看PHP Unicode编码方法,将中文转为Unicode字符,例如将新浪微博转换为unicode字符串,代码如下:function UnicodeEncode($str)...
  • Unicode 编码原理

    千次阅读 2014-04-22 15:55:37
    unicode编码原理
  • python 中文unicode编码

    千次阅读 2019-03-20 19:18:20
    python 中文unicode编码 一、 excel中写入中文报错UnicodeDecodeError : ‘ascii’ codec can’t decode byte 0xe5 in position 0: ordinal not in range(128) 解决方法: 第一行加入 # -*- coding: utf-8 -*-...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 40,091
精华内容 16,036
关键字:

unicode编码