精华内容
下载资源
问答
  • unicode

    万次阅读 2018-01-05 15:14:59
    汉字unicode从4e00-9FBB java 查看unicode编码的字,和字的unicode编码

    汉字unicode从4e00-9FBB

    //java
    //查看unicode编码的字
    char c = 0x4e00;
    System.out.println(c);
    //查看字的unicode编码
    char c2 = '一';
    System.out.println(Integer.toHexString(c2));
    System.out.println(Integer.toString(c2, 16));
    展开全文
  • Unicode

    千次阅读 2018-03-21 11:04:45
    Unicode最终,美国人意识到他们应该提出一种标准方案来展示世界上所有语言中的所有字符,出于这个目的,Unicode诞生了。Unicode 当然是一本很厚的字典,记录着世界上所有字符对应的一个数字。具体是怎样的对应关系,...

    Unicode

    最终,美国人意识到他们应该提出一种标准方案来展示世界上所有语言中的所有字符,出于这个目的,Unicode诞生了。

    Unicode 当然是一本很厚的字典,记录着世界上所有字符对应的一个数字。具体是怎样的对应关系,又或者说是如何进行划分的,就不是我们考虑的问题了,我们只用知道 Unicode 给所有的字符指定了一个数字用来表示该字符。

    对于 Unicode 有一些误解,它仅仅只是一个字符集,规定了符合对应的二进制代码,至于这个二进制代码如何存储则没有任何规定。它的想法很简单,就是为每个字符规定一个 
    用来表示该字符的数字,仅此而已。

    UTF-8

    UTF-8 是一个非常惊艳的编码方式,漂亮的实现了对 ASCII 码的向后兼容,以保证 Unicode 可以被大众接受。

    UTF-8 是目前互联网上使用最广泛的一种 Unicode 编码方式,它的最大特点就是可变长。它可以使用 1 - 4 个字节表示一个字符,根据字符的不同变换长度。编码规则如下:

    1. 对于单个字节的字符,第一位设为 0,后面的 7 位对应这个字符的 Unicode 码点。因此,对于英文中的 0 - 127 号字符,与 ASCII 码完全相同。这意味着 ASCII 码那个年代的文档用 UTF-8 编码打开完全没有问题。

    2. 对于需要使用 N 个字节来表示的字符(N > 1),第一个字节的前 N 位都设为 1,第 N + 1 位设为0,剩余的 N - 1 个字节的前两位都设位 10,剩下的二进制位则使用这个字符的 Unicode 码点来填充。

    编码规则如下:

    Unicode 十六进制码点范围UTF-8 二进制
    0000 0000 - 0000 007F0xxxxxxx
    0000 0080 - 0000 07FF110xxxxx 10xxxxxx
    0000 0800 - 0000 FFFF1110xxxx 10xxxxxx 10xxxxxx
    0001 0000 - 0010 FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

    根据上面编码规则对照表,进行 UTF-8 编码和解码就简单多了。下面以汉字“汉”为利,具体说明如何进行 UTF-8 编码和解码。

    “汉”的 Unicode 码点是 0x6c49(110 1100 0100 1001),通过上面的对照表可以发现,0x0000 6c49 位于第三行的范围,那么得出其格式为 1110xxxx 10xxxxxx 10xxxxxx。接着,从“汉”的二进制数最后一位开始,从后向前依次填充对应格式中的 x,多出的 x 用 0 补上。这样,就得到了“汉”的 UTF-8 编码为 11100110 10110001 10001001,转换成十六进制就是 0xE6 0xB7 0x89

    解码的过程也十分简单:如果一个字节的第一位是 0 ,则说明这个字节对应一个字符;如果一个字节的第一位1,那么连续有多少个 1,就表示该字符占用多少个字节。

    '\uff00' 表示一个unicode形式的字符,unicode形式都是16进制的。



    展开全文
  • UniCode编码表

    万次阅读 2019-06-27 15:59:48
    Unicode编码则是采用双字节16位来进行编号,可编65536字符,基本上包含了世界上所有的语言字符,它也就成为了全世界一种通用的编码,而且用十六进制4位表示一个编码,非常简结直观,为大多数开发者所接受,特别是...

    Unicode编码则是采用双字节16位来进行编号,可编65536字符,基本上包含了世界上所有的语言字符,它也就成为了全世界一种通用的编码,而且用十六进制4位表示一个编码,非常简结直观,为大多数开发者所接受,特别是十六进制编码后,可以解决汉字在js再编码过程中出现乱码问题,提高解释速度,我们建议在js脚本中使用十六进制unicode编码。

    UniCode汉字转换,网上很多,但相对比较好使的比较少,大都写法一样,转换的效果差别不大,或多或少有些遗憾,我这找到个相对较好的,能直接转换标点符号的转换器。

    地址:http://javawind.net/tools/native2ascii.jsp?action=transform

    另附上Unicode编号表,这下完美了

     

    Unicode编码表/0000-0FFF

    图例: Unicode 3.1
    Unicode 1.0 Unicode 3.2
    Unicode 1.1 Unicode 4.0
    Unicode 2.0 Unicode 4.1
    Unicode 2.1 未使用
    Unicode 3.0 不作编码
    Unicode 编码表
    0000-0FFF 8000-8FFF 10000-10FFF 20000-20FFF 28000-28FFF
    1000-1FFF 9000-9FFF   21000-21FFF 29000-29FFF
    2000-2FFF A000-AFFF   22000-22FFF 2A000-2AFFF
    3000-3FFF B000-BFFF   23000-23FFF  
    4000-4FFF C000-CFFF 1D000-1DFFF 24000-24FFF 2F000-2FFFF
    5000-5FFF D000-DFFF   25000-25FFF  
    6000-6FFF E000-EFFF   26000-26FFF  
    7000-7FFF F000-FFFF   27000-27FFF E0000-E0FFF

     

    【Unicode 码表】

    0000-007F:C0控制符及基本拉丁文 (C0 Control and Basic Latin)
    0080-00FF:C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement) 
    0100-017F:拉丁文扩展-A (Latin Extended-A) 
    0180-024F:拉丁文扩展-B (Latin Extended-B) 
    0250-02AF:国际音标扩展 (IPA Extensions) 
    02B0-02FF:空白修饰字母 (Spacing Modifiers) 
    0300-036F:结合用读音符号 (Combining Diacritics Marks) 
    0370-03FF:希腊文及科普特文 (Greek and Coptic) 
    0400-04FF:西里尔字母 (Cyrillic) 
    0500-052F:西里尔字母补充 (Cyrillic Supplement) 
    0530-058F:亚美尼亚语 (Armenian) 
    0590-05FF:希伯来文 (Hebrew) 
    0600-06FF:阿拉伯文 (Arabic) 
    0700-074F:叙利亚文 (Syriac) 
    0750-077F:阿拉伯文补充 (Arabic Supplement) 
    0780-07BF:马尔代夫语 (Thaana) 
    07C0-077F:西非書面語言 (N'Ko) 
    0800-085F:阿维斯塔语及巴列维语 (Avestan and Pahlavi) 
    0860-087F:Mandaic 
    0880-08AF:撒马利亚语 (Samaritan) 
    0900-097F:天城文书 (Devanagari) 
    0980-09FF:孟加拉语 (Bengali) 
    0A00-0A7F:锡克教文 (Gurmukhi) 
    0A80-0AFF:古吉拉特文 (Gujarati) 
    0B00-0B7F:奥里亚文 (Oriya) 
    0B80-0BFF:泰米尔文 (Tamil) 
    0C00-0C7F:泰卢固文 (Telugu) 
    0C80-0CFF:卡纳达文 (Kannada) 
    0D00-0D7F:德拉维族语 (Malayalam) 
    0D80-0DFF:僧伽罗语 (Sinhala) 
    0E00-0E7F:泰文 (Thai) 
    0E80-0EFF:老挝文 (Lao) 
    0F00-0FFF:藏文 (Tibetan) 
    1000-109F:缅甸语 (Myanmar) 
    10A0-10FF:格鲁吉亚语 (Georgian) 
    1100-11FF:朝鲜文 (Hangul Jamo) 
    1200-137F:埃塞俄比亚语 (Ethiopic) 
    1380-139F:埃塞俄比亚语补充 (Ethiopic Supplement) 
    13A0-13FF:切罗基语 (Cherokee) 
    1400-167F:统一加拿大土著语音节 (Unified Canadian Aboriginal Syllabics) 
    1680-169F:欧甘字母 (Ogham) 
    16A0-16FF:如尼文 (Runic) 
    1700-171F:塔加拉语 (Tagalog) 
    1720-173F:Hanunóo 
    1740-175F:Buhid 
    1760-177F:Tagbanwa 
    1780-17FF:高棉语 (Khmer) 
    1800-18AF:蒙古文 (Mongolian) 
    18B0-18FF:Cham 
    1900-194F:Limbu 
    1950-197F:德宏泰语 (Tai Le) 
    1980-19DF:新傣仂语 (New Tai Lue) 
    19E0-19FF:高棉语记号 (Kmer Symbols) 
    1A00-1A1F:Buginese 
    1A20-1A5F:Batak 
    1A80-1AEF:Lanna 
    1B00-1B7F:巴厘语 (Balinese) 
    1B80-1BB0:巽他语 (Sundanese) 
    1BC0-1BFF:Pahawh Hmong 
    1C00-1C4F:雷布查语(Lepcha) 
    1C50-1C7F:Ol Chiki 
    1C80-1CDF:曼尼普尔语 (Meithei/Manipuri) 
    1D00-1D7F:语音学扩展 (Phonetic Extensions) 
    1D80-1DBF:语音学扩展补充 (Phonetic Extensions Supplement) 
    1DC0-1DFF:结合用读音符号补充 (Combining Diacritics Marks Supplement) 
    1E00-1EFF:拉丁文扩充附加 (Latin Extended Additional) 
    1F00-1FFF:希腊语扩充 (Greek Extended) 
    2000-206F:常用标点 (General Punctuation) 
    2070-209F:上标及下标 (Superscripts and Subscripts) 
    20A0-20CF:货币符号 (Currency Symbols) 
    20D0-20FF:组合用记号 (Combining Diacritics Marks for Symbols) 
    2100-214F:字母式符号 (Letterlike Symbols) 
    2150-218F:数字形式 (Number Form) 
    2190-21FF:箭头 (Arrows) 
    2200-22FF:数学运算符 (Mathematical Operator) 
    2300-23FF:杂项工业符号 (Miscellaneous Technical) 
    2400-243F:控制图片 (Control Pictures) 
    2440-245F:光学识别符 (Optical Character Recognition) 
    2460-24FF:封闭式字母数字 (Enclosed Alphanumerics) 
    2500-257F:制表符 (Box Drawing) 
    2580-259F:方块元素 (Block Element) 
    25A0-25FF:几何图形 (Geometric Shapes) 
    2600-26FF:杂项符号 (Miscellaneous Symbols) 
    2700-27BF:印刷符号 (Dingbats) 
    27C0-27EF:杂项数学符号-A (Miscellaneous Mathematical Symbols-A) 
    27F0-27FF:追加箭头-A (Supplemental Arrows-A) 
    2800-28FF:盲文点字模型 (Braille Patterns) 
    2900-297F:追加箭头-B (Supplemental Arrows-B) 
    2980-29FF:杂项数学符号-B (Miscellaneous Mathematical Symbols-B) 
    2A00-2AFF:追加数学运算符 (Supplemental Mathematical Operator) 
    2B00-2BFF:杂项符号和箭头 (Miscellaneous Symbols and Arrows) 
    2C00-2C5F:格拉哥里字母 (Glagolitic) 
    2C60-2C7F:拉丁文扩展-C (Latin Extended-C) 
    2C80-2CFF:古埃及语 (Coptic) 
    2D00-2D2F:格鲁吉亚语补充 (Georgian Supplement) 
    2D30-2D7F:提非纳文 (Tifinagh) 
    2D80-2DDF:埃塞俄比亚语扩展 (Ethiopic Extended) 
    2E00-2E7F:追加标点 (Supplemental Punctuation) 
    2E80-2EFF:CJK 部首补充 (CJK Radicals Supplement) 
    2F00-2FDF:康熙字典部首 (Kangxi Radicals) 
    2FF0-2FFF:表意文字描述符 (Ideographic Description Characters) 
    3000-303F:CJK 符号和标点 (CJK Symbols and Punctuation) 
    3040-309F:日文平假名 (Hiragana) 
    30A0-30FF:日文片假名 (Katakana) 
    3100-312F:注音字母 (Bopomofo) 
    3130-318F:朝鲜文兼容字母 (Hangul Compatibility Jamo) 
    3190-319F:象形字注释标志 (Kanbun) 
    31A0-31BF:注音字母扩展 (Bopomofo Extended) 
    31C0-31EF:CJK 笔画 (CJK Strokes) 
    31F0-31FF:日文片假名语音扩展 (Katakana Phonetic Extensions) 
    3200-32FF:封闭式 CJK 文字和月份 (Enclosed CJK Letters and Months) 
    3300-33FF:CJK 兼容 (CJK Compatibility) 
    3400-4DBF:CJK 统一表意符号扩展 A (CJK Unified Ideographs Extension A) 
    4DC0-4DFF:易经六十四卦符号 (Yijing Hexagrams Symbols) 
    4E00-9FBF:CJK 统一表意符号 (CJK Unified Ideographs) 
    A000-A48F:彝文音节 (Yi Syllables) 
    A490-A4CF:彝文字根 (Yi Radicals) 
    A500-A61F:Vai 
    A660-A6FF:统一加拿大土著语音节补充 (Unified Canadian Aboriginal Syllabics Supplement) 
    A700-A71F:声调修饰字母 (Modifier Tone Letters) 
    A720-A7FF:拉丁文扩展-D (Latin Extended-D) 
    A800-A82F:Syloti Nagri 
    A840-A87F:八思巴字 (Phags-pa) 
    A880-A8DF:Saurashtra 
    A900-A97F:爪哇语 (Javanese) 
    A980-A9DF:Chakma 
    AA00-AA3F:Varang Kshiti 
    AA40-AA6F:Sorang Sompeng 
    AA80-AADF:Newari 
    AB00-AB5F:越南傣语 (Vi?t Thái) 
    AB80-ABA0:Kayah Li 
    AC00-D7AF:朝鲜文音节 (Hangul Syllables) 
    D800-DBFF:High-half zone of UTF-16 
    DC00-DFFF:Low-half zone of UTF-16 
    E000-F8FF:自行使用區域 (Private Use Zone) 
    F900-FAFF:CJK 兼容象形文字 (CJK Compatibility Ideographs) 
    FB00-FB4F:字母表達形式 (Alphabetic Presentation Form) 
    FB50-FDFF:阿拉伯表達形式A (Arabic Presentation Form-A) 
    FE00-FE0F:变量选择符 (Variation Selector) 
    FE10-FE1F:竖排形式 (Vertical Forms) 
    FE20-FE2F:组合用半符号 (Combining Half Marks) 
    FE30-FE4F:CJK 兼容形式 (CJK Compatibility Forms) 
    FE50-FE6F:小型变体形式 (Small Form Variants) 
    FE70-FEFF:阿拉伯表達形式B (Arabic Presentation Form-B) 
    FF00-FFEF:半型及全型形式 (Halfwidth and Fullwidth Form) 
    FFF0-FFFF:特殊 (Specials)

     

     

     

     

    U+0123456789ABCDEF
    0000 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
    0010 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
    0020   ! " # $ % & ' ( ) * + , - . /
    0030 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
    0040 @ A B C D E F G H I J K L M N O
    0050 P Q R S T U V W X Y Z [ \ ] ^ _
    0060 ` a b c d e f g h i j k l m n o
    0070 p q r s t u v w x y z { | } ~ DEL
    0080 PAD HOP BPH NBH IND NEL SSA ESA HTS HTJ VTS PLD PLU RI SS2 SS3
    0090 DCS PU1 PU2 STS CCH MW SPA EPA SOS SGCI SCI CSI ST OSC PM APC
    00A0 NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SHY ® ¯
    00B0 ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
    00C0 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
    00D0 Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
    00E0 à á â ã ä å æ ç è é ê ë ì í î ï
    00F0 ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ
    U+0123456789ABCDEF
    0100 Ā ā Ă ă Ą ą Ć ć Ĉ ĉ Ċ ċ Č č Ď ď
    0110 Đ đ Ē ē Ĕ ĕ Ė ė Ę ę Ě ě Ĝ ĝ Ğ ğ
    0120 Ġ ġ Ģ ģ Ĥ ĥ Ħ ħ Ĩ ĩ Ī ī Ĭ ĭ Į į
    0130 İ ı IJ ij Ĵ ĵ Ķ ķ ĸ Ĺ ĺ Ļ ļ Ľ ľ Ŀ
    0140 ŀ Ł ł Ń ń Ņ ņ Ň ň ʼn Ŋ ŋ Ō ō Ŏ ŏ
    0150 Ő ő Œ œ Ŕ ŕ Ŗ ŗ Ř ř Ś ś Ŝ ŝ Ş ş
    0160 Š š Ţ ţ Ť ť Ŧ ŧ Ũ ũ Ū ū Ŭ ŭ Ů ů
    0170 Ű ű Ų ų Ŵ ŵ Ŷ ŷ Ÿ Ź ź Ż ż Ž ž ſ
    0180 ƀ Ɓ Ƃ ƃ Ƅ ƅ Ɔ Ƈ ƈ Ɖ Ɗ Ƌ ƌ ƍ Ǝ Ə
    0190 Ɛ Ƒ ƒ Ɠ Ɣ ƕ Ɩ Ɨ Ƙ ƙ ƚ ƛ Ɯ Ɲ ƞ Ɵ
    01A0 Ơ ơ Ƣ ƣ Ƥ ƥ Ʀ Ƨ ƨ Ʃ ƪ ƫ Ƭ ƭ Ʈ Ư
    01B0 ư Ʊ Ʋ Ƴ ƴ Ƶ ƶ Ʒ Ƹ ƹ ƺ ƻ Ƽ ƽ ƾ ƿ
    01C0 ǀ ǁ ǂ ǃ DŽ Dž dž LJ Lj lj NJ Nj nj Ǎ ǎ Ǐ
    01D0 ǐ Ǒ ǒ Ǔ ǔ Ǖ ǖ Ǘ ǘ Ǚ ǚ Ǜ ǜ ǝ Ǟ ǟ
    01E0 Ǡ ǡ Ǣ ǣ Ǥ ǥ Ǧ ǧ Ǩ ǩ Ǫ ǫ Ǭ ǭ Ǯ ǯ
    01F0 ǰ DZ Dz dz Ǵ ǵ Ƕ Ƿ Ǹ ǹ Ǻ ǻ Ǽ ǽ Ǿ ǿ
    U+0123456789ABCDEF
    0200 Ȁ ȁ Ȃ ȃ Ȅ ȅ Ȇ ȇ Ȉ ȉ Ȋ ȋ Ȍ ȍ Ȏ ȏ
    0210 Ȑ ȑ Ȓ ȓ Ȕ ȕ Ȗ ȗ Ș ș Ț ț Ȝ ȝ Ȟ ȟ
    0220 Ƞ ȡ Ȣ ȣ Ȥ ȥ Ȧ ȧ Ȩ ȩ Ȫ ȫ Ȭ ȭ Ȯ ȯ
    0230 Ȱ ȱ Ȳ ȳ ȴ ȵ ȶ ȷ ȸ ȹ Ⱥ Ȼ ȼ Ƚ Ⱦ ȿ
    0240 ɀ Ɂ                            
    0250 ɐ ɑ ɒ ɓ ɔ ɕ ɖ ɗ ɘ ə ɚ ɛ ɜ ɝ ɞ ɟ
    0260 ɠ ɡ ɢ ɣ ɤ ɥ ɦ ɧ ɨ ɩ ɪ ɫ ɬ ɭ ɮ ɯ
    0270 ɰ ɱ ɲ ɳ ɴ ɵ ɶ ɷ ɸ ɹ ɺ ɻ ɼ ɽ ɾ ɿ
    0280 ʀ ʁ ʂ ʃ ʄ ʅ ʆ ʇ ʈ ʉ ʊ ʋ ʌ ʍ ʎ ʏ
    0290 ʐ ʑ ʒ ʓ ʔ ʕ ʖ ʗ ʘ ʙ ʚ ʛ ʜ ʝ ʞ ʟ
    02A0 ʠ ʡ ʢ ʣ ʤ ʥ ʦ ʧ ʨ ʩ ʪ ʫ ʬ ʭ ʮ ʯ
    02B0 ʰ ʱ ʲ ʳ ʴ ʵ ʶ ʷ ʸ ʹ ʺ ʻ ʼ ʽ ʾ ʿ
    02C0 ˀ ˁ ˂ ˃ ˄ ˅ ˆ ˇ ˈ ˉ ˊ ˋ ˌ ˍ ˎ ˏ
    02D0 ː ˑ ˒ ˓ ˔ ˕ ˖ ˗ ˘ ˙ ˚ ˛ ˜ ˝ ˞ ˟
    02E0 ˠ ˡ ˢ ˣ ˤ ˥ ˦ ˧ ˨ ˩ ˪ ˫ ˬ ˭ ˮ ˯
    02F0 ˰ ˱ ˲ ˳ ˴ ˵ ˶ ˷ ˸ ˹ ˺ ˻ ˼ ˽ ˾ ˿
    U+0123456789ABCDEF
    0300  ̀  ́  ̂  ̃  ̄  ̅  ̆  ̇  ̈  ̉  ̊  ̋  ̌  ̍  ̎  ̏
    0310  ̐  ̑  ̒  ̓  ̔  ̕  ̖  ̗  ̘  ̙  ̚  ̛  ̜  ̝  ̞  ̟
    0320  ̠  ̡  ̢  ̣  ̤  ̥  ̦  ̧  ̨  ̩  ̪  ̫  ̬  ̭  ̮  ̯
    0330  ̰  ̱  ̲  ̳  ̴  ̵  ̶  ̷  ̸  ̹  ̺  ̻  ̼  ̽  ̾  ̿
    0340  ̀  ́  ͂  ̓  ̈́  ͅ  ͆  ͇  ͈  ͉  ͊  ͋  ͌  ͍  ͎ CGJ
    0350  ͐  ͑  ͒  ͓  ͔  ͕  ͖  ͗  ͘  ͙  ͚  ͛  ͜  ͝  ͞  ͟
    0360  ͠  ͡  ͢  ͣ  ͤ  ͥ  ͦ  ͧ  ͨ  ͩ  ͪ  ͫ  ͬ  ͭ  ͮ  ͯ
    0370         ʹ ͵         ͺ       ;  
    0380         ΄ ΅ Ά · Έ Ή Ί   Ό   Ύ Ώ
    0390 ΐ Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο
    03A0 Π Ρ   Σ Τ Υ Φ Χ Ψ Ω Ϊ Ϋ ά έ ή ί
    03B0 ΰ α β γ δ ε ζ η θ ι κ λ μ ν ξ ο
    03C0 π ρ ς σ τ υ φ χ ψ ω ϊ ϋ ό ύ ώ  
    03D0 ϐ ϑ ϒ ϓ ϔ ϕ ϖ ϗ Ϙ ϙ Ϛ ϛ Ϝ ϝ Ϟ ϟ
    03E0 Ϡ ϡ Ϣ ϣ Ϥ ϥ Ϧ ϧ Ϩ ϩ Ϫ ϫ Ϭ ϭ Ϯ ϯ
    03F0 ϰ ϱ ϲ ϳ ϴ ϵ ϶ Ϸ ϸ Ϲ Ϻ ϻ ϼ Ͻ Ͼ Ͽ
    U+0123456789ABCDEF
    0400 Ѐ Ё Ђ Ѓ Є Ѕ І Ї Ј Љ Њ Ћ Ќ Ѝ Ў Џ
    0410 А Б В Г Д Е Ж З И Й К Л М Н О П
    0420 Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
    0430 а б в г д е ж з и й к л м н о п
    0440 р с т у ф х ц ч ш щ ъ ы ь э ю я
    0450 ѐ ё ђ ѓ є ѕ і ї ј љ њ ћ ќ ѝ ў џ
    0460 Ѡ ѡ Ѣ ѣ Ѥ ѥ Ѧ ѧ Ѩ ѩ Ѫ ѫ Ѭ ѭ Ѯ ѯ
    0470 Ѱ ѱ Ѳ ѳ Ѵ ѵ Ѷ ѷ Ѹ ѹ Ѻ ѻ Ѽ ѽ Ѿ ѿ
    0480 Ҁ ҁ ҂  ҃  ҄  ҅  ҆    ҈  ҉ Ҋ ҋ Ҍ ҍ Ҏ ҏ
    0490 Ґ ґ Ғ ғ Ҕ ҕ Җ җ Ҙ ҙ Қ қ Ҝ ҝ Ҟ ҟ
    04A0 Ҡ ҡ Ң ң Ҥ ҥ Ҧ ҧ Ҩ ҩ Ҫ ҫ Ҭ ҭ Ү ү
    04B0 Ұ ұ Ҳ ҳ Ҵ ҵ Ҷ ҷ Ҹ ҹ Һ һ Ҽ ҽ Ҿ ҿ
    04C0 Ӏ Ӂ ӂ Ӄ ӄ Ӆ ӆ Ӈ ӈ Ӊ ӊ Ӌ ӌ Ӎ ӎ  
    04D0 Ӑ ӑ Ӓ ӓ Ӕ ӕ Ӗ ӗ Ә ә Ӛ ӛ Ӝ ӝ Ӟ ӟ
    04E0 Ӡ ӡ Ӣ ӣ Ӥ ӥ Ӧ ӧ Ө ө Ӫ ӫ Ӭ ӭ Ӯ ӯ
    04F0 Ӱ ӱ Ӳ ӳ Ӵ ӵ Ӷ ӷ Ӹ ӹ            
    U+0123456789ABCDEF
    0500 Ԁ ԁ Ԃ ԃ Ԅ ԅ Ԇ ԇ Ԉ ԉ Ԋ ԋ Ԍ ԍ Ԏ ԏ
    0510                                
    0520                                
    0530   Ա Բ Գ Դ Ե Զ Է Ը Թ Ժ Ի Լ Խ Ծ Կ
    0540 Հ Ձ Ղ Ճ Մ Յ Ն Շ Ո Չ Պ Ջ Ռ Ս Վ Տ
    0550 Ր Ց Ւ Փ Ք Օ Ֆ     ՙ ՚ ՛ ՜ ՝ ՞ ՟
    0560   ա բ գ դ ե զ է ը թ ժ ի լ խ ծ կ
    0570 հ ձ ղ ճ մ յ ն շ ո չ պ ջ ռ ս վ տ
    0580 ր ց ւ փ ք օ ֆ և   ։ ֊          
    0590   ֑ ֒ ֓ ֔ ֕ ֖ ֗ ֘ ֙ ֚ ֛ ֜ ֝ ֞ ֟
    05A0 ֠ ֡ ֢ ֣ ֤ ֥ ֦ ֧ ֨ ֩ ֪ ֫ ֬ ֭ ֮ ֯
    05B0 ְ ֱ ֲ ֳ ִ ֵ ֶ ַ ָ ֹ   ֻ ּ ֽ ־ ֿ
    05C0 ׀ ׁ ׂ ׃ ׄ ׅ ׆ ׇ                
    05D0 א ב ג ד ה ו ז ח ט י ך כ ל ם מ ן
    05E0 נ ס ע ף פ ץ צ ק ר ש ת          
    05F0 װ ױ ײ ׳ ״                      
    U+0123456789ABCDEF
    0600                       ؋ ، ؍ ؎ ؏
    0610 ؐ ؑ ؒ ؓ ؔ ؕ           ؛     ؞ ؟
    0620   ء آ أ ؤ إ ئ ا ب ة ت ث ج ح خ د
    0630 ذ ر ز س ش ص ض ط ظ ع غ          
    0640 ـ ف ق ك ل م ن ه و ى ي ً ٌ ٍ َ ُ
    0650 ِ ّ ْ ٓ ٔ ٕ ٖ ٗ ٘ ٙ ٚ ٛ ٜ ٝ ٞ  
    0660 ٠ ١ ٢ ٣ ٤ ٥ ٦ ٧ ٨ ٩ ٪ ٫ ٬ ٭ ٮ ٯ
    0670 ٰ ٱ ٲ ٳ ٴ ٵ ٶ ٷ ٸ ٹ ٺ ٻ ټ ٽ پ ٿ
    0680 ڀ ځ ڂ ڃ ڄ څ چ ڇ ڈ ډ ڊ ڋ ڌ ڍ ڎ ڏ
    0690 ڐ ڑ ڒ ړ ڔ ڕ ږ ڗ ژ ڙ ښ ڛ ڜ ڝ ڞ ڟ
    06A0 ڠ ڡ ڢ ڣ ڤ ڥ ڦ ڧ ڨ ک ڪ ګ ڬ ڭ ڮ گ
    06B0 ڰ ڱ ڲ ڳ ڴ ڵ ڶ ڷ ڸ ڹ ں ڻ ڼ ڽ ھ ڿ
    06C0 ۀ ہ ۂ ۃ ۄ ۅ ۆ ۇ ۈ ۉ ۊ ۋ ی ۍ ێ ۏ
    06D0 ې ۑ ے ۓ ۔ ە ۖ ۗ ۘ ۙ ۚ ۛ ۜ ۝ ۞ ۟
    06E0 ۠ ۡ ۢ ۣ ۤ ۥ ۦ ۧ ۨ ۩ ۪ ۫ ۬ ۭ ۮ ۯ
    06F0 ۰ ۱ ۲ ۳ ۴ ۵ ۶ ۷ ۸ ۹ ۺ ۻ ۼ ۽ ۾ ۿ
    U+0123456789ABCDEF
    0700 ܀ ܁ ܂ ܃ ܄ ܅ ܆ ܇ ܈ ܉ ܊ ܋ ܌ ܍    
    0710 ܐ ܑ ܒ ܓ ܔ ܕ ܖ ܗ ܘ ܙ ܚ ܛ ܜ ܝ ܞ ܟ
    0720 ܠ ܡ ܢ ܣ ܤ ܥ ܦ ܧ ܨ ܩ ܪ ܫ ܬ ܭ ܮ ܯ
    0730 ܰ ܱ ܲ ܳ ܴ ܵ ܶ ܷ ܸ ܹ ܺ ܻ ܼ ܽ ܾ ܿ
    0740 ݀ ݁ ݂ ݃ ݄ ݅ ݆ ݇ ݈ ݉ ݊     ݍ ݎ ݏ
    0750 ݐ ݑ ݒ ݓ ݔ ݕ ݖ ݗ ݘ ݙ ݚ ݛ ݜ ݝ ݞ ݟ
    0760 ݠ ݡ ݢ ݣ ݤ ݥ ݦ ݧ ݨ ݩ ݪ ݫ ݬ ݭ    
    0770                                
    0780 ހ ށ ނ ރ ބ ޅ ކ އ ވ މ ފ ދ ތ ލ ގ ޏ
    0790 ސ ޑ ޒ ޓ ޔ ޕ ޖ ޗ ޘ ޙ ޚ ޛ ޜ ޝ ޞ ޟ
    07A0 ޠ ޡ ޢ ޣ ޤ ޥ ަ ާ ި ީ ު ޫ ެ ޭ ޮ ޯ
    07B0 ް ޱ                            
    07C0                                
    07D0                                
    07E0                                
    07F0                                
    U+0123456789ABCDEF
    0800                                
    0810                                
    0820                                
    0830                                
    0840                                
    0850                                
    0860                                
    0870                                
    0880                                
    0890                                
    08A0                                
    08B0                                
    08C0                                
    08D0                                
    08E0                                
    08F0                                
    U+0123456789ABCDEF
    0900  
    0910
    0920
    0930     ि
    0940    
    0950      
    0960
    0970                            
    0980        
    0990    
    09A0  
    09B0             ি
    09C0          
    09D0                        
    09E0    
    09F0          
    U+0123456789ABCDEF
    0A00            
    0A10    
    0A20  
    0A30             ਿ
    0A40                
    0A50                      
    0A60            
    0A70                      
    0A80      
    0A90  
    0AA0  
    0AB0         િ
    0AC0        
    0AD0                              
    0AE0    
    0AF0                              
    U+0123456789ABCDEF
    0B00        
    0B10    
    0B20  
    0B30         ି
    0B40              
    0B50                      
    0B60        
    0B70                            
    0B80            
    0B90            
    0BA0                  
    0BB0         ி
    0BC0            
    0BD0                              
    0BE0            
    0BF0          
    U+0123456789ABCDEF
    0C00      
    0C10  
    0C20  
    0C30           ి
    0C40        
    0C50                            
    0C60        
    0C70                                
    0C80        
    0C90  
    0CA0  
    0CB0       ಿ
    0CC0        
    0CD0                          
    0CE0        
    0CF0                                
    U+0123456789ABCDEF
    0D00        
    0D10  
    0D20  
    0D30         ി
    0D40          
    0D50                              
    0D60        
    0D70                                
    0D80      
    0D90      
    0DA0
    0DB0        
    0DC0              
    0DD0    
    0DE0                                
    0DF0                          
    U+0123456789ABCDEF
    0E00  
    0E10
    0E20
    0E30         ฿
    0E40
    0E50        
    0E60                                
    0E70                                
    0E80                  
    0E90          
    0EA0            
    0EB0      
    0EC0        
    0ED0        
    0EE0                                
    0EF0                                
    U+0123456789ABCDEF
    0F00
    0F10
    0F20
    0F30 ༿
    0F40  
    0F50
    0F60          
    0F70   ཿ
    0F80        
    0F90  
    0FA0
    0FB0   ྿
    0FC0    
    0FD0                            
    0FE0                                
    0FF0                                
    展开全文
  • hello~大家新年好,已经好久没有更博了,刚刚在运行python文件的时候竟然报SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: tr这个错误,其实引起这个错误的原因就是转义...

        hello~大家新年好,已经好久没有更博了,刚刚在运行python文件的时候竟然报SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: tr这个错误,其实引起这个错误的原因就是转义的问题。

        举个例子,在文件中我传入的文件路径是这样的

    sys.path.append('c:\Users\mshacxiang\VScode_project\web_ddt')

        原因分析:在windows系统当中读取文件路径可以使用\,但是在python字符串中\有转义的含义,如\t可代表TAB,\n代表换行,所以我们需要采取一些方式使得\不被解读为转义字符。目前有3个解决方案

    1、在路径前面加r,即保持字符原始值的意思。

    sys.path.append(r'c:\Users\mshacxiang\VScode_project\web_ddt')

    2、替换为双反斜杠

    sys.path.append('c:\\Users\\mshacxiang\\VScode_project\\web_ddt')

    3、替换为正斜杠

    sys.path.append('c:/Users/mshacxiang/VScode_project/web_ddt')

     

    展开全文
  • 中文转Unicode编码: text.encode("unicode_escape") exp: # 中文转Unicode编码 text = "中国" res = text.encode("unicode_escape") # 输出结果 res = b'\\u4e2d\\u56fd' Unicode编码转中文: u....
  • 今天使PHP开发用到了Unicode的编码与解码,将unicode转为中文,再将中文转Unicode这样的操作是非常常见的,所以小编将这两个unicode中文互转函数给作为一个笔记保存起来,非常的简单,会用就行了。1:下面来看...
  • 彻底弄懂 Unicode 编码

    万次阅读 多人点赞 2017-12-26 10:37:26
    想到了之间学习 ES6 时关于字符串的 Unicode 表示法,突然就很想知道 UTF-16 是如何进行编码的,我尝试将一些汉字转换成二进制数,然后简单的按 2 个字节一组转换成十六进制,发现对于那些码点较大的汉字,结果
  • Unicode详解

    千次阅读 2019-09-27 20:35:35
    原创 Unicode详解(附UTF-8、UTF-16和UTF-32) ...
  • python unicode

    千次阅读 2018-07-06 13:50:38
    from numpy import unicode
  • python str转unicodeunicode转str

    千次阅读 2018-12-11 19:22:05
    str转Unicode: strtypeE.decode('gbk') unicode转str: unicodetypeE.encode('gbk') 有时程序会报这样的错误: Unicode equal comparison failed to convert both arguments to Unicode - interpreting ...
  • 中文在unicode中的编码范围

    万次阅读 2012-08-07 14:53:46
    以前写过一篇贴子是写中文在unicode中的编码范围 unicode中文范围,但写的不是很详细,今天再次研究了下unicode,并给出详细的unicode取值范围。 本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版 ...
  • [Unicode] Unicode的上标与下标

    千次阅读 2019-11-03 16:32:02
    本文整理了用于标注引用和参考的Unicode上下标字符。供需要的时候查询。
  • UniCode与非UniCode的区别

    千次阅读 2018-07-02 14:14:34
    在数据库中我们通常会遇到字符串与Unicode字符串,对于想我这样的初学者很多人是有很多疑问的,对此我把这个问题整理一下,方便自己与大家对知识的掌握。字符串:(1)Char:固定长度,长度为n个字节,取值范围1...
  • Unicode控制字符

    千次阅读 2020-03-26 10:20:02
    Unicode控制字符 一、前言 在所有主要的Web浏览器中内存中的字符顺序(逻辑)与它们显示的顺序(可视)是不同的。Unicode 定义了它其中每个字符的方向属性,浏览器应用的一组规则(通过这个来进行自动判断文本...
  • Unicode字符串和非Unicode字符串

    千次阅读 2018-07-30 15:41:43
    什么是UnicodeUnicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且...
  • unicode

    千次阅读 2015-04-13 19:11:52
    Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行...
  • Unicode编码

    千次阅读 2014-02-08 22:51:05
    1.Unicode与双字节字符集(DBCS)的区别  Unicode被认为是“宽字符”(特别是在C环境中)。Unicode中每个字符是16位宽而不是8位宽。8位宽在Unicode中时无意义的。双字节字符集中有些字符是8位宽(ASCII字符),而...
  • 一,中文转Unicode编码 chinese = "你好" re = chinese.encode("unicode_escape") print(re) 返回:b'\\u4f60\\u597d' 二,Unicode编码转中文 方法一 unicode = b'\\u4f60\\u597d' re = unicode.decode("unicode_...
  • unicode编码

    千次阅读 2017-01-20 14:26:40
    https://my.oschina.net/goldenshaw/blog/310331http://www.freebuf.com/articles/others-articles/25623.htmlhttp://www.ruanyifeng.com/blog/2014/12/unicode.htmlhttp://blog.csdn.net/stephen1315/article/detail
  • 越南unicode范围

    2019-09-27 20:28:06
    越南的Unicode范围分为好几段 https://unicode-table.com/cn/blocks/enclosed-cjk-letters-and-months/ 需要自己从拉丁语附属语言中挑选。比较麻烦 或者让策划给表,列出所有Unicode值。 转载于:...
  • Unicode转String

    千次阅读 2018-01-15 20:41:04
    最近调用关联系统的接口,对方返回的msg内容是Unicode编码的,于是学习了一下Unicode转String的方法 先上代码: public static String unicode2String(String unicode) { StringBuffer string = new ...
  • unicode 怎么转为 str?

    千次阅读 2018-03-06 15:39:11
    #下面 这是 unicode 格式unicode = u'xffzzzzzz'#把 unicode 转换成 str 字符串格式str = unicode.encode('raw_unicode_escape')print (type(str))#str#上次是转换字符串,这里转换 数字 还会带 非数字的字符如果该...
  • 从txt文件中读取json格式的文本,其中json对象中的某些属性是unicode码: \u0064\u0069\u0073\u0074\u0072\u0069\u0062\u0075\u0074\u0065\u0064\u005f\u0031\u0030\u0033 然后自己写了一个转码的方法: /** *...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 105,431
精华内容 42,172
关键字:

unicode