精华内容
下载资源
问答
  • 关于字符编码

    千次阅读 2015-10-09 14:31:29
    美国人首先对其英文字符进行了编码,也就是早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0; 后来欧洲人发现尼玛你这128位哪够用,...但是即使位数少,不同国家地区用不同的字符编码,虽然0–1
    1. 美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0;
    2. 后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注音符,这个怎么区分,得,把高1位编进来吧,这样欧洲普遍使用一个全字节进行编码,最多可表示256位。欧美人就是喜欢直来直去,字符少,编码用得位数少;
    3. 但是即使位数少,不同国家地区用不同的字符编码,虽然0–127表示的符号是一样的,但是128–255这一段的解释完全乱套了,即使2进制完全一样,表示的字符完全不一样,比如135在法语,希伯来语,俄语编码中完全是不同的符号;
    4. 更麻烦的是,尼玛这电脑高科技传到中国后,中国人发现我们有10万多个汉字,你们欧美这256字塞牙缝都不够。于是就发明了GB2312这些汉字编码,典型的用2个字节来表示绝大部分的常用汉字,最多可以表示65536个汉字字符,这样就不难理解有些汉字你在新华字典里查得到,但是电脑上如果不处理一下你是显示不出来的了吧。
    5. 这下各用各的字符集编码,这世界咋统一?俄国人发封email给中国人,两边字符集编码不同,尼玛显示都是乱码啊。为了统一,于是就发明了unicode,将世界上所有的符号都纳入其中,每一个符号都给予一个独一无二的编码,现在unicode可以容纳100多万个符号,每个符号的编码都不一样,这下可统一了,所有语言都可以互通,一个网页页面里可以同时显示各国文字。
    6. 然而,unicode虽然统一了全世界字符的二进制编码,但没有规定如何存储啊,亲。x86和amd体系结构的电脑小端序和大端序都分不清,别提计算机如何识别到底是unicode还是acsii了。如果Unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,文本文件的大小会因此大出二三倍,这对于存储来说是极大的浪费。这样导致一个后果:出现了Unicode的多种存储方式。
    7. 互联网的兴起,网页上要显示各种字符,必须统一啊,亲。utf-8就是Unicode最重要的实现方式之一。另外还有utf-16、utf-32等。UTF-8不是固定字长编码的,而是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。这是种比较巧妙的设计,如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。
    8. 注意unicode的字符编码和utf-8的存储编码表示是不同的,例如”严”字的Unicode码是4E25,UTF-8编码是E4B8A5,这个7里面解释了的,UTF-8编码不仅考虑了编码,还考虑了存储,E4B8A5是在存储识别编码的基础上塞进了4E25。
    9. UTF-8 使用一至四个字节为每个字符编码。128 个 ASCII 字符(Unicode 范围由 U+0000 至 U+007F)只需一个字节,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及马尔代夫语(Unicode 范围由 U+0080 至 U+07FF)需要二个字节,其他基本多文种平面(BMP)中的字符(CJK属于此类-Qieqie注)使用三个字节,其他 Unicode 辅助平面的字符使用四字节编码。

    关于utf-8, utf-16, utf-32的比较:
    http://www.cnblogs.com/wpcockroach/p/3907324.html
    http://blog.sina.com.cn/s/blog_4aa887440101arks.html

    展开全文
  • 字符编码通俗讲解

    2016-08-05 10:50:03
    先从字符编码讲起。 1、美国人首先对其英文字符进行了编码,也就是ascii码,用一个字节低7位来表示英文128个字符,高1位统一为0; 2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵法国人字母上面...
    先从字符编码讲起。
    1、美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0;
    2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注音符,这个怎么区分,得,把高1位编进来吧,这样欧洲普遍使用一个全字节进行编码,最多可表示256位。欧美人就是喜欢直来直去,字符少,编码用得位数少; 
    3、但是即使位数少,不同国家地区用不同的字符编码,虽然0--127表示的符号是一样的,但是128--255这一段的解释完全乱套了,即使2进制完全一样,表示的字符完全不一样,比如135在法语,希伯来语,俄语编码中完全是不同的符号;
    4、更麻烦的是,尼玛这电脑高科技传到中国后,中国人发现我们有10万多个汉字,你们欧美这256字塞牙缝都不够。于是就发明了GB2312这些汉字编码,典型的用2个字节来表示绝大部分的常用汉字,最多可以表示65536个汉字字符,这样就不难理解有些汉字你在新华字典里查得到,但是电脑上如果不处理一下你是显示不出来的了吧。 
    5、这下各用各的字符集编码,这世界咋统一?俄国人发封email给中国人,两边字符集编码不同,尼玛显示都是乱码啊。为了统一,于是就发明了unicode,将世界上所有的符号都纳入其中,每一个符号都给予一个独一无二的编码,现在unicode可以容纳100多万个符号,每个符号的编码都不一样,这下可统一了,所有语言都可以互通,一个网页页面里可以同时显示各国文字。
    6、然而,unicode虽然统一了全世界字符的二进制编码,但没有规定如何存储啊,亲。x86和amd体系结构的电脑小端序和大端序都分不清,别提计算机如何识别到底是unicode还是acsii了。如果Unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,文本文件的大小会因此大出二三倍,这对于存储来说是极大的浪费。这样导致一个后果:出现了Unicode的多种存储方式。 
    7、互联网的兴起,网页上要显示各种字符,必须统一啊,亲。utf-8就是Unicode最重要的实现方式之一。另外还有utf-16、utf-32等。UTF-8不是固定字长编码的,而是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。这是种比较巧妙的设计,如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。 
    8、注意unicode的字符编码和utf-8的存储编码表示是不同的,例如"严"字的Unicode码是4E25,UTF-8编码是E4B8A5,这个7里面解释了的,UTF-8编码不仅考虑了编码,还考虑了存储,E4B8A5是在存储识别编码的基础上塞进了4E25。 
    9、UTF-8 使用一至四个字节为每个字符编码。128 个 ASCII 字符(Unicode 范围由 U+0000 至 U+007F)只需一个字节,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及马尔代夫语(Unicode 范围由 U+0080 至 U+07FF)需要二个字节,其他基本多文种平面(BMP)中的字符(CJK属于此类-Qieqie注)使用三个字节,其他 Unicode 辅助平面的字符使用四字节编码。  
    10、最后,要回答你的问题,常规来看,中文汉字在utf-8中到底占几个字节,一般是3个字节,最常见的编码方式是1110xxxx 10xxxxxx 10xxxxxx。
    展开全文
  • 先从字符编码讲起。 1、美国人首先对其英文字符进行了编码,也就是ascii码,用一个字节低7位来表示英文128个字符,高1位统一为0; 2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵法国人字母...
    这是个好问题,可以当作一个笔试题。先从字符编码讲起。 

    1、美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0;

    2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注音符,这个怎么区分,得,把高1位编进来吧,这样欧洲普遍使用一个全字节进行编码,最多可表示256位。欧美人就是喜欢直来直去,字符少,编码用得位数少;

    3、但是即使位数少,不同国家地区用不同的字符编码,虽然0--127表示的符号是一样的,但是128--255这一段的解释完全乱套了,即使2进制完全一样,表示的字符完全不一样,比如135在法语,希伯来语,俄语编码中完全是不同的符号;

    4、更麻烦的是,尼玛这电脑高科技传到中国后,中国人发现我们有10万多个汉字,你们欧美这256字塞牙缝都不够。于是就发明了GB2312这些汉字编码,典型的用2个字节来表示绝大部分的常用汉字,最多可以表示65536个汉字字符,这样就不难理解有些汉字你在新华字典里查得到,但是电脑上如果不处理一下你是显示不出来的了吧。

    5、这下各用各的字符集编码,这世界咋统一?俄国人发封email给中国人,两边字符集编码不同,尼玛显示都是乱码啊。为了统一,于是就发明了unicode,将世界上所有的符号都纳入其中,每一个符号都给予一个独一无二的编码,现在unicode可以容纳100多万个符号,每个符号的编码都不一样,这下可统一了,所有语言都可以互通,一个网页页面里可以同时显示各国文字。

    6、然而,unicode虽然统一了全世界字符的二进制编码,但没有规定如何存储啊,亲。x86和amd体系结构的电脑小端序和大端序都分不清,别提计算机如何识别到底是unicode还是acsii了。如果Unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,文本文件的大小会因此大出二三倍,这对于存储来说是极大的浪费。这样导致一个后果:出现了Unicode的多种存储方式。

    7、互联网的兴起,网页上要显示各种字符,必须统一啊,亲。utf-8就是Unicode最重要的实现方式之一。另外还有utf-16、utf-32等。UTF-8不是固定字长编码的,而是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。这是种比较巧妙的设计,如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。

    8、注意unicode的字符编码和utf-8的存储编码表示是不同的,例如"严"字的Unicode码是4E25,UTF-8编码是E4B8A5,这个7里面解释了的,UTF-8编码不仅考虑了编码,还考虑了存储,E4B8A5是在存储识别编码的基础上塞进了4E25。

    9、UTF-8 使用一至四个字节为每个字符编码。128 个 ASCII 字符(Unicode 范围由 U+0000 至 U+007F)只需一个字节,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及马尔代夫语(Unicode 范围由 U+0080 至 U+07FF)需要二个字节,其他基本多文种平面(BMP)中的字符(CJK属于此类-Qieqie注)使用三个字节,其他 Unicode 辅助平面的字符使用四字节编码。

    10、最后,要回答你的问题,常规来看,中文汉字在utf-8中到底占几个字节,一般是3个字节,最常见的编码方式是1110xxxx 10xxxxxx 10xxxxxx。


    from:
    https://zhidao.baidu.com/question/1047887004693001899.html
    展开全文
  • 先从字符编码讲起。 1、美国人首先对其英文字符进行了编码,也就是ascii码,用一个字节低7位来表示英文128个字符,高1位统一为0; 2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵法国人字母上面...
    这是个好问题,可以当作一个笔试题。先从字符编码讲起。 1、美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0; 2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注音符,这个怎么区分,得,把高1位编进来吧,这样欧洲普遍使用一个全字节进行编码,最多可表示256位。欧美人就是喜欢直来直去,字符少,编码用得位数少; 3、但是即使位数少,不同国家地区用不同的字符编码,虽然0--127表示的符号是一样的,但是128--255这一段的解释完全乱套了,即使2进制完全一样,表示的字符完全不一样,比如135在法语,希伯来语,俄语编码中完全是不同的符号; 4、更麻烦的是,尼玛这电脑高科技传到中国后,中国人发现我们有10万多个汉字,你们欧美这256字塞牙缝都不够。于是就发明了GB2312这些汉字编码,典型的用2个字节来表示绝大部分的常用汉字,最多可以表示65536个汉字字符,这样就不难理解有些汉字你在新华字典里查得到,但是电脑上如果不处理一下你是显示不出来的了吧。 5、这下各用各的字符集编码,这世界咋统一?俄国人发封email给中国人,两边字符集编码不同,尼玛显示都是乱码啊。为了统一,于是就发明了unicode,将世界上所有的符号都纳入其中,每一个符号都给予一个独一无二的编码,现在unicode可以容纳100多万个符号,每个符号的编码都不一样,这下可统一了,所有语言都可以互通,一个网页页面里可以同时显示各国文字。 6、然而,unicode虽然统一了全世界字符的二进制编码,但没有规定如何存储啊,亲。x86和amd体系结构的电脑小端序和大端序都分不清,别提计算机如何识别到底是unicode还是acsii了。如果Unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,文本文件的大小会因此大出二三倍,这对于存储来说是极大的浪费。这样导致一个后果:出现了Unicode的多种存储方式。 7、互联网的兴起,网页上要显示各种字符,必须统一啊,亲。utf-8就是Unicode最重要的实现方式之一。另外还有utf-16utf-32等。UTF-8不是固定字长编码的,而是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。这是种比较巧妙的设计,如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。 8、注意unicode的字符编码和utf-8的存储编码表示是不同的,例如"严"字的Unicode码是4E25,UTF-8编码是E4B8A5,这个7里面解释了的,UTF-8编码不仅考虑了编码,还考虑了存储,E4B8A5是在存储识别编码的基础上塞进了4E25。 9、UTF-8 使用一至四个字节为每个字符编码。128 个 ASCII 字符(Unicode 范围由 U+0000 至 U+007F)只需一个字节,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语希伯来文阿拉伯文、叙利亚文及马尔代夫语(Unicode 范围由 U+0080 至 U+07FF)需要二个字节,其他基本多文种平面(BMP)中的字符(CJK属于此类-Qieqie注)使用三个字节,其他 Unicode 辅助平面的字符使用四字节编码。  10、最后,要回答你的问题,常规来看,中文汉字在utf-8中到底占几个字节,一般是3个字节,最常见的编码方式是1110xxxx 10xxxxxx 10xxxxxx。
    原文查看:点击打开链接
    展开全文
  • QR码最普遍的用例是将URL编码为图像。 为此,HR代码相对于QR代码具有以下优点和缺点: 好处 用户可以在不费力地扫描数据之前先了解一下数据。 由于用户还可以看到打印的URL,因此更能抵抗网络钓鱼攻击。 通过在...
  • ASCLL码是一种7位二进制编码,能表示27=128种国际上最通用的西文字符,是目前计算机中,特别是微型计算机中,使用最普遍的字符编码集。 字符分为:大小写字母、数字0~9(整数)、其他符号、控制符 需要记住的一些值...
  •  美国人首先对其英文字符进行了编码,也就是ascii码,用一个字节低7位来表示英文128个字符,高1位统一为0。后来欧洲人发现尼玛你这128位哪够用,比如我高贵法国人字母上面还有注音符。这个怎么区分?...
  • 信息存储在计算机中是转换成二进制来存储,二进制发明据说是来源于中国阴阳八卦。后德国数理哲学大师莱布尼茨是...他曾断言言:“二进制乃是具有世界普遍完美逻辑、先进语言” 计算机存储单位一般...
  • 计算机存储的和认识的东西就是0和1,我们存储的任何东西最后都会转为0和1的组合计算机才能处理,更贴切的说是我们看到的英文、中文等都是0和1组合的二进制经过一定规则转换为我们认识的字符,这个规则就是字符集。...
  • 编码由来编码的成长见证了计算机由个体到集体 由国家到世界一、最初的编码计算机最初的编码的概念,最初计算机大家都拿着0101二、以下是字节的由来”所谓字节,原意就是用来表示一个完整的字符的。最初的计算机性能...
  • 编码比较

    2019-08-23 14:53:56
    美国人首先对其英文字符进行了编码,也就是早的ascii码,用一个字节的低7位来表示英文的128个...但是即使位数少,不同国家地区用不同的字符编码,虽然0–127表示的符号是一样的,但是128–255这一段的解释完全乱套...
  • 关于JAVA中的编码解决

    2010-01-23 23:46:54
    Java语言能够这么普遍的应用,与其国际化的能力是分不开的,国际化的编码是Java国际化中重要的一个组成部分,Java的国际化编码能力与其使用Unicode编码是直接相关的。在Java中,任何字符类型的数据在Java程序中均...
  • 编码区别

    2019-10-07 08:41:11
    1、美国人首先对其英文字符进行了编码,也就是ascii码,用一个字节低7位来表示英文128个字符,高1位统一为0; 2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵法国人字母上面还有注音符,这个怎么...
  • C核心技术手册(六)

    2010-12-01 00:17:00
    C语言最初是在英文环境下发展而成,所以最初使用的是7位的ASCII编码字符集,其后,8位的字节变成最普遍的字符编码单位,但软件的国际化因素要求不能仅使用一个字节的字符编码方式,大量的不同与拉丁字母的多字节...
  • 汉字编码相关知识收集

    千次阅读 2006-09-21 14:37:00
    字符编码:字符编码就是以二进制的数字来对应字符集的字符,目前用得最普遍的字符集是ANSI,对应ANSI字符集的二进制编码就称为ANSI码,DOS和Windows系统都使用了ANSI码,但在系统中使用的字符编码要经过二进制转换,...
  • 众所周知,在跨程序的工程中,统一编码是至关重要的,而目前最普遍的则是统一采用“utf8”编码方案。 但是在采用utf8方案的时候,请注意编辑器的自作聪明。 比如editplus。 原因就在于某些编辑器会往utf8文件...
  • 关于编码知识

    2018-05-19 20:52:40
    Unicode背后的想法非常简单,然而却被普遍的误解了。Unicode就像一个电话本,标记着字符和数字之间的映射关系。只是一个用来映射字符和数字的标准。它对支持字符的数量没有限制,也不要求字符必须占两个、三个或者...
  • python3- 编码格式

    千次阅读 2018-07-26 19:28:15
    Unicode:国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。每个字符占用2个字节。 UTF-8:是流行的一种对 Unicode 进行传播和存储的编码方式。可变长度,比如英文字符和数字占1个字节,汉字占3个字节...
  • 1、计算机模拟是属于(C)A科学计算B信息处理D现代教育2、将微型计算机分为大型机、超级机、小型机、微型机和(B)A异型机B工作站C特大型机D特殊机3、...应用最普遍的字符编码是(B)A BCD码B ASCII码C汉字编码D补码6...
  • 众所周知,在跨程序的工程中,统一编码是至关重要的,而目前最普遍的则是统一采用“utf8”编码方案。 但是在采用utf8方案的时候,请注意编辑器的自作聪明。 比如editplus。 原因就在于某些编辑器会往utf8文件...
  • 最普遍的网络数据传输编码方式。像密钥一般都是采用base64编码方式。 2.hash算法:一种加密算法,可以将任意长度的字符转换成固定长度的字符。方便存储,校验,防止信息篡改,在非对称加密场合,一般与hashi算法...
  • UTF-8编码

    2016-11-10 15:53:56
    (转自百度)先从字符编码讲起。 1、美国人首先对其英文字符进行了编码,也就是ascii码,用一个字节低7位来表示英文128个字符,高1位统一为0; 2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵...
  • **利用哈夫曼树求解哈夫曼编码:此处的哈夫曼树为了便于遍历,采用顺序存储而不用普遍的链式存储,对于编码重要的是要保证是前缀编码,即某一个字符的编码不能为另一个字符编码的前缀,否则会使译码出现歧义。...
  • Java编码问题

    2007-10-06 22:33:00
    Java语言能够这么普遍的应用,与其国际化的能力是分不开的,国际化的编码是Java国际化中重要的一个组成部分,Java的国际化编码能力与其使用Unicode编码是直接相关的。在Java中,任何字符类型的数据在Java程序中均...
  • java编码问题深入总结

    2014-01-07 14:10:00
    Java语言能够这么普遍的应用,与其国际化的能力是 分不开的,国际化的编码是Java国际化中重要的一个组成部分,Java的国际化编码能力与其使用Unicode编码是直接相关的。在Java中,任何 字符类型的数据在Java程序中...

空空如也

空空如也

1 2 3 4 5 6
收藏数 106
精华内容 42
关键字:

最普遍的字符编码