精华内容
下载资源
问答
  • 展开全部Java规定了字符的内码要UTF-16编码e69da5e887aa62616964757a686964616f31333431373862,一个字符是2个字节。外码字符所占字节取决于具体编码。...GBK编码1个英文字符是1个字节一个汉字是是2个字节。UT...

    展开全部

    Java规定了字符的内码要用UTF-16编码e69da5e887aa62616964757a686964616f31333431373862,一个字符是2个字节。外码字符所占字节取决于具体编码。字符和字节是不一样的。

    外码编码不同,字符和字节的换算不同,几种常见的编码换算如下:

    ASCII编码是单字节编码,只有英文字符,不能编码汉字。

    GBK编码1个英文字符是1个字节,一个汉字是是2个字节。

    UTF-8编码1个英文字符是1个字节,一个汉字是3个字节。

    Unicode编码1个英文字符是2个字节,一个汉字是2个字节。

    3ccc045c0c086d41d5238dc6ff81ace3.png

    扩展资料:

    汉字编码的困难点 汉字进入计算机,有许多困难,其原因主要有三点:

    ①数量庞大:一般认为,汉字总数已超过6万个(包括简化字)。虽有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多。

    ②字形复杂:有古体今体,繁体简体,正体异体;而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。

    ③存在大量一音多字和一字多音的现象:汉语音节416个,分声调后为1295个(根据《现代汉语词典》统计,轻声39个未计)。以1万个汉字计算,每个不带调的音节平均超过24个汉字,每个带调音节平均超过7.7个汉字。有的同音同调字多达66个。一字多音现象也很普遍。

    参考资料来源:百度百科-编码

    展开全文
  • 展开全部一个英文字符等于1个字节,一个中文(含繁体)字符等于3个字节;中文标点占3个字节,英32313133353236313431303231363533e59b9ee7ad9431333431376566文标点占1个字节。在多数的计算机系统中,一个字节是一个8...

    展开全部

    一个英文字符等于1个字节,一个中文(含繁体)字符等于3个字节;中文标点占3个字节,英32313133353236313431303231363533e59b9ee7ad9431333431376566文标点占1个字节。

    在多数的计算机系统中,一个字节是一个8位长的数据单位,大多数的计算机用一个字节表示一个字符、数字或其他字符。一个字节通常8位长,在计算机中作为1个数字单元,一般为8位二进制数。中文的标点和中文字符比较特殊,采用了3个字节的长度,但是英文的字符和标点只占用1个字节。

    bb47ebe35bf0453c250710634c4d10f3.png

    扩展资料:

    国际单位制(SI):

    1KB=1024B;1MB=1024KB=1024×1024B。

    1B(byte,字节)= 8 bit;

    1KB(Kilobyte,千字节)=1024B= 2^10 B;

    1MB(Megabyte,兆字节,百万字节,简称“兆”)=1024KB= 2^20 B;

    1GB(Gigabyte,吉字节,十亿字节,又称“千兆”)=1024MB= 2^30 B;

    1TB(Terabyte,万亿字节,太字节)=1024GB= 2^40 B;

    1PB(Petabyte,千万亿字节,拍字节)=1024TB= 2^50 B;

    1EB(Exabyte,百亿亿字节,艾字节)=1024PB= 2^60 B;

    1ZB(Zettabyte,十万亿亿字节,泽字节)= 1024EB= 2^70 B;

    1YB(Yottabyte,一亿亿亿字节,尧字节)= 1024ZB= 2^80 B;

    1BB(Brontobyte,一千亿亿亿字节)= 1024YB= 2^90 B;

    1NB(NonaByte,一百万亿亿亿字节) = 1024BB = 2^100 B;

    1DB(DoggaByte,十亿亿亿亿字节) = 1024 NB = 2^110 B;

    参考资料来源:百度百科-字节

    展开全文
  • 网上碰到过类似的问题:java中 中文字符和英文字符几个字节; 然后网上的答案各式各样,好多也是自己编写代码来验证 ,有的说UTF-8的字符集就是中文占3个字节,英文点1个字节.Unicode是都占两个字节.  看了很多...

    		String string = "中国";
    		System.out.println("default bytes length is : "+string.getBytes().length);

              网上碰到过类似的问题:java中 中文字符和英文字符占几个字节;  然后网上的答案各式各样,好多也是自己编写代码来验证,有的说用UTF-8的字符集就是中文占3个字节,英文点1个字节.用Unicode是都占两个字节.

             看了很多文章都有些晕了,其实java内部是用Unicode编码的,不管设定什么字符集, 在内存中永远都是一个字符占用两个字节,英文字符如此,中文字符也是如此; 那这时有人就会有疑问了, 自己用测试代码验证的时候,打印出来的结果明明是6.


            这样看起来好像,一个中文字符占了3个字节,其实这是这个方法本身的问题, 这个方法是将"中国"用IDE里面默认的字符集转为字节数组,IDE里面默认是UTF-8的字符集,那一个中文字符可以用3个字节表示,这也仅仅是在输入,输出的时候用UTF-8表示,在内存中,仍然是用Unicode表示的;

            这里会涉及到一java输入,输出,文件存储,网络传输中的一些编码的问题,java中的字符串在内存中是用Unicode表示,但传输过程中,都会用默认的字符集或指定的字符集方式转换为字节数组进行传输,输入,输出,打印也是如此.所以我们平时讨论的java中字符占几个字节的问题,有些是不准的,总的来说,在java内部是用Unicode,一个字符占两个字节,在传输过程中,就有可能一个字符占1到3个字节都不等.



    
    


    展开全文
  • 如果是utf-8编码,那么一个中文字符占用三个字节一个英文字符占用一个字节。如果是gbk编码,那么一个中文字符占用两个字节一个英文字符占用一个字节。如果是utf-8编码,那么一个中文包含繁体字等于三个字节...

    如果是utf-8编码,那么一个中文字符占用三个字节,一个英文字符占用一个字节。如果是gbk编码,那么一个中文字符占用两个字节,一个英文字符占用一个字节。

    如果是utf-8编码,那么一个中文包含繁体字等于三个字节,一个英文字符等于一个字节。

    如果是gbk编码,那么一个中文包含繁体字等于两个字节,一个英文字符等于一个字节。

    (推荐学习:Python入门教程)

    我们可以用如下方法来判断:

    中文和符号:print(type('中文'.encode('utf-8')))  #输出为bytes类型

    执行结果:

    print(type('中文'.encode('gbk')))

    执行结果:

    print(len('中文'.encode('utf-8')))  #输出几个字节

    执行结果:

    6

    print(len('中文'.encode('gbk')))

    执行结果:

    4

    print(len(',。'.encode('gbk')))

    执行结果:

    4

    英文字母和符号:print(type('ab'.encode('utf-8')))

    执行结果:

    print(len('ab'.encode('utf-8')))

    执行结果:

    2

    print(len(',.'.encode('gbk')))

    执行结果:

    2

    展开全文
  • 如果是utf-8编码,那么一个中文字符占用三个字节一个英文字符占用一个字节。如果是gbk编码,那么一个中文字符占用两个字节一个英文字符占用一个字节。如果是utf-8编码,那么一个中文包含繁体字等于三个字节...
  • 英文字符 1字节 中文标点 2字节 英文标点 1字节   中国字比较复杂,1字节=8位,8位从0000 0000到1111 1111只能表示256个字符,2个字节是2*8=16位,从0000 0000 0000 0000到1111 1111 1111 1111可以表示...
  • 1、美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0; 2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注音符,这个怎么...
  • 以解决国际上字符种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在...
  • 转自:...它对英文使用8位(即一个字节) ,中文使用24位(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集额的浏...
  •  Mysql 5.0后,英文字符固定都是一个字节,汉字字符根据编码方式占不同字节,Utf-8占3个字节,gbk占了2个字节。  第,当编码方式为utf-8时,varchar存到21845就存不下了.也就是最大长度是21844.根据上面信息可以...
  • 它对英文使用8位(即一个字节) ,中文使用24位(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集额的浏览器上显示。如果是UTF8编码,则在...
  • 用一个字节表示128个字符,其中不可显示字符33个.33个字符中有一些是已经废除的控制字符。另外就是95个可显示字符。 128个字符显然不够,只能支持26个英文字母,阿拉伯数字和标点符号。 具体...
  • 中文字符和英文字符所占的字节长度是不一样,一个是2个字节一个是1个字节,这给我们英文的web框架开发中文app带来了麻烦。比如Django自带过滤器truncatewords并不支持截取中文,另外模型中CharField中的max_...
  • 对于以utf8编码时,msyql 和 oracle一个中文字符占3个字节,以gbk编码时一个中文都只占2个字节。 mysql的varchar与oracle 11g的varchar2是不一样的,前者是用字符做单位的,后者是字节做单位的。我们在设置字段...
  • 原题记不太清楚了。大概内容:随意输入段包含中文和英文的文字,现...看到这题我第想法就是流来解决,因为在Java中有字节流和字符流,如果我用字符流来读取应该就不会出现问题了。源码如下: Scanner cin=new
  • 判断字符串里有几个汉字 hdu 2030

    千次阅读 2018-12-21 00:53:46
    但是现在知道了一个比较简单的思路…那就是 首先,汉字的ascll码存储时占2个字节,而英文字符占1个, 汉字的ascll码是由两个负数组成的 也就是说,你只要把循环变量每次加2去遍历数组,找到某个数组元素的ascll值为...
  • 敲两下空一个汉字(一个汉字为占两个字节)。 2.如果输入法设为全角状态, 敲一下空格,占两个字节,空两格,占一个汉字。 3.半角状态: 全角状态: ,如果为搜狗输入法,一般是shift+空格切换。来自百度知道:...
  • 但是中文少说有千汉字,所以一个字节表示不了,所以就个字节,编码方案有GB2312,GBK,Big5等。后来又出现统一字符集,把各个常用语言都容纳进来,肯定1个字节也放不下。  Java使用Unicode,char这个...
  • ASCII编码:用来表示英文,它使用1个字节表示,其中第位规定为0,其他7位存储数据,一共可以表示128个字符。 拓展ASCII编码:用于表示更多的欧洲文字,8个位存储数据,一共可以表示256个字符 GBK/GB2312/GB18030...
  • 用一个字节来表示具体的字符,但它只用后7位来表示字符(2^7=128),最前面的位统一规定为0。 2.扩展的ASCII码 原本的ASCII码对于英文语言的国家是够用了,但是欧洲国家的一些语言会有拼音,这时7个字节
  • 中文字符和英文字符所占的字节长度是不一样,一个是2个字节一个是1个字节,这给我们英文的web框架开发中文app带来了麻烦。比如Django自带过滤器truncatewords并不支持截取中文,另外模型中CharField中的max_...
  • 字符代表的是一个字,如:一个英文’A’或者中文’王’ 字符字符集表示字符的集合,表示这个集合可以包含的字符的范围。 如:ascii 无法保存汉字,因为它范围不够。 字符编码 字符集的计算机表示形式,表示...
  • Android中条最长短信所占的字节

    千次阅读 2015-05-25 20:30:07
    一开始按照老想法,GB码中文2个字节英文一个 字节来算,按70个汉字的限制可以发140个字节,但是发送的时候总是出错。后来在网上查了下短信的编码才知道,现在发送短信通常使用PDU模式,摘抄一 段:  在PDU Mode...
  • char 只能处理 ASCII 编码中的英文字符,是因为 char 类型太短,只有一个字节,容纳不下万个汉字,要想处理中文字符,必须得使用更长的数据类型。 一个字符在存储之前会转换成它在字符集中的编号,而这样的编号是...
  • 中文字符和英文字符所占的字节长度是不一样,一个是2个字节一个是1个字节,这给我们英文的web框架开发中文app带来了麻烦。比如Django自带过滤器truncatewords并不支持截取中文,另外模型中CharField中的max_...
  • 中文字符和英文字符所占的字节长度是不一样,一个是2个字节一个是1个字节,这给我们英文的web框架开发中文app带来了麻烦。比如Django自带过滤器truncatewords并不支持截取中文,另外模型中CharField中的max_...
  • ASCII码:美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0; 扩展的ASCII码:后来欧洲人发现128位不够,比如我高贵的法国人字母上面的还有注音符...
  • 背景 现在base64编码的越来越多了,特此总结下。 作用 ...主要为了减少网络请求,适合大规模在网站上运用的小图片,或者做包做库只用纯...node默认汉字是utf-8是3个字节英文之类是一个字节,从buffer里取出...

空空如也

空空如也

1 2 3 4 5 ... 10
收藏数 182
精华内容 72
关键字:

一个英文字符用几个字节