精华内容
下载资源
问答
  • 如果是utf-8编码,那么一个中文字符占用三个字节,一个英文字符占用一个字节。如果是gbk编码,那么一个中文字符占用两个字节,一个英文字符占用一个字节。如果是utf-8编码,那么一个中文包含繁体字等于三个字节,一...

    如果是utf-8编码,那么一个中文字符占用三个字节,一个英文字符占用一个字节。如果是gbk编码,那么一个中文字符占用两个字节,一个英文字符占用一个字节。

    如果是utf-8编码,那么一个中文包含繁体字等于三个字节,一个英文字符等于一个字节。

    如果是gbk编码,那么一个中文包含繁体字等于两个字节,一个英文字符等于一个字节。

    我们可以用如下方法来判断:

    中文和符号:print(type('中文'.encode('utf-8'))) #输出为bytes类型

    执行结果:

    print(type('中文'.encode('gbk')))

    执行结果:

    print(len('中文'.encode('utf-8'))) #输出几个字节

    执行结果:

    6

    print(len('中文'.encode('gbk')))

    执行结果:

    4

    print(len(',。'.encode('gbk')))

    执行结果:

    4

    英文字母和符号:print(type('ab'.encode('utf-8')))

    执行结果:

    print(len('ab'.encode('utf-8')))

    执行结果:

    2

    print(len(',.'.encode('gbk')))

    执行结果:

    2

    展开全文
  • + range(0x2B740, 0x2B820) + range(0xF900, 0xFB00) + range(0x2F800, 0x2FA20) + range(0x9FA6, 0x9FCC)) 但请注意,此集包含超过75000字符,因此它可能不是最紧凑或最有效的数据结构. 此外,如果您坚持在文字字符...

    从Unicode标准(v6.0,第12.1节),

    Han ideographic characters are found in seven main blocks of the Unicode Standard, as shown in Table 12-2

    Table 12-2. Blocks Containing Han Ideographs

    Block | Range | Comment

    ----------------------------------------+-------------+-----------------------------------------------------

    CJK Unified Ideographs | 4E00–9FFF | Common

    CJK Unified Ideographs Extension A | 3400–4DBF | Rare

    CJK Unified Ideographs Extension B | 20000–2A6DF | Rare, historic

    CJK Unified Ideographs Extension C | 2A700–2B73F | Rare, historic

    CJK Unified Ideographs Extension D | 2B740–2B81F | Uncommon, some in current use

    CJK Compatibility Ideographs | F900–FAFF | Duplicates, unifiable variants, corporate characters

    CJK Compatibility Ideographs Supplement | 2F800–2FA1F | Unifiable variants

    除了这些块之外还有一些额外的东西:

    Table 12-3. Small Extensions to the URO

    Range | Version | Comment

    ----------+---------+-------------------------------------------------

    9FA6–9FB3 | 4.1 | Interoperability with HKSCS standard

    9FB4–9FBB | 4.1 | Interoperability with GB 18030 standard

    9FBC–9FC2 | 5.1 | Interoperability with commercial implementations

    9FC3 | 5.1 | Correction of mistaken unification

    9FC4–9FC6 | 5.2 | Interoperability with ARIB standard

    9FC7–9FCB | 5.2 | Interoperability with HKSCS standard

    要使用set操作构造一组这些的序数值,您可以这样做:

    chinese = set(range(0x4E00, 0xA000) +

    range(0x3400, 0x4DC0) +

    range(0x20000, 0x2A6E0) +

    range(0x2A700, 0x2B740) +

    range(0x2B740, 0x2B820) +

    range(0xF900, 0xFB00) +

    range(0x2F800, 0x2FA20) +

    range(0x9FA6, 0x9FCC))

    但请注意,此集包含超过75000个字符,因此它可能不是最紧凑或最有效的数据结构.

    此外,如果您坚持在文字字符上使用ord(),则需要使用32位unicode文字形式:

    >>> ord(u'\U00002F800')

    194560

    展开全文
  • utf-8 中的一个汉字占几个字节

    千次阅读 2018-12-05 14:32:04
    utf-8 中的一个汉字占几个字节 占 2 个字节的:〇 占 3 个字节的:基本等同于 GBK,含 21000 多个汉字 占 4 个字节的:中日韩超大字符集里面的汉字,有 5 万多个 1 个 utf8 数字占 1 个字节 1 个 utf8 英文字母占 1 ...

    utf-8 中的一个汉字占几个字节

    占 2 个字节的:〇

    占 3 个字节的:基本等同于 GBK,含 21000 多个汉字

    占 4 个字节的:中日韩超大字符集里面的汉字,有 5 万多个

    1 个 utf8 数字占 1 个字节

    1 个 utf8 英文字母占 1 个字节

    在查找 UTF-8 编码资料时发现,很多的帖子说的 UTF-8 编码里,一个汉字占用3个字节,

    有的还做了个证明,大概是这样的,创建一个没有 BOM 的 UTF-8 编码的文本文件,

    里面保存了几个汉字,然后查看文件的大小。我觉得这样的证明没有一点说服力,

    因为 UTF-8 是变长的,1-6 个字节,少量的汉字检测不能说明所有的汉字都是的。

    后来我又查看了字符映射表-汉语,找到了正确的答案:

    少数是汉字每个占用 3 个字节,多数占用 4 个字节。

    占用 3 个字节的范围

    U+2E80 - U+2EF3 : 0xE2 0xBA 0x80 - 0xE2 0xBB 0xB3 共 115 个

    U+2F00 - U+2FD5 : 0xE2 0xBC 0x80 - 0xE2 0xBF 0x95 共 213 个

    U+3005 - U+3029 : 0xE3 0x80 0x85 - 0xE3 0x80 0xA9 共 36 个

    U+3038 - U+4DB5 : 0xE3 0x80 0xB8 - 0xE4 0xB6 0xB5 共 7549 个

    U+4E00 - U+FA6A : 0xE4 0xB8 0x80 - 0xEF 0xA9 0xAA 共 44138 个

    U+FA70 - U+FAD9 : 0xEF 0xA9 0xB0 - 0xEF 0xAB 0x99 共 105 个

    合计: 52156 个

    占用 4 个字节的范围

    U+20000 - U+2FA1D : 0xF0 0xA0 0x80 0x80 - 0xF0 0xAF 0xA8 0x9D 共 64029 个

    合计: 64029 个

    展开全文
  • 编码是UTF-8,每个汉字占3个字节,而字母又只有1个字节。那么用strlen取字符串的长度的话,如果是10个汉字,就是30个了,而按照30个限制的话,字母又可以输入30个了。1.一个汉字占多少长度与编码有关:UTF8:一个...

    编码是UTF-8,每个汉字占3个字节,而字母又只有1个字节。

    那么用strlen取字符串的长度的话,如果是10个汉字,就是30个了,而按照30个限制的话,字母又可以输入30个了。

    1.一个汉字占多少长度与编码有关:

    UTF-8:一个汉字=3个字节

    GBK:一个汉字=2个字节

    2.varchar(n)表示n个字符,无论汉字和英文,Mysql都能存入n个字符,仅是实际字节长度有所区别

    3.MySQL检查长度,可用SQL语言:

    select LENGTH(fieldname) from tablename 来查看

    =========华丽丽分隔线,转载如下:==========

    涉及到了字符长度问题,搜索了一下,几乎千篇一律, 所以决定自己测试一下,彻底弄清楚字符长度问题.

    编码一律为 UTF-8 编码 :

    先来测试一下 php 把一个汉字认作几个字节:

    header(‘Content-Type:text/html;charset=UTF-8′);

    $str=’我’;

    echo strlen($str);

    ?>

    输出 3 , 证明在 UTF-8编码下, 一个汉字被认作3个字节长度.

    而如果我们用 php 多字节扩展函数 mb_strlen($str,’utf8′); 这个时候输出 1

    展开全文
  • UTF-8编码占几个字节?

    万次阅读 多人点赞 2016-10-26 18:27:45
    2个字节的:带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要...一个utf8数字1个字节 一个utf8英文字母1个字节 少数是汉字每个占用3个字节,多数占用...
  • 一个utf8汉字占3个字节 一个utf8数字占1个字节 一个utf8英文字母占1个字节
  • UTF-8中文一个汉字占几个字节

    千次阅读 2019-10-12 11:28:05
    英文字母和中文汉字在不同字符集编码下的字节数 英文字母: 字节数 : 1;编码:GB2312 字节数 : 1;编码:GBK 字节数 : 1;编码:GB18030 字节数 : 1;编码:ISO-8859-1 字节数 : 1;编码:UTF-8 字节数 : 4;编码...
  • 1、oracle10g数据库表字段为...UTF-8字符集,一个汉字占个字节,gbk字符集,一个汉字占个字节,比如varchar(10)类型的字段,UTF-8的汉字,只能存3个,gbk字符集的汉字却能存5个。所以在程序中根据表字段varcha...
  • utf-8占几个字节

    万次阅读 2014-04-22 20:09:55
    一个utf8数字1个字节 一个utf8英文字母1个字节   在查找 UTF-8 编码资料时发现,很多的帖子说的 UTF-8 编码里,一个汉字占用3个字节,有的还做了个证明,大概是这样的,创建一个没有BOM的UTF-8编码...
  • UTF-8字符集一个汉字占几个字节

    千次阅读 2014-04-11 21:53:41
    按着以往的认知:一个汉字占个字节,存4个汉字,共占用8+1个’\0’的位置,总共9个字节,结构最后赋值时,确发现数组后连的数据不对了,经查实才发现是数组越界,上网查资料后才发现utf8的中文并不是占两个字节。...
  • 1、美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0; 2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注音符,这个怎么...
  • 我们平常说,java中char占2个字节,可又说汉字在不通的编码格式中所占的... 那么问题来了,在java程序运行的时候,究竟汉字占几个字节呢?--------------------------在讨论这个问题之前,我们需要先区分unicode和...
  • 一个汉字占几个字节

    2020-12-07 20:02:57
    一个汉字占用几个字节?我们第一反应可能是2个。其实并非如此,对于不同的编码方式,汉字的占用字节数是不一样的。 以下例举常用编码方式所占字节数: ASCII码:一个英文字符占1个字节,一个汉字占2个字节。 ...
  • 我们平常说,java中char占2个字节,可又说汉字在不通的编码格式中所占的位数是不同的,比如... 那么问题来了,在java程序运行的时候,究竟汉字占几个字节呢? -------------------------- 文章抄袭自:http://www...
  • 我们平常说,java中char占2个字节,可又说汉字在不通的编码格式中所占的... 那么问题来了,在java程序运行的时候,究竟汉字占几个字节呢?--------------------------在讨论这个问题之前,我们需要先区分unicode和...
  • 我们平常说,java中char占2个字节,可又说汉字在不通的编码格式中所占的... 那么问题来了,在java程序运行的时候,究竟汉字占几个字节呢?--------------------------在讨论这个问题之前,我们需要先区分unicode和...
  • 在查找 UTF-8 编码资料时发现,很多的帖子说的 UTF-8 编码里,一个汉字占用3个字节,有的还做了个证明方法1:创建一个没有BOM的UTF-8编码的文本文件,里面保存了几个汉字,然后查看文件的大小。我觉得这样的证明没有...
  • 推荐:《PHP教程》php 字节 和字符php在UTF-8编码下,一个汉字占3个字节,gbk编码下只占2个字节。zìfú(字符)字符是可使用多种不同字符方案或代码页来表示的抽象实体。例如,Unicode UTF-16...
  • 英文字母和中文汉字在不同字符集编码下的字节数英文字母:·字节数 : 1;...编码:UTF-8字节数 : 4;编码:UTF-16字节数 : 2;编码:UTF-16BE字节数 : 2;编码:UTF-16LE中文汉字字节数 : 2;编码:GB2312字节数 : 2;编...
  • https://blog.csdn.net/u010737354/article/details/52456570
  • 一个汉字占几个字节的问题

    千次阅读 2014-08-20 09:45:10
    一个汉字占几个字节的问题 大家都说一个汉字占两个字节(byte) 但是为什么运行程序会得到如下结果 String name="宋"; int a=name.getBytes("gb2312").length; System.out.println(a);//a=2 a=name.getBytes(...
  • 个字节8位,英文字母占1个字节,GB2312中一个汉字占2个字节,Unicode 全世界所有得字符,文字所对应得编码,Unicode中4个字节表示1个字符(字符:像一个英文字母,一个汉字,一个&符号,均称为一个字符)。...
  • ***和数据库的编码有关系*** 1、数据库编码查询sql: 1)、SELECT value$ FROM sys.props$ WHERE name = 'NLS_CHARACTERSET' ; ZHS16GBK:一个汉字... AL32UTF8:一个汉字占用3个字节 2)、select userenv...

空空如也

空空如也

1 2 3 4 5 ... 10
收藏数 182
精华内容 72
关键字:

utf8汉字占几个字节