精华内容
下载资源
问答
  • + range(0x2B740, 0x2B820) + range(0xF900, 0xFB00) + range(0x2F800, 0x2FA20) + range(0x9FA6, 0x9FCC)) 但请注意,此集包含超过75000个字符,因此它可能不是最紧凑或最有效的数据结构. 此外,如果您坚持在文字字符...

    从Unicode标准(v6.0,第12.1节),

    Han ideographic characters are found in seven main blocks of the Unicode Standard, as shown in Table 12-2

    Table 12-2. Blocks Containing Han Ideographs

    Block | Range | Comment

    ----------------------------------------+-------------+-----------------------------------------------------

    CJK Unified Ideographs | 4E00–9FFF | Common

    CJK Unified Ideographs Extension A | 3400–4DBF | Rare

    CJK Unified Ideographs Extension B | 20000–2A6DF | Rare, historic

    CJK Unified Ideographs Extension C | 2A700–2B73F | Rare, historic

    CJK Unified Ideographs Extension D | 2B740–2B81F | Uncommon, some in current use

    CJK Compatibility Ideographs | F900–FAFF | Duplicates, unifiable variants, corporate characters

    CJK Compatibility Ideographs Supplement | 2F800–2FA1F | Unifiable variants

    除了这些块之外还有一些额外的东西:

    Table 12-3. Small Extensions to the URO

    Range | Version | Comment

    ----------+---------+-------------------------------------------------

    9FA6–9FB3 | 4.1 | Interoperability with HKSCS standard

    9FB4–9FBB | 4.1 | Interoperability with GB 18030 standard

    9FBC–9FC2 | 5.1 | Interoperability with commercial implementations

    9FC3 | 5.1 | Correction of mistaken unification

    9FC4–9FC6 | 5.2 | Interoperability with ARIB standard

    9FC7–9FCB | 5.2 | Interoperability with HKSCS standard

    要使用set操作构造一组这些的序数值,您可以这样做:

    chinese = set(range(0x4E00, 0xA000) +

    range(0x3400, 0x4DC0) +

    range(0x20000, 0x2A6E0) +

    range(0x2A700, 0x2B740) +

    range(0x2B740, 0x2B820) +

    range(0xF900, 0xFB00) +

    range(0x2F800, 0x2FA20) +

    range(0x9FA6, 0x9FCC))

    但请注意,此集包含超过75000个字符,因此它可能不是最紧凑或最有效的数据结构.

    此外,如果您坚持在文字字符上使用ord(),则需要使用32位unicode文字形式:

    >>> ord(u'\U00002F800')

    194560

    展开全文
  • 在网上找到资料:char_length计算的是字符长度,而length计算的是字节长度,刚好我使用的是utf8,一个汉字占3个字节,占一个字符。那好了,应该是对的上了,可是好奇心我就试了下为什么这是相同的?因为这不是汉字好...

    以前一直使用oracle11g,一个汉字占3个字节,所以在操作mysql时也一直这样分配长度。

    今天测试了下发现不对了

    df48b60d545395fbc675df5e5d6a8d94.png

    c2abc622c53c471fe7b3222549ba3200.png

    可以看到第一个的长度确实是15,但是第二个为什么是5?

    在网上找到资料:char_length计算的是字符长度,而length计算的是字节长度,刚好我使用的是utf8,一个汉字占3个字节,占一个字符。

    ea6a7e46546252da709b24e6c45e2781.png

    那好了,应该是对的上了,可是好奇心我就试了下

    6be7114b1ce7903f8c082500fbb9ac21.png

    96f5f9d5f13edba5ccbd34131ee28585.png

    为什么这是相同的?因为这不是汉字

    laugh.gif

    好了,现在知道原来mysql和oracle一样的,但是又看到一篇说mysql的varchar与oracle的varchar2是不一样的,前者是用字符做单位的,后者是用字节做单位的。对于oracle11g的varchar2是用字节做单位的在以前玩oracle时测试过,但是mysql就没有测试过,好吧现在测试下。我先将字段长度改小看下能不能给容下,测试结果确实是可以的,证明mysql的varchar是用字符做单位的,这里就不贴图了,大家可以自己验证下。

    总结:oracle 中varchar2(10)  既10个字节3个汉字

    mysql  中varchar(10) 既10个字符10个汉字

    所以现在可以将mysql的varchar字段减小1/3了,性能也能提高哦。

    展开全文
  • F900–FAFF | Duplicates, unifiable variants, corporate characters CJK Compatibility Ideographs Supplement | 2F800–2FA1F | Unifiable variants 在这些街区之外还有几个额外的东西: ^{pr2}$ 要使用集合运算...

    从Unicode标准(v6.0,第12.1节)开始Han ideographic characters are found in seven main blocks of the Unicode Standard, as shown in Table 12-2Table 12-2. Blocks Containing Han Ideographs

    Block | Range | Comment

    + -+ -

    CJK Unified Ideographs | 4E00–9FFF | Common

    CJK Unified Ideographs Extension A | 3400–4DBF | Rare

    CJK Unified Ideographs Extension B | 20000–2A6DF | Rare, historic

    CJK Unified Ideographs Extension C | 2A700–2B73F | Rare, historic

    CJK Unified Ideographs Extension D | 2B740–2B81F | Uncommon, some in current use

    CJK Compatibility Ideographs | F900–FAFF | Duplicates, unifiable variants, corporate characters

    CJK Compatibility Ideographs Supplement | 2F800–2FA1F | Unifiable variants

    在这些街区之外还有几个额外的东西:

    ^{pr2}$

    要使用集合运算构造这些序列的一组序数值,可以执行以下操作:chinese = set(range(0x4E00, 0xA000) +

    range(0x3400, 0x4DC0) +

    range(0x20000, 0x2A6E0) +

    range(0x2A700, 0x2B740) +

    range(0x2B740, 0x2B820) +

    range(0xF900, 0xFB00) +

    range(0x2F800, 0x2FA20) +

    range(0x9FA6, 0x9FCC))

    但是请注意,这个集合包含75000多个字符,因此它可能不是最紧凑或最有效的数据结构。在

    另外,如果您坚持对文字字符使用ord(),则需要使用32位unicode文字形式:>>> ord(u'\U00002F800')

    194560

    展开全文
  • 如果是utf-8编码,那么一中文字符占用三字节,一英文字符占用一字节。如果是gbk编码,那么一中文字符占用两字节,一英文字符占用一字节。如果是utf-8编码,那么一中文包含繁体字等于三字节,一...

    如果是utf-8编码,那么一个中文字符占用三个字节,一个英文字符占用一个字节。如果是gbk编码,那么一个中文字符占用两个字节,一个英文字符占用一个字节。

    如果是utf-8编码,那么一个中文包含繁体字等于三个字节,一个英文字符等于一个字节。

    如果是gbk编码,那么一个中文包含繁体字等于两个字节,一个英文字符等于一个字节。

    我们可以用如下方法来判断:

    中文和符号:print(type('中文'.encode('utf-8'))) #输出为bytes类型

    执行结果:

    print(type('中文'.encode('gbk')))

    执行结果:

    print(len('中文'.encode('utf-8'))) #输出几个字节

    执行结果:

    6

    print(len('中文'.encode('gbk')))

    执行结果:

    4

    print(len(',。'.encode('gbk')))

    执行结果:

    4

    英文字母和符号:print(type('ab'.encode('utf-8')))

    执行结果:

    print(len('ab'.encode('utf-8')))

    执行结果:

    2

    print(len(',.'.encode('gbk')))

    执行结果:

    2

    展开全文
  • UTF-8字符集一个汉字占几个字节

    千次阅读 2014-04-11 21:53:41
    一次在定义中文字符串的数组时,按着以往的认知:一个汉字占字节,存4汉字,共占用8+1’\0’的位置,总共9字节,结构最后赋值时,确发现数组后连的数据不对了,经查实才发现是数组越界,上网查资料后才...
  • 汉字占几个字符

    2014-05-29 20:35:00
    国家标准GB2312: 一个汉字=2个字节UTF8:一个汉字=3个字节一个汉字是一个字符,两个或三个字节。在判断的时候,可以注意下,看判断是字符还是字节。字节是存储的时候所得大小。例如,在做用户名判断的时候,...
  • https://blog.csdn.net/kindsuper_liu/article/details/80202150英文字母和中文汉字在不同字符集编码下的字节数英文字母:·字节数 : 1;编码:GB2312字节数 : 1;编码:GBK字节数 : 1;编码:GB18030字节数 : 1;编码:...
  • 个utf8汉字占3字节 一utf8数字占1字节 一utf8英文字母占1字节
  • 英文字母和中文汉字在不同字符集编码下的字节数 英文字母: 字节数 : 1;编码:GB2312 字节数 : 1;编码:GBK 字节数 : 1;编码:GB18030 字节数 : 1;编码:ISO-8859-1 字节数 : 1;编码:UTF-8 字节数 : 4;编码...
  • utf-8 中的一个汉字占几个字节

    千次阅读 2018-12-05 14:32:04
    utf-8 中的一个汉字占几个字节 占 2 个字节的:〇 占 3 个字节的:基本等同于 GBK,含 21000 多个汉字 占 4 个字节的:中日韩超大字符集里面的汉字,有 5 万多个 1 个 utf8 数字占 1 个字节 1 个 utf8 英文字母占 1 ...
  • 而我们熟悉且常用的字符编码格式有这么几个:ASCII、GBK、Unicode、UTF8但是我们真的了解这些字符编码?为什么会有这么多种类型字符编码,统一用一种不就好了吗?他们之间又有什么联系?(灵魂三连问)而肥壕也是只知其...
  • 一个汉字占几个字符

    千次阅读 2014-02-25 12:16:07
     如果系统采用的是utf-8,那么strlen(“新闻”)=6,即一个汉字占用3字节。linux系统默认情况下采用的该种编码方式。 2. gb2312  如果系统采用的是gb2312,则strlen(“新闻”)=4,即一个汉字占用2字节。...
  • 在网上找到资料:char_length计算的是字符长度,而length计算的是字节长度,刚好我使用的是utf8,一个汉字占3个字节,占一个字符。那好了,应该是对的上了,可是好奇心我就试了下为什么这是相同的?因为这不是汉字好...
  • mysql和oracle的一个汉字占几个字符

    万次阅读 2015-08-11 08:59:31
    以前一直使用oracle11g,一个...在网上找到资料:char_length计算的是字符长度,而length计算的是字节长度,刚好我使用的是utf8,一个汉字占3个字节,占一个字符。 那好了,应该是对的上了,可是好奇心我就试了下
  • 1.一个汉字占多少长度与编码有关: UTF8:一汉字=3字节 1character=3bytes, 1汉字=1character 也就是说一字段定义成 varchar(200),则它可以存储200汉字或者200字母。 2. GBK:1character=2bytes,1...
  • 英文字母和中文汉字在不同字符集编码下的字节数英文字母:·字节数 : 1;编码:GB2312字节数 : 1;编码:GBK字节数 : 1;编码:GB18030字节数 : 1;编码:ISO-8859-1字节数 : 1;编码:UTF-8字节数 : 4;编码:UTF-16字节...
  • 1.一个汉字占多少长度与编码有关:UTF8:一个汉字=3个字节GBK:一个汉字=2个字节2.varchar(n)表示n个字符,无论汉字和英文,Mysql都能存入n个字符,仅是实际字节长度有所区别3.MySQL检查长度,可用...
  • UTF-8中文一个汉字占几个字节?

    千次阅读 2019-10-12 11:28:05
    英文字母和中文汉字在不同字符集编码下的字节数 英文字母: 字节数 : 1;编码:GB2312 字节数 : 1;编码:GBK 字节数 : 1;编码:GB18030 字节数 : 1;编码:ISO-8859-1 字节数 : 1;编码:UTF-8 字节数 : 4;编码...
  • 汉字utf8mb4中占用几个字符

    千次阅读 2020-06-30 23:53:29
    答:3 MySQL手册中对于utf8mb4的解释是 现有数据库版本默认的utf8都为utf8mb3,注意其中所...所以在utf8mb4下,英文占用1字节,一般汉字占3字节,emoji表情占4字节。 结论:数据库和表都设置为utf8mb4。 ...
  • 1、oracle10g数据库表字段为...UTF-8字符集,一个汉字占字节,gbk字符集,一个汉字占字节,比如varchar(10)类型的字段,UTF-8的汉字,只能存3,gbk字符集的汉字却能存5。所以在程序中根据表字段varcha...
  • UTF-8编码占几个字节?

    万次阅读 多人点赞 2016-10-26 18:27:45
    2字节的:带有附加符号的拉丁文、希腊文、西里尔字母、...4字节的:中日韩超大字符集里面的汉字,有5万多个utf8数字1字节 一个utf8英文字母1字节 少数是汉字占用3字节,多数占用...
  • 1、美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0; 2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注音符,这个怎么...
  • utf-8的中文,一个字符占几个字节 https://blog.csdn.net/kindsuper_liu/article/details/80202150 英文字母和中文汉字在不同字符集编码下的字节数 英文字母: ·字节数 : 1;编码:GB2312 字节数 : 1;编码:GBK...
  • Python中字符汉字utf-8编码下字节,在gbk编码下字节。1、Python中汉字utf-8编码下示例:2、Python中汉字在gbk编码下示例:UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说...
  • utf-8占几个字节

    万次阅读 2014-04-22 20:09:55
    4字节的:中日韩超大字符集里面的汉字,有5万多个utf8数字1字节 一个utf8英文字母1字节   在查找 UTF-8 编码资料时发现,很多的帖子说的 UTF-8 编码里,一个汉字占用3字节,有的...
  • utf-8的中文是一个字符占几个字节

    万次阅读 多人点赞 2018-05-05 01:40:02
    英文字母和中文汉字在不同字符集编码下的字节数 英文字母: ·字节数 : 1;编码:GB2312 字节数 : 1;编码:GBK 字节数 : 1;编码:GB18030 字节数 : 1;编码:ISO-8859-1 字节数 : 1;编码:UTF-8 字节数 : 4;...

空空如也

空空如也

1 2 3 4 5 ... 8
收藏数 149
精华内容 59
关键字:

utf8汉字占几个字符