精华内容
下载资源
问答
  • 1.字符编码计算机中储存的信息都是用二进制数表示的,而我们在屏幕上看到的数字、英文、标点符号、汉字等字符是二进制数转换之后的结果。按照某种规则,将字符存储到计算机中,称为编码。反之,将存储在计算机中的二...

    1.字符编码

    计算机中储存的信息都是用二进制数表示的,而我们在屏幕上看到的数字、英文、标点符号、汉字等字符是二进制数转换之后的结果。按照某种规则,将字符存储到计算机中,称为编码。反之,将存储在计算机中的二进制数按照某种规则解析显示出来,称为解码。比如说,按照A规则存储,同样按照A规则解析,那么就能显示正确的文本符号。反之,按照A规则存储,再按照B规则解析,就会导致乱码现象。

    字符编码Character Encoding:就是一套自然语言的字符与二进制数之间的对应规则。

    2.字符集

    字符集Charset:也叫编码表。是一个系统支持的所有字符的集合,包括各国家文字、标点符号、图形符号、数字等。

    计算机要准确的存储和识别各种字符集符号,需要进行字符编码,一套字符集必然至少有一套字符编码。常见字符集有ASCII字符集、GBK字符集、Unicode字符集等。常见字符集和字符编码对应关系:

    CharsSet.jpg

    由上图得知,当指定了编码,它所对应的字符集自然就指定了,所以编码才是我们最终要关心的。

    3.ASCII字符集

    ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,用于显示现代英语,主要包括控制字符(回车键、退格、换行键等)和可显示字符(英文大小写字符、阿拉伯数字和西文符号)。

    基本的ASCII字符集,使用7位(bits)表示一个字符,共128字符。扩展的ASCII字符集,使用8位(bits)表示一个字符,共256字符,方便支持欧洲常用字符。

    4.ISO-8859-1字符集

    拉丁码表,别名Latin-1,用于显示欧洲使用的语言,包括荷兰、丹麦、德语、意大利语、西班牙语等。

    ISO-5559-1使用单字节编码,兼容ASCII编码。

    5.GBxxx字符集

    GB就是国标的意思,是为了显示中文而设计的一套字符集。

    GB2312:简体中文码表。一个小于127的字符的意义与原来相同。但两个大于127的字符连在一起时,就表示一个汉字,这样大约可以组合了包含7000多个简体汉字,此外数学符号、罗马希腊的字母、日文的假名们都编进去了,连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的”全角”字符,而原来在127号以下的那些就叫”半角”字符了。

    GBK:最常用的中文码表。是在GB2312标准基础上的扩展规范,使用了双字节编码方案,共收录了21003个汉字,完全兼容GB2312标准,同时支持繁体汉字以及日韩汉字等。

    GB18030:最新的中文码表。收录汉字70244个,采用多字节编码,每个字可以由1个、2个或4个字节组成。支持中国国内少数民族的文字,同时支持繁体汉字以及日韩汉字等。

    6.Unicode字符集

    Unicode编码系统为表达任意语言的任意字符而设计,是业界的一种标准,也称为统一码、标准万国码。它最多使用4个字节的数字来表达每个字母、符号,或者文字。有三种编码方案,UTF-8、UTF-16和UTF-32。最为常用的UTF-8编码。

    UTF-8编码:可以用来表示Unicode标准中任何字符,它是电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。互联网工程工作小组(IETF)要求所有互联网协议都必须支持UTF-8编码。所以,我们开发Web应用,也要使用UTF-8编码。它使用一至四个字节为每个字符编码,编码规则:

    128个US-ASCII字符,只需一个字节编码。

    拉丁文等字符,需要二个字节编码。

    大部分常用字(含中文),使用三个字节编码。

    其他极少使用的Unicode辅助字符,使用四字节编码。

    展开全文
  • 常用字符编码

    千次阅读 2017-08-16 08:45:09
    常用字符编码有utf-8,GBK,GB2312。在计算机内储存文本信息用ASCII码,每一个字符对应一个唯一的ASCII码。每个汉字要对应唯一的ASCII码。这样国家制定了字符编码标准:GBK、GB2312等。GB是国标的意思,GBK和GB...

               常用 的字符编码有utf-8,GBK,GB2312。在计算机内储存文本信息用ASCII码,每一个字符对应一个唯一的ASCII码。每个汉字要对应唯一的ASCII码。这样国家制定了字符编码标准:GBK、GB2312等。GB是国标的意思,GBK和GB2312主要 用于汉字的编码。而utf-8是全世界通用的。GBK和GB2312文字的储存体积较小(utf-8)。如果你的网页使用了GB2312编码,却被一台没有GB2312编码的电脑访问了,里面所有的汉字都成了乱码。而utf-8是所有电脑都有的。

           UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8用1到6个字节编码Unicode字符。允许含有BOM,但通常不含有BOM。英文使用一个字节编写,中文三个或四个字节编写。

           GBK、GB2312收编的汉字占2个字节,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。

           UTF-8和GBK之间的转换:

        String a = "你好,中国";
        String b = new String(a.getBytes("GBK") , "utf-8");

    展开全文
  • 常用字符编码

    2018-12-28 19:00:08
    常用字符编码ASCII编码ASCI编码gbkUnicode编码Utf-8编码 ASCII编码 对共计127个英文字符、数字、符号以及控制字符的编码,编码长度为 8bit,有一位恒为0 ASCI编码 对ASCII编码的扩充,可能使用邻近的多个字节表示...

    ASCII编码

    对共计127个英文字符、数字、符号以及控制字符的编码,编码长度为 8bit,有一位恒为0

    ASCI编码

    对ASCII编码的扩充,可能使用邻近的多个字节表示其他字符(即多字节编码)。多字节编码方式根据地区及语言的不同而不同,也就是说同一多字节码在不同的ASCI编码方式下具有不同的意义。

    gbk

    gbk兼容gb2312,是中国大陆地区广泛使用的ASCI编码,window 中文系统控制台默认以该编码方式

    Unicode编码

    Unicode 编码是针对所有语言的一种编码,所有语言符号具有唯一编码

    utf-8编码

    Utf-8也是针对所有语言的一种编码,所有语言符号具有唯一编码,但编码长度不等(字母较短,汉字较长),linux命令行使用该方式编码

    详细信息见百度百科 字符编码

    展开全文
  • 几种常用字符编码

    2019-03-12 11:15:50
    常见的一些字符编码方式无非有:Unicode、ASCII、GBK、GB2312、UTF-8。下面先对常见的这一些字符编码方式作下说明: 1.ASCII码 这是美国在19世纪60年代的时候为了建立英文字符和二进制的关系时制定的编码规范...

    无论在是在编辑文本文件的时候,还是在制作网页的时候,总会遇到文本编码方式的问题。如果处理不当,就会出现乱码的问题。因此,有必要对文本的编码方式做一个详尽的了解。

    常见的一些字符编码方式无非有:Unicode、ASCII、GBK、GB2312、UTF-8。下面先对常见的这一些字符编码方式作下说明:

    1.ASCII码

    这是美国在19世纪60年代的时候为了建立英文字符和二进制的关系时制定的编码规范,它能表示128个字符,其中包括英文字符、阿拉伯数字、西文字符以及32个控制字符。它用一个字节来表示具体的字符,但它只用后7位来表示字符(2^7=128),最前面的一位统一规定为0。

    2.扩展的ASCII码

    原本的ASCII码对于英文语言的国家是够用了,但是欧洲国家的一些语言会有拼音,这时7个字节就不够用了。因此一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使 用的编码体系,可以表示最多256个符号。但这时问题也出现了:不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码 中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。这个问题就直接促使了Unicode编码的产生。

    3.Unicode符号集

    正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。而Unicode就是这样一种编码:它包含了世界上所有的符号,并且每一个符号都是独一无二的。比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字“严”。具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表 。很多人都说Unicode编码,但其实Unicode是一个符号集(世界上所有符号的符号集),而不是一种新的编码方式。

    但是正因为Unicode包含了所有的字符,而有些国家的字符用一个字节便可以表示,而有些国家的字符要用多个字节才能表示出来。即产生了两个问题:第一,如果有两个字节的数据,那计算机怎么知道这两个字节是表示一个汉字呢?还是表示两个英文字母呢?第二,因为不同字符需要的存储长度不一样,那么如果Unicode规定用2个字节存储字符,那么英文字符存储时前面1个字节都是0,这就大大浪费了存储空间。

    上面两个问题造成的结果是:1)出现了unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示unicode。2)unicode在很长一段时间内无法推广,直到互联网的出现。

    4.UTF-8

    互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。

    UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。

     

    UTF-8的编码规则很简单,只有两条:

     

    1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

     

    2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

    .GBK/GB2312/GB18030

    GBK和GB2312都是针对简体字的编码,只是GB2312只支持六千多个汉字的编码,而GBK支持1万多个汉字编码。而GB18030是用于繁体字的编码。汉字存储时都使用两个字节来储存。

     

    总的来说:

    ASCII编码:用来表示英文,它使用1个字节表示,其中第一位规定为0,其他7位存储数据,一共可以表示128个字符。

    拓展ASCII编码:用于表示更多的欧洲文字,用8个位存储数据,一共可以表示256个字符

    GBK/GB2312/GB18030:表示汉字。GBK/GB2312表示简体中文,GB18030表示繁体中文。

    Unicode编码:包含世界上所有的字符,是一个字符集。

    UTF-8:是Unicode字符的实现方式之一,它使用1-4个字符表示一个符号,根据不同的符号而变化字节长度。

    展开全文
  • 常用字符编码简介

    2016-05-05 12:28:31
    常用字符编码简介
  • 常用字符编码介绍

    2020-07-29 14:15:45
    在百度百科中,是这样定义的,字符编码(Character encoding)也叫字符码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的...
  • Python常用字符编码

    2019-10-24 17:37:38
    字符编码常用种类介绍  第一种:ASCII码  ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它...
  • 常用字符编码总结

    2012-12-11 12:47:00
    清楚常用编码特性是解决字符编码问题的基础,字符集编码的识别与转换、分析各种乱码产生的原因、编程操作各种编码字符串(例如字符数计算、截断处理) 等都需要清楚编码的特性。  了解一种字符集编码主要是了解该...
  • 常用字符编码

    2019-10-03 12:06:05
    目录 ...字符编码常用种类介绍 第一种:ASCII码 ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现...
  • 基本概念:字符(Character) 是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。...字符编码(Character encoding) 是把字符集中的字符编码为特定的二进制数,以便在计算机中存储。每个
  • 英文字符编码查询

    2018-04-28 15:25:36
    英文字符编码查询 软件介绍: 该软件能快速查询中英文字符的ASCII、区位码、GB2312 码、Big5 码、GBK 内码、Unicode 码、UTF-8 码和 UTF-16 码。体积小、效率高、使用方便、批量转换、即输即得和多进制显示等。...
  • 字形码 17和十进制数225相等的二进制数是() A.11100001 B.11111110 C.10000000 D.11111111 18基本字符的ASCII编码在机器中的表示方法准确地描述应是() A.使用8位二进制码,最右边一位为1 B.使用8位二进制码,最左边一...
  • 关于各种常用字符编码

    千次阅读 2012-12-30 22:16:06
    这是最早的一种编码,很多其他的编码都会兼容ascii编码,ascii编码只包含常用英文字母,数字,以及一些特殊字符,还有部分控制字符。 每个字符由占用一个字节的存储空间,因为最多只包含127个字符,而一个字节(8...
  • Unicode通常用两个字节表示一个字符,原有的英文编码从单字节变成双字节,只需要把高字节全部填为0就可以 UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 Unicode(统一码、万国码、单一码)是计算机...
  • 在编程之中经常会遇到编码的...8试试就行了,但是觉得这样始终不是解决问题的方法,于是乎今天找了很多关于字符编码的博文来看,对于字符的编码也理解了好多,在这里将自己理解到的先放上来,如果有什么没理解对的地方
  • Python常用字符编码 字符编码常用种类介绍  第一种:ASCII码  ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示...
  • 拨开字符编码的迷雾--字符编码概述

    万次阅读 2017-11-27 20:46:23
    相信不少人在字符编码上面摔过跟头,这篇文章针对开发中需要了解的字符编码知识进行了简要的讲解,希望能够对大家有所帮助。 1. ASCII及其扩展 1.1 什么是ASCII字符集 字符集就是一系列用于显示的字符的...
  • HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者其他编码方式。 GB2312 GB2312是基于区位码设计的,区位码把编码表...
  • 常用字符编码详解

    2012-03-24 14:47:55
    常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、unicode、UTF-8  ASCII  ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。...HZ字符编码就是早期为了在只支
  • 计算机字符编码——ASCII码和常用编码 ASCII码 基本介绍 上个世纪60年代, 美国制定了一套字符编码, 对英语字符与二进制位之间的关系, 做了统一规定,这被称为ASCII码。 ASCII码一共规定了128个字符的编码, 比如...
  • 英文字符编码查询 V1.1 ——Developed By RainVan 软件介绍: 该软件能快速查询中英文字符的ASCII、区位码、GB2312 码、Big5 码、GBK 内码、Unicode 码、UTF-8 码和 UTF-16 码。体积小、效率高、使用方便、批量...
  • 常用编码字符

    2018-10-08 17:20:06
    经常我们打开外国网站的时候出现乱码,又或者打开很多非英语的外国网站的时候,显示的都是口口口口口的字符, WordPress程序是用的UTF-8,很多cms用的是GB2312。  经常我们打开外国网站的时候出现乱码,又或者...
  • 字符编码常用种类介绍

    万次阅读 2018-11-06 14:31:10
    字符编码常用种类介绍 第一种:ASCII码 ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今...
  • Java常用字符集编码详解 Web开发的时候经常会遇到一些字符编码的错误,如页面乱码等问题,所以有必要需对字符编码有所了解,以下是Ricki收集的一些资料(可能不是很全,但希望对你有所帮助) Java标准字符集:所谓...
  • 字符编码

    千次阅读 2020-03-04 16:03:02
    文章目录字符编码一、计算机基础二、文本编辑器存取文件的原理三、Python解释器执行py文件的原理四、Python解释器与文件本编辑的异同五、字符编码介绍5.1 什么是字符编码5.2 涉及到字符编码的两个场景5.3 字符编码...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 103,448
精华内容 41,379
关键字:

常用英文字符编码