精华内容
下载资源
问答
  • 文章目录1、ASCII码---美国信息交换标准代码,共128个字符,用于英语/西欧语言显示2、ASNI---ASCII的扩展,Windows系统中代表系统默认编码(不固定)3、常见中文编码GB2312(简体)/ BIG5(繁体)/ GBK(GB2312的...


    目前的文字编码标准主要有 ASCII、GB2312、GBK、Unicode等。ASCII 编码是最简单的西文编码方案。GB2312、GBK、GB18030 是汉字字符编码方案的国家标准。ISO/IEC 10646 和 Unicode 都是全球字符编码的国际标准。

    1、ASCII码—美国信息交换标准代码,共128个字符,用于英语/西欧语言显示

    ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,并等同于国际标准ISO/IEC 646。ASCII共定义了128个字符。
    常见ASCII码的大小规则:09<AZ<a~z。几个常见字母的ASCII码大小: “A”为65;“a”为97;“0”为 48 。
    在这里插入图片描述

    2、ASNI—ASCII的扩展,Windows系统中代表系统默认编码(不固定)

    ASNI 是ASCII的扩展,向下包含 ASCII。对于ASCII字符仍以一个字节来表示,对于非ASCII字符则使用2字节来表示。并没有固定的ASNI 编码,它跟本地化密切相关,不同的国家和地区制定了不同的标准。中国大陆ANSI的默认编码是GB2312;在港澳台地区默认编码是BIG5。以数值“0xd0d6”为例,对于 GB2312 编码它表示“中”;对于 BIG5 编码它表示“笢”。

    3、常见中文编码GB2312(简体)/ BIG5(繁体)/ GBK(GB2312的扩展)/ GB18030(最新最全)

    GB2312 :1980 年制定的中国汉字编码国家标准。共收录 7445 个字符,其中汉字 6763 个。GB2312 兼容标准 ASCII码,采用扩展 ASCII 码的编码空间进行编码,一个汉字占用两个字节,每个字节的最高位为 1。 具体办法是:收集了 7445 个字符组成 94*94 的方阵,每一行称为一个“区”,每一列称为一个“位”,区号位号的范围均为 01-94,区号和位号组成的代码称为“区位码”。为了兼容标准 ASCII 码,给国标码的每个字节加 0xa0,这样高低字节的第8位都变成了1。一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字。例如“啊”字在大多数程序中,会以两个字节,0xB0(第一个字节) 0xA1(第二个字节)储存。区位码=区字节+位字节(与区位码对比:0xB0=0xA0+16,0xA1=0xA0+1)。

    BIG5 : GB2312面向简体中文字符集,并不支持繁体汉字,1984年台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案BIG5。大五码采用双字节编码,第1字节范围0x81-0xFE,避开了同ASCII码的冲突,第2字节范围是0x40-0x7E和0xA1-0xFE。
    在这里插入图片描述
    GBK : 《汉字内码扩展规范》(GBK) 于1995年制定,兼容GB2312、GB13000-1、BIG5 编码中的所有汉字,使用双字节编码,编码空间为 0x8140~0xFEFE,共有 23940 个码位,其中 GBK1 区和 GBK2 区也是 GB2312 的编码范围。收录了 21003 个汉字。GBK向下与 GB 2312 编码兼容,向上支持 ISO 10646.1国际标准。

    GB18030 :《信息交换用汉字编码字符集基本集的补充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,2000年发布的,并且将作为一项国家标准在2001年的1月正式强制执行。以汉字为主并包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准,其中收入汉字70000余个 。

    4、国际码Unicode包含各国语言业界标准,编码方式UTF-8/UTF-16等

    Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求 ,1994年正式公布。UNICODE 仍然向下兼容 ASCII,数值范围是 0x0000 至 0x10FFFF,可以表示 100 多万个字符。
    Unicode的编码方案又叫Unicode转换格式,简称为UTF(Unicode Transformation Format),包括UTF-16、UTF-32以及UTF-8等。
    UTF-8是一种针对Unicode的可变长度字符编码,也是一种前缀码。它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。UTF-8使用一至六个字节为每个字符编码(后续标准更新,实际最多4字节)。
    在这里插入图片描述

    展开全文
  • 银行货币和地区标准

    2017-06-28 13:30:24
    GB/T 12406-1996 表示货币和资金的代码(idt ISO 4217:1990)GB/T2659-...本标准规定了一个三个字母的字母代码和相当于3位数的代码代表货币和资金。对于那些小单位货币,它也显示了这些单位和货币本身的十进 ...

    GB/T 12406-1996 表示货币和资金的代码(idt ISO 4217:1990)
    GB/T2659-1994 世界各国和地区名称代码 (eqv ISO 3166-1:1997)

    ISO4217:2008标准中,用于代表货币和资金。本标准规定了一个三个字母的字母代码和相当于3位数的代码来代表货币和资金。对于那些小单位货币,它也显示了这些单位和货币本身的十进

    展开全文
  • 它知道引用它们的标准代码,例如en表示英语, es表示西班牙语, hi表示北印度语。 通常,它知道这些语言在某种语言中被称为什么,并且该语言不必一定是英语。 听起来好像langcodes解决了一个很无聊的问题。 一...
  • 门类代码用一位拉丁字母表示,即用字母A、B、C、……、T依次代表不同门类;大类代码用两位阿拉伯数字表示,打破门类界限,从01开始按顺序编码;中类代码用三位阿拉伯数字表示,前两位为大类代码,第三位为中类顺序...
  • 编码标准

    2008-09-10 16:12:00
    unicode和ansi都是字符代码的一种表示形式。 为使计算机支持更多语言...不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2个字节来代表一个字符的各种汉字延伸编码方式,
     unicode和ansi都是字符代码的一种表示形式。   
    为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如:汉字 '中' 在中文操作系统中,使用 [0xD6,0xD0] 这两个字节存储。
    不 同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。
    不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。

    在 MBCS 下,字符被编码为单字节或双字节。在双字节字符中,第一个字节或“前导字节”发出信号表示它和下一个字节将被解释为一个字符。第一个字节来自留作前导字节 的代码范围。哪个范围的字节可以用作前导字节取决于所使用的代码页。例如,日文代码页 932 使用 0x81 到 0x9F 范围内的字节作为前导字节,而朝鲜语代码页 949 则使用其他范围的字节。

            C 运行时库和 MFC 支持单字节、MBCS 和 Unicode 编程。单字节字符串用 str 运行时函数族处理,MBCS 字符串用相应的 _mbs 函数处理,而 Unicode 字符串用相应的 wcs 函数处理。MFC 类成员函数的实现使用可移植运行时函数,这些可移植运行时函数在正常情况下映射到标准 str 函数族、MBCS 函数或 Unicode 函数.
            使用头文件 TCHAR.H 可以从同一个源中生成单字节、MBCS 和 Unicode 应用程序。TCHAR.H 定义以 _tcs 为前缀的宏,这些宏映射到适当的 str_mbswcs 函数。若要生成 MBCS,请定义 _MBCS 符号。若要生成 Unicode,请定义 _UNICODE 符号。默认情况下,为 MFC 应用程序定义的是 _MBCS
     
    ISO C 可以标准化两种表示大型字符集的方法:宽字符(wide character,该字符集内每个字符使用相同的位长)以及多字节字符(multibyte character,每个字符可以是一到多个字节不等,而某个字节序列的字符值由字符串或流(stream)所在的环境背景决定)

    自从1994 年的增补之后,C 不只提供char类型,还提供wchar_t类型(宽字符),此类型定义在stddef.h 头文件中。wchar_t 类型足以表示某个实现版本扩展字符集的任何元素。如果遵循Unicode标准,wchar_t类型至少是16或32位长,而wchar_t类型的一个值就代表一个Unicode字符。比方说,下列的定义将变量wc 初始化为希腊字母α。
    wchar_t wc = '/x3b1';  
    此转义符以“/x”起头,后面接着十六进制的数字,会将这个数字所代表的字符赋值到变量中。

    nANSI字符集:ASCII字符集,以及由此派生并兼容的字符集,如:GB2312,正式的名称为MBCS(Multi-Byte Chactacter System,多字节字符系统),通常也称为ANSI字符集。

    n由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,产生了Unicode字符集,它固定使用16 bits(两个字节)来表示一个字符,共可以表示65536个字符
    n标准的Unicode称为UTF-16(UTF:UCS Transformation Format )。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输,出现了UTF-8,使用类似MBCS的方式对Unicode进行编 码。(Unicode字符集有多种编码形式)
    例如“连通”两个字的Unicode标准编码UTF-16 (big endian)为:DE 8F 1A 90
    而其UTF-8编码为:E8 BF 9E E9 80 9A


    n当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件一般采用三种方式来决定文本的字符集和编码:
    检测文件头标识,提示用户选择,根据一定的规则猜测
    最标准的途径是检测文本最开头的几个字节,开头字节 Charset/encoding,如下表:
    EF BB BF UTF-8
    FF FE UTF-16/UCS-2, little endian
    FE FF UTF-16/UCS-2, big endian
    FF FE 00 00 UTF-32/UCS-4, little endian.
    00 00 FE FF UTF-32/UCS-4, big-endian.

    展开全文
  • 答:启动一个线程是调用start()方法,使线程所代表的虚拟处理机处于可运行状态,这意味着它可以由JVM调度并执行。这并不意味着线程就会立即运行。run()方法可以产生必须退出的标志来停止一个线程。 40.接口是否可...
  • American Standard Code for Information Interchange-美国信息交换标准代码,发表于1967年,到2007年12月,逐渐被Unicode取代。单字节字符编码,定义了128个字符 ANSI 使用多个字节来代表一个字符的各种汉字延伸...

    ASCII
    American Standard Code for Information Interchange-美国信息交换标准代码,发表于1967年,到2007年12月,逐渐被Unicode取代。单字节字符编码,定义了128个字符

    ANSI
    使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码,通常使用 0x80~0xFF 范围的2个字节来表示1个字符。在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码;在繁体中文Windows操作系统中,ANSI编码代表Big5;在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码。ANSI编码表示英文字符时用一个字节,表示中文用两个或四个字节。

    GB2312 
    信息交换用汉字编码字符集,发布于1980年,共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。采用EUC储存方法,以便兼容于ASCII。每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”(也称“区字节)”,第二个字节称为“低位字节”(也称“位字节”)。汉字区的“高位字节”的范围是0xB0-0xF7,“低位字节”的范围是0xA1-0xFE

    GBK/GB13000
    汉字内码扩展规范,发布于1995年。GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准。使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字。

    GB18030
    GBK的取代版本,在GBK基础上增加了CJK统一汉字扩充A的汉字(2000版)。在GBK基础上增加了CJK统一汉字扩充B的汉字(2005版)

    BIG5
    大五码,通行于台湾、香港地区的一个繁体字编码方案,共收录13,060个中文字.Big5属中文内码(中文码分为中文内码及中文交换码两类).双字节字符集,使用了双八码储存方法,以两个字节来

    UTF-8
    UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言。window下会有引导头xEFxBBxBF

    UCS
    Universal Character Set-通用字符集,UCS 是所有其他字符集标准的一个超集,ISO 10646标准

    UCS-2/UTF-16
    大部分字符都以固定长度的字节 (2字节) 储存,无法兼容于ASCII编码。除UTF-16支持超过2bytes的字集,UCS-2和UTF-16 大体是相同的

    UCS-2BE/UTF-16BE(Big Endian)
    在UCS-2/UTF-16数据之前增加引导头xFExFF

    UCS-2LE/UTF-16LE(Little Endian)
    在UCS-2/UTF-16数据之前增加引导头xFFxFE

    UCS-4/UTF-32
    UTF-32对每个字符都使用4字节,固定位方便截取,但点空间。 除UTF-32标准包含额外的Unicode意涵,UCS-4和UTF-32 大体是相同的

    UCS-4BE/UTF-32BE
    在UCS-4/UTF-32数据之前增加引导头xFExFFx00x00

    UCS-4LE/UTF-32LE
    在UCS-4/UTF-32数据之前增加引导头x00x00xFExFF

    koi8-r
    KOI8-R是KOI-8系列的斯拉夫文字8位元编码供俄语及保加利亚语使用在Unicode未流行之前KOI8-R 是最为广泛使用的俄语编码

    cp932/Shift_JIS
    Shift_JIS是一个日本电脑系统常用的编码表它能容纳全角及半角拉丁字母平假名片假名符号及日语汉字,它被命名为Shift_JIS的原因是它在放置全角字符时要避开原本在0xA1-0xDF放置的半角假名字符。在微软及IBM的日语电脑系统中即使用了这个编码表这个编码表称为CP932

    ISO-2022
    ISO 2022,全称ISO/IEC 2022,由国际标准化组织(ISO)及国际电工委员会(IEC)联合制定,是一个使用7位编码表示汉语文字、日语文字或朝鲜文字的方法。ISO 2022等同于欧洲标准组织(ECMA)的ECMA-35、中国国标GB 2312、日本工业规格JIS X 0202(旧称JIS C 6228)及韩国工业规格KS X 1004(旧称KS C 5620)。

    ISO-8859
    全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位字符集的标准,现时定义了15个字符集

    Windows-1250
    用于中欧和东欧语言(波兰,捷克,斯洛伐克,匈牙利,波斯尼亚塞尔维亚,克罗地亚,斯洛文尼亚,(拉丁语),罗马尼亚和阿尔巴尼亚

    Windows-1251
    用于西里尔字母表

    Windows-1252
    用于拉丁字母表

    Windows-1253
    用于希腊文

    Windows-1254
    用于土耳其语

    Windows-1255
    用于希伯莱语

    Windows-1256
    用于阿拉伯语

    Windows-1257
    用于爱沙尼亚,拉脱维亚和立陶宛语

    Windows-1258
    用于越南语

    展开全文
  • 短信网关接口源代码+demo

    千次下载 热门讨论 2006-02-23 09:05:59
    短信网关接口源代码:口标准:客户端通过Tcp连接到服务器(211.162.36.89:8021, IP可能会变动,变动时,以www.pohoo.com网站公布的为准)。连接成功后客户端应首先发送注册串为:Login Name=【注册名】&Pwd=【注册...
  • 根据GB3469-83《文献类型与文献载体代码》规定,以单字母标识:  M——专著(含古籍中的史、志论著)  C——论文集  N——报纸文章  J——期刊文章  D——学位论文  R——研究报告  S——标准  P...
  • ANSI 美国国家标准协会 ANSI编码其实是一个统称,指的是本地操作系统默认的编码 在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 ...ASCII 美国标准信息交换码(国际标准代码是I...
  • 不同的国家和地区制定了不同的标准,由此产生了GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。 这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为ANSI 编码。 关于MBCS字...
  • 计算机编码指电脑内部代表字母或数字的方式,常见的编码方式有:ASCII编码,GB2312编码(简体中文),GBK... ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)是基于罗马字母表的一套...
  • Redis学习笔记

    2020-05-28 18:45:55
    ANSI(一种字符代码):不同的国家和地区制定了不同的标准,由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS等各自的编码标准。这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。 Redis ...
  • unicode编码和ansi编码

    2008-08-06 08:51:00
    unicode和ansi都是字符代码的一种表示形式。...不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANS
  • XML基础

    2010-12-03 17:44:00
    XML文件通常包含文件头和文件体两个部分。...> version=“1.0”代表此文件用的是XML1.0标准 encoding为编码格式,默认值是Unicode 注意:声明必须出现在文档的第一行。
  • 不同的国家和地区制定了不同的标准,由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文Windows操作系统中,...
  • 在软件验收时,要允许用户或用户所委托的专家对所要验收的软件进行设计抽样的综合检查,以验证代码和设计文档的一致性、接口规格说明之间的一致性(硬件和软件)、设计实现和功能需求的一致性、功能需求和测试描述的...
  • 中文API支持库(1.0-0

    2009-04-17 08:28:19
    如果出错,该函数会返回下表列出的出错代码之一:LZERROR_BADINHANDLE 源文件无效;LZERROR_BADOUTHANDLE 目标文件无效;LZERROR_GLOBALLOC 内部解压缓冲区的内存容量不足;LZERROR_GLOBLOCK 内部解压缓冲区的句柄...
  • java 面试题 总结

    2009-09-16 08:45:34
    多态性语言具有灵活、抽象、行为共享、代码共享的优势,很好的解决了应用程序函数同名问题。 2、String是最基本的数据类型吗? 基本数据类型包括byte、int、char、long、float、double、boolean和short。 java.lang....
  • 、 NLP任务示例项目代码集、 python拼写检查库、chatbot-list - 行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍、语音质量评价指标(MOSNet, BSSEval, STOI, PESQ, SRMR)、 用138GB语料训练的法文...
  • 《智能问答与深度学习》 这本书是服务于准备入门机器学习和自然语言处理的学生和软件工程师的,在理论上介绍了很多原理、算法,同时也提供很多示例程序增加实践性,这些程序被汇总到示例程序代码库,这些程序主要是...
  • ECharts Map四级下钻在线测试和预览+代码生成(坐标边界范围在线测试预览);导入数据库或坐标、边界范围转换:AreaCity-Geo格式转换工具软件下载(支持转成sql、导入数据库,转成shp、geojson);当前最新版为 src...
  • 多态性语言具有灵活、抽象、行为共享、代码共享的优势,很好的解决了应用程序函数同名问题。 5、String是最基本的数据类型吗?  基本数据类型包括byte、int、char、long、float、double、boolean和short。  java....
  • 代码执行后因为要花时间执行 读</strong> 的操作,所以会在最后的回调函数中打印出文件内容。当读取操作结束后事件循环就会拿到内容 <p><code>read 1.txt->read 2.txt->content1->content2</code></p...
  • word2vec 原理推导与代码分析 Frequently Asked Questions (FAQ) 是否支持添加单词到词表中? 不支持,欲了解更多请看 #5 词向量的训练是用哪个工具? Google 发布的word2vec,该库由 C 语言编写,内存使用效率...
  • xml入门教程/xml入门教程

    热门讨论 2008-09-07 18:20:03
    6) XML代表了内容的结构也代表了内容本身; 7) XML继承自SGML(标准通用标记语言)。SGML的前身GML由IBM在1960年发明,用于描述设备无关的文本 8) XML是SGML的子语言,由SGML简化而来,起初的目的是为Web的结构文档...

空空如也

空空如也

1 2 3
收藏数 49
精华内容 19
关键字:

标准代码gb代表