精华内容
下载资源
问答
  • 常用字符集

    千次阅读 2019-05-22 11:18:58
    常用字符集ASCII字符集ISO 8859-1字符集GB2312字符集GBK字符集utf8字符集 ASCII字符集 共收录128个字符,包括空格、标点符号、数字、大小写字母和一些不可见字符。由于总共才128个字符,所以可以使用1个字节来进行...

    ASCII字符集

    共收录128个字符,包括空格、标点符号、数字、大小写字母和一些不可见字符。由于总共才128个字符,所以可以使用1个字节来进行编码,我们看一些字符的编码方式:

    • ‘L’ -> 01001100(十六进制:0x4C,十进制:76)
    • ‘M’ -> 01001101(十六进制:0x4D,十进制:77)

    ISO 8859-1字符集

    共收录256个字符,是在ASCII字符集的基础上又扩充了128个西欧常用字符(包括德法两国的字母),也可以使用1个字节来进行编码。这个字符集也有一个别名latin1。

    GB2312字符集

    收录了汉字以及拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母。其中收录汉字6763个,其他文字符号682个。同时这种字符集又兼容ASCII字符集,所以在编码方式上显得有些奇怪:

    • 如果该字符在ASCII字符集中,则采用1字节编码
    • 否则采用2字节编码

    这种表示一个字符需要的字节数可能不同的编码方式称为变长编码方式。比方说字符串’爱u’,其中’爱’需要用2个字节进行编码,编码后的十六进制表示为0xCED2,'u’需要用1个字节进行编码,编码后的十六进制表示为0x75,所以拼合起来就是0xCED275。

    我们怎么区分某个字节代表一个单独的字符还是代表某个字符的一部分呢?别忘了ASCII字符集只收录128个字符,使用0~127就可以表示全部字符,所以如果某个字节是在0~127之内的,就意味着一个字节代表一个单独的字符,否则就是两个字节代表一个单独的字符

    GBK字符集

    GBK字符集只是在收录字符范围上对GB2312字符集作了扩充,编码方式上兼容GB2312。

    utf8字符集

    收录地球上能想到的所有字符,而且还在不断扩充。这种字符集兼容ASCII字符集,采用变长编码方式,编码一个字符需要使用1~4个字节,比方说这样:

    • ‘L’ -> 01001100(十六进制:0x4C)
    • ‘啊’ -> 111001011001010110001010(十六进制:0xE5958A)

    其实准确的说,utf8只是Unicode字符集的一种编码方案,Unicode字符集可以采用utf8、utf16、utf32这几种编码方案,utf8使用1~4个字节编码一个字符,utf16使用2个或4个字节编码一个字符,utf32使用4个字节编码一个字符

    对于同一个字符,不同字符集也可能有不同的编码方式。比如对于汉字’我’来说,ASCII字符集中根本没有收录这个字符,utf8和gb2312字符集对汉字我的编码方式如下:

    • utf8编码:111001101000100010010001 (3个字节,十六进制表示是:0xE68891)
    • b2312编码:1100111011010010 (2个字节,十六进制表示是:0xCED2)
    展开全文
  • Oracle 字符集常见字符集及解决方案

    Oracle 字符集常见字符集及解决方案

    参考文章:

    (1)Oracle 字符集常见字符集及解决方案

    (2)https://www.cnblogs.com/zlp520/p/9574081.html


    备忘一下。


    展开全文
  • 设置修改sybase字符集及各种常用字符集介绍
  • 常用字符集简介

    2012-04-04 17:28:10
    常用字符集简介(包括ascii,gb2312,gbk,utf-8)
  • 常用字符集编码详解

    2008-01-15 09:18:41
    常用字符集编码详解,常用字符集编码详解
  • Oracle 字符集常见字符集及解决方案 优先级别:alter session>环境变量>注册表>参数文件 一.查看字符集: 1.查询服务端字符集: select userenv(‘language’) from dual or select * from nls_database_...

    Oracle 字符集常见字符集及解决方案

    优先级别:alter session>环境变量>注册表>参数文件

    一.查看字符集:

    1.查询服务端字符集:

    select userenv(‘language’) from dual
    在这里插入图片描述

    or

    select * from nls_database_parameters

    2.查询客户端:

    select * from nls_instance_parameters

    客户端字符集与服务端字符集不一致就会出现乱码等问题
    在这里插入图片描述

    3.会话字符集:

    select * from nls_session_parameters
    在这里插入图片描述

    二.修改字符集:

    1.修改客户端字符集:(推荐)

    打开注册表:cmd-regedit

    HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\KEY_OraDb10g_home1的NLS_LANG

    修改NLS_LANG的值为:

    比如服务端是:SIMPLIFIED CHINESE_CHINA.AL32UTF8那么客户端也修改成它即可

    如果通过注册表方式还是没有解决问题,去修改环境变量:NLS_LANG

    dos命令:set nls_lang=AMERICAN_AMERICA.ZHS16GBK

    2.服务器端字符集修改:(慎重)

    三.常用字符集:

    ZHS16GBK

    ZHS16CGB231280

    AL32UTF8 9i出现的

    语法:国家_时间格式.字符集格式

    AMERICAN_AMERICA.ZHS16GBK

    SIMPLIFIED CHINESE_CHINA.ZHS16GBK

    SIMPLIFIED CHINESE_CHINA.AL32UTF8

    四.字符集表:

    在这里插入图片描述在这里插入图片描述

    展开全文
  • 常见字符集&乱码问题

    2020-09-29 10:17:41
    常用字符集分类 ASCII及其扩展字符集 作用:表语英语及西欧语言。 位数:ASCII是用7位表示的,能表示128个字符;其扩展使用8位表示,表示256个字符。 范围:ASCII从00到7F,扩展从00到FF。 ISO-8859-1字符集 ...

    字符集

    常用字符集分类

    ASCII及其扩展字符集

    作用:表语英语及西欧语言。

    位数:ASCII是用7位表示的,能表示128个字符;其扩展使用8位表示,表示256个字符。

    范围:ASCII从00到7F,扩展从00到FF。

    ISO-8859-1字符集

    作用:扩展ASCII,表示西欧、希腊语等。

    位数:8位, 范围:从00到FF,兼容ASCII字符集。

    GB2312字符集

    作用:国家简体中文字符集,兼容ASCII。

    位数:使用2个字节表示,能表示7445个符号,包括6763个汉字,几乎覆盖所有高频率汉字。

    范围:高字节从A1到F7, 低字节从A1到FE。将高字节和低字节分别加上0XA0即可得到编码。

    GBK字符集

    作用:它是GB2312的扩展,加入对繁体字的支持,兼容GB2312。

    位数:使用2个字节表示,可表示21886个字符。

    范围:高字节从81到FE,低字节从40到FE。

    UNICODE字符集

    作用:为世界650种语言进行统一编码,兼容ISO-8859-1。

    位数:UNICODE字符集有多个编码方式,分别是UTF-8,UTF-16和UTF-32。

    BIG5字符集

    作用:统一繁体字编码。

    位数:使用2个字节表示,表示13053个汉字。

    范围:高字节从A1到F9,低字节从40到7E,A1到FE。

    GB18030字符集

    作用:它解决了中文、日文、朝鲜语等的编码,兼容GBK。

    位数:它采用变字节表示(1 ASCII,2,4字节)。可表示27484个文字。

    范围:1字节从00到7F; 2字节高字节从81到FE,低字节从40到7E和80到FE;4字节第一三字节从81到FE,第二四字节从30到39。

    UCS字符集

    作用:国际标准 ISO 10646 定义了通用字符集 (Universal Character Set)。它是与UNICODE同类的组织,UCS-2和UNICODE兼容。

    位数:它有UCS-2和UCS-4两种格式,分别是2字节和4字节。

    范围:目前,UCS-4只是在UCS-2前面加了0x0000。

    按所表示的文字分类

    语言字符集 正式名称
    英语、西欧语ASCIIISO-8859-1MBCS 多字节
    简体中文GB2312MBCS 多字节
    繁体中文BIG5MBCS 多字节
    简繁中文GBKMBCS 多字节
    中文、日文及朝鲜语GB18030MBCS 多字节
    各国语言UNICODE,UCSDBCS 宽字节

     

    编码间的转换:

    要求:要知道当前内容的编码格式和要转换为的编码格式:

    示例:

    1

    2

    String username = request.getParameter("username").trim();

    String password = request.getParameter("password").trim();

    获取到的String类型变量:username和password的编码格式为:ISO-8859-1   

    如何将他们转换成UTF-8编码,不要出现乱码,代码如下:

    1

    2

    3

    4

    5

    String parameter = request.getParameter("username");

    //获取到参数对应的二进制数

    byte[] temp = parameter.getBytes("iso-8859-1");

    //通过对应的二进制数 手动编码成utf-8的字符串

    String param = new String(temp, "utf-8");

     原理:

        相同的内容在计算机中的二进制编码是一样的,所以在不同编码间内容传递时,要想不出现乱码,先将该内容按其原编码转换为二进制序列。然后再将这个二进制序列按照要转换的编码进行翻译,就不会出现乱码。

     

    出现的乱码形式的含义:

    ??????    --->    代表字符编码不匹配造成

    å¸é¾       --->    代表没有该编码方式

    展开全文
  • 常见字符集和编码方式

    千次阅读 2017-11-19 12:32:46
    常见字符集和编码方式ASCII、Unicode、GBK、GBK2312、UTF-8这些字符集和编码方式的名词总是让我们纠结,那么他们有什么区别呢?一般来讲,除了UTF-8是字符集Unicode的编码方式,其余的例如ASCII、GBK等都属于字符集...
  • 常见字符集1.ISO8859-1 : 西欧字符集2.BIG5 : 台湾大五码 — 繁体字符集3.GB2312 : 大陆 — 简体中文字符集4.GBK : GB2312的扩展 — 可以表示繁体中文5.GB18030 : GBK的扩展 — 中国范围内所有语言字符集1....
  • C++中处理字符集常见字符集介绍

    千次阅读 2019-03-11 09:40:17
    C++提供不同的字符类型用以应付前述字符集: ·char可被用于所有8bit以下的字符集,例如US-ASCII、ISO-Latin-1和ISO-Latin-9。此外它可被用于UTF-8的8bit值。 ·char16_t(始自C++11)可被用于UCS-2,也可用于UTF-16...
  • 搞清常用编码特性是解决字符集编码问题的基础。字符集编码的识别与转换、分析各种乱码产生的原因、编程操作各种编码字符串(例如字符数计算、截断处理)等都需要弄清楚编码的特性。 了解一种字符集编码主要是要了解...
  • VC_几种常见字符集以及字符串的转化方法
  • 字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。 字符编码:给每个字符编号...
  • 字符集、GB2312、utf-8、iso-8859
  • 常见字符集简介

    2013-07-10 13:36:58
    字符集就是字符内码到字符的表现形式之间的映射的集合。ASCII字符A是就内码0x41的表现形式,所以在很多程序语言中,字符变量和整型变量仅在一念之差。 1. ISO8859系列 ISO8859包括诸如ISO8859-1,ISO8859-2之类...
  • 正则表达式常用字符集

    千次阅读 2015-12-30 11:39:30
    \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "(" $ 匹配输入字符串的结束位置。...
  • MySQL常用字符集

    2015-12-26 23:36:55
    latin1: MySQL默认字符集。 1.如处理各种各样文字,发布到不同语言国家地区(处理英文),应选Unicode 对 MySQL就是UTF-8(每个汉字三字节)如果应用需处理英文,仅有少量汉子UTF-8更好。 2.
  • Java常用字符集编码详解 Web开发的时候经常会遇到一些字符编码的错误,如页面乱码等问题,所以有必要需对字符编码有所了解,以下是Ricki收集的一些资料(可能不是很全,但希望对你有所帮助) Java标准字符集:所谓...
  • 常用字符集分类

    2012-11-08 21:04:55
    1.1 简介· ASCII及其扩展字符集作用:表语英语及西欧语言。位数:ASCII是用7位表示的,能表示128个字符;其扩展使用8位表示,表示256个字符。范围:ASCII从00到7F,扩展从00到FF。 · ISO-8859-1字符集作用:...
  • oracle常用字符集

    2008-11-04 17:58:00
    Windows:# 常用中文字符集set NLS_LANG=SIMPLIFIED CHINESE_CHINA.ZHS16GBK# 常用unicode字符集set NLS_LANG=american_america.AL32UTF8可以通过修改注册表键值永久设置HKEY_LOCAL_MACHINE"SOFTWARE"ORACLE"HOMExx...
  • 常见字符集及编码

    千次阅读 2016-09-09 17:02:35
    字符集(Character set) 是一个系统支持的所有抽象字符的集合。通常以二维表的形式存在,二维表的内容和大小是由使用者的语言而定。如ASCII,GBxxx,Unicode等。 字符编码(Character encoding) 是把字符集中的字符编码...
  • 常用字符集编码详解 ASCII GB2312 GBK GB18030 UTF-8 unicode
  • 参考:https://www.cnblogs.com/happyday56/p/4135845.html
  • 常用字符集编码详解:ASCII 、GB23…

    千次阅读 2014-12-16 20:33:14
    标题:常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、unicode、UTF-8   ASCII ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7...
  • 常用字符集及编码

    千次阅读 2010-01-22 09:47:00
    好像第一次遇到跟字符集有关的问题大概应该是在7年前,第一次写java,总是会出现编码转换的问题,动不动就乱码,基本上,本着实用主义的态度,以盲人 摸象的手法,总算是能够解决问题的。这些年来,不停的会遇到编码...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 428,887
精华内容 171,554
关键字:

常见的字符集