精华内容
下载资源
问答
  • UTF-8编码

    2021-03-26 11:43:37
    这个标题有点标题党了,其实我想写的是UTF-8编码的一些概况,以及如何使用PHP识别UTF-8编码和PHP对UTF-8编码的支持。 文章的目的只是为了理清原本不清楚的概念,完善知识体系。概述在不远的曾经,如果应用需要支持...

    这个标题有点标题党了,其实我想写的是UTF-8编码的一些概况,以及如何使用PHP识别UTF-8编码和PHP对UTF-8编码的支持。 文章的目的只是为了理清原本不清楚的概念,完善知识体系。

    概述

    在不远的曾经,如果应用需要支持国际化(i18n),则需要应用程序能够使用不同的字符集和编码输入、存储和输出数据。 不同的字符集都可以展现和编码定义好的字符,但是一个字符集不能使用另一个字符集来显示。 当人们受不了这种不兼容时,人们开始考虑使用一种标准的字符集和编码来统一这个世界。 于是,在1991年,Unicode产生了。 它涵盖了所有已知的可写语言的所有字符的字符集。而UTF-8编码只是UNICODE的一种变长度的编码表达方式。

    维基百科中对于UTF-8编码的解释是: UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码(定长码), 也是一种前缀码。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容, 这使得原来处理ASCII字符的软件无须或只须做少部份修改,即可继续使用。

    UTF-8适用于紧凑地存储拉丁字母。UTF-8编码的一个优点是它可以编码成字节流,这样可以将透明化底层的体系架构。

    UTF-8字节布局

    字节数

    位数

    UTF-8字节流

    1

    7

    0xxxxxxx

    2

    11

    110xxxxx 10xxxxxx

    3

    16

    1110xxxx 10xxxxxx 10xxxxxx

    4

    21

    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

    5

    26

    111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

    6

    31

    1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

    7

    36

    11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

    8

    42

    11111111 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

    关于BOM

    BOM是Byte Order Mark的简称, 它出现在Unicode流的开头部分,用来说明编码类型。因为系统可能是big endian,也可能是little endian, 或者是多字节的Unicode编码.把BOM放置在文件开头部分,利用它来判断字节序。

    在UTF-8编码中,BOM没有太大的意义,并且不推荐使用它。在HTML或XML的文件开头放置BOM,可能会导致无法解析。 在PHP中,如果头部有BOM,则可能会出现网页头部多一行、导致网页出现乱码或者其它不可预知的错位或错误, 因此,我们应该避免在PHP模板文件或源码代码文件的开头放置BOM。 但是Windows下,有些程序会默认给utf-8文件添加BOM,此时需要手动清除BOM头, 如果此类文件太多,可以考虑写程序遍历指定目录下所有文件,清除开头的BOM.

    使用UTF-8编码

    输出UTF-8编码文件

    如果要告诉浏览器你输出的编码格式,在PHP中可以使用:

    header("Content-Type: text/html; charset=utf-8");

    除了这种PHP的方式,也可以使用meta标签设置编码:

    对于xml文档,它可以直接支持编码作为xml的一部分。

    PHP中的UTF-8编码支持

    在PHP中,内置的字符串函数并不支持多字节的字符串,Unicode需要mbstring扩展支持,此扩展重载了现有的字符串处理函数。 PHP6计划将Unicode支持内置到语言中。

    Mysql中的utf-8

    如果我们的Mysql是使用utf-8编码,则在执行查询前经常会使用

    SET names utf8;

    它的作用相当于执行下面的三条语句:

    SET character_set_client = utf8;

    SET character_set_results = utf8;

    SET character_set_connection = utf8;

    在应用中出现编码问题,一个比较笨却有效的办法是将PHP文件,mysql客户端,mysql服务器端,前端页面,全部统一用utf-8编码。 另外在phpMyAdmin中有多种字符集,其中utf8_unicode_ci和utf8_general_ci是最常用的, 但是utf8_general_ci对某些语言的支持有一些小问题,如果可以接受, 那最好使用utf8_general_ci,因为它速度快。否则,请使用较为精确的utf8_unicode_ci,不过速度会慢一些。

    识别UTF-8编码

    在应用开发过程中,如果需要验证输入是否为UTF-8序列,则可能需要写代码实现相关功能。 虽然我们可以指定前端页面为UTF-8,但是我们并不能控制到服务器的数据一定是从指定的页面发送的。 因此,我们需要识别UTF-8编码。

    /**

    * 识别UTF-8编码 判断一个字符串是否为utf-8编码 2011-04-18 sz

    * @author phppan.p#gmail.com

    * http://www.phppan.com

    * 哥学社成员(http://www.blog-brother.com/)

    * TIPI团队成员(http://www.php-internal.com/)

    * @package blog

    */

    /**

    * 判断一个字符串是否为utf-8编码 方法一

    * 依据UTF-8编码的字节布局,以逆向思维,通过判断其不是UTF-8编码来判断正确性。

    * 此算法来源于<>

    * @param $string

    */

    function is_utf8($string) {

    $pattern = '[\xC0-\xDF]([^\x80-\xBF]|$)'; // 匹配110xxxxx,其后应该有1个字节,如果此字节无法匹配10xxxxxx,或为结束符,则不是utf-8

    $pattern .= '|[\xE0-\xEF].{0,1}([^\x80-\xBF]|$)'; //匹配1110xxxx,其后应该有2个字节,

    $pattern .= '|[\xF0-\xF7].{0,2}([^\x80-\xBF]|$)';//匹配11110xxx,其后应该有3个字节,

    $pattern .= '|[\xF8-\xFB].{0,3}([^\x80-\xBF]|$)';//匹配111110xx,其后应该有4个字节,

    $pattern .= '|[\xFC-\xFD].{0,4}([^\x80-\xBF]|$)';//匹配1111110x,其后应该有5个字节,

    $pattern .= '|[\xFE-\xFE].{0,5}([^\x80-\xBF]|$)';//匹配1111110,其后应该有6个字节,

    $pattern .= '|[\x00-\x7F][\x80-\xBF]';

    $pattern .= '|[\xC0-\xDF].[\x80-\xBF]';

    $pattern .= '|[\xE0-\xEF]..[\x80-\xBF]';

    $pattern .= '|[\xF0-\xF7]...[\x80-\xBF]';

    $pattern .= '|[\xF8-\xFB]....[\x80-\xBF]';

    $pattern .= '|[\xFC-\xFD].....[\x80-\xBF]';

    $pattern .= '|[\xFE-\xFE]......[\x80-\xBF]';

    $pattern .= '|^[\x80-\xBF]';

    return preg_match("!$pattern!", $string) ? FALSE : TRUE;

    }

    /**

    * 网上流传的一个验证方法 方法二

    * @link http://www.w3.org/International/questions/qa-forms-utf-8.en.php

    * @param $string

    * @return

    */

    function is_utf8($string) {

    $pattern = '/^(?:';

    $pattern .= '[\x09\x0A\x0D\x20-\x7E]'; # ASCII

    $pattern .= '|[\xC2-\xDF][\x80-\xBF]'; # non-overlong 2-byte

    $pattern .= '|\xE0[\xA0-\xBF][\x80-\xBF]'; # excluding overlongs

    $pattern .= '|[\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}'; # straight 3-byte

    $pattern .= '|\xED[\x80-\x9F][\x80-\xBF]'; # excluding surrogates

    $pattern .= '|\xF0[\x90-\xBF][\x80-\xBF]{2}'; # planes 1-3

    $pattern .= '|[\xF1-\xF3][\x80-\xBF]{3}'; # planes 4-15

    $pattern .= '| \xF4[\x80-\x8F][\x80-\xBF]{2}';

    $pattern .= ')*$/xs';

    return preg_match($pattern, $string);

    }

    /**

    * 判断字符串是否为utf8编码 方法三

    * @param $string

    * @return

    */

    function is_utf8($string) {

    if (preg_match("/^([" . chr(228) . "-" . chr(233) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}){1}/", $string) == TRUE

    || preg_match("/([" . chr(228) . "-" . chr(233) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}){1}$/", $string) == TRUE

    || preg_match("/([" . chr(228) . "-" . chr(233) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}){2,}/", $string) == TRUE

    ) {

    return TRUE;

    }

    return FALSE;

    }

    第一种和第二种基本类似,结果也基本类似,但是对于“营业”等字符串无法准确的识别。 第三种方法对于上面提到的字符串可以正确识别,但是对于“欧舒丹”等字符串却无法识别。

    展开全文
  • 为实现用C语言写UTF-8编码的文件,测试了以下两种情况。第一种情况,为 fopen 指定一个编码,然后写入 wchar_t 字符串,最终写入的文件就是UTF-8编码的了,原理不清楚,估计是 fwrite 时对 wchar_t 做了编码转换...

    为实现用C语言写UTF-8编码的文件,测试了以下两种情况。

    第一种情况,为 fopen 指定一个编码,然后写入 wchar_t 字符串,最终写入的文件就是UTF-8编码的了,原理不清楚,估计是 fwrite 时对 wchar_t 做了编码转换(如果写入 char 的话就会乱码)。

    #include

    #include

    int main()

    {

    FILE* fp = fopen("test.txt", "wt+,ccs=UTF-8");

    wchar_t* s = _T("hello, 你好!");

    fwrite(s, sizeof(wchar_t), wcslen(s), fp);

    fclose(fp);

    return 0;

    }

    第二种情况,先将字符串编码转换为UTF-8格式的,然后再写入。

    #include

    #include

    #include

    int main()

    {

    FILE* fp = fopen("test.txt", "wb+");

    // 写入UTF-8的BOM文件头

    char header[3] = {(char)0xEF, (char)0xBB, (char)0xBF};

    fwrite(header, sizeof(char), 3, fp);

    char* s = "hello, 你好!";

    wchar_t wc[256];

    // 将ANSI编码的多字节字符串转换成宽字符字符串

    int n = MultiByteToWideChar(CP_ACP, 0, s, strlen(s), wc, 256);

    if ( n > 0 )

    {

    wc[n] = 0;

    char mb[1024];

    // 将宽字符字符串转换成UTF-8编码的多字节字符串

    n = WideCharToMultiByte(CP_UTF8, 0, wc, wcslen(wc), mb, 1024, NULL, NULL);

    if ( n > 0 )

    {

    mb[n] = 0;

    fwrite(mb, sizeof(char), strlen(mb), fp);

    }

    }

    fclose(fp);

    return 0;

    }

    展开全文
  • python3中utf-8编码如何转换?

    千次阅读 2021-01-14 12:19:32
    那小编开始提问了,utf-8编码如何转换?有的小伙伴可能对这个词模模糊糊的有点印象。但是如果我们提到unicode编码大家就会觉得很熟悉。所以今天讲的是unicode编码里的utf-8,大家一起来试试两个不同编码的区别吧,...

    python中的编码之间可以相互转换,这个我们在之前的文章中有讲到。那小编开始提问了,utf-8编码如何转换?有的小伙伴可能对这个词模模糊糊的有点印象。但是如果我们提到unicode编码大家就会觉得很熟悉。所以今天讲的是unicode编码里的utf-8,大家一起来试试两个不同编码的区别吧,也许会有新的惊喜。

    utf-8编码将一个 unicode 字符编码成 1~6 个字节,常用的英文字母被编码成 1 个字节,汉字通常是 3 个字节,只有很生僻的字符才会被编码成 4~6 个字节。注意,从 unicode 到 utf-8 并不是直接的对应,而是通过一些算法和规则来转换的。

    来看一下具体编码例子吧:>>> list('中'.encode('utf-8'))

    [228, 184, 173]

    >>> list('a'.encode('utf-8'))

    [97]

    可以看出,utf-8 将汉字 ‘中’ 编码成了三个字节,将英文字母 ‘a’ 编码成了一个字节,且 utf-8 编码兼容 ASCII 编码。

    拓展:unicode 编码

    为每种语言制定一套编码方式实在是太蠢了!为什么不能把所有语言的所有字符一起编码呢?

    把所有语言统一到一套编码里,这套编码就是 unicode 编码。使用 unicode 编码,无论处理什么文本都不会出现乱码问题了。

    unicode 编码使用两个字节(16 位 bit)表示一个字符,比较偏僻的字符需要使用 4 个字节。

    但是新的问题又来了,如果一段纯英文文本,用 unicode 编码存储会比用 ASCII 编码多占用一倍空间!无论是存储还是传输都很浪费!

    今天对utf-8编码转换的讲解到这里就结束了,不知道小伙伴们有没有熟练掌握呀~小编看了一遍就会了,代码真的很简单。后续有新的类似拓展,小编也会及时更新出来。

    展开全文
  • pythonutf-8编码怎么设置

    千次阅读 2020-12-29 05:16:12
    当使用Python编程时,编码问题一直很让人头疼,程序中经常会碰到如下错误提示:UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)这是由于python在安装时,默认...

    当使用Python编程时,编码问题一直很让人头疼,程序中经常会碰到如下错误提示:UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)

    这是由于python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报上面的错误。

    对于上面问题,一般有2种处理方法:

    方法1:

    在python代码开头加上如下代码块:import sys

    reload(sys)

    sys.setdefaultencoding('utf8')

    这种方法是临时的,只在程序执行时生效,系统默认编码并没有改变。

    方法2

    python安装时默认编码是ascii,通过sys.getdefaultencoding()可以查看默认编码。为了一次性解决问题,我们可以修改python的默认编码。具体操作如下:

    第一步:

    在python安装目录的Lib\site-packages文件夹下新建一个sitecustomize.py文件

    第二步:

    在sitecustomize.py填写如下代码# encoding=utf8

    import sys

    reload(sys)

    sys.setdefaultencoding('utf8')

    第三步:重启python,通过sys.getdefaultencoding()查看默认编码,这时结果为'utf8'

    展开全文
  • 当使用Python编程时,编码问题一直很让人头疼,程序中经常会碰到如下错误提示:UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)这是由于python在安装时,默认...
  • 8编码(其实并非全部的都不是utf-8有效值,确实存在一部分int字段的值,是有效的utf-8编码),因而String对这些值作了转换,获得一些奇怪的utf-8编码值。这样,当咱们用protobuf parse这个String的byte array(这个...
  • UTF-8是UTF-8编码是一种目前广泛应用于网页的编码,它其实是一种Unicode编码,即致力于把全球所有语言纳入一个统一的编码。前UTF-8已经把几种重要的亚洲语言纳入,包括简繁中文和日韩文字。所以在制作某些网站时...
  • I am having problem with the output file from a program using eclipse .i set my eclipse to UTF-8 and withSystem.getProperty("file.encoding")i get UTF-8.i ran my prog via eclipse run-option and the out...
  • 如何在Linux中将文件转换为UTF-8编码

    千次阅读 2020-12-19 23:32:42
    那么最后,我们将看看怎么把几个文件从任何字符集( 字符集 )转换为UTF-8编码的Linux操作系统。正如你可能已经想到的,计算机不理解或存储字母,数字或任何我们作为人类可以感知除了位。 有点只有两种可能的值,即...
  • 概述 本文通过介绍Unicode编码以及对应的两种编码方式UTF-8和UTF-16,让读者... UTF-8编码,包含基础概念和Unicode编码转换到UTF-8编码方式 UTF-16编码,包含基础概念和Unicode编码转换到UTF-16编码方式 Jav
  • 用java生成一个UTF-8文件(指定了utf-...如果文件内容中有中文内容,则生成的文件为UTF-8编码格式。(用windows记事本查看的文本文件是什么格式)也就是说,如果你的文件内容没有中文内容的话,你生成的文件是ANSI编码的。...
  • 而很多的网页都是基于UTF-8编码的,我们PHP处理数据,肯定离不开对字符串的处理,而我们又必须要让数据库编码与网页或者说应用的编码一致,否则就会出现乱码。所以呢,在进行数据存储或者更新之前——调...
  • import java.io.UnsupportedEncodingException;import java.net.URLEncoder;.../***Title:字符编码工具类*Description:*Copyright: flashman.com.cn Copyright (c) 2005*Company: flashman.com.cn*...
  • matlab_UTF-8编码设置

    2021-11-05 20:30:28
    文章目录检查编辑器默认编码:...以下是我修改为UTF-8之后的结果 打开matlab安装目录 将该文件备份一份(lcdata.xml.bak) 修改编码 执行批量替换修改: 这里被替换内容根据当前matlab的版本可能有所不同(比如可能是G
  • 百度歌词显示乱码LRC歌词批量转换UTF-8编码批量转换为GB或ANSI 文本编码批量转换当从百度下载很多歌词的时候,发现在一些MP3上播放总是显示乱码,这时以为是MP3的问题或者是百度歌词的问题,但是两者可以说也没问题...
  • 在word的另存为界面可以设置保存文件为utf-8编码,具体操作请参照以下步骤。1、在电脑上打开目标word文档,然后点击软件界面左上角的“office按钮”图标。2、然后在其下拉窗口中,依次点击“另存为/其他格式”选项。...
  • 展开全部java中怎么把utf-8编码的字符串转成汉字如果确实e5a48de588b63231313335323631343130323136353331333361313964报错,下面我写的一个例子,你可以看一下。importjava.io.FileInputStream;importjava.io....
  • UTF-8编码占几个字节?

    2021-12-08 09:44:36
    占2个字节的:带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文...一个utf8数字占1个字节 一个utf8英文字母占1个字节 少数是汉字每个占用3个字节,多数占用4个字节。 占用3个字节的范围 U+2E80 -
  • 在写cocos的时候需要解析一个文件,但是文件是GBK编码方式,而cocos默认是使用UTF-8所以需要转码,这是在网上找到的代码,但是原本的不能用,这我修改过的。系统环境:MacMini编译器:Xcode游戏引擎:cocos2d-x...
  • SpringMVC-设置UTF-8编码

    2020-12-24 06:51:06
    SpringMVC - 设置UTF-8编码参考全局修改输出为UTF-8编码xmlns:xsi=...
  • 将GBK编码转换成UTF-8编码

    千次阅读 2021-03-23 21:59:36
    将GBK编码的字符串转换为UTF-8编码 /** * 将GBK编码转换成UTF-8编码 * */ protected String gbkConvertToUtf8(String str) throws UnsupportedEncodingException { if (StringUtils.isNotBlank(str)) { //...
  • 问题一: File->Settings->Editor->File Encodings ...将项目中的.idea文件夹中的encodings.xml文件中的编码格式改为uft-8 问题四: File->Settings->Build,Execution,Deployment ->.
  • 当某些文件并不是UTF-8编码的时候,我们可以用命令来查找替换非UTF-8码。那么,如何操作呢?跟紧跟随小编一起来看看Linux系统查找替换非UTF-8编码文件的解决方法。UTF-8首先,开始之前,请先安装enca这个软件包。enca...
  • private static void replace(File file,String searchStr,String replaceStr) { // TODO Auto-generated method stub if... 目前不知道如何更改其用来写文件的编码方式,因此对于创建utf-8文件使用如下方式来代替。
  • eclipse设置UTF-8编码

    2021-03-17 14:32:28
    在开发过程中,我们常会遇到中文乱码问题,因此我们需要将编码格式设一致,一般将编码格式设置为UTF-8格式(根据各自的项目需要设置编码,一般项目大多用UTF-8编码)。下面我们将介绍一下使用Eclipse开发工具进行开发...
  • 2016-04-04 回答检查当前数据库编码。...如果不是以上情况,需要将mysql编码设置为utf-8。具体步骤如下:如果安装mysql时安装了“mysql sever instance configuration wizard”,则只需要启动该程序进行相应...
  • 编码UTF-8 字节数 : 4;编码:UTF-16 字节数 : 2;编码:UTF-16BE 字节数 : 2;编码:UTF-16LE 中文汉字: 字节数 : 2;编码:GB2312 字节数 : 2;编码:GBK 字节数 : 2;编码:GB18030 字节数 : 1;编码:ISO-8859-
  • ~/python-tests $python test.py u'date = 21:01 03/02/11 content = author = \u05d3"\u05e8 \u05d9\u05d5\u05e0\u05d9 \u05e1\u05d8\u05d0\u05e0\u05e6\'\u05e1\u05e7\u05d5 replies = [] title = \u05de\u05d1\u...
  • 然而我们不确定txt文本的原本编码到底是不是UTF-8的,需要进行处理。java为txt文本转码代码如下:InputStream isbr = new FileInputStream(“上传的txt文件”);byte[] head = new byte[3];isbr.read(head);//判断...
  • // 必须用utf-8编码 Json::Reader reader(Json::Features::strictMode()); //Json::Reader reader; Json::Value root; // if (!reader.parse(strContent.c_str(), root))// 否则此处就会返回false { str_out = ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 831,144
精华内容 332,457
关键字:

utf-8编码