精华内容
参与话题
问答
  • Encoding

    千次阅读 2018-08-06 17:23:32
    转载自 https://www.cnblogs.com/criedshy/archive/2012/08/07/2625358.html C# 小叙 Encoding (一) ASCII编码 使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。 UTF-8 可变长度字符编码,...

     

     

    转载自 https://www.cnblogs.com/criedshy/archive/2012/08/07/2625358.html C# 小叙 Encoding (一)

    ASCII编码 使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。

    UTF-8       可变长度字符编码,如果要表示的情况不够时,就会增加字节数。如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的字节数,其余各字节均以10开头。如果只有一个字节则其最高二进制位为0;

    UTF-16     每个字符编码成2个字节,它不会对字符产生任何影响,也不会涉及到压缩处理,性能非常好,

    UTF-32     使用4个字节编码成一个字符。

     

    print(System.Text.Encoding.UTF8.GetBytes("1").Length);//打印 1
    print(System.Text.Encoding.UTF8.GetBytes("hao").Length);//打印 3
    print(System.Text.Encoding.UTF8.GetBytes("好人").Length);//打印 6
    print(System.Text.Encoding.Default.BodyName);//打印 gb2312

    展开全文
  • Qt encoding

    千次阅读 2011-04-13 22:08:00
    In Qt the supported encodings are: Apple RomanBig5Big5-HKSCSCP949EUC-JPEUC-KRGB18030-0IBM 850IBM 866IBM 874ISO 2022-JPISO 8859-1 to 10ISO 8859-13 to 16Iscii-Bng, Dev, Gjr, Knd, Mlm, Ori, Pnj, Tlg, ...

    In Qt the supported encodings are:

     

    • Apple Roman
    • Big5
    • Big5-HKSCS
    • CP949
    • EUC-JP
    • EUC-KR
    • GB18030-0
    • IBM 850
    • IBM 866
    • IBM 874
    • ISO 2022-JP
    • ISO 8859-1 to 10
    • ISO 8859-13 to 16
    • Iscii-Bng, Dev, Gjr, Knd, Mlm, Ori, Pnj, Tlg, and Tml
    • JIS X 0201
    • JIS X 0208
    • KOI8-R
    • KOI8-U
    • MuleLao-1
    • ROMAN8
    • Shift-JIS
    • TIS-620
    • TSCII
    • UTF-8
    • UTF-16
    • UTF-16BE
    • UTF-16LE
    • UTF-32
    • UTF-32BE
    • UTF-32LE
    • Windows-1250 to 1258
    • WINSAMI2

     

     

    Ref: QTextCode (Qt)

    Ref: Qt4 (Chinese)

    Ref: UNICODE,GBK,UTF-8

     

     

    展开全文
  • 配置了web.config设置一些encoding到中文后,日期格式等问题是解决了,但仍然无法处理request.querystring直接传入中文的问题。 我配的web.config ...
  • 请问下setCharacterEncoding()到底是什么含义,注释说是转码,但是由什么码转到什么码,后面参数只有一个 那么 request.setCharacterEncoding("UTF-8");这条语句是什么意思,将请求的编码转为UTF-8,serlvet理解...
  • Accept-Encoding

    千次阅读 2014-03-09 10:11:20
    Accept-Encoding编辑 HTTP Header中Accept-Encoding 是浏览器发给服务器,声明浏览器支持的编码类型[1] 常见的有 Accept-Encoding: compress, gzip //支持compress 和gzip类型 Accept-Encoding: //默认是...

    Accept-Encoding编辑

    HTTP Header中Accept-Encoding 是浏览器发给服务器,声明浏览器支持的编码类型[1]
    常见的有
    Accept-Encoding: compress, gzip //支持compress 和gzip类型
    Accept-Encoding: //默认是identity
    Accept-Encoding: * //支持所有类型 Accept-Encoding: compress;q=0.5, gzip;q=1.0//按顺序支持 gzip , compress
    Accept-Encoding: gzip;q=1.0, identity; q=0.5, *;q=0 // 按顺序支持 gzip , identity
    服务器返回的对应的类型编码header是 content-encoding.服务器处理accept-encoding的规则如下所示 1. 如果服务器可以返回定义在Accept-Encoding 中的任何一种Encoding类型, 那么处理成功(除非q的值等于0, 等于0代表不可接受) 
    2. * 代表任意一种Encoding类型 (除了在Accept-Encoding中显示定义的类型) 
    3.如果有多个Encoding同时匹配, 按照q值顺序排列 
    4. identity总是可被接受的encoding类型(除非显示的标记这个类型q=0) ,
    如果Accept-Encoding的值是空, 那么只有identity是会被接受的类型
    如果Accept-Encoding中的所有类型服务器都没发返回, 那么应该返回406错误给客户端
    如果request中没有Accept-Encoding 那么服务器会假设所有的Encoding都是可以被接受的。
    如果Accept-Encoding中有identity 那么应该优先返回identity (除非有q值的定义,或者你认为另外一种类型是更有意义的)
    注意:
    如果服务器不支持identity 并且浏览器没有发送Accept-Encoding,那么服务器应该倾向于使用HTTP1.0中的 "gzip" and "compress" , 服务器可能按照客户端类型 发送更适合的encoding类型大部分HTTP1.0的客户端无法处理q值

    2编码类型编辑

    GZIP:[2]
    GZIP最早由Jean-loup Gailly和Mark Adler创建,用于UNIX系统的文件压缩。我们在Linux中经常会用到后缀为.gz的文件,它们就是GZIP格式的。现今已经成为Internet 上使用非常普遍的一种数据压缩格式,或者说一种文件格式。 HTTP协议上的GZIP编码是一种用来改进WEB应用程序性能的技术。大流量的WEB站点常常使用GZIP压缩技术来让用户感受更快的速度。这一般是指WWW服务器中安装的一个功能,当有人来访问这个服务器中的网站时,服务器中的这个功能就将网页内容压缩后传输到来访的电脑浏览器中显示出来.一般对纯文本内容可压缩到原大小的40%.这样传输就快了,效果就是你点击网址后会很快的显示出来.当然这也会增加服务器的负载. 一般服务器中都安装有这个功能模块的.
    COMPRESS[3]
    compress是一个相当古老的 unix 档案压缩指令,压缩后的档案会加上一个 .Z 延伸档名以区别未压缩的档案,压缩后的档案可以以 uncompress 解压。若要将数个档案压成一个压缩档,必须先将档案 tar 起来再压缩。由于 gzip 可以产生更理想的压缩比例,一般人多已改用 gzip 为档案压缩工具。
    展开全文
  • 基于sklearn 的one hot encoding

    万次阅读 多人点赞 2016-05-21 22:41:54
    1.one hot编码的由来在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如在广告系统中,用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。...

    项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
    欢迎大家star,留言,一起学习进步

    1.one hot编码的由来

    在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如在广告系统中,用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里,比如CTR预估中最常用的LR。那针对这种情况最简单的处理方式是将不同的类别映射为一个整数,比如男性是0号特征,女性为1号特征。这种方式最大的优点就是简单粗暴,实现简单。那最大的问题就是在这种处理方式中,各种类别的特征都被看成是有序的,这显然是非常不符合实际场景的。

    为了解决上述问题,其中一种可能的解决方法是采用独热编码(One-Hot Encoding)。
    独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。可以这样理解,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的。(本段内容来自网络)

    2.one hot 编码的优点

    由第一部分的分析,很容易看出one hot编码的优点:
    1.能够处理非连续型数值特征。
    2.在一定程度上也扩充了特征。比如性别本身是一个特征,经过one hot编码以后,就变成了男或女两个特征。

    3.为什么能使用one hot

    1.使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。
    2.将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。
    3.将离散型特征使用one-hot编码,可以会让特征之间的距离计算更加合理。比如,有一个离散型特征,代表工作类型,该离散型特征,共有三个取值,不使用one-hot编码,其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是,(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗?显然这样的表示,计算出来的特征的距离是不合理。那如果使用one-hot编码,则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1),那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的,显得更合理。

    4.sklearn里的one hot

    sklearn作为广泛使用深受推崇的机器学习库,自然少不了one hot编码。
    首先上一段sklearn的自带例子:

    import numpy as np
    from sklearn.preprocessing import OneHotEncoder
    
    enc = OneHotEncoder()
    enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1],[1, 0, 2]])
    print "enc.n_values_ is:",enc.n_values_
    print "enc.feature_indices_ is:",enc.feature_indices_
    print enc.transform([[0, 1, 1]]).toarray()
    

    代码运行结果

    enc.n_values_ is: [2 3 4]
    enc.feature_indices_ is: [0 2 5 9]
    [[ 1.  0.  0.  1.  0.  0.  1.  0.  0.]]
    

    要想明白上面代码的意思,我们看看源码中的说明就明白了

       """Encode categorical integer features using a one-hot aka one-of-K scheme.
    
        The input to this transformer should be a matrix of integers, denoting
        the values taken on by categorical (discrete) features. The output will be
        a sparse matrix where each column corresponds to one possible value of one
        feature. It is assumed that input features take on values in the range
        [0, n_values).
    
        This encoding is needed for feeding categorical data to many scikit-learn
        estimators, notably linear models and SVMs with the standard kernels.
    
        Read more in the :ref:`User Guide <preprocessing_categorical_features>`.
    
    Attributes
        ----------
        active_features_ : array
            Indices for active features, meaning values that actually occur
            in the training set. Only available when n_values is ``'auto'``.
    
        feature_indices_ : array of shape (n_features,)
            Indices to feature ranges.
            Feature ``i`` in the original data is mapped to features
            from ``feature_indices_[i]`` to ``feature_indices_[i+1]``
            (and then potentially masked by `active_features_` afterwards)
    
        n_values_ : array of shape (n_features,)
            Maximum number of values per feature.
    
    

    前面一部分是对one-hot的原理解释。Attributes部分是对属性的一些解释:
    n_values:是一个数组,长度为每个特征的所有出现类别的总和。具体到代码里,[[0, 0, 3], [1, 1, 0], [0, 2, 1],[1, 0, 2]]是我们的样本矩阵,[0, 0, 3]是一个样本,每个样本有三维,即三类特征。对于第一维或者说第一类特征,有0,1两种取值;第二类特征,有0,1,2两类特征;第三类特征,有0,1,2,3三类特征,所以

    enc.n_values_ is: [2 3 4]
    

    feature_indices_:根据说明,明显可以看出其是对n_values的一个累加。
    最后enc.transform([[0, 1, 1]]).toarray(),就是将[0,1,1]这个输入样本,用one-hot编码出来的结果咯。

    5.不需要对特征进行归一化的情况

    基于树的方法不需要进行特征的归一化。例如随机森林,bagging与boosting等方法。如果是基于参数的模型或者基于距离的模型,因为需要对参数或者距离进行计算,都需要进行归一化。

    展开全文
  • mean encoding是一种对类别特征编码的方式,假如target value是0和1,训练集中有5行数据的类别是A,对应的target value是[0,1,1,0,0],target均值是0.4,那就给A编码为0.4,这是一种其中mean encoding方式 ...
  • C#中Encoding.Unicode与Encoding.UTF8的区别

    千次阅读 2015-11-13 17:37:41
    今天在园子首页看到一篇博文-简单聊下Unicode和UTF-8,从中知道了UTF-8是Unicode的一种实现方式:Unicode只是给这世界上每个字符规定了一个统一的二进制编号,并没有规定程序该如何去存储和解析。...
  • # idea中maven项目里面pom配置文件中的encoding标签报错# 在eclipse中maven项目可以正常运行,且相应pom不报错,但是在idea中的可以正常运行,但是pom文件中的encoding标签报错,显示Element encoding is not ...
  • One Hot Encoding

    千次阅读 2019-04-07 14:57:04
    One Hot Encoding One Hot Encoding是N位状态寄存器为N个状态进行编码的方式 (1)One Hot Encoding的优缺点: 优点: 1、解决了分类器不好处理属性数据的问题 2、在一定程度上增加了特征的维度 缺点: 1、产生大量...
  • Accept-Encoding: gzip,deflate Content-Type: multipart/form-data; boundary= MIME-Version: 1.0 Content-Length: 6329 Connection: Keep-Alive User-Agent: Apache-HttpClient/4.3.1 (java 1.5) Cookie: ...
  • 关于target encoding与count encoding

    千次阅读 2019-05-16 20:23:53
    先整理一下链接,之后会看。 简介入门: ...一个各种category 变量编码的库: https://github.com/scikit-learn-contrib/categorical-encoding ...http://contrib.scikit-learn.org/categorical-encoding/t...
  • net::ERR_INCOMPLETE_CHUNKED_ENCODING. 昨天做java web开发时遇到了一个比较烦的错误,一直解决不了,前端框架使用的springmvc,Ajax请求加载数据返回json,如果使用post方式就chrome开发者工具就报这个错误,get...
  • vim encoding and font

    千次阅读 2010-11-17 20:03:00
    下文在网络中广泛流传vim里面的编码主要跟三个参数有关:enc(encoding), fenc(fileencoding)和fencs(fileencodings)其中fenc是当前文件的编码,也就是说,一个在vim里面已经正确显示了的文件(前提是你的系
  • Target Encoding

    千次阅读 2018-09-28 16:40:57
    Target Encoding 二分类问题: 记号:   Target&nbsp;Y∈{0,1},Categorical&nbsp;feature&nbsp;XiTarget\text{ }Y\in\{0,1\}, Categorical \text{ }feature\text{ }X_iTarget&nbsp;Y∈{0,1},...
  • Java Encoding

    千次阅读 2017-09-07 16:22:53
    Java程序在Windows命令行编译运行打印中文时,直接在命令行下编译会报错:gbk编码的不可映射字符。Eclipse不存在该问题。 原因:显然是几种编码格式不兼容,但要搞清楚源文件的编码方式、编译生成的class文件编码...
  • C# Encoding

    千次阅读 2018-06-13 15:49:32
    CLR中的Encoding是在System.Text命名空间下的,它是一个抽象类(abstract class), 所以不能被直接实例化,它主要有如下的派生类:ASCIIEnding,UnicodeEncoding,UTF32Encoding,UTF7Encoding,UTF8Encoding,你...
  • temp = Encoding.Convert(Encoding.GetEncoding("big5"), Encoding.GetEncoding("gb2312"), temp); string temp1 = Encoding.Default.GetString(temp); cmd.Parameters.Add(para); para.Value = temp1; ...
  • Python 乱码 no encoding declared

    万次阅读 2019-01-07 19:44:03
    SyntaxError: Non-UTF-8 code starting with '\xd5' in file D:\program\work\Py_test\cn\com\tengen\test\Test2.py on line 2, but no encoding declared; see http://python.org/dev/peps/pep-0263/ ...
  • java Encoding

    千次阅读 2018-07-20 10:08:04
    1 字符编码 2 初始编码 ASCII,一个字节大小, 7位表示, 2^7 -1 = 128 个 编码 。  3 GB2312  3 Unicode 统一码流 
  • Encoding编码

    千次阅读 2018-02-09 18:33:21
    编码编码或者连续化处理是把分类变量转...二进制编码(Binary Encoding)通过用0或者1来表示每个类别不存在或者存在是分类变量量化的一个方法。如果分类变量有k个分类,那么我们需要创建k个二进制变量(理论上来说,...
  • 在 Vim 中,有四个与编码有关的选项,它们是:fileencodings、fileencodingencoding 和 termencoding。在实际使用中,任何一个选项出现错误,都会导致出现乱码。因此,每一个 Vim 用户都应该明确这四个选项的...
  • Character Encoding

    千次阅读 2018-08-15 19:42:22
    Problem Description In computer science, a character is a letter, a digit, a punctuation mark or some other similar symbol. Since computers can only process numbers, number codes are used to repre....
  • 关于 Java 的系统属性 sun.jnu.encoding 和 file.encoding 的区别  sun.jnu.encoding 影响文件名的创建,而 file.encoding 则影响到文件内容。  所以说,在我们使用 Java 处理中文文件的时候,如果发现文件的...
  • 关于Encoding

    2017-03-01 16:12:31
    众所周知计算机只能识别二进制数字,如1010,1001。我们屏幕所看到的文字,字符都是和二进制转换后的结果。将我们的文字按照某种规则转换二进制存储在计算机上,这一个过程叫字符编码,反之就是解码。...
  • PHP Encoding

    千次阅读 2010-11-27 16:53:00
    database.php,连接数组里面加上'encoding'=>'utf8' 2. core.php,确认有Configure::write('App.encoding', 'UTF-8'); response header不用专门设置 3. meta tag: <meta ...
  • XML Encoding

    2011-08-17 19:37:45
    XML Encoding XML documents can contain non ASCII characters, like Norwegian æ ø å , or French ê è é. To avoid errors, specify the XML
  • Encoding

    千次阅读 2006-05-11 15:02:00
    表示字符编码。有关此类型所有成员的列表,请参阅 Encoding ...System.Object System.Text.Encoding System.Text.ASCIIEncoding System.Text.UnicodeEncoding System.Text.UTF7Encoding System.Text.UTF8Encoding

空空如也

1 2 3 4 5 ... 20
收藏数 184,766
精华内容 73,906
热门标签
关键字:

encoding