精华内容
下载资源
问答
  • 特征选择卡方检验

    2021-02-03 02:20:42
    原标题:特征选择卡方检验0 1卡方检验是什么卡方检验是一种统计量的分布在零假设成立时近似服从卡方分布的假设检验。在没有其他的限定条件或说明下,卡方检验一般指的是皮尔森卡方检验。——《维基百科》 上图表示...

    原标题:特征选择:卡方检验

    0 1

    卡方检验是什么

    卡方检验是一种统计量的分布在零假设成立时近似服从卡方分布的假设检验。在没有其他的限定条件或说明下,卡方检验一般指的是皮尔森卡方检验。——《维基百科》

    61a098a1e17bd5ccd87be12437347cd4.png

    上图表示分别在1、2、3、4、5的自由度下,卡方统计量(X轴)与P值(P-value,Y轴)之间的变化关系。

    0 2

    卡方检验与特征选择

    特征选择是针对所要解决的问题从原始特征集选择到一组最佳的特征子集,具体包括删除无关的,冗余的,含有噪声的特征。

    对于分类问题,在Filter方法中一般假设与分类目标独立的特征为无关特征,而 卡方检验可以进行 独立性检验,所以其适用于 特征选择。

    K方检验做特征选择属于一种 Filter方法,如果检验结果是某个特征与标签独立,则可以删除该特征。

    7eb7620f0676367185a586e94b93b094.gif

    0 3

    R语言实现卡方检验的特征选择

    现在利用R语言实现卡方检验的特征选择。

    参考代码如下:

    ##################

    #特征选择:K方检验

    #################

    # R包

    library(FSelector)

    library(mlbench)

    # 导入数据集

    data(HouseVotes84)

    # 数据集变量类型查看

    sapply(HouseVotes84, class)

    # 目标变量的分布

    table(HouseVotes84 $Class)

    # 利用K方检验判断特征集与目标变量是否无关

    weights

    print(weights)

    # 特征选择的策略

    # 1)按着Top-N的方法选择特征集

    subset

    print(subset)

    # 2)按着Top-P(百分比)的方法选择特征集

    subset1

    print(subset1)

    # 利用选择的特征集与目标变量组合成新的拟合关系式子

    f1

    print(f1)

    f2

    print(f2)

    结果如下:

    834ac9750909a3ea4079e3aa8c62016c.png

    2a68a085328b533f0cfb67b71590bf5e.png

    思考题:

    1 卡检验的计算逻辑是什么?

    2 卡方检验可以做什么?

    特征选择

    你点的每个在看,我都认真当成了喜欢 返回搜狐,查看更多

    责任编辑:

    展开全文
  • 特征处理完成之后,用sklearn中的SelectKBest方法选择最佳特征:from sklearn.feature_selection import SelectKBest0 什么是卡方检验卡方检验主要用于分类变量之间的独立性检验,换言之,就是检验两个变量之间有...

    特征处理完成之后,用sklearn中的SelectKBest方法选择最佳特征:

    from sklearn.feature_selection import SelectKBest

    1313716-20200304104427344-1327496197.png

    0 什么是卡方检验

    卡方检验主要用于分类变量之间的独立性检验,换言之,就是检验两个变量之间有没有关系。

    例如,研究学历对收入的影响是否显著性;

    男性或者女性对线上买生鲜食品有没有区别;

    不同的治疗方法是否有明显效果。

    基本思想是根据样本数据推断总体分布与期望分布是否有显著性差异,或者推断两个分类变量是否相关或者独立。

    一般可以设原假设为 :观察频数与期望频数没有差异,或者两个变量相互独立不相关。

    实际应用中,我们先假设原假设成立,计算出卡方值,卡方表示观察值与理论值间的偏离程度。

    1 卡方值计算公式

    1313716-20200304103711016-1161026807.png

    A是观察值,即真实统计值;

    E是理论值(期望频数),即假设两个变量不相关情况下的期望值。

    例如,我们通过问卷调查的方式得到如下数据,展示了本科和研究生收入是否过万的人数。

    1313716-20200304103734005-965313730.png

    首先,假设学历和收入过万两个变量不想关,我们先计算收入过万和不过万人数的分布。

    收入过万人数 = 收入过万人数/(收入过万人数 + 收入不过万人数)=501/813=62%

    然后计算本科收入过万和研究生收入过万人数的理论值,即本科和研究生收入过万的人数都是总计*62%。

    本科收入过万理论值=581*62%=360

    其余的计算类似。

    1313716-20200304103829786-40101831.png

    1313716-20200304103838543-2145839330.png

    卡方值 X2=28.797

    2 卡方检验

    卡方检验分四步,检验两个变量是否关联

    1 计算卡方值

    2 求自由度 (行数 - 1)*(列数 - 1)

    3 设定显著性水平值

    4 根据以上计算结果查表

    显著性水平是假设检验中的一个概念,是指当原假设为正确时人们却把它拒绝了的概率或风险。

    它是公认的小概率事件的概率值,必须在每一次统计检验之前确定,通常取α=0.05或α=0.01。

    这表明,当作出接受原假设的决定时,其正确的可能性(概率)为95%或99%。

    这里我们计算的卡方值是28.797

    自由度计算为1

    显著性水平为0.05

    查表可得28.797 > 3.841,说明原假设在0.05的显著性水平下是可以拒绝的,就是说原假设不成立,学历和收入两个变量相关。

    1313716-20200304103945184-40497216.png

    原文链接:https://blog.csdn.net/weixin_39198406/article/details/100553385

    展开全文
  • 卡方检验特征选择

    千次阅读 2019-03-10 10:21:29
    卡方检验特征选择中常用的算法之一。 卡方分布(chi-square distribution): 定义:若k个独立的随机变量$z_1,z_2,…,z_k$,且$z_i$~$N(0,1)$(i=1,2,…,k), 则这k个随机变量的平方和$Z=z_1^2+z_2^2+…+z_k^2$为服从...

    卡方检验是特征选择中常用的算法之一。

    1. 卡方分布(chi-square distribution):

      定义:若k个独立的随机变量 z 1 , z 2 , … , z k z_1,z_2,…,z_k z1,z2,,zk,且 z i z_i zi~ N ( 0 , 1 ) N(0,1) N(0,1)(i=1,2,…,k), 则这k个随机变量的平方和 Z = z 1 2 + z 2 2 + … + z k 2 Z=z_1^2+z_2^2+…+z_k^2 Z=z12+z22++zk2为服从自由度为k的卡方分布,记为: Z Z Z~ x 2 ( k ) x^2(k) x2(k)

      卡方分布的期望: E ( x 2 ) = n E(x^2)=n E(x2)=n, 方差: D ( x 2 ) = 2 n D(x^2)=2n D(x2)=2n, n为分布的自由度

    2. 卡方检验

      思想:根据样本数据推断总体的分布于期望分布是否有显著性差异.
      卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种.理论证明,实际观察次数 与 理论次数 ,又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,由统计学家皮尔逊推导

      X 2 X^2 X2计算公式: X 2 = ∑ ( A − T ) 2 / T X^2=\sum{(A-T)^2/T} X2=(AT)2/T

      其中 A为实际值,T为理论值

      X 2 X^2 X2包含的信息:1.实际值与理论值偏差的绝对大小;2.差异程度与理论值得相对大小

    3. 卡方检验做特征选择

      假设有一堆新闻标题,需要判断新闻标题是否包含某个词(吴亦凡)与新闻标题是否属于娱乐新闻 是否有统计上的差别?

      组别属于(娱乐)不属于(娱乐)合计
      不包含(吴)192443
      包含(吴)341044
      合计5334(34/87=39.1%)87

      娱乐新闻占比:p=60.9% 。非娱乐:q=39.1%
      包含吴 的娱乐新闻占比更高(34/53=64%),无法排除是否有抽样误差导致的。
      假设:是否包含吴亦凡与新闻是否属于娱乐是独立无关的

      理论(期望)值为:

      组别属于(娱乐)不属于(娱乐)
      不包含(吴)43*p=26.243*q=16.8
      包含(吴)44*p=26.844*q=17.2

      x 2 x^2 x2卡方值为:
      x 2 = ( 19 − 26.2 ) 2 / 26.2 + ( 34 − 26.8 ) 2 / 26.8 + ( 24 − 16.8 ) 2 / 16.8 + ( 10 − 17.2 ) 2 / 17.2 = 10.014 x^2=(19-26.2)^2/26.2+(34-26.8)^2/26.8+(24-16.8)^2/16.8+(10-17.2)^2/17.2=10.014 x2=(1926.2)2/26.2+(3426.8)2/26.8+(2416.8)2/16.8+(1017.2)2/17.2=10.014
      标准的四表格 x 2 x^2 x2卡方值可用以下公式计算:

      x 2 = ( A + B + C + D ) ( A D − B C ) 2 / ( A + B ) ( C + D ) ( A + C ) ( B + D ) x^2=(A+B+C+D)(AD-BC)^2/(A+B)(C+D)(A+C)(B+D) x2=(A+B+C+D)(ADBC)2/(A+B)(C+D)(A+C)(B+D)
      x 2 x^2 x2值越大,则表明实际观察值与期望值偏离越大,也说明两个事件的相互独立性越弱。

    参考文献

    1. 检验是否合理
    展开全文
  • 特征选择 卡方检验

    2020-04-26 16:31:14
    卡方检验(chi square test)能够是一种假设性检验的方法,它能够检验两个分类变量之间是否是独立无关的。它通过观察实际值和理论值的偏差来确定原假设是否成立,它按照以下步骤来检验两个分类变量是否是独立的。 ...

    转自:https://my.oschina.net/u/1779843/blog/889694

    卡方检验(chi square test)能够是一种假设性检验的方法,它能够检验两个分类变量之间是否是独立无关的。它通过观察实际值和理论值的偏差来确定原假设是否成立,它按照以下步骤来检验两个分类变量是否是独立的。

    无关性假设

        假如,有了一些新闻文章,这些新闻的文章已经标好了类别,所以可以得到以下统计的信息。通过下面的表格的第一行和第二行可以得出,文章的内容是否包含“篮球”的确对文章是否是体育类别的有统计上的差别。但是这个值要相差多大才能说明问题呢?这就要用到卡方检验了。

    组别   体育非体育合计
    包含“篮球”34   1044
    不包含“篮球”192443
    合计533487

        用抽样的概率近似与整体的概率,可以得到随机的一个新闻文章,其属于体育类别的概率是:(34 + 19)/ (34 + 19 + 10 + 24) = 0.609。

        无关性假设是:文章是否包含“篮球“与文章是否属于体育类别是独立无关的。那么根据上面得到的概率,可以得到下面的表格。

    理论值四格表

        如果文章是否包含“篮球“与文章是否属于体育类别是独立无关的。且一个新闻文章属于体育类别的概率是0.609,那么可以得到下面的表格。因为文章是否包含“篮球“与文章是否属于体育类别是独立无关的,所以不管文章中是不是包含”篮球“,其属于体育类别的概率都是0.609。

          如果两个分类变量真的是独立无关的,那么四格表的实际值与理论值得差值应该非常小(有差值的原因是因为抽样误差)。那么如何衡量实际值与理论值得差值呢?

    组别体育非体育
    包含”篮球“44 * 0.609 = 26.844 * 0.391 = 17.2
    不包含”篮球“43 * 0.609 = 26.243 * 0.391 = 16.8

    卡方检验公式

    卡方检验的公式如下,其中A为实际值,也就是第一个四格表中的四个数据。T为理论值,也就是理论四格表中的四格数据。

        X2值用于衡量实际值与理论值得差异程度,包含了以下两个信息:

    • 实际值与理论值偏差的绝对大小(由于平方的存在,差异被放大了)
    • 差异值与理论值得相对大小。

        上述场景的CHI = 10.10

        上面的公式还可以进一步进行化简为下面的公式:

    组别   体育非体育合计
    包含“篮球”34 (A) 10(B)44(A+B)
    不包含“篮球”19(C)24(D)43(C+D)
    合计53(A+C)34(B+D)87(N)

     

    卡方分布的临界值

        当通过上述的公式计算得到CHI的值以后,该如何判断我们的原假设是否成立呢?可以通过查询卡方分布的临界值表来查看我们的原假设是否成立。

        自由度F = (行数 - 1) * (列数 - 1) = 1,对于四格表,F = 1。

        由于自由度F = 1,所以只需要看分布表的第一行。可以看到,随着CHI的增大,原假设成立的概率就越小。因为10.10 > 6.64,所以原假设成立是概率是小于1%。反之,也就是说,原假设不成立(即两个分类变量不是独立无关)的概率大于99%。

    如何应用于特征选择

        CHI值越大,说明两个变量越不可能是独立无关的,也就是说X2越大,两个变量的相关程序也就越高。对于特征变量x1,x2,...,xn,以及分类变量y。只需要计算CHI(x1, y)、CHI(x2, y)、...、CHI(xn, y),并按照CHI的值从大到小将特征排序,然后选择阈值,大于阈值的特征留下,小于阈值的特征删除。这样就筛选出一组特征子集了,接着使用这组特征子集去训练分类器,然后评估分类器的性能。

        因为只要比较CHI值得相对大小,所以上述的分布表就没用了。

    参考:

    卡方检验基础:http://blog.csdn.net/idatamining/article/details/8564966

    卡方检验原理及应用:https://segmentfault.com/a/1190000003719712

    卡方检验用于特征选择:http://blog.csdn.net/idatamining/article/details/8564981

    展开全文
  • 在看这篇文章之前,如果对卡方检验不熟悉,可以先参考:卡方检验Python有包可以直接实现特征选择,也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。1. 首先import包和实验数据:...
  • 卡方检验特征选择

    2017-12-07 11:36:07
    参考: ...卡方检验,或称x2检验,是一种常用的特征选择方法,尤其是在生物和金融领域。χ2 用来描述两个事件的独立性或者说描述实际观察值与期望值的偏离程度。χ2值越大,则表明实际观察值与
  • 卡方检验用于特征选择(二)

    千次阅读 2017-04-26 15:41:55
    卡方检验用于检验观测到的数据是否服从特定多项分布。假设一组数据样本 即有2个整数"1",2个整数"2"和1个整数"3"。如果要判断这个多项分布的概率是否等于,便需要使用卡方检验了。卡方检验的...
  • 前言:上一篇提到了特征提取,或者...之前对卡方检验做过介绍:卡方检验是通过对特征进行打分然后排序,选择排名靠前的特征来表示文本。目录:一:卡方检验的介绍1.接下来简单介绍一下卡方检验:(官方定义)卡方检验...
  • 1 - 基于卡方检验特征选择

    万次阅读 多人点赞 2016-11-01 10:22:07
    基于卡方检验特征选择,更多也可参考http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html———————— 原理简介 ———————— 卡方检验(\(\chi ^2\) test...
  • 学习链接:https://www.cnblogs.com/dacc123/p/8746247.html 转载于:https://www.cnblogs.com/icode-girl/p/9947436.html
  • 特征选择-卡方检验用于特征选择

    万次阅读 2017-06-03 21:06:57
    卡方分布若n个相互独立的随机变量X1X_1、X2X_2、…\ldots、XnX_n,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个随机变量的平方和Q=∑ni=1X2iQ=\sum_{i=1}^nX_i^2构成一个新的随机变量,其分布规律...
  • 卡方检验用于特征选择(一)

    千次阅读 2017-04-26 15:31:53
    为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好...
  • 1 卡方检验 卡方检验就是统计样本的理论频次和实际频次的吻合程度或拟合优度。卡方值越大,二者偏离程度就越大。卡方值为0,则表明与理论值完全相符。其计算公式如下:
  • 卡方检验用于特征选择

    万次阅读 2013-02-02 12:35:38
    为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好...
  • 利用卡方检验进行特征选择及实践

    千次阅读 2018-09-07 12:16:02
    卡方检验概述 卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行话就叫做“原假设”),然后观察实际值(也可以叫做观察值)与理论值...
  • Python特征选择

    2020-12-01 14:15:06
    (»原文链接)特征选择特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。多维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合,因此需要做降维处理,常见的降维方法有 PCA,t-SNE(计算复杂度...
  • 特征选择是一个重要的数据预处理过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,此后在训练学习器,如下图所示:进行特征选择有两个很重要的原因:避免维数灾难:能剔除不相关(irrelevant)或冗余...
  • 卡方检验——特征选择使用方法

    千次阅读 2013-12-30 13:26:13
    特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你...
  • 为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好...
  • 特征选择卡方检验

    2020-11-29 00:47:49
    特征选择的常用方法之一是卡方检验,作为一个filter model的代表,卡方检验属于简单易计算的Feature weight algorithm(通过一定的measure方法给特征赋上一定的weight来表征与类别之间的相关度,通过weight大于一定...
  •  1. TF-IDF的误区 TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的...也就是说该选择特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀...
  • 卡方检验用于特征提取

    千次阅读 2016-05-22 10:31:14
    为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好...
  • 特征选择卡方检验与互信息) 特征选择的主要目的有两点: 减少特征数量提高训练速度,这点对于一些复杂模型来说尤其重要 减少noisefeature以提高模型在测试集上的准确性。一些噪音特征会导致模型出现错误的泛化...
  • 收集好了训练样本集,需要对文本词语进行特征选择特征选择的意义有两个:1.去掉噪音去噪一个是去掉无意义的词,像只有几个文档出现过的词,或者每一个文档都出现的词。或者在很多类别里面都存在的词,其实都没有太...
  • 特征选择之Chi卡方检验 卡方值越大,说明对原假设的偏离越大,选择的过程也变成了为每个词计算它与类别Ci的卡方值,从大到小排个序(此时开方值越大越相关),取前k个就可以。 针对英文纯文本的实验结果表明:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,601
精华内容 2,240
关键字:

卡方检验特征选择