卡方检验 订阅
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。 展开全文
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
信息
外文名
chi-square test ;X,2-test
定    义
观测值与理论值之间的偏离程度
作    用
资料分析
种    类
假设检验方法
中文名
卡方检验
应    用
分类资料统计推断
卡方检验基本原理
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。注意:卡方检验针对分类变量。 [1] 
收起全文
精华内容
下载资源
问答
  • 卡方检验计算器是专为卡方检验而设计的。在计数资料统计中卡方检验应用非常广泛,使用大型统计软件虽然功能强大,但使用有些不方便,而使用手工计算非常烦琐且易出错。所以使
  • 卡方检验

    2021-01-20 11:35:56
    医学中最最常见的就是四格表的卡方检验,spss教材上计算四格表资料的卡方检验结果值有:Pearson chi-square 、Continuity correction 、Likelihood ratio 、 Fisher’s exact test 、 Linear-by-Linear association ...
  • 同质性和独立性的卡方检验。 计算 I x J 的 P 值 - 表行/列独立性。 参考:DeltaProt 工具箱位于http://services.cbu.uib.no/software/deltaprot/ 输入: X:观察到的频率单元的数据矩阵(I x J -table)。 方法:'...
  • 卡方检验的Matlab实现

    2020-10-02 05:30:14
    基于Matlab实现的卡方检验源代码,欢迎下载,学习交流 1 基于Matlab实现的卡方检验源代码,欢迎下载,学习交流 1
  • 针对低成本惯性测量单元精度受载体机动影响大、先验知识难以准确获知的问题,提出一种采用卡方检验的模糊自适应无迹卡尔曼滤波组合导航算法.首先,根据惯性测量单元的基本情况构造系统噪声的粗略模型;然后,引入卡方...
  • 基于Matlab实现的卡方检验源代码,欢迎下载,学习交流。
  • 卡方检验matlab源程序

    2019-04-19 02:41:41
    卡方检验matlab源程序
  • CHISQUARECONT 将表示 2x2 列联表的 2x2 矩阵作为输入,并且计算获得观察到的和每个更极端的表的概率基于卡方分布的皮尔逊卡方检验。 这当预期频率的总数增加时,卡方检验可能变得不可靠(列联表中的单元格值)不够...
  • pearson证明卡方检验的原文-1900年 里面的证明公式有些复杂,如果是现代的证明,可以参考 https://blog.csdn.net/appleyuchi/article/details/84567158 来阅读
  • H = CHI2TEST2(X) 执行卡方二样本检验两个样本的相似性,在零假设下两个样本来自相同(未指定)的分布。 X1 和 X2 是两个包含离散(分类)数据的向量。 CHI2TEST2 将所有唯一值视为单独的“bins”进行测试目的。 X1...
  • N 指定检验的等概率类区间数。 ALPHA 是用于找到临界卡方值的置信水平参数。 DIST 是一个包含我们正在测试的概率分布的字符串。 请参阅 staitsctics 工具箱以了解支持的发行版 - 'exp'、'gam'、'unif' 是其中的...
  • 基于: https : //stattrek.com/chi-square-test/homogeneity.aspx?tutorial= 对同质性的简单卡方检验,其中您有来自多个总体的单个分类变量。 X应该是一个数组,其中行是总体,列是类别。 输出p值和卡方统计量。
  • 通常情况下,卡方检验是研究分类数据与分类数据之间关系的分析方法,如性别和是否戴隐形眼镜之间的关系。卡方检验通常会涉及卡方值和P值两个名词术语。卡方值与P值有对应关系,P值小于0.05则说明有差异存在,即性别...

    46669604a395918bba28a9e875a8597b.png

    通常情况下,卡方检验是研究分类数据与分类数据之间关系的分析方法,如性别和是否戴隐形眼镜之间的关系。卡方检验通常会涉及卡方值和P值两个名词术语。卡方值与P值有对应关系,P值小于0.05则说明有差异存在,即性别与是否戴隐形眼镜之间有联系。在具体差异分析的基础上,进一步分析不同性别样本戴隐形眼镜的百分比,例如,男性戴隐形眼镜的百分比为30%,而女性戴隐形眼镜的百分比为50%,说明女性样本戴隐形眼镜的比例要明显高于男性样本。

    除此之外,卡方检验(准确说是卡方拟合优度检验)还可以检验定类数据的分布特征是否与预期保持一致。比如本来预计男性和女性的比例各占一半(50%),但收集回来的数据却是45%和55%,那么收集回来的数据是否就明显的偏差预期(50%)呢?此时也可以使用卡方检验。

    卡方检验在实际使用过程中,还可用于问卷多选题的分析(也称作多重响应分析),比如多选题的选择比例是否均匀,也或者单选题和多选题之间的差异关系情况如何呢,均可使用卡方检验进行分析。下表格为卡方检验的实际使用类型说明:

    2b2b86850de7512295e853308ad9ac07.png

    卡方检验实际应用

    1卡方检验理论说明

    通常理解的卡方检验,其检验目的在于定类和定类数据的差异。比如性别和是否戴眼镜的关系,性别和是否戴眼镜都是定类数据,因此可以研究性别和是否戴眼镜的比例是否有明显的差异性。

    除此之外,还有一种卡方检验(准确说是卡方拟合优度检验),其目的是研究定类数据各选项的分布比例上是否有着差异性,比如性别男和女预期是50%和50%,那事实上的样本是否明显的偏离这一比例呢,这种即卡方拟合优度检验。

    在问卷研究里面,有很多的多选题,多选题各项的比例是否均匀呢?那么就可以利用卡方拟合优度检验进行分析(SPSSAU默认提供);如果想研究单选题和多选题的选择差异关系,那么这种是研究定类数据和定类数据的差异性,SPSSAU默认也提供卡方检验结果。

    2 如何使用SPSSAU进行卡方检验

    703eadf28aab48215768f3d38f2af7a4.png

    卡方检验SPSSAU操作

    1) 绝大多数情况下,均是直接研究定类和定类数据差异,SPSSAU共有两个地方可实现,分别是通用方法里面的“交叉(卡方)”和医学研究里面的卡方检验。如果是汇总数据,即加权数据,此时只能使用医学研究里面的卡方检验,同时,如果希望提供更多详细的数据指标,比如自由度,列联系数,Cramer V等,均需要使用医学研究里面的卡方检验。

    2) 如果是进行卡方拟合优度检验,即研究定类数据选项占比差异,此时应该使用医学研究里面的卡方拟合优度检验。操作如下图所示:

    8874e85528d8e22d0d42f2dd9d602515.png

    默认SPSSAU会假定选项的选择比例完全一致,即男和女的比例是50%和50%。如果预期是40%和60%,那么可对“期望值设置(默认相等)”这个按钮进行设置,如下图:

    df21213a860a54037f95c86abae159e2.png

    3) 如果是问卷研究里面的多选题操作,直接使用SPSSAU问卷研究里面对应多选题的按钮即可,比如下图:

    fe588bb8816c17202097c418fed7436c.png

    • 如果是希望研究多选题的选择比例和选择差异情况,那么直接使用‘多选题’;

    • 如果是研究单选题和多选题的差异情况,使用‘单选-多选’;

    • 如果是研究多选题和单选题的差异情况,使用‘多选-单选’;

    • 如果是研究多选题和多选题的差异情况,使用‘多选-多选’;

    特别说明一点:多选题的数据格式非常特殊,一个选项一个标题,比如5个选项就有5个标题,而且需要使用数字标识‘选中’还是‘没有选中’,一般情况下数字1表示‘选中’,数字0表示‘没有选中’。

    如果原始数据使用数字表示选中,null值表示没有选中,那么需要把null值全部替换成数字0,可使用SPSSAU数据处理->异常值功能进行批量处理,把null值即缺失值填补成数字0即可。

    1f72ae4958761fce32f9b6cc6634453d.png

    3 卡方检验相关问题?

    使用卡方检验时,数据格式非常重要,因为SPSSAU支付加权和非加权两种格式,而且有时想利用卡方检验查看相关关系情况,此时还需要看一些新的指标,比如列联系数、Cramer V或Lambda指标等。当然还会有一些其它问题,汇总如下图:

    7f46e600691ef0f5f44f211d7b8d8893.png

    第1点:卡方检验数据格式问题?

    SPSSAU共支持2种数据格式,分别是常规数据格式(非加权格式)和加权格式,如下说明:

    41d1ddbba1d336e9fa055d0fe5323052.png

    上图为常规格式(即非加权格式),一行代表一个样本,一列代表一个属性,将全部的原始数据信息列出即可,比如有100个样本,那么就有100行数据。

    在医学/实验研究时,很多时候只有汇总数据,即带加权项的数据,比如下图中X有2种情况,Y有3个情况,一种有2*3=6种组合,数据信息只有6种组别的汇总项(即加权项),分别是40,10,20,30,20,50;相当于总共有170个样本,如果是使用常规格式(即非加权格式),此时应该有170行;但加权格式则只需要6行即可表示,如下图:

    14deec40c652edfca89a5870e95e48f1.png

    在使用SPSSAU医学研究-》卡方检验,也或者医学研究-》卡方拟合优度检验时,SPSSAU均支持加权数据格式。一旦数据是加权格式,那么分析时需要把‘加权项’放到对应的框中即可。

    第2点:fisher卡方值问题?

    在SPSSAU的医学研究->卡方检验里面,如果数据是2*2格式,比如性别为男和女2个选项,学历分为本科以下和本科以上共2个选项。那么此时为2*2的组合,此时spssau默认会提供fisher卡方检验值。

    当然,SPSSAU还会提供一些其它的卡方指标值,包括pearson卡方,连续校正卡方,各选择单元格的期望值和比例值等中间过程值等等(当然具体应该使用那一个,SPSSAU会自动进行判断和选择),下图仅为中间过程值等。

    ad55365303e7ebd3d6aa8f1fe5282bcb.png

    第3点:相关关系问题?

    如果希望看出差异的幅度,而不仅仅是看是否有差异。除了使用肉眼进行分析,即对比选择百分比的具体值情况进行分析外。还可以使用效应量(effect size),effect size值通常包括Phi、列联系数、校正列联系数、Cramer V和Lambda等。此五个系数的意义都是查看差异幅度,但使用的前提并不一样,通常只需要使用其中一个即可,具体使用的标准和说明如下:

    c95c4f87bd5712f8508a7576beed0217.png

    第4点:到底用卡方,还是方差,也或者非参数检验?

    有时候会出现一种疑问,比如看下面的例子。

    当前想研究性别和满意度的差异关系,满意度分为“非常不满意、比较不满意、一般、满意和非常满意”共五项。满意度看上去更像是定量数据,而非定类数据,但看成是定类数据也可以。

    那么此时到底用卡方呢,还是使用方差(也或者非参数检验呢?)。其实这里的满意度是一种有序的定类数据,一般这种数据可能看成是定量更多,即使用方差分析更适合(当然也可使用卡方检验)。

    但比如医学里面有这样的数据“未见疗效,好转和治愈”,这个也是有序的定类数据,这个仅3项,看成是定类数据就更适合了,所以使用卡方检验较好。

    展开全文
  • 社会调查与统计分析 第九章 双变量分析 知识点9 SPSS应用1交互分 类与卡方检验 交互分类 例1有人认为城市的生活环境更容易让人抑郁于 是他随机调查了定居城市的120人和定居农村的80人 对他们实施抑郁测评结果发现...
  • 卡方检验法在检验学生成绩中的应用
  • chi2test(数据,numOfInterval) 数据:输入随机数numOfInterval:间隔数要求: n/k >= 5 k >= 100
  • 此函数将测试存在季节性时的趋势以及多个观测站的趋势,所有观测站都是卡方统计量。 做了这么多的统计测试,这个函数更像是一个脚本或程序而不是一个函数,但我更喜欢用函数来操作。 该函数在很大程度上依赖于 ...
  • 点击蓝字 关注我们在介绍卡方检验之前,我们先了解一下非参数检验:非参数检验是指在母体不服从正态分布或分布情况不明确时,即不依赖母体分布的类型,用以检验数据是否来自同一个母体假设的一类检验方法,又称分布...
    c56a392f0ded5fbd750fe3b529afe0c0.png

    点击蓝字 关注我们

    在介绍卡方检验之前,我们先了解一下非参数检验

    非参数检验是指在母体不服从正态分布或分布情况不明确时,即不依赖母体分布的类型,用以检验数据是否来自同一个母体假设的一类检验方法,又称分布自由检验。

    那么什么是卡方检验呢?

    01

    卡方检验的定义

    卡方检验是一种极为典型的对总体分布进行检验的非参数检验方法。用于检验数据是否与某种概率分布的理论数字相吻合,进而推断样本数据是否来自该分布的问题。

    卡方检验可以检验属于每一类别对象或反响的观测数目与根据零假设所得的期望数目之间是否有显著差异。卡方检验的目的是根据样本所在母体分布(各类别所占比例)是否与已知母体不相同,是一种单样本检验。

    02

    卡方检验的基本思想

    如果从一个随机变量X中随机抽取若干个观察样本,这些样本落在X的k个互不相交的子集中的观察频率服从一个多项分布,当k趋于无穷大时,这个多项分布近似服从卡方分布。卡方检验的零假设为:总体X服从某种分布,这里的样本认为是来自总体X。

    03

    卡方检验的SPSS操作

    1. 在数据编辑窗口中,执行菜单栏中的【分析】→【非参数检验】→【旧对话框】→【卡方】命令,打开如图1所示的【卡方检验】对话框。

    c72172e5d66de5c6fa297de9260a3dfc.png

    图1

    【期望全距】栏用于确定检验值的取值范围,在此范围之外的取值将不进入分析。

    【期望值】栏用于指定母体的各分类构成比,即期望频率npi的值。

    2. 在主对话框中,单击【选项】按钮,打开图2所示的【卡方检验:选项】对话框。

    ca9c734a137a240d7838a84628e68a8a.png

    图2

    在该对话框中可以定义所输出的统计量和缺失值的处理方式。

    【统计量】栏,可从此栏内选择输出的统计量,包括【描述性】和【四分位数】选项。

    【缺失值】栏,可在此栏内设置处理默认值的方式:【按检验排除个案】为系统默认选项,指在进行检验时,只排除参与检验的变量的默认值;【按列表排除个案】选项,表示剔除所有含有缺失值的个案。

    3. 在主对话框中单击【精确】按钮,打开图3所示的【精确检验】对话框。

    46e00e0f81db46728209f5bc57fd580f.png

    图3

    选择计算显著性水平Sig.值的几种方法,包括以下三个选项:

    ▪ 仅渐进法,这是系统默认的计算显著性水平的方法。计算显著性水平是基于检验统计量的渐进分布假设,如果显著性水平为0.05,检验结果被认为存在显著性差异。要求数据量足够大,如果数据量比较小,或者频率过低,则检验结果可能会失效。

    ▪ Monte Carlo,指蒙特卡洛估计方法,即精确显著性水平的无偏差估计。蒙特卡洛方法是利用给定样本集通过模拟方法重复取样来计算显著性水平,该方法不要求渐进方法中的假设。对于处理不满足渐进假设的巨量数据,同时由于数据的巨量而无法得到精确(精确)的显著性水平时,可以选择该方法。

    ▪ 精确,指精确计算显著性水平的方法。该方法得到精确的显著性水平,不需要渐进方法的假设,不足之处是计算量和所需内存太大。选择该选项后,可以选择【每个检验的时间限制为】复选框,即设置计算时间限制,默认时间限制为5分钟,超过该时间,系统会自动停止运算并给出计算结果。

    所有设置结束后,单击【确定】按钮,即可开始进行统计分析过程。

    04

    卡方检验实例

    下面以一个实例来简单说明卡方检验的运用,以及对其结果的解读。

    在一个正20面体的各面上分别标上0-9十个数字。每个数字在两个面上标出。为了检验其均匀性,现将它投掷805次,得出各数字面上的次数。依据此数据,建立数据文件frequency.sav,数据如图4所示。

    a3e58e48f2ca63363595b0b6348b4103.png

    图4

    为了检验该20面体是否均匀,即要检验每个数字出现的概率是否大致相同,每个数字出现的概率应大致为10%。在该例中,卡方检验的原假设为10个数字出现的概率之间无显著性差异。

    操作步骤

    (1) 打开数据文件。

    (2) 对数据进行加权,从菜单栏选择【数据】→【加权个案】命令,打开【加权个案】对话框。在该对话框中,以frequency为加权变量,选择对其数据进行加权。

    (3) 执行菜单栏中的【分析】→【非参数检验】→【旧对话框】→【卡方】命令。

    (4) 将变量Number作为检验变量选入【检验变量列表】框中。

    (5) 单击【选项】按钮,选择【描述性】和【四分位数】复选框,单击【继续】返回主对话框。

    (6) 单击【确定】按钮。

     结果解读

    表1 描述性统计量表

    0b343e705e0aa542a10c203233d067f1.png

    表2 期望频率和观测频率表

    939c6a9332824de627598bc71ffee69b.png

    表2显示出各个分组的观测频率和期望频率以及两者之间的差值,从表中可以看出,期望频率为80.5,Residual代表的是残差,最大残差为10.5。

    表3 卡方检验表

    63d6b25eaeef2cdb009f1c4bf3689479.png

    表3中x2=4.627,渐进方法的概率p值为0.866,远大于显著性水平0.05,因此可以接受原假设,证明该20面体是均匀的。

    f886c60208ba3a8089e1ff8205388677.gif

    参考资料

    时立文.SPSS 19.0统计分析从入门到精通[M].北京:清华大学出版社,2012.

    34f20451252f09cda786a4d374486213.png

    扫码关注

    有趣的灵魂在等你

    图文:陈楼琪

    排版:陈楼琪

    展开全文
  • 卡方检验是以χ2分布为基础的一种常用假设检验方法,统计样本的实际观测值与理论推断值之间的偏离程度,主要在分类数据资料统计推断中应用,如两个或多个率/构成比之间的比较以及分类资料的相关分析等。 基于这个...

    在电商平台中,广告图到处可见,引起用户兴趣,为商品或者店铺带去流量。表征广告图是否“优秀”的关键数据就是CTR(Click-Through-Rate,点击通过率)。为了设计高CTR图片,电商运营、设计同学们都总结出了一些经验,但这些经验未形成更精细化的设计原则来回答“特定品类下,什么样的广告图CTR最高”。

    借助于京东平台沉淀的大量广告图数据,我们希望通过分析历史广告图的数据表现,得到不同品类下高CTR广告图的设计特征,也为后期验证提供初步的数据假设。

    我们对广告图包含的设计元素进行了分类打标,但在缺少广告图的CTR具体数据,仅有高低CTR分组数据时,应该如何分析呢?答案是:卡方检验

    为什么用卡方检验?

    定义是什么?

    卡方检验是以χ2分布为基础的一种常用假设检验方法,统计样本的实际观测值与理论推断值之间的偏离程度,主要在分类数据资料统计推断中应用,如两个或多个率/构成比之间的比较以及分类资料的相关分析等。

    基于这个定义,我们了解到卡方检验的适用范围是“分类数据”,即说明事物类别名称的数据,比如“性别”是一个分类变量,其变量值是“男”或“女”,两者之间无法进行运算或比较。

    此案例为什么合适?

    此案例中,广告图中不同的设计元素,如装饰元素、设计手法、背景色调等均是分类变量。同时,图片被分为高低CTR两组,也属于分类变量。既然是对两个分类变量(设计因素、高低CTR)做相关分析,卡方检验很适用于此案例。

    卡方检验怎么做?

    思路是什么?

    在基本的假设检验思路上,卡方检验与t检验、F检验等有着相似的过程:

    1.  建立无效假设H0:观察频数与期望频数没有差别(即某一因素设计水平下高低点击率广告图频数与平均频数没有区别);

    2.  在假设H0成立基础上,计算出χ2值来表征观察值与理论值之间的偏离程度

    3.  根据p值(多设定为0.05)及自由度,根据χ2分布查出拒绝H0假设的临界值;

    4.  若计算得χ2>临界值,即H0成立的概率<5%,表示在95%置信水平下,观察值与理论值之间有显著差异;反之,则说明两者无差异。

    根据这个基本思想及过程,可以看出,χ2、自由度(df)、不同自由度下χ2分布是我们进行卡方检验的必要元素。

    具体怎么算?

    1.  计算χ2值:

    2ede939ae18f34c2c0c5b08003c5c5b4.png

    举个例子来说明公式的含义:

    1) 将高低CTR的广告图设计因素不同水平的数据呈现为列联表形式

    0458c859f29aaeea30519ac1292bedda.png

    2) 公式中A代表观察值,E代表理论值,(A-E)代表观察值及理论值的差异,其中理论值是假设两个因素无关的情况下计算出来的。

    e.g. 设计因素1水平1×高CTR组的理论值即(a+b)×(a+c)/N

    3) 求平方和以避免正负差值间抵消:由于有多个观察值,差值可能出现正负值而互相抵消,故利用平方的计算来避免。

    4) 除以理论值以避免理论值大小影响偏差。

    2.  确定自由度(df)

    自由度指计算某一统计量时,取值不受限制的变量个数。在列联表中,由于行或列总数一定,因此行或列中受限制条件数为1,列联表总df=(行数-1)×(列数-1)。

    e.g. 2×2列联表中df=1,在3×2列联表中df=2

    3.  结合df及p值确定χ2分布中的临界值,与计算所得χ2值比较

    e.g. df=1,p值为0.05情况下,χ2临界值为3.84

    如果我们计算所得的χ2值>3.84,意味着H0假设落入了下图所示的右侧“小尾巴”似的拒绝域,H0假设就不成立,即设计因素1不同水平下高低点击率广告图频数与平均频数有区别,换句话说,设计因素1的不同水平与高低点击率有相关

    ae6b23503fd0414fdf23929bbfd6b09e.png

    spss怎么操作?

    除了手工计算及查表外,可通过spss来进行卡方检验,步骤如下:

    1.  导入数据

    将每张广告图的高低CTR分组作为A列,设计因素1分组作为B列,导入spss作为原始数据,如下图框1所示。(若原始数据是上方表格的频数数据,需进行频数加权处理)

    2.  选择--

    如下图框2所示:

    9210514facfb8bd9a5e6ecc0f4477342.png

    3.  将变量添加到行列中

    在对话框中勾选卡方,在对话框中勾选下方俩选项以便进行多变量间的两两比较。

    775663670b2189045a9b2f60bc87c044.png

    两两比较方法之Bonferroni法(邦弗伦尼法,修正最小显著差法):在每次比较中,将显著性水平α除以两两比较的次数N,使得显著性水平缩小到原来的N分之一,降低α错误的概率,避免在原假设为真时拒绝原假设,没有显著差异却认为有显著差异。与常规的两两比较LSD检验(最小显著差法,Least Significant Difference)相比,其采用更严格的标准,更容易导致两两比较时无显著差异。

    4.  解读结果

    3d736ce49f384b3106852a0bf9d8c3d9.png

    1) 重点关注第三张卡方检验表格,指标的选择依照以下条件(定义n为总样本量,理论频数T):

    a. n≥40,T<5的单元格未超20%,且T均>1(图中展示符合此条件),采用皮尔逊卡方检验结果。

    e.g. χ2=10.38,p=0.001<0.05,即设计因素的不同水平会影响点击率情况,结合描述统计判定水平2的高点击率概率高于水平1。

    b. 若行、列变量较多, n<40,或有T<1,采用似然比卡方检验。

    c. 若是2×2的四格表,n≥40,1≤T<5的单元格超20%,采用连续性修正检验结果。

    d. 若是2×2的四格表,n<40,或有T<1,采用费希尔精确检验结果。

    e. 若行、列量变量是等级变量(可从小到大排列)时,采用线性关联检验结果。

    2) 在确定初步结果显著之后,若列联表达到3列及以上,需两两比较列变量水平间是否有差异。第二张交叉表表格中有a、b的下标提供了比较结果,不同下标的列变量水平之间有显著差异。

    结论不符合预期时,卡方检验结论如何解读?

    至此完成了卡方检验的基本操作,但检验结果仅代表数据的显著性,该显著性是否有意义仍需要结合实际情况来看。当数据显著性出现与假设、预期不相符时,多是以下几种情况。

    描述统计差异较大但卡方检验不显著

    e.g. 某品类广告的元素,描述结论发现“两个”商品图的图片高于平均水平(高点击率图片整体比例)11%,但卡方检验却没有显著(χ2=6.79,p=0.08)。

    这里就涉及到自由度的概念,由于原始数据分类有四个水平:“无、一个、两个、三个及以上”,导致自由度增加,卡方分布由陡峭变成缓坡,拒绝域随之右移,需要更大的卡方值才能拒绝零假设,虽然例子中6.59>3.84(自由度为1的极限卡方值),但仍<7.82(自由度为3时的极限卡方值),因此判定该设计因素不同水平对高低点击率没有显著影响。

    描述统计差异不大但卡方检验显著

    同样是多水平条件的卡方检验,可能导致另一种现象,某一水平下点击率情况与总体平均水平差异不大,但卡方检验显示其与高点击率相关。

    e.g. 某品类共三个水平“纯色、少量、复杂”,其中“复杂”水平下高点击率(32.5%)与整体平均水平(29.7%)差异并不大,但整体卡方检验显著,并将“纯色”、“复杂”两个水平认为与高点击率相关。

    除“复杂”水平外其他两组分布与理论频数差异较大,导致整体的卡方分布显著,而事后进行两两比较的时候,“复杂”水平下频数表现与“纯色”组更为接近,因此“复杂”水平被认为与高点击率相关。

    结论与常规认知不相符

    在对广告图进行分析时,有一定的常规认知假设,如用户会更偏好“有利益点”、“有品牌标识”的图片,但当卡方检验显示两者对点击率无影响时,可尝试从以下维度去排查问题。

    1.  是否分类方式出了问题?

    e.g.原分类方式:有具体数值或明确赠品为“有利益点”,其他为“无利益点”,卡方检验后此设计因素对点击率无影响。

    考虑到用户在浏览广告图时,不一定有具体数值才是有利益点,“全场秒杀”、“直降”的文字也会吸引用户点击,后续将分类方式调整为{“无”、“直降促销(文字或数值)”、“满减、买免等促销(文字或数值)”、“买赠或其他”}。卡方检验发现中间两类明确利益点的广告图均有较高点击率。

    分类方式作为原始数据对检验结论影响巨大,在进行设计因素分类时应遵循用户认知广告图的方式,不局限于单纯的视觉展现形式,从内容、视觉形式等角度全面考虑。

    2.   是否品类有其特殊性?

    e.g. 这个因素,在其他品类中,卡方检验常得到“有大促标识”比“无大促标识”有更多“高点击率”图片的结论,但在手机品类下却未有显著差异。

    仔细观察后发现,手机品类广告图的单品促销较为常见,与大促活动关联度不高,因此在手机品类广告图展现大促标识对点击率影响不大是可以解释的。

    3.  是否采样方式出了问题?

    e.g. 因素在某品类下仅“两行文案”水平与“高点击率”相关,难以解释。

    用户对广告图的利益点感知最强烈,所以选择了因素作为代表,与进行交叉,看两因素是否相互影响。而后发现,两行文案广告图中更多是低点击率利益点,即不同文案行数的广告图利益点分布不一致,样本分布有偏。这也提示后期在验证时,利益点、品牌效应等作为影响用户点击广告图的最重要因子,应尽量在其他变量间保持一致的分布。

    分类数据是否有更好的分析方法?

    受数据类型的限制,不得已采用了卡方检验,仅能进行单个设计因素内不同水平的对比,无法进行多个设计因素间重要性对比,也无法考虑不同设计因素间的交叉影响,综合确定CTR更高的设计组合。

    那么分类数据有没有更深入的分析方法呢?曾经同事采用了联合分析方法,对广告图元素设计进行了数据探索。简要来说,联合分析可以把用户在购买决策中一系列的产品特征/价格考虑在内,综合评估后确定用户偏好的因素组合。

    本文案例为什么不适用呢?因为联合分析对数据样本的元素组合分布有一定要求,必须符合“均匀分散”、“整齐可比”的正交分布特征。本文案例中的卡方检验更多是初步探索,在后续投放广告图进行A/B Test时可采用正交设计来确定不同设计因素组合,回收数据后采用联合分析明确最优广告图形式。

    最后的最后,想更细致了解联合分析方法的同学可戳文章:《联合分析:数据驱动营销设计优化之道》。

    d0d7b943936d36e5ca652e5b9a2b5689.png

    展开全文
  • 卡方检验软件

    2013-02-28 16:38:43
    可用于卡方检验计算,统计数据分析,方便使用,避免SPSS软件的难处
  • 卡方检验 原理As a data science engineer, it’s imperative that the sample data set which you pick from the data is reliable, clean, and well tested for its usability in machine learning model building...

    卡方检验 原理

    As a data science engineer, it’s imperative that the sample data set which you pick from the data is reliable, clean, and well tested for its usability in machine learning model building.

    作为数据科学工程师,当务之急是从数据中挑选出的样本数据集是可靠的,干净的,并经过了良好的测试,以证明其在机器学习模型构建中的可用性。

    So how do you do that?

    那你该怎么做呢?

    Well, we have multiple statistical techniques like descriptive statistics where we measure the data central value, how it is spread across the mean/median. Is it normally distributed or there is a skew in the data spread? Please refer to my previous article on the same for more clarity.

    好吧,我们有多种统计技术,例如描述性统计,在其中我们测量数据中心值,其在均值/中位数之间的分布方式。 它是正态分布的还是数据散布有偏差? 请参考我以前关于同一文章的更多信息。

    As the first thing we do is to visualize the data using various data visualization techniques to make some early sense of any data skewness or discrepancies, to identify any kind of relationship between data set variables.

    首先,我们要使用各种数据可视化技术来可视化数据,以便对任何数据偏斜或差异有早期的了解,以识别数据集变量之间的任何类型的关系。

    Data has so much to say and we data engineer give it a voice to express and describe itself, using descriptive statistical techniques.

    数据有这么多话要说,我们的数据工程师使用描述性统计技术表达和描述自己的声音。

    But to make any prediction or to infer something beyond the given data to find any hidden probability, we rely on inferential statistic techniques.

    但是,要进行任何预测或推断超出给定数据的内容以找到任何隐藏的概率,我们将依靠推断统计技术。

    Inferential statistics are concerned with making inferences based on relations found in the sample, to relations in the population. Inferential statistics help us decide, for example, whether the differences between groups that we see in our data are strong enough to provide support for our hypothesis that group differences exist in general, in the entire population.

    推论统计涉及根据样本中发现的关系对总体中的关系进行推论。 推论统计可以帮助我们确定,例如,我们在数据中看到的群体之间的差异是否足够大,足以支持我们的假设,即整个人群中普遍存在群体差异。

    Today we will cover one of the inferential statistical mechanisms to understand the concept of hypothesis testing using a popular Chi-Square test.

    今天,我们将介绍一种推论统计机制,以了解使用流行的卡方检验进行假设检验的概念。

    什么是卡方检验? (What is the Chi-Square Test?)

    Do remember that,

    请记住,

    It is an inferential statistical test that works on categorical data.

    这是一种推论统计检验,适用于分类数据。

    The Chi-Squared test is a statistical hypothesis test that assumes (the null hypothesis) that the observed frequencies for a categorical variable match the expected frequencies for the categorical variable. The test calculates a statistic that has a chi-squared distribution, named for the Greek capital letter Chi (X) pronounced “ki” as in kite.

    卡方检验是一种统计假设检验,它假设(原假设)分类变量的观测频率与分类变量的预期频率匹配。 该测试计算出具有卡方分布的统计量,该统计量以希腊大写字母Chi(X)命名,在风筝中的发音为“ ki”。

    We try to test the likelihood of test data(sample data) to find out whether the observed distribution of data set is a statistical fluke(due to chance ) or not. “Goodness of fit” statistic in the chi-square test, measures how well the observed distribution of data fits with the distribution that is expected if the variables are independent.

    我们尝试测试测试数据(样本数据)的可能性,以发现观察到的数据集分布是否为统计偶然(由于偶然)。 卡方检验中的“拟合优度”统计量用于衡量观察到的数据分布与变量独立的预期分布的吻合程度。

    卡方如何工作? (How Does Chi-Square Work?)

    Generally, we try to establish a relationship between the given categorical variable in this test. Chi-square evaluates whether given variables in a data set(sample) are independent, called the Test of Independence. Chi-square tests are used for testing hypotheses about one or two categorical variables and are appropriate when the data can be summarized by counts in a table. The variables can have multiple categories.

    通常,在此测试中,我们尝试在给定的类别变量之间建立关系。 卡方可评估数据集(样本)中的给定变量是否独立,称为独立性测试。 卡方检验用于检验关于一个或两个类别变量的假设,并且当可以通过表中的计数来汇总数据时,卡方检验是适用的。 变量可以具有多个类别。

    卡方检验类型: (Type of Chi-Square Test:)

    For One Categorical Variable, we perform

    对于一个分类变量,我们执行

    • Chi-Square Goodness-of-Fit Test

      卡方拟合优度检验

    The chi-square goodness of fit test begins by hypothesizing that the distribution of a variable behaves in a particular manner. For example, in order to determine the daily staffing needs of a retail store, the manager may wish to know whether there is an equal number of customers each day of the week.

    拟合检验的卡方检验的优劣始于假设变量的分布以特定方式表现。 例如,为了确定零售商店的日常人员需求,经理可能希望知道一周中的每一天是否有相等数量的顾客。

    For, Two Categorical Variables, we perform

    为此,我们执行两个分类变量

    • Chi-Square Test for Association

      卡方检验

    Another way we can describe the Chi-square test is that:

    我们可以描述卡方检验的另一种方式是:

    It tests the null hypothesis that the variables are independent.

    它测试变量是独立的零假设。

    The test compares the observed data to a model that distributes the data according to the expectation that the variables are independent. Wherever the observed data doesn’t fit the model, the likelihood that the variables are dependent becomes stronger, thus proving the null hypothesis incorrect!

    该测试将观察到的数据与一个模型进行比较,该模型根据变量是独立的期望来分配数据。 无论在何处观察到的数据都不适合模型,变量所依赖的可能性都会变得更大,从而证明原假设不正确!

    卡方假设: (Hypothesis In Chi-Square:)

    The first thing as a data engineer, you need to establish before performing any Inferential statistic test like Chi-Square, is to establish

    作为数据工程师,在执行任何推理统计检验(如Chi-Square)之前,您需要建立的第一件事是建立

    • H0: Null Hypothesis

      H0:零假设
    • H1: Alternate Hypothesis

      H1:替代假设

    对于一个分类变量: (For One Categorical Variable:)

    • Null hypothesis: The proportions match an assumed set of proportions

      零假设 :比例与假设的比例集匹配

    • Alternative hypothesis: At least one category has a different proportion. •

      替代假设 :至少一个类别具有不同的比例。 •

    对于,两个分类变量: (For, Two Categorical Variables:)

    • Null hypothesis: There is no association between the two variables

      零假设 :两个变量之间没有关联

    • Alternative hypothesis: There is an association between the two variable

      替代假设 :两个变量之间存在关联

    Before we jump into understanding how Chi-square works with an example, we need to understand what is Chi-square distribution & some other related concepts. This Chi-squared distribution is what we will analyze going forward in the chi-square or χ2 test.

    在通过示例了解卡方的工作原理之前,我们需要了解什么是卡方分布及其他一些相关概念。 卡方分布是我们将在卡方 检验χ2检验中继续分析的结果。

    什么是卡方分布? (What Is Chi-Square Distribution?)

    The chi-square distribution (also chi-squared or χ2-distribution) with k degrees of freedom is the distribution of a sum of the squares of k independent standard normal random variables.

    具有 k 个自由度 卡方分布 (也 称为 卡方 χ2分布 ) k个独立标准正态随机变量 的平方和的分布

    It is one of the most widely used probability distributions in inferential statistics, notably in hypothesis testing or in the construction of confidence intervals.

    它是推论统计中使用最广泛的概率分布之一,特别是在假设检验或构造置信区间中。

    The primary reason that the chi-square distribution is used extensively in hypothesis testing is its relationship to the normal distribution. An additional reason that the chi-square distribution is widely used is that it is a member of the class of likelihood ratio tests (LRT).LRT’s have several desirable properties; in particular, LRT’s commonly provide the highest power to reject the null hypothesis.

    在假设检验中广泛使用卡方分布的主要原因是其与正态分布的关系。 卡方分布被广泛使用的另一个原因是它是似然比检验(LRT)类的成员。 特别是LRT通常会提供最高的能力来拒绝原假设。

    卡方分布的自由度: (Degree Of Freedom in Chi-Squared Distribution:)

    The degrees of freedom in Chi-Squared distribution is equal to the number of standard normal deviates being summed. The mean of a Chi-square distribution is its degrees of freedom. A chi-square distribution constructed by squaring a single standard normal distribution is said to have 1 degree of freedom

    卡方分布的自由度等于要求和的标准正态偏差的数量。 卡方分布的平均值是其自由度。 通过平方单个标准正态分布构造的卡方分布据说具有1个自由度

    The degrees of freedom ( df or d) tell you how many numbers in your grid are actually independent. For a Chi-square grid, the degrees of freedom can be said to be the number of cells you need to fill in before, given the totals in the margins, you can fill in the rest of the grid using a formula.

    自由度 ( dfd )告诉您网格中实际上有多少个独立的数字。 对于卡方网格,自由度可以说是您之前需要填充的像元数,给定边距的总数,则可以使用公式来填充网格的其余部分。

    The degrees of freedom for a Chi-square grid is equal to the number of rows minus one times the number of columns minus one: that is, (R-1)*(C-1).

    卡方网格的自由度等于行数减去列数减去一的一倍,即(R-1)*(C-1)。

    Remember!

    记得!

    As the degree of freedom (df), increases the Chi-square distribution approaches a normal distribution

    随着自由度(df)的增加,卡方分布接近正态分布

    卡方统计: (Chi-Square Statistic:)

    The formula for the chi-square statistic used in the chi-square test is:

    卡方检验中使用的卡方统计量公式为:

    Image for post

    The subscript “c” here are the degrees of freedom. “O” is your observed value and E is your expected value. The summation symbol means that you’ll have to perform a calculation for every single data item in your data set.

    下标“ c ”是自由度。 “ O ”是您的观测值, E是您的期望值。 求和符号表示您必须对数据集中的每个数据项执行计算。

    E=(row total×column total) / sample size

    E =(行总数×列总数)/样本量

    The Chi-square statistic can only be used on the numbers. They can’t be used for percentages, proportions, means, or similar statistical value. For example, if you have 10 percent of 200 people, you would need to convert that to a number (20) before you can run a test statistic.

    卡方统计只能用于数字。 它们不能用于百分比,比例,均值或类似的统计值。 例如,如果您有200个人中的10%,则需要先将其转换为数字(20),然后才能运行测试统计信息。

    Chi-Square test involves calculating a metric called the Chi-square statistic mentioned above, which follows the Chi-square distribution.

    卡方检验涉及计算遵循卡方分布的上述度量(称为卡方统计量)。

    Let’s see an example to get clarity on all the above-covered topics related to Chi-Square:

    让我们看一个例子,以使上面提到的所有与卡方相关的主题变得清晰:

    P-Value:

    P值:

    The null hypothesis provides a probability framework against which to compare our data. Specifically, through the proposed statistical model, the null hypothesis can be represented by a probability distribution called P-value, which gives the probability of all possible outcomes if the null hypothesis is true;

    零假设为比较我们的数据提供了一个概率框架。 具体来说,通过提出的统计模型,可以用称为P值的概率分布表示零假设,如果零假设为真,则给出所有可能结果的概率。

    It is a probabilistic representation of our expectations under the null hypothesis.

    它是原假设下我们期望的概率表示。

    Chi-Square Test Explained With Example:

    卡方检验举例说明:

    We will cover the following important steps in our journey of the Chi_square test for Independence of two variables.

    我们将在卡方检验的两个变量独立性测试过程中涵盖以下重要步骤。

    • State The Hypothesis

      陈述假设

    • Formulate Data Analysis Plan

      制定数据分析计划

    • Analyze The Sample Data

      分析样本数据

    • Interpret The Outcome

      解释结果

    Problem: This problem has been sourced from starttrek

    问题:此问题来自 starttrek

    A public opinion poll surveyed a simple random sample of 1000 voters. Respondents were classified by gender (male or female) and by voting preference (Republican, Democrat, or Independent). The results are shown in the contingency table below.

    一项民意调查对1000名选民进行了简单随机抽样调查。 按性别(男性或女性)和投票偏好(共和党,民主党或独立人士)对受访者进行分类。 结果显示在下面的列联表中。

    Image for post

    We have to infer, Is there a gender gap? Do the men’s voting preferences differ significantly from women’s preferences? Use a 0.05 level of significance.

    我们必须推断,是否存在性别差距? 男性的投票偏好与女性的偏好有很大不同吗? 使用0.05的显着性水平。

    Let’s try to solve this problem using the Chi-Square test to find out the P-Value.

    让我们尝试使用卡方检验来解决此问题,以找出P值。

    Here test type which we will employ is :

    我们将采用的测试类型为:

    卡方检验是否具有独立性。 (Chi-square test for independence.)

    So let’s get started by first stating our hypothesis.

    因此,让我们从首先说明我们的假设开始。

    Step 1: State The Hypothesis:

    步骤1:陈述假设:

    Here we need to start by establishing a null hypothesis and counter hypothesis(alternative hypothesis) as given below.

    在这里,我们需要先建立一个零假设和反假设(替代假设),如下所示。

    Null Hypothesis:

    零假设:

    Ho: Gender and voting preferences are independent.

    何:性别和投票偏好是独立的。

    Alternate Hypothesis:

    替代假设:

    H1: Gender and voting preferences are not independent.

    假设1:性别和投票偏好不是独立的。

    Step 2: Let’s Build Our Data Analysis Plan :

    步骤2:让我们建立资料分析计划:

    Here we will try to find out P-Value and match it with the significance level. Let’s take the standard and accepted level of significance to be 0.05. Given the sample data in the table above, let’s try to employ Chi-Square test for independence and deduce the Probability value.

    在这里,我们将尝试找出P值并将其与显着性水平匹配。 让我们将标准和可接受的显着性水平设为0.05。 给定上表中的样本数据,让我们尝试采用卡方检验进行独立性分析并推论出概率值。

    Step 3: Let’s Do Sample Analysis:

    步骤3:让我们做样本分析:

    Here we will analyze the given sample data to compute

    在这里,我们将分析给定的样本数据以进行计算

    • Degree of freedom

      自由度

    • Expected Frequency Count of sample variable

      样本变量的预期频率计数

    • Calculate Chi-Square test static value

      计算卡方检验静态值

    All the above values will help us find the P-value.

    以上所有值将帮助我们找到P值

    Degree Of Freedom Calculation: Let’s calculate df = (r — 1) * (c — 1), so in the given table, we have r(rows)= 2 and c(column) = 3

    自由度计算:让我们计算df =(r_1)*(c_1),因此在给定的表中,我们的r(rows)= 2和c(column)= 3

    df= (2–1)*(3–1) = 1*2= 2 ;

    df =(2-1)*(3-1)= 1 * 2 = 2;

    Expected Frequency Count Calculation:

    预期的频率计数计算:

    Let Eij, represent expected values of the two variables are independent of one another.

    令Eij代表两个变量的期望值彼此独立。

    Eij = ith (row total X jth column total) / grand total

    Eij = ith(行总数x第j列总数)/总计

    Let’s calculate the expected value for each given row and column value by using the above mentioned formula, Let me copy the table image again below to help you make calculation easily,

    让我们使用上述公式为每个给定的行和列值计算期望值,让我在下面再次复制表格图片以帮助您轻松进行计算,

    Image for post

    Here, Row 1 total value = 400, total value for column1 = 450, total sample size = 1000,

    在这里,第1行的总值= 400,第1列的总值= 450,样本总数= 1000,

    So,

    所以,

    E1,1 = (400 * 450) / 1000 = 180000/1000 = 180

    E1,1 =(400 * 450)/ 1000 = 180000/1000 = 180

    Similarly, let's calculate other expected values as shown below,

    同样,让我们​​计算其他期望值,如下所示,

    E1,2 = (400 * 450) / 1000 = 180000/1000 = 180E1,3 = (400 * 100) / 1000 = 40000/1000 = 40E2,1 = (600 * 450) / 1000 = 270000/1000 = 270E2,2 = (600 * 450) / 1000 = 270000/1000 = 270E2,3 = (600 * 100) / 1000 = 60000/1000 = 60

    E1,2 =(400 * 450)/ 1000 = 180000/1000 = 180E1,3 =(400 * 100)/ 1000 = 40000/1000 = 40E2,1 =(600 * 450)/ 1000 = 270000/1000 = 270E2, 2 =(600 * 450)/ 1000 = 270000/1000 = 270E2,3 =(600 * 100)/ 1000 = 60000/1000 = 60

    Time to calculate Chi-Squares for each calculated expected values above using the formula:

    是时候使用以下公式为上述每个计算出的期望值计算Chi-Squares:

    Calculating Chi-Square:

    计算卡方:

    As already discussed above, the formula for calculating chi-square statistic is

    如上所述,用于计算卡方统计量的公式为

    Image for post

    The subscript “c” here are the degrees of freedom. “O” is your observed value (actual values given in the table above)and E is your expected value(which we just calculated). The summation symbol means that you’ll have to perform a calculation for every single data item in your data set.

    下标“ c ”是自由度。 “ O ”是您的观测值(上表中给出的实际值),而E是您的期望值(我们刚刚计算出)。 求和符号表示您必须对数据集中的每个数据项执行计算。

    Χ² = Σ [ (Oi,j — Ei,j)² / Ei,j ]

    Χ²=Σ[(Oi,j-Ei,j)²/ Ei,j]

    Using the above formula our chi-square values comes out to be as given below,

    使用上述公式,我们得出的卡方值如下所示:

    Χ² = (200–180)²/180 + (150–180)²/180 + (50–40)²/40 + (250–270)²/270 + (300–270)²/270 + (50–60)²/60Χ² = 400/180 + 900/180 + 100/40 + 400/270 + 900/270 + 100/60

    Χ²=(200–180)²/ 180 +(150–180)²/ 180 +(50–40)²/ 40 +(250–270)²/ 270 +(300–270)²/ 270 +(50– 60)²/60Χ²= 400/180 + 900/180 + 100/40 + 400/270 + 900/270 + 100/60

    So our final chi-square statistic value ,

    因此,我们的最终卡方统计值

    Χ² = 2.22 + 5.00 + 2.50 + 1.48 + 3.33 + 1.67 = 16.2

    Χ²= 2.22 + 5.00 + 2.50 + 1.48 + 3.33 + 1.67 = 16.2

    Having calculated the chi-square value and degrees of freedom, we consult a chi-square table to check whether the chi-square statistic of 16.2 exceeds the critical value for the Chi-square distribution. The intent is to find P-value, which is is the probability that a chi-square statistic having 2 degrees of freedom is more extreme than 16.2.

    计算出卡方值和自由度后,我们查阅卡方表以检查16.2的卡方统计量是否超过卡方分布的临界值。 目的是找到P值,这是具有2个自由度的卡方统计量比16.2极端的概率。

    How to calculate P-value?

    如何计算P值?

    Given the degree of freedom = 2 & Chi-square statistic value = 16.2 , we can easily find P-value using this given

    给定自由度= 2和卡方统计值= 16.2,我们可以使用给定的值轻松找到P值

    Chi-Square Calculator link, simply enter the Chi-square statistic value & degree of freedom as an input, also keep your significance level as 0.05, you will find the result as given below,

    卡方计算器链接,只需输入卡方统计值和自由度作为输入,并将您的显着性水平保持为0.05,您将发现以下结果,

    P-Value is =. 000304. The result is significant at p < .05.

    P值为=。 000304。结果在p <.05时很显着。

    You can also find P-value using Chi-Square table given below, you can get this table from this source

    您还可以使用下面给出的卡方表找到P值,您可以从此来源获取此表

    Image for post

    Having calculated the chi-square value to be 16.2 and degrees of freedom to be 2, we consult a chi-square table given above to check whether the chi-square statistic of 16.2 exceeds the critical value for the Chi-square distribution. The critical value for the alpha of .05 (95% confidence) for df=2 comes out to be 5.99

    计算卡方值为16.2,自由度为2后,我们查阅上面给出的卡方表,检查卡方统计量16.2是否超过卡方分布的临界值。 df = 2的.05(95%置信度)的alpha的临界值得出为5.99

    Step 4: Interpreting the result

    步骤4:解释结果

    A: Inference From The P-value:

    答:从P值推断:

    Since we have got the P-value of 0.000304 we can interpret the result where it signifies that

    由于我们获得了0.000304的P值,因此我们可以在表示该值的地方解释结果

    As the P-value (0.000304) is less than the significance level (0.05),

    由于P值(0.000304)小于显着性水平(0.05),

    So we have to reject the below given

    所以我们必须拒绝以下给出的

    Null Hypothesis, which says, gender and voting preferences are independent.

    零假设说, 性别和投票偏好是独立的。

    & accept Alternate Hypothesis:

    并接受替代假设

    Which says, gender and voting preferences are not independent.

    也就是说,性别和投票偏好不是独立的。

    Hence we can conclude that,

    因此,我们可以得出结论,

    There is a relationship between gender and voting preference.

    性别与投票偏好之间存在联系。

    B:从卡方表解释: (B: Interpreting from Chi-Square Table:)

    Since the critical value for the alpha of .05 (95% confidence) for df=2 is 5.99 and our chi-square statistic value 16.3, is much larger than 5.99, we have sufficient evidence to reject our Null hypothesis which we covered above.

    由于df = 2的.05的alpha的临界值(95%的置信度)为5.99,而我们的卡方统计值16.3远大于5.99,因此我们有足够的证据拒绝我们上面讨论的Null假设。

    So we accept the Alternate Hypothesis:

    因此,我们接受替代假设:

    Which says, gender and voting preferences are not independent.

    也就是说,性别和投票偏好不是独立的。

    Hence we conclude that,

    因此,我们得出结论,

    There is a relationship between gender and voting preference.

    性别与投票偏好之间存在联系。

    下一步是什么? (What’s Next?)

    We will understand how to perform Chi-Square test using python & Jupyter notebook in part 2 of this series of Inferential Statistic: Hypothesis testing Using Chi-Square and will further explore

    在本系列推论统计:使用卡方假设检验的系列文章的第2部分中,我们将了解如何使用python和Jupyter笔记本执行卡方检验。

    • Normal Deviate Z Test:

      正常偏差Z测试:

    • Two-Sample T-Test

      两样本T检验

    • ANOVA Test

      方差检验

    & also will introduce one of the key topic: “Power of Statistical Test “

    &还将介绍关键主题之一:“ 统计检验的力量”

    The power of any test of statistical significance is defined as the probability that it will reject a false null hypothesis.

    任何具有统计意义的检验的功效被定义为它将拒绝错误的虚假假设的概率。

    总结这一部分,并提供一个非常有用的信息图,它指导您选择假设检验类型: (Summing up this part, with a very helpful infographic which guides you to choose your hypothesis test type:)

    Image for post
    source 资源

    So choose your test data wisely and make sure you are interpreting sample data right, so that you can go ahead to design your ML models with required accuracy & confidence.

    因此,请明智地选择测试数据,并确保您正确解释了样本数据,以便您可以按要求的准确性和信心继续设计ML模型。

    Your ability to be an effective data scientist will largely become a reality only & only if you know how to analyze the given sample data with minimum deviation. The more you treat data with the required precision and clean them in the preliminary stage of EDA, the more reliable and productive your model building effort will become.

    只有当您知道如何以最小的偏差分析给定的样本数据时,您成为有效的数据科学家的能力才会在很大程度上变成现实。 在EDA的初期阶段,您越以所需的精度处理数据并清理数据,建模工作就会变得更加可靠和高效。

    翻译自: https://medium.com/swlh/what-is-chi-square-test-how-does-it-work-3b7f22c03b01

    卡方检验 原理

    展开全文
  • 卡方检验实例

    2012-04-26 10:20:45
    卡方检验实例,非常适合初学者进行学习的文档
  • [h,p, chi2stat,df] = prop_test(X, N, 正确) 比较两个比例的简单卡方检验这是一个 alpha=0.05 的 2 边测试 输入: * X = 每个样本的成功次数向量(例如 [20 22]) * N = 每个样本的总计数向量(例如 [48 29]) *...
  • 1.什么是卡方检验 卡方检验是一种用途很广的假设检验方法,属于非参数检验的范畴。 主要是比较两个或两个以上样本率以及两个分类变量的关联性分析。 根本思想是在于比较理论频次与实际频次的吻合程度或拟合优度问题...
  • 卡方检验计算器

    2012-04-29 11:48:46
    最实用的卡方检验工具,界面简单,容易操作,数据输完P值即出。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,541
精华内容 4,216
关键字:

卡方检验