- 外文名
- chi-square test ;X,2-test
- 定 义
- 观测值与理论值之间的偏离程度
- 作 用
- 资料分析
- 种 类
- 假设检验方法
- 中文名
- 卡方检验
- 应 用
- 分类资料统计推断
-
统计学——卡方检验和卡方分布
2017-12-11 13:02:37什么是卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数...什么是卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。例子1:四格卡方检验
以下为一个典型的四格卡方检验,我们想知道喝牛奶对感冒发病率有没有影响:
感冒人数 未感冒人数 合计 感冒率 喝牛奶组 43 96 139 30.94% 不喝牛奶组 28 84 112 25.00% 合计 71 180 251 28.29% 通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也有可能是牛奶对感冒率真的有影响。
为了确定真实原因,我们先假设喝牛奶对感冒发病率是没有影响的,即喝牛奶喝感冒时独立无关的,所以我们可以得出感冒的发病率实际是(43+28)/(43+28+96+84)= 28.29%
所以,理论的四格表应该如下表所示:
感冒人数 未感冒人数 合计 喝牛奶组 =139*0.2829 =139*(1-0.2829) 139 不喝牛奶组 =112*0.2829 =112*(1-0.2829) 112
即下表:感冒人数 未感冒人数 合计 喝牛奶组 39.3231 99.6769 139 不喝牛奶组 31.6848 80.3152 112 合计 71 180 251 如果喝牛奶和感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。
卡方检验
卡方检验的计算公式为:
其中,A为实际值,T为理论值。
x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
2. 差异程度与理论值的相对大小例1卡方检验
根据卡方检验公式我们可以得出例1的卡方值为:
卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077
卡方分布的临界值:
上一步我们得到了卡方的值,但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的?也就是说,怎么知道无关性假设是否可靠?
答案是,通过查询卡方分布的临界值表。
这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。
对V = 1,喝牛奶和感冒95%概率不相关的卡方分布的临界概率是:3.84,显然1.077<3.84,没有达到卡方分布的临界值,所以喝牛奶和感冒是独立不相关的。上面通过一个小例子让大家对卡方检验有一个简单的认识,下面是卡方检验的标准做法:
例子2. 四格卡方检验的标准做法
我们想知道不吃晚饭对体重下降有没有影响:
体重下降 体重未下降 合计 体重下降率 吃晚饭组 123 467 590 20.85% 不吃晚饭组 45 106 151 29.80% 合计 168 573 741 22.67% 1. 建立假设检验:
H0:r1=r2,不吃晚饭对体重下降没有影响,即吃不吃晚饭的体重下降率相等;
H1:r1≠r2,不吃晚饭对体重下降有显著影响,即吃不吃晚饭的体重下降率不相等。α=0.052. 计算理论值
体重下降 体重未下降 合计 吃晚饭组 133.765 456.234 590 不吃晚饭组 34.2348 116.765 151 合计 168 573 741 3. 计算卡方值
根据公式
计算出卡方值为5.498
4. 查卡方表求P值
在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到3.84,而本题卡方=5.498即卡方>3.84,P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组的体重下降率有明显差别。
通过实例计算,对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。
附录
什么是卡方分布
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
R语言实现:
x1 = rnorm(1000000) x2 = rnorm(1000000) x3 = rnorm(1000000) x4 = rnorm(1000000) x5 = rnorm(1000000) x6 = rnorm(1000000) Q1 = x1^2 Q2 = x1^2 + x2^2 Q3 = x1^2 + x2^2 + x3^2 Q4 = x1^2 + x2^2 + x3^2 + x4^2 Q5 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2 Q6 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2 + x6^2 par(mfrow=c(1,1)) plot(density(Q1),xlim=c(0.23,6),ylim = c(0,1),breaks = 200,col = 'blue',lwd=2,main='chi-square',xlab = '',ylab='') lines(density(Q2),col='black',lwd=2) lines(density(Q3),col='red',lwd=2) lines(density(Q4),col='green',lwd=2) lines(density(Q5),col='gray',lwd=2) lines(density(Q6),col='orange',lwd=2) legend('topright',c('k=1','k=2','k=3','k=4','k=5','k=6'),fill = c('blue','black','red','green','gray','orange'))
最后画出来的图是:由于随机数取得比较少,可能分布图与实际有些许的差别,不过这个可以不用太在意,一下是标准的分布图:
-
卡方检验
2021-01-20 11:35:56医学中最最常见的就是四格表的卡方检验,spss教材上计算四格表资料的卡方检验结果值有:Pearson chi-square 、Continuity correction 、Likelihood ratio 、 Fisher’s exact test 、 Linear-by-Linear association ... -
卡方检验计算器 卡方检验计算器 v1.70
2020-10-28 17:10:42卡方检验计算器是专为卡方检验而设计的。在计数资料统计中卡方检验应用非常广泛,使用大型统计软件虽然功能强大,但使用有些不方便,而使用手工计算非常烦琐且易出错。所以使 -
卡方检验(详解)
2018-08-16 10:57:47卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法。属于非参数检验,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。根本思想在于比较理论频数和实际频数的吻合程度或者拟合优度...卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。属于非参数检验,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。根本思想在于比较理论频数和实际频数的吻合程度或者拟合优度问题。
应用:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析。
举例一:想知道喝牛奶对感冒发病率有没有影响。
喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,,也可能是 牛奶对感冒率真的有 影响。
下面就就行假设了:假设喝牛奶对感冒发病率没有影响,即喝牛奶与感冒无关
所以感冒的发病率实际是(43+28)/(43+28+96+84)=28.29%
所以可以得到理论的表格
如果说真的没有影响的话 表格中理论值和实际值差别应该会很小。
卡方检验的计算公式
其中:A是实际值,T为理论值
X^2值的意义:衡量理论与实际的差异程度。
经过计算可以计算得到
X^2=1.077
下面就是我们如何根据卡方值来判断是否有差异了。
我们需要查询卡纸分布的临界值,将计算的值与临界值比较。
查询临界值就需要知道自由度
自由度V=(行数-1)*(列数-1);
对于该问题V=1,查询可得 临界值为3.84
如果x^2 <临界值 则假设成立。。
参考博客
-
卡方检验、分层卡方检验
2020-05-20 11:28:11 -
2×3卡方检验prism_戏说卡方检验
2020-11-21 07:08:39当然,卡方检验并不仅仅是我们常见的四格卡方检验形式,还有配对卡方检验、R×C列表卡方检验、分层卡方检验等。其中R×C卡方检验又分为双向无序、单项有序、双向有序。貌似简单的卡方检验细究起来其实并不简单,如果...可以这样说,卡方检验是临床科研中最常用的统计学方法,没有之一。当然,卡方检验并不仅仅是我们常见的四格卡方检验形式,还有配对卡方检验、R×C列表卡方检验、分层卡方检验等。其中R×C卡方检验又分为双向无序、单项有序、双向有序。貌似简单的卡方检验细究起来其实并不简单,如果我们没有把它们之间的逻辑关系理清楚往往就会出现误学误用。下面我们不妨结合一些科研案例由浅入深解剖卡方检验,尽量避开复杂的数理理论,让大家学之能用、用之能胜。1 入门篇-----卡方检验它是用来做什么的?
如果要比较男性组和女性组之间身高或者体重的差异有没有统计学意义,用什么?大家都知道t检验,因为身高或者体重它们是计量资料,而且是连续型变量,如果满足正态、等方差这个两个前提,两组间就可以用独立t检验,这个大家再熟悉知不过。那么如果相比较男性组和女性组之间治疗有效率差别有没统计学意义,用什么?也很简单,这个是计数资料,不是连续型的,有效的人数要么是七个,要么是八个,不可能出现七个半,另外有效人数除以整体人数就是有效率,率的比较当然用卡方检验,这个大家也很熟悉。
好的,一起来看下面一道简单的例题:某药在男性组组和女性组治疗有效和无效的人数如表1所示,问男性组和女性组治疗有效率有没差别?表1:某药物在男性组和女性组治疗效果的差别效果
组别有效 无效 男性组 a=99 (实际频数) b=5 (实际值频数) 女性组 c=75 (实际频数) d=21 (实际频数) 注意,上面的题目我给大家挖了一个坑,如果你没注意,可能就栽进去了。什么意思?我们来看,从表1我们很容易看出:男性组有效率为95.19%,女性组有效率78.13%,肯定是有差别的,这个毫无疑问。也就是说对于我们一个小小的实验组做出来治疗率,不可能完全一模一样,差别几乎是绝对存在的,一点也不奇怪,没差别才叫奇怪。但是我们关心不是这个实验组的有效率是否有差别,我们关心的是我们这个差别的结论能否推广到整体,这样我们的科研的课题才是一个高尚的的课题,一个纯粹的课题,一个有道德的课题,一个脱离了低级趣味,一个对人民有益的课题,对吧。所以这个题目应该怎么问?应该问:两组间有效率差别是否有统计学意义。差别有统计学意义了才能推广到整体,这就是卡方检验要解决的问题。怎么解决?它用卡方值换算出P值,然后根据P值下结论,那么我们进入下一个问题:2 卡方检验的卡方值是个什么东西?
前面我们说过了,男性组有效率为95.19%,女性组有效率78.13%,我们可以下结论在本实验组男女治疗有效率有差别,但还不能说差别有统计学意义,因为有的人会说这个差别会不会是抽样误差引起来的?该卡方检验上场了。卡方检验说这几个数字99、5、75、21 都是你实际的数值,也就是实际频数,如果其实它们没差别是由于抽样误差导致的假象,那理论上这些数字(理论频数)应该是多少?我先跟据你的实际频数来推算一下,如表2,它们应该是90.5、13.5、83.5、12.5,怎么计算下一段马上会讲到。表2:某药物在男性组和女性组治疗实际频数效果
组别有效 无效 男性组 a`=90.5 (实际频数) b`=13.5 (实际值频数) 女性组 c`=83.5 (实际频数) d`= 12.5 (实际频数) 大家有兴趣可以自己动手算算,从横向看 90.5:13.5 和83.5:12.5结果几乎是一样的,从纵向上看90.5:83.5 与 13.5:12.5 结果也几乎是一样的,很完美吧,它是理论频数嘛。我们卡方检验就是要看看所有理论频数和所有实际频数之间差别大不大,如图1。
图1 实际频数和理论频数之间差距
当然图1只是一种感性的理解,而后统计学家把它整理成严谨的计算公式表达为:x2=(a-a`)2/a` + (b-b`)2/b` + (c-c`)2/c` + (d-d`)2/d`。a、b、c、d代实际论频数,a`、b`、c`、d` 代表从这些实际频数推算出的理论频数。R×C的卡方检验通用公式为x2=∑(A-T)2/T,A代表理论频数,T代表实际频数。四格卡方公式可以简化为x2=(ac-bd)2n/(a+b)(c+d)(a+c)(b+d),n代表总例数,即a+b+c+d。这些公式个大家记不住都不要紧,电脑时代,这都不是个事儿,学会卡方SPSS卡方检验操作,点一下鼠标结果就出来了。关键是大家要记住这个卡方值x2所代表就是理论频数和实际频数差别,x2越大那么二者差别就越大。当二者差别越大那么由于抽样误差这种偶然因素导致它们没有差别的概率P值就越小。那这个P值要小于多少,我们下结论才比较有自信呢?统计学上一般认为P小于5%,好比两个选手打牌,乙方打100场才赢甲方5场,我们认为甲方的打牌技术要比乙方强,乙方赢的那5场完全是因为他抓了一手好牌。好的明白了卡方值是怎么来的,对于卡方检验我们已经有了一个大体的认识,为了进一步理解下面要补充一些小的细节问题。3 理论频数是怎么来的,为什么卡方值越大P越小,什么是卡方检验的自由度?
图2:由理论频数计算实际频数示意图
第一个问题:这个理论频数是咋算出来的?我们直观了解一下,如图2的箭头所示:理论频数a`=(174×104 )/200=90.5, 理论频数d`=(26×96 )/200=12.5,我想不用再说大家也知道b`,c` 如何计算,理解就行,公式不需要记,电脑程序都帮你记着呢。图3:四格卡方检验曲线下面积分布示意图
第二个问题:为什么卡方值越大P值越小?如图2,四格卡方自由度等于1,x2分布曲线如图2,比如x2=10,P值是指 10以外红色部分占整个曲线下面积的多少,比值越小概率越低。
第三个问题:为什么四格卡方表格自由度是1?我们先举个例子,门外有张三、李四、王五3个人,只要进来任意来个人我就知道第三个人叫什么,只有这两个人有自由,一旦这两个定了,第三个人是谁就被人知道了,所以自由度是2。这个四格表只要你填上任何一个比如c,那么c对应的a位置就跑不了,而a对应b也跑不了,b对应d也固定了,只有第一个位置填什么是让你自由选择的,自由度就是1。也有的书解释为在四格表周围四个数之和固定的情况下只有一个格子可以让你自由取自,道理跟前面讲的差不多。R×C的卡方表自由度计算公式是(R-1)×(C-1),R代表行,C代表列。本文转载丁香园四叶虫原创文章,如有侵权联系立即删除。