卡方分布 订阅
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。 展开全文
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
信息
别    称
西格玛分布
提出者
Friedrich Robert Helmert
应用学科
统计学
中文名
卡方分布
外文名
chi-square distribution
提出时间
1863
卡方分布简介
分布在数理统计中具有重要意义。 分布是由阿贝(Abbe)于1863年首先提出的,后来由海尔墨特(Hermert)和现代统计学的奠基人之一的卡·皮尔逊(C K.Pearson)分别于1875年和1900年推导出来,是统计学中的一个非常有用的著名分布。 [1] 
收起全文
精华内容
下载资源
问答
  • 有很多统计推断是基于正态分布的假设,以标准正态分布变量为...这三大抽样分布即为著名的卡方分布,t分布和F分布。 目录 1 卡方分布(分布) 1.1 定义 1.2 性质 2 t分布 2.1 定义 2.2 性质 3 F分布 3.1 ...

    有很多统计推断是基于正态分布的假设,以标准正态分布变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有显式表达式,它们被称为统计中的“三大抽样分布”。这三大抽样分布即为著名的卡方分布,t分布F分布

    目录

    1 卡方分布(\chi ^{2}分布)

    1.1 定义

    1.2 性质

    2 t分布

    2.1 定义

    2.2 性质

    3 F分布

    3.1 定义

    3.2 性质

    4 正态总体样本均值和样本方差的分布

    4.1 正态变量线性函数的分布​

    4.2 正态变量样本均值和样本方差的分布

    5 几个重要推论

    6 总结

     



    1 卡方分布(\chi ^{2}分布)

    1.1 定义

    设随机变量 X 是自由度为 n 的 χ2 随机变量, 则其概率密度函数为

    \Gamma(\cdot )表示的是一个gamma函数,它是整数k的封闭形式。gamma函数的介绍如下伽马函数的总结

    \chi _{n}^{2} 的密度函数 g_{n}(x) 形状如下图

    \chi _{n}^{2}密度函数的支撑集 (即使密度函数为正的自变量的集合) 为(0, +∞), 从上图可见当自由度 n 越大, \chi _{n}^{2} 的密度曲线越趋于对称, n
    越小, 曲线越不对称. 当 n = 1, 2 时曲线是单调下降趋于 0. 当 n ≥ 3时曲线有单峰, 从 0 开始先单调上升, 在一定位置达到峰值, 然后单下降趋向于 0。

    若 X ∼ \chi _{n}^{2}, 记 P(x> c)=\alpha,则 c=\chi _{n}^{2}(\alpha ) 称为 \chi _{n}^{2} 分布的上侧 \alpha 分位数, 如下图所示。当\alphan 给定时可查表求出 \chi _{n}^{2}(a) 之值,如\chi _{10}^{2}(0.01)=23.209\chi _{5}^{2}(0.05)=12.592 等。

    1.2 性质

    χ2 变量具有下列性质:


    2 t分布

    说起t分布,首先要提一句u分布,正态分布(normal distribution)是许多统计方法的理论基础。正态分布的两个参数μ和σ决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布(standard normaldistribution),亦称u分布。根据中心极限定理,通过抽样模拟试验表明,在正态分布总体中以固定 n 抽取若干个样本时,样本均数的分布仍服从正态分布,即N(μ,σ)。所以,对样本均数的分布进行u变换,也可变换为标准正态分布N (0,1)

    由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ的估计值,为了与u变换区别,称为t变换统计量t 值的分布称为t分布

    2.1 定义

    设随机变量 T ∼ t_{n}, 则其密度函数为

    该密度函数的图形如下

    t_{n}的密度函数与标准正态分布 N(0, 1) 密度很相似, 它们都是关于原点对称, 单峰偶函数, 在 x = 0 处达到极大. 但 t_{n} 的峰值低于
    N(0, 1) 的峰值, t_{n} 的密度函数尾部都要比 N(0, 1) 的两侧尾部粗一些. 容易证明:

    此处 \varphi (x)N(0, 1) 变量的密度函数。

    若T ∼ t_{n},记P(\left | T \right |> c)=\alpha,则c={t_{n}}(\alpha /2)为自由度为nt分布的双侧\alpha分位数(如上图所示). 当给定 \alpha 时, {t_{n}}(\alpha ), {t_{n}}(\alpha /2)
    等可通过查表求出. 例如 {t_{12}}(0.05)=1.782 ,{t_{9}}(0.025)=2.262等。

    t 分布是英国统计学家 W.S. Gosset 在 1908 年以笔名 Student发表的论文中提出的, 故后人称为 “学生氏 (Student) 分布” 或 “t
    布”。

    2.2 性质

    t 变量具有下列的性质:


    3 F分布

    3.1 定义

    若随机变量 Z ∼F_{m,n}, 则其密度函数为

    自由度为 m, n F 分布的密度函数如下图:

     

    注意 F 分布的自由度 m n 是有顺序的, 当 m\neq n时, 若将自由度 m n 的顺序颠倒一下, 得到的是两个不同的 F 分布. 从上图
    可见对给定 m = 10, n 取不同值时f_{m,n}(x) 的形状, 我们看到曲线是偏态的, n 越小偏态越严重。

    若 F ∼ F_{m,n}, 记 P(F> c)=\alpha, 则 c=F_{m,n}(\alpha ) 称为 F 分布的上侧 \alpha 分位数 (见上图). 当 m, n\alpha 给定时, 可以通过查表求出
    F_{m,n}(\alpha )之值, 例如F_{4,10}(0.05)=3.48,F_{10,15}(0.01)=3.80 等. 在区间估计和假设检验问题中常常用到.

    3.2 性质

    F 变量具有下列的性质:

    以上性质中 (1) 和 (2) 是显然的, (3) 的证明不难. 尤其性质 (3)在求区间估计和假设检验问题时会常常用到. 因为当 α 为较小的数,
    如 α = 0.05 或 α = 0.01, m, n 给定时, 从已有的 F 分布表上查不到 F_{m,n}(1-0.05)F_{m,n}(1-0.01) 之值, 但它们的值可利用性质(3) 求得, 因为 F_{n,m}(0.05)F_{n,m}(0.01) 是可以通过查 F 分布表求得的.


    4 正态总体样本均值和样本方差的分布

    为方便讨论正态总体样本均值和样本方差的分布, 我们先给出正态随机变量的线性函数的分布.

    4.1 正态变量线性函数的分布

    4.2 正态变量样本均值和样本方差的分布

    下述定理给出了正态变量样本均值和样本方差的分布和它们的独立性.


    5 几个重要推论

    下面几个推论在正态总体区间估计和假设检验问题中有着重要应用.


    6 总结

    数据在使用前要注意采用有效的方法收集数据, 如设计好抽样方案, 安排好试验等等. 只有有效的收集了数据, 才能有效地使用数据,开展统计推断工作.获得数据后, 根据问题的特点和抽样方式确定抽样分布, 即统计模型. 基于统计模型, 统计推断问题可以按照如下的步骤进行:

    1. 确定用于统计推断的合适统计量;
    2. 寻求统计量的精确分布; 在统计量的精确分布难以求出的情形,可考虑利用中心极限定理或其它极限定理找出统计量的极限分布.
    3. 基于该统计量的精确分布或极限分布, 求出统计推断问题的精确解或近似解.
    4. 根据统计推断结果对问题作出解释

    其中第二步是最重要, 但也是最困难的一步. 统计三大分布及正态总体下样本均值和样本方差的分布, 在寻求与正态变量有关的统计量精确分布时, 起着十分重要作用. 尤其在求区间估计和假设检验问题时可以看得十分清楚

     

    展开全文
  • 卡方分布

    2020-04-19 10:48:43
    卡方分布的定义 #针对一维正态总体有三个重要的分布:卡方分布、t分布和f分布 卡方分布的密度函数

    卡方分布的定义

    #针对一维正态总体有三个重要的分布:卡方分布、t分布和f分布

    卡方分布的密度函数 

     

    展开全文
  • 卡方分布与卡方检验

    万次阅读 多人点赞 2016-08-22 20:18:38
    1.卡方分布卡方分布(chi-square distribution, χ2\chi ^2-distribution)是概率统计里常用的一种概率分布,也是统计推断里应用最广泛的概率分布之一,在假设检验与置信区间的计算中经常能见到卡方分布的身影。...

    项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
    欢迎大家star,留言,一起学习进步

    1.卡方分布

    卡方分布(chi-square distribution, χ2\chi ^2χ2-distribution)是概率统计里常用的一种概率分布,也是统计推断里应用最广泛的概率分布之一,在假设检验与置信区间的计算中经常能见到卡方分布的身影。

    我们先来看看卡方分布的定义:
    kkk个独立的随机变量Z1,Z2,⋯ ,ZkZ_1,Z_2,\cdots,Z_kZ1,Z2,,Zk,且符合标准正态分布N(0,1)N(0,1)N(0,1),则这kkk个随机变量的平方和
    X=∑i=1kZi2X = \sum_{i=1}^k Z_i^2X=i=1kZi2
    为服从自由度为kkk的卡方分布,记为:
    X∼χ2(k)X \sim \chi^2(k)Xχ2(k)
    也可以记为:
    X∼χk2X \sim \chi_k^2Xχk2

    卡方分布的期望与方差分为为:
    E(χ2)=nE(\chi^2) = nE(χ2)=nD(χ2)=2nD(\chi^2) = 2nD(χ2)=2n,其中nnn为卡方分布的自由度。

    2.卡方检验

    χ2\chi^2χ2检验是以χ2\chi^2χ2分布为基础的一种假设检验方法,主要用于分类变量。其基本思想是根据样本数据推断总体的分布与期望分布是否有显著性差异,或者推断两个分类变量是否相关或者独立。
    一般可以设原假设为 H0H_0H0:观察频数与期望频数没有差异,或者两个变量相互独立不相关。
    实际应用中,我们先假设H0H_0H0成立,计算出χ2\chi^2χ2的值,χ2\chi^2χ2表示观察值与理论值之间的偏离程度。根据χ2\chi^2χ2分布,χ2\chi^2χ2统计量以及自由度,可以确定在H0H_0H0成立的情况下获得当前统计量以及更极端情况的概率p。如果p很小,说明观察值与理论值的偏离程度大,应该拒绝原假设。否则不能拒绝原假设。

    χ2\chi^2χ2的计算公式为:
    χ2=∑(A−T)2T\chi^2 = \sum \frac{(A-T)^2}{T}χ2=T(AT)2
    其中,A为实际值,T为理论值。

    χ2\chi^2χ2用于衡量实际值与理论值的差异程度,这也是卡方检验的核心思想。χ2\chi^2χ2包含了以下两个信息:
    1.实际值与理论值偏差的绝对大小。
    2.差异程度与理论值的相对大小。

    3.卡方检验做特征选择

    卡方检验经常被用来做特征选择。举个网络上的例子,假设我们有一堆新闻标题,需要判断标题中包含某个词(比如吴亦凡)是否与该条新闻的类别归属(比如娱乐)是否有关,我们只需要简单统计就可以获得这样的一个四格表:

    组别 属于娱乐 不属于娱乐 合计
    不包含吴亦凡 19 24 43
    包含吴亦凡 34 10 44
    合计 53 34 87  

    通过这个四格表我们得到的第一个信息是:标题是否包含吴亦凡确实对新闻是否属于娱乐有统计上的差别,包含吴亦凡的新闻属于娱乐的比例更高,但我们还无法排除这个差别是否由于抽样误差导致。那么首先假设标题是否包含吴亦凡与新闻是否属于娱乐是独立无关的,随机抽取一条新闻标题,属于娱乐类别的概率是:(19 + 34) / (19 + 34 + 24 +10) = 60.9%

    理论值的四格表为:

    组别 属于娱乐 不属于娱乐 合计
    不包含吴亦凡 43 * 0.609 = 26.2 43 * 0.391 = 16.8 43
    包含吴亦凡 44 * 0.609 = 26.8 44 * 0.391 = 17.2 44

    显然,如果两个变量是独立无关的,那么四格表中的理论值与实际值的差异会非常小。

    χ2\chi^2χ2值为:
    χ2=(19−26.2)226.2+(34−26.8)226.8+(24−16.8)216.8+(10−17.2)217.2=10.00\chi^2 = \frac{(19-26.2)^2}{26.2} + \frac{(34-26.8)^2}{26.8} + \frac{(24-16.8)^2}{16.8} + \frac{(10-17.2)^2}{17.2} = 10.00χ2=26.2(1926.2)2+26.8(3426.8)2+16.8(2416.8)2+17.2(1017.2)2=10.00

    标准的四格表χ2\chi^2χ2值可以用以下方式进行计算:
    χ2=N∗(AD−BC)2(A+B)(C+D)(A+C)(B+D)\chi^2 = \frac{N * (AD-BC)^2}{(A+B)(C+D)(A+C)(B+D)}χ2=(A+B)(C+D)(A+C)(B+D)N(ADBC)2
    其中,N=A+B+C+DN = A+B+C+DN=A+B+C+D

    得到χ2\chi^2χ2的值以后,怎样可以得知无关性假设是否可靠?接下来我们应该查询卡方分布的临界值表了。

    首先我们明确自由度的概念:自由度v=(行数-1)*(列数-1)。
    然后看卡方分布的临界概率,表如下:
    这里写图片描述

    一般我们取p=0.05,也就是说两者不相关的概率为0.05时,对应的卡方值为3.84。显然10.0>3.84,那就说明包含吴亦凡的新闻不属于娱乐的概率小于0.05。换句话说,包含吴亦凡的新闻与娱乐新闻相关的概率大于95%!

    总结一下:我们可以通过卡方值来判断特征是否与类型有关。卡方值越大,说明关联越强,特征越需要保留。卡方值越小,说明越不相关,特征需要去除。

    展开全文
  • 统计学——卡方检验和卡方分布

    万次阅读 多人点赞 2017-12-11 13:02:37
    什么是卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数...

    什么是卡方检验

     

    卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。


    它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

     

    例子1:四格卡方检验

     

    以下为一个典型的四格卡方检验,我们想知道喝牛奶对感冒发病率有没有影响:

     

     

      感冒人数 未感冒人数 合计 感冒率
    喝牛奶组 43 96 139 30.94%
    不喝牛奶组 28 84 112 25.00%
    合计 71 180 251 28.29%

     

    通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也有可能是牛奶对感冒率真的有影响。

     

    为了确定真实原因,我们先假设喝牛奶对感冒发病率是没有影响的,即喝牛奶喝感冒时独立无关的,所以我们可以得出感冒的发病率实际是(43+28)/(43+28+96+84)= 28.29%

    所以,理论的四格表应该如下表所示:

     

     

      感冒人数 未感冒人数 合计
    喝牛奶组 =139*0.2829 =139*(1-0.2829) 139
    不喝牛奶组 =112*0.2829 =112*(1-0.2829) 112


    即下表:

     

     

      感冒人数 未感冒人数 合计
    喝牛奶组 39.3231 99.6769 139
    不喝牛奶组 31.6848 80.3152 112
    合计 71 180 251

     

    如果喝牛奶和感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。

     

     

    卡方检验

     

    卡方检验的计算公式为:

    其中,A为实际值,T为理论值。

    x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
    1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
    2. 差异程度与理论值的相对大小

     

    例1卡方检验

     

    根据卡方检验公式我们可以得出例1的卡方值为:

    卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077

     

    卡方分布的临界值:

     

    上一步我们得到了卡方的值,但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的?也就是说,怎么知道无关性假设是否可靠?

    答案是,通过查询卡方分布的临界值表。


    这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。


    对V = 1,喝牛奶和感冒95%概率不相关的卡方分布的临界概率是:3.84,显然1.077<3.84,没有达到卡方分布的临界值,所以喝牛奶和感冒是独立不相关的。


     

    上面通过一个小例子让大家对卡方检验有一个简单的认识,下面是卡方检验的标准做法:

     

    例子2. 四格卡方检验的标准做法

    我们想知道不吃晚饭对体重下降有没有影响:

     

     

      体重下降 体重未下降 合计 体重下降率
    吃晚饭组 123 467 590 20.85%
    不吃晚饭组 45 106 151 29.80%
    合计 168 573 741 22.67%

     

    1. 建立假设检验:

     

    H0:r1=r2,不吃晚饭对体重下降没有影响,即吃不吃晚饭的体重下降率相等;
    H1:r1≠r2,不吃晚饭对体重下降有显著影响,即吃不吃晚饭的体重下降率不相等。α=0.05

    2. 计算理论值

     

     

      体重下降 体重未下降 合计
    吃晚饭组 133.765 456.234 590
    不吃晚饭组 34.2348 116.765 151
    合计 168 573 741

     

    3. 计算卡方值

     

    根据公式

    计算出卡方值为5.498

    4. 查卡方表求P值

    在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到3.84,而本题卡方=5.498即卡方>3.84,P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组的体重下降率有明显差别。

     

     

    通过实例计算,对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。

     

    附录

     

    什么是卡方分布

    若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。

     

    R语言实现:

     

    x1 = rnorm(1000000)
    x2 = rnorm(1000000)
    x3 = rnorm(1000000)
    x4 = rnorm(1000000)
    x5 = rnorm(1000000)
    x6 = rnorm(1000000)
    
    Q1 = x1^2
    Q2 = x1^2 + x2^2
    Q3 = x1^2 + x2^2 + x3^2
    Q4 = x1^2 + x2^2 + x3^2 + x4^2
    Q5 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2
    Q6 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2 + x6^2
    
    par(mfrow=c(1,1)) 
    plot(density(Q1),xlim=c(0.23,6),ylim = c(0,1),breaks = 200,col = 'blue',lwd=2,main='chi-square',xlab = '',ylab='')
    lines(density(Q2),col='black',lwd=2)
    lines(density(Q3),col='red',lwd=2)
    lines(density(Q4),col='green',lwd=2)
    lines(density(Q5),col='gray',lwd=2)
    lines(density(Q6),col='orange',lwd=2)
    legend('topright',c('k=1','k=2','k=3','k=4','k=5','k=6'),fill = c('blue','black','red','green','gray','orange'))


    最后画出来的图是:

     

     

    由于随机数取得比较少,可能分布图与实际有些许的差别,不过这个可以不用太在意,一下是标准的分布图:

     

     

     

    展开全文
  • (N, delta,m,n) 参数为 N,delta 的非中心卡方分布随机数 r...非中心卡方分布的概率密度函数 泊松分布的概率密度函数 雷利分布的概率密度函数 学...非中心卡方分布的概率密度函数 poisspdf 泊松分布的概率密度函数 ...
  • 卡方分布学习工具

    2018-10-17 07:44:00
    卡方分布学习工具,改变各种参数,看卡方分布的分布函数
  • 广义卡方分布 Matlab 工具箱,用于计算广义卡方分布的统计信息、pdf、cdf、逆 cdf 和随机数。 作者 Abhranil Das,德克萨斯大学奥斯汀分校感知系统中心。 错误/评论/问题/建议至abhranil.das@utexas.edu 。 ...
  • 卡方分布与卡方检验总结

    千次阅读 2019-11-05 11:55:47
    卡方分布(chi-square distribution, χ2χ2-distribution)是概率统计里常用的一种概率分布,也是统计推断里应用最广泛的概率分布之一,在假设检验与置信区间的计算中经常能见到卡方分布的身影。 我们先来看看卡方...
  • 高斯分布和卡方分布

    千次阅读 2019-08-25 12:49:38
    高斯分布和卡方分布高斯分布和卡方分布高斯分布1 单元高斯分布1.1 一维随机变量1.2 标准正太分布1.3 numpy中使用正太分布2 多元高斯分布2.1 独立多元/维高斯分布2.2 举例-画2维独立不相关高斯图2.3 相关系数2.3 举例...
  • 卡方分布_样本方差 卡方分布 样本方差的抽样分布 χ2(n) 卡方分布 t分布、卡方分布、f分布均要求总体服从正态分布。 若n个相互独立的随机变量ξ1,ξ2,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,170
精华内容 468
关键字:

卡方分布