精华内容
下载资源
问答
  • 卡方分布

    千次阅读 2019-07-22 10:37:18
    卡方分布   如果我们有kkk个独立的标准正态分布随机变量x1,x2,…,xkx_1,x_2,\ldots,x_kx1​,x2​,…,xk​,则其平方和z=x12+x22+⋯xk2z=x_1^2+x_2^2+\cdots x_k^2z=x12​+x22​+⋯xk2​满足自由度为k的卡方分布,...

    1、中心卡方分布

      如果我们有 k k k个独立的标准正态分布随机变量 x 1 , x 2 , … , x k x_1,x_2,\ldots,x_k x1,x2,,xk,则其平方和 Z = ∑ i = 1 k x i 2 Z=\sum_{i=1}^kx_i^2 Z=i=1kxi2满足自由度为 k k k的卡方分布,概率密度函数为
    (1) p Z ( z ) = { z k 2 − 1 e − z 2 2 k 2 Γ ( k 2 ) , z > 0 0 , o t h e r w i s e . \tag{1} p_Z(z)=\left\{\begin{aligned} \frac{z^{\frac{k}{2}-1}e^{-\frac{z}{2}}}{2^{\frac{k}{2}}\Gamma(\frac{k}{2})}&,&z>0\\ 0&,&{\rm otherwise}. \end{aligned} \right. pZ(z)=22kΓ(2k)z2k1e2z0,,z>0otherwise.(1)
    其均值为自由度 k k k,方差为 2 k 2k 2k
    下面我们首先来看看伽玛分布。

    2、伽玛函数

      下面我们来看看Gamma函数的定义。
    Γ ( α ) = ∫ 0 + ∞ x α − 1 e − x d x , \Gamma(\alpha)=\int_{0}^{+\infty}x^{\alpha-1}e^{-x}dx, Γ(α)=0+xα1exdx,如果我们令 x = t 2 x=t^2 x=t2,则有
    Γ ( α ) = ∫ 0 + ∞ 2 t 2 α − 1 e − t 2 d t 。 \Gamma(\alpha)=\int_{0}^{+\infty}2t^{2\alpha-1}e^{-t^2}dt。 Γ(α)=0+2t2α1et2dt进一步,我们有
    Γ ( 1 ) = 1 Γ ( 1 2 ) = π Γ ( α + 1 ) = α Γ ( α ) Γ ( n + 1 ) = n Γ ( n ) = n ! \begin{aligned} &\Gamma(1)=1\\ &\Gamma(\frac{1}{2})=\sqrt{\pi}\\ &\Gamma(\alpha+1)=\alpha\Gamma(\alpha)\\ &\Gamma(n+1)=n\Gamma(n)=n! \end{aligned} Γ(1)=1Γ(21)=π Γ(α+1)=αΓ(α)Γ(n+1)=nΓ(n)=n!推荐一个关于Gamma函数的视频(https://www.youtube.com/watch?v=ixaz8-q90L8)。

    3、中心卡方分布的概率密度函数曲线

    //下面我们用MATLAB看下卡方分布的概率密度函数曲线。
    clear;
    for k=1:12
        for z1=1:1400
            z=z1/100;
            pdf(k,z1)=power(z,k/2-1)*exp(-z/2)/power(2,k/2)/gamma(k/2);
        end
    end
    x=0.01:0.01:14;
    plot(x,pdf(1,:),'r')
    hold on;
    plot(x,pdf(2,:),'y')
    plot(x,pdf(4,:),'g')
    plot(x,pdf(6,:),'b')
    plot(x,pdf(11,:),'k')
    

    当然也可以调用MATLAB里面的函数chi2pdf(Z,k)。图1为卡方分布的概率密度函数曲线。
    在这里插入图片描述

    图1 卡方分布概率密度函数

    4、指数分布

      若 k = 2 k=2 k=2,则 Z Z Z满足指数分布,即
    (2) p Z ( z ) = { 1 2 e − z 2 , z > 0 0 , o t h e r w i s e . \tag{2} p_Z(z)=\left\{\begin{aligned} \frac{1}{2}e^{-\frac{z}{2}}&,&z>0\\ 0&,&{\rm otherwise}. \end{aligned} \right. pZ(z)=21e2z0,,z>0otherwise.(2)

    5、非中心卡方分布

      令 X 1 , X 2 , … , X i , … , X k X_1,X_2,\ldots,X_i,\ldots,X_k X1,X2,,Xi,,Xk k k k个独立且正态分布的随机变量,其中 X i X_i Xi的均值为 μ i \mu_i μi,方差为1,这里 i = 1 , 2 , … , k i=1,2,\ldots,k i=1,2,,k,则随机变量
    Z = ∑ i = 1 k X i 2 Z=\sum_{i=1}^{k}X_i^2 Z=i=1kXi2满足非中心卡方分布,它有两个参数,一个是自由度 k k k,另外一个参数 λ \lambda λ与随机变量 X i X_i Xi的均值有关,即
    λ = ∑ i = 1 k μ i 2 . \lambda=\sum_{i=1}^{k}\mu_i^2. λ=i=1kμi2. λ \lambda λ有时也被称为非中心参数。非中心卡方分布随机变量 Z Z Z的概率密度函数为
    p Z ( z ) = ∑ i = 0 ∞ e − λ − z 2 ( λ 2 ) i z k + 2 i 2 − 1 2 k + 2 i 2 Γ ( k + 2 i 2 ) i ! , p_Z(z)=\sum_{i=0}^{\infty}\frac{e^{\frac{-\lambda-z}{2}}(\frac{\lambda}{2})^iz^{\frac{k+2i}{2}-1}}{2^{\frac{k+2i}{2}}\Gamma(\frac{k+2i}{2})i!}, pZ(z)=i=022k+2iΓ(2k+2i)i!e2λz(2λ)iz2k+2i1,其均值和方差分别为
    E ( Z ) = λ + k V a r ( Z ) = 2 ( k + 2 λ ) . \begin{aligned} {\rm E}(Z)&=\lambda+k\\ {\rm Var}(Z)&=2(k+2\lambda). \end{aligned} E(Z)Var(Z)=λ+k=2(k+2λ).

    展开全文
  • 特征函数 0-1分布 P(X=1)=p,P(X=0)=q,0<p<1,p+q=1P(X=1)=p,P(X=0)=q,\\0<p<1,p+q=1P(X=1)=p,P(X=0)=q,0<p<1,p+q=1 p pq q+peitq+pe^{it}q+peit 二项分布 P(X=k)=Cnkpkqn−k0<p<1,p+q=...
    分布分布律或概率密度期望方差特征函数
    0-1分布 P ( X = 1 ) = p , P ( X = 0 ) = q , 0 < p < 1 , p + q = 1 P(X=1)=p,P(X=0)=q,\\0<p<1,p+q=1 P(X=1)=p,P(X=0)=q,0<p<1,p+q=1ppq q + p e i t q+pe^{it} q+peit
    二项分布 P ( X = k ) = C n k p k q n − k 0 < p < 1 , p + q = 1 , k = 0... n P(X=k) = C_n^kp^kq^{n-k} \\0<p<1,p+q=1,k=0...n P(X=k)=Cnkpkqnk0<p<1,p+q=1,k=0...nnpnpq ( q + p e i t ) n (q+pe^{it})^n (q+peit)n
    泊松分布 P ( X = k ) = λ k k ! e − λ , λ > 0 , k = 0.... n P(X=k)=\frac{\lambda ^k}{k!}e^{-\lambda},\\\lambda>0,k=0....n P(X=k)=k!λkeλ,λ>0,k=0....n λ \lambda λ λ \lambda λ e λ ( e i t − 1 ) e^{\lambda(e^{it}-1)} eλ(eit1)
    几何分布 P ( X = k ) = p q k − 1 , 0 < p < 1 , p + q = 1 , k = 1... n P(X=k)=pq^{k-1},\\0<p<1,p+q=1,k=1...n P(X=k)=pqk1,0<p<1,p+q=1,k=1...n 1 p \frac{1}{p} p1 q p 2 \frac{q}{p^2} p2q p e i t 1 − q e i t \frac{pe^{it}}{1-qe^{it}} 1qeitpeit
    均匀分布x~(a,b) f ( x ) = { 1 b − a a < x < b 0 其 他 \\f(x)= \begin{cases}\frac{1}{b-a} &a<x<b\\ 0& 其他\end{cases} f(x)={ba10a<x<b a + b 2 \frac{a+b}{2} 2a+b ( b − a ) 2 12 \frac{(b-a)^2}{12} 12(ba)2 e i b t − e i a t i ( b − a ) t \frac{e^{ibt}-e^{iat}}{i(b-a)t} i(ba)teibteiat
    正态分布N~ ( μ , σ 2 ) (\mu,\sigma^2) (μ,σ2) f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{{\sqrt{2\pi} \sigma}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2 μ \mu μ σ 2 \sigma^2 σ2 e i μ t − 1 2 σ 2 t 2 e^{i\mu t -\frac{1}{2}\sigma^2t^2} eiμt21σ2t2
    指数分布 f ( x ) = { λ e − λ x 0 ≤ x 0 x < 0 , λ > 0 f(x) = \begin{cases}\lambda e^{-\lambda x} & 0 \leq x\\ 0 &x<0\end{cases},\lambda >0 f(x)={λeλx00xx<0,λ>0 1 λ \frac{1}{\lambda} λ1 1 λ 2 \frac{1}{\lambda ^2} λ21 ( 1 − i t λ ) − 1 (1-\frac{it}{\lambda})^{-1} (1λit)1
    卡方分布X~ x 2 ( n ) x^2(n) x2(n)n2n
    t分布 t~ Z Y / n \frac{Z}{\sqrt{Y/n}} Y/n ZZ~N(0,1)服从标准正态分布,Y~ x 2 ( N ) x^2(N) x2(N) 服从卡方分布 n > = 2 , 0 n>=2,0 n>=2,0 n > = 3 , n n − 2 n>=3,\frac{n}{n-2} n>=3,n2n
    F分布X~ F ( m , n ) F(m,n) F(m,n) X = Y / m Z / n = n Y m Z Y , Z 服 从 自 由 度 为 m 和 n 的 x 2 分 布 X =\frac{Y/m}{Z/n} = \frac{nY}{mZ} \\Y,Z服从自由度为m和n的x^2分布 X=Z/nY/m=mZnYY,Zmnx2 n > 2 , n n − 2 n>2,\frac{n}{n-2} n>2,n2n n > 4 , 2 n 2 ( m + n − 2 ) m ( n − 2 ) 2 ( n − 4 ) n>4,\frac{2n^2(m+n-2)}{m(n-2)^2(n-4)} n>4,m(n2)2(n4)2n2(m+n2)
    展开全文
  • 各种各样的分布函数-卡方分布

    千次阅读 2020-04-05 00:12:34
    前面也提到过,其实χ2(n)分布,就是Γ分布的一种特殊形式\chi^2(n)分布,就是\Gamma分布的一种特殊形式χ2(n)分布,就是Γ分布的一种特殊形式 其中α=n/2,β=1/2\alpha = n/2,\beta = 1/2α=n/2,β=1/2 f(x)={12n2Γ(n2...

    函数形式

    前面也提到过,其实 χ 2 ( n ) 分 布 , 就 是 Γ 分 布 的 一 种 特 殊 形 式 \chi^2(n)分布,就是\Gamma分布的一种特殊形式 χ2(n),Γ

    其中 α = n / 2 , β = 1 / 2 \alpha = n/2,\beta = 1/2 α=n/2,β=1/2

    f ( x ) = { 1 2 n 2 Γ ( n 2 ) x n 2 − 1 e − 1 2 x , x > 0 0 , x ≤ 0 f(x)=\left\{ \begin{aligned} &\frac{1}{2^{\frac n2}\Gamma(\frac n2)}x^{\frac n2-1}e^{-\frac 12 x},&x>0\\ &0,&x\leq 0 \end{aligned} \right. f(x)=22nΓ(2n)1x2n1e21x,0,x>0x0

    定义 如果随机变脸 X i 之 间 相 互 独 立 且 服 从 N ( 0 , 1 ) , 分 布 , 则 称 随 机 变 量 X_i之间相互独立且服从N(0,1),分布,则称随机变量 XiN(0,1),,

    χ 2 = X 1 2 + X 2 2 + . . . + X n 2 \chi^2=X_1^2+X_2^2+...+X_n^2 χ2=X12+X22+...+Xn2 服从自由度为 n 的 χ 2 分 布 记 为 χ 2 n的\chi^2分布记为\chi^2 nχ2χ2~ χ 2 ( n ) \chi^2(n) χ2(n)

    准备定理

    (1) 设总体 X X X~ N ( μ , σ 2 ) , ( X 1 , X 2 , . . . , X n ) 是 总 体 容 量 为 n 的 样 本 , A = ( a i j ) 是 p × n 阶 矩 阵 。 N(\mu,\sigma^2),(X_1,X_2,...,X_n)是总体容量为n的样本,A=(a_{ij})是p\times n阶矩阵。 N(μ,σ2),(X1,X2,...,Xn)n,A=(aij)p×n

    记 Y = ( Y 1 , Y 2 , . . . , Y p ) T = A ( X 1 , X 2 , . . . , X n ) T 记Y=(Y_1,Y_2,...,Y_p)^T=A(X_1,X_2,...,X_n)^T Y=(Y1,Y2,...,Yp)T=A(X1,X2,...,Xn)T

    E ( Y i ) = μ Σ j = 1 n a i j , D ( Y i ) = σ 2 Σ j = 1 n a i j 2 ) , C o v ( Y i , Y j ) = σ 2 Σ k = 1 n a i k a j k E(Y_i)=\mu\Sigma_{j=1}^{n}a_{ij},D(Y_i)=\sigma^2\Sigma_{j=1}^{n}a_{ij}^2),Cov(Y_i,Y_j)=\sigma^2\Sigma_{k=1}^{n}a_{ik}a_{jk} E(Yi)=μΣj=1naij,D(Yi)=σ2Σj=1naij2),Cov(Yi,Yj)=σ2Σk=1naikajk

    证明:

    Y i = Σ k = 1 n a i k x k , Y j = Σ k = 1 n a j k x k Y_i=\Sigma_{k=1}^{n}a_{ik}x_k,Y_j=\Sigma_{k=1}^{n}a_{jk}x_k Yi=Σk=1naikxk,Yj=Σk=1najkxk

    C o v ( Y 1 , Y 2 ) = Σ j = 1 n C o v ( a 1 j x j , Σ k = 1 n a 2 k x k ) = Σ j = 1 n C o v ( a 1 j x j , a 2 j x j ) = Σ j = 1 n a 1 j a 2 j σ 2 Cov(Y_1,Y_2)=\Sigma_{j=1}^{n}Cov(a_{1j}x_j,\Sigma_{k=1}^{n}a_{2k}x_k)=\Sigma_{j=1}^{n}Cov(a_{1j}x_j,a_{2j}x_j)=\Sigma_{j=1}^{n}a_{1j}a_{2j}\sigma^2 Cov(Y1,Y2)=Σj=1nCov(a1jxj,Σk=1na2kxk)=Σj=1nCov(a1jxj,a2jxj)=Σj=1na1ja2jσ2

    函数性质

    一大堆性质都可以由前面的 Γ 分 布 推 导 出 来 \Gamma分布推导出来 Γ,这里就没啥好说的,说几个重要的。

    (抽样分布基本定理)
    ( X 1 , X 2 , . . . , X n ) 是 来 自 总 体 N ( μ , σ 2 ) 的 一 个 样 本 (X_1,X_2,...,X_n)是来自总体N(\mu,\sigma^2)的一个样本 (X1,X2,...,Xn)N(μ,σ2)

    (1) X ˉ 与 S 2 相 互 独 立 \bar{X}与S^2相互独立 XˉS2

    (2) ( n − 1 ) S 2 σ 2 \frac{(n-1)S^2}{\sigma^2} σ2(n1)S2~ χ 2 ( n − 1 ) \chi^2(n-1) χ2(n1)

    证明:
    取一个样本 U = ( X 1 , X 2 , . . . , X n ) U=(X_1,X_2,...,X_n) U=(X1,X2,...,Xn)

    然后做一个正交变换
    [ Y 1 Y 2 . . . Y n ] = [ 1 n 1 n . . . 1 n a 21 a 22 . . . a 2 n . . . . . . . . . . . . a n 1 a n 2 . . . a n n ] [ X 1 X 2 . . . X n ] \left[ \begin{matrix} Y_1 \\ Y_2 \\ ...\\ Y_n \end{matrix} \right]= \left[ \begin{matrix} \frac {1}{\sqrt{n}} & \frac {1}{\sqrt{n}} & ...&\frac {1}{\sqrt{n}} \\ a_{21} & a_{22} & ...&a_{2n} \\ ... & ... & ...&...\\ a_{n1}&a_{n2}&...&a_{nn} \end{matrix} \right] \left[ \begin{matrix} X_1 \\ X_2 \\ ...\\ X_n \end{matrix} \right] Y1Y2...Yn=n 1a21...an1n 1a22...an2............n 1a2n...annX1X2...Xn
    所以有 Y 1 = n X ˉ , Y T Y = Σ i = 1 n Y i 2 = Σ i = 1 n X i 2 Y_1=\sqrt n\bar X,Y^TY=\Sigma_{i=1}^{n}Y_i^2=\Sigma_{i=1}^{n}X_i^2 Y1=n Xˉ,YTY=Σi=1nYi2=Σi=1nXi2

    Σ i = 2 n Y i 2 = Σ i = 1 n X i 2 − n X ˉ 2 = Σ i = 1 n ( X i − X ˉ ) 2 = ( n − 1 ) S 2 \Sigma_{i=2}^{n}Y_i^2=\Sigma_{i=1}^{n}X_i^2-n\bar{X}^2=\Sigma_{i=1}^{n}(X_i-\bar{X})^2=(n-1)S^2 Σi=2nYi2=Σi=1nXi2nXˉ2=Σi=1n(XiXˉ)2=(n1)S2(把后面的拆开就可以发现是相等的)

    然后 Σ i = 2 n ( Y i σ ) 2 \Sigma_{i=2}^{n}(\frac{Y_i}{\sigma} )^2 Σi=2n(σYi)2~ χ 2 ( n − 1 ) \chi^2(n-1) χ2(n1),即有 ( n − 1 ) S 2 σ 2 \frac{(n-1)S^2}{\sigma^2} σ2(n1)S2 ~ χ 2 ( n − 1 ) \chi^2(n-1) χ2(n1)

    然后考虑(1)的证明:

    L = ( 2 π σ ) − n e − 1 2 σ 2 Σ i = 1 n ( X i − μ ) 2 = ( 2 π σ ) − n e − 1 2 σ 2 Σ i = 1 n X i 2 − 2 n μ X ˉ + n μ 2 = ( 2 π σ ) − n e − 1 2 σ 2 Σ i = 1 n Y i 2 − 2 n μ Y 1 + n μ 2 = ( 2 π σ ) − 1 e − 1 2 σ 2 ( Y 1 − n μ ) 2 × ( 2 π σ ) − 1 e − 1 2 σ 2 Y 2 2 × . . . × ( 2 π σ ) − 1 e − 1 2 σ 2 Y n 2 \begin{aligned} L&=(\sqrt{2\pi}\sigma)^{-n}e^{-\frac{1}{2\sigma^2}\Sigma_{i=1}^{n}(X_i-\mu)^2}\\ &=(\sqrt{2\pi}\sigma)^{-n}e^{-\frac{1}{2\sigma^2}\Sigma_{i=1}^{n}X_i^2-2n\mu \bar X+n\mu^2}\\ &=(\sqrt{2\pi}\sigma)^{-n}e^{-\frac{1}{2\sigma^2}\Sigma_{i=1}^{n}Y_i^2-2\sqrt n\mu Y_1+n\mu^2}\\ &=(\sqrt{2\pi}\sigma)^{-1}e^{-\frac{1}{2\sigma^2}(Y_1-\sqrt n\mu)^2}\times(\sqrt{2\pi}\sigma)^{-1}e^{-\frac{1}{2\sigma^2}Y_2^2}\times...\times(\sqrt{2\pi}\sigma)^{-1}e^{-\frac{1}{2\sigma^2}Y_n^2} \end{aligned} L=(2π σ)ne2σ21Σi=1n(Xiμ)2=(2π σ)ne2σ21Σi=1nXi22nμXˉ+nμ2=(2π σ)ne2σ21Σi=1nYi22n μY1+nμ2=(2π σ)1e2σ21(Y1n μ)2×(2π σ)1e2σ21Y22×...×(2π σ)1e2σ21Yn2

    L L L可以看作 Y 1 , Y 2 , . . . , Y n Y_1,Y_2,...,Y_n Y1,Y2,...,Yn的联合密度函数,则 Y 1 , Y 2 , . . . , Y n Y_1,Y_2,...,Y_n Y1,Y2,...,Yn之间相互独立

    且有 Y 1 Y_1 Y1~ N ( n μ , σ 2 ) N(\sqrt n\mu,\sigma^2) N(n μ,σ2), Y 2 Y_2 Y2~ N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2),…, Y n Y_n Yn~ N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2)

    X ˉ = Y 1 / n , S 2 = Σ i = 2 n Y i 2 / ( n − 1 ) \bar X = Y_1/\sqrt n,S^2=\Sigma_{i=2}^{n}Y_i^2/(n-1) Xˉ=Y1/n ,S2=Σi=2nYi2/(n1),显然 X ˉ , S 2 \bar X, S^2 Xˉ,S2相互独立

    展开全文
  • 小文 | 公众号 小文的数据之旅推断统计学...正态分布中的几个重要分布:卡方分布、t分布、F分布,称为统计三大分布,常用于样本估计与假设验证。1、卡方分布(连续、离散)定义:设随机变量X1,X2,...Xn互相独立,且X...

    eff1d40f00d7fd893365043bf33e97ab.png

    小文 | 公众号 小文的数据之旅

    推断统计学的重要作用就是通过从总体中抽取样本构造适当的统计量,由样本性质去推断关于总体的性质。统计量是样本的函数,它不依赖于任何未知参数。常用的统计量包括样本均值、方差、变异系数、峰度、偏度等。

    正态分布中的几个重要分布:卡方分布、t分布、F分布,称为统计三大分布,常用于样本估计与假设验证。

    1、卡方分布(连续、离散)

    定义:设随机变量X1,X2,...Xn互相独立,且Xi(i=1,2,...,n)服从标准正态分布N(0,1),则它们的平方和(构成新的随机变量)服从自由度为n的卡方分布。

    新的随机变量是一个平方和,对于平方和的统计量我们想到了什么呢?没错就是方差,卡方分布的应用往往跟方差挂钩。卡方分布是正态分布构造而成的一个新的分布,当自由度n很大时,卡方分布近似正态分布。

    期望

    方差

    公式

    作用

    用来衡量观测值(O)与期望值(E)的差异程度,当观测值与期望值存在差异时,检验差异是随机波动还是人为所致。因此卡方统计量可以用
    来检验拟合优度(即观测值与指定的分布的吻合程度)和 检验两个变量的独立性(即两个变量是否存在显著性差异)。

    形状特征

    • 当自由度n<=2,先高后低,意味着检验统计量等于较小值的概率远远大于较大值,即观察频数越接近期望频数;
    • 当自由度n>2,先低后高再低,n越大,越接近正态分布。

    1e78d9ef0132eb01f1ae6b069fa94943.png
    图片来源于网络

    python验证

    • 方法:scipy.stats.ks_2samp(data1, data2, alternative='two-sided', mode='auto'),检验指定的两个数据是否服从相同分布;
    • 官方文档:SciPy v1.4.1 Reference Guide
    • 返回:statistic - 统计值;pvalue - p值

    2、 t分布(连续)

    定义:设随机变量X~N(0,1),Y~

    ,且
    X与Y独立,则
    ,其分布称为t分布,n为自由度。

    t分布是正态分布构造而成的一个新的分布,当自由度n很大时(n>=30),根据中心极限定理,t分布近似正态分布。t分布主要用于检验均值是否不同。

    期望:当自由度>=2,

    方差:当自由度>=3,

    公式

    作用应用于小样本(n<30)的假设检验以及小样本均值的估计,可以轻松排除异常值的干扰,准确把握住数据的特征。

    形状特征:与正态分布类似,但是尾部比正态分布要高,高高的长尾让它对异常值的包容性更好,因此能够减少异常值的干扰,更好的捕捉数据的特征

    550bfd1900a79b9f1443dc30a25847a6.png
    图片来源于网络

    python验证

    • 方法:scipy.stats.ks_2samp(data1, data2, alternative='two-sided', mode='auto'),检验指定的两个数据是否服从相同分布;
    • 官方文档:SciPy v1.4.1 Reference Guide
    • 返回:statistic - 统计值;pvalue - p值

    3、F分布(连续)

    定义:设随机变量Y与Z互相独立,且Y与Z分别服从自由度为m和n的卡方分布,随机变量X有如下表达式:

    ,则称X服从第一自由度m,第二自由度n的F分布。

    与t统计量、F统计量的关系:

    • 当自由度等于1时,F统计量等于t统计量的平方。
    • F统计量 = 两个卡方统计量分别除以自身的自由度后两者的比值

    思想:总变异分解为多个部分,每个部分由某因素的作用来解释,通过将某因素所致的变异与随机误差比较,从而推断该因素对测定结果是否有影响。听起来是不是跟卡方检验有点相似呢?bingo!当比较的组合次数很多(大于2),若采用卡方检验,会随着组合次数的增多而降低了统计推论可靠性的概率,增大了犯错误的概率,因此这时候就需要F统计量来帮帮忙了!F检验主要是用于检验多组合间方差是否存在差异。

    公式:F统计量=组间均方与组内均方的比值

    作用:应用于比较多组数据均值之间是否存在差异方差分析

    形状特征:

    25f399325f773746ddc1a7684ee833ef.png

    注意:方差分析的结果若拒绝H0,接受H1,不能说明各组总体均数两两间都有差别。如果要分析哪些两组间有差别,要进行多个均数间的多重比较(卡方检验)。

    4、Python 如何检验正态性

    (1) Shapiro-Wilk test:

    • 方法:scipy.stats.shapiro(x)
    • 官方文档:SciPy v1.4.1 Reference Guide
    • 参数:x - 待检验数据
    • 返回:W - 统计数;p-value - p值

    (2)scipy.stats.kstest:

    • 方法:scipy.stats.kstest (rvs, cdf, args = ( ), N = 20, alternative ='two-sided', mode ='approx')
    • 官方文档:SciPy v1.4.1 Reference Guide
    • 参数:rvs - 待检验数据,可以是字符串、数组;
    • cdf - 需要设置的检验,这里设置为 norm,也就是正态性检验;
    • alternative - 设置单双尾检验,默认为 two-sided
    • 返回:D - 统计数;p-value - p值

    (3)scipy.stats.normaltest:

    • 方法:scipy.stats.normaltest (a, axis=0)
    • 官方文档:SciPy v1.4.1 Reference Guide
    • 参数:a - 待检验数据;axis - 可设置为整数或置空,如果设置为 none,则待检验数据被当作单独的数据集来进行检验。该值默认为 0,即从 0 轴开始逐行进行检验。
    • 返回:statistic - 统计值;pvalue - p值

    5、python实践

    import pandas as pd
    import numpy as np
    from scipy import stats
    import seaborn as sns
    import matplotlib.pyplot as plt
    %matplotlib inline 
    
    data = pd.read_excel('./desktop/data.xlsx')
    
    # 判断年龄是否服从正态分布,先从直方图看起
    sns.distplot(data['Age'],bins=10)
    plt.title('Age')
    plt.xlim(0,80)

    caac988ee037cd34e34a69bd52ad73ee.png
    # 验证是否服从正态分布
    ks_test = stats.kstest(data['Age'], 'norm')
    shapiro_test = stats.shapiro(data['Age'])
    normaltest_test = stats.normaltest(data['Age'],axis=0)
    print('ks_test:',ks_test)
    print('shapiro_test:',shapiro_test)
    print('normaltest_test:',normaltest_test)

    结果:

    • ks_test: KstestResult(statistic=0.9649422367998306, pvalue=0.0)
    • shapiro_test: (0.9815102219581604, 7.906476895414016e-08)
    • normaltest_test: NormaltestResult(statistic=18.12938011101228, pvalue=0.00011567916063448067)

    结论:由于p值都小于0.05,拒绝原假设,数据不服从正态分布

    #因为使用ks_2samp的方式验证,因此需要先基于原数据做t拟合
    np.random.seed(1000)  
    ks = stats.t.fit(data['Age'])
    df = ks[0]
    loc = ks[1]
    scale = ks[2]
    ks2 = stats.t.rvs(df=df, loc=loc, scale=scale, size=len(data['Age']))
    stats.ks_2samp(data['Age'], ks2)

    结果:

    • Ks_2sampResult(statistic=0.06460674157303371, pvalue=0.09840600308212365)

    结论:由于p值大于0.05,不能拒绝原假设,数据服从t分布

    # 绘制拟合的T分布图
    plt.figure()
    data['Age'].plot(kind = 'kde')
    T = stats.t(df,loc,scale) 
    x = np.linspace(T.ppf(0.01), T.ppf(0.99), 100)
    plt.plot(x, TDistribution.pdf(x), c='orange')
    plt.xlabel('age')
    plt.title('T Distribution')
    plt.legend(['age', 'T'])

    e4c0a97f8c7777a56ce1b56e7eba8d28.png
    #因为使用ks_2samp的方式验证,因此需要先基于原数据做卡方拟合
    np.random.seed(1000) 
    chi_S = stats.chi2.fit(data['Age'])
    df_chi = chi_S[0]
    loc_chi = chi_S[1]
    scale_chi = chi_S[2]
    chi2 = stats.chi2.rvs(df=df_chi, loc=loc_chi, scale=scale_chi, size=len(data['Age']))
    stats.ks_2samp(data['Age'], chi2)

    结果:

    • Ks_2sampResult(statistic=0.07724719101123596, pvalue=0.026989502005622588)

    结论:由于p值小于0.05,拒绝原假设,数据不服从卡方分布

    # 绘制拟合的卡方分布图
    plt.figure()
    data['Age'].plot(kind = 'kde')
    chi = stats.chi2(df_chi, loc_chi,scale_chi) 
    x = np.linspace(chi.ppf(0.01), chi.ppf(0.99), 100)
    plt.plot(x, chi.pdf(x), c='orange')
    plt.xlabel('age')
    plt.title('chi-square_Distribution')
    plt.legend(['age', 'chi-square'])

    b771002b13cc925198ee4ab22ddd70e1.png

    end

    小文的数据之旅

    戳右上角「+关注」获取最新share

    如果喜欢,请分享or点赞

    展开全文
  • 卡方分布、方差分析

    千次阅读 2019-08-11 21:08:03
    卡方分布: 首先我们先把现代数学中的数理统计中的卡方分布已经烂大街的定义先放下来,我先回到卡方检验的诞生的之地。 在1900年,皮尔森发表了著名的关于卡方检验的文章,该文章被认为是现代统计学的基石之一。...
  • 3、卡方分布 4、F 分布 1、正态分布(高斯概率密度函数和概率分布函数) 正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在...
  • 来源:首席数据科学家「Python数据之道」导读大家好,我是阳哥,相信大家经常听到卡方分布、t分布等概念,今天跟大家分享关于抽样分布的内容。01—抽样分布首先,什么是抽样分布呢?在上篇文章...
  • 当对海量数据进行数据分析,查看数据分布情况的时候比较困难。...样本比例/均值之差/方差的分布一、统计量定义:x1,x2,....xn是从总体中抽取的容量为n的一个样本,如果由这些样本构造一个函数T(x1,x2,.....
  • 选自github作者:graykode编辑:机器之心机器学习开发者需要了解的 12 种概率分布,这些你都了解吗?机器学习有其独特的数学基础,我们用微积分来处理变化无限小的函数,并计算它们的变化;我们使用线性代数来处理...
  • 第一章 统计分布基础 本章除指数分布族、 分布本科一般不学之外,其余基本上都是很简单的内容。 已故的陈希孺院士在《高等数理统计学》一书的序中写到:“多做习题,尤其是多做难题,对掌握并熟练数理统计学基本的...
  • 目录协方差矩阵方差和协方差的定义卡方分布ORB-SLAM中的卡方分布误差阈值 协方差矩阵 为了后续能更好的说明多维向量的卡方分布,有必要先简单介绍下协方差矩阵。 方差和协方差的定义 在统计学中,方差是用来度量单个...
  • SLAM中的卡方分布

    2019-10-20 20:12:14
    视觉slam中相邻帧特征点匹配时,动辄上千个特征点,匹配错误的是难免的,而误匹配势必会对位姿精度以及建图精度造成影响,那么如何分辨哪些是误匹配的点对儿呢?如果已知两帧的的单应矩阵,假设单应矩阵是没有误差的...
  • 转载于 :深度学习前沿...在贝叶斯概率论中,如果后验分布 p(θx)与先验概率分布 p(θ)在同一概率分布族中,则先验和后验称为共轭分布,先验称为似然函数的共轭先验。共轭先验维基百科在这里(https://en.wikipe...
  • 其他连续分布5.1 卡方分布5.2 t分布5.3 F分布6. 变量的关系6.1 联合概率分布6.2变量的独立性6.3 变量的相关性6.4 上证指数与深证成指相关性分析 统计分析是可以帮助人们认清、刻画不确定性的方法。总体是某一特定...
  • 卡方分布分为中心卡方和非中心卡方。 中心卡方分布 ...matlab给出了n个服从N(0,1)的正态分布自由度为n的中心卡方分布的计算函数: 卡方分布的分布函数:chi2cdf 分布函数的反函数chi2inv 概率密度函数chi2pd
  • 我的公众号是关于自己在数据分析/挖掘学习...相应的概率分布有二项分布,泊松分布。连续型随机变量如果随机变量X的所有取值无法逐个列举出来,而是取数轴上某一区间内的任一点,则称X为连续型随机变量。相应的概率...
  • 推荐基础算法之矩阵分解PFMPFM被称为概率因子模型...其中对于观测数据的假设是用泊松分布代替了PMF中的高斯分布、对于用户和物品潜在特征矩阵用Gamma分布代替Gaussian分布。此外,PFM主要是用来解决频率数据的...
  • 前言今天来说说机器学习中一个比较重要的概念——主成分分析(Principal Component Analysis),简称PCA。根据字面意思强行解释一波,就是...我们往往面临成百上千的特征,如果对全部特征都处理,导致训练预测等处理特...
  • UA MATH564 概率论VI 数理统计基础3 卡方分布下 Cochran定理多元正态随机变量二次型的分布Cochran定理 这一讲介绍多元正态随机变量的二次型的相关性质以及非常常用的Cochran定理。假设X1,⋯ ,XnX_1,\cdots,X_nX1​,...
  • 线性回归就是假设特征满足线性关系,根据已经获得一些数据来训练一个模型,并用这个模型进行预测。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析...
  • 回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。...统计学——卡方分布
  • 传送门:数理统计|笔记整理(1)——引入,重要分布函数,特征函数及计算——————————————————————————————————————大家好!图文无关……不知道大家对于上一节的感受如何,我们...
  • 文章目录误差定义阈值选取 误差定义 outlier、外点、野值会严重影响SLAM的精度,因此必须把...重投影误差服从高斯分布 其中,协方差σ\sigmaσ一般根据特征点提取的金字塔层级确定。具体的,记提取ORB特征时,图像金
  • 核心技能最大似然估计给定一个概率分布 ,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 ,以及一个分布参数 ,我们可以从这个分布中抽出一个具有 个值的采样 利用 计算出其似然函数: 若 是离散分布...
  • outlier、外点、野值会严重影响SLAM的精度,因此必须把它们剔除。常用的做法是,计算一个误差,当这个误差大于设定阈值的时候就认为其为外点。...重投影误差服从高斯分布 其中,协方差公式1一般...
  • 特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择...
  • 特征选择-卡方检验用于特征选择

    万次阅读 2017-06-03 21:06:57
    卡方分布若n个相互独立的随机变量X1X_1、X2X_2、…\ldots、XnX_n,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个随机变量的平方和Q=∑ni=1X2iQ=\sum_{i=1}^nX_i^2构成一个新的随机变量,其分布规律...
  • 卡方检验表格

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,273
精华内容 1,709
关键字:

卡方分布特征函数