精华内容
下载资源
问答
  • 本文中结论较多,证明较少,是为了多元正态分布的假设检验做的前置准备。

    五、多元统计的“三大分布”

    一元正态总体参数 μ , σ 2 \mu,\sigma^2 μ,σ2的参数检验,涉及到单总体、多总体,有三种比较常见的分布: χ 2 \chi^2 χ2分布, t t t分布, F F F分布;推广到多元正态总体上,也有三种对应的分布。在介绍多元统计的三大分布之前,先介绍正态变量二次型的分布以及非中心三大分布。

    1.正态变量的二次型

    正态变量二次型的分布,是对独立的同方差正态变量 X i ∼ N 1 ( μ i , σ 2 ) , σ 2 ≠ 0 X_i\sim N_1(\mu_i,\sigma^2),\sigma^2\ne 0 XiN1(μi,σ2),σ2=0而言的。如果记 X = ( X 1 , ⋯   , X n ) ′ X=(X_1,\cdots,X_n)' X=(X1,,Xn),则 X ∼ N p ( μ , σ 2 I n ) X\sim N_p(\mu,\sigma^2I_n) XNp(μ,σ2In),这里 μ = ( μ 1 , ⋯   , μ n ) ′ \mu=(\mu_1,\cdots,\mu_n)' μ=(μ1,,μn)。对于一个矩阵 A n × n A_{n\times n} An×n X ′ A X X'AX XAX就称为二次型,很多时候 A A A还会是对称阵

    从简单的开始讨论,首先讨论 A = I n A=I_n A=In,此时 ξ = X ′ I n X = X ′ X \xi=X'I_nX=X'X ξ=XInX=XX。更进一步简化 μ = 0 \mu=0 μ=0,就得到
    ξ σ 2 = ∑ α = 1 n X α 2 σ 2 ∼ χ 2 ( n ) . \frac{\xi}{\sigma^2}=\sum_{\alpha=1}^n \frac{X_{\alpha}^2}{\sigma^2}\sim \chi^2(n). σ2ξ=α=1nσ2Xα2χ2(n).
    这就是我们对 χ 2 \chi^2 χ2分布的定义,为了方便记忆,我们也可以写成 X ′ X ∼ σ 2 χ 2 ( n ) X'X\sim \sigma^2\chi^2(n) XXσ2χ2(n)

    而如果 μ ≠ 0 \mu\ne0 μ=0,我们可以类似定义非中心 χ 2 \chi^2 χ2分布,只需要加入非中心参数 δ = μ ′ μ = ∑ α = 1 n μ α 2 \delta=\mu'\mu=\sum_{\alpha=1}^n \mu_\alpha^2 δ=μμ=α=1nμα2,此时对 σ 2 = 1 \sigma^2=1 σ2=1时,就应该有 X ′ X ∼ χ 2 ( n , δ ) X'X\sim \chi^2(n,\delta) XXχ2(n,δ);当 σ 2 ≠ 1 \sigma^2\ne 1 σ2=1时,令 Y i = X i / σ Y_i=X_i/\sigma Yi=Xi/σ,则 Y i ∼ N 1 ( μ / σ , 1 ) Y_i\sim N_1(\mu/\sigma,1) YiN1(μ/σ,1),且 Y ′ Y ∼ χ 2 ( n , δ / σ 2 ) Y'Y\sim \chi^2(n,\delta/\sigma^2) YYχ2(n,δ/σ2),所以
    X ′ X ∼ σ 2 χ 2 ( n , δ σ 2 ) . X'X\sim \sigma^2\chi^2(n,\frac{\delta}{\sigma^2}). XXσ2χ2(n,σ2δ).
    既然提出了非中心 χ 2 \chi^2 χ2分布,就顺道提一下非中心 t t t分布与非中心 F F F分布。非中心 t t t分布是指对相互独立的 X ∼ N ( δ , 1 ) , Y ∼ χ 2 ( n ) X\sim N(\delta,1),Y\sim \chi^2(n) XN(δ,1),Yχ2(n) T = X Y / n T=\frac{X}{\sqrt{Y/n}} T=Y/n X的分布,记作 T ∼ t ( n , δ ) T\sim t(n,\delta) Tt(n,δ);非中心 F F F分布是指对相互独立的 X ∼ χ 2 ( m , δ ) , Y ∼ χ 2 ( n ) X\sim \chi^2(m,\delta),Y\sim \chi^2(n) Xχ2(m,δ),Yχ2(n) F = X / m Y / n F=\frac{X/m}{Y/n} F=Y/nX/m的分布,记作 F ∼ F ( m , n , δ ) F\sim F(m,n,\delta) FF(m,n,δ)

    接下来,将情况变得复杂一点, A A A不是单位阵,而扩展到幂等对称阵,即 A 2 = A A^2=A A2=A。幂等矩阵有一个特征,是它的特征值只能是0或1,因为 A ( A − I ) = 0 ⇔ λ ( λ − 1 ) = 0 A(A-I)=0\Leftrightarrow \lambda(\lambda-1)=0 A(AI)=0λ(λ1)=0。基于此,我们得到以下结论:

    X ∼ N n ( 0 , σ 2 I n ) X\sim N_n(0,\sigma^2I_n) XNn(0,σ2In) A A A为对称阵且 r a n k ( A ) = r {\rm rank}(A)=r rank(A)=r,则
    X ′ A X ∼ σ 2 χ 2 ( r ) ⇔ A 2 = A . X'AX\sim \sigma^2\chi^2(r)\Leftrightarrow A^2=A. XAXσ2χ2(r)A2=A.
    X ∼ N n ( μ , σ 2 I n ) X\sim N_n(\mu,\sigma^2I_n) XNn(μ,σ2In) A A A为对称阵,则令 δ = μ ′ A μ / σ 2 \delta=\mu'A\mu/\sigma^2 δ=μAμ/σ2,有
    X ′ A X ∼ σ 2 χ 2 ( r , δ ) ⇔ A 2 = A 且 r a n k ( A ) = r . X'AX\sim \sigma^2\chi^2(r,\delta)\Leftrightarrow A^2=A且{\rm rank}(A)=r. XAXσ2χ2(r,δ)A2=Arank(A)=r.

    证明第一个结论,先证充分性 ⇒ \Rightarrow 。因为 A A A对称,所以存在正交阵 Γ \Gamma Γ使得
    Γ A Γ ′ = d i a g ( λ 1 , λ 2 , ⋯   , λ r , 0 , ⋯   , 0 ) = d Λ . \Gamma A\Gamma'={\rm diag}(\lambda_1,\lambda_2,\cdots,\lambda_r,0,\cdots,0)\stackrel {\rm d}=\Lambda. ΓAΓ=diag(λ1,λ2,,λr,0,,0)=dΛ.
    Y = Γ ′ X ∼ N ( 0 , σ 2 I n ) Y=\Gamma'X\sim N(0,\sigma^2I_n) Y=ΓXN(0,σ2In),则 X = Γ Y X=\Gamma Y X=ΓY,有
    ξ = X ′ A X σ 2 = Y ′ Λ Y σ 2 = ∑ α = 1 r λ α Y α 2 / σ 2 . \xi=\frac{X'AX}{\sigma^2}=\frac{Y'\Lambda Y}{\sigma^2}=\sum_{\alpha=1}^r \lambda_\alpha Y_{\alpha}^2/\sigma^2. ξ=σ2XAX=σ2YΛY=α=1rλαYα2/σ2.
    这里 Y α 2 / σ 2 Y_\alpha^2/\sigma^2 Yα2/σ2服从 χ 2 ( 1 ) \chi^2(1) χ2(1)分布。又因为 χ 2 ( k ) \chi^2(k) χ2(k)分布的特征函数是 ( 1 − 2 i t ) − k / 2 (1-2{\rm i}t)^{-k/2} (12it)k/2且各 Y α Y_{\alpha} Yα独立,所以 ξ \xi ξ的特征函数是
    φ ξ ( t ) = [ ( 1 − 2 i λ 1 t ) ⋯ ( 1 − 2 i λ r t ) ] 1 / 2 = ( 1 − 2 i t ) r / 2 . \varphi_\xi(t)=[(1-2{\rm i}\lambda_1t)\cdots(1-2{\rm i}\lambda_rt)]^{1/2}=(1-2{\rm i}t)^{r/2}. φξ(t)=[(12iλ1t)(12iλrt)]1/2=(12it)r/2.
    由此可以推出 λ 1 = ⋯ = λ r = 1 \lambda_1=\cdots=\lambda_r=1 λ1==λr=1,从而 A 2 = Γ ′ Λ Γ Γ ′ Λ Γ = Γ ′ Λ 2 Γ = A A^2=\Gamma'\Lambda\Gamma\Gamma'\Lambda\Gamma=\Gamma'\Lambda^2\Gamma=A A2=ΓΛΓΓΛΓ=ΓΛ2Γ=A

    再证必要性 ⇐ \Leftarrow ,由题意存在一个 Γ \Gamma Γ,使得
    Γ ′ A Γ = [ I r O O O ] . \Gamma' A\Gamma=\begin{bmatrix} I_r & O\\ O & O \end{bmatrix}. ΓAΓ=[IrOOO].
    Y = Γ ′ X , X = Γ Y Y=\Gamma'X,X=\Gamma Y Y=ΓX,X=ΓY,则 Y ∼ N ( 0 , σ 2 I n ) Y\sim N(0,\sigma^2I_n) YN(0,σ2In),且
    ξ = X ′ A X σ 2 = Y ′ Γ A Γ Y σ 2 = 1 σ 2 Y ′ [ I r O O O ] Y = 1 σ 2 ∑ α = 1 r Y α 2 . \xi=\frac{X'AX}{\sigma^2}=\frac{Y'\Gamma A\Gamma Y}{\sigma^2}=\frac1{\sigma^2}Y'\begin{bmatrix}I_r & O \\ O & O \end{bmatrix}Y=\frac 1{\sigma^2}\sum_{\alpha=1}^r Y_\alpha^2. ξ=σ2XAX=σ2YΓAΓY=σ21Y[IrOOO]Y=σ21α=1rYα2.
    所以 X ′ A X ∼ σ 2 χ 2 ( r ) X'AX\sim \sigma^2\chi^2(r) XAXσ2χ2(r)。对于非中心的情况,在不知道非中心 χ 2 \chi^2 χ2分布特征函数的情况下不太好证明,记住结论即可。

    对于随机正态变量的二次型,还有以下关于独立性的结论:

    X ∼ N n ( μ , σ 2 I n ) X\sim N_n(\mu,\sigma^2I_n) XNn(μ,σ2In) A A A n n n阶对称矩阵, B B B m × n m\times n m×n矩阵,令 ξ = X ′ A X , Z = B X \xi=X'AX,Z=BX ξ=XAX,Z=BX,则
    B A = O ⇔ Z = B X 与 ξ = X ′ A X 相 互 独 立 . BA=O\Leftrightarrow Z=BX与\xi=X'AX相互独立. BA=OZ=BXξ=XAX.

    也就是,当 B A = O BA=O BA=O时,多元正态分布 Z = B X Z=BX Z=BX与二次型随机向量 X ′ A X X'AX XAX相互独立。

    最后,对于一般 p p p维正态随机向量 X ∼ N p ( μ , Σ ) , Σ > 0 X\sim N_p(\mu,\Sigma),\Sigma>0 XNp(μ,Σ),Σ>0,有以下结论:

    1. 结论一: X ′ Σ − 1 X ∼ χ 2 ( p , δ ) X'\Sigma^{-1}X\sim \chi^2(p,\delta) XΣ1Xχ2(p,δ),其中 δ = μ ′ Σ − 1 μ \delta=\mu'\Sigma^{-1}\mu δ=μΣ1μ。证明的关键是将 Σ \Sigma Σ分解成 C C ′ CC' CC

    2. 结论二:对于对称阵 A A A r a n k ( A ) = r {\rm rank}(A)=r rank(A)=r,则
      ( X − μ ) ′ A ( X − μ ) ∼ χ 2 ( r ) ⇔ Σ A Σ A Σ = Σ A Σ . (X-\mu)'A(X-\mu)\sim \chi^2(r)\Leftrightarrow \Sigma A\Sigma A\Sigma=\Sigma A\Sigma. (Xμ)A(Xμ)χ2(r)ΣAΣAΣ=ΣAΣ.
      证明的关键是将 Σ \Sigma Σ分解为 ( Σ 1 / 2 ) 2 (\Sigma^{1/2})^2 (Σ1/2)2,且用到 Y ′ C Y ∼ χ 2 ( p ) ⇔ C 2 = C Y'CY\sim \chi^2(p)\Leftrightarrow C^2=C YCYχ2(p)C2=C结论。

    3. 结论三:对于对称阵 A , B A,B A,B,有
      ( X − μ ) ′ A ( X − μ ) 与 ( X − μ ) ′ B ( X − μ ) 独 立 ⇔ Σ A Σ B Σ = O . (X-\mu)'A(X-\mu)与(X-\mu)'B(X-\mu)独立\Leftrightarrow \Sigma A\Sigma B\Sigma =O. (Xμ)A(Xμ)(Xμ)B(Xμ)ΣAΣBΣ=O.

    2.威沙特(Wishart) W W W分布

    在一元统计中, χ 2 \chi^2 χ2分布用来刻画正态样本的样本方差分布,推广到多元统计,对应的样本离差阵的分布,也应该由一种分布来刻画,这种分布就是Wishart分布。其定义如下:

    Wishart分布:设 X ( α ) ∼ N p ( 0 , Σ ) ( α = 1 , ⋯   , n ) X_{(\alpha)}\sim N_p(0,\Sigma)(\alpha=1,\cdots,n) X(α)Np(0,Σ)(α=1,,n)相互独立,记 X = ( X ( 1 ) , ⋯   , X ( n ) ) ′ X=(X_{(1)},\cdots,X_{(n)})' X=(X(1),,X(n)) n × p n\times p n×p矩阵,则称随机阵 W = ∑ α = 1 n X ( α ) X ( α ) ′ = X ′ X W=\sum\limits_{\alpha=1}^n X_{(\alpha)}X_{(\alpha)}'=X'X W=α=1nX(α)X(α)=XX的分布为Wishart分布,记作 W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) WWp(n,Σ)

    非中心Wishart分布:设 X ( α ) ∼ N p ( μ , Σ ) ( α = 1 , ⋯   , n ) X_{(\alpha)}\sim N_p(\mu,\Sigma)(\alpha=1,\cdots,n) X(α)Np(μ,Σ)(α=1,,n)相互独立,记
    M = [ μ 1 ⋯ μ p ⋮ ⋮ μ 1 ⋯ μ p ] = 1 n μ ′ , Δ = M ′ M = m μ μ ′ , M=\begin{bmatrix} \mu_1 & \cdots & \mu_p \\ \vdots & & \vdots \\ \mu_1 & \cdots & \mu_p \end{bmatrix}=\boldsymbol 1_n\mu',\quad \Delta=M'M=m\mu \mu', M=μ1μ1μpμp=1nμ,Δ=MM=mμμ,
    则称 W = X ′ X W=X'X W=XX服从非中心参数为 Δ \Delta Δ的非中心Wishart分布,记作 W ∼ W p ( n , Σ , Δ ) W\sim W_p(n,\Sigma,\Delta) WWp(n,Σ,Δ)

    更一般地如果 X ( α ) ∼ N p ( μ p , Σ ) X_{(\alpha)}\sim N_p(\mu_p,\Sigma) X(α)Np(μp,Σ)相互独立,则
    M = [ μ 11 ⋯ μ 1 p ⋮ ⋮ μ n 1 ⋯ μ n p ] , Δ = M ′ M = ∑ α = 1 n μ α μ α ′ . M=\begin{bmatrix} \mu_{11} & \cdots & \mu_{1p} \\ \vdots & & \vdots \\ \mu_{n1} & \cdots & \mu_{np} \end{bmatrix},\quad \Delta =M'M=\sum_{\alpha=1}^n \mu_{\alpha}\mu_\alpha'. M=μ11μn1μ1pμnp,Δ=MM=α=1nμαμα.
    W = X ′ X W=X'X W=XX服从非中心参数为 Δ \Delta Δ的非中心Wishart分布,记作 W ∼ W p ( n , Σ , Δ ) W\sim W_p(n,\Sigma,\Delta) WWp(n,Σ,Δ)

    可以看到,区分Wishart分布是中心化的还是非中心的,以及非中心参数的情况如何,关键在于正态总体 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)是不是零均值的,均值是否随样本变化。当然,离差阵作为自协方差矩阵的估计,抽取的样本肯定要是同方差的。

    关于Wishart分布,类似数理统计中的三大分布一样,有一些结论是不需证明,但需要记忆的。

    • X ( α ) ∼ N p ( μ , Σ ) X_{(\alpha)}\sim N_p(\mu,\Sigma) X(α)Np(μ,Σ),则样本离差阵服从自由度为 n − 1 n-1 n1的Wishart分布,即
      A = ∑ α = 1 n ( X ( α ) − X ˉ ) ( X ( α ) − X ˉ ) ′ ∼ W p ( n − 1 , Σ ) . A=\sum_{\alpha=1}^{n}(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)'\sim W_p(n-1,\Sigma). A=α=1n(X(α)Xˉ)(X(α)Xˉ)Wp(n1,Σ).
      这是因为我们已经证明了 W = d ∑ t = 1 n − 1 Z t Z t ′ W\stackrel {\rm d}=\sum_{t=1}^{n-1}Z_tZ_t' W=dt=1n1ZtZt,这里 Z t Z_t Zt独立同分布于 N p ( 0 , Σ ) N_p(0,\Sigma) Np(0,Σ)

    • Wishart分布关于自由度 n n n具有可加性,这与 χ 2 \chi^2 χ2分布类似,即 W i ∼ W p ( n i , Σ ) W_i\sim W_p(n_i,\Sigma) WiWp(ni,Σ)相互独立,则
      ∑ i = 1 k W i ∼ W p ( ∑ i = 1 k n i , Σ ) . \sum_{i=1}^k W_i\sim W_p(\sum_{i=1}^k n_i,\Sigma). i=1kWiWp(i=1kni,Σ).

    • Wishart分布服从可线性变换性,设 W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) WWp(n,Σ) C C C m × p m\times p m×p常数阵,则
      C W C ′ ∼ W m ( n   , C Σ C ′ ) . CWC' \sim W_m(n\,,C\Sigma C'). CWCWm(n,CΣC).
      可以从定义式入手, W = ∑ i = 1 n Z α Z α ′ W=\sum_{i=1}^n Z_\alpha Z_\alpha' W=i=1nZαZα,令 Y α = C Z α ∼ N m ( 0 , C Σ C ′ ) Y_{\alpha}=CZ_{\alpha}\sim N_m(0,C\Sigma C') Yα=CZαNm(0,CΣC),计算 C W C ′ CWC' CWC就得结论。

      特别地,取 C = a I p C=\sqrt aI_p C=a Ip时,得到 a W ∼ W p ( n , a Σ ) aW\sim W_p(n,a\Sigma) aWWp(n,aΣ)

      特别地,取 C ′ = l = ( l 1 , ⋯   , l p ) ′ C'=l=(l_1,\cdots,l_p)' C=l=(l1,,lp)时,得到 l ′ W l = ξ ∼ W ( n , l ′ Σ l ) l'Wl=\xi\sim W(n,l'\Sigma l) lWl=ξW(n,lΣl)。设 σ 2 = l ′ Σ l \sigma^2=l'\Sigma l σ2=lΣl,则将Wishart分布与 χ 2 \chi^2 χ2分布联系起来,有 ξ ∼ σ 2 χ 2 ( n ) \xi\sim \sigma^2\chi^2(n) ξσ2χ2(n)。这里建立了Wishart分布与一元统计的桥梁。

    • 分块Wishart分布:将 W W W类似 X , Σ X,\Sigma X,Σ一样分解,则 W 11 ∼ W r ( n , Σ 11 ) , W 22 ∼ W p − r ( n , Σ 22 ) W_{11}\sim W_r(n,\Sigma_{11}),W_{22}\sim W_{p-r}(n,\Sigma_{22}) W11Wr(n,Σ11),W22Wpr(n,Σ22),且当 Σ 12 = O \Sigma_{12}=O Σ12=O W 11 W_{11} W11 W 22 W_{22} W22相互独立。

    • 条件Wishart分布: W W W也可以类似寻找 W 11 W_{11} W11 W 22 W_{22} W22的回归,记 W 11 ⋅ 2 = W 11 − W 12 W 22 − 1 W 21 W_{11\cdot2}=W_{11}-W_{12}W_{22}^{-1}W_{21} W112=W11W12W221W21,则
      W 11 ⋅ 2 ∼ W p ( r , Σ 11 ⋅ 2 ) , W_{11\cdot 2}\sim W_p(r,\Sigma_{11\cdot2}), W112Wp(r,Σ112),
      W 11 ⋅ 2 W_{11\cdot 2} W112 W 22 W_{22} W22相互独立,这点与 X ( 1 ) X_{(1)} X(1) X ( 2 ) X_{(2)} X(2)的回归类似。

    • Wishart分布的期望: W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) WWp(n,Σ),则 E W = n Σ {\rm E}W=n\Sigma EW=nΣ。在 χ 2 \chi^2 χ2的情形,如果 ξ ∼ σ 2 χ 2 ( n ) \xi \sim \sigma^2\chi^2(n) ξσ2χ2(n),则 E W = σ 2 n {\rm E}W=\sigma^2n EW=σ2n

    • 与一元统计中二次型类似的结论:设 X ∼ N n × p ( M , I n ⊗ Σ ) X\sim N_{n\times p}(M,I_n\otimes \Sigma) XNn×p(M,InΣ) A , B A,B A,B都是 n n n阶幂等矩阵,设 Δ = M ′ A M \Delta =M'AM Δ=MAM,则
      X ′ A X ∼ W p ( r , Σ , Δ ) ⇔ A 2 = A , 且 r a n k ( A ) = r ; X ′ A X 与 X ′ B X 相 互 独 立 ⇔ A B = O . X'AX\sim W_p(r, \Sigma, \Delta)\Leftrightarrow A^2=A,且{\rm rank}(A)=r;\\ X'AX与X'BX相互独立\Leftrightarrow AB=O. XAXWp(r,Σ,Δ)A2=A,rank(A)=r;XAXXBXAB=O.

    3.霍特林(Hotelling) T 2 T^2 T2分布

    Hotelling T 2 T^2 T2分布是一元统计中 t t t分布的推广,在一元统计中定义的 t t t变量为 X / ξ / n X/\sqrt{\xi /n} X/ξ/n ,其中 X , ξ X,\xi X,ξ相互独立,且 X X X是标准正态变量, ξ \xi ξ服从自由度为 n n n的卡方分布。现将 t 2 t^2 t2推广为 T 2 T^2 T2,就得到Hotelling T 2 T^2 T2分布的定义。

    Hotelling T 2 T^2 T2分布:设 X ∼ N p ( 0 , Σ ) X\sim N_p(0,\Sigma) XNp(0,Σ),随机阵 W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) WWp(n,Σ) Σ > 0 , n ≥ p \Sigma>0,n\ge p Σ>0,np,且 X , W X,W X,W相互独立,则Hotelling T 2 T^2 T2统计量定义为 T 2 = X ′ ( W − 1 n ) X = n X ′ W − 1 X T^2=X'(\frac {W^{-1}}n)X=nX'W^{-1}X T2=X(nW1)X=nXW1X,记作 T 2 ∼ T 2 ( p , n ) T^2\sim T^2(p,n) T2T2(p,n)

    非中心Hotelling T 2 T^2 T2分布:设 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),则存在非中心Hotelling T 2 T^2 T2分布 T 2 = n X ′ W − 1 X T^2=nX'W^{-1}X T2=nXW1X,记作 T 2 ∼ T 2 ( p , n , μ ) T^2\sim T^2(p,n,\mu) T2T2(p,n,μ)

    注意到,定义Hotelling T 2 T^2 T2统计量时,虽然为正态向量与Wishart向量都指定了自协方差矩阵 Σ \Sigma Σ,但在最后 T 2 T^2 T2分布的表达式中却没有出现,这说明Hotelling T 2 T^2 T2统计量是 Σ \Sigma Σ无关的。同时,非中心Hotelling T 2 T^2 T2分布的非中心参数也只是 μ \mu μ,而不是非中心Wishart分布中的 n μ μ ′ n\mu\mu' nμμ

    现在证明Hotelling T 2 T^2 T2统计量的分布与 Σ \Sigma Σ无关,只要证明对任何 T 2 = n X ′ W − 1 X T^2=nX' W^{-1}X T2=nXW1X,都与标准正态随机向量 U ∼ N p ( 0 , I p ) U\sim N_p(0,I_p) UNp(0,Ip)与对应的Wishart统计量 W 0 ∼ W p ( n , I n ) W_0\sim W_p(n,I_n) W0Wp(n,In)构成的 T 0 2 = n U ′ W 0 − 1 U T_0^2=nU'W_0^{-1}U T02=nUW01U同分布即可。由于 X ∼ N p ( 0 , Σ ) , W ∼ W p ( n , Σ ) X\sim N_p(0,\Sigma),W\sim W_p(n,\Sigma) XNp(0,Σ),WWp(n,Σ),所以
    U = d Σ − 1 / 2 X , W 0 = d Σ − 1 / 2 W Σ − 1 / 2 . n U ′ W 0 − 1 / 2 U = d n X ′ Σ − 1 / 2 Σ 1 / 2 W − 1 Σ 1 / 2 Σ 1 / 2 X = n X ′ W − 1 X . U\stackrel {\rm d}= \Sigma^{-1/2}X,\quad W_0\stackrel {\rm d}= \Sigma^{-1/2}W\Sigma^{-1/2}.\\ nU'W_0^{-1/2} U\stackrel {\rm d}= nX'\Sigma^{-1/2}\Sigma^{1/2}W^{-1}\Sigma^{1/2}\Sigma^{1/2}X=nX'W^{-1}X. U=dΣ1/2X,W0=dΣ1/2WΣ1/2.nUW01/2U=dnXΣ1/2Σ1/2W1Σ1/2Σ1/2X=nXW1X.
    除此之外,Hotelling T 2 T^2 T2分布还有以下不需证明,但需要记忆的性质。

    • X ( α ) X_{(\alpha)} X(α)是来自 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的随机样本, X ˉ , A \bar X,A Xˉ,A分别是正态总体 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的样本均值向量和样本离差阵,则建立如下统计量可以在 Σ \Sigma Σ未知时用来对 μ \mu μ进行参数检验
      T 2 = [ n ( X ˉ − μ ) ] ′ ( A n − 1 ) [ n ( X ˉ − μ ) ] = n ( n − 1 ) ( X ˉ − μ ) ′ A ( X ˉ − μ ) ∼ T 2 ( p , n − 1 ) . T^2=[\sqrt n(\bar X-\mu)]'(\frac{A}{n-1})[\sqrt n(\bar X-\mu)]=n(n-1)(\bar X-\mu)'A(\bar X-\mu)\sim T^2(p,n-1). T2=[n (Xˉμ)](n1A)[n (Xˉμ)]=n(n1)(Xˉμ)A(Xˉμ)T2(p,n1).
      这一点与一元统计中 t t t分布的应用是类似的。

    • T 2 T^2 T2分布与 F F F分布之间存在关系:若 T 2 ∼ T 2 ( p , n ) T^2\sim T^2(p,n) T2T2(p,n),则
      n − p + 1 n p T 2 ∼ F ( p , n − p + 1 ) . \frac{n-p+1}{np}T^2\sim F(p,n-p+1). npnp+1T2F(p,np+1).
      这就建立了 T 2 T^2 T2分布与一元三大分布的联系。另外,令 δ = n μ ′ Σ − 1 μ \delta=n\mu'\Sigma^{-1}\mu δ=nμΣ1μ,还有
      n − p ( n − 1 ) p T 2 ∼ F ( p , n − p , δ ) . \frac{n-p}{(n-1)p}T^2\sim F(p,n-p,\delta). (n1)pnpT2F(p,np,δ).

    • T 2 T^2 T2统计量对非退化变换不变,即如果存在一个常数阵 C p × p C_{p\times p} Cp×p p p p维向量 d d d Y ( α ) = C X ( α ) + d Y_{(\alpha)}=CX_{(\alpha)}+d Y(α)=CX(α)+d,则 T y 2 = n ( n − 1 ) [ Y ˉ − ( C μ + d ) ] ′ A y − 1 [ Y ˉ − ( C μ + d ) ] = T x 2 T_y^2=n(n-1)[\bar Y-(C\mu+d)]'A_y^{-1}[\bar Y-(C\mu+d)]=T_x^2 Ty2=n(n1)[Yˉ(Cμ+d)]Ay1[Yˉ(Cμ+d)]=Tx2,只要注意到 Y = X C ′ + 1 p d ′ Y=XC'+\boldsymbol 1_pd' Y=XC+1pd

    4.威尔克斯(Wilks) Λ \Lambda Λ分布

    显然,Wilks分布应该对应一元分布中的 F F F分布,而 F F F分布主要用于检验两个正态总体的方差比。在多元统计中,方差变成了自协方差矩阵,不能直接作比,除非我们用一个数值来描述总体的离散程度。为此,我们定义广义方差的概念。

    对于正态总体 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),协方差阵的行列式 ∣ Σ ∣ |\Sigma| Σ称为总体 X X X的广义方差;如果从总体中抽取样本 X ( α ) ( α = 1 , ⋯   , n ) X_{(\alpha)}(\alpha=1,\cdots,n) X(α)(α=1,,n),则样本广义方差定义为 det ⁡ ( A n ) \det(\frac An) det(nA) det ⁡ ( A n − 1 ) \det(\frac A{n-1}) det(n1A)

    在有了样本广义方差的定义后,我们可以介绍Wilks分布的定义。

    Wilks分布:设 A 1 ∼ W p ( n 1 , Σ ) , A 2 ∼ W p ( n 2 , Σ ) A_1\sim W_p(n_1,\Sigma),A_2\sim W_p(n_2,\Sigma) A1Wp(n1,Σ),A2Wp(n2,Σ),则定义Wilks统计量为
    Λ = ∣ A 1 ∣ ∣ A 1 + A 2 ∣ . \Lambda=\frac{|A_1|}{|A_1+A_2|}. Λ=A1+A2A1.
    记作 Λ ∼ Λ ( p , n 1 , n 2 ) \Lambda \sim \Lambda(p,n_1,n_2) ΛΛ(p,n1,n2)

    如果 p = 1 p=1 p=1,则上下两个Wishart分布将退化成 χ 2 \chi^2 χ2分布,而 χ 2 \chi^2 χ2分布又是同尺度参数的 Γ \Gamma Γ分布,故 Λ ( 1 , n 1 , n 2 ) = β ( n 1 2 , n 2 2 ) \Lambda(1,n_1,n_2)=\beta(\frac {n_1}2,\frac{n_2}2) Λ(1,n1,n2)=β(2n1,2n2)

    以下是一些 Λ \Lambda Λ分布与 T 2 T^2 T2分布的联系,由于 T 2 T^2 T2分布可以直接转化成 F F F分布,所以 Λ \Lambda Λ分布也可以联系上 F F F分布。

    • n 2 = 1 n_2=1 n2=1时,设 n = n 1 > p n=n_1>p n=n1>p,则
      Λ ( p , n , 1 ) = d 1 1 + 1 n T 2 ( p , n ) , T 2 ( p , n ) = d n ⋅ 1 − Λ ( p , n , 1 ) Λ ( p , n , 1 ) . n − p + 1 n p T 2 ( p , n ) = d n − p + 1 p 1 − Λ ( p , n , 1 ) Λ ( p , n , 1 ) = d F ( p , n − p + 1 ) . \Lambda(p,n,1)\stackrel {\rm d}=\frac{1}{1+\frac 1nT^2(p,n)},\quad T^2(p,n)\stackrel {\rm d}=n\cdot\frac{1-\Lambda(p,n,1)}{\Lambda(p,n,1)}.\\ \frac{n-p+1}{np}T^2(p,n)\stackrel {\rm d}=\frac{n-p+1}{p}\frac{1-\Lambda(p,n,1)}{\Lambda(p,n,1)}\stackrel {\rm d}=F(p,n-p+1). Λ(p,n,1)=d1+n1T2(p,n)1,T2(p,n)=dnΛ(p,n,1)1Λ(p,n,1).npnp+1T2(p,n)=dpnp+1Λ(p,n,1)1Λ(p,n,1)=dF(p,np+1).

    • n 2 = 2 n_2=2 n2=2时,设 n = n 1 > p n=n_1>p n=n1>p,则
      n − p + 1 n 1 − Λ ( p , n , 2 ) Λ ( p , n , 2 ) = d F ( 2 p , 2 ( n − p + 1 ) ) . \frac{n-p+1}{n}\frac{1-\sqrt{\Lambda(p,n,2)}}{\sqrt{\Lambda(p,n,2)}}\stackrel {\rm d}= F(2p,2(n-p+1)). nnp+1Λ(p,n,2) 1Λ(p,n,2) =dF(2p,2(np+1)).

    • p = 1 p=1 p=1时,
      n 1 n 2 1 − Λ ( 1 , n 1 , n 2 ) Λ ( 1 , n 1 , n 2 ) = d F ( n 2 , n 1 ) . \frac{n_1}{n_2}\frac{1-\Lambda(1,n_1,n_2)}{\Lambda(1,n_1,n_2)}\stackrel {\rm d}=F(n_2,n_1). n2n1Λ(1,n1,n2)1Λ(1,n1,n2)=dF(n2,n1).

    • p = 2 p=2 p=2时,
      n 1 − 1 n 2 1 − Λ ( 2 , n 1 , n 2 ) Λ ( 2 , n 1 , n 2 ) = d F ( 2 n 2 , 2 ( n 1 − 1 ) ) . \frac{n_1-1}{n_2}\frac{1-\sqrt{\Lambda(2,n_1,n_2)}}{\sqrt{\Lambda(2,n_1,n_2)}}\stackrel {\rm d}=F(2n_2,2(n_1-1)). n2n11Λ(2,n1,n2) 1Λ(2,n1,n2) =dF(2n2,2(n11)).

    • n 2 > 2 , p > 2 n_2>2,p>2 n2>2,p>2时,可以用 χ 2 \chi^2 χ2统计量近似,即对于 Λ ( p , n 1 , n 2 ) \Lambda(p,n_1,n_2) Λ(p,n1,n2),当 n → ∞ n\to \infty n时有
      − r ln ⁡ Λ ∼ χ 2 ( p n 2 ) , r = n 1 − 1 2 ( p − n 2 + 1 ) . -r\ln \Lambda\sim \chi^2(pn_2),\quad r=n_1-\frac12(p-n_2+1). rlnΛχ2(pn2),r=n121(pn2+1).

    除此之外,还有两个结论:

    • Λ ∼ Λ ( p , n 1 , n 2 ) \Lambda\sim\Lambda(p,n_1,n_2) ΛΛ(p,n1,n2),则存在 B k ∼ β ( n 1 − p + k 2 , n 2 2 ) ( k = 1 , ⋯   , p ) B_k\sim \beta(\frac{n_1-p+k}{2},\frac{n_2}{2})(k=1,\cdots,p) Bkβ(2n1p+k,2n2)(k=1,,p)相互独立,使得
      Λ = d B 1 B 2 ⋯ B k . \Lambda\stackrel {\rm d}=B_1B_2\cdots B_k. Λ=dB1B2Bk.

    • n 2 < p n_2<p n2<p,则
      Λ ( p , n 1 , n 2 ) = d Λ ( n 2 , p , n 1 + n 2 − p ) . \Lambda(p,n_1,n_2)\stackrel {\rm d}=\Lambda(n_2,p,n_1+n_2-p). Λ(p,n1,n2)=dΛ(n2,p,n1+n2p).

    本文中提到许多结论,大多在假设检验中发挥作用,尽管不需要证明,但还是需要牢记。

    回顾总结

    1. 非中心三大分布:

      分布定义非中心参数
      非中心 χ 2 \chi^2 χ2分布对于 n n n个独立的正态随机变量 X i ∼ N ( μ i , σ 2 ) X_i\sim N(\mu_i,\sigma^2) XiN(μi,σ2),有 χ 2 = ∑ i = 1 n X i 2 ∼ χ 2 ( n , δ ) \chi^2=\sum\limits_{i=1}^n X_i^2\sim \chi^2(n,\delta) χ2=i=1nXi2χ2(n,δ) δ = ∑ i = 1 n μ i 2 \delta=\sum\limits_{i=1}^n \mu_i^2 δ=i=1nμi2
      非中心 t t t分布 X ∼ N ( δ , 1 ) , ξ ∼ χ 2 ( n ) X\sim N(\delta,1),\xi\sim \chi^2(n) XN(δ,1),ξχ2(n)相互独立,有 t = X ξ / n ∼ t ( n , δ ) t=\frac{X}{\sqrt{\xi/n}}\sim t(n,\delta) t=ξ/n Xt(n,δ) δ \delta δ
      非中心 F F F分布 X ∼ χ 2 ( n 1 , δ ) , Y ∼ χ 2 ( n 2 ) X\sim \chi^2(n_1,\delta),Y\sim \chi^2(n_2) Xχ2(n1,δ),Yχ2(n2)相互独立,有 F = X / n 1 Y / n 2 ∼ F ( n 1 , n 2 , δ ) F=\frac{X/n_1}{Y/n_2}\sim F(n_1,n_2,\delta) F=Y/n2X/n1F(n1,n2,δ) δ \delta δ
    2. 假设 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),则 μ = 0 \mu=0 μ=0 X ′ A X ∼ σ 2 χ 2 ( r ) X'AX\sim \sigma^2\chi^2(r) XAXσ2χ2(r)等价于 A A A是秩为 r r r的幂等矩阵; μ ≠ 0 \mu\ne 0 μ=0时, X ′ A X ∼ σ 2 χ 2 ( r , δ ) X'AX\sim \sigma^2\chi^2(r,\delta) XAXσ2χ2(r,δ)等价于 A A A是秩为 r r r的幂等矩阵,这里 δ = μ ′ A μ \delta=\mu'A\mu δ=μAμ

    3. 假设 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),则 X ′ Σ − 1 X ∼ χ 2 ( p , δ ) X'\Sigma^{-1}X\sim \chi^2(p,\delta) XΣ1Xχ2(p,δ),这里 δ = μ ′ Σ − 1 μ \delta=\mu'\Sigma^{-1}\mu δ=μΣ1μ

    4. 如果 A n × n A_{n\times n} An×n是对称阵, B m × n B_{m\times n} Bm×n,则 X ′ A X X'AX XAX B X BX BX独立 ⇔ B A = O \Leftrightarrow BA=O BA=O

    5. 对于对称阵 A , B A,B A,B X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),有
      ( r a n k ( A ) = r ) ( X − μ ) ′ A ( X − μ ) ∼ χ 2 ( r ) ⇔ Σ A Σ A Σ = Σ A Σ , ( X − μ ) ′ A ( X − μ ) 和 ( X − μ ) ′ B ( X − μ ) 独 立 ⇔ A B = O . ({\rm rank}(A)=r)\quad (X-\mu)'A(X-\mu)\sim \chi^2(r)\Leftrightarrow \Sigma A\Sigma A\Sigma =\Sigma A\Sigma,\\ (X-\mu)'A(X-\mu)和(X-\mu)'B(X-\mu)独立\Leftrightarrow AB=O. (rank(A)=r)(Xμ)A(Xμ)χ2(r)ΣAΣAΣ=ΣAΣ,(Xμ)A(Xμ)(Xμ)B(Xμ)AB=O.

    6. 多元三大分布:

      分布类型表达式
      Wishart W W W分布随机矩阵的分布。 X ( α ) ∼ N p ( 0 , Σ ) , α = 1 , ⋯   , n X_{(\alpha)}\sim N_p(0,\Sigma),\alpha=1,\cdots,n X(α)Np(0,Σ),α=1,,n. W = ∑ α = 1 n X ( α ) X ( α ) ′ ∼ W p ( n , Σ ) W=\sum\limits_{\alpha=1}^n X_{(\alpha)}X_{(\alpha)}'\sim W_p(n,\Sigma) W=α=1nX(α)X(α)Wp(n,Σ)
      Hotelling T 2 T^2 T2分布一元分布。 X ∼ N p ( 0 , Σ ) , W ∼ W p ( n , Σ ) X\sim N_p(0,\Sigma),W\sim W_p(n,\Sigma) XNp(0,Σ),WWp(n,Σ) T 2 = n X ′ W − 1 X ∼ T 2 ( p , n ) T^2=nX'W^{-1}X\sim T^2(p,n) T2=nXW1XT2(p,n)
      Wilks Λ \Lambda Λ分布一元分布。 A 1 ∼ W 1 ( n 1 , Σ ) , A 2 ∼ W ( n 2 , Σ ) A_1\sim W_1(n_1,\Sigma),A_2\sim W(n_2,\Sigma) A1W1(n1,Σ),A2W(n2,Σ)$\Lambda=\dfrac{
    7. Wishart分布的相关性质

      • 正态总体样本中, A ∼ W p ( n − 1 , Σ ) A\sim W_p(n-1,\Sigma) AWp(n1,Σ)
      • 关于 n n n服从可加性。
      • 可线性变换, W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) WWp(n,Σ),则 C W C ′ ∼ W p ( n , C Σ C ′ ) CWC'\sim W_p(n,C\Sigma C') CWCWp(n,CΣC)。特别地有 a W ∼ W p ( n , a Σ ) aW\sim W_p(n,a\Sigma) aWWp(n,aΣ) l ′ W l ∼ W p ( n , l ′ Σ l ) ∼ l ′ Σ l χ 2 ( n ) l'W l\sim W_p(n,l'\Sigma l)\sim l'\Sigma l\chi^2(n) lWlWp(n,lΣl)lΣlχ2(n)
      • E W = n Σ {\rm E}W=n\Sigma EW=nΣ
    8. Hotelling T 2 T^2 T2分布的相关性质

      • Hotelling T 2 T^2 T2分布与定义中的 Σ \Sigma Σ无关。

      • n ( n − 1 ) X ′ A − 1 X ∼ T 2 ( p , n − 1 ) n(n-1)X'A^{-1}X\sim T^2(p,n-1) n(n1)XA1XT2(p,n1)

      • T 2 T^2 T2统计量在非退化变换下不变。

      • T 2 T^2 T2分布与 F F F分布存在联系,有
        n − p + 1 n p T 2 ( p , n ) = d F ( p , n − p + 1 ) . \frac{n-p+1}{np}T^2(p,n)\stackrel {\rm d}=F(p,n-p+1). npnp+1T2(p,n)=dF(p,np+1).

    9. Wilks Λ \Lambda Λ分布的相关性质

      • Λ ( p , n 1 , n 2 ) \Lambda(p,n_1,n_2) Λ(p,n1,n2)可以看成 p p p个独立的 B k = β ( n 1 − p + k 2 , n 2 2 ) B_k=\beta(\frac{n_1-p+k}{2},\frac{n_2}2) Bk=β(2n1p+k,2n2)的乘积。

      • 如果 n 2 < p n_2<p n2<p,则 1 / Λ ( p , n 1 , n 2 ) = Λ ( n 2 , p , n 1 + n 2 − p ) 1/\Lambda(p,n_1,n_2)=\Lambda(n_2,p,n_1+n_2-p) 1/Λ(p,n1,n2)=Λ(n2,p,n1+n2p)

      • Λ \Lambda Λ可以转化为 T 2 T^2 T2分布,当 n 2 , p > 2 n_2,p>2 n2,p>2时,随着 n 1 n_1 n1的增加,有
        − r ln ⁡ Λ = χ 2 ( p n 2 ) , r = n 1 − 1 2 ( p − n 2 + 1 ) . -r\ln \Lambda=\chi^2(pn_2),\quad r=n_1-\frac12(p-n_2+1). rlnΛ=χ2(pn2),r=n121(pn2+1).
        特别当 n 2 = 1 n_2=1 n2=1时,有
        Λ ( p , n , 1 ) = d 1 1 + 1 n T 2 ( p , n ) , \Lambda(p,n,1)\stackrel {\rm d}=\frac{1}{1+\frac1nT^2(p,n)}, Λ(p,n,1)=d1+n1T2(p,n)1,
        p = 1 p=1 p=1时,有
        n 1 n 2 1 − Λ ( 1 , n 1 , n 2 ) Λ ( 1 , n 1 , n 2 ) = d F ( n 2 , n 1 ) . \frac{n_1}{n_2}\frac{1-\Lambda(1,n_1,n_2)}{\Lambda(1,n_1,n_2)}\stackrel {\rm d}=F(n_2,n_1). n2n1Λ(1,n1,n2)1Λ(1,n1,n2)=dF(n2,n1).

    展开全文
  • 多元统计分析上机题之R语言实现(多元正态分布)-附件资源
  • 该模型根据多元/条件概率、同步/异步、对称/反对称等不同条件得到对应概率统计分布,形成4组16个统计直方图。根据穷举模拟计算结果,展现变值概率统计在复杂交互作用条件下能否满足连续的概率统计分布。给出了两类...
  • 的基本上是一元统计推广到多元统计的内容,主要阐述了多元分布的基本概念和多元正态分布及其统计推断。第 五章至第十章是多元统计独有的内容,主要包括:判别分析、聚类分析、主成分分析、因子分析、对应分析和典 型...
  • 多元统计分析经典教材,多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点。主要内容包括多元正态...
  • 主要内容包括多元正态分布、均值向量和协方差阵的检验、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等常见的主流方法,还参考国内外大量文献系统介绍了近年来在市场研究、顾客满意度研究、...
  • 多元正态分布 1.1多元分布的基本概念 随机变量 假定所讨论的是多个变量的总体,所研究的数据是同时观测p 个指标(即变量),进行了n 次观测得到的,我们把这p 个指标表示为X1,X2,…,Xp,常用向量X =(X1,X2,...

    鄙人笔记,记一些知识点。



    多元正态分布

    1.1多元分布的基本概念

    • 随机变量

    假定所讨论的是多个变量的总体,所研究的数据是同时观测p 个指标(即变量),进行了n 次观测得到的,我们把这p 个指标表示为X1,X2,…,Xp,常用向量X =(X1,X2,…,Xp)′表示对同一个体观测的p 个变量。若观测了n 个个体,称每一个个体的p 个变量为一个样品,而全体n 个样品形成一个样本

    • 分布函数

    描述随机变量的最基本工具是分布函数。类似地,描述随机向量的最基本工具还是分布函数。

    • 多元变量的独立性

    类似地,若联合分布等于各自分布的乘积,称 p个随机向量 X1,X2,…,Xp相互独立。由X1,X2,…,Xp相互独立可以推知任何 Xi与 Xj( i ≠ j)独立,但是,若已知任何 Xi与 Xj( i ≠ j)独立,并不能推出 X1,X2,…,Xp相互独立。

    • 随机向量的数字特征

    1.随机向量x的均值

    当 A, B为常数矩阵时,由定义可立即推出如下性质:
    (1)E(AX)=AE(X)
    (2)E(AXB)=AE(X)B

    2.随机向量X的协方差阵

    称 ∣ cov( X, X) ∣为 X的广义方差,它是协方差阵的行列式之值。

    3.随机向量X和Y的协方差阵
    当A,B为常数矩阵时,由定义可推出协方差阵有如下性质:
    (1)D(AX)=AD(X)A′=A∑A′
    (2)cov(AX,BY)=Acov(X,Y)B′
    (3)设 X为 n维随机向量,期望和协方差存在,记 μ=∑(X) 喵喵喵? , ∑= D( X), A为 n × n常数阵,则:

    E(X'AX) = tr(A∑) + μ'Aμ

    对于任何随机向量 X=(X1,X2,…,Xp)′来说,其协方差阵 ∑都是对称阵,同时总是非负定(也称半正定)的。大多数情形下是正定的。

    • 随机向量X的相关阵

    在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,将每个指标“标准化”。标准化数据的协方差阵正好是原指标的相关阵

    1.2统计距离

    • 欧氏距离

    大部分多元方法是建立在简单的距离概念基础上的,即平时人们熟悉的欧氏距离,或称直线距离。一般,若点P 的坐标P =(x1,x2,…,xp),则它到原点O =(0,0,…,0)的欧氏距离,依勾股定理有:

    任意两个点P=(x1,x2,…,xp)与Q=(y1,y2,…,yp)之间的欧氏距离为:

    但就大部分统计问题而言,欧氏距离是不能令人满意的。这是因为每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。欧氏距离还有一个缺点,那就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。

    • 统计距离

    有必要建立一种距离,这种距离应能够体现各个变量在变差大小上的不同,以及有时存在的相关性,还要求距离与各变量所用的单位无关。看来,我们选择的距离要依赖于样本方差和协方差。因此,采用“统计距离”这个术语,以区别通常习惯用的欧氏距离。
    设P =(x1,x2,…,xp),Q =(y1,y2,…,yp),且Q 的坐标是固定的,点P 的坐标相互独立地变化。用S11,S22,…,Spp 表示P 个变量x1,x2,…,xp 的n 次观测的样本方差。为给出坐标的合理权数,用坐标标准离差去除以每个坐标,得到标准化坐标,则从P 到Q 的统计距离为:

    • 马氏距离
      最常用的一种统计距离是印度统计学家马哈拉诺比斯( Mahalanobis)于 1936年引入的距离,称为“马氏距离”。
      设X,Y是从均值向量为μ,协方差阵为∑的总体G中抽取的两个样品,定义X,Y两点之间的马氏距离为:

      定义X与总体G的马氏距离为:

    • 基本公理

    设 E表示一个点集, d表示距离,它是 E × E到[ 0, ∞)的函数,可以证明,马氏距离符合如下距离的四条基本公理:
    (1) d( x, y) ≥ 0, ∀ x, y ∈ E
    (2) d( x, y)= 0, 当且仅当 x= y
    (3) d( x, y)= d( y, x), ∀ x, y ∈ E
    (4) d( x, y) ≤ d( x, z)+ d( z, y), ∀ x, y, z ∈ E

    1.3多元正态分布

    • 多元正态分布是一元正态分布的推广

    多元正态分布是一元正态分布的推广。迄今为止,多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的基础。另一方面,许多实际问题的分布常是多元正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于多元正态分布。

    • 多元正态分布概率密度函数

    若 p元随机向量 X=(x1,x2,…,xp)′的概率密度函数为:

    则称 X=( x1,x2,…,xp)′遵从 p元正态分布,也称 X为 p元正态变量,记为:

    X~ N p( μ, ∑)

    ∣ ∑ ∣为协方差阵 ∑的行列式。

    • 多元正态分布的性质

    (1)如果正态随机向量 X=( X1, X2,…, Xp)′的协方差阵 ∑是对角阵,则 X的各分量是相互独立的随机变量
    (2)多元正态分布随机向量 X的任何一个分量子集[多变量( x1,x2,…,xp)′中的一部分变量构成的集合]的分布(称为 X的边缘分布)仍然遵从正态分布。反之,若一个随机向量的任何边缘分布均为正态,并不能导出它是多元正态分布
    (3)多元正态向量 X=( X1, X2,…, Xp)′的任意线性变换仍然遵从多元正态分布。
    即设X ~Np(μ,∑),而m 维随机向量Zm × 1 =AX +b,其中A =(aij)是m × p 阶的常数矩阵,b 是m 维的常向量,则m 维随机向量Z 也是正态的,且Z ~Nm(A μ +b,A ∑ A′)。即Z 遵从m 元正态分布,其均值向量为A μ +b,协方差阵为A ∑ A′。
    (4)若 X~ Np( μ, ∑),则:

    d2若为定值,随着 X的变化,其轨迹为一椭球面,是 X的密度函数的等值面。若 X给定,则 d2为 X到 μ的马氏距离。

    • 正态分布的条件分布

    设X~Np(μ,∑),p≥2,将X,μ和∑剖分如下:

    设 X~ Np( μ, ∑), ∑> 0,则:

    (X (1) ∣ X (2) )~ N q( μ 1· 2 , ∑ 11· 2

    其中:

    1.5常用分布及抽样分布

    • 统计量

    多元统计研究的是多指标问题,为了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量,统计量的分布称为抽样分布。
    在数理统计中常用的抽样分布有 χ2分布、 t分布和 F分布。在多元统计中,与之对应的分布分别为 Wishart分布、 T2分布和 Wilks分布。

    • Wishart分布

    设 X(α) =( X α1, X α2,…, X αp)′( α= 1, 2,…, n)相互独立,且 X(α)~ Np( μ α, ∑),记 X=( X(1), X(2),…, X(n)),则随机矩阵:

    所遵从的分布称为自由度为 n的 p维非中心 Wishart分布,记为 W~ Wp( n, ∑, Z)。其中, n ≥ p, ∑> 0

    μ αi称为非中心参数,当 μ α= 0时称为中心 Wishart分布,记为 Wp( n, ∑)

    • T2分布

    设 W~ Wp( n, ∑), X~ Np( 0, c ∑), c> 0, n ≥ p, ∑> 0, W与 X相互独立,则称随机变量

    所遵从的分布称为第一自由度为 p、第二自由度为 n的中心 T2分布,记为 T2~ T2( p, n)

    • 中心 T2分布可化为中心 F分布

    中心 T2分布可化为中心 F分布,其关系可表示为:

    显然,当 p= 1时,有 T2( 1, n)= F( 1, n)。

    • Wilks分布

    F分布能否推广到多元呢?由于 F分布由两个方差比构成,而多元总体 Np( μ, ∑)的变异由协方差阵确定,它不是一个数字,这就产生了如何用与协方差阵 ∑有关的一个量来描述总体 Np( μ, ∑)的变异的问题,它是将 F分布推广到多元情形的关键。

    描述 Np( μ, ∑)的变异度的统计参数称为广义方差。围绕这一问题产生了许多方法,有的用行列式,有的用迹,主要的方法有以下几种:

    设 W1~ Wp( n1, ∑), W2~ Wp( n2, ∑), ∑> 0, n1> p,且 W1与 W2相互独立,则:

    所遵从的分布称为维数为p,第一自由度为n1,第二自由度为n2的Wilks分布,记为ʌ~ʌ(p,n1,n2)。

    展开全文
  • 《应用多元统计分析》为北京大学数学科学学院概率统计系“应用多元统计分析”课程使用多年的教材,它主要介绍一些实用的多元统计分析方法的理论及其应用,并列举了各方面的应用实例,同时还以国际上著名的统计分析...
  • 多元正态分布具有两个参数——均值向量与自协方差函数,与数理统计一样,可以用抽样的方式定义一些统计量对它们进行参数估计。在这里,我们使用极似然估计的方法,用样本均值和样本离差阵对它们进行估计。

    四、多元正态分布的参数估计

    1.多元正态分布的估计量

    对于多元正态分布 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ),其参数只有两个——均值向量 μ \mu μ与自协方差矩阵 Σ \Sigma Σ,要对其进行估计,就要从总体中抽取简单随机样本。记抽取样本的容量为 n n n,每一个样本分别是 X ( α ) = ( x α 1 , ⋯   , x α p ) X_{(\alpha)}=(x_{\alpha1},\cdots,x_{\alpha p}) X(α)=(xα1,,xαp),将样本纵向排列,得到样本数据阵
    X = [ x 11 ⋯ x 1 p ⋮ ⋮ x n 1 ⋯ x n p ] . X=\begin{bmatrix} x_{11} & \cdots & x_{1p} \\ \vdots & & \vdots \\ x_{n1} & \cdots & x_{np} \end{bmatrix}. X=x11xn1x1pxnp.
    从样本数据阵出发,可以获得以下统计量:

    1. 样本均值 X ˉ \bar X Xˉ,这是对每个维度求均值,得到的一个 p p p维向量
      X ˉ = 1 n ∑ α = 1 n X ( α ) = ( x ˉ 1 , ⋯   , x ˉ p ) ′ = 1 n X ′ 1 n . \bar X=\frac 1n\sum_{\alpha=1}^n X_{(\alpha)}=(\bar x_1,\cdots ,\bar x_p)'=\frac 1nX'\boldsymbol 1_n. Xˉ=n1α=1nX(α)=(xˉ1,,xˉp)=n1X1n.
      这里 x ˉ i \bar x_i xˉi是对第 i i i个分量的平均,即
      x ˉ i = 1 n ∑ α = 1 n x α i . \bar x_i=\frac 1n\sum_{\alpha=1}^n x_{\alpha i}. xˉi=n1α=1nxαi.

    2. 样本离差阵 A A A,可以类比一维随机变量中的 ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i-\bar x)^2 i=1n(xixˉ)2,即
      A = ∑ α = 1 n ( X ( α ) − X ˉ ) ( X ( α ) − X ˉ ) ′ A=\sum_{\alpha=1}^n(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)' A=α=1n(X(α)Xˉ)(X(α)Xˉ)
      这样, A A A是一个 p × p p\times p p×p对角阵,它的第 ( i , j ) (i,j) (i,j)元,其实就是
      a i j = ∑ α = 1 n ( x α i − x ˉ i ) ( x α j − x ˉ j ) . a_{ij}=\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)(x_{\alpha j}-\bar x_j). aij=α=1n(xαixˉi)(xαjxˉj).
      由此,还可以得到
      A = X ′ X − n X ˉ X ˉ ′ = X ′ [ I n − 1 n 1 n 1 n ′ ] X . A=X'X-n\bar X\bar X'=X'\left[I_n-\frac 1n\boldsymbol 1_n\boldsymbol 1_n' \right] X. A=XXnXˉXˉ=X[Inn11n1n]X.
      这个式子用来计算离差阵更为方便。

    3. 样本协方差阵 S S S,可以类比一维随机变量中的样本方差,即
      S = 1 n − 1 A , S=\frac 1{n-1}A, S=n11A,
      ( i , i ) (i,i) (i,i)元是变量 X i X_i Xi的样本方差,即
      s i i = 1 n − 1 ∑ α = 1 n ( x α i − x ˉ i ) 2 . s_{ii}=\frac 1{n-1}\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)^2. sii=n11α=1n(xαixˉi)2.
      类似一维中样本方差的定义,也有
      S ∗ = 1 n ∑ α = 1 n ( x α i − x ˉ i ) 2 . S^*=\frac 1n\sum_{\alpha=1}^n(x_{\alpha i}-\bar x_i)^2. S=n1α=1n(xαixˉi)2.

    4. 样本相关阵 R R R,自然是由样本相关系数 r i j r_{ij} rij构成的 p × p p\times p p×p矩阵,即
      R = s i j s i i s j j = a i j a i i a j j . R=\frac{s_{ij}}{\sqrt{s_{ii}s_{jj}}}=\frac{a_{ij}}{\sqrt{a_{ii}a_{jj}}}. R=siisjj sij=aiiajj aij.

    有了这些统计量,我们就可以对总体的参数 μ , Σ \mu,\Sigma μ,Σ进行估计,使用的方法是最大似然估计。

    2.最大似然估计

    最大似然估计指的是,以使获得样本的出现几率最大的那组参数估计量,作为参数的点估计量。与一元情形类似,可以建立似然函数的概念。使用拉直运算,对 V e c ( X ′ ) {\rm Vec}(X') Vec(X)的密度函数建立似然函数,称为样本 X ( i ) X_{(i)} X(i)的似然函数(对数似然函数)。
    L ( μ , Σ ) = ∏ α = 1 n 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 exp ⁡ [ − 1 2 ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) ] = 1 ( 2 π ) n p / 2 ∣ Σ ∣ n / 2 exp ⁡ [ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) ] l ( μ , Σ ) = − n p 2 ln ⁡ ( 2 π ) + n 2 ln ⁡ ∣ Σ − 1 ∣ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) \begin{aligned} L(\mu,\Sigma)=&\prod_{\alpha=1}^n \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac12(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right] \\ =&\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right]\\ l(\mu,\Sigma)=&-\frac{np}2\ln(2\pi)+\frac n2\ln |\Sigma^{-1}|-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \end{aligned} L(μ,Σ)==l(μ,Σ)=α=1n(2π)p/2Σ1/21exp[21(x(α)μ)Σ1(x(α)μ)](2π)np/2Σn/21exp[21α=1n(x(α)μ)Σ1(x(α)μ)]2npln(2π)+2nlnΣ121α=1n(x(α)μ)Σ1(x(α)μ)

    要求其极大似然估计,需要对矩阵 Σ \Sigma Σ,向量 μ \mu μ求导(参见矩阵微商),得
    d l ( μ , Σ ) d μ = 1 2 ∑ α = 1 n ( Σ − 1 + ( Σ − 1 ) ′ ) ( x ( α ) − μ ) = Σ − 1 ( ∑ α = 1 n ( x ( α ) − μ ) ) = n Σ − 1 ( X ˉ − μ ) . d l ( μ , Σ ) d Σ − 1 = − n 2 Σ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ( x ( α ) − μ ) ′ = − 1 2 ( n Σ − A ) . \frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\mu}=\frac12\sum_{\alpha=1}^n(\Sigma^{-1}+(\Sigma^{-1})')(x_{(\alpha)}-\mu)=\Sigma^{-1}(\sum_{\alpha=1}^n(x_{(\alpha)}-\mu))=n\Sigma^{-1}(\bar X-\mu).\\ \frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\Sigma^{-1}}=-\frac n2\Sigma-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)(x_{(\alpha)}-\mu)'=-\frac12(n\Sigma-A). dμdl(μ,Σ)=21α=1n(Σ1+(Σ1))(x(α)μ)=Σ1(α=1n(x(α)μ))=nΣ1(Xˉμ).dΣ1dl(μ,Σ)=2nΣ21α=1n(x(α)μ)(x(α)μ)=21(nΣA).
    所以
    μ ^ = X ˉ , Σ ^ = A n . \hat \mu=\bar X,\quad \hat\Sigma = \frac An. μ^=Xˉ,Σ^=nA.

    用到的矩阵微商结论:对于对称阵 A A A与列向量 x x x,有
    d ln ⁡ ∣ A ∣ d A = A − 1 , d x ′ A x d A = x x ′ , d x ′ A x d x = ( A + A ′ ) x . \frac{{\rm d}\ln |A|}{{\rm d}A}=A^{-1},\\ \frac{{\rm d}x'Ax}{{\rm d}A}=xx',\\ \frac{{\rm d}x'Ax}{{\rm d}x}=(A+A')x. dAdlnA=A1,dAdxAx=xx,dxdxAx=(A+A)x.

    如果在已知 μ = μ 0 \mu=\mu_0 μ=μ0的情况下,依照以上过程,就可以得到
    Σ ^ = 1 n ∑ α = 1 n ( x ( α ) − μ 0 ) ( x ( α ) − μ 0 ) ′ . \hat \Sigma=\frac{1}{n}\sum_{\alpha=1}^n(x_{(\alpha)}-\mu_0)(x_{(\alpha)}-\mu_0)'. Σ^=n1α=1n(x(α)μ0)(x