精华内容
下载资源
问答
  • 多元正态分布协方差
    千次阅读
    2021-10-03 17:54:33

    引言

    正态分布是19世纪德国科学家Gauss(1777—1855)在研究单个测量误差 ε \varepsilon ε的分布时导出一元正态分布 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2),而多元正态是由多个测量误差的联合分布导出的 N p ( μ , ε ) N_p(\mu,\varepsilon) Np(μ,ε)。多元正态分布在多元统计分析中所占的重要地位,如同一元统计分析中一元正态分布所占的重要地位一样,多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础,同时它具有许多优良的性质。此外,在实用中遇到的随机向量常常是服从正态分布或近似正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。

    一元正态分布的定义

    定义1: 一元正态分布的概率密度函数为: f ( x ) = 1 2 π σ exp ⁡ [ − 1 2 ( x − μ σ ) 2 ] − ∞ < x < + ∞ f(x)=\frac{1}{\sqrt{2\pi \sigma}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right] \quad -\infty<x < +\infty f(x)=2πσ 1exp[21(σxμ)2]<x<+

    多元正态分布的定义

    定义2: 多元正态分布是一元正态分布的推广,若 p p p维随机向量 X = ( X 1 , ⋯   , X p ) ⊤ X=(X_1,\cdots,X_p)^{\top} X=(X1,,Xp)的密度函数为 f ( x ) = 1 ( 2 π ) p ∣ Σ ∣ 1 2 exp ⁡ [ − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ] f(x)=\frac{1}{\sqrt{(2\pi)}^p|\Sigma|^{\frac{1}{2}}}\exp \left[-\frac{1}{2}(x-\mu)^{\top}\Sigma^{-1}(x-\mu)\right] f(x)=(2π) pΣ211exp[21(xμ)Σ1(xμ)]其中, x = ( x 1 , ⋯   , x p ) ⊤ x=(x_1,\cdots,x_p)^{\top} x=(x1,,xp) μ \mu μ是随机向量 X X X p p p维均值向量, Σ \Sigma Σ X X X p p p阶协方差阵(是正定阵以保证 Σ − 1 \Sigma^{-1} Σ1存在),则称 X X X服从 p p p元正态分布,也称 X X X p p p维正态随机向量,简记为 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),显然当 p = 1 p=1 p=1时,即为一元正态密度函数。

    定义3: 独立标准正态变量 X 1 , ⋯   , X p X_1,\cdots,X_p X1,,Xp的有限线性组合: Y = [ Y 1 ⋮ Y m ] = A m × p [ X 1 ⋮ X p ] + μ m × 1 Y=\left[\begin{array}{c}Y_1\\ \vdots\\ Y_m\end{array}\right]=A_{m\times p} \left[\begin{array}{c}X_1\\ \vdots\\ X_p\end{array}\right]+\mu_{m\times 1} Y=Y1Ym=Am×pX1Xp+μm×1称为 m m m维正态随机向量,记为 Y ∼ N m ( μ , Σ ) Y \sim N_m(\mu,\Sigma) YNm(μ,Σ),其中 Σ = A A ⊤ \Sigma=AA^{\top} Σ=AA,这里需要注意的是 Σ = A A ⊤ \Sigma=AA^{\top} Σ=AA的分解一般不是唯一的。

    定义4: X X X的特征函数为 Φ ( t ) = exp ⁡ ( i t ⊤ μ − 1 2 t ⊤ Σ t ) , \Phi(t)=\exp(i t^{\top}\mu-\frac{1}{2}t^{\top}\Sigma t), Φ(t)=exp(itμ21tΣt),其中 t t t为实向量,则称 X X X服从 p p p元正态分布,显然用特征函数定义,可以包括 ∣ Σ ∣ = 0 |\Sigma|=0 Σ=0情况。

    多元正态变量的基本性质

    • X = ( X 1 , ⋯   , X p ) ⊤ ∼ N ( μ , Σ ) X=(X_1,\cdots,X_p)^{\top}\sim N(\mu,\Sigma) X=(X1,,Xp)N(μ,Σ) Σ \Sigma Σ是对角阵,则 X 1 , ⋯   , X p X_1,\cdots,X_p X1,,Xp相互独立。
    • 若总体 X = ( X 1 , ⋯   , X p ) ⊤ ∼ N ( μ , Σ ) X=(X_1,\cdots,X_p)^{\top}\sim N(\mu,\Sigma) X=(X1,,Xp)N(μ,Σ),则每个分量 X i ∼ N ( μ i , σ i i ) ( i = 1 , ⋯   , p ) X_i \sim N(\mu_i,\sigma_{ii})(i=1,\cdots,p) XiN(μi,σii)(i=1,,p) X X X中的任何部分集合构成的向量也服从正态分布,即多元正态随机向量 X X X的所有子集都服从正态分布。
    • 若总体 X = ( X 1 , ⋯   , X p ) ⊤ ∼ N p ( μ , Σ ) X=(X_1,\cdots,X_p)^{\top}\sim N_p(\mu,\Sigma) X=(X1,,Xp)Np(μ,Σ),则随机变量的任意线性组合: a ⊤ X = a 1 X 1 + a 2 X 2 + ⋯ + a p X p ∼ N ( a ⊤ μ , a ⊤ Σ a ) a^{\top}X=a_1X_1+a_2X_2+\cdots+a_pX_p \sim N(a^{\top}\mu,a^{\top}\Sigma a) aX=a1X1+a2X2++apXpN(aμ,aΣa)。反之,如果对任意向量 a a a a ⊤ X ∼ N ( a ⊤ μ , a ⊤ Σ a ) a^{\top}X\sim N(a^{\top}\mu,a^{\top}\Sigma a) aXN(aμ,aΣa),则 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ)
    • X ∼ N p ( μ , Σ ) X \sim N_p(\mu,\Sigma) XNp(μ,Σ) A A A s × p s \times p s×p阶常数阵, d d d s s s维常数向量,则 A X + d ∼ N s ( A μ + d , A Σ A ⊤ ) AX+d\sim N_s(A\mu+d,A\Sigma A^{\top}) AX+dNs(Aμ+d,AΣA),即正态随机向量的线性函数还是正态的。
    • X ∼ N p ( μ , Σ ) X \sim N_p(\mu,\Sigma) XNp(μ,Σ),将 X , μ , Σ X,\mu,\Sigma X,μ,Σ作如下部分: X = ( X ( 1 ) X ( 2 ) ) p − q q μ = ( μ ( 1 ) μ ( 2 ) ) Σ = ( Σ 11 Σ 12 Σ 21 Σ 22 ) p − q q X=\left(\begin{array}{c}X^{(1)}\\X^{(2)}\end{array}\right)^q_{p-q}\quad \mu=\left(\begin{array}{c}\mu^{(1)}\\\mu^{(2)}\end{array}\right)\quad \Sigma=\left(\begin{array}{cc}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{array}\right)^{q}_{p-q} X=(X(1)X(2))pqqμ=(μ(1)μ(2))Σ=(Σ11Σ21Σ12Σ22)pqq X ( 1 ) ∼ N q ( μ ( 1 ) , Σ 11 ) X^{(1)}\sim N_q(\mu^{(1)},\Sigma_{11}) X(1)Nq(μ(1),Σ11) X ( 2 ) ∼ N p − q ( μ ( 2 ) , Σ 22 ) X^{(2)}\sim N_{p-q}(\mu^{(2)},\Sigma_{22}) X(2)Npq(μ(2),Σ22)
    • X ∼ N p ( μ , Σ ) X \sim N_p(\mu,\Sigma) XNp(μ,Σ) ∣ Σ ∣ > 0 |\Sigma|>0 Σ>0,则 Σ − 1 ( x − μ ) ∼ χ 2 ( p ) \Sigma^{-1}(x-\mu)\sim \chi^2(p) Σ1(xμ)χ2(p)
    更多相关内容
  • 协方差矩阵与多元正态分布

    千次阅读 2021-10-21 12:32:02
    文章目录协方差矩阵协方差协方差矩阵多元正态分布协方差矩阵的特征值分解 协方差矩阵 协方差 在统计学中,方差用来度量单个随机变量的离散程度,而协方差用来刻画两个随机变量的相似程度,方差的计算公式 σx2=1n−1...

    协方差矩阵

    协方差

    在统计学中,方差用来度量单个随机变量的离散程度,而协方差用来刻画两个随机变量的相似程度,方差的计算公式
    σ x 2 = 1 n − 1 ∑ i n ( x i − x ˉ ) \sigma_x^2=\cfrac{1}{n-1}\sum\limits_i^n(x_i-\bar{x}) σx2=n11in(xixˉ)
    其中 n n n 表示样本数, x ˉ \bar{x} xˉ 表示观测样本的均值。
    协方差的计算公式定义为:
    σ ( x , y ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \sigma(x,y)=\cfrac{1}{n-1}\sum\limits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) σ(x,y)=n11i=1n(xixˉ)(yiyˉ)
    在公式中, x ˉ , y ˉ \bar{x},\bar{y} xˉ,yˉ分别表示两个随机变量对应的观测样本均值。
    可以发现:

    方差 σ x 2 \sigma_x^2 σx2 可视作随机变量 x x x 关于自身的协方差。

    协方差矩阵

    给定一个 d d d维随机向量 x = ( x 1 , x 2 , ⋯   , x d ) x=(x_1,x_2,\cdots,x_d) x=(x1,x2,,xd),则
    σ ( x m , x k ) = 1 n − 1 ∑ i = 1 n ( x m i − x ˉ m ) ( x k i − x ˉ k ) \sigma(x_m,x_k)=\cfrac{1}{n-1}\sum\limits_{i=1}^n(x_{mi}-\bar{x}_m)(x_{ki}-\bar{x}_k) σ(xm,xk)=n11i=1n(xmixˉm)(xkixˉk)
    协方差矩阵为:
    Σ = [ σ ( x 1 , x 1 ) ⋯ σ ( x 1 , x d ) ⋮ ⋱ ⋮ σ ( x d , x 1 ) ⋯ σ ( x d , x d ) ] \Sigma= \begin{bmatrix} \sigma(x_1,x_1) & \cdots & \sigma(x_1,x_d) \\ \vdots & \ddots & \vdots\\ \sigma(x_d,x_1) & \cdots & \sigma(x_d,x_d) \end{bmatrix} Σ=σ(x1,x1)σ(xd,x1)σ(x1,xd)σ(xd,xd)
    根据上述协方差矩阵的定义,矩阵 Σ \Sigma Σ为对称矩阵(symmetric matrix),其大小为 d × d d\times d d×d

    多元正态分布

    假设一个向量 x x x服从均值向量为 μ \mu μ的均值向量、协方差矩阵为 Σ \Sigma Σ的多元正态分布(multi-variable Gaussian distribution),则
    p ( x ) = ∣ 2 π Σ ∣ − 1 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x)=\vert{2\pi\Sigma}\rvert^{-\frac{1}{2}}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) p(x)=2πΣ21exp(21(xμ)TΣ1(xμ))

    令均值向量 μ = 0 \mu=0 μ=0,指数前的系数 ∣ 2 π Σ ∣ − 1 2 \vert{2\pi\Sigma}\rvert^{-\frac{1}{2}} 2πΣ21为常数项,所以有
    p ( x ) ∝ exp ⁡ ( − 1 2 x T Σ − 1 x ) p(x)\propto \exp(-\frac{1}{2}x^T\Sigma^{-1}x) p(x)exp(21xTΣ1x)

    x x x为二维随机向量 x = ( x 1 , x 2 ) x=(x_1,x_2) x=(x1,x2),其协方差矩阵为单位矩阵 I 2 I_2 I2,则 x 1 x_1 x1 x 2 x_2 x2的方差均为1,生成的散点图如下:
    在这里插入图片描述

    对于每个随机数,似然为:
    L ∝ exp ⁡ ( − 1 2 x T x ) \mathcal{L}\propto\exp(-\cfrac{1}{2}x^Tx) Lexp(21xTx)
    对图1的点进行一个线性变换: t = A x t=Ax t=Ax,得到图2:
    在这里插入图片描述
    在上述变换中,矩阵 A A A称为变换矩阵(transformation matrix),将变换矩阵分解为两个矩阵。
    尺度矩阵(scaling matrix):
    S = [ s 1 0 0 s 2 ] = [ 1 0 0 1 2 ] S=\begin{bmatrix}s_1 & 0 \\ 0 & s_2\end{bmatrix}=\begin{bmatrix}1 & 0 \\ 0 & \frac{1}{2}\end{bmatrix} S=[s100s2]=[10021]
    旋转矩阵(rotation matrix):
    R = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] = [ cos ⁡ π 6 − sin ⁡ π 6 sin ⁡ π 6 cos ⁡ π 6 ] = [ 3 2 − 1 2 1 2 3 2 ] R=\begin{bmatrix} \cos{\theta} & -\sin{\theta} \\ \sin{\theta} & \cos{\theta} \end{bmatrix}=\begin{bmatrix} \cos{\frac{\pi}{6}} & -\sin{\frac{\pi}{6}} \\ \sin{\frac{\pi}{6}} & \cos{\frac{\pi}{6}} \end{bmatrix}=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} &\frac{\sqrt{3}}{2} \end{bmatrix} R=[cosθsinθsinθcosθ]=[cos6πsin6πsin6πcos6π]=[23 212123 ]

    其中 θ \theta θ为逆时针旋转的度数。

    变换矩阵、尺度矩阵和旋转矩阵的关系: A = R S A=RS A=RS

    A = R S = [ 3 2 − 1 4 1 2 3 4 ] A=RS=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{4} \\ \frac{1}{2} &\frac{\sqrt{3}}{4} \end{bmatrix} A=RS=[23 214143 ]

    经过线性变换 t = A x t=Ax t=Ax t t t的分布:
    x = A − 1 t x=A^{-1}t x=A1t 带入似然 L ( x ) \mathcal{L}(x) L(x)
    L ∝ exp ⁡ ( − 1 2 ( A − 1 t ) T ( A − 1 t ) ) = exp ⁡ ( − 1 2 t T ( A T A ) − 1 t ) \mathcal{L}\propto\exp(-\cfrac{1}{2}(A^{-1}t)^T(A^{-1}t))\\ =\exp(-\cfrac{1}{2}t^T(A^TA)^{-1}t) Lexp(21(A1t)T(A1t))=exp(21tT(ATA)1t)
    可得,多元正态分布的协方差矩阵:
    Σ = A A T = [ 13 16 3 3 16 3 3 16 7 16 ] \Sigma=AA^T=\begin{bmatrix} \frac{13}{16} & \frac{3\sqrt{3}}{16} \\ \frac{3\sqrt{3}}{16} &\frac{7}{16} \end{bmatrix} Σ=AAT=[16131633 1633 167]

    协方差矩阵的特征值分解

    对于实对称矩阵 Σ \Sigma Σ,必相似于对角矩阵,即存在可逆矩阵P,满足:
    Σ = P Λ P T \Sigma=P\Lambda P^T Σ=PΛPT
    P P P的每一列为相互正交的特征向量, Λ \Lambda Λ为对角矩阵,特征值从大到小排列。

    上述对称矩阵的分解可得:
    Σ = ( P Λ 1 / 2 ) ( P Λ 1 / 2 ) T = A A T = ( R S ) ( R S ) T \Sigma=(P\Lambda^{1/2})(P\Lambda^{1/2})^T=AA^T=(RS)(RS)^T Σ=(PΛ1/2)(PΛ1/2)T=AAT=(RS)(RS)T
    可得:
    P = R = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] = [ 3 2 − 1 2 1 2 3 2 ] P=R=\begin{bmatrix} \cos{\theta} & -\sin{\theta} \\ \sin{\theta} & \cos{\theta} \end{bmatrix}=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} &\frac{\sqrt{3}}{2} \end{bmatrix} P=R=[cosθsinθsinθcosθ]=[23 212123 ]
    Λ = S S T = [ s 1 2 0 0 s 2 2 ] = [ 1 0 0 1 4 ] \Lambda=SS^T=\begin{bmatrix}s_1^2 & 0 \\ 0 & s_2^2 \end{bmatrix}=\begin{bmatrix}1 & 0 \\ 0 & \frac{1}{4}\end{bmatrix} Λ=SST=[s1200s22]=[10041]

    所以,多元正态分布得概率密度由协方差矩阵的特征向量控制旋转(rotation),特征值控制尺度(scale),均值向量控制概率密度的均值。

    关于矩阵在线性变换的理解,见下篇博客。

    如何直观地理解「协方差矩阵」?

    展开全文
  • X = rmvnrnd(MU,SIG,N,A,B) 在 N×P 矩阵 X a 中返回从 P 维多元正态中抽取的随机样本均值 MU 和协方差 SIG 截断为 a 的分布由不等式 Ax<=B 定义的超平面界定的区域。 [X,RHO,NAR,NGIBBS] = rmvnrnd(MU,SIG,N,A,B...
  • 多元正态分布具有两个参数——均值向量与自协方差函数,与数理统计一样,可以用抽样的方式定义一些统计量对它们进行参数估计。在这里,我们使用极大似然估计的方法,用样本均值和样本离差阵对它们进行估计。

    四、多元正态分布的参数估计

    1.多元正态分布的估计量

    对于多元正态分布 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ),其参数只有两个——均值向量 μ \mu μ与自协方差矩阵 Σ \Sigma Σ,要对其进行估计,就要从总体中抽取简单随机样本。记抽取样本的容量为 n n n,每一个样本分别是 X ( α ) = ( x α 1 , ⋯   , x α p ) X_{(\alpha)}=(x_{\alpha1},\cdots,x_{\alpha p}) X(α)=(xα1,,xαp),将样本纵向排列,得到样本数据阵
    X = [ x 11 ⋯ x 1 p ⋮ ⋮ x n 1 ⋯ x n p ] . X=\begin{bmatrix} x_{11} & \cdots & x_{1p} \\ \vdots & & \vdots \\ x_{n1} & \cdots & x_{np} \end{bmatrix}. X=x11xn1x1pxnp.
    从样本数据阵出发,可以获得以下统计量:

    1. 样本均值 X ˉ \bar X Xˉ,这是对每个维度求均值,得到的一个 p p p维向量
      X ˉ = 1 n ∑ α = 1 n X ( α ) = ( x ˉ 1 , ⋯   , x ˉ p ) ′ = 1 n X ′ 1 n . \bar X=\frac 1n\sum_{\alpha=1}^n X_{(\alpha)}=(\bar x_1,\cdots ,\bar x_p)'=\frac 1nX'\boldsymbol 1_n. Xˉ=n1α=1nX(α)=(xˉ1,,xˉp)=n1X1n.
      这里 x ˉ i \bar x_i xˉi是对第 i i i个分量的平均,即
      x ˉ i = 1 n ∑ α = 1 n x α i . \bar x_i=\frac 1n\sum_{\alpha=1}^n x_{\alpha i}. xˉi=n1α=1nxαi.

    2. 样本离差阵 A A A,可以类比一维随机变量中的 ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i-\bar x)^2 i=1n(xixˉ)2,即
      A = ∑ α = 1 n ( X ( α ) − X ˉ ) ( X ( α ) − X ˉ ) ′ A=\sum_{\alpha=1}^n(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)' A=α=1n(X(α)Xˉ)(X(α)Xˉ)
      这样, A A A是一个 p × p p\times p p×p对角阵,它的第 ( i , j ) (i,j) (i,j)元,其实就是
      a i j = ∑ α = 1 n ( x α i − x ˉ i ) ( x α j − x ˉ j ) . a_{ij}=\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)(x_{\alpha j}-\bar x_j). aij=α=1n(xαixˉi)(xαjxˉj).
      由此,还可以得到
      A = X ′ X − n X ˉ X ˉ ′ = X ′ [ I n − 1 n 1 n 1 n ′ ] X . A=X'X-n\bar X\bar X'=X'\left[I_n-\frac 1n\boldsymbol 1_n\boldsymbol 1_n' \right] X. A=XXnXˉXˉ=X[Inn11n1n]X.
      这个式子用来计算离差阵更为方便。

    3. 样本协方差阵 S S S,可以类比一维随机变量中的样本方差,即
      S = 1 n − 1 A , S=\frac 1{n-1}A, S=n11A,
      ( i , i ) (i,i) (i,i)元是变量 X i X_i Xi的样本方差,即
      s i i = 1 n − 1 ∑ α = 1 n ( x α i − x ˉ i ) 2 . s_{ii}=\frac 1{n-1}\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)^2. sii=n11α=1n(xαixˉi)2.
      类似一维中样本方差的定义,也有
      S ∗ = 1 n ∑ α = 1 n ( x α i − x ˉ i ) 2 . S^*=\frac 1n\sum_{\alpha=1}^n(x_{\alpha i}-\bar x_i)^2. S=n1α=1n(xαixˉi)2.

    4. 样本相关阵 R R R,自然是由样本相关系数 r i j r_{ij} rij构成的 p × p p\times p p×p矩阵,即
      R = s i j s i i s j j = a i j a i i a j j . R=\frac{s_{ij}}{\sqrt{s_{ii}s_{jj}}}=\frac{a_{ij}}{\sqrt{a_{ii}a_{jj}}}. R=siisjj sij=aiiajj aij.

    有了这些统计量,我们就可以对总体的参数 μ , Σ \mu,\Sigma μ,Σ进行估计,使用的方法是最大似然估计。

    2.最大似然估计

    最大似然估计指的是,以使获得样本的出现几率最大的那组参数估计量,作为参数的点估计量。与一元情形类似,可以建立似然函数的概念。使用拉直运算,对 V e c ( X ′ ) {\rm Vec}(X') Vec(X)的密度函数建立似然函数,称为样本 X ( i ) X_{(i)} X(i)的似然函数(对数似然函数)。
    L ( μ , Σ ) = ∏ α = 1 n 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 exp ⁡ [ − 1 2 ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) ] = 1 ( 2 π ) n p / 2 ∣ Σ ∣ n / 2 exp ⁡ [ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) ] l ( μ , Σ ) = − n p 2 ln ⁡ ( 2 π ) + n 2 ln ⁡ ∣ Σ − 1 ∣ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) \begin{aligned} L(\mu,\Sigma)=&\prod_{\alpha=1}^n \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac12(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right] \\ =&\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right]\\ l(\mu,\Sigma)=&-\frac{np}2\ln(2\pi)+\frac n2\ln |\Sigma^{-1}|-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \end{aligned} L(μ,Σ)==l(μ,Σ)=α=1n(2π)p/2Σ1/21exp[21(x(α)μ)Σ1(x(α)μ)](2π)np/2Σn/21exp[21α=1n(x(α)μ)Σ1(x(α)μ)]2npln(2π)+2nlnΣ121α=1n(x(α)μ)Σ1(x(α)μ)

    要求其极大似然估计,需要对矩阵 Σ \Sigma Σ,向量 μ \mu μ求导(参见矩阵微商),得
    d l ( μ , Σ ) d μ = 1 2 ∑ α = 1 n ( Σ − 1 + ( Σ − 1 ) ′ ) ( x ( α ) − μ ) = Σ − 1 ( ∑ α = 1 n ( x ( α ) − μ ) ) = n Σ − 1 ( X ˉ − μ ) . d l ( μ , Σ ) d Σ − 1 = − n 2 Σ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ( x ( α ) − μ ) ′ = − 1 2 ( n Σ − A ) . \frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\mu}=\frac12\sum_{\alpha=1}^n(\Sigma^{-1}+(\Sigma^{-1})')(x_{(\alpha)}-\mu)=\Sigma^{-1}(\sum_{\alpha=1}^n(x_{(\alpha)}-\mu))=n\Sigma^{-1}(\bar X-\mu).\\ \frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\Sigma^{-1}}=-\frac n2\Sigma-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)(x_{(\alpha)}-\mu)'=-\frac12(n\Sigma-A). dμdl(μ,Σ)=21α=1n(Σ1+(Σ1))(x(α)μ)=Σ1(α=1n(x(α)μ))=nΣ1(Xˉμ).dΣ1dl(μ,Σ)=2nΣ21α=1n(x(α)μ)(x(α)μ)=21(nΣA).
    所以
    μ ^ = X ˉ , Σ ^ = A n . \hat \mu=\bar X,\quad \hat\Sigma = \frac An. μ^=Xˉ,Σ^=nA.

    用到的矩阵微商结论:对于对称阵 A A A与列向量 x x x,有
    d ln ⁡ ∣ A ∣ d A = A − 1 , d x ′ A x d A = x x ′ , d x ′ A x d x = ( A + A ′ ) x . \frac{{\rm d}\ln |A|}{{\rm d}A}=A^{-1},\\ \frac{{\rm d}x'Ax}{{\rm d}A}=xx',\\ \frac{{\rm d}x'Ax}{{\rm d}x}=(A+A')x. dAdlnA=A1,dAdxAx=xx,dxdxAx=(A+A)x.

    如果在已知 μ = μ 0 \mu=\mu_0 μ=μ0的情况下,依照以上过程,就可以得到
    Σ ^ = 1 n ∑ α = 1 n ( x ( α ) − μ 0 ) ( x ( α ) − μ 0 ) ′ . \hat \Sigma=\frac{1}{n}\sum_{\alpha=1}^n(x_{(\alpha)}-\mu_0)(x_{(\alpha)}-\mu_0)'. Σ^=n1α=1n(x(α)μ0)(x(α)μ0).
    所以,我们要找到 ( μ , Σ ) (\mu,\Sigma) (μ,Σ)的估计,就需要计算 ( X ˉ , A ) (\bar X,A) (Xˉ,A),接下来对它们进行性质讨论。

    3.最大似然估计的性质

    ( X ˉ , A ) (\bar X,A) (Xˉ,A)的分布具有类似一元统计中 X ˉ \bar X Xˉ S 2 S^2 S2的性质。

    定理:设 X ˉ \bar X Xˉ A A A分别是 p p p元正态总体 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的样本均值向量和样本离差阵,则有

    1. X ˉ ∼ N p ( μ , 1 n Σ ) \bar X\sim N_p(\mu,\frac1n\Sigma) XˉNp(μ,n1Σ)
    2. A = d ∑ t = 1 n Z t Z t ′ A\stackrel {\rm d}=\sum\limits_{t=1}^n Z_tZ_t' A=dt=1nZtZt,其中 Z 1 , ⋯   , Z n − 1 Z_1,\cdots,Z_{n-1} Z1,,Zn1独立同 N p ( 0 , Σ ) N_p(0,\Sigma) Np(0,Σ)分布;
    3. X ˉ \bar X Xˉ A A A相互独立;
    4. P { A > 0 } = 1 ⇔ n > p {\rm P}\{A>0\}=1\Leftrightarrow n>p P{A>0}=1n>p

    前三个性质的证明方式也与一元情况类似,设 X X X为从多元正态总体中抽取的 n × p n\times p n×p样本数据阵, Γ \Gamma Γ n n n正交阵,形式如同
    Γ = [ r 11 ⋯ r 1 n ⋮ ⋮ r ( n − 1 ) 1 ⋯ r ( n − 1 ) n 1 / n ⋯ 1 / n ] = ( r i j ) n × n . \Gamma=\begin{bmatrix} r_{11} & \cdots & r_{1n} \\ \vdots & & \vdots \\ r_{(n-1)1} & \cdots & r_{(n-1)n} \\ 1/\sqrt n & \cdots & 1/\sqrt n \end{bmatrix}=(r_{ij})_{n\times n}. Γ=r11r(n1)11/n r1nr(n1)n1/n =(rij)n×n.

    Z = [ Z 1 ′ ⋮ Z n ′ ] = Γ [ X ( 1 ) ′ ⋮ X ( n ) ′ ] = Γ X . Z=\begin{bmatrix} Z_1' \\ \vdots \\ Z_n' \end{bmatrix} = \Gamma\begin{bmatrix} X_{(1)}' \\ \vdots \\ X_{(n)}' \end{bmatrix}=\Gamma X. Z=Z1Zn=ΓX(1)X(n)=ΓX.
    Z i ′ = ( r i 1 , ⋯ r i n ) X Z_i'=(r_{i1},\cdots r_{in})X Zi=(ri1,rin)X
    Z i = ( X ( 1 ) , ⋯   , X ( n ) ) [ r i 1 ⋮ r i n ] , i = 1 , ⋯   , n . Z_i=(X_{(1)},\cdots,X_{(n)})\begin{bmatrix} r_{i1} \\ \vdots \\ r_{in} \end{bmatrix},\quad i=1,\cdots,n. Zi=(X(1),,X(n))ri1rin,i=1,,n.
    因为 Z i Z_i Zi X ( 1 ) , ⋯   , X ( n ) X_{(1)},\cdots,X_{(n)} X(1),,X(n)的线性组合,所以 Z i Z_i Zi也是 p p p维正态向量,且
    E Z i = ∑ α = 1 n r i α E ( X ( α ) ) = { n ∑ α = 1 n r i α r n α μ = 0 , t ≠ n ; ∑ α = 1 n 1 n μ = n μ , t = n . C o v ( Z α , Z β ) = ∑ i = 1 n r α i r β i Σ = { O , α ≠ β ; Σ , α = β . {\rm E}Z_i=\sum_{\alpha=1}^n r_{i\alpha}{\rm E}(X_{(\alpha)})=\left\{ \begin{array}l \sqrt{n}\sum\limits_{\alpha=1}^n r_{i\alpha}r_{n\alpha}\mu=0,&t\ne n;\\ \sum\limits_{\alpha=1}^n \frac 1{\sqrt n}\mu=\sqrt n \mu,&t=n. \end{array} \right.\\ {\rm Cov}(Z_\alpha,Z_{\beta})=\sum_{i=1}^nr_{\alpha i}r_{\beta i}\Sigma=\left\{ \begin{array}l O,&\alpha\ne \beta;\\ \Sigma,&\alpha=\beta. \end{array} \right. EZi=α=1nriαE(X(α))=n α=1nriαrnαμ=0,α=1nn 1μ=n μ,t=n;t=n.Cov(Zα,Zβ)=i=1nrαirβiΣ={O,Σ,α=β;α=β.
    而显然 Z n = n X ˉ Z_n=\sqrt n\bar X Zn=n Xˉ,且 Z n ∼ N p ( n μ , Σ ) Z_n\sim N_p(\sqrt n\mu,\Sigma) ZnNp(n μ,Σ),所以 X ˉ ∼ N p ( μ , Σ / n ) \bar X\sim N_p(\mu,\Sigma/n) XˉNp(μ,Σ/n)。而
    ∑ α = 1 n Z α Z α ′ = ( Z 1 , ⋯   , Z n ) [ Z 1 ⋮ Z n ] = Z ′ Z = X ′ X , ∑ α = 1 n − 1 Z α Z α ′ = X ′ X − Z n Z n ′ = X ′ X − n X ˉ X ˉ ′ = A . \sum_{\alpha=1}^nZ_{\alpha}Z_{\alpha}'=(Z_1,\cdots,Z_n)\begin{bmatrix} Z_1\\ \vdots \\ Z_n \end{bmatrix}=Z'Z=X'X,\\ \sum_{\alpha=1}^{n-1}Z_{\alpha}Z_{\alpha}'=X'X-Z_nZ_n'=X'X-n\bar X\bar X'=A. α=1nZαZα=(Z1,,Zn)Z1Zn=ZZ=XX,α=1n1ZαZα=XXZnZn=XXnXˉXˉ=A.
    可以注意到, A A A Z 1 , ⋯   , Z n − 1 Z_1,\cdots,Z_{n-1} Z1,,Zn1的函数, X ˉ \bar X Xˉ Z n Z_n Zn的函数,又因为 Z 1 , ⋯   , Z n Z_1,\cdots,Z_n Z1,,Zn互相独立,所以 X ˉ \bar X Xˉ A A A相互独立。至于第四个性质,只需要记住,样本够多就能保证 A A A的非负定性即可。

    除此以外, X ˉ , A \bar X,A Xˉ,A作为 μ , Σ \mu,\Sigma μ,Σ的最大似然估计原型,还具有以下的性质:

    1. 无偏性: X ˉ \bar X Xˉ μ \mu μ的无偏估计, A / n A/n A/n不是 Σ \Sigma Σ的无偏估计,但 S = A / ( n − 1 ) S=A/(n-1) S=A/(n1) Σ \Sigma Σ的无偏估计。
    2. 有效性: X ˉ \bar X Xˉ S S S μ , Σ \mu,\Sigma μ,Σ的一致最小方差无偏估计,即 X ˉ , S \bar X,S Xˉ,S μ , Σ \mu,\Sigma μ,Σ的有效估计量。
    3. 相合性:当 n → ∞ n\to \infty n时, X ˉ , Σ ^ = A / n \bar X,\hat \Sigma=A/n Xˉ,Σ^=A/n μ , Σ \mu,\Sigma μ,Σ的强相合估计,即随着抽样数的增加,它们总会收敛于参数。
    4. 充分性: X ˉ , Σ ^ \bar X,\hat \Sigma Xˉ,Σ^ μ , Σ \mu,\Sigma μ,Σ的充分统计量。

    最大似然估计满足对参数函数依然适用的性质,即对于 μ , Σ \mu,\Sigma μ,Σ的最大似然估计 μ ^ , Σ ^ \hat \mu,\hat \Sigma μ^,Σ^,参数的函数 φ ( μ , Σ ) \varphi(\mu,\Sigma) φ(μ,Σ)的最大似然估计还是 φ ( μ ^ , Σ ^ ) \varphi(\hat \mu,\hat \Sigma) φ(μ^,Σ^)

    回顾总结

    1. 参数估计中,最重要的两个统计量是样本均值 X ˉ \bar X Xˉ与样本离差阵 A A A,它们与样本数据阵 X X X的关系分别是
      X ˉ = 1 n X ′ 1 n , A = X ′ X − n X ˉ X ˉ ′ = X ′ [ I n − 1 n 1 n 1 n ′ ] X . \bar X=\frac 1nX'\boldsymbol 1_n,\\ A=X'X-n\bar X\bar X'=X'\left[I_n-\frac1n\boldsymbol 1_n\boldsymbol 1_n' \right]X. Xˉ=n1X1n,A=XXnXˉXˉ=X[Inn11n1n]X.
      还有相关的统计量如 S = A / ( n − 1 ) , S ∗ = A / n S=A/(n-1),S^*=A/n S=A/(n1),S=A/n和样本相关阵 R , r i j = a i j / a i i a j j R,r_{ij}=a_{ij}/\sqrt{a_{ii}a_{jj}} R,rij=aij/aiiajj

    2. N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的参数 μ , Σ \mu,\Sigma μ,Σ的最大似然估计分别是 μ ^ = X ˉ , Σ ^ = A / n \hat \mu=\bar X,\hat \Sigma=A/n μ^=Xˉ,Σ^=A/n,一般可以由 X ˉ , A \bar X,A Xˉ,A估计出 μ , Σ \mu,\Sigma μ,Σ估计出。

    3. 关于 X ˉ , A \bar X,A Xˉ,A的性质,有 X ˉ , A \bar X,A Xˉ,A相互独立,且
      X ˉ ∼ N p ( μ , Σ / n ) , A = d ∑ α = 1 n − 1 Z α Z α ′ , Z α ∼ i . i . d . N p ( 0 , Σ ) . \bar X\sim N_p(\mu,\Sigma/n),\\ A\stackrel {\rm d}=\sum_{\alpha=1}^{n-1} Z_\alpha Z_{\alpha}',\quad Z_\alpha\stackrel {\rm i.i.d.}\sim N_p(0,\Sigma). XˉNp(μ,Σ/n),A=dα=1n1ZαZα,Zαi.i.d.Np(0,Σ).

    4. 在无偏性方面, X ˉ \bar X Xˉ μ \mu μ的无偏估计, S = A / ( n − 1 ) S=A/(n-1) S=A/(n1) Σ \Sigma Σ的无偏估计。

    5. 在有效性方面, X ˉ , S \bar X,S Xˉ,S μ , Σ \mu,\Sigma μ,Σ的最小方差无偏估计,即有效估计。

    6. 在相合性方面, X ˉ , A / n \bar X,A/n Xˉ,A/n μ , Σ \mu,\Sigma μ,Σ的强相合估计。

    7. 对于参数函数 φ ( μ , Σ ) \varphi(\mu,\Sigma) φ(μ,Σ),它的最大似然估计是 φ ( X ˉ , A / n ) \varphi(\bar X,A/n) φ(Xˉ,A/n)

    展开全文
  • 多元正态分布(多元高斯分布) 直接从多元正态分布讲起。多元正态分布公式如下: 这就是多元正态分布的定义,均值好理解,就是高斯分布的概率分布值最大的位置,进行采样时也就是采样的中心点。而协方差矩阵在多维上...
  •  在实际应用中,多元正态分布中均值向量,和协差阵。通常是未知的,需由样本来估计,而参数的估计方法很多,这里用最常见的最大似然估计法给出其估计量,并借助一元统计中学过的估计量性质指出这里给出的估计量也...

    引言

    在实际应用中,多元正态分布中均值向量,和协差阵。通常是未知的,需由样本来估计,而参数的估计方法很多,这里用最常见的最大似然估计法给出其估计量,并借助一元统计中学过的估计量性质指出这里给出的估计量也满足通常要求的性质。

    多元样本的概念及表示法

    多元分析研究的总体是多元总体,从多元总体中随机抽取 n n n个个体 X ( 1 ) , X ( 2 ) , ⋯   , X ( n ) X_{(1)},X_{(2)},\cdots,X_{(n)} X(1),X(2),,X(n),若 X ( 1 ) , X ( 2 ) , ⋯   , X ( n ) X_{(1)},X_{(2)},\cdots,X_{(n)} X(1),X(2),,X(n)相互独立且与总体同分布,则称 X ( 1 ) , X ( 2 ) , ⋯   , X ( n ) X_{(1)},X_{(2)},\cdots,X_{(n)} X(1),X(2),,X(n)为该总体的一个多元随机样本,简称为简单样本。每个 X ( n ) = ( X a 1 , X a 2 , ⋯   , X a p ) ⊤ ( a = 1 , 2 , ⋯   , n ) X_{(n)}=(X_{a1},X_{a2},\cdots,X_{ap})^{\top}(a=1,2,\cdots,n) X(n)=(Xa1,Xa2,,Xap)(a=1,2,,n)称为一个样品,其中, X a j X_{aj} Xaj为第 a a a个样品对第 j j j个指标的观测值, 显然每个样品都是 p p p维向量,将 n n n个样品对 p p p项指标进行观测,将全部观测结果用一个 n × p n \times p n×p阶矩阵 X X X表示: X = [ X 11 X 12 ⋯ X 1 p X 21 X 22 ⋯ X 2 p ⋮ ⋮ ⋮ ⋮ X n 1 X n 2 ⋯ X n p ] = [ X ( 1 ) ⊤ X ( 2 ) ⊤ ⋮ X ( n ) ⊤ ] X=\left[\begin{array}{cccc}X_{11}&X_{12}&\cdots&X_{1p}\\X_{21}&X_{22}&\cdots &X_{2p}\\ \vdots&\vdots& \vdots & \vdots \\ X_{n1}&X_{n2} & \cdots& X_{np}\end{array}\right]=\left[\begin{array}{c}X_{(1)}^{\top}\\X_{(2)}^{\top}\\ \vdots \\ X_{(n)}^{\top}\end{array}\right] X=X11X21Xn1X12X22Xn2X1pX2pXnp=X(1)X(2)X(n)

    多元样本的数字特征

    定义1: X ( 1 ) , ⋯   , X ( n ) X_{(1)},\cdots,X_{(n)} X(1),,X(n)为来自 p p p元总体的样本,其中 X ( a ) = ( X a 1 , ⋯   , X a p ) ⊤ , a = 1 , 2 , ⋯   , n , X_{(a)}=(X_{a1},\cdots,X_{ap})^{\top},a=1,2,\cdots,n, X(a)=(Xa1,,Xap),a=1,2,,n,
    (1)样本均值向量定义为: X ˉ = Δ 1 n ∑ a = 1 X ( a ) = ( X ˉ 1 , X ˉ 2 , ⋯   , X ˉ p ) ⊤ \bar{X}\stackrel{\Delta}{=}\frac{1}{n}\sum\limits_{a=1}X_{(a)}=(\bar{X}_1,\bar{X}_2,\cdots,\bar{X}_p)^{\top} Xˉ=Δn1a=1X(a)=(Xˉ1,Xˉ2,,Xˉp) ∵ 1 n ∑ a = 1 n X ( a ) = 1 n [ [ X 11 X 12 ⋮ X 1 p ] + [ X 21 X 22 ⋮ X 2 p ] + ⋯ + [ X n 1 X n 2 ⋮ X n p ] ] = 1 n [ X 11 + X 21 + ⋯ + X n 1 X 12 + X 22 + ⋯ + X n 2 ⋮ X 1 p + X 2 p + ⋯ + X n p ] = [ X ˉ 1 X ˉ 2 ⋮ X ˉ p ] \begin{aligned}\because \frac{1}{n}\sum\limits_{a=1}^nX_{(a)}&=\frac{1}{n}\left[\left[\begin{array}{c}X_{11}\\X_{12}\\\vdots\\X_{1p}\end{array}\right]+\left[\begin{array}{c}X_{21}\\X_{22}\\\vdots\\X_{2p}\end{array}\right]+\cdots+\left[\begin{array}{c}X_{n1}\\X_{n2}\\\vdots\\X_{np}\end{array}\right]\right]\\&=\frac{1}{n}\left[\begin{array}{c}X_{11}+X_{21}+\cdots+X_{n1}\\X_{12}+X_{22}+\cdots+X_{n2}\\\vdots\\X_{1p}+X_{2p}+\cdots+X_{np} \end{array}\right]\\&=\left[\begin{array}{c}\bar{X}_1\\\bar{X}_2\\ \vdots\\\bar{X}_p\end{array}\right]\end{aligned} n1a=1nX(a)=n1X11X12X1p+X21X22X2p++Xn1Xn2Xnp=n1X11+X21++Xn1X12+X22++Xn2X1p+X2p++Xnp=Xˉ1Xˉ2Xˉp
    (2)样本离差阵定义为: S p × p = Δ ∑ a = 1 n ( X ( a ) − X ˉ ) ( X ( a ) − X ˉ ) ⊤ = ( S i j ) p × p S_{p \times p}\stackrel{\Delta}{=}\sum\limits_{a=1}^n(X_{(a)}-\bar{X})(X_{(a)}-\bar{X})^{\top}=(S_{ij})_{p \times p} Sp×p=Δa=1n(X(a)Xˉ)(X(a)Xˉ)=(Sij)p×p ∵ ∑ a = 1 ( X ( a ) − X ˉ ) ( X ( a ) − X ˉ ) ⊤ = ∑ a = 1 n [ [ X a 1 − X ˉ 1 X a 2 − X ˉ 2 ⋮ X a p − X ˉ p ] ( X a 1 − X ˉ 1 , X a 2 − X ˉ 2 , ⋯   , X a p − X ˉ ) ] = ∑ [ ( X a 1 − X ˉ 1 ) 2 ( X a 1 − X ˉ 1 ) ( X a 2 − X ˉ 2 ) ⋯ ( X a 1 − X ˉ 1 ) ( X a p − X ˉ p ) ( X a 2 − X ˉ 2 ) ( X a 1 − X ˉ 1 ) ( X a 2 − X ˉ 2 ) 2 ⋯ ( X a 2 − X ˉ 2 ) ( X a p − X ˉ p ) ⋮ ⋮ ⋮ ( X a p − X ˉ p ) ( X a 1 − X ˉ 1 ) ( X a p − X ˉ p ) ( X a 2 − X ˉ 2 ) ⋯ ( X a p − X ˉ p ) 2 ] = [ S 11 S 12 ⋯ S 1 p S 21 S 22 ⋯ S 2 p ⋮ ⋮ ⋮ S p 1 S p 2 ⋯ S p p ] = ( S i j ) p × p \begin{aligned}\because &\sum\limits_{a=1}(X_{(a)}-\bar{X})(X_{(a)}-\bar{X})^{\top}\\&=\sum\limits_{a=1}^n\left[\left[\begin{array}{c}X_{a1}-\bar{X}_1\\X_{a2}-\bar{X}_2\\\vdots\\ X_{ap}-\bar{X}_p\end{array}\right](X_{a1}-\bar{X}_1,X_{a2}-\bar{X}_2,\cdots,X_{ap}-\bar{X})\right]\\&=\sum\left[\begin{array}{cccc}(X_{a1}-\bar{X}_1)^2 & (X_{a1}-\bar{X}_1)(X_{a2}-\bar{X}_2)& \cdots & (X_{a1}-\bar{X}_1)(X_{ap}-\bar{X}_p)\\(X_{a2}-\bar{X}_2)(X_{a1}-\bar{X}_1)&(X_{a2}-\bar{X}_2)^2 &\cdots& (X_{a2}-\bar{X}_2)(X_{ap}-\bar{X}_p) \\ \vdots&\vdots&&\vdots\\ (X_{ap}-\bar{X}_p)(X_{a1}-\bar{X}_1) &(X_{ap}-\bar{X}_p)(X_{a2}-\bar{X}_2)&\cdots &(X_{ap}-\bar{X}_p)^2 \end{array}\right]\\&=\left[\begin{array}{cccc}S_{11}&S_{12}&\cdots&S_{1p}\\S_{21}&S_{22}&\cdots & S_{2p}\\\vdots &\vdots && \vdots\\S_{p1}&S_{p2}&\cdots&S_{pp}\end{array}\right]=(S_{ij})_{p \times p}\end{aligned} a=1(X(a)Xˉ)(X(a)Xˉ)=a=1nXa1Xˉ1Xa2Xˉ2XapXˉp(Xa1Xˉ1,Xa2Xˉ2,,XapXˉ)=(Xa1Xˉ1)2(Xa2Xˉ2)(Xa1Xˉ1)(XapXˉp)(Xa1Xˉ1)(Xa1Xˉ1)(Xa2Xˉ2)(Xa2Xˉ2)2(XapXˉp)(Xa2Xˉ2)(Xa1Xˉ1)(XapXˉp)(Xa2Xˉ2)(XapXˉp)(XapXˉp)2=S11S21Sp1S12S22Sp2S1pS2pSpp=(Sij)p×p
    (3)样本协差阵定义为: V p × p = Δ 1 n S = 1 n ∑ a = 1 n ( X ( a ) − X ˉ ) ( X ( a ) − X ˉ ) ⊤ = ( v i j ) p × p V_{p \times p}\stackrel{\Delta}{=}\frac{1}{n}S=\frac{1}{n}\sum\limits_{a=1}^n(X_{(a)}-\bar{X})(X_{(a)}-\bar{X})^{\top}=(v_{ij})_{p \times p} Vp×p=Δn1S=n1a=1n(X(a)Xˉ)(X(a)Xˉ)=(vij)p×p ∵ 1 n S = 1 n ∑ a = 1 n ( X ( a ) − X ˉ ) ( X ( a ) − X ˉ ) ⊤ = [ 1 n ∑ a = 1 n ( X a i − X ˉ i ) ( X a j − X j ) ] p × p = [ v i j ] p × p \because \begin{aligned}\frac{1}{n}S&=\frac{1}{n}\sum\limits_{a=1}^{n}(X_{(a)}-\bar{X})(X_{(a)}-\bar{X})^{\top}\\&=\left[\frac{1}{n}\sum\limits_{a=1}^n(X_{ai}-\bar{X}_i)(X_{aj}-X_{j})\right]_{p \times p}\\&=[v_{ij}]_{p \times p}\end{aligned} n1S=n1a=1n(X(a)Xˉ)(X(a)Xˉ)=[n1a=1n(XaiXˉi)(XajXj)]p×p=[vij]p×p
    (4)样本相关阵定义为: R p × p = Δ ( r i j ) p × p R_{p \times p}\stackrel{\Delta}{=}(r_{ij})_{p \times p} Rp×p=Δ(rij)p×p,其中, r i j = v i j v i i v j j = s i j s i i s j j r_{ij}=\frac{v_{ij}}{\sqrt{v_{ii}}\sqrt{v_{jj}}}=\frac{s_{ij}}{\sqrt{s_{ii}}\sqrt{s_{jj}}} rij=vii vjj vij=sii sjj sij样本均值向量和离差阵也可用 X X X直接表示如下: X ˉ p × 1 = 1 n X ⊤ 1 n \bar{X}_{p \times 1}=\frac{1}{n}X^{\top}1_n Xˉp×1=n1X1n其中, 1 n = ( 1 , 1 , ⋯   , 1 ) ⊤ 1_n=(1,1,\cdots,1)^{\top} 1n=(1,1,,1) X ˉ = 1 n X ⊤ 1 n = 1 n [ X 11 X 21 ⋯ X n 1 X 12 X 22 ⋯ X n 2 ⋮ ⋮ ⋮ X 1 p X 2 p ⋯ X n p ] [ 1 1 ⋮ 1 ] = 1 n [ X 11 + X 21 + ⋯ + X n 1 X 12 + X 22 + ⋯ + X n 2 ⋮ X 1 p + X 2 p + ⋯ + X n p ] = [ X ˉ 1 X ˉ 2 ⋮ X ˉ p ] \begin{aligned}\bar{X}&=\frac{1}{n}X^{\top}1_n\\&=\frac{1}{n}\left[\begin{array}{cccc}X_{11}&X_{21}&\cdots&X_{n1}\\X_{12}&X_{22}&\cdots&X_{n2}\\\vdots&\vdots&&\vdots\\X_{1p}&X_{2p}&\cdots&X_{np}\end{array}\right]\left[\begin{array}{c}1\\1\\\vdots\\1\end{array}\right]\\&=\frac{1}{n}\left[\begin{array}{c}X_{11}+X_{21}+\cdots+X_{n1}\\X_{12}+X_{22}+\cdots+X_{n2}\\\vdots\\ X_{1p}+X_{2p}+\cdots+X_{np}\end{array}\right]=\left[\begin{array}{c}\bar{X}_1\\\bar{X}_2\\\vdots\\\bar{X}_p\end{array}\right]\end{aligned} Xˉ=n1