精华内容
下载资源
问答
  • 多维高斯分布
    千次阅读
    2019-09-24 10:07:10

    简介

      高斯分布是比较常见的概率分布,一维高斯分布如下:
    f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{2\pi\sigma}e^{-{\frac{(x-\mu)^2} {2\sigma^2}}} f(x)=2πσ1e2σ2(xμ)2
    其中, σ \sigma σ是方差, μ \mu μ是平均值。但是常见的一般是多维高斯分布,我们可以由一维的高斯分布推广到多维的高斯分布。

    推导

      多维高斯分布的表示如下:
    P ( x ∣ μ , Σ ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 e x p { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } P(x|\mu,\Sigma)=\frac{1}{{(2\pi)}^{n/2}|\Sigma|^{1/2}}exp\{{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}\} P(xμ,Σ)=(2π)n/2Σ1/21exp{21(xμ)TΣ1(xμ)}
    其中, μ = E ( x ) \mu=E(x) μ=E(x) Σ = C o v ( x ) = E { ( x − μ ) ( x − μ ) T } \Sigma=Cov(x)=E\{(x-\mu)(x-\mu)^T\} Σ=Cov(x)=E{(xμ)(xμ)T} μ \mu μ是均值向量, Σ \Sigma Σ是协方差矩阵。
      由多维高斯分布可以推导出联合高斯分布,假设有多维变量 X 1 X_1 X1 X 2 X_2 X2,它们的联合高斯分布和之前的形式一样,只不过相关参数有所变化,相关参数如下:
    μ = [ μ 1 μ 2 ] \mu=\left[\begin{matrix}\mu_1\\\mu_2 \end{matrix}\right] μ=[μ1μ2]
    Σ = [ Σ 11 Σ 12 Σ 21 Σ 22 ] \Sigma=\left[\begin{matrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{matrix}\right] Σ=[Σ11Σ21Σ12Σ22]

      条件高斯分布 P ( X 1 ∣ X 2 = x 2 ) P(X_1|X_2=x_2) P(X1X2=x2)的参数如下:
    μ 1 ∣ 2 = μ 1 + Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) \mu_{1|2}=\mu_1+\Sigma_{12}\Sigma^{-1}_{22}(x_2-\mu_2) μ12=μ1+Σ12Σ221(x2μ2)
    Σ 1 ∣ 2 = Σ 11 − Σ 22 − 1 Σ 21 \Sigma_{1|2}=\Sigma_{11}-\Sigma_{22}^{-1}\Sigma_{21} Σ12=Σ11Σ221Σ21
      多维高斯分布可以由多个变量的联合概率分布推导出来,一开始,我们考虑n个彼此无关的高斯分布变量,它们的联合概率密度为
    f ( x 1 , x 2 , . . . , x n ) = ∏ i = 0 n f ( x i ) = 1 ( 2 π ) n / 2 ∏ i = 1 n σ i exp ⁡ − ∑ i = 1 n ( x i − μ i ) 2 σ 2 f(x_1,x_2,...,x_n)=\prod_{i=0}^{n}f(x_i)=\frac{1}{(2\pi)^{n/2}\prod_{i=1}^{n}\sigma_i}\exp{-\sum_{i=1}^{n}\frac{(x_i-\mu_i)^2}{\sigma^2}} f(x1,x2,...,xn)=i=0nf(xi)=(2π)n/2i=1nσi1expi=1nσ2(xiμi)2
    其中, μ i \mu_i μi x i x_i xi的均值, σ i \sigma_i σi x i x_i xi的方差。
    这和多维高斯分布是一致的,由于各个变量不相关,所以协方差矩阵 Σ \Sigma Σ是对角阵 Σ = d i a l o g ( σ 1 2 , σ 2 2 , . . . , σ n 2 ) \Sigma=dialog(\sigma_1^2,\sigma_2^2,...,\sigma_n^2) Σ=dialog(σ12,σ22,...,σn2)
    利用多维高斯分布计算出来的结果与上式相同。

    极大似然估计

      我们可以利用极大似然估计对多维高斯分布的参数进行估计。给定数据 X = { x 1 , x 2 , . . . , x n } X=\{x_1,x_2,...,x_n\} X={x1,x2,...,xn},已知 x ∼ N ( μ , Σ ) x\sim N(\mu,\Sigma) xN(μ,Σ),估计参数 μ \mu μ Σ \Sigma Σ的值。
      概率的对数似然函数如下:
    ln ⁡ p ( X ∣ μ , Σ ) = − N 2 ln ⁡ det ⁡ ( Σ ) − 1 2 ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) + c o n s t \ln p(X|\mu,\Sigma)=-\frac{N}{2}\ln \det(\Sigma) -\frac{1}{2}\sum_{n=1}^{N}(x_n-\mu)^T\Sigma^{-1}(x_n-\mu)+const lnp(Xμ,Σ)=2Nlndet(Σ)21n=1N(xnμ)TΣ1(xnμ)+const
    将上式对 μ \mu μ求导,得 ∇ μ ln ⁡ p ( X ∣ μ , Σ ) = ∑ n = 1 N Σ − 1 ( μ − x n ) = Σ − 1 ∑ n = 1 N ( μ − x n ) = 0 \nabla_{\mu} \ln p(X|\mu,\Sigma)=\sum_{n=1}^{N}\Sigma^{-1}(\mu-x_n)=\Sigma^{-1}\sum_{n=1}^{N}(\mu-x_n)=0 μlnp(Xμ,Σ)=n=1NΣ1(μxn)=Σ1n=1N(μxn)=0
    于是, μ ^ = 1 N ∑ n = 1 N x n \hat\mu=\frac{1}{N}\sum_{n=1}^{N}x_n μ^=N1n=1Nxn.

    将上式对 Σ \Sigma Σ求导,需要先用"trace trick"对对数似然函数变形,对于矩阵的迹,有以下性质:

    • 如果c是数值,那么 t r ( c ) = c tr(c)=c tr(c)=c
    • 如果A,B是两个矩阵而且AB和BA是有定义的,那么 t r ( A B ) = t r ( B A ) tr(AB)=tr(BA) tr(AB)=tr(BA)
    • ∇ A B A = B T \nabla_{A}{BA}=B^T ABA=BT
    • ∇ A ln ⁡ ( det ⁡ ( A ) ) = ( A − 1 ) T \nabla_{A}\ln(\det(A))=(A^{-1})^T Aln(det(A))=(A1)T
    • 如果x是k1的向量,A是kk的对称矩阵,那么 ∇ x ( x T A x ) = 2 A x \nabla_{x}(x^TAx)=2Ax x(xTAx)=2Ax

    将上述对数似然函数变形,得(因为是求导,所以我们忽略常数项)
    ln ⁡ p ( X ∣ μ , Σ ) = − N 2 ln ⁡ det ⁡ ( Σ ) − 1 2 ∑ n = 1 N t r ( ( x n − μ ) T Σ − 1 ( x n − μ ) ) = − N 2 ln ⁡ det ⁡ ( Σ ) − 1 2 ∑ n = 1 N t r ( Σ − 1 ( x n − μ ) ( x n − μ ) T ) = − N 2 ln ⁡ det ⁡ ( Σ ) − 1 2 t r ( Σ − 1 ∑ n = 1 N ( x n − μ ) ( x n − μ ) T ) \begin{aligned} \ln p(X|\mu,\Sigma)=&-\frac{N}{2}\ln \det(\Sigma)-\frac{1}{2}\sum_{n=1}^{N}tr((x_n-\mu)^T\Sigma^{-1}(x_n-\mu))\\ =&-\frac{N}{2}\ln \det(\Sigma)-\frac{1}{2}\sum_{n=1}^{N}tr(\Sigma^{-1}(x_n-\mu)(x_n-\mu)^T)\\ =&-\frac{N}{2}\ln \det(\Sigma)-\frac{1}{2}tr(\Sigma^{-1}\sum_{n=1}^{N}(x_n-\mu)(x_n-\mu)^T) \end{aligned} lnp(Xμ,Σ)===2Nlndet(Σ)21n=1Ntr((xnμ)TΣ1(xnμ))2Nlndet(Σ)21n=1Ntr(Σ1(xnμ)(xnμ)T)2Nlndet(Σ)21tr(Σ1n=1N(xnμ)(xnμ)T)
    将上式对 Σ − 1 \Sigma^{-1} Σ1求导,首先,
    ∇ Σ − 1 ln ⁡ det ⁡ ( Σ ) = − ∇ Σ − 1 ln ⁡ det ⁡ ( Σ − 1 ) = − Σ T \nabla_{\Sigma^{-1}}\ln\det(\Sigma)=-\nabla_{\Sigma^{-1}}\ln\det(\Sigma^{-1})=-\Sigma^T Σ1lndet(Σ)=Σ1lndet(Σ1)=ΣT
    于是,
    ∇ Σ − 1 ln ⁡ p ( X ∣ μ , Σ ) = N 2 Σ T − 1 2 ∑ n = 1 N ( x n − μ ) ( x n − μ ) T \nabla_{\Sigma^{-1}} \ln p(X|\mu,\Sigma)=\frac{N}{2}\Sigma^T-\frac{1}{2}\sum_{n=1}^{N}(x_n-\mu)(x_n-\mu)^T Σ1lnp(Xμ,Σ)=2NΣT21n=1N(xnμ)(xnμ)T
    令上式等于0,得
    Σ = 1 N ∑ n = 1 N ( x n − μ ^ ) ( x n − μ ^ ) T \Sigma=\frac{1}{N}\sum_{n=1}^{N}(x_n-\hat\mu)(x_n-\hat\mu)^T Σ=N1n=1N(xnμ^)(xnμ^)T

    参考资料
    更多相关内容
  • 今天小编就为大家分享一篇python 多维高斯分布数据生成方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 04.02_02_多维高斯分布的KL散度.pdf
  • 多维高斯分布是一种特殊的多维随机分布,应用非常广泛 本文介绍多维高斯分布的定义、几何理解和部分基本性质

    1. 定义

    • n n n 维 r.v. X \pmb{X} XXX 的概率密度函数为
      f ( x ) = f ( x 1 , . . . , x n ) = 1 ( 2 π ) n / 2 ∣ B ∣ 1 / 2 e − 1 2 ( x − a ) ⊤ B − 1 ( x − a ) f(\pmb{x}) = f(x_1,...,x_n) = \frac{1}{(2\pi)^{n/2}|B|^{1/2}}e^{-\frac{1}{2}(\mathbf{x}-\mathbf{a})^\top \mathbf{B}^{-1}(\mathbf{x}-\mathbf{a})} f(xxx)=f(x1,...,xn)=(2π)n/2B1/21e21(xa)B1(xa) 其中 B \pmb{B} BBB n n n 阶实对称正定矩阵(所有特征值 > 0),则称随机向量 X \pmb{X} XXX 服从期望为 a \pmb{a} aaa,协方差矩阵为 B \pmb{B} BBB 的多维正态分布,记为 X ∼ N ( a , B ) \pmb{X}\sim N(\pmb{a},\pmb{B}) XXXN(aaa,BBB)
    • 注意这里 B \pmb{B} BBB 是一个协方差矩阵,展开为
      B = [ D X 1 Cov ( X 1 , X 2 ) … Cov ( X 1 , X n ) Cov ( X 2 , X 1 ) D X 2 … Cov ( X 2 , X n ) ⋮ ⋮ ⋮ Cov ( X n , X 1 ) Cov ( X n , X 2 ) … D X n ] = [ σ 1 2 ρ 12 σ 1 σ 2 … ρ 1 n σ 1 σ n ρ 21 σ 2 σ 1 σ 2 2 … ρ 2 n σ 2 σ n ⋮ ⋮ ⋮ ρ n , 1 σ n σ 1 ρ n , 2 σ n σ 2 … σ n 2 ] \begin{aligned} \pmb{B} &= \begin{bmatrix} DX_1 &\text{Cov}(X_1,X_2) &\dots &\text{Cov}(X_1,X_n) \\ \text{Cov}(X_2,X_1) &DX_2 &\dots &\text{Cov}(X_2,X_n) \\ \vdots &\vdots &&\vdots\\ \text{Cov}(X_n,X_1) &\text{Cov}(X_n,X_2) &\dots &DX_n \end{bmatrix}\\ & = \begin{bmatrix} \sigma_1^2 &\rho_{12}\sigma_1\sigma_2 &\dots &\rho_{1n}\sigma_1\sigma_n \\ \rho_{21}\sigma_2\sigma_1 &\sigma_2^2 &\dots &\rho_{2n}\sigma_2\sigma_n \\ \vdots &\vdots &&\vdots\\ \rho_{n,1}\sigma_n\sigma_1 &\rho_{n,2}\sigma_n\sigma_2 &\dots &\sigma_n^2 \end{bmatrix} \end{aligned} BBB=DX1Cov(X2,X1)Cov(Xn,X1)Cov(X1,X2)DX2Cov(Xn,X2)Cov(X1,Xn)Cov(X2,Xn)DXn=σ12ρ21σ2σ1ρn,1σnσ1ρ12σ1σ2σ22ρn,2σnσ2ρ1nσ1σnρ2nσ2σnσn2 显然它 B \pmb{B} BBB 是实对称矩阵,通常情况下(只要 X i X_i Xi 不为常数)其任意阶顺序主子式 > 0,故正定。这种实对称正定矩阵是一种正定 hermitian 矩阵,可以做乔里斯基分解 B = L L ⊤ \pmb{B} = \pmb{LL^\top} BBB=LLLLLL L \pmb{L} LLL 是某下三角矩阵),这是处理多维高斯分布问题的常用技巧之一
    • 显然 f ( x ) f(\pmb{x}) f(xxx) 在任意取值下都是非负的,下面证明 ∫ R n f ( x ) d x = 1 \int_{R^n} f(\pmb{x})d\pmb{x}=1 Rnf(xxx)dxxx=1 以说明它是一个合法的概率密度函数,这个证明中用到两个技巧
      1. 上面提到的 B = L L ⊤ \pmb{B} = \pmb{LL^\top} BBB=LLLLLL
      2. 向量对向量求导会得到一个 Jacobi 行列式,令 x = L y + a \pmb{x} = \pmb{Ly}+\pmb{a} xxx=LyLyLy+aaa,则 ∂ x ∂ y = ∣ L ∣ \frac{\partial\mathbf{x}}{\partial\mathbf{y}} = |\pmb{L}| yx=LLL
        在这里插入图片描述

    2. 理解

    2.1 几何意义

    • X ∼ N ( a , B ) \pmb{X}\sim N(\pmb{a},\pmb{B}) XXXN(aaa,BBB) 的概率密度函数 f ( x ) = 1 ( 2 π ) n / 2 ∣ B ∣ 1 / 2 e − 1 2 ( x − a ) ⊤ B − 1 ( x − a ) f(\pmb{x}) = \frac{1}{(2\pi)^{n/2}|B|^{1/2}}e^{-\frac{1}{2}(\mathbf{x}-\mathbf{a})^\top \mathbf{B}^{-1}(\mathbf{x}-\mathbf{a})} f(xxx)=(2π)n/2B1/21e21(xa)B1(xa),关注其中的指数部分,这是一个二次型,设为 △ = ( x − a ) ⊤ B − 1 ( x − a ) \triangle = (\mathbf{x}-\mathbf{a})^\top \mathbf{B}^{-1}(\mathbf{x}-\mathbf{a}) =(xa)B1(xa)
      1. 首先明确 ( x − a ) (\mathbf{x-a}) (xa) 尺寸为 n × 1 n\times 1 n×1 B \mathbf{B} B 尺寸为 n × n n\times n n×n △ \triangle 是一个数,可以看作 x \mathbf{x} x a \mathbf{a} a 间的马氏距离

      2. 注意 B \pmb{B} BBB 是实对称矩阵,一般情况下( X i X_i Xi 不为常数)认为它是正定矩阵,其具有以下性质

        1. 正定对称 ⇒ \Rightarrow 乔里斯基分解 B = L L ⊤ \pmb{B} = \pmb{LL^\top} BBB=LLLLLL,其中 L \pmb{L} LLL 是下三角矩阵
        2. 正定对称 ⇒ \Rightarrow LDL分解 B = L D L ⊤ \pmb{B} = \pmb{LDL^\top} BBB=LDLLDLLDL,其中 D \pmb{D} DDD 是一个对角阵, L \pmb{L} LLL 是主对角线全为 1 的下三角矩阵
        3. 实对称 ⇒ \Rightarrow B n × n \pmb{B}_{n\times n} BBBn×n 正交相似于其特征值组成的对角阵,即 B = U Λ U ⊤ \pmb{B = U\Lambda U^\top} B=UΛUB=UΛUB=UΛU,其中 U \pmb{U} UUU 是正交矩阵(有 U U ⊤ = U ⊤ U = E \pmb{UU^\top}=\pmb{U^\top U} = \pmb{E} UUUUUU=UUUUUU=EEE),其列向量为 B \pmb{B} BBB 的特征向量, Λ = diag { λ 1 , λ 2 , . . . , λ p } \Lambda = \text{diag} \{\lambda_1,\lambda_2,...,\lambda_p\} Λ=diag{λ1,λ2,...,λp} λ i \lambda_i λi B \pmb{B} BBB 的特征值)。这是因为 n n n 阶实对称矩阵的所有特征值都是实数,各个特征值的代数重数和几何重数相等(有 n n n 个线性无关特征向量),且所有特征向量相互正交(参考此处)。此结论也可理解为 Schur 定理在实数域上的推论
        4. 可相似对角化 ⇒ \Rightarrow B n × n \pmb{B}_{n\times n} BBBn×n 可以 谱分解 B = P Λ P − 1 \pmb{B = P\Lambda P^{-1}} B=PΛP1B=PΛP1B=PΛP1,其中 P \pmb{P} PPP 的列向量是 B \pmb{B} BBB 的(右)特征向量, P − 1 \pmb{P}^{-1} PPP1 的行向量是 B \pmb{B} BBB 的左特征向量(参考此处), Λ = diag { λ 1 , λ 2 , . . . , λ p } \Lambda = \text{diag} \{\lambda_1,\lambda_2,...,\lambda_p\} Λ=diag{λ1,λ2,...,λp} λ i \lambda_i λi B \pmb{B} BBB 的特征值)。注意性质 3 中的 U \pmb{U} UUU 是正交矩阵,有 U − 1 = U ⊤ \pmb{U^{-1}=U^\top} U1=UU1=UU1=U,因此实对称矩阵 B \pmb{B} BBB 的谱分解和 3 中的相似对角化是一样的

        利用上述性质 3/4 分析 B − 1 \pmb{B}^{-1} BBB1,可如下展开(其中 u i \pmb{u_i} uiuiui 是列向量,尺寸 n × 1 n\times 1 n×1
        B − 1 = ( U Λ U ⊤ ) − 1 = ( U ⊤ ) − 1 Λ − 1 U − 1 = U Λ − 1 U ⊤ = ∑ i = 1 n u i 1 λ i u i ⊤ \begin{aligned} \pmb{B}^{-1} &= (\pmb{U\Lambda U^\top})^{-1} \\ &= (\pmb{U^\top})^{-1} \pmb{\Lambda}^{-1}\pmb{U}^{-1} \\ &= \pmb{U}\pmb{\Lambda}^{-1}\pmb{U^\top} \\ &=\sum_{i=1}^n \pmb{u_i}\frac{1}{\lambda_i}\pmb{u_i^\top} \end{aligned} BBB1=(UΛUUΛUUΛU)1=(UUU)1ΛΛΛ1UUU1=UUUΛΛΛ1UUU=i=1nuiuiuiλi1uiuiui

    • 进一步考虑多元高斯分布指数部分的二次型
      △ = ( x − a ) ⊤ B − 1 ( x − a ) = ( x − a ) ⊤ ∑ i = 1 n u i 1 λ i u i ⊤ ( x − a ) = ∑ i = 1 n ( x − a ) ⊤ u i 1 λ i u i ⊤ ( x − a ) = 设 y i = ( x − a ) ⊤ u i ∑ i = 1 n y i 2 λ i \begin{aligned} \triangle &= (\mathbf{x}-\mathbf{a})^\top \mathbf{B}^{-1}(\mathbf{x}-\mathbf{a}) \\ &= (\mathbf{x}-\mathbf{a})^\top \sum_{i=1}^n \pmb{u_i}\frac{1}{\lambda_i}\pmb{u_i^\top} (\mathbf{x}-\mathbf{a}) \\ &= \sum_{i=1}^n (\mathbf{x}-\mathbf{a})^\top \pmb{u_i}\frac{1}{\lambda_i}\pmb{u_i^\top} (\mathbf{x}-\mathbf{a}) \\ &\xlongequal{\quad设\mathbf{y_i}= (\mathbf{x}-\mathbf{a})^\top \mathbf{u_i}\quad} \sum_{i=1}^n \frac{y_i^2}{\lambda_i} \end{aligned} =(xa)B1(xa)=(xa)i=1nuiuiuiλi1uiuiui(xa)=i=1n(xa)uiuiuiλi1uiuiui(xa)yi=(xa)ui i=1nλiyi2 可见 △ = k \triangle=k =k 时, △ = ∑ i = 1 n y i 2 λ i = k \triangle=\sum_{i=1}^n \frac{y_i^2}{\lambda_i} = k =i=1nλiyi2=k p p p 维空间中一个超椭圆。注意到 y i = ( x − a ) ⊤ u i y_i= (\pmb{x}-\pmb{a})^\top \pmb{u_i} yi=(xxxaaa)uiuiui,可以看作先把 x \pmb{x} xxx 沿 a \pmb{a} aaa 方向平移,然后向 u i \pmb{u_i} uiuiui 方向上的投影。不妨在 u i \pmb{u_i} uiuiui 方向设置坐标轴 y i \pmb{y_i} yiyiyi,二维情况( n = 2 n=2 n=2)的示意图如下
      在这里插入图片描述
      可见随着 k k k 值变化, △ \triangle 对应到空间中一系列超椭圆,若把 k k k 看做等高线高度,这一系列椭圆就形成了一个柱状体。进一步考虑整个 n 元高斯分布的概率密度函数 f ( x ) = 1 ( 2 π ) n / 2 ∣ B ∣ 1 / 2 e − 1 2 △ f(\pmb{x}) = \frac{1}{(2\pi)^{n/2}|B|^{1/2}}e^{-\frac{1}{2}\triangle} f(xxx)=(2π)n/2B1/21e21,前面分数部分是个常数, e x e^x ex 则是和 x x x 正相关,所以概率密度函数 f ( x ) f(\pmb{x}) f(xxx) 也是一个相似的柱状体
    • 可以如下绘制二维情况下 f ( x ) f(\pmb{x}) f(xxx) 图像,这里设置期望为 a = [ 0 0 ] \pmb{a} = \begin{bmatrix}0\\0 \end{bmatrix} aaa=[00],协方差矩阵为 B = [ 0.8 0.2 0.2 0.2 ] \pmb{B} = \begin{bmatrix}0.8 &0.2\\0.2 &0.2 \end{bmatrix} BBB=[0.80.20.20.2]
      %matplotlib notebook
      import numpy as np
      import scipy.stats as st
      import matplotlib.pylab as plt
      from mpl_toolkits.mplot3d import Axes3D
      
      mu = np.array([0,0])
      cov = np.array([[0.8, 0.2], 
                      [0.2, 0.2]])
      
      fig = plt.figure(figsize = (10,5))
      a0 = fig.add_subplot(1,2,1,label='a0',projection='3d') 
      a1 = fig.add_subplot(1,2,2,label='a1',projection='3d') 
      
      x, y = np.mgrid[-2.5:2.5:.1, -2.5:2.5:.1]
      pos = np.empty(x.shape + (2,))
      pos[:, :, 0] = x; pos[:, :, 1] = y
      rv = st.multivariate_normal(mu, cov)   # 生成多元正态分布
      a0.scatter(x, y, rv.pdf(pos),s=1,alpha=0.5,cmap="rainbow") 
      a1.plot_surface(x, y, rv.pdf(pos),alpha=0.5,cmap=plt.cm.cool)
      

    在这里插入图片描述
    在这里插入图片描述

    2.2 参数数量

    • 考察上述 B \pmb{B} BBB 矩阵的参数个数,由于 B \pmb{B} BBB 是对称矩阵,当尺寸为 n × n n\times n n×n 时,参数有 1 + 2 + . . . + n = n 2 + n 2 1+2+...+n = \frac{n^2+n}{2} 1+2+...+n=2n2+n 个,这时所有参数都非零,意味着 n n n 元高斯随机变量 x = [ x 1 x 2 ⋮ x n ] \pmb{x}=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n \end{bmatrix} xxx=x1x2xn 中任意两个维度 x i , x j , i ≠ j x_i,x_j,i\neq j xi,xj,i=j 相关。举例来说,期望为 a = [ 1 2 ] \pmb{a} = \begin{bmatrix}1\\2 \end{bmatrix} aaa=[12],协方差矩阵为 B = [ 0.8 0.2 0.2 0.2 ] \pmb{B} = \begin{bmatrix}0.8 &0.2\\0.2 &0.2 \end{bmatrix} BBB=[0.80.20.20.2] 时属于这种情况,此时 △ \triangle 对应的超椭圆是倾斜的,如下所示
      %matplotlib notebook
      import numpy as np
      import scipy.stats as st
      import matplotlib.pylab as plt
      from mpl_toolkits.mplot3d import Axes3D
      
      mu = np.array([1,2])
      cov = np.array([[0.8, 0.2], 
                      [0.2, 0.2]])
      
      fig = plt.figure(figsize = (10,5))
      a0 = fig.add_subplot(1,2,1,label='a0',projection='3d') 
      a1 = fig.add_subplot(1,2,2,label='a1') 
      
      x, y = np.mgrid[-1.5:3.5:.1, -0.5:4.5:.1]
      pos = np.empty(x.shape + (2,))
      pos[:, :, 0] = x; pos[:, :, 1] = y
      rv = st.multivariate_normal(mu, cov)   # 生成多元正态分布
      a0.scatter(x, y, rv.pdf(pos),s=1,alpha=0.5,cmap="rainbow") 
      a1.contourf(x, y, rv.pdf(pos))         # 等高线
      a1.grid(alpha=0.5)                     # 坐标网格
      

    在这里插入图片描述

    • 希望减少参数数量,可以假设 n n n 元高斯随机变量 x = [ x 1 x 2 ⋮ x n ] \pmb{x}=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n \end{bmatrix} xxx=x1x2xn 中任意两个维度 x i , x j , i ≠ j x_i,x_j,i\neq j xi,xj,i=j 相互独立,这时 B \pmb{B} BBB 除了主对角元素外其他元素都是 0 0 0,参数减少到 n n n 个。举例来说,期望为 a = [ 1 2 ] \pmb{a} = \begin{bmatrix}1\\2 \end{bmatrix} aaa=[12],协方差矩阵为 B = [ 0.8 0 0 0.2 ] \pmb{B} = \begin{bmatrix}0.8 &0\\0 &0.2 \end{bmatrix} BBB=[0.8000.2] 时属于这种情况,此时 △ \triangle 对应的超椭圆是正的,如下所示

    在这里插入图片描述

    • 进一步减少参数数量,可以假设 n n n 元高斯随机变量 x = [ x 1 x 2 ⋮ x n ] \pmb{x}=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n \end{bmatrix} xxx=x1x2xn 中任意两个维度 x i , x j , i ≠ j x_i,x_j,i\neq j xi,xj,i=j 相互独立各向同性,这时 B \pmb{B} BBB 除了主对角元素外其他元素都是 0 0 0,且主对角线元素都为相等正数,参数减少到 1 1 1 个。举例来说,期望为 a = [ 1 2 ] \pmb{a} = \begin{bmatrix}1\\2 \end{bmatrix} aaa=[12],协方差矩阵为 B = [ 1 0 0 1 ] \pmb{B} = \begin{bmatrix}1 &0\\0 &1 \end{bmatrix} BBB=[1001] 时属于这种情况,此时 △ \triangle 对应的超椭圆变为正圆,如下所示

    在这里插入图片描述

    3. 特征函数

    • 注意到 n n n 元正态分布函数的概率密度函数很复杂,要计算 B \pmb{B} BBB 的逆和行列式,所以我们一般通过特征函数来研究其性质
    • 普通一元正态分布 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) XN(μ,σ2) 的特征函数为(证明见 4.2 节分量独立性证明)
      φ X ( t ) = e i t μ − 1 2 t 2 σ 2 \varphi_X(t) = e^{it\mu-\frac{1}{2}t^2\sigma^2} φX(t)=eitμ21t2σ2
    • n n n 元正态分布 X ∼ N ( a , B ) \pmb{X}\sim N(\pmb{a},\pmb{B}) XXXN(aaa,BBB) 的特征函数为
      φ x ( t ) = e i t ⊤ a − 1 2 t ⊤ B t \varphi_{\mathbf{x}}(\mathbf{t}) = e^{i\mathbf{t^\top a}-\frac{1}{2}\mathbf{t^\top Bt}} φx(t)=eita21tBt 详细证明过程如下
      在这里插入图片描述

    4. 性质

    4.1 边缘分布

    1. “多元正态随机向量” 的每个元素是 “一个正态随机变量” X j ∼ N ( a j , b j j ) X_j \sim N(a_j,b_{jj}) XjN(aj,bjj)
    2. “多元正态随机向量” 的部分向量仍为 “多元正态随机向量”:若 X ∼ N ( a , B ) \pmb{X} \sim N(\pmb{a,B}) XXXN(a,Ba,Ba,B),则其第 k 1 , . . . , k m k_1,...,k_m k1,...,km 分量组成的随机向量满足
      X ∗ = [ X k 1 X k 2 ⋮ X k m ] ∼ N ( a ∗ , B ∗ ) \pmb{X}^* = \begin{bmatrix}X_{k1}\\X_{k2}\\\vdots \\X_{km} \end{bmatrix} \sim N(\pmb{a}^*,\pmb{B}^*) XXX=Xk1Xk2XkmN(aaa,BBB) 其中 B ∗ = [ I m 0 ] B [ I m 0 ] \pmb{B}^* = \begin{bmatrix}\pmb{I}_m &\pmb{0}\end{bmatrix}\pmb{B}\begin{bmatrix}\pmb{I}_m \\\pmb{0}\end{bmatrix} BBB=[IIIm000]BBB[IIIm000] 是保留 B \pmb{B} BBB 的第 k 1 , . . . , k m k_1,...,k_m k1,...,km 行列所得的 m × m m\times m m×m 矩阵, a ∗ = [ a k 1 a k 2 ⋮ a k m ] \pmb{a}^* = \begin{bmatrix}a_{k_1}\\a_{k_2}\\\vdots \\a_{k_m} \end{bmatrix} aaa=ak1ak2akm a \pmb{a} aaa 的第 k 1 , . . . , k m k_1,...,k_m k1,...,km 分量拼成的向量。从特征函数角度证明如下
      在这里插入图片描述

    4.2 分量独立性

    • 独立性:若 X = [ X 1 , X 2 , … , X n ] ⊤ ∼ N ( a , B ) \pmb{X} = [X_1,X_2,\dots,X_n]^\top \sim N(\pmb{a,B}) XXX=[X1,X2,,Xn]N(a,Ba,Ba,B),以下陈述等价(注: 随机变量 互不相关 指没有线性关系,即协方差为0;独立 指没有一切关系)

      1. X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,,Xn 相互独立
      2. X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,,Xn 两两独立
      3. X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,,Xn 两两互不相关
      4. B \pmb{B} BBB对角阵(即不同的两个元协方差为0)
    • 证明: 1 ⇒ 2 1\Rightarrow 2 12 显然; 2 ⇒ 3 2\Rightarrow 3 23 是随机变量性质; 3 ⇒ 4 3\Rightarrow 4 34 是互不相关定义;只需证明 4 ⇒ 1 4 \Rightarrow 1 41 即得四者等价
      在这里插入图片描述

    4.3 线性变换

    • 一组正态分布随机变量的线性组合(多元正态随机向量的线性变换)仍然服从正态分布
      1. 设有 n n n 元随机向量 X ∼ N ( a , B ) \pmb{X}\sim N(\pmb{a,B}) XXXN(a,Ba,Ba,B),则对 ∀ l ≠ 0 ∈ R n \forall \pmb{l}\neq \pmb{0} \in\mathbb{R}^n lll=000Rn
        l ⊤ X ∼ N ( l ⊤ a , l ⊤ B l ) \pmb{l^\top X}\sim N(\pmb{l^\top a},\pmb{l^\top B l}) lXlXlXN(lalala,lBllBllBl) 这里 l ⊤ X = ∑ i = 1 n l i X i \pmb{l^\top X} = \sum_{i=1}^n l_iX_i lXlXlX=i=1nliXi 其实就是对 X \pmb{X} XXX 中所有正态随机变量 X i X_i Xi 线性组合得到的一元正态随机变量。上式从特征函数角度可证明如下
        在这里插入图片描述
        注意,这里 φ x ( t l ) \varphi_{\mathbf{x}}(t\pmb{l}) φx(tlll) 是 n 元正态分布的特征函数; φ l ⊤ x ( t ) \varphi_{\mathbf{l^\top x}}(t) φlx(t) 是一元正态分布的特征函数,最后要落到这个上

      2. 设有 n n n 元随机向量 X ∼ N ( a , B ) \pmb{X}\sim N(\pmb{a,B}) XXXN(a,Ba,Ba,B) C \pmb{C} CCC m × n m\times n m×n 矩阵,且行向量线性无关,则
        C X ∼ N ( C a , C B C ⊤ ) \mathbf{CX} \sim N(\mathbf{Ca},\mathbf{CBC^\top}) CXN(Ca,CBC) 其实这里 C \pmb{C} CCC 中的每一行都对应了一个 1 中的线性组合。上式可以用特征函数证明如下
        在这里插入图片描述
        注意, φ x ( C ⊤ t ) \varphi_{\mathbf{x}}(\pmb{C^\top t}) φx(CtCtCt) 表示的是 n n n 元正态分布的特征函数; φ C x ( t ) \varphi_{\mathbf{Cx}}(\pmb{t}) φCx(ttt) 表示的是 m m m 元正态分布的特征函数( C m × n \pmb{C}_{m\times n} CCCm×n n n n 元的 x \pmb{x} xxx 变换为 m m m 维),最后要落到这个上

    5. 综合例题

    在这里插入图片描述

    在这里插入图片描述在这里插入图片描述

    展开全文
  • 多维高斯分布---【2】

    2019-12-12 16:23:08
    多维高斯分布1.一维高斯分布2.二维高斯分布3.多维高斯分布4.心声 1.一维高斯分布 \qquad在介绍二维高斯分布之前我们先介绍一下一维高斯分布的函数图像,如下所示: f(x)=12π⋅δ⋅e−(x−μ)22δ2 f(x)= \frac{1}{\...

    1.一维高斯分布

    \qquad 在介绍二维高斯分布之前我们先介绍一下一维高斯分布的函数图像,如下所示:
    f ( x ) = 1 2 π ⋅ δ ⋅ e − ( x − μ ) 2 2 δ 2 f(x)= \frac{1}{\sqrt{2 \pi}\cdot \delta}\cdot e^{-\frac{{(x-\mu)}^2}{2\delta^2}} f(x)=2π δ1e2δ2(xμ)2
    其中 μ \mu μ代表均值, δ \delta δ代表标准差,其图案如下所示:
    在这里插入图片描述

    2.二维高斯分布

    \qquad 上边我们介绍了一维的高斯分布,接下来我们介绍一下二维高斯分布,首先贴出其函数表达式,为了简单起见,以下的推导我假设所有变量都是相对独立的,且都服从高斯分布,也就是对于概率分布函数 f ( x 0 , x 1 , ⋅ ⋅ ⋅ ⋅ , x n ) f(x_0,x_1,\cdot\cdot\cdot\cdot,x_n) f(x0x1,,xn)而言,存在以下等式:
    f ( x 0 , x 1 , ⋅ ⋅ ⋅ ⋅ , x n ) = f ( x 0 ) ⋅ f ( x 1 ) ⋅ ⋅ ⋅ ⋅ f ( x n ) f(x_0,x_1,\cdot\cdot\cdot\cdot,x_n)=f(x_0)\cdot f(x_1)\cdot\cdot\cdot\cdot f(x_n) f(x0x1,,xn)=f(x0)f(x1)f(xn)
    式中的 f ( x i ) f(x_i) f(xi)服从一维的高斯分布
    f ( x i ) = 1 2 π ⋅ δ i ⋅ e − ( x − μ i ) 2 2 δ i 2 f(x_i)= \frac{1}{\sqrt{2 \pi}\cdot \delta_i}\cdot e^{-\frac{{(x-\mu_i)}^2}{2\delta_i^2}} f(xi)=2π δi1e2δi2(xμi)2
    \qquad 其中 δ i \delta_i δi μ i \mu_i μi是第i个变量的标准差和均值。那当我们来描述二维的高斯分布的话,此处我们的 n n n取值为2。因为 x 1 x_1 x1 x 2 x_2 x2是相互独立的,所以二维的高斯分布函数可以表示为:
    f ( x 1 , x 2 ) = f ( x 1 ) ⋅ f ( x 2 ) = 1 2 π ⋅ δ 1 ⋅ e − ( x − μ 1 ) 2 2 δ 1 2 ⋅ 1 2 π ⋅ δ 2 ⋅ e − ( x − μ 2 ) 2 2 δ 2 2 = 1 2 π ⋅ δ 1 δ 2 ⋅ e − [ δ 2 2 ( x 1 − μ 1 ) 2 + δ 1 2 ( x 2 − μ 2 ) 2 ] 2 δ 1 2 δ 2 2 f(x_1,x_2)=f(x_1)\cdot f(x_2)\\ \qquad\qquad\qquad\quad\quad\qquad\qquad\qquad=\frac{1}{\sqrt{2 \pi}\cdot \delta_1}\cdot e^{-\frac{{(x-\mu_1)}^2}{2\delta_1^2}}\cdot \frac{1}{\sqrt{2 \pi}\cdot \delta_2}\cdot e^{-\frac{{(x-\mu_2)}^2}{2\delta_2^2}}\\ \quad\\\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad=\frac{1}{{2 \pi}\cdot \delta_1 \delta_2}\cdot e^{-\frac{[\delta_2^2{(x_1-\mu_1)}^2+\delta_1^2{(x_2-\mu_2)}^2]}{2\delta_1^2\delta_2^2}} f(x1,x2)=f(x1)f(x2)=2π δ11e2δ12(xμ1)22π δ21e2δ22(xμ2)2=2πδ1δ21e2δ12δ22[δ22(x1μ1)2+δ12(x2μ2)2]
    \qquad 其二维的高斯分布的图像如下所示:
    在这里插入图片描述

    3.多维高斯分布

    \qquad 前边我们介绍了一维的和二维的高斯分布,并且画出了其图像,想必大家也在其它的资料中看到过,通过一维和二维扩展出来的多维的高斯分布的表达公式,就像这样:
    N ( X ⃗ ∣ μ ⃗ , Σ ) = 1 ( 2 π ) D 2 ⋅ ∣ Σ ∣ 1 2 ⋅ e − ( X ⃗ − μ ⃗ ) T ⋅ Σ − 1 ⋅ ( X ⃗ − μ ⃗ ) 2 N(\vec{X}\mid\vec{\mu},{\Sigma})=\frac{1}{{(2\pi)}^{\frac{D}{2}}\cdot {\mid \Sigma\mid}^{\frac{1}{2}}}\cdot e^{-\frac{({\vec{X}-\vec{\mu})}^T\cdot{\Sigma^{-1}}\cdot{({\vec{X}-\vec{\mu})}}}{2}} N(X μ ,Σ)=(2π)2DΣ211e2(X μ )TΣ1(X μ )
    \qquad 式中各个参数代表的意思如下:

    1. X ⃗ \vec{X} X 表示维度为D的向量,
    2. μ ⃗ \vec{\mu} μ 是由多个变量 x 1 , x 2 , x 3 ⋅ ⋅ ⋅ x n x_1,x_2,x_3\cdot\cdot\cdot x_n x1,x2,x3xn各自的均值 u i u_i ui组成的向量,
    3. Σ \Sigma Σ代表所有向量的协方差矩阵,是一个n维n列的矩阵,
    4. Σ − 1 \Sigma^{-1} Σ1代表协方差矩阵的逆,也是一个n维n列的矩阵。

    \qquad 讲到这里感觉对于这个多维的公式中的理解还是不是特别透彻,那么我们可以这么想,既然超过二维的原理上来讲已经算是多维的高斯分布了,那么我们能不能通过第三节的公式推导出第二节的二维高斯分布的函数呢?答案当然是可以:
    \qquad 因为要证明的是二维的情况,所以我们根据上边列出的各个向量分别得到:
    X ⃗ = [ x 1 x 2 ]    μ ⃗ = [ μ 1 μ 2 ] \vec{X}=\left[ \begin{matrix} x_1 \\ x_2 \end{matrix} \right]\ \ \qquad\vec{\mu}=\left[ \begin{matrix} \mu_1 \\ \mu_2 \end{matrix} \right] X =[x1x2]  μ =[μ1μ2]
    \qquad 式中 x 1 x_1 x1 x 2 x_2 x2均是长度为n的序列,因为是二维的情况下,所以我们不妨先去求一下协方差矩阵 ∑ \sum ,根据已学知识,我们知道其表达式如下:
    Σ = [ δ 11 δ 12 δ 21 δ 22 ] = [ D X 1 C o v ( X 1 , X 2 ) C o v ( X 2 , X 1 ) D X 2 ] = [ δ 1 2 δ 12 δ 21 δ 2 2 ] \Sigma=\left[ \begin{matrix} \delta_{11} & \delta_{12}\\ \delta_{21} & \delta_{22} \end{matrix} \right] =\left[ \begin{matrix} DX_1 & Cov(X_1,X_2)\\ Cov(X_2,X_1)& DX_2 \end{matrix} \right] =\left[ \begin{matrix} \delta_{1} ^2& \delta_{12}\\ \delta_{21} & \delta_{2}^2 \end{matrix} \right] Σ=[δ11δ21δ12δ22]=[DX1Cov(X2,X1)Cov(X1,X2)DX2]=[δ12δ21δ12δ22]
    \qquad 又因为我们假设 x 1 x_1 x1 x 2 x_2 x2是相互独立的,也就是有 δ 12 = δ 21 = 0 \delta_{12}=\delta_{21}=0 δ12=δ21=0,于是协方差矩阵即可简化为;
    Σ = [ δ 1 2 0 0 δ 2 2 ] \Sigma=\left[ \begin{matrix} \delta_{1} ^2& 0\\ 0& \delta_{2}^2 \end{matrix} \right] Σ=[δ1200δ22]
    \qquad 据此我们即可算得协方差的行列式 ∣ Σ ∣ = δ 1 2 δ 2 2 \mid \Sigma\mid={\delta_1}^2{\delta_2}^2 Σ=δ12δ22,又因为我们选取得是二维高斯分布,所以D取值为2,于是我们将其带入多维高斯分布得左半部分可得;
    1 ( 2 π ) D 2 ⋅ ∣ Σ ∣ 1 2 = 1 ( 2 π ) ⋅ ∣ δ 1 2 δ 2 2 ∣ 1 2 = 1 2 π ⋅ δ 1 δ 2 \frac{1}{{(2\pi)}^{\frac{D}{2}}\cdot {\mid \Sigma\mid}^{\frac{1}{2}}}=\frac{1}{{(2\pi)}\cdot {\mid{\delta_1}^2{\delta_2}^2\mid}^{\frac{1}{2}}}=\frac{1}{{2 \pi}\cdot \delta_1 \delta_2} (2π)2DΣ211=(2π)δ12δ22211=2πδ1δ21
    \qquad 可见左半部分是和二维分布得函数吻合得的,接下来就进行验证多维分布的右半部分是否与二维的分布相同。
    \qquad 通过上边的部分,我们很轻易即可得到协方差矩阵的逆( Σ − 1 \Sigma^{-1} Σ1),其值如下:
    Σ − 1 = 1 δ 1 2 δ 2 2 ⋅ [ δ 2 2 0 0 δ 1 2 ] {\Sigma}^{-1}=\frac{1}{\delta_1^2\delta_2^2}\cdot\left[ \begin{matrix} \delta_{2} ^2& 0\\ 0& \delta_{1}^2 \end{matrix} \right] Σ1=δ12δ221[δ2200δ12]
    \qquad 于是我们将我们已知的变量带入即可得到:
    e − ( X ⃗ − μ ⃗ ) T ⋅ Σ − 1 ⋅ ( X ⃗ − μ ⃗ ) 2 = e − 1 2 ⋅ [ x 1 − μ 1 x 2 − μ 2 ] ⋅ 1 δ 1 2 δ 2 2 ⋅ [ δ 2 2 0 0 δ 1 2 ] ⋅ [ x 1 − μ 1 x 2 − μ 2 ] = e − 1 2 δ 1 2 δ 2 2 ⋅ [ x 1 − μ 1 x 2 − μ 2 ] ⋅ [ δ 2 2 0 0 δ 1 2 ] ⋅ [ x 1 − μ 1 x 2 − μ 2 ] = e − 1 2 δ 1 2 δ 2 2 ⋅ [ δ 2 2 ⋅ ( x 1 − μ 1 ) δ 1 2 ⋅ ( x 2 − μ 2 ) ] ⋅ [ x 1 − μ 1 x 2 − μ 2 ] = e − 1 2 δ 1 2 δ 2 2 ⋅ [ δ 2 2 ⋅ ( x 1 − μ 1 ) 2 + δ 1 2 ⋅ ( x 2 − μ 2 ) 2 ] e^{-\frac{({\vec{X}-\vec{\mu})}^T\cdot{\Sigma^{-1}}\cdot{({\vec{X}-\vec{\mu})}}}{2}}=e^{-\frac{1}{2}\cdot \left[ \begin{matrix} x_1-\mu_1& x_2-\mu_2\end{matrix} \right]\cdot\frac{1}{\delta_1^2\delta_2^2}\cdot\left[ \begin{matrix} \delta_{2} ^2& 0\\ 0& \delta_{1}^2 \end{matrix} \right]\cdot\left[ \begin{matrix} x_1-\mu_1\\ x_2-\mu_2\end{matrix} \right]}\\ \qquad \qquad\\\qquad\qquad\qquad\quad=e^{-\frac{1}{2\delta_1^2\delta_2^2}\cdot \left[ \begin{matrix} x_1-\mu_1& x_2-\mu_2\end{matrix} \right]\cdot\left[ \begin{matrix} \delta_{2} ^2& 0\\ 0& \delta_{1}^2 \end{matrix} \right]\cdot\left[ \begin{matrix} x_1-\mu_1\\ x_2-\mu_2\end{matrix} \right]}\\ \qquad \qquad\\\qquad\qquad\qquad\quad=e^{-\frac{1}{2\delta_1^2\delta_2^2}\cdot \left[ \begin{matrix} \delta_2^2\cdot(x_1-\mu_1)& \delta_1^2\cdot(x_2-\mu_2)\end{matrix} \right]\cdot\left[ \begin{matrix} x_1-\mu_1\\ x_2-\mu_2\end{matrix} \right]}\\ \quad \\= e^{-\frac{1}{2\delta_1^2\delta_2^2}\cdot[ \delta_2^2\cdot(x_1-\mu_1)^2+\delta_1^2\cdot(x_2-\mu_2)^2]} e2(X μ )TΣ1(X μ )=e21[x1μ1x2μ2]δ12δ221[δ2200δ12][x1μ1x2μ2]=e2δ12δ221[x1μ1x2μ2][δ2200δ12][x1μ1x2μ2]=e2δ12δ221[δ22(x1μ1)δ12(x2μ2)][x1μ1x2μ2]=e2δ12δ221[δ22(x1μ1)2+δ12(x2μ2)2]
    \qquad 好了通过上边公式的推导,我们可以看到通过多维情况下我们可以完整的得出二维情况下的高斯分布表达式。

    4.心声

    \qquad 原理虽简单,但还是在纸上详细推导一遍比较好,不要眼高手低~~
    加油呀,各位~。

    展开全文
  • 多维高斯分布模型

    2020-10-20 17:11:39
    多维高斯模型在机器学习中应用广泛,在学到 Generative Learning Algorithm的时候,碰到了高斯模型,才意识到一定要恶补一下这部分知识,之前上自然语言课的时候,就因为多维高斯模型不懂,全程懵逼。本来想把这部分...

    多维高斯模型在机器学习中应用广泛,在学到 Generative Learning Algorithm的时候,碰到了高斯模型,才意识到一定要恶补一下这部分知识,之前上自然语言课的时候,就因为多维高斯模型不懂,全程懵逼。本来想把这部分内容同生成学习法放在一起,但是想到这玩意把我虐那么痛苦,就单独一篇博客来写。

    首先学习高斯模型之前,我们一定会 随机向量函数分布 的该概念

    随机向量函数分布
    这里写图片描述
    这里写图片描述

    这种概率密度转换方式 在本科教材是没有见过的,所以我们来推到一下,这是什么玩意?!!!

    首先解释一下什么叫一一变换,所谓一一变换就是
    这里写图片描述
    这是线性变换的解释,但是基本就是这个意思,就是x与y是一一对应的。
    感觉还是有必要,把高数课本掏出来
    这里写图片描述

    接下来,我们来解释一下是怎么推导出带雅可比的概率密度表达

    首先我们要明白一个概率学上的概念,就是多元函数概率密度是怎么来的? 废话不多说,把本科概率密度教材再陶出来!
    这里写图片描述
    也就是说,我们的概率密度 实质是从分布函数二阶偏导求得的

    有了以上理论基础,咱们就开始推导

    首先我们定义: