为您推荐:
精华内容
最热下载
问答
  • 5星
    43KB qq_34093397 2021-01-04 10:45:38
  • 5星
    600KB m0_52957036 2020-10-27 12:49:05
  • 5星
    389KB qq_44625365 2021-08-23 17:20:14
  • 5星
    483KB qq_43045275 2021-05-08 15:32:57
  • u013898698 2021-04-03 08:58:10
  • 多元高斯分布 1.协方差矩阵 协方差衡量的是变量X与Y之间是否存在线性关系,cov(X,Y)>0说明X与Y的变化趋势是一致的,X增长的时候Y也随着增长。如果X,Y互相独立的话,cov(X,Y)=0. cov(X,X)=D(X),变量X与...

    多元高斯分布

    1.协方差矩阵

    协方差衡量的是变量X与Y之间是否存在线性关系,cov(X,Y)>0说明X与Y的变化趋势是一致的,X增长的时候Y也随着增长。如果X,Y互相独立的话,cov(X,Y)=0.

    cov(X,X)=D(X),变量X与自身的协方差就是方差,cov(X,Y)=cov(Y,X),cov(X,Y)=E[(X-E(X))(Y-E(Y))].

    注意,上述变量X,Y都是一维变量,因此他们的协方差是一个数,如果X∈R^{n},Y∈R^{n},那么X,Y的协方差矩阵就是一个n*n的矩阵,也就是协方差矩阵,关于协方差矩阵的介绍可以查看协方差矩阵.

    一定要记住,期望,方差,协方差这些统计量都是针对的一维随机变量来说的,传统的高斯分布也是针对一维随机变量,通过平均数u和方差σ^{2}σ^{2}σ^2来定义,当扩展到多维数据的时候就要使用多元高斯分布来进行刻画,此时参数就变为了u和Σ(协方差矩阵),u是一个n维向量,Σ是n*n的矩阵。

    协方差矩阵的定义上面已经说了,http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/介绍了一下Σ的意义,Σ实际上是一个线性变换函数,可以使用Σ来对原始数据D进行相应的变换,其中一些比较有用的话如下,具体请查看博客:

    1.the largest eigenvector of the covariance matrix always points into the direction of the largest variance of the data, and the magnitude of this vector equals the corresponding eigenvalue. The second largest eigenvector is always orthogonal to the largest eigenvector, and points into the direction of the second largest spread of the data.

    通过PCA我们知道,最大特征值对应的特征向量具有最大的方差,我感觉这里说的比较好的一点就是方差越大数据的spread就越大,这一点可以通过下图来看出:

    上图截取自andrew ng在coursera上的机器学习课程的multivariate gaussian distribution一节中,由于Σ对角线上的元素的值就是变量的方差,可以看出,当x2的方差等于1的时候大于0.6的时候。

    2.we showed that the covariance matrix of observed data is directly related to a linear transformation of white, uncorrelated data. This linear transformation is completely defined by the eigenvectors and eigenvalues of the data. While the eigenvectors represent the rotation matrix, the eigenvalues correspond to the square of the scaling factor in each dimension.

    2.多元高斯分布

    多元高斯分布的详细介绍请查看博客https://www.cnblogs.com/jermmyhsu/p/8251013.html,这里我想说的主要是下面一点。如果我们需要估计一些数据分布接近于高斯分布的变量时,存在两种解法。一种就是把特征的第一维当做一个一维的变量,然后使用u1以及σ1来衡量他的分布,同样,对于第二维使用u2以及σ2来衡量,然后将得到的obj=p(x1; u1, σ1)*p(x2; u2, σ2)*...*p(xn; un, σn)来当做最终的目标函数进行优化,使用最大似然估计来得到较好的分布估计。但是我们也可以使用多元高斯分布来代替,此时p(x)=p(x;u,Σ).

    通过求偏导我们可以得到u,Σ的最优解。

    多元高斯分布和上面所说的将第一维当做一个一维的变量,然后使用u1以及σ1来衡量他的分布,同样,对于第二维使用u2以及σ2来衡量,然后将得到的obj=p(x1; u1, σ1)*p(x2; u2, σ2)*...*p(xn; un, σn)的模型有着联系,后者是多元高斯分布的一种特例,当n维变量X的每一维都相互独立,也就是说多元高斯分布对应的Σ是一个对角矩阵,除了主对角线上的数外,其余数都为0,此时多元高斯分布可以写成上述形式,注意,模型obj没有要求每一维是相互独立的。

    原始的模型计算复杂度比较小,多元高斯模型计算复杂度较大,但是效果更好。通过人为构造一些捕捉不同维度之间关系的维度能够得到更好的效果,而当训练样本数远大于数据维度的时候使用多元高斯分布能够取得很好的效果。

    3:马氏距离(Mahalanobis distance)

    下面是马氏距离的一些基本概念,可以看到,马氏距离的表达式和多元高斯分布exp()里面的表达式一致,至于原因是为什么我不太清楚,这一点需要再查一下,如果有知道的请评论一下,谢谢。

    对于欧式举例来说,下面的红蓝两个点和中心点(叉)有相同的距离,但是由于变量x1,x2是具有相关性的,因此可以看出数据分布实际上是条形的,因此这个时候红色的点接近于边缘,甚至可以视为离群点(outlier),因此在这种情况下,欧式距离是不适用的。 通过一些变化将原始的数据分布进行坐标变换如PCA,变化之后的数据就可以使用欧氏距离进行距离度量。

    除此之外,对于一些具有不同尺度的数据,直接使用欧式距离计算是不合适的,如下面的A,B,C三组数据:

    如果特征x和y具有不同的尺度,那么直接计算欧几里得距离的话,可以很直观的看出,距离主要取决于数据量较大的一组,因此结果是不准确的,所以很多数据都会做预处理,比如说z-score,min-max之类的变换尺度的方法。

    马氏距离也可以看成先将数据进行尺度变换,类似于(x-u)/σ,然后在进行距离计算。

    下面这篇论文从公式介绍了该过程:

    https://www.cnblogs.com/DPL-Doreen/p/8183909.html 

    可以看出,马氏距离实际上就是将原始分布做PCA之后再次进行欧氏距离度量的方法。

    参考文献:

    http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/

    https://www.youtube.com/watch?v=spNpfmWZBmg

    https://www.youtube.com/watch?v=3IdvoI8O9hU

    https://www.cnblogs.com/DPL-Doreen/p/8183909.html

    展开全文
    Flyingzhan 2018-09-07 22:11:48
  • 多元高斯分布(多元正态分布)简介标签:#正态分布##统计基础##高斯分布#时间:2017-01-28 23:02:43作者:小木高斯分布(Gaussian Distribution),也称作是正态分布(Normal Distribution),是一种非常常见的分布,对于...

    多元高斯分布(多元正态分布)简介

    标签:#正态分布##统计基础##高斯分布#

    时间:2017-01-28 23:02:43

    作者:小木

    高斯分布(Gaussian Distribution),也称作是正态分布(Normal Distribution),是一种非常常见的分布,对于一元高斯分布(Univariate Gaussian Distribution)我们比较熟悉,对于高斯分布的多元形式有很多人不太理解。我们将简单介绍一下多元高斯分布的相关性质。这篇博客的材料主要来源Andrew Ng在斯坦福机器学习课的材料。[[1]][1]

    [1]: http://cs229.stanford.edu/materials.html "斯坦福机器学习课程材料"

    多元高斯分布(Multivariate Gaussian Distribution)的形式很简单,就是一元高斯分布的在向量形式的推广。我们把向量$X=[X_1,X_2,...,X_n]^T$称作是均值为$\mu \in \bold{R}^n$,协方差矩阵为$\Sigma \in S^n$的多元高斯分布,如果它具有如下概率密度函数的形式:

    ```math

    p(x;\mu , \Sigma)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

    ```

    [TOC]

    #### 一、多元高斯分布与一元高斯分布的关系

    首先,我们回顾一下一元正态分布的形式,其概率密度函数如下:

    ```math

    p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2\sigma^2}(x-\mu)^2)

    ```

    这里指数函数的参数$(-\frac{1}{2\sigma^2}(x-\mu)^2)$是一个关于x的二次项式函数。由于二次项的系数为负,因此它是抛物线开口向下的函数。此外,最前面的系数是$\frac{1}{\sqrt{2\pi}\sigma}$是与x无关的形式,因此我们可以把它当做是一个“正规化因子”(normalization factor),以保证:

    ```math

    \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}\exp(-\frac{1}{2\sigma^2}(x-\mu)^2)=1

    ```

    在多元高斯密度中,指数函数的参数是$-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)$,其中x是向量。由于$\Sigma$是正定的(positive definite),而任意正定矩阵的逆矩阵也是正定的。那么对于任意一个非零向量z,有$z^T \Sigma z>0$,也就是说对于任意的$x \neq \mu$,有:

    ```math

    (x-\mu)^T\Sigma^{-1}(x-\mu) > 0

    ```

    ```math

    -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) < 0

    ```

    与一元高斯分布类似,我们可以把该指数函数的参数当做一个开口向下的二次曲面(downward opening quadratic bowl)。在多元高斯密度函数中,前面的系数的形式比一元高斯分布要复杂很多,但它也同样的不依赖于x。因此,它也是一个正规化系数:

    ```math

    -\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\ldots\int_{-\infty}^{\infty}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) dx_1 dx_2 \ldots dx_n = 1

    ```

    ![](http://www.datalearner.com/resources/blog_images/71c27621-28e9-4c35-b635-4e0965e9b498.png)

    #### 二、协方差矩阵(The covariance matrix)

    协方差矩阵的概念对理解多元高斯分布来说非常重要。回忆一下,对于一对随机变量X和Y,它们的协方差矩阵定义如下:

    ```math

    Cov[X,Y]=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]

    ```

    对于多个变量来说,协方差矩阵是一个非常简洁的表达变量关系的方式。通常,我们用$\Sigma$表示协方差矩阵,它是一个$n \times n$的矩阵,其中第$(i,j)$的位置表示$Cov[X_i,X_j]$。下面还有一些命题,可以帮助我们理解一个随机向量X的协方差矩阵。

    **命题1:**对于任意一个随机向量X,其均值为$\mu$,协方差为$\Sigma$,我们有:

    ```math

    \Sigma = E[(X-\mu)(X-\mu)^T]=E[XX^T]-\mu\mu^T

    ```

    在多元高斯分布的定义中,我们要求协方差矩阵是一个对称的正定矩阵。为什么有这个限制存在呢?实际上,对于任意的一个随机向量的协方差矩阵,它都是对称的半正定矩阵。

    **命题2:**假设$\Sigma$是一个随机向量X的协方差矩阵,那么,$\Sigma$一定是一个对称的半正定矩阵。证明如下:

    ![](http://www.datalearner.com/resources/blog_images/d3392859-f3a8-4a62-b9e0-5e2aca127ad6.png)

    #### 三、对角协方差矩阵的例子

    为了直观地理解一个多元高斯分布是什么样的,我们以最简单的n=2为例说明,并且我们假设其协方差矩阵是对角阵:

    ![](http://www.datalearner.com/resources/blog_images/203dcb4c-e356-45f2-a7be-e60c0799d73c.png)

    那么,其多元高斯密度函数的形式如下:

    ![](http://www.datalearner.com/resources/blog_images/c006b166-cf36-4c25-8bb3-ad1c38476f88.png)

    继续:

    ![](http://www.datalearner.com/resources/blog_images/7e8b9dc9-fe0b-4c42-801d-e0c9b46f596e.png)

    最后一行我们可以看出,这个二元高斯分布的密度函数就是两个独立的高斯密度乘积形式。也就是说,更一般的情况,当协方差矩阵是对角阵的时候,多元高斯分布就是一组相互独立的一元高斯分布的组合。

    #### 四、等量线

    另一个理解多元高斯分布的方法是从其等量线的形状来看。对于一个函数$f:R^2 \to R$,其等量线是如下形式的集合:

    ```math

    {x \in R^2 : f(x)=c}

    ```

    ##### 4.1 等量线的形状

    一个多元高斯分布的等量线是什么样的?我们依然以前面的二元对角协方差矩阵为例。让我们考虑某些常量情况下的等量线:

    ![](http://www.datalearner.com/resources/blog_images/d382f9cc-2abc-40f3-881a-564dffa44c0f.png)

    我们可以定义:

    ![](http://www.datalearner.com/resources/blog_images/65f65de8-8f03-4f3a-9fdd-59b0b3932e09.png)

    那么,它服从:

    ```math

    1=(\frac{x_1-\mu}{r_1})^2+(\frac{x_2-\mu}{r_2})^2

    ```

    这个形式应该比较熟悉了,就是高中解析几何里面的轴对称的椭圆了。

    #####4.2 坐标轴长度

    为了更好的理解等量线如何随着多元高斯分布的变化而变化,我们看一下在高斯密度函数的峰值位置,也就是$c=1/e$时,$r_1$和$r_2$的位置。首先我们通过公式4可以看到,当$x_1=\mu_1$且$x_2=\mu_2$到时候,高斯密度是位置最高,为$1/(2\pi\sigma_1\sigma_2)$。

    然后,我们把$c=\frac{1}{e}\frac{1}{2\pi\sigma_1\sigma_2}$代入上式,我们有:

    ![](http://www.datalearner.com/resources/blog_images/616d9c46-9a4c-4d0a-8049-f514ae36f130.png)

    从这个地方我们看出,坐标轴长度与标准差$\sigma_i$成一定比例。这样容易理解,如果某些随机变量$x_i$比较小,那么高斯分布在那个维度上的线就越紧密,因此,半径$r_i$就更小。

    ![](http://www.datalearner.com/resources/blog_images/45e61418-e787-4789-8384-57c8884ba19d.png)

    ##### 4.3 非对角阵的情况,更高维的情况

    显然,上述推到都是依赖于假设$\Sigma$是对角阵。然而,在非对角阵的情况下,图形也是类似的,只是轴对称的椭圆变成了一个变形的椭圆。

    五、线性变换的解释

    在最后几节里,我们将主要关注拥有对角协方差矩阵的多元高斯分布的一些特性。我们知道,对于对角协方差矩阵,我们可以把一个多元高斯分布看作是n个独立高斯分布的集合。在这里,我们将进一步了解其中的特性。

    本节的最关键结果就是下面的理论:

    **理论1:如果$X\sim N(\mu,\Sigma)$,且其协方差矩阵是对角的正定矩阵,那么一定存在一个矩阵$B \in R^{n \times n}$使我们可以定义$Z=B^{-1}(B-\mu)$,有$Z \sim N(0,I)$。**

    如何理解这个理论呢?注意到,如果$Z\sim N(0,I)$,那么使用第4节的分析我们可以得到,Z是n个独立标准正太随机变量的集合。也就是,如果$Z=B^{-1}(X-\mu)$,那么,$X=BZ+\mu$。因此,该理论说明,任意多元高斯分布X都可以运用线性变换($X=BZ+\mu$)把它变成一组n个独立的标准正态分布变量的集合。

    展开全文
    weixin_36296983 2021-01-17 19:03:49
  • 到目前为止的课堂上,多元高斯分布已经出现在许多应用中,比如线性回归的概率解释、高斯判别分析、高斯混合聚类,以及最近学习的因子分析。在本节的笔记中,我们试图揭开多元高斯函数在最近学习的因...

    注意,本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中部分的内容进行翻译学习。

    更多关于多元高斯分布

    介绍

    到目前为止的课堂上,多元高斯分布已经出现在许多应用中,比如线性回归的概率解释、高斯判别分析、高斯混合聚类,以及最近学习的因子分析。在本节的笔记中,我们试图揭开多元高斯函数在最近学习的因子分析课程中引入的一些奇特的性质。本节笔记的目的是让大家对这些性质的来源有一些直观的了解,这样你就可以在作业(提醒你写作业的线索!)中更加明确地使用这些性质。

    1. 定义

    我们称一个概率密度函数是一个均值为 μ ∈ R n \mu\in R^n μRn,协方差矩阵为 Σ ∈ S + + n \Sigma\in S_{++}^n ΣS++n 1 ^1 1一个多元正态分布(或高斯分布)(multivariate normal (or Gaussian) distribution), 其随机变量是向量值 x ∈ R n x\in R^n xRn,该概率密度函数可以通过下式表达:

    上一小段上标1的说明(详情请点击本行)

    1 复习一下线性代数章节中介绍的 S + + n S_{++}^n S++n是一个对称正定的 n × n n\times n n×n矩阵空间,定义为:

    S + + n = { A ∈ R n × n : A = A T a n d x T A x &gt; 0 f o r a l l x ∈ R n s u c h t h a t x ≠ 0 } S_{++}^n=\{A\in R^{n\times n}:A=A^T\quad and\quad x^TAx&gt;0\quad for\quad all\quad x\in R^n\quad such\quad that\quad x\neq 0\} S++n={ARn×n:A=ATandxTAx>0forallxRnsuchthatx̸=0}

    p ( x ; μ , Σ ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x;\mu,\Sigma)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right) p(x;μ,Σ)=(2π)n/2Σ1/21exp(21(xμ)TΣ1(xμ))

    我们可以写作 x ∼ N ( μ , Σ ) x\sim\mathcal{N}(\mu,\Sigma) xN(μ,Σ)

    2. 高斯分布的特点

    多元高斯在实践中非常方便,因为其如下的特点:

    • 特点 #1: 如果你知道以 x x x为随机变量的高斯分布的均值 μ \mu μ和协方差矩阵 Σ \Sigma Σ。则你可以直接写出关于 x x x的概率密度函数。

    • 特点 #2: 下列高斯积分具有闭式解(closed-form solutions):

    ∫ x ∈ R n p ( x ; μ , Σ ) d x = ∫ − ∞ ∞ &NegativeThinSpace; ⋯ ∫ − ∞ ∞ p ( x ; μ , Σ ) d x 1 … d x 2 = 1 ∫ x ∈ R n x i p ( x ; μ , σ ) d x = μ i ∫ x ∈ R n ( x i − μ i ) ( x j − μ j ) p ( x ; μ , σ ) d x = Σ i j \begin{aligned} \int_{x\in R^n}p(x;\mu,\Sigma)dx &amp;= \int_{-\infin}^{\infin}\dots\int_{-\infin}^{\infin}p(x;\mu,\Sigma)dx_1\dots dx_2=1 \\ \int_{x\in R^n}x_ip(x;\mu,\sigma)dx &amp;= \mu_i \\ \int_{x\in R^n}(x_i-\mu_i)(x_j-\mu_j)p(x;\mu,\sigma)dx &amp;=\Sigma_{ij} \end{aligned} xRnp(x;μ,Σ)dxxRnxip(x;μ,σ)dxxRn(xiμi)(xjμj)p(x;μ,σ)dx=p(x;μ,Σ)dx1dx2=1=μi=Σij

    • 特点 #3: 高斯函数遵循一些封闭性质(closure properties:):
      • 独立高斯随机变量的和是高斯分布。
      • 联合高斯分布的边缘分布是高斯分布。
      • 联合高斯分布的条件是高斯分布。

    乍一看,这些事实中的一些结论,尤其是第 1 1 1和第 2 2 2条,似乎要么是直观上显而易见的,要么至少是可信的。然而,我们可能不太清楚的是为什么这些特点如此有用。在本文档中,我们将提供一些直观解释说明如何在平常操作处理多元高斯随机变量时使用这些特点。

    3. 封闭性质

    在本节中,我们将详细讨论前面描述的每个封闭属性,我们将使用特点#1和#2来证明属性,或者至少给出一些关于属性正确性的直觉。

    下面是我们本节将要介绍的内容的路线图:

    独立高斯分布的和联合高斯分布的边缘分布联合高斯分布的条件分布
    为什么是高斯函数的解释不介绍介绍介绍
    概率密度函数的结果介绍介绍介绍
    3.1 独立高斯分布的和是高斯分布

    本规则的正式表述为:

    设有 y ∼ N ( μ , Σ ) y\sim\mathcal{N}(\mu,\Sigma) yN(μ,Σ) z ∼ N ( μ ′ , Σ ′ ) z\sim\mathcal{N}(\mu&#x27;,\Sigma&#x27;) zN(μ,Σ)为独立高斯分布,其中随机变量 μ , μ ′ ∈ R n \mu,\mu&#x27;\in R^n μ,μRn Σ , Σ ′ ∈ S + + n \Sigma,\Sigma&#x27;\in S_{++}^n Σ,ΣS++n。则它们的和也同样是高斯分布:

    y + z ∼ N ( μ + μ ′ , Σ + Σ ′ ) y+z\sim\mathcal{N}(\mu+\mu&#x27;,\Sigma+\Sigma&#x27;) y+zN(μ+μ,Σ+Σ)

    在我们证明上面的结论前,先给出一些直观结果:

    1. 首先要指出的是上述规则中独立假设的重要性。为了了解为什么这很重要,假设 y ∼ N ( μ , σ ) y\sim\mathcal{N}(\mu,\sigma) yN(μ,σ)是服从于均值 μ \mu μ方差 σ \sigma σ的多元高斯分布,并且假设 z = − y z=-y z=y。很明显, z z z也是服从于与多元高斯分布(事实上, z ∼ N ( − μ , σ ) z\sim\mathcal{N}(-\mu,\sigma) zN(μ,σ)),但是 y + z y+z y+z等于零(不是高斯分布)!
    2. 第二件需要指出的事情是许多学生感到困惑的一点:如果我们把两个高斯概率密度函数(多维空间中的“肿块(bumps)”)加在一起,我们会得到一些峰(即“双峰(two-humped)”的概率密度函数)么?在这里,我们要注意到随机变量 y + z y + z y+z的概率密度函数并不是简单的将两个单独的概率密度函数的随机变量 y y y z z z相加,而是会变成 y y y z z z的卷积的概率密度函数。 2 ^2 2 然而证明“两个高斯概率密度函数的卷积得到一个高斯概率密度函数”超出了这门课的范围。
    上一小段上标2的说明(详情请点击本行)

    2 例如,如果 y y y z z z是单变量高斯函数(即: y ∼ N ( μ , σ 2 ) , z ∼ N ( μ , σ ′ 2 ) y\sim\mathcal{N}(\mu,\sigma^2),z\sim\mathcal{N}(\mu,\sigma&#x27;^2) yN(μ,σ2),zN(μ,σ2)),则它们的概率密度的卷积由下式给出:

    p ( y + z ; μ , μ ′ , σ , σ ′ 2 ) = ∫ − ∞ ∞ p ( w ; μ , σ 2 ) p ( y + z − w ; μ ′ , σ ′ 2 ) d w = ∫ − ∞ ∞ 1 2 π σ exp ⁡ ( − 1 2 σ 2 ( w − μ ) 2 ) ⋅ 1 2 π σ ′ exp ⁡ ( − 1 2 σ ′ 2 ( y + z − w − μ ′ ) 2 ) d w \begin{aligned} p(y+z;\mu,\mu&#x27;,\sigma,\sigma&#x27;^2) &amp;=\int_{-\infin}^{\infin}p(w;\mu,\sigma^2)p(y+z-w;\mu&#x27;,\sigma&#x27;^2)dw \\ &amp;= \int_{-\infin}^{\infin}\frac 1{\sqrt{2\pi}\sigma}\exp\left(-\frac 1{2\sigma^2}(w-\mu)^2\right)\cdot \frac 1{\sqrt{2\pi}\sigma&#x27;}\exp\left(-\frac 1{2\sigma&#x27;^2}(y+z-w-\mu&#x27;)^2\right)dw \end{aligned} p(y+z;μ,μ,σ,σ2)=p(w;μ,σ2)p(y+zw;μ,σ2)dw=2π σ1exp(2σ21(wμ)2)2π σ1exp(2σ21(y+zwμ)2)dw

    转换一下思路,让我们用卷积给出高斯概率密度函数的观察结果,加上特点#1,来算出概率密度函数 p ( y + z ∣ μ , Σ ) p(y+z|\mu,\Sigma) p(y+zμ,Σ)的解析解。如果我们要计算卷积。我们该怎么做呢?回顾特点#1,高斯分布完全由它的均值向量和协方差矩阵指定。如果我们能确定这些值是什么,那么我们就能计算出其解析解了。

    这很简单!对应期望而言,我们有:

    E [ y i + z i ] = E [ y i ] + E [ z i ] = μ i + μ i ′ E[y_i+z_i]=E[y_i]+E[z_i]=\mu_i+\mu_i&#x27; E[yi+zi]=E[yi]+E[zi]=μi+μi

    上式的结果根据期望的线性性质。因此, y + z y + z y+z的均值可以简单的写作 μ + μ ′ \mu+\mu&#x27; μ+μ。 同时,协方差矩阵的第 ( i , j ) (i, j) (i,j)项由下式给出:

    E [ ( y i + z i ) ( y j + z j ) ] − E [ y i + z i ] E [ y j + z j ] = E [ y i y j + z i y j + y i z j + z i z j ] − ( E [ y i ] + E [ z i ] ) ( E [ y j ] + E [ z j ] ) = E [ y i y j ] + E [ z i y j ] + E [ y i z j ] + E [ z i z j ] − E [ y i ] E [ y j ] − E [ z i ] E [ y j ] − E [ y i ] E [ z j ] − E [ z i ] E [ z j ] = ( E [ y i y j ] − E [ y i ] E [ y j ] ) + ( E [ z i z j ] − E [ z i ] E [ z j ] ) + ( E [ z i y j ] − E [ z i ] E [ y j ] ) + ( E [ y i z j ] − E [ y i ] E [ z j ] ) \begin{aligned} &amp;E[(y_i+z_i)(y_j+z_j)]-E[y_i+z_i]E[y_j+z_j] \\ &amp;\qquad=E[y_iy_j+z_iy_j+y_iz_j+z_iz_j]-(E[y_i]+E[z_i])(E[y_j]+E[z_j]) \\ &amp;\qquad=E[y_iy_j]+E[z_iy_j]+E[y_iz_j]+E[z_iz_j]-E[y_i]E[y_j]-E[z_i]E[y_j]-E[y_i]E[z_j]-E[z_i]E[z_j] \\ &amp;\qquad=(E[y_iy_j]-E[y_i]E[y_j])+(E[z_iz_j]-E[z_i]E[z_j]) \\ &amp;\qquad\qquad+(E[z_iy_j]-E[z_i]E[y_j])+(E[y_iz_j]-E[y_i]E[z_j]) \\ \end{aligned} E[(yi+zi)(yj+zj)]E[yi+zi]E[yj+zj]=E[yiyj+ziyj+yizj+zizj](E[yi]+E[zi])(E[yj]+E[zj])=E[yiyj]+E[ziyj]+E[yizj]+E[zizj]E[yi]E[yj]E[zi]E[yj]E[yi]E[zj]E[zi]E[zj]=(E[yiyj]E[yi]E[yj])+(E[zizj]E[zi]E[zj])+(E[ziyj]E[zi]E[yj])+(E[yizj]E[yi]E[zj])

    利用 y y y z z z相互独立的事实,我们得到 E [ z i y j ] = E [ z i ] E [ y j ] E[z_iy_j]=E[z_i]E[y_j] E[ziyj]=E[zi]E[yj] E [ y i z j ] = E [ y i ] E [ z j ] E[y_iz_j]=E[y_i]E[z_j] E[yizj]=E[yi]E[zj]。因此,最后两项消去了,剩下:

    E [ ( y i + z i ) ( y j + z j ) ] − E [ y i + z i ] E [ y j + z j ] = ( E [ y i y j ] − E [ y i ] E [ y j ] ) + ( E [ z i z j ] − E [ z i ] E [ z j ] ) = Σ i j + Σ i j ′ \begin{aligned} &amp;E[(y_i+z_i)(y_j+z_j)]-E[y_i+z_i]E[y_j+z_j] \\ &amp;\qquad=(E[y_iy_j]-E[y_i]E[y_j])+(E[z_iz_j]-E[z_i]E[z_j]) \\ &amp;\qquad=\Sigma_{ij}+\Sigma_{ij}&#x27; \end{aligned} E[(yi+zi)(yj+zj)]E[yi+zi]E[yj+zj]=(E[yiyj]E[yi]E[yj])+(E[zizj]E[zi]E[zj])=Σij+Σij

    由此,我们可以得出 y + z y + z y+z的协方差矩阵可以简单的写作 Σ + Σ ′ \Sigma+\Sigma&#x27; Σ+Σ

    此刻,让我们回顾一下刚刚我们做了什么?利用一些简单的期望和独立性的性质,我们计算出了 y + z y + z y+z的均值和协方差矩阵。根据特点#1,我们可以立即写出 y + z y + z y+z的概率密度函数,而不需要做卷积! 3 ^3 3

    3 当然,我们首先需要知道 y + z y + z y+z是高斯分布。

    3.2 联合高斯分布的边缘分布是高斯分布

    本规则的正式表述为:

    假设

    [ x A x B ] ∼ N ( [ μ A μ B ] , [ Σ A A Σ A B Σ B A Σ B B ] ) \begin{bmatrix}x_A\\x_B\end{bmatrix}\sim\mathcal{N}\begin{pmatrix}\begin{bmatrix}\mu_A\\\mu_B\end{bmatrix},\begin{bmatrix}\Sigma_{AA}&amp;\Sigma_{AB}\\\Sigma_{BA}&amp;\Sigma_{BB}\end{bmatrix}\end{pmatrix} [xAxB]N([μAμB],[ΣAAΣBAΣABΣBB])

    其中 x A ∈ R m , x B ∈ R n x_A\in R^m,x_B\in R^n xARm,xBRn并选择均值向量和协方差矩阵子块的维数与 x A x_A xA x B x_B xB进行匹配。则边缘概率密度函数如下所示:

    p ( x A ) = ∫ x B ∈ R n p ( x A , x B ; μ , Σ ) d x B p ( x B ) = ∫ x A ∈ R m p ( x A , x B ; μ , Σ ) d x A p(x_A)=\int_{x_B\in R^n}p(x_A,x_B;\mu,\Sigma)dx_B \\ p(x_B)=\int_{x_A\in R^m}p(x_A,x_B;\mu,\Sigma)dx_A p(xA)=xBRnp(xA,xB;μ,Σ)dxBp(xB)=xARmp(xA,xB;μ,Σ)dxA

    上面式子都是高斯分布:

    x A ∼ N ( μ A , Σ A A ) x B ∼ N ( μ B , Σ B B ) x_A\sim\mathcal{N}(\mu_A,\Sigma_{AA}) \\ x_B\sim\mathcal{N}(\mu_B,\Sigma_{BB}) xAN(μA,ΣAA)xBN(μB,ΣBB)

    为了证明这个规则,我们只关注变量 x A x_A xA的边缘分布。

    4 一般来说,对于一个高斯分布的随机向量 x x x,只要我们对均值向量的项和协方差矩阵的行/列按对应的方式进行置换,则总是可以对 x x x的项进行置换。因此,只看 x A x_A xA就足够了, x B x_B xB的结果也立即得到了。

    首先,请注意计算边缘分布的均值和协方差矩阵很简单:只需从联合概率密度函数的均值和协方差矩阵中提取相应的子块。为了确保这是绝对清楚的,我们来看看 x A , i x_{A,i} xA,i x A , j x_{A,j} xA,j x A x_A xA的第 i i i个部分和 x A x_A xA的第 j j j个部分)之间的协方差。注意 x A , i x_{A,i} xA,i x A , j x_{A,j} xA,j同样也是下面式子的第 i i i个和第 j j j个部分:

    [ x A x B ] \begin{bmatrix}x_A\\x_B\end{bmatrix} [xAxB]

    (因为 x A x_A xA出现在这个向量的上部分)。要找到它们的协方差,我们只需简单的使用下面式子的那个协方差矩阵的第 ( i , j ) (i, j) (i,j)个元素即可:

    [ Σ A A Σ A B Σ B A Σ B B ] \begin{bmatrix}\Sigma_{AA}&amp;\Sigma_{AB}\\\Sigma_{BA}&amp;\Sigma_{BB}\end{bmatrix} [ΣAAΣBAΣABΣBB]

    ( i , j ) (i, j) (i,j)个元素在可以在 Σ A A \Sigma_{AA} ΣAA子块矩阵中找到。事实上就是 Σ A A , i j \Sigma_{AA,ij} ΣAA,ij。对所有的 i , j ∈ { 1 , … , m } i,j\in \{1,\dots,m\} i,j{1,,m}使用这个参数,我们可以发现 x A x_A xA的协方差矩阵可以简化为 Σ A A \Sigma_{AA} ΣAA。类似的方法可以用来求 x A x_A xA的均值简化为 μ A \mu_A μA。因此,上面的论证告诉我们,如果我们知道 x A x_A xA的边缘分布是高斯分布,那么我们就可以用合适的均值子矩阵以及联合概率密度函数的协方差矩阵立即写出 x A x_A xA的概率密度函数。

    上面的论证虽然简单,但多少有些不令人满意:我们如何才能真正确定 x A x_A xA是一个多元高斯分布?关于这一点的论述有点冗长,因此,与其节外生枝,不如先列出我们的推导过程:

    1. 明确写出边缘概率密度函数的积分形式。
    2. 通过对逆协方差矩阵进行分块来重写积分。
    3. 使用“平方和”参数来计算 x B x_B xB上的积分。
    4. 论述得到的概率密度函数是高斯的。

    下面让我们分别研究一下上面提到的每一个步骤。

    3.2.1 边缘概率密度函数的积分形式

    假设我们想直接计算 x A x_A xA的密度函数。然后,我们需要计算积分:

    p ( x A ) = ∫ x B ∈ R n p ( x A , x B ; μ , Σ ) d x B = 1 ( 2 π ) m + n 2 ∣ Σ A A Σ A B Σ B A Σ B B ∣ 1 / 2 ∫ x B ∈ R n exp ⁡ ( − 1 2 [ x A − μ A x B − μ B ] T [ Σ A A Σ A B Σ B A Σ B B ] − 1 [ x A − μ A x B − μ B ] ) d x B \begin{aligned} p(x_A) &amp;= \int_{x_B\in R^n}p(x_A,x_B;\mu,\Sigma)dx_B \\ &amp;= \frac{1}{(2\pi)^{\frac{m+n}{2}} \begin{vmatrix}\Sigma_{AA}&amp;\Sigma_{AB}\\\Sigma_{BA}&amp;\Sigma_{BB}\end{vmatrix}^{1/2}}\int_{x_B\in R^n}\exp\left(-\frac12\begin{bmatrix}x_A-\mu_A\\x_B-\mu_B\end{bmatrix}^T\begin{bmatrix}\Sigma_{AA}&amp;\Sigma_{AB}\\\Sigma_{BA}&amp;\Sigma_{BB}\end{bmatrix}^{-1}\begin{bmatrix}x_A-\mu_A\\x_B-\mu_B\end{bmatrix}\right)dx_B \end{aligned} p(xA)=xBRnp(xA,xB;μ,Σ)dxB=(2π)2m+nΣAAΣBAΣABΣBB1/21xBRnexp(21[xAμAxBμB]T[ΣAAΣBAΣABΣBB]1[xAμAxBμB])dxB

    3.2.2 逆协方差矩阵的分块

    为了进一步推导,我们需要把指数中的矩阵乘积写成稍微不同的形式。特别地,让我们定义下面这个矩阵:

    V = [ V A A V A B V B A V B B ] = Σ − 1 V=\begin{bmatrix}V_{AA}&amp;V_{AB}\\V_{BA}&amp;V_{BB}\end{bmatrix}=\Sigma^{-1} V=[VAAVBAVABVBB]=Σ1

    这里我们可能会有下面这种诱人的推导想法:

    V = [ V A A V A B V B A V B B ] = [ Σ A A Σ A B Σ B A Σ B B ] − 1 “ = ” [ Σ A A − 1 Σ A B − 1 Σ B A − 1 Σ B B − 1 ] V=\begin{bmatrix}V_{AA}&amp;V_{AB}\\V_{BA}&amp;V_{BB}\end{bmatrix}=\begin{bmatrix}\Sigma_{AA}&amp;\Sigma_{AB}\\\Sigma_{BA}&amp;\Sigma_{BB}\end{bmatrix}^{-1}“=”\begin{bmatrix}\Sigma_{AA}^{-1}&amp;\Sigma_{AB}^{-1}\\\Sigma_{BA}^{-1}&amp;\Sigma_{BB}^{-1}\end{bmatrix} V=[VAAVBAVABVBB]=[ΣAAΣBAΣABΣBB]1=[ΣAA1ΣBA1ΣAB1ΣBB1]

    然而,最右边的等号并不成立!我们将在稍后的步骤中讨论这个问题;不过,现在只要将 V V V定义为上述形式就足够了,而不必担心每个子矩阵的实际内容是什么。

    利用 V V V的这个定义,积分扩展到下面的式子:

    p ( x A ) = 1 Z ∫ x B ∈ R n exp ⁡ ( − [ 1 2 ( x A − μ A ) T V A A ( x A − μ A ) + 1 2 ( x A − μ A ) T V A B ( x B − μ B ) + 1 2 ( x B − μ B ) T V B A ( x A − μ A ) + 1 2 ( x B − μ B ) T V B B ( x B − μ B ) ] ) d x B \begin{aligned} p(x_A)=\frac 1Z\int_{x_B\in R^n}\exp(-&amp;[\frac 12(x_A-\mu_A)^TV_{AA}(x_A-\mu_A)+\frac 12(x_A-\mu_A)^TV_{AB}(x_B-\mu_B) \\ &amp; +\frac 12(x_B-\mu_B)^TV_{BA}(x_A-\mu_A)+\frac 12(x_B-\mu_B)^TV_{BB}(x_B-\mu_B)])dx_B \end{aligned} p(xA)=Z1xBRnexp([21(xAμA)TVAA(xAμA)+21(xAμA)TVAB(xBμB)+21(xBμB)TVBA(xAμA)+21(xBμB)TVBB(xBμB)])dxB

    其中 Z Z Z是一个常数,不依赖于 x A x_A xA x B x_B xB,我们暂时忽略它。如果你以前没有使用过分块矩阵,那么上面的展开对你来说可能有点神奇。这类似于当定义一个二次形式基于某个矩阵 A A A时,则可得:

    x T A x = ∑ i ∑ j A i j x i x j = x 1 A 11 x 1 + x 1 A 12 x 2 + x 2 A 21 x 1 + x 2 A 22 x 2 x^TAx=\sum_i\sum_jA_{ij}x_ix_j=x_1A_{11}x_1+x_1A_{12}x_2+x_2A_{21}x_1+x_2A_{22}x_2 xTAx=ijAijxixj=x1A11x1+x1A12x2+x2A21x1+x2A22x2

    花点时间自己研究一下,上面的矩阵推广也适用。

    3.2.3 x B x_B xB上的积分

    为了求积分,我们要对 x B x_B xB积分。然而,一般来说,高斯积分是很难手工计算的。我们能做些什么来节省计算时间吗?事实上,有许多高斯积分的答案是已知的(见特点#2)。那么,本节的基本思想是将上一节中的积分转换为一种形式,在这种形式中,我们可以应用特点#2中的一个结果,以便轻松地计算所需的积分。

    这其中的关键是一个数学技巧,称为“配方法(completion of squares)”。考虑二次函数 。其中

    1 2 x T A x + b T z + c = 1 2 ( z + A − 1 b ) T A ( z + A − 1 b ) + c − 1 2 b T A − 1 b \frac 12x^TAx+b^Tz+c=\frac 12(z+A^{-1}b)^TA(z+A^{-1}b)+c-\frac 12b^TA^{-1}b 21xTAx+bTz+c=21(z+A1b)TA(z+A1b)+c21bTA1b

    下面使用单变量代数中的“配方法”来泛华的多元变量的等式:

    1 2 a z 2 + b z + c = 1 2 a ( z + b z ) 2 + c − b 2 2 a \frac 12az^2+bz+c=\frac 12a(z+\frac bz)^2+c-\frac {b^2}{2a} 21az2+bz+c=21a(z+zb)2+c2ab2

    若要将配方法应用于上述情形,令

    z = x B − μ B A = V B B b = V B A ( x A − μ A ) c = 1 2 ( x A − μ A ) T V A A ( x A − μ A ) \begin{aligned} z &amp;= x_B-\mu_B \\ A &amp;= V_{BB} \\ b &amp;=V_{BA}(x_A-\mu_A) \\ c &amp;=\frac 12(x_A-\mu_A)^TV_{AA}(x_A-\mu_A) \end{aligned} zAbc=xBμB=VBB=VBA(xAμA)=21(xAμA)TVAA(xAμA)

    然后,这个积分可以重写为

    p ( x A ) = 1 Z ∫ x B ∈ R n e x p ( − [ 1 2 ( x B − μ B ) T V A A ( x A − μ A ) + 1 2 ( x A − μ A ) T V A B ( x B − μ B ) + 1 2 ( x B − μ B ) T V B A ( x A − μ A ) + 1 2 ( x B − μ B ) T V B B ( x B − μ B ) ] ) d x B \begin{aligned} p(x_A)=\frac 1Z\int_{x_B\in R^n}exp(-&amp;[\frac 12(x_B-\mu_B)^TV_{AA}(x_A-\mu_A)+\frac 12(x_A-\mu_A)^TV_{AB}(x_B-\mu_B) \\ &amp; +\frac 12(x_B-\mu_B)^TV_{BA}(x_A-\mu_A)+\frac 12(x_B-\mu_B)^TV_{BB}(x_B-\mu_B)])dx_B \end{aligned} p(xA)=Z1xBRnexp([21(xBμB)TVAA(xAμA)+21(xAμA)TVAB(xBμB)+21(xBμB)TVBA(xAμA)+21(xBμB)TVBB(xBμB)])dxB

    我们可以提出不包括 x B x_B xB的项,

    p ( x A ) = exp ⁡ ( − 1 2 ( x A − μ A ) T V A A ( x A − μ A ) + 1 2 ( x A − μ A ) T V A B V B B − 1 V B A ( x A − μ A ) ) ⋅ 1 Z ∫ x B ∈ R n exp ⁡ ( − 1 2 [ ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) T V B B ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) ] ) d x B \begin{aligned} p(x_{A})&amp;=\exp\left(-\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A A}\left(x_{A}-\mu_{A}\right)+\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A B} V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right) \\ &amp;\quad \cdot \frac{1}{Z} \int_{x_{B} \in \mathbb{R}^{n}} \exp \left(-\frac{1}{2}\left[\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)^{T} V_{B B}\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)\right]\right) d x_{B} \end{aligned} p(xA)=exp(21(xAμA)TVAA(xAμA)+21(xAμA)TVABVBB1VBA(xAμA))Z1xBRnexp(21[(xBμB+VBB1VBA(xAμA))TVBB(xBμB+VBB1VBA(xAμA))])dxB

    现在,我们可以应用特点#2。特别的,我们知道通常情况下随机变量为 x x x多元高斯分布,如果设均值 μ \mu μ,协方差矩阵 Σ \Sigma Σ,则概率密度函数可以得到如下式子:

    1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 ∫ R n exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) = 1 \frac{1}{(2 \pi)^{n / 2}|\Sigma|^{1 / 2}} \int_{\mathbf{R}^{n}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)=1 (2π)n/2Σ1/21Rnexp(21(xμ)TΣ1(xμ))=1

    或等价与下式:

    ∫ R n exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) = ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 \int_{R^{n}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)=(2 \pi)^{n / 2}|\Sigma|^{1 / 2} Rnexp(21(xμ)TΣ1(xμ))=(2π)n/2Σ1/2

    我们用这个事实来消去表达式中剩下的积分以得到 p ( x A ) p(x_A) p(xA)

    p ( x A ) = 1 Z ⋅ ( 2 π ) n / 2 ∣ V B B ∣ 1 / 2 ⋅ exp ⁡ ( − 1 2 ( x A − μ A ) T ( V A A − V A B V B B − 1 V B A ) ( x A − μ A ) ) p\left(x_{A}\right)=\frac{1}{Z} \cdot(2 \pi)^{n / 2}\left|V_{B B}\right|^{1 / 2} \cdot \exp \left(-\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T}\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)\left(x_{A}-\mu_{A}\right)\right) p(xA)=Z1(2π)n/2VBB1/2exp(21(xAμA)T(VAAVABVBB1VBA)(xAμA))

    3.2.4 论述得到的概率密度函数是高斯函数

    这时我们几乎已经完成了全部计算!忽略前面的归一化常数,我们看到 x A x_A xA的概率密度函数是 x A x_A xA的二次形的指数。我们可以很快意识到概率密度函数就是均值向量为 μ A \mu_A μA,协方差矩阵为 ( V A A − V A B V B B − 1 V B A ) − 1 (V_{A A}-V_{A B} V_{B B}^{-1} V_{B A})^{-1} (VAAVABVBB1VBA)1的高数分布。虽然协方差矩阵的形式看起来有点复杂,但是我们已经完成了我们开始想要展示的概念——即 x A x_A xA有一个边缘高斯分布。利用前面的逻辑,我们可以得出这个协方差矩阵必须以某种方式消去 Σ A A \Sigma_{AA} ΣAA

    但是,如果你好奇,也可以证明我们的推导与之前的证明是一致的。为此,我们对分块矩阵使用以下结果:

    [ A B C D ] − 1 = [ M − 1 − M − 1 B D − 1 − D − 1 C M − 1 D − 1 + D − 1 C M − 1 B D − 1 ] \left[ \begin{array}{cc}{A} &amp; {B} \\ {C} &amp; {D}\end{array}\right]^{-1}=\left[ \begin{array}{cc}{M^{-1}} &amp; {-M^{-1} B D^{-1}} \\ {-D^{-1} C M^{-1}} &amp; {D^{-1}+D^{-1} C M^{-1} B D^{-1}}\end{array}\right] [ACBD]1=[M1D1CM1M1BD1D1+D1CM1BD1]

    其中 M = A − B D − 1 C M=A-B D^{-1} C M=ABD1C。这个公式可以看作是 2 × 2 2\times 2 2×2矩阵显式逆矩阵的多变量推广:

    [ a b c d ] − 1 = 1 a d − b c [ d − b − c a ] \left[ \begin{array}{ll}{a} &amp; {b} \\ {c} &amp; {d}\end{array}\right]^{-1}=\frac{1}{a d-b c} \left[ \begin{array}{cc}{d} &amp; {-b} \\ {-c} &amp; {a}\end{array}\right] [acbd]1=adbc1[dcba]

    用这个公式,可以得出:

    [ Σ A A Σ A B Σ B A Σ B B ] = [ V A A V A B V B A V B B ] − 1 = [ ( V A A − V A B V B B − 1 V B A ) − 1 − ( V A A − V A B V B B − 1 V B A ) − 1 V A B V B B − 1 − V B B − 1 V B A ( V A A − V A B V B B − 1 V B A ) − 1 ( V B B − V B A V A A − 1 V A B ) − 1 ] \begin{aligned} \left[ \begin{array}{cc}{\Sigma_{A A}} &amp; {\Sigma_{A B}} \\ {\Sigma_{B A}} &amp; {\Sigma_{B B}}\end{array}\right] &amp;=\left[ \begin{array}{ll}{V_{A A}} &amp; {V_{A B}} \\ {V_{B A}} &amp; {V_{B B}}\end{array}\right]^{-1} \\ &amp;=\left[ \begin{array}{cc}{\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1}} &amp; {-\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1} V_{A B} V_{B B}^{-1}} \\ {-V_{B B}^{-1} V_{B A}\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1}} &amp; {\left(V_{B B}-V_{B A} V_{A A}^{-1} V_{A B}\right)^{-1}}\end{array}\right] \end{aligned} [ΣAAΣBAΣABΣBB]=[VAAVBAVABVBB]1=[(VAAVABVBB1VBA)1VBB1VBA(VAAVABVBB1VBA)1(VAAVABVBB1VBA)1VABVBB1(VBBVBAVAA1VAB)1]

    正如我们所期望的那样,我们马上就能得出 ( V A A − V A B V B B − 1 V B A ) − 1 = Σ A A \left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1}=\Sigma_{A A} (VAAVABVBB1VBA)1=ΣAA

    3.3 联合高斯分布的条件分布是高斯分布

    本规则的正式表述为:

    假设:

    [ x A x B ] ∼ N ( [ μ A μ B ] , [ Σ A A Σ A B Σ B A Σ B B ] ) \left[ \begin{array}{l}{x_{A}} \\ {x_{B}}\end{array}\right]\sim\mathcal{N}\left(\left[ \begin{array}{l}{\mu_{A}} \\ {\mu_{B}}\end{array}\right], \left[ \begin{array}{cc}{\Sigma_{A A}} &amp; {\Sigma_{A B}} \\ {\Sigma_{B A}} &amp; {\Sigma_{B B}}\end{array}\right]\right) [xAxB]N([μAμB],[ΣAAΣBAΣABΣBB])

    其中 x A ∈ R m , x B ∈ R n x_{A} \in \mathbf{R}^{m}, x_{B} \in \mathbf{R}^{n} xARm,xBRn,并选择均值向量和协方差矩阵子块的维数来匹配 x A x_A xA x B x_B xB。则条件概率密度函数为:

    p ( x A ∣ x B ) = p ( x A , x B ; μ , Σ ) ∫ x A ∈ R m p ( x A , x B ; μ , Σ ) d x A p ( x B ∣ x A ) = p ( x A , x B ; μ , Σ ) ∫ x B ∈ R n p ( x A , x B ; μ , Σ ) d x B \begin{aligned} p\left(x_{A} | x_{B}\right) &amp;=\frac{p\left(x_{A}, x_{B} ; \mu, \Sigma\right)}{\int_{x_{A} \in \mathbb{R}^{m}} p\left(x_{A}, x_{B} ; \mu, \Sigma\right) d x_{A}} \\ p\left(x_{B} | x_{A}\right) &amp;=\frac{p\left(x_{A}, x_{B} ; \mu, \Sigma\right)}{\int_{x_{B} \in \mathbb{R}^{n}} p\left(x_{A}, x_{B} ; \mu, \Sigma\right) d x_{B}} \end{aligned} p(xAxB)p(xBxA)=xARmp(xA,xB;μ,Σ)dxAp(xA,xB;μ,Σ)=xBRnp(xA,xB;μ,Σ)dxBp(xA,xB;μ,Σ)

    同样是高斯分布:

    x A ∣ x B ∼ N ( μ A + Σ A B Σ B B − 1 ( x B − μ B ) , Σ A A − Σ A B Σ B B − 1 Σ B A ) x B ∣ x A ∼ N ( μ B + Σ B A Σ A A − 1 ( x A − μ A ) , Σ B B − Σ B A Σ A A − 1 Σ A B ) \begin{array}{l}{x_{A}\left|x_{B} \sim \mathcal{N}\left(\mu_{A}+\Sigma_{A B} \Sigma_{B B}^{-1}\left(x_{B}-\mu_{B}\right), \Sigma_{A A}-\Sigma_{A B} \Sigma_{B B}^{-1} \Sigma_{B A}\right)\right.} \\ {x_{B} | x_{A} \sim \mathcal{N}\left(\mu_{B}+\Sigma_{B A} \Sigma_{A A}^{-1}\left(x_{A}-\mu_{A}\right), \Sigma_{B B}-\Sigma_{B A} \Sigma_{A A}^{-1} \Sigma_{A B}\right)}\end{array} xAxBN(μA+ΣABΣBB1(xBμB),ΣAAΣABΣBB1ΣBA)xBxAN(μB+ΣBAΣAA1(xAμA),ΣBBΣBAΣAA1ΣAB)

    和之前一样,我们只研究条件分布 x B ∣ x A x_B|x_A xBxA,另一个结果是对称的。我们的推导过程如下:

    1. 明确写出条件概率密度函数的表达式。
    2. 通过划分逆协方差矩阵重写表达式。
    3. 使用“平方和”参数。
    4. 论述得到的概率密度函数是高斯函数。

    下面让我们分别研究一下上面提到的每一个步骤。

    3.3.1 明确写出条件概率密度函数的表达式

    假设我们想直接计算给定 x A x_A xA x B x_B xB的概率密度函数。则我们需要计算下式:

    p ( x B ∣ x A ) = p ( x A , x B ; μ , Σ ) ∫ x B ∈ R m p ( x A , x B ; μ , Σ ) d x A = 1 Z ′ exp ⁡ ( − 1 2 [ x A − μ A x B − μ B ] T [ Σ A A Σ A B Σ B A Σ B B ] − 1 [ x A − μ A x B − μ B ] ) \begin{aligned} p\left(x_{B} | x_{A}\right) &amp;=\frac{p\left(x_{A}, x_{B} ; \mu, \Sigma\right)}{\int_{x_{B} \in R^m} p\left(x_{A}, x_{B} ; \mu, \Sigma\right) d x_{A}} \\ &amp;=\frac{1}{Z^{\prime}} \exp \left(-\frac{1}{2} \left[ \begin{array}{c}{x_{A}-\mu_{A}} \\ {x_{B}-\mu_{B}}\end{array}\right]^{T} \left[ \begin{array}{cc}{\Sigma_{A A}} &amp; {\Sigma_{A B}} \\ {\Sigma_{B A}} &amp; {\Sigma_{B B}}\end{array}\right]^{-1} \left[ \begin{array}{c}{x_{A}-\mu_{A}} \\ {x_{B}-\mu_{B}}\end{array}\right]\right) \end{aligned} p(xBxA)=xBRmp(xA,xB;μ,Σ)dxAp(xA,xB;μ,Σ)=Z1exp(21[xAμAxBμB]T[ΣAAΣBAΣABΣBB]1[xAμAxBμB])

    其中 Z ′ Z&#x27; Z是一个归一化常数,我们用该常数表达不依赖于 x B x_B xB的因子。注意,这一次,我们甚至不需要计算任何积分——积分的值不依赖于 x B x_B xB,因此积分可以化简成归一化常数 Z ′ Z&#x27; Z

    3.3.2 通过划分逆协方差矩阵重写表达式

    和之前一样,我们用矩阵 V V V重新参数化概率密度函数,由此得到下式:

    p ( x B ∣ x A ) = 1 Z ′ exp ⁡ ( − 1 2 [ x A − μ A x B − μ B ] T [ V A A V A B V B A V B B ] [ x A − μ A x B − μ B ] ) = 1 Z ′ exp ⁡ ( − [ 1 2 ( x A − μ A ) T V A A ( x A − μ A ) + 1 2 ( x A − μ A ) T V A B ( x B − μ B ) + 1 2 ( x B − μ B ) T V B A ( x A − μ A ) + 1 2 ( x B − μ B ) T V B B ( x B − μ B ) ] ) \begin{aligned} p\left(x_{B} | x_{A}\right) &amp;=\frac{1}{Z^{\prime}} \exp \left(-\frac{1}{2} \left[ \begin{array}{c}{x_{A}-\mu_{A}} \\ {x_{B}-\mu_{B}}\end{array}\right]^{T} \left[ \begin{array}{cc}{V_{A A}} &amp; {V_{A B}} \\ {V_{B A}} &amp; {V_{B B}}\end{array}\right] \left[ \begin{array}{c}{x_{A}-\mu_{A}} \\ {x_{B}-\mu_{B}}\end{array}\right]\right) \\ &amp;=\frac{1}{Z^{\prime}} \exp (-[\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A A}\left(x_{A}-\mu_{A}\right)+\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A B}\left(x_{B}-\mu_{B}\right) \\ &amp;\qquad\qquad\qquad+\frac{1}{2}\left(x_{B}-\mu_{B}\right)^{T} V_{B A}\left(x_{A}-\mu_{A}\right)+\frac{1}{2}\left(x_{B}-\mu_{B}\right)^{T} V_{B B}\left(x_{B}-\mu_{B}\right) ] ) \end{aligned} p(xBxA)=Z1exp(21[xAμAxBμB]T[VAAVBAVABVBB][xAμAxBμB])=Z1exp([21(xAμA)TVAA(xAμA)+21(xAμA)TVAB(xBμB)+21(xBμB)TVBA(xAμA)+21(xBμB)TVBB(xBμB)])

    3.3.3 使用“平方和”参数

    回忆下面这个式子:

    1 2 z T A z + b T z + c = 1 2 ( z + A − 1 b ) T A ( z + A − 1 b ) + c − 1 2 b T A − 1 b \frac{1}{2} z^{T} A z+b^{T} z+c=\frac{1}{2}\left(z+A^{-1} b\right)^{T} A\left(z+A^{-1} b\right)+c-\frac{1}{2} b^{T} A^{-1} b 21zTAz+bTz+c=21(z+A1b)TA(z+A1b)+c21bTA1b

    假设 A A A是一个对称的非奇异矩阵。如前所述,要将平方的补全应用于上述情况,令:

    z = x B − μ B A = V B B b = V B A ( x A − μ A ) c = 1 2 ( x A − μ A ) T V A A ( x A − μ A ) \begin{aligned} z &amp;=x_{B}-\mu_{B} \\ A &amp;=V_{B B} \\ b &amp;=V_{B A}\left(x_{A}-\mu_{A}\right) \\ c &amp;=\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A A}\left(x_{A}-\mu_{A}\right) \end{aligned} zAbc=xBμB=VBB=VBA(xAμA)=21(xAμA)TVAA(xAμA)

    然后,可以将 p ( x B ∣ x A ) p(x_B | x_A) p(xBxA)的表达式重写为:

    p ( x B ∣ x A ) = 1 Z ′ exp ⁡ ( − [ 1 2 ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) T V B B ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) + 1 2 ( x A − μ A ) T V A A ( x A − μ A ) − 1 2 ( x A − μ A ) T V A B V B B − 1 V B A ( x A − μ A ) ] ) \begin{array}{c}{p\left(x_{B} | x_{A}\right)=\frac{1}{Z^{\prime}} \exp \left(-\left[\frac{1}{2}\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)^{T} V_{B B}\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)\right.\right.} \\ {+\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A A}\left(x_{A}-\mu_{A}\right)-\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A B} V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right) ] )}\end{array} p(xBxA)=Z1exp([21(xBμB+VBB1VBA(xAμA))TVBB(xBμB+VBB1VBA(xAμA))+21(xAμA)TVAA(xAμA)21(xAμA)TVABVBB1VBA(xAμA)])

    将不依赖于 x B x_B xB的指数部分化简到归一化常数中,得到:

    p ( x B ∣ x A ) = 1 Z ′ ′ exp ⁡ ( − 1 2 ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) T V B B ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) ) p\left(x_{B} | x_{A}\right)=\frac{1}{Z^{\prime \prime}} \exp \left(-\frac{1}{2}\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)^{T} V_{B B}\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)\right) p(xBxA)=Z1exp(21(xBμB+VBB1VBA(xAμA))TVBB(xBμB+VBB1VBA(xAμA)))

    3.3.4 论述得到的概率密度函数是高斯函数

    看最后一个表达式,表达式 p ( x B ∣ x A ) p(x_B|x_A) p(xBxA)是均值为 μ B − V B B − 1 V B A ( x A − μ A ) \mu_B-V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right) μBVBB1VBA(xAμA),协方差矩阵为 V B B − 1 V_{B B}^{-1} VBB1的高斯概率密度函数。像往常一样,回忆一下矩阵等式:

    [ Σ A A Σ A B Σ B A Σ B B ] = [ ( V A A − V A B V B B − 1 V B A ) − 1 − ( V A A − V A B V B B − 1 V B A ) − 1 V A B V B B − 1 − V B B − 1 V B A ( V A A − V A B V B B − 1 V B A ) − 1 ( V B B − V B A V A A − 1 V A B ) − 1 ] \left[ \begin{array}{cc}{\Sigma_{A A}} &amp; {\Sigma_{A B}} \\ {\Sigma_{B A}} &amp; {\Sigma_{B B}}\end{array}\right]= \left[ \begin{array}{c}{\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1}}&amp;-\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1} V_{A B} V_{B B}^{-1} \\ {-V_{B B}^{-1} V_{B A}\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1}}&amp;\left(V_{B B}-V_{B A} V_{A A}^{-1} V_{A B}\right)^{-1}\end{array}\right] [ΣAAΣBAΣABΣBB]=[(VAAVABVBB1VBA)1VBB1VBA(VAAVABVBB1VBA)1(VAAVABVBB1VBA)1VABVBB1(VBBVBAVAA1VAB)1]

    从上式可以推出:

    μ B ∣ A = μ B − V B B − 1 V B A ( x A − μ A ) = μ B + Σ B A Σ A A − 1 ( x A − μ A ) \mu_{B | A}=\mu_{B}-V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)=\mu_{B}+\Sigma_{B A} \Sigma_{A A}^{-1}\left(x_{A}-\mu_{A}\right) μBA=μBVBB1VBA(xAμA)=μB+ΣBAΣAA1(xAμA)

    反过来,我们也可以利用矩阵恒等式得到:

    [ V A A V A B V B A V B B ] = [ ( Σ A A − Σ A B Σ B B − 1 Σ B A ) − 1 − ( Σ A A − Σ A B Σ A A − 1 Σ B B ) − 1 Σ A B Σ B B − 1 − Σ B B − 1 Σ B A ( Σ A A − Σ A B Σ B B − 1 Σ B A ) − 1 ( Σ B B − Σ B A Σ A A − 1 ∑ A B ) − 1 ] \left[ \begin{array}{cc}{V_{A A}} &amp; {V_{A B}} \\ {V_{B A}} &amp; {V_{B B}}\end{