精华内容
下载资源
问答
  • 高斯分布公式推导

    千次阅读 2020-07-14 11:34:02
    而满足上式的唯一的连续函数就是 g(x)=cxg(x)=cxg(x)=cx, 从而进一步可以求解出: f(x)=Mecx2 f(x)=Me^{cx2} f(x)=Mecx2 由于 f(x)f(x)f(x)是概率密度函数,把 f(x)f(x)f(x)正规化一下就得到均值为0的正态分布密度...

    设真值为 θ θ θ, x 1 , x 2 ⋯ , x n x_1,x_2⋯,x_n x1,x2,xn为 n 次独立测量值, 每次测量的误差为 e i = x i – θ e_i=x_i–θ ei=xiθ,假设误差 e i e_i ei的密度函数为 f ( e ) f(e) f(e), 则测量值的联合概率为 n n n个误差的联合概率,记为:
    L ( θ ) = L ( x 1 , x 2 , ⋯ , x n : θ ) = ∏ i = 1 n f ( e i ) = ∏ i = 1 n f ( x i − θ ) \begin{aligned} L(θ)&=L(x_1,x_2,⋯,x_n:\theta) \\ &= \prod_{i=1}^{n}f(e_i) \\ &= \prod_{i=1}^{n}f(x_i−θ) \end{aligned} L(θ)=L(x1,x2,,xn:θ)=i=1nf(ei)=i=1nf(xiθ)
    对上式两边取对数:
    l n L ( θ ) = ∑ i = 1 n l n f ( x i − θ ) lnL(\theta) = \sum_{i=1}^{n}lnf(x_i-\theta) lnL(θ)=i=1nlnf(xiθ)

    对上式两边求导:
    d l n L ( θ ) d θ = ∑ i = 1 n d l n f ( x i − θ ) d θ = ∑ i = 1 n f ′ ( x i − θ ) f ( x i − θ ) \begin{aligned} \frac {dlnL(θ)}{dθ} &= \sum_{i=1}^{n} \frac{dlnf(x_i-\theta)}{d\theta} \\ &= \sum_{i=1}^{n} \frac{f'(x_i-\theta)}{f(x_i-\theta)} \end{aligned} dθdlnL(θ)=i=1ndθdlnf(xiθ)=i=1nf(xiθ)f(xiθ)

    为求极大似然估计,令
    d l n L ( θ ) d θ = 0 \frac {dlnL(θ)}{dθ}=0 dθdlnL(θ)=0
    g ( x ) = f ′ ( x ) f ( x ) g(x)=\frac{f'(x)}{f(x)} g(x)=f(x)f(x),则有:
    ∑ i = 1 n g ( x i − θ ) = 0 \sum_{i=1}^{n} g(x_i-\theta) = 0 i=1ng(xiθ)=0
    由于高斯假设极大似然估计的解就是算术平均 x ‾ \overline{x} x,把解代入上式,可以得到:
    ∑ i = 1 n g ( x i − x ‾ ) = 0 (1) \sum_{i=1}^{n} g(x_i-\overline{x}) = 0 \tag 1 i=1ng(xix)=0(1)
    ( 1 ) (1) (1) 式中取 n = 2 n=2 n=2, 有:
    g ( x 1 − x ‾ ) + g ( x 2 − x ‾ ) = 0 g(x_1−\overline{x})+g(x_2−\overline{x})=0 g(x1x)+g(x2x)=0
    由于此时有 x 1 − x ‾ = − ( x 2 − x ‾ ) x_1−\overline{x}=−(x_2−\overline{x}) x1x=(x2x), 并且 x 1 , x 2 x_1,x_2 x1,x2是任意的,由此得到:
    g ( − x ) = − g ( x ) g(−x)=−g(x) g(x)=g(x)
    ( 1 ) (1) (1) 式中再取 n = m + 1 n=m+1 n=m+1, 并且取 x 1 = x 2 ⋯ = x m = − x ; x m + 1 = m x x_1=x_2⋯=x_m=−x; x_{m+1}=mx x1=x2=xm=x;xm+1=mx, 则有 x ‾ = 0 \overline{x}=0 x=0, 并且:
    ∑ i = 1 n g ( x i − x ‾ ) = m g ( − x ) + g ( m x ) = 0 \sum_{i=1}^{n}g(x_i-\overline{x}) = mg(-x)+g(mx) = 0 i=1ng(xix)=mg(x)+g(mx)=0
    即有:
    g ( m x ) = m g ( x ) g(mx)=mg(x) g(mx)=mg(x)
    而满足上式的唯一的连续函数就是 g ( x ) = c x g(x)=cx g(x)=cx, 从而进一步可以求解出:
    f ( x ) = M e c x 2 f(x)=Me^{cx2} f(x)=Mecx2
    由于 f ( x ) f(x) f(x)是概率密度函数,把 f ( x ) f(x) f(x)正规化一下就得到均值为0的正态分布密度函数 N ( 0 , σ 2 ) N(0,σ^2) N(0,σ2)

    展开全文
  • 上一讲对高维高斯概率分布N(μ,∑)\mathcal{N}(\mu,\sum)N(μ,∑)在定义域上积分为1进行了证明,这一讲来推导高斯分布的边缘概率条件概率公式。推导过程与PRML一书类似,但对细节进行了展开介绍。随后介绍如何利用...

    上一讲对高维高斯概率分布 N ( μ , ∑ ) \mathcal{N}(\mu,\sum) N(μ,)在定义域上积分为1进行了证明,这一讲来推导高斯分布的边缘概率和条件概率公式。边缘概率可从配二次型法得到,这一讲的推导过程比PRML一书更加详细。PRML一书直接在指数部分配二次型就得到了结果,并未对其中过程进行解释,有种根据结果必为高斯分布反推过程的感觉。随后介绍如何利用高斯随机变量的线性组合公式进行推导。高维高斯分布 N ( μ , ∑ ) \mathcal{N}(\mu,\sum) N(μ,)的具体公式可写为:
    N ( μ , ∑ ) = 1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 e − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) ,       ( 1 ) \mathcal{N}(\mu,\sum)=\frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T\sum^{-1}(\mathbf{x}-\mu)},\ \ \ \ \ (1) N(μ,)=(2π)2N211e21(xμ)T1(xμ),     (1) 数据 x ∈ R N \mathbf{x}\in\mathcal{R}^N xRN, ∑ \sum 为协方差矩阵 (正定对称)。

    由于 x = { x a , x b } ∼ N ( μ , ∑ ) \mathbf{x}=\{\mathbf{x}_a, \mathbf{x}_b\}\sim\mathcal{N}(\mu,\sum) x={xa,xb}N(μ,), 根据概率论中的定义:边缘概率(marginal probability) p ( x a ) = ∫ x ∈ R N p ( x a , x b ) d x b {\it p}(\mathbf{x}_a)=\int_{\mathbf{x}\in\mathcal{R}^N}\it p(\mathbf{x}_a, \mathbf{x}_b)d\mathbf{x}_b p(xa)=xRNp(xa,xb)dxb, 条件概率(conditional probability) p ( x a ∣ x b ) = p ( x a , x b ) p ( x b ) = N ( μ , ∑ ) ∫ x ∈ R N p ( x a , x b ) d x a {\it p}(\mathbf{x}_a|\mathbf{x}_b)=\frac{\it p(\mathbf{x_a}, \mathbf{x_b})}{\it p( \mathbf{x_b})}=\frac{\mathcal{N}(\mu,\sum)}{\int_{\mathbf{x}\in\mathcal{R}^N}\it p(\mathbf{x}_a, \mathbf{x}_b)d\mathbf{x}_a} p(xaxb)=p(xb)p(xa,xb)=xRNp(xa,xb)dxaN(μ,),。这两个概率的计算涉及到积分,看起来形式比较复杂。

    **

    1. 配二次型法

    **
    先假设 N = N a + N b N=N_a+N_b N=Na+Nb,其中 N a N_a Na x a \mathbf{x}_a xa的维度, N b N_b Nb x b \mathbf{x}_b xb的维度。同时,令 P = ∑ − 1 \mathbf{P}=\sum^{-1} P=1, 矩阵 P \mathbf{P} P有一个名字叫Precision matrix。

    下面是比较复杂的一步,对两个矩阵 P \mathbf{P} P ∑ \mathbf{\sum} 根据 x a \mathbf{x}_a xa x b \mathbf{x}_b xb的维度进行分块,并利用分块矩阵求逆的公式建立关联 (这是因为高维高斯分布用到 ∑ − 1 \mathbf{\sum}^{-1} 1,我们先建立前导知识)
    P = [ P a a P a b P b a P b b ] ,      ∑ = [ ∑ a a ∑ a b ∑ b a ∑ b b ] , \mathbf{P}=\left[\begin{array}{cc}\mathbf{P}_{aa}&\mathbf{P}_{ab} \\ \mathbf{P}_{ba}&\mathbf{P}_{bb} \end{array}\right], \ \ \ \ \sum = \left[\begin{array}{cc}\mathbf{\sum}_{aa}&\mathbf{\sum}_{ab} \\ \mathbf{\sum}_{ba}&\mathbf{\sum}_{bb} \end{array}\right], P=[PaaPbaPabPbb],    =[aabaabbb],
    先从讲述矩阵Schur complement的概念开始,这个概念在求解矩阵方程中常用,其实是消元法的矩阵版本。假设:
    ∑ [ x a x b ] = [ y a y b ] .       ( 2 ) \sum\left[\begin{array}{c}\mathbf{x}_a\\\mathbf{x}_b\end{array}\right]=\left[\begin{array}{c}\mathbf{y}_a\\\mathbf{y}_b\end{array}\right].\ \ \ \ \ (2) [xaxb]=[yayb].     (2) 那么我们有:
    ∑ a a x a + ∑ a b x b = y a ,       ( 3 ) \mathbf{\sum}_{aa}\mathbf{x}_a+\mathbf{\sum}_{ab}\mathbf{x}_b=\mathbf{y}_a,\ \ \ \ \ (3) aaxa+abxb=ya,     (3) ∑ b a x a + ∑ b b x b = y b ,       ( 4 ) \mathbf{\sum}_{ba}\mathbf{x}_a+\mathbf{\sum}_{bb}\mathbf{x}_b=\mathbf{y}_b,\ \ \ \ \ (4) baxa+bbxb=yb,     (4)
    由(2)推出: x b = ∑ b b − 1 y b − ∑ b b − 1 ∑ b a x a \mathbf{x}_b=\mathbf{\sum}_{bb}^{-1}\mathbf{y}_b - \mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba}\mathbf{x}_a xb=bb1ybbb1baxa, 代入公式(3)可得:
    ∑ a a x a + ∑ a b ( ∑ b b − 1 y b − ∑ b b − 1 ∑ b a x a ) = y a ,       ( 5 ) \mathbf{\sum}_{aa}\mathbf{x}_a+\mathbf{\sum}_{ab}(\mathbf{\sum}_{bb}^{-1}\mathbf{y}_b - \mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba}\mathbf{x}_a)=\mathbf{y}_a,\ \ \ \ \ (5) aaxa+ab(bb1ybbb1baxa)=ya,     (5)整理可得到求解 x a \mathbf{x}_a xa的公式为: x a = ( ∑ a a − ∑ a b ∑ b b − 1 ∑ b a ) − 1 ( y a − ∑ a b ∑ b b − 1 y b ) .       ( 6 ) \mathbf{x}_a=(\mathbf{\sum}_{aa}-\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba})^{-1}(\mathbf{y}_a-\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}\mathbf{y}_b). \ \ \ \ \ (6) xa=(aaabbb1ba)1(yaabbb1yb).     (6)上式中 M a = ( ∑ a a − ∑ a b ∑ b b − 1 ∑ b a ) − 1 \mathbf{M}_a =(\mathbf{\sum}_{aa}-\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba})^{-1} Ma=(aaabbb1ba)1即为矩阵 ∑ b b \mathbf{\sum}_{bb} bb的Schur complement。注意,同理可得矩阵 ∑ a a \mathbf{\sum}_{aa} aa的Schur complement为 M b = ( ∑ b b − ∑ b a ∑ a a − 1 ∑ a b ) − 1 \mathbf{M}_b =(\mathbf{\sum}_{bb}-\mathbf{\sum}_{ba}\mathbf{\sum}_{aa}^{-1}\mathbf{\sum}_{ab})^{-1} Mb=(bbbaaa1ab)1。能求解 x a \mathbf{x}_a xa x b \mathbf{x}_b xb就能求出矩阵 ∑ \mathbf{\sum} 的逆矩阵:
    ∑ − 1 [ y a y b ] = [ M a − M a ∑ a b ∑ b b − 1 − ∑ b b − 1 ∑ b a M a ∑ b b − 1 ( I + ∑ b a M a ∑ a b ∑ b b − 1 ) ] [ y a y b ] = [ x a x b ]      ( 7 ) \mathbf{\sum}^{-1}\left[\begin{array}{c}\mathbf{y}_a\\\mathbf{y}_b\end{array}\right]=\left[\begin{array}{cc}\mathbf{M}_a&-\mathbf{M}_a\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}\\ -\mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba}\mathbf{M}_{a}&\mathbf{\sum}_{bb}^{-1}(\mathbf{I}+\mathbf{\sum}_{ba}\mathbf{M}_{a}\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1})\end{array}\right]\left[\begin{array}{c}\mathbf{y}_a\\\mathbf{y}_b\end{array}\right]=\left[\begin{array}{c}\mathbf{x}_a\\\mathbf{x}_b\end{array}\right]\ \ \ \ (7) 1[yayb]=[Mabb1baMaMaabbb1bb1(I+baMaabbb1)][yayb]=[xaxb]    (7)

    提示:逆矩阵的形式推导主要是要从 y a \mathbf{y}_a ya y b \mathbf{y}_b yb求解 x a \mathbf{x}_a xa x b \mathbf{x}_b xb。可首先把公式(6)代入公式(4): ∑ b a M a ( y a − ∑ a b ∑ b b − 1 y b ) + ∑ b b x b = y b ,      ( 8 ) \mathbf{\sum}_{ba}\mathbf{M}_a(\mathbf{y}_a-\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}\mathbf{y}_b)+\mathbf{\sum}_{bb}\mathbf{x}_b=\mathbf{y}_b,\ \ \ \ (8) baMa(yaabbb1yb)+bbxb=yb    (8)整理可得:
    x b = ∑ b b − 1 ( I + ∑ b a M a ∑ a b ∑ b b − 1 ) y b − ∑ b b − 1 ∑ b a M a y a .      ( 9 ) \mathbf{x}_b=\mathbf{\sum}_{bb}^{-1}(\mathbf{I}+\mathbf{\sum}_{ba}\mathbf{M}_{a}\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1})\mathbf{y}_b-\mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba}\mathbf{M}_{a}\mathbf{y}_a.\ \ \ \ (9) xb=bb1(I+baMaabbb1)ybbb1baMaya.    (9) y a \mathbf{y}_a ya y b \mathbf{y}_b yb的系数即为公式(7)中的第一行。

    注:矩阵 ∑ \mathbf{\sum} 的逆矩阵的另外一个形式如下:
    ∑ − 1 [ y a y b ] = [ ∑ a a − 1 ( I + ∑ a b M b ∑ b a ∑ a a − 1 ) − ∑ a a − 1 ∑ a b M b − M b ∑ b a ∑ a a − 1 M b ] [ y a y b ] = [ x a x b ]      ( 10 ) \mathbf{\sum}^{-1}\left[\begin{array}{c}\mathbf{y}_a\\\mathbf{y}_b\end{array}\right]=\left[\begin{array}{cc}\mathbf{\sum}_{aa}^{-1}(\mathbf{I}+\mathbf{\sum}_{ab}\mathbf{M}_{b}\mathbf{\sum}_{ba}\mathbf{\sum}_{aa}^{-1})&-\mathbf{\sum}_{aa}^{-1}\mathbf{\sum}_{ab}\mathbf{M}_{b}\\ -\mathbf{M}_b\mathbf{\sum}_{ba}\mathbf{\sum}_{aa}^{-1}&\mathbf{M}_b\end{array}\right]\left[\begin{array}{c}\mathbf{y}_a\\\mathbf{y}_b\end{array}\right]=\left[\begin{array}{c}\mathbf{x}_a\\\mathbf{x}_b\end{array}\right]\ \ \ \ (10) 1[yayb]=[aa1(I+abMbbaaa1)Mbbaaa1aa1abMbMb][yayb]=[xaxb]    (10)
    公式(7)和(10)都可以是矩阵 P \mathbf{P} P的具体形式。

    现在开始推导边缘概率 p ( x a ) \it p(\mathbf{x}_a) p(xa):
    p ( x a ) = ∫ x b ∈ R b N 1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 e − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) d x b = 1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 ∫ x b ∈ R b N e − 1 2 ( [ ( x a − μ a ) T ( x b − μ b ) T ] ) [ P a a P a b P b a P b b ] [ x a − μ a x b − μ b ] d x b = x ^ a = x a − μ a , x ^ b = x b − μ b 1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 ∫ x ^ b ∈ R b N e − 1 2 ( [ x ^ a T x ^ b T ] [ P a a P a b P b a P b b ] [ x ^ a x ^ b ] ) d x ^ b = 1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 ∫ x ^ b ∈ R b N e − 1 2 ( x ^ a T P a a x ^ a + x ^ a T P a b x ^ b + x ^ b T P b a x ^ a + x ^ b T P b b x ^ b ) d x ^ b = 1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 e − 1 2 x ^ a T P a a x ^ a ∫ x ^ b ∈ R b N e − 1 2 ( 2 ∗ x ^ b T P b a x ^ a + x ^ b T P b b x ^ b ) d x ^ b = 1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 e − 1 2 x ^ a T P a a x ^ a ∫ x ^ b ∈ R b N e − 1 2 ( ( x ^ b + P b b − 1 P b a x ^ a ) T P b b ( x ^ b + P b b − 1 P b a x ^ a ) − x ^ a T P a b P b b − 1 P b a x ^ a ) d x ^ b = 1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 e − 1 2 x ^ a T ( P a a − P a b P b b − 1 P b a ) x ^ a ∫ x ^ b ∈ R b N e − 1 2 ( ( x ^ b + P b b − 1 P b a x ^ a ) T P b b ( x ^ b + P b b − 1 P b a x ^ a ) d x ^ b , {\it p}(\mathbf{x}_a)=\int_{\mathbf{x}_b\in\mathcal{R}^N_b}\frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T\sum^{-1}(\mathbf{x}-\mu)}d\mathbf{x}_b \\ \\ =\frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}\int_{\mathbf{x}_b\in\mathcal{R}^N_b}e^{-\frac{1}{2}(\left[\begin{array}{cc}(\mathbf{x}_a -\mu_a)^T&(\mathbf{x}_b-\mu_b)^T\end{array}\right])\left[\begin{array}{cc}\mathbf{P}_{aa}&\mathbf{P}_{ab} \\ \mathbf{P}_{ba}&\mathbf{P}_{bb} \end{array}\right]\left[\begin{array}{c}\mathbf{x}_a-\mathbf{\mu}_a \\ \mathbf{x}_b-\mathbf{\mu}_b\end{array}\right]}d\mathbf{x}_b \\ \\ \underset{\hat{\mathbf{x}}_a=\mathbf{x}_a-\mu_a,\hat{\mathbf{x}}_b=\mathbf{x}_b-\mu_b}{=}\frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}\int_{\hat{\mathbf{x}}_b\in\mathcal{R}^N_b}e^{-\frac{1}{2}(\left[\begin{array}{cc}\hat{\mathbf{x}}_a^T &\hat{\mathbf{x}}_b^T\end{array}\right]\left[\begin{array}{cc}\mathbf{P}_{aa}&\mathbf{P}_{ab} \\ \mathbf{P}_{ba}&\mathbf{P}_{bb} \end{array}\right]\left[\begin{array}{c}\hat{\mathbf{x}}_a \\ \hat{\mathbf{x}}_b\end{array}\right])}d\hat{\mathbf{x}}_b \\ \\ =\frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}\int_{\hat{\mathbf{x}}_b\in\mathcal{R}^N_b}e^{-\frac{1}{2}(\hat{\mathbf{x}}_a^T\mathbf{P}_{aa}\hat{\mathbf{x}}_a+\hat{\mathbf{x}}_a^T\mathbf{P}_{ab}\hat{\mathbf{x}}_b+\hat{\mathbf{x}}_b^T\mathbf{P}_{ba}\hat{\mathbf{x}}_a+\hat{\mathbf{x}}_b^T\mathbf{P}_{bb}\hat{\mathbf{x}}_b)}d\hat{\mathbf{x}}_b \\ \\ = \frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}e^{-\frac{1}{2}\hat{\mathbf{x}}_a^T\mathbf{P}_{aa}\hat{\mathbf{x}}_a}\int_{\hat{\mathbf{x}}_b\in\mathcal{R}^N_b}e^{-\frac{1}{2}(2*\hat{\mathbf{x}}_b^T\mathbf{P}_{ba}\hat{\mathbf{x}}_a+\hat{\mathbf{x}}_b^T\mathbf{P}_{bb}\hat{\mathbf{x}}_b)}d\hat{\mathbf{x}}_b \\ \\ = \frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}e^{-\frac{1}{2}\hat{\mathbf{x}}_a^T\mathbf{P}_{aa}\hat{\mathbf{x}}_a}\int_{\hat{\mathbf{x}}_b\in\mathcal{R}^N_b}e^{-\frac{1}{2}((\hat{\mathbf{x}}_b+\mathbf{P}_{bb}^{-1}\mathbf{P}_{ba}\hat{\mathbf{x}}_a)^T\mathbf{P}_{bb}(\hat{\mathbf{x}}_b+\mathbf{P}_{bb}^{-1}\mathbf{P}_{ba}\hat{\mathbf{x}}_a)-\hat{\mathbf{x}}_a^T\mathbf{P}_{ab}\mathbf{P}_{bb}^{-1}\mathbf{P}_{ba}\hat{\mathbf{x}}_a)}d\hat{\mathbf{x}}_b \\ \\ = \frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}e^{-\frac{1}{2}\hat{\mathbf{x}}_a^T(\mathbf{P}_{aa}-\mathbf{P}_{ab}\mathbf{P}_{bb}^{-1}\mathbf{P}_{ba})\hat{\mathbf{x}}_a}\int_{\hat{\mathbf{x}}_b\in\mathcal{R}^N_b}e^{-\frac{1}{2}((\hat{\mathbf{x}}_b+\mathbf{P}_{bb}^{-1}\mathbf{P}_{ba}\hat{\mathbf{x}}_a)^T\mathbf{P}_{bb}(\hat{\mathbf{x}}_b+\mathbf{P}_{bb}^{-1}\mathbf{P}_{ba}\hat{\mathbf{x}}_a)}d\hat{\mathbf{x}}_b, p(xa)=xbRbN(2π)2N211e21(xμ)T1(xμ)dxb=(2π)2N211xbRbNe21([(xaμa)T(xbμb)T])[PaaPbaPabPbb][xaμaxbμb]dxbx^a=xaμa,x^b=xbμb=(2π)2N211x^bRbNe21([x^aTx^bT][PaaPbaPabPbb][x^ax^b])dx^b=(2π)2N211x^bRbNe21(x^aTPaax^a+x^aTPabx^b+x^bTPbax^a+x^bTPbbx^b)dx^b=(2π)2N211e21x^aTPaax^ax^bRbNe21(2x^bTPbax^a+x^bTPbbx^b)dx^b=(2π)2N211e21x^aTPaax^ax^bRbNe21((x^b+Pbb1Pbax^a)TPbb(x^b+Pbb1Pbax^a)x^aTPabPbb1Pbax^a)dx^b=(2π)2N211e21x^aT(PaaPabPbb1Pba)x^ax^bRbNe21((x^b+Pbb1Pbax^a)TPbb(x^b+Pbb1Pbax^a)dx^b,由上一讲证明高斯分布的积分结果,可得: ∫ x ^ b ∈ R b N e − 1 2 ( ( x ^ b + P b b − 1 P b a x ^ a ) T P b b ( x ^ b + P b b − 1 P b a x ^ a ) d x ^ b = ( 2 π ) N b 2 ∣ P b b ∣ 1 2 . \int_{\hat{\mathbf{x}}_b\in\mathcal{R}^N_b}e^{-\frac{1}{2}((\hat{\mathbf{x}}_b+\mathbf{P}_{bb}^{-1}\mathbf{P}_{ba}\hat{\mathbf{x}}_a)^T\mathbf{P}_{bb}(\hat{\mathbf{x}}_b+\mathbf{P}_{bb}^{-1}\mathbf{P}_{ba}\hat{\mathbf{x}}_a)}d\hat{\mathbf{x}}_b=\frac{(2\pi)^{\frac{N_b}{2}}}{|\mathbf{P}_{bb}|^{\frac{1}{2}}}. x^bRbNe21((x^b+Pbb1Pbax^a)TPbb(x^b+Pbb1Pbax^a)dx^b=Pbb21(2π)2Nb.

    同时,根据分块矩阵的行列式公式及上面的 Schur complent的推导 ∣ ∑ ∣ = ∣ ∑ a a ∣ ∣ ∑ b b − ∑ b a ∑ a a − 1 ∑ a b ∣ = ∣ ∑ a a ∣ ∣ M b ∣ = ∣ ∑ a a ∣ ∣ P b b ∣ 1 2 |\sum|=|\mathbf{\sum}_{aa}||\mathbf{\sum}_{bb}-\mathbf{\sum}_{ba}\mathbf{\sum}_{aa}^{-1}\mathbf{\sum}_{ab}|=\frac{|\mathbf{\sum}_{aa}|}{|\mathbf{M}_b|}=\frac{|\mathbf{\sum}_{aa}|}{|\mathbf{P}_{bb}|^{\frac{1}{2}}} =aabbbaaa1ab=Mbaa=Pbb21aa, 我们可得:
    1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 ( 2 π ) N b 2 ∣ P b b ∣ 1 2 = 1 ( 2 π ) N a 2 ∣ ∑ a a ∣ 1 2 \frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}\frac{(2\pi)^{\frac{N_b}{2}}}{|\mathbf{P}_{bb}|^{\frac{1}{2}}}=\frac{1}{(2\pi)^{\frac{N_a}{2}}|\mathbf{\sum}_{aa}|^{\frac{1}{2}}} (2π)2N211Pbb21(2π)2Nb=(2π)2Naaa211
    接下来,我们需要说明 P a a − P a b P b b − 1 P b a = ∑ a a − 1 \mathbf{P}_{aa}-\mathbf{P}_{ab}\mathbf{P}_{bb}^{-1}\mathbf{P}_{ba}=\mathbf{\sum}_{aa}^{-1} PaaPabPbb1Pba=aa1。此结论由公式(10)可以顺利推出,不再详细展开。因此,我们可得:
    p ( x a ) = ∫ x b ∈ R b N 1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 e − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) d x b = 1 ( 2 π ) N a 2 ∣ ∑ a a ∣ 1 2 e − 1 2 x ^ a T ∑ a a − 1 x ^ a = 1 ( 2 π ) N a 2 ∣ ∑ a a ∣ 1 2 e − 1 2 ( x a − μ a ) T ∑ a a − 1 ( x a − μ a ) . {\it p}(\mathbf{x}_a)=\int_{\mathbf{x}_b\in\mathcal{R}^N_b}\frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T\sum^{-1}(\mathbf{x}-\mu)}d\mathbf{x}_b=\frac{1}{(2\pi)^{\frac{N_a}{2}}|\mathbf{\sum}_{aa}|^{\frac{1}{2}}}e^{-\frac{1}{2}\hat{\mathbf{x}}_a^T\mathbf{\sum}_{aa}^{-1}\hat{\mathbf{x}}_a} \\ \\ = \frac{1}{(2\pi)^{\frac{N_a}{2}}|\mathbf{\sum}_{aa}|^{\frac{1}{2}}}e^{-\frac{1}{2}(\mathbf{x}_a-\mu_a)^T\mathbf{\sum}_{aa}^{-1}(\mathbf{x}_a-\mu_a)}. p(xa)=xbRbN(2π)2N211e21(xμ)T1(xμ)dxb=(2π)2Naaa211e21x^aTaa1x^a=(2π)2Naaa211e21(xaμa)Taa1(xaμa).
    所以,最终的结论是 p ( x a ) ∼ N ( μ a , ∑ a a ) \it p(\mathbf{x}_a)\sim\mathcal{N}(\mu_a, \mathbf{\sum}_{aa}) p(xa)N(μa,aa)

    下面开始推导条件概率 p ( x a ∣ x b ) \it p(\mathbf{x}_a|\mathbf{x}_b) p(xaxb):
    p ( x a ∣ x b ) = 1 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 e − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) 1 ( 2 π ) N a 2 ∣ ∑ b b ∣ 1 2 e − 1 2 ( x b − μ b ) T ∑ b b − 1 ( x b − μ b ) = ( 2 π ) N a 2 ∣ ∑ b b ∣ 1 2 ( 2 π ) N 2 ∣ ∑ ∣ 1 2 e − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) + 1 2 ( x b − μ b ) T ∑ b b − 1 ( x b − μ b ) p(\mathbf{x}_a|\mathbf{x}_b)=\frac{\frac{1}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T\sum^{-1}(\mathbf{x}-\mu)}}{\frac{1}{(2\pi)^{\frac{N_a}{2}}|\mathbf{\sum}_{bb}|^{\frac{1}{2}}}e^{-\frac{1}{2}(\mathbf{x}_b-\mu_b)^T\mathbf{\sum}_{bb}^{-1}(\mathbf{x}_b-\mu_b)}} = \frac{(2\pi)^{\frac{N_a}{2}}|\mathbf{\sum}_{bb}|^{\frac{1}{2}}}{(2\pi)^{\frac{N}{2}}|\sum|^\frac{1}{2}}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T\sum^{-1}(\mathbf{x}-\mu)+\frac{1}{2}(\mathbf{x}_b-\mu_b)^T\mathbf{\sum}_{bb}^{-1}(\mathbf{x}_b-\mu_b)} p(xaxb)=(2π)2Nabb211e21(xbμb)Tbb1(xbμb)(2π)2N211e21(xμ)T1(xμ)=(2π)2N21(2π)2Nabb21e21(xμ)T1(xμ)+21(xbμb)Tbb1(xbμb)
    先对指数部分进行变换:
    − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) + 1 2 ( x b − μ b ) T ∑ b b − 1 ( x b − μ b ) = − 1 2 ( [ ( x a − μ a ) T ( x b − μ b ) T ] ) [ P a a P a b P b a P b b ] [ x a − μ a x b − μ b ] ) + 1 2 ( x b − μ b ) T ∑ b b − 1 ( x b − μ b ) ,      ( 11 ) -\frac{1}{2}(\mathbf{x}-\mu)^T\mathbf{\sum}^{-1}(\mathbf{x}-\mu)+\frac{1}{2}(\mathbf{x}_b-\mu_b)^T\mathbf{\sum}_{bb}^{-1}(\mathbf{x}_b-\mu_b) \\ = -\frac{1}{2}(\left[\begin{array}{cc}(\mathbf{x}_a -\mu_a)^T&(\mathbf{x}_b-\mu_b)^T\end{array}\right])\left[\begin{array}{cc}\mathbf{P}_{aa}&\mathbf{P}_{ab} \\ \mathbf{P}_{ba}&\mathbf{P}_{bb} \end{array}\right]\left[\begin{array}{c}\mathbf{x}_a-\mathbf{\mu}_a \\ \mathbf{x}_b-\mathbf{\mu}_b\end{array}\right])+\frac{1}{2}(\mathbf{x}_b-\mu_b)^T\mathbf{\sum}_{bb}^{-1}(\mathbf{x}_b-\mu_b), \ \ \ \ (11) 21(xμ)T1(xμ)+21(xbμb)Tbb1(xbμb)=21([(xaμa)T(xbμb)T])[PaaPbaPabPbb][xaμaxbμb])+21(xbμb)Tbb1(xbμb),    (11)由于 ∑ b b − 1 = P b b − P b a P a a − 1 P a b \mathbf{\sum}_{bb}^{-1} = \mathbf{P}_{bb}-\mathbf{P}_{ba}\mathbf{P}_{aa}^{-1}\mathbf{P}_{ab} bb1=PbbPbaPaa1Pab, 将其代入公式(11)并整理可得:
    − 1 2 ( ( x a − μ a ) T P a a ( x a − μ a ) + ( x a − μ a ) T P a b ( x b − μ b ) + ( x b − μ b ) T P b a ( x a − μ a ) + ( x b − μ b ) T P b b ( x b − μ b ) − ( x b − μ b ) T ( P b b − P b a P a a − 1 P a b ) ( x b − μ b ) ) = − 1 2 ( ( x a − μ a ) T P a a ( x a − μ a ) + 2 ∗ ( x a − μ a ) T P a b ( x b − μ b ) + ( x b − μ b ) T P b a P a a − 1 P a b ( x b − μ b ) ) = − 1 2 ( ( x a − μ a + P a a − 1 P a b ( x b − μ b ) ) T P a a ( x a − μ a + P a a − 1 P a b ( x b − μ b ) ) ) ,      ( 12 ) -\frac{1}{2}((\mathbf{x}_a -\mu_a)^T\mathbf{P}_{aa}(\mathbf{x}_a -\mu_a)+(\mathbf{x}_a -\mu_a)^T\mathbf{P}_{ab}(\mathbf{x}_b -\mu_b) +(\mathbf{x}_b -\mu_b)^T\mathbf{P}_{ba}(\mathbf{x}_a -\mu_a) \\ +(\mathbf{x}_b -\mu_b)^T\mathbf{P}_{bb}(\mathbf{x}_b -\mu_b) - (\mathbf{x}_b -\mu_b)^T(\mathbf{P}_{bb}-\mathbf{P}_{ba}\mathbf{P}_{aa}^{-1}\mathbf{P}_{ab})(\mathbf{x}_b -\mu_b)) \\ = -\frac{1}{2}((\mathbf{x}_a -\mu_a)^T\mathbf{P}_{aa}(\mathbf{x}_a -\mu_a)+2*(\mathbf{x}_a -\mu_a)^T\mathbf{P}_{ab}(\mathbf{x}_b -\mu_b) + (\mathbf{x}_b -\mu_b)^T\mathbf{P}_{ba}\mathbf{P}_{aa}^{-1}\mathbf{P}_{ab}(\mathbf{x}_b -\mu_b)) \\ = -\frac{1}{2}((\mathbf{x}_a -\mu_a+ \mathbf{P}_{aa}^{-1}\mathbf{P}_{ab}(\mathbf{x}_b -\mu_b))^T\mathbf{P}_{aa}(\mathbf{x}_a -\mu_a+\mathbf{P}_{aa}^{-1}\mathbf{P}_{ab}(\mathbf{x}_b -\mu_b))),\ \ \ \ (12) 21((xaμa)TPaa(xaμa)+(xaμa)TPab(xbμb)+(xbμb)TPba(xaμa)+(xbμb)TPbb(xbμb)(xbμb)T(PbbPbaPaa1Pab)(xbμb))=21((xaμa)TPaa(xaμa)+2(xaμa)TPab(xbμb)+(xbμb)TPbaPaa1Pab(xbμb))=21((xaμa+Paa1Pab(xbμb))TPaa(xaμa+Paa1Pab(xbμb))),    (12)注意:在推导条件概率时 x b \mathbf{x}_b xb需要当成已知量。因为只有已知 x b \mathbf{x}_b xb,才可确定条件概率。

    观察上式,只要 P a a = ( ∑ a a − ∑ a b ∑ b b − 1 ∑ b a ) − 1 \mathbf{P}_{aa}=(\mathbf{\sum}_{aa}-\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba})^{-1} Paa=(aaabbb1ba)1 ∣ ∑ b b ∣ 1 2 ∣ ∑ ∣ 1 2 \frac{|\mathbf{\sum}_{bb}|^{\frac{1}{2}}}{|\sum|^\frac{1}{2}} 21bb21配合起来,即: ∣ ∑ b b ∣ 1 2 ∣ ∑ ∣ 1 2 = 1 ∣ ∑ a a − ∑ a b ∑ b b − 1 ∑ b a ∣ 1 2 \frac{|\mathbf{\sum}_{bb}|^{\frac{1}{2}}}{|\sum|^\frac{1}{2}}=\frac{1}{|\mathbf{\sum}_{aa}-\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba}|^{\frac{1}{2}}} 21bb21=aaabbb1ba211, 整个式子就可以成为一个积分为1的概率分布(见高斯分布数学性质即推导(一))。这部分的推导比较简单,由分块矩阵的行列式值公式 ∣ ∑ ∣ = ∣ ∑ b b ∣ ∣ ∑ a a − ∑ a b ∑ b b − 1 ∑ b a ∣ |\sum|=|\mathbf{\sum}_{bb}||\mathbf{\sum}_{aa}-\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba}| =bbaaabbb1ba即可得。因此,条件概率 p ( x a ∣ x b ) p(\mathbf{x}_a|\mathbf{x}_b) p(xaxb)的协方差矩阵就是 ( ∑ a a − ∑ a b ∑ b b − 1 ∑ b a ) (\mathbf{\sum}_{aa}-\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba}) (aaabbb1ba)。均值比较简单,从公式(12)立即可以得出均值为: μ a − P a a − 1 P a b ( x b − μ b ) = μ a − M a − 1 ∗ ( − M a ∑ a b ∑ b b − 1 ) ( x b − μ b ) = μ a + ∑ a b ∑ b b − 1 ( x b − μ b ) \mu_a-\mathbf{P}_{aa}^{-1}\mathbf{P}_{ab}(\mathbf{x}_b-\mu_b)=\mu_a-\mathbf{M}_a^{-1}*(-\mathbf{M}_a\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1})(\mathbf{x}_b-\mu_b)=\mu_a+\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}(\mathbf{x}_b-\mu_b) μaPaa1Pab(xbμb)=μaMa1(Maabbb1)(xbμb)=μa+abbb1(xbμb)

    所以,可得出结论: p ( x a ∣ x b ) ∼ N ( μ a + ∑ a b ∑ b b − 1 ( x b − μ b ) , ∑ a a − ∑ a b ∑ b b − 1 ∑ b a ) \it p(\mathbf{x}_a|\mathbf{x}_b)\sim\mathcal{N}(\mu_a+\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}(\mathbf{x}_b-\mu_b), \mathbf{\sum}_{aa}-\mathbf{\sum}_{ab}\mathbf{\sum}_{bb}^{-1}\mathbf{\sum}_{ba}) p(xaxb)N(μa+abbb1(xbμb),aaabbb1ba)

    展开全文
  • 1 基本概念准备 1.1 扇形计算公式 1.2 二重积分用极坐标表示 (略去高阶无穷小) 所以 2 高斯分布公式 2.1 高斯概率密度函数的的积分 令 则 用极坐标表示: ...2.2 高斯分布的期望 ...高斯分布期望...

    1 基本概念准备

    1.1 扇形计算公式

    \Delta \sigma = \frac{\Delta \theta r^2}{2}

    1.2 二重积分用极坐标表示

    \Delta \sigma_k =\frac{(r+\Delta r)^2 \Delta \theta - r^2\Delta \theta}{2} = \frac{r \Delta r \Delta \theta+\Delta r^2 \Delta \theta}{2} \approx \frac{r \Delta r \Delta \theta}{2}  (略去高阶无穷小)

    所以 d\sigma = rdrd\theta

    1.3 一阶矩和二阶矩

    一阶矩就是期望值,换句话说就是平均数(离散随机变量很好理解,连续的可以类比一下)。举例:xy坐标系中,x取大于零的整数,y1, y2, ...,yn 对应x=1, 2,..., n的值,现在我要对y求期望,就是所有y累加除以n,也就是y的均值。

    此时y的均值我可以在坐标系中画一条线,我会发现所有的点都在这条线的两边。如果是中心矩我就会用每个值减去均值z=yn-y均作为一个新的序列z1, z2, ..., zn,再对z求期望,这时我会发现均值为零(即在坐标轴y上)。一阶矩只有一阶非中心矩,因为一阶中心矩永远等于零。

    二阶(非中心)矩就是对变量的平方求期望,二阶中心矩就是对随机变量与均值(期望)的差的平方求期望。为什么要用平方,因为如果序列中有负数就会产生较大波动,而平方运算就好像对序列添加了绝对值,这样更能体现偏离均值的范围。

    2 高斯分布公式

    2.1  高斯概率密度函数的的积分

    令 I = \int^{+\infty}_{-\infty} e^{\frac{-x ^2}{2\sigma^2}}dx

    I^2 = \int_{-\infty }^{+\infty } e^{-\frac{x ^2+y^2}{2\sigma^2}}dxdy

    用极坐标表示:

    \left \{\begin { matrix} x=rcos\theta \\y =rsin\theta \\ \end{matrix}\right.

    则:

    I^2 =\int ^{2\pi}_{0} \int^{+\infty}_{0}e^-{\frac{r^2}{2\sigma^2}}rdrd\theta = 2\pi\int^{+\infty}_{0}e^{-\frac{u}{2\sigma^2}}\frac{1}{2}du = \pi e^{-\frac{u}{2 \sigma^2}}(-2\sigma^2)|^{\infty}_{0}

     

    I^2 = 2\pi\sigma^2

     

    所以:

    \int^{+\infty }_{-\infty} N(x | \mu, \sigma) dx = \frac{1}{2\pi \sigma^2} 2\pi \sigma^2 = 1

     

    2.2 高斯分布的期望

    E(x) = \int^{+\infty}_{-\infty} x N(x|\mu,\sigma)dx = \int^{+\infty}_{-\infty} x \frac{1}{\sqrt{2\pi}\sigma}e^{\frac{(\mu -x)^2}{2\pi \sigma^2}}dx

    x = x -\mu

    则:

    E(x) = \int^{+\infty}_{-\infty} x \frac{1}{\sqrt{2\pi}\sigma}e^{\frac{(x)^2}{2\pi \sigma^2}}dx + \int^{+\infty}_{-\infty} \mu \frac{1}{\sqrt{2\pi}\sigma}e^{\frac{(x)^2}{2\pi \sigma^2}}dx

    这里\int^{+\infty}_{-\infty} x \frac{1}{\sqrt{2\pi}\sigma}e^{\frac{(x)^2}{2\pi \sigma^2}}dx为奇函数,所以积分结果为0

    所以:

    E(x) =\mu \int^{+\infty}_{-\infty} \frac{1}{\sqrt{2\pi}\sigma}e^{\frac{(x)^2}{2\pi \sigma^2}}dx = \mu

     

     

    这里

    参考:

    高斯分布期望的推导

    高斯分布归一化、期望、二阶矩、方差推导证明

     

     

     

     

     

    展开全文
  • ∫−∞∞e−x2dx=π的推导\int _ { - \infty } ^ { \infty }e^{-x^2} dx= \sqrt { \pi } 的推导∫−∞∞​e−x2dx=π​的推导 ∬e−x2e−y2dxdy=∬e−(x2+y2)dxdy⟶dxdy=rdθdr∫02πdθ∫0+∞12er2dr2\iint e^{-x^2...

    高斯分布可从二重积分换元法得一个结果开始推导:

    ∫ − ∞ ∞ e − x 2 d x = π 的 推 导 \int _ { - \infty } ^ { \infty }e^{-x^2} dx= \sqrt { \pi } 的推导 ex2dx=π

    ∬ e − x 2 e − y 2 d x d y = ∬ e − ( x 2 + y 2 ) d x d y ⟶ d x d y = r d θ d r ∫ 0 2 π d θ ∫ 0 + ∞ 1 2 e − r 2 d r 2 \iint e^{-x^2}e^{-y^2}dxdy=\iint e^{-(x^2+y^2)}dxdy \stackrel{dxdy=rdθdr}{\longrightarrow} \int_0^{2\pi}dθ\int_{0}^{+\infty} \frac{1}{2}e^{-r^2}dr^2 ex2ey2dxdy=e(x2+y2)dxdydxdy=rdθdr02πdθ0+21er2dr2


    ∫ − ∞ ∞ e − x 2 d x = π \int _ { - \infty } ^ { \infty }e^{-x^2} dx= \sqrt { \pi } ex2dx=π
    对x做一个线性变换

    ∫ − ∞ + ∞ e − ( x ) 2 2 σ 2 = 2 π σ \int _ { - \infty } ^ { +\infty } e^{- \frac { (x ) ^ { 2 } } { 2 σ ^ { 2 } }}= \sqrt { 2 \pi } σ +e2σ2x2=2π σ

    ∫ − ∞ + ∞ 1 2 π σ e − ( x ) 2 2 σ 2 = 1 \int _ { - \infty } ^ { +\infty } \frac { 1 } { \sqrt { 2 \pi } σ }e^{- \frac { (x ) ^ { 2 } } { 2 σ ^ { 2 } }}=1 +2π σ1e2σ2x2=1

    ∫ − ∞ + ∞ 1 2 π σ e − ( x − μ ) 2 2 σ 2 = 1 \int _ { - \infty } ^ { +\infty } \frac { 1 } { \sqrt { 2 \pi } σ }e^{- \frac { (x - μ) ^ { 2 } } { 2 σ ^ { 2 } }}=1 +2π σ1e2σ2xμ2=1

    展开全文
  • 高斯分布期望的推导

    万次阅读 多人点赞 2016-09-19 00:36:09
    高斯分布期望的推导 高斯分布方差的推导
  • MCMC算法--Gibbs采样2:多元高斯分布的边际分布与条件分布
  • 高斯分布是概率统计机器学习中最常用到的分布之一,在数学上经常被记为N(μ,∑)\mathcal{N}(\mu, \sum)N(μ,∑),其中μ\muμ为均值,∑\sum∑是协方差矩阵。高维高斯分布的具体形式如下: N(μ,∑)=1(2π)D2∣∑...
  • 著名的de Moivre的Laplace极限定理从特定条件下的二项式概率质量函数证明了高斯分布的概率密度函数。... 本文提出了一种可替代的,不太严格的方法,该方法可以在某些假设条件下,从基本随机实验中推导高斯分布
  • 两个高斯分布乘积的推导及解释,BPMF 公式推导

    万次阅读 热门讨论 2018-03-31 17:59:13
    1. 两个高斯分布的乘积 2. BPMF 公式推导 两个高斯分布乘积服从高斯分布 BPMF模型中公式推导 高斯先验+ 高斯似然=高斯后验分布 然而,很多时候, 化简成 标准的形式是困难的。 本文考虑从一阶导数...
  • 高斯分布相乘推导

    千次阅读 2020-06-22 11:23:19
    假设两个高斯(正态)分布概率模型服从: p(w)∼N(μ0,σ02)(1-1) p(w) \sim N(\mu_0, \sigma_0^2)\tag{1-1} p(w)∼N(μ0​,σ02​)(1-1) p(v)∼N(μ1,σ12)(1-2) p(v)\sim N(\mu_1, \sigma_1^2)\tag{1-2} p(v)∼N...
  • 设a为真值,x1为测量值,δ1为误差,那么 误差为δ1的观测值x1出现的概率为f(δ1)dδ1 误差为δ2的观测值x2出现的概率为f(δ2)dδ2 …… 误差为δN的观测值xN出现的概率为f(δN)dδN 由于δ1,δ2,……,δN...
  • 多变量高斯分布推导

    2020-02-25 09:56:46
    https://www.cnblogs.com/bingjianing/p/9117330.html
  • https://zhuanlan.zhihu.com/p/36522776
  • 高斯分布概率密度函数积分推导

    千次阅读 2019-10-04 20:34:42
    高斯分布: $f(x) = \frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x-\mu)^{2}}{2\sigma^{2}})$ ...一个高斯分布只需线性变换即可化为标准高斯分布,所以只需推导标准高斯分布概率密度的积分。由...
  • 多元高斯分布中有一条重要的性质,如果两个变量集的联合是高斯分布,那么其中一个变量集在以另一个变量集为条件下的分布依然是高斯分布,并且可以通过公式推导求出该条件的期望方差。下面给出具体分析。 假设D维...
  • 哈工大研究生课程讲义高斯分布参数的极大似然估计,EM算法
  • 本博客为(系列二)的笔记,对应的视频是:【(系列二) 数学基础-概率-高斯分布1-极大似然估计】、【(系列二) 数学基础-概率-高斯分布2-极大似然估计-无偏VS有偏】、【(系列二) 数学基础-概率-高斯分布3-从概率密度...
  • 两个高斯分布相加(卷积)的理论推导

    万次阅读 多人点赞 2020-06-25 20:05:21
    本文主要推导两个高斯分布的相加结果。在知乎上有个问题:**正态分布随机变量的还是正态分布吗?** 也是本文主要解决的问题。 直觉中,两个高斯(正态)随机变量的似乎应该是两个概率密度函数的,如下图所示,...
  • http://www.doc88.com/p-0814329057281.html 转载于:https://www.cnblogs.com/xiaoxuesheng993/p/8565799.html
  •  在一般的高斯分布模型中,我们计算高斯分布概率密度函数p(x),回顾高斯分布的基本知识。通常如果我们认为变量 x 符合高斯分布 x~N(μ,σ2)则其概率密度函数为:,其中,μ,σ2分别表示如下:。 ...
  • 归一化推导证明: 期望(一阶矩)推导证明: 二阶矩推导证明: 方差推导证明: 写在前面的唠叨: 最近这段时间一直在研究深度学习之类的东西,虽然如今对几种常见的神经网络都有了很好的了解,用起来也比较顺手...
  • 在深度学习中,我们通常对模型进行抽样并计算与真实样本... 下面对已知均值与协方差矩阵的两个多维高斯分布之间的KL散度进行推导。当然,因为便于分布之间的逼近,Wasserstein distance可能是衡量两个分布之间差异...
  • 两个高斯分布乘积的理论推导

    万次阅读 多人点赞 2020-06-23 17:03:39
    本文主要推导高斯分布(正态分布)的乘积,以便能更清楚的明白Kalman滤波的最后矫正公式。 Kalman滤波主要分为两大步骤: 1.系统状态转移估计,2.系统测量矫正; 在第2步中的主要理论依据就是两个独立高斯分布的...
  • 高斯分布微分熵的推导

    万次阅读 2017-06-19 20:55:35
    参考文献:PRML
  • 联合高斯分布(Joint Gaussian)的推导

    千次阅读 2020-03-13 21:20:38
    x∼N(0,σ2),y∣x∼N(x,c2) x \sim \mathcal{N}(0, \sigma^2), y|x \sim \mathcal{N}(x, c^2) x∼N(0,σ2),y∣x∼N(x,c2) f(y)=∫xf(y∣x)f(x)dx=∫x12πce−(y−x)22c212πσe−x22σ2dx=12πce−y22c2∫x12πσe−...
  • 作者:CHEONG 公众号:AI机器学习与知识图谱 研究方向:自然语言处理与知识图谱 前言:机器学习系列文章常含有大量...二话不说咱先抛出一个问题:数据集Data X服从高斯分布,如何推导X的均值方差 欲解答上述问题..
  • 均匀分布产生高斯分布

    千次阅读 2020-04-14 18:59:42
    均匀分布产生高斯分布 文章目录均匀分布产生高斯分布简介方法证明代码效果引用 简介 方法证明 代码 效果 引用
  • 有时候我们的数据分布可能如上左图所示,根据数据分布情况我们猜测这个数据服从三个高斯分布如上右图所示,很自然就会把模型定义为三个高斯模型的混合 接下来我们会尝试用极大似然估计的方法来求解其中的参数, ...
  • 透彻理解高斯分布

    千次阅读 2018-12-29 08:07:13
    各种各样的心理学测试分数现象比如计数都被发现近似地服从正态分布。 开始前,先看几个重要概念: 概率函数:把事件概率表示成关于事件变量的函数 概率分布函数:一个随机变量ξ取值小于某一数值x的概率,这...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 17,730
精华内容 7,092
关键字:

高斯分布加和推导