精华内容
参与话题
问答
  • 高斯分布

    千次阅读 2020-03-04 22:33:12
    高斯分布到贝叶斯滤波高斯分布高斯分布概念高斯分布特性贝叶斯滤波 高斯分布 高斯分布概念 高斯分布(正态分布)是一个常见的连续概率分布。正态分布的数学期望值或期望值μ{\displaystyle \mu }μ 等于位置参数,...

    高斯分布概念

    高斯分布(正态分布)是一个常见的连续概率分布。正态分布的数学期望值或期望值μ{\displaystyle \mu } 等于位置参数,决定了分布的位置;其方差σ2\sigma ^{2}的开平方或标准差σ\sigma 等于尺度参数,决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参数μ=0\mu = 0,方差σ2=1\sigma^{2}=1的正态分布。(源自wiki百科
    在这里插入图片描述
    若随机变量XX服从一个位置参数为μ\mu、方差为σ2\sigma^2的正态分布,可以记为XX~N(μ,σ2)N(\mu,\sigma^2),则其概率密度函数为f(x)=1σ2πexp((xμ)22σ2)f(x) = \frac{1} {{\sigma\sqrt{2\pi}}}exp(-\frac{(x-\mu)^2}{2\sigma^2})

    从上面可以看到,一维高斯分布可以用变量均值和方差进行描述,那么二维高斯分布的呢?一维正态分布只有一个变量,则二维高斯分布则包含有两个变量,二维高斯分布的均值μ\mu由两个变量的均值描述,其方差由变量的协方差矩阵进行描述,协方差矩阵 Σ\Sigma 表示的是两个变量之间的关系。

    μ=(μaμb)Σ=(σx2ρσxσyρσxσyσy2)\mu = {\mu_a \choose \mu_b } \quad \Sigma = \begin{pmatrix} \sigma^2_x & \rho\sigma_x\sigma_y \\ \rho\sigma_x\sigma_y & \sigma^2_y \end{pmatrix}

    其中,ρσxσy\rho\sigma_x\sigma_yρσyσx\rho\sigma_y\sigma_x分别为两个变量的协方差值。协方差的计算公式如下:
    Cov(X,Y)=E[(XE(X)(YE(Y)]=E[XY]E[X]E[Y]\begin{aligned} Cov(X,Y) &= E[(X-E(X)(Y-E(Y)] \\ &= E[XY] - E[X]E[Y] \end{aligned}

    协方差为正,则说明这两个变量呈正相关,为零则不相关,为负则为负相关。

    对于一个二维高斯随机变量xx~N(μ,Σ)N(\mu,\Sigma),其概率密度可以表示为:
    P(x)=12πΣexp(12(xμ)TΣ1(xμ))P(x) = \frac{1}{|2\pi\Sigma|}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

    其图形可表示为:
    在这里插入图片描述

    协方差矩阵的传播(covariance propagation)

    1. 一个高斯随机变量的线性变换仍是高斯随机变量。
      假设一个高斯随机变量xx~N(μ,Σ)N(\mu,\Sigma),如果有x=Ax+bx^{\prime} = Ax + b,则xx^{\prime}~N(μ,Σ)N(\mu^{\prime},\Sigma^{\prime})。其中,μ\mu^{\prime}Σ\Sigma^{\prime}为:
      μ=E[x]=E[Ax+b]=AE[x]+b=Aμ+b\mu^\prime = E[x^{\prime}] = E[Ax+b] = AE[x] + b = A\mu + b

    Σ=cov[x]=E[(xE[x])(xE[x])]=AE[(xμ)(xμ)T]AT=AΣAT\begin{aligned} \Sigma^\prime &= cov[x^{\prime}] = E[(x^\prime - E[x^\prime])(x^\prime-E[x^\prime])] \\ &= AE[(x-\mu)(x-\mu)^T]A^T \\ &= A{\Sigma}A^T \end{aligned}

    1. 多个独立的高斯随机变量的线性组合仍是高斯随机变量。
      假设x1N(μ1,Σ1)x_1 \sim N(\mu_1,\Sigma_1); x2N(μ2,Σ2)x_2 \sim N(\mu_2,\Sigma_2)
      x=Ax1+Bx2x^\prime = Ax1 + Bx2,有:
      μ=E[x]=Aμ1+Bμ2Σ=cov[x]=AΣ1AT+BΣ2BT\begin{aligned}\mu^\prime &= E[x^\prime]= A\mu_1 + B\mu_2 \\ \Sigma^\prime &= cov[x^\prime] = A\Sigma_1A^T + B\Sigma_2B^T\end{aligned}

    多元高斯概率密度函数的拆分与组合

    1. 多元高斯联合分布可拆分为一个先验分布与条件分布的乘积。(拆分公式)
      P(x)=P(x1x2)P(x2)P(x)=P(x_1|x_2)P(x_2),假设该分布为:x=[(x1x2)]x = [{x_1 \choose x_2}]~N([(μ1μ2)],[Σ11Σ12Σ21Σ22])N([{\mu_1 \choose \mu_2}],\begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix}),那么条件概率密度函数与先验(边缘)概率密度函数分别为:
      P(x1x2)N(μ1+Σ12Σ221(x2μ2),Σ11Σ12Σ221Σ21)P(x2)N(μ2,Σ22)P(x_1|x_2) \sim N(\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2),\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}) \\ P(x_2) \sim N(\mu_2,\Sigma_{22})
      我们把上式称之为多元高斯联合分布的拆分公式,这个公式是如何来的呢,可以先使用舒尔补求逆,然后化简得到,有时间的话我会出一篇讲边缘化的博客,里面会证明这个式子。总之,我们可以把上式称之为拆分公式

    2. 反之,一个多元高斯联合分布也可以由先验概率和条件概率组合而成。(组合公式)
      如果有P(x2)N(μ2,Σ22)P(x_2) \sim N(\mu_2,\Sigma_{22}),P(x1x2)N(Hx2,R)P(x_1|x_2) \sim N(Hx_2,R),将两者组成有:
      x=[(x1x2)]N([(Hμ2μ2)],[HΣ22HTHΣ22Σ22HTΣ22])x=[{x_1\choose x_2}] \sim N([{H\mu_2 \choose \mu_2}],\begin{bmatrix} H\Sigma_{22}H^T & H\Sigma_{22} \\ \Sigma_{22}H^T & \Sigma_{22}\end{bmatrix})
      同上,证明可以先不管,但如果你想证也是简单的,我们把上式称之为组合公式

    高斯分布边缘化(Marginalization)

    定义:联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization)。

    假设有一个离散的联合分布律如下图表示:
    在这里插入图片描述
    x的边缘概率可表示为:pX(xi)=jp(xi,yj)p_X(x_i)=\sum\limits_{j} p(x_i,y_j);y的边缘概率可以表示为:pY(yj)=ip(xi,yj)p_Y(y_j)=\sum\limits_{i} p(x_i,y_j)
    可以看到要求某一变量的边缘概率,要对另一变量进行求和。
    那么在连续概率分布(如高斯分布中)呢?可以假设有两个变量x1,x2x_1,x_2,我们要求x1x1的边缘分布,实际上就是把x2x_2边缘化。
    x2P(x1,x2)dx2=x2P(x2x1)P(x1)dx2=x2P(x2x1)dx2P(x1)=P(x1)N(μ1,Σ11)\begin{aligned} \int_{x_2}P(x_1,x_2)dx_2 &=\int_{x_2}P(x_2|x_1)P(x_1)dx_2 \\ &=\int_{x_2}P(x_2|x_1)dx_2P(x_1)\\ &= P(x_1) \sim N(\mu_1,\Sigma_{11})\end{aligned}
    可以看到,对于高斯分布的边缘化,我们只需要在协方差矩阵将无关的变量(对应变量的行和列)去除掉即可。

    N(μ1,Σ11)=N([(μ1μ2)],[Σ11Σ12Σ21Σ22])N(\mu_1,\Sigma_{11}) = N([{\mu_1 \choose \sout{\mu_2}}], \begin{bmatrix} \Sigma_{11} & \sout{\Sigma_{12}} \\ \sout{\Sigma_{21}} & \sout{\Sigma_{22}}\end{bmatrix})

    高斯分布的独立性与不相关性

    由上述高斯分布的拆分公式中,有P(x)=P(x1x2)P(x2)P(x)=P(x_1|x_2)P(x_2)
    右式分别满足以下分布:
    P(x1x2)N(μ1+Σ12Σ221(x2μ2),Σ11Σ12Σ221Σ21)P(x2)N(μ2,Σ22)P(x_1|x_2) \sim N(\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2),\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}) \\ P(x_2) \sim N(\mu_2,\Sigma_{22})

    假设x1x_1x2x_2不相关,那么有:Σ12=0\Sigma_{12} = 0 ,两者协方差为0。

    Σ12=E[(x1μ1)(x2μ2)]=E[x1x2T]E[x1]E[x2]T=0\Sigma_{12}=E[(x_1-\mu_1)(x_2-\mu_2)]=E[x_1x_2^T] - E[x_1]E[x_2]^T=0

    根据独立的概念,E(x1x2)=E(x1)E(x2)E(x_1x_2)=E(x_1)E(x_2),该式和上式显然一样。

    说明了,高斯分布的变量的不相关即为变量独立

    好了,关于高斯分布就告一段落。

    如果我的文章对你有帮助,欢迎关注,点赞,评论。

    参考:
    https://games-cn.org/games-webinar-20180426-43/

    展开全文
  • 正态分布(高斯分布

    万次阅读 多人点赞 2018-11-09 15:54:21
    Table of Contents 正态分布 概要 历史 正态分布的定义 概率密度函数 累积分布函数 生成函数 性质 动差或矩(moment) ...正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian dist...

    Table of Contents

    正态分布

    概要

    历史

    正态分布的定义

    概率密度函数

    累积分布函数

    生成函数

    性质

    动差或矩(moment)

    中心极限定理

    无限可分性

    稳定性

    标准偏差

    相关分布

    参量估计

    参数的极大似然估计

    计量误差

    参考文献


    正态分布


    正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然社会科学来代表一个不明的随机变量。

                            X \sim N(\mu,\sigma^2),

    则其概率密度函数

                       f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}}

    正态分布的数学期望值或期望值\mu等于位置参数,决定了分布的位置;其方差\sigma^2的开平方或标准差\sigma等于尺度参数,决定了分布的幅度。

    正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参数\mu =0,尺度参数\sigma^2 = 1的正态分布。

     

    概要

    正态分布是自然科学行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。尽管这些现象的根本原因经常是未知的,理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布(在R.N.Bracewell的Fourier transform and its application中可以找到一种简单的证明)。正态分布出现在许多区域统计:例如,采样分布均值是近似地正态的,即使被采样的样本的原始群体分布并不服从正态分布。另外,正态分布信息熵在所有的已知均值及方差的分布中最大,这使得它作为一种均值以及方差已知的分布的自然选择。正态分布是在统计以及许多统计测试中最广泛应用的一类分布。在概率论,正态分布是几种连续以及离散分布的极限分布

    历史

    正态分布最早是棣莫弗在1718年著作的书籍的(Doctrine of Change),及1734年发表的一篇关于二项分布文章中提出的,当二项随机变量的位置参数n很大及形状参数p为1/2时,则所推导出二项分布的近似分布函数就是正态分布。拉普拉斯在1812年发表的《分析概率论》(Theorie Analytique des Probabilites)中对棣莫佛的结论作了扩展到二项分布的位置参数为n及形状参数为1>p>0时。现在这一结论通常被称为棣莫佛-拉普拉斯定理

    拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。

    “钟形曲线”这个名字可以追溯到Jouffret他在1872年首次提出这个术语"钟形曲面",用来指代二元正态分布bivariate normal)。正态分布这个名字还被Charles S. PeirceFrancis GaltonWilhelm Lexis在1875分别独立地使用。这个术语是不幸的,因为它反映和鼓励了一种谬误,即很多概率分布都是正态的。(请参考下面的“实例”)

    这个分布被称为“正态”或者“高斯”正好是Stigler名字由来法则的一个例子,这个法则说“没有科学发现是以它最初的发现者命名的”。

    正态分布的定义

    有几种不同的方法用来说明一个随机变量。最直观的方法是概率密度函数,这种方法能够表示随机变量每个取值有多大的可能性。累积分布函数是一种概率上更加清楚的方法,请看下边的例子。还有一些其他的等价方法,例如cumulant、特征函数动差生成函数以及cumulant-生成函数。这些方法中有一些对于理论工作非常有用,但是不够直观。请参考关于概率分布的讨论。

    概率密度函数

                                               四个不同参数集的概率密度函数(红色线代表标准正态分布)

    正态分布概率密度函数均值为\mu 方差\sigma^2 (或标准差\sigma)是高斯函数的一个实例:

    f(x;\mu,\sigma) = \frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right)

    如果一个随机变量X服从这个分布,我们写作X ~ N(\mu, \sigma^2). 如果\mu =0并且\sigma =1,这个分布被称为标准正态分布,这个分布能够简化为

    f(x) = \frac{1}{\sqrt{2\pi}} \, \exp\left(-\frac{x^2}{2} \right)

     

    正态分布中一些值得注意的量:

    • 密度函数关于平均值对称
    • 平均值与它的众数(statistical mode)以及中位数(median)同一数值。
    • 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
    • 95.449974%的面积在平均数左右两个标准差2 \sigma的范围内。
    • 99.730020%的面积在平均数左右三个标准差3 \sigma的范围内。
    • 99.993666%的面积在平均数左右四个标准差4 \sigma的范围内。
    • 函数曲线的拐点(inflection point)为离平均数一个标准差距离的位置。

    累积分布函数

                                                                        上图所示的概率密度函数的累积分布函数

    累积分布函数是指随机变量X小于或等于x的概率,用概率密度函数表示为:

    F(x;\mu,\sigma) = \frac{1}{\sigma\sqrt{2\pi}} \int_{-\infty}^x  \exp  \left( -\frac{(t - \mu)^2}{2\sigma^2} \ \right)\, dt.

    正态分布的累积分布函数能够由一个叫做误差函数特殊函数表示:

    \Phi (z)={\frac  12}\left[1+\operatorname {erf}\left({\frac  {z-\mu }{\sigma {\sqrt  2}}}\right)\right].

    标准正态分布的累积分布函数习惯上记为\Phi,它仅仅是指\mu=0\sigma=1的值,

    \Phi(x) =F(x;0,1)= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x \exp\left(-\frac{t^2}{2}\right) \, dt.

    将一般正态分布用误差函数表示的公式简化,可得:

    \Phi(z) = \frac{1}{2} \left[ 1 + \operatorname{erf} \left( \frac{z}{\sqrt{2}} \right) \right] .

    它的反函数被称为反误差函数,为:

    \Phi^{-1}(p) = \sqrt2 \; \operatorname{erf}^{-1} \left(2p - 1 \right) .

    该分位数函数有时也被称为probit函数。probit函数已被证明没有初等原函数。

    正态分布的分布函数\Phi(x)没有解析表达式,它的值可以通过数值积分泰勒级数或者渐进序列近似得到。


    生成函数

    矩母函数

    动差生成函数或矩生成函数或动差产生函数被定义为\exp(tX)的期望值。

    正态分布的动差产生函数如下:

     

    M_X(t)\, = \mathrm{E} \left(  e^{tX} \right)
      = \int_{-\infty}^{\infty}  \frac  {1}  {\sigma \sqrt{2\pi} }  e^{\left( -\frac{(x - \mu)^2}{2 \sigma^2} \right)}  e^{tx} \, dx
      = e^{ \left(  \mu t + \frac{\sigma^2 t^2}{2} \right)}

    可以通过在指数函数内配平方得到。

    特征函数

    特征函数被定义为\exp (i t X)期望值,其中i是虚数单位. 对于一个常态分布来讲,特征函数是:

    \phi_X(t;\mu,\sigma)\! = \mathrm{E} \left[  \exp(i t X) \right]
      = \int_{-\infty}^{\infty}  \frac{1}{\sigma \sqrt{2\pi}}  \exp  \left(- \frac{(x - \mu)^2}{2\sigma^2}  \right)  \exp(i t x) \, dx
      = \exp \left(  i \mu t - \frac{\sigma^2 t^2}{2} \right) .

    把矩生成函数中的t换成i t就能得到特征函数。

    性质

    正态分布的一些性质:

    1. 如果X \sim N(\mu, \sigma^2) \,ab实数,那么a X + b \sim N(a \mu + b, (a \sigma)^2) 
    2. 如果X \sim N(\mu_X, \sigma^2_X)Y \sim N(\mu_Y, \sigma^2_Y)统计独立的正态随机变量,那么:
      • 它们的和也满足正态分布U = X + Y \sim N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) 
      • 它们的差也满足正态分布V = X - Y \sim N(\mu_X - \mu_Y, \sigma^2_X + \sigma^2_Y).
      • UV两者是相互独立的。(要求X与Y的方差相等)
    3. 如果X \sim N(0, \sigma^2_X)Y \sim N(0, \sigma^2_Y)是独立正态随机变量,那么:
      • 它们的积X Y服从概率密度函数为p的分布

        p(z) = \frac{1}{\pi\,\sigma_X\,\sigma_Y} \; K_0\left(\frac{|z|}{\sigma_X\,\sigma_Y}\right),其中K_0是修正贝塞尔函数(modified Bessel function)

      • 它们的比符合柯西分布,满足X/Y \sim \mathrm{Cauchy}(0, \sigma_X/\sigma_Y).
    4. 如果X_1, \cdots, X_n为独立标准正态随机变量,那么X_1^2 + \cdots + X_n^2服从自由度为n卡方分布


    动差或矩(moment)

    一些正态分布的一阶动差如下:

    阶数 原点矩 中心矩 累积量
    0 1 0  
    1 \mu 0 \mu
    2 \mu^2 + \sigma^2 \sigma^2 \sigma^2
    3 \mu^3 + 3\mu\sigma^2 0 0
    4 \mu^4 + 6 \mu^2 \sigma^2 + 3 \sigma^4 3 \sigma^4 0

    标准正态的所有二阶以上的累积量为零。


    中心极限定理

     

                正态分布的概率密度函数,参数为μ = 12,σ = 3,趋近于n = 48、p = 1/4的二项分布的概率质量函数。

    正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的平均值的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。

    • 参数为np二项分布,在n相当大而且p接近0.5时近似于正态分布(有的参考书建议仅在n pn(1 - p)至少为5时才能使用这一近似)。

    近似正态分布平均数为\mu = n p且方差为\sigma^2 = n p (1 - p).

    • 泊松分布带有参数\lambda当取样样本数很大时将近似正态分布\lambda.

    近似正态分布平均数为\mu = \lambda且方差为\sigma^2 = \lambda.

    这些近似值是否完全充分正确取决于使用者的使用需求

    无限可分性

    正态分布是无限可分的概率分布。

    稳定性

    正态分布是严格稳定的概率分布。

    标准偏差

    深蓝色区域是距平均值小于一个标准差之内的数值范围。在正态分布中,此范围所占比率为全部数值之68%,根据正态分布,两个标准差之内的比率合起来为95%;三个标准差之内的比率合起来为99%

    在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则约68.3%数值分布在距离平均值有1个标准差之内的范围,约95.4%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”或“经验法则”。


    相关分布


    参量估计

    参数的极大似然估计

    多元正态分布协方差矩阵的估计的推导是比较难于理解的。它需要了解谱原理(spectral theorem)以及为什么把一个标量看做一个1×1矩阵(matrix)的迹(trace)而不仅仅是一个标量更合理的原因。


    计量误差

    饮料装填量不足与超量的概率[编辑]

    某饮料公司装瓶流程严谨,每罐饮料装填量符合平均600毫升,标准差3毫升的正态分配法则。随机选取一罐,求(1)容量超过605毫升的概率;(2)容量小于590毫升的概率。

    容量超过605毫升的概率 = p ( X > 605)= p ( ((X-μ) /σ) > ( (605 – 600) / 3) )= p ( Z > 5/3) = p( Z > 1.67) = 1 - 0.9525 = 0.0475

    容量小于590毫升的概率 = p (X < 590) = p ( ((X-μ) /σ) < ( (590 – 600) / 3) )= p ( Z < -10/3) = p( Z < -3.33) = 0.0004

    6-标准差(6-sigma或6-σ)的品质管制标准

    6-标准差(6-sigma或6-σ),是制造业流行的品质管制标准。在这个标准之下,一个标准正态分配的变量值出现在正负三个标准差之外,只有2* 0.0013= 0.0026 (p (Z < -3) = 0.0013以及p(Z > 3) = 0.0013)。也就是说,这种品质管制标准的产品不良率只有万分之二十六。假设例中的饮料公司装瓶流程采用这个标准,而每罐饮料装填量符合平均600毫升,标准差3毫升的正态分配。那么预期装填容量的范围应该多少?

    6-标准差的范围 = p ( -3 < Z < 3)= p ( - 3 < (X-μ) /σ < 3) = p ( -3 < (X- 600) / 3 < 3)= p ( -9 < X – 600 < 9) = p (591 < X < 609) 因此,预期装填容量应该介于591至609毫升之间。


    参考文献

    1.  Normal Distribution, Gale Encyclopedia of Psychology
    2. Casella & Berger (2001, p. 102)
    3. Shaou-Gang Miaou; Jin-Syan Chou. 《Fundamentals of probability and statistics》. 高立图书. 2012: 第147页. ISBN 9789864128990.
    展开全文
  • 高斯分布是一类非常重要的概率分布,在概率统计,机器学习中经常用到。 一维高斯分布 一维高斯分布的概率密度函数(pdf)形式为: 红色的曲线是标准的正态分布,即均值为0,方差为1的正态分布。 我们可以...

    转自:https://www.cnblogs.com/jiangkejie/p/12939776.html

    高斯分布是一类非常重要的概率分布,在概率统计,机器学习中经常用到。

    一维高斯分布

    一维高斯分布的概率密度函数(pdf)形式为:

     

    红色的曲线是标准的正态分布,即均值为0,方差为1的正态分布。

    我们可以采用以下方程从均值为 μ 标准差为 σ 的高斯分布中采样(再参数化技巧): 

     其中,ϵ 从一个标准高斯分布中采样。

    多维/多变量高斯分布

    正态分布的概念可以扩展到一个以上的维度——k维的一般多元正态分布的概率密度函数如下:

     其中,|Σ|为协方差矩阵的行列式。

     在2D中,均值向量μ和对称的协方差矩阵Σ定义为:

     其中ρ是两个维度x1和x2之间的相关系数。

    各向同性的高斯分布

    各向同性的高斯分布(球形高斯分布)指的是各个方向方差都一样的多维高斯分布,协方差为正实数与identity matrix相乘。

    因为高斯的circular symmetry,只需要让每个轴上的长度一样就能得到各向同性,也就是说分布密度值仅跟点到均值距离相关,而不和方向有关。

    各向同性的高斯每个维度之间也是互相独立的,因此密度方程可以写成几个1维度高斯乘积形式。要注意的是,几个高斯分布乘在一起得到各向同性,但几个Laplace分布相乘就得不到各向同性!

    此类高斯分布的参数个数随维度成线性增加,只有均值在增加,而方差是一个标量,因此对计算和存储量的要求不大,因此非常讨人喜欢~

    其中, Σ =  σI,  I为单位阵,σ为标量。

     两个多元高斯分布之间的KL散度的解析表示

     根据上述引理,可推导出两个多元高斯分布之间的KL散度的解析表示:

     具有对角协方差矩阵的多元高斯分布与多元标准高斯分布间的KL散度

    对角形式的协方差矩阵 Σ = diag(σ2), σ为标准差向量。

    具有对角协方差矩阵的高斯分布每个维度之间也是互相独立的,因此密度方程也可以写成几个1维度高斯乘积形式

     

     一种直观的解释方式:

    注意到,密度方程可以写成几个1维度高斯乘积形式,

     

     最后的结果是各个维度结果的加和。

     复数高斯分布

    随机变量是复数时,定义以下复高斯分布:

     

     当mu=0时,该分布是圆对称的(对于x的相位偏移具有不变性)。


    参考:

    https://www.zhihu.com/question/343638697/answer/808598383
     

    https://kexue.fm/archives/5253 

     

    https://blog.csdn.net/NeutronT/article/details/78086340

     

    展开全文
  • 本代码为Python3.x,包括高斯分布及二维高斯分布代码,使用了numpy、scipy、matplotlib等包,适合初学者使用
  • 1.高斯分布的MLE参数估计的均值是无偏的,方差有偏2.二维正态分布的等概率曲线是一个椭圆3.n维正态分布的边缘分布和条件分布都是正态分布高斯分布是概率论和统计学最重要的分布,在机器学习各种模型的也是处处可见。...

    1.高斯分布的MLE参数估计的均值是无偏的,方差有偏

    2.二维正态分布的等概率曲线是一个椭圆

    3.n维正态分布的边缘分布和条件分布都是正态分布

    高斯分布是概率论和统计学最重要的分布,在机器学习各种模型的也是处处可见。因此,有必要对高斯分布做深一步的理解。本文从一维高斯分布的参数估计二维高斯分布的几何意义、以及n维高斯分布边缘分布与条件分布进行介绍

    一维高斯分布的参数估计

    若随便变量X服从正态分布,则

    48ecc358a816ba99adde3dd20add9c77.png

    给出m个观测值xi,我们可以利用最大似然估计法(MLE)估计其均值和方差

    a8817fb14d45d644ad364f665882a117.png

    因此只需要优化函数f即可

    6303b75803f6ddca680aea6384f68ded.png

    这里拓展一下,高斯分布最大似然估计的均值是无偏的,方差是有偏的

    先复习一下无偏估计的概念

    2d65d0524bced82209ce071d4e739a81.png

    无偏估计表示没有系统偏差,由于样本的随机性,对参数的估计总是有偏差的,这种偏差时而大,时而小,无偏性表示,把这些偏差平均起来其值为0,这就是无偏估计的含义

    接着我们推导一下为什么均值是无偏而方差是有偏的

    8ba7a6ff6d97d9fa86f767ece7939b99.png

    这就是为什么在统计学上,方差无偏估计的分母是(m-1)

    ba73b221bdc8ad2b8dbccded0c512e0d.png

    二维高斯分布的几何意义

    先给出n维正态分布的概念,再看二维的几何意义

    cffab7ff9e1d42fd7834f358ca497249.png

    注:

    ddbfcfa890cbe6125c1326e110137336.png

    当n=2时,就是二维高斯分布的概率密度,其均值和方差为

    d6a5801db8168ec0b7e0a4b8f19f5d5b.png

    为了更好了解其几何意义,我们需要对原表达式做一些变换,在此之前,需要引入一个定理:

    设A是一个n阶实对称矩阵,那么存在一个n阶正交矩阵U,使得U'AU是实对角形,对角元素为矩阵A的特征根(U'是U的转置)

    设B的特征根为λ1,λ2,.....,λn。于是存在矩阵U=(U1,U2,...,Un),使得 

    d34b1f777c6e86c064f4188aac4a8ff0.png

    于是我们有

    5be59763449224e3d0be49dd72be851e.png

    再做一步化简

    cd5211b8f94ee5622be2d36fb73b5f93.png

    最终我们可以得到二元高斯分布另一个表达形式:

    7af23df04261901508e38d173ca99fcb.png

    这里,我们可以看到对于二元正态分布,给定一个p(x)其截面相当于一个椭圆

    贴一张图,加深理解

    af6614f94b4bbf1ed1ebb6cdf9a0f1dd.png

    多维高斯分布的边缘分布与条件分布

    下面我们推导多维高斯分布的边缘分布和条件分布。这里我们有一个不加证明的给出一个结论:

    n维正态分布的边缘分布和条件分布都是正态分布

    有了这个结论,只需要求解边缘分布和条件分布下的均值和方差,就能确定其分布了。

    为此,我们需要用到一个定理:

    3eebdb82379ecab320c6f9537e2e3e51.png

    我们给出一个不太严格的证明,重点是记住这个定理。

    770854e895fa385d43b8eb2efd7499ef.png

    下面我们利用这个定理求解边缘分布和条件分布,不失一般性,先定义问题:

    0ced68cf66b2a1c8f795c59419d7b7fe.png

    先求边缘概率密度

    7f3fa65afbf832f5be79b60c216c4c30.png

    接着求条件分布,构造如下式子:

    5cf99af2e650ee965848c1cbd7d36ff6.png

    于是我们有

    eb198d90167010b3ab1dddb576b31d45.png

    最后我们可以得到条件概率密度

    92851124c2b3e4f633403a7c322f18ad.png

    展开全文
  • 单元高斯分布 前提假设:feature之间是独立的 步骤如下: 选择具有代表异常特征的feature,即训练集特征 分别对每个维度的特征估计均值与方差的值 计算上述图片中的P(x),如果P(x)<阈值 特点: 明确各个feature...
  • 侠肝义胆陈浩天:基础知识:随机事件与随机变量​zhuanlan.zhihu.com首先我们从一维高斯分布(正态分布)开始。我们知道随机变量,其中 是均值, 是方差。那么他的概率密度函数(f(x)的积分为1)如下:其中:样本的平均值...

空空如也

1 2 3 4 5 ... 20
收藏数 7,276
精华内容 2,910
关键字:

高斯分布