精华内容
下载资源
问答
  • 作者:CHEONG 公众号:AI机器学习与知识图谱 研究方向:自然语言处理与知识图谱 前言:机器学习系列文章常含有大量...二话不说咱先抛出一个问题:数据集Data X服从高斯分布,如何推导X的均值方差 欲解答上述问题..

    作者:CHEONG

    公众号:AI机器学习与知识图谱

    研究方向:自然语言处理与知识图谱


    前言:机器学习系列文章常含有大量公式,若需获取本文全部的手书版原稿资料,扫码关注公众号【AI机器学习与知识图谱】,回复: 高斯分布第一讲 即可获取。

    原创不易,转载请告知并注明出处!扫码关注公众号,定期发布知识图谱,自然语言处理、机器学习等知识,添加微信号【17865190919】进讨论群,加好友时备注来自CSDN。


    二话不说咱先抛出一个问题:数据集Data X服从高斯分布,如何推导X的均值和方差

    欲解答上述问题,先对问题进行拆解:

    1、何为高斯分布,高斯分布概率密度函数是什么

    2、用什么方法推导:最大似然估计法,那最大似然估计是什么

    3、如何推导,最大似然估计法推导高斯分布均值和方差的过程


    那接下来我们就先对上面四个问题一个一个来看吧。


    一、高斯分布

    下面先说明一元高斯分布,标准一元正态分布以及多元高斯分布之间的关系以及其概率密度函数分别是什么,而对于边缘高斯分布,条件高斯分布以及混合高斯分布之后再单独细讲。


    1、一元高斯分布和标准正态分布

    如果数据集x服从均值为u,方差为σ\sigma的一元高斯分布,其概率密度函数为

    在这里插入图片描述
    而标准一元正态分布既对数据集x进行标准化处理:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hmJAZtg5-1615555460933)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image010.png)]
    z服从均值为0,方差为1的标准正态分布,其概率密度函数为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lGkii4gC-1615555460936)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image014.png)]
    这里给出高斯分布满足的两条常用性质,在之后证明中会使用到:

    (1)如果xN(u,σ2)x \sim N(u, \sigma^2)且a和b是实数时,那么

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2U92jjZp-1615555460942)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image018.png)]
    (2)如果xN(ux,σx2)x \sim N(u_x, \sigma^2_x)yN(uy,σy2)y \sim N(u_y, \sigma^2_y)是统计独立的正态随机变量,那么

    • 他们的和也满足正态分布
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d4fXkgfK-1615555460948)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image024.png)]
    • 他们的差也满足正态分布
      在这里插入图片描述

    2、多元高斯分布

    这里先介绍一种简单的情况,那就是多元维度之间相互独立时,若各变量之间相互独立,则联合概率密度函数等于各自概率密度的乘积。

    如果X=(x1,x2,...,xd)TX=(x_1, x_2, ..., x_d)^T,且各维度之间相互独立,则X的概率密度函数为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7ew3A01z-1615555460953)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image030.png)]
    对上面公式进行简化处理,先简写成

    在这里插入图片描述
    其中:

    在这里插入图片描述

    上式中Σ\Sigma是协方差矩阵,由于变量各个维度之间不相关,因此协方差矩阵只有对角线的位置有值,因此推导出多元高斯分布的概率密度函数为:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIBfHMC3-1615555461005)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image044.png)]



    二、最大似然估计

    先从下图中的例子泛泛的理解一下最大似然估计的思想:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YfMbVQ1w-1615555461016)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image046.jpg)]

    通俗来说,最大似然估计法,就是利用已知的样本结果信息,反推最大可能(最大概率)产生这个结果的模型参数值,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即模型已定,参数未知。

    最大似然估计一个重要前提假设是:数据样本之间是独立同分布的。在用最大似然估计解高斯分布参数前,先看一般情况,现考虑有一个数据集D,服从一定的概率分布,用最大似然估计来推导该数据集的参数向量Θ\Theta,记已知的样本集为:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PgEyLmf0-1615555461018)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image050.png)]

    似然函数,即联合概率密度函数:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NaXG6N6b-1615555461022)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image052.png)]
    联合概率密度函数p(DΘ)p(D|\Theta)称为相对于数据集D的参数Θ\Theta的似然函数,先再就是要求满足似然函数最大的参数值,也就是求使得该组样本出现的概率最大的Θ\Theta

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CtNba65U-1615555461025)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image056.png)]
    实际中为了便于分析,都会将其定义为对数似然函数:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HrLawFL1-1615555461029)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image058.png)]

    现在知道了最大似然估计的用法,接下来便用最大似然估计来求解高斯分布的参数,即均值和方差。



    三、最大似然估计推导高斯分布均值和方差

    先有一批数据集Data X服从高斯分布,样本之间独立同分布:

    在这里插入图片描述
    用最大似然估计求解参数Θ\Theta,则对数似然函数为:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jv5ed2xF-1615555461047)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image066.png)]
    其中p(xiΘ)p(x_i|\Theta)即是高斯分布的概率密度函数

    在这里插入图片描述

    因此均值为

    在这里插入图片描述
    对上述函数求导极值点既是极小值

    在这里插入图片描述
    则可得其均值为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XLdnAJ2g-1615555461104)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image088.png)]

    至此我们通过最大似然估计求导得出了均值u,接下来用同样的方法求解方差

    在这里插入图片描述

    因此可以求得参数方差为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-caFFkef6-1615555461132)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image102.png)]

    至此我们已经通过最大似然估计求得了高斯分布的均值和方差

    在这里插入图片描述

    展开全文
  • 空间啁啾效应是超短脉冲中的一种常见的时空耦合效应。对一阶空间啁啾高斯脉冲光束的聚焦特性进行了较为系统...透镜色差对一阶空间啁啾高斯脉冲光束聚焦后的束宽振幅耦合程度没有影响,但会导致聚焦后光束的脉宽加宽。
  • 研究了SAR图像性模型中伪性相干斑噪声分量的统计特性。分析了SAR图像中真实信号分量乘性相干斑噪声分量的统计特性;...实验结果表明,乘性的相干斑噪声转换为性噪声后,其统计特性非常接近于高斯分布
  • 假定自由空间光通信系统采用开关键控强度调制直接探测,信道独立同分布、无记忆平稳遍历并且具有高斯白噪声,在发射端接收端都可以获取理想信道状态信息;建立了综合大气效应下多输入多输出信道模型系统模型...
  • 滤波估计理论(三)——扩展卡尔曼滤波器(Extended Kalman Filter)矢量函数的泰勒级数高斯分布非线性变换的线性近似一阶近似线性近似EKF性噪声模型非性噪声模型 在经典Kalman滤波的推导中,我们假设系统的动态...

    在经典Kalman滤波的推导中,我们假设系统的动态模型和量测模型皆是线性的,因而可以基于Gaussian分布的线性化性质,直接推导出线性变换后的分布。但在实际生活中,线性模型是一个强假设,大多数的系统并不是线性的,其动态模型和量测模型通常通过一个非线性函数进行映射:
    xk=f(xk1,uk1)+qk1zk=h(xk)+rk \begin{aligned} \bm{x}_k&=f\left(\bm{x}_{k-1},\bm{u}_{k-1}\right)+\bm{q}_{k-1}\\ \bm{z}_k&=h\left(\bm{x}_k\right)+\bm{r}_{k} \end{aligned}

    由于Gaussian分布并没有任何的分线性映射性质,如何求解上述模型成为了一个难题。自然而然地,如果我们能有某些线性映射的组合去近似表示该非线性映射,那么这一难题就可以得到解决。

    矢量函数的泰勒级数

    我们知道任何一元函数都可以表示为无限连加的形式,即泰勒级数(Taylor Series),而对于矢量函数同样如此,这里直接给出矢量函数泰勒级数展开定义:

    定理1:对于多元函数y=g(x),xRn,yRm\bm{y}=\bm{g}(\bm{x}),x\in\mathbb{R}^n,y\in\mathbb{R}^m,令x=μ+δx\bm{x}=\bm{\mu}+\delta\bm{x},则g(x)\bm{g}(\bm{x})其在μ\bm{\mu}点处的泰勒级数为:
    g(x)=g(μ+δx)g(μ)+J(μ)δx+12i=1m[δxTHi(μ)δx]ui+(1) \bm{g}(\bm{x})=\bm{g}(\bm{\mu}+\delta\bm{x})\approx\bm{g}(\bm{\mu})+\bm{J}(\bm{\mu})\delta\bm{x}+\frac{1}{2}\sum\limits_{i=1}^m[\delta\bm{x}^T\bm{H}_i(\bm{\mu})\delta\bm{x}]\bm{u}_i+\cdots \tag{1}

    式中ui=[0,,1,,0]T\bm{u}_i=[0,\cdots,1,\cdots,0]^T为第ii行为11的单位矢量;J(μ)\bm{J}(\bm{\mu})表示g(x)\bm{g}(\bm{x})对变量x\bm{x}Jacobian矩阵,对应位置处元素为:
    [J(μ)]j,j=gj(x)xjx=μ [\bm{J}(\bm{\mu})]_{j,j'}=\left.\frac{\partial g_j(\bm{x})}{\partial x_{j'}}\right|_{\bm{x}=\bm{\mu}}

    式中gj(x)g_j(\bm{x})为矢量函数g(x)=[g1(x),,gm(x)]T\bm{g}(x)=[g_1(\bm{x}),\cdots,g_m(\bm{x})]^T中第jj行所表示的实值函数;xjx_{j'}为变量x=[x1,,xn]T\bm{x}=[x_1,\cdots,x_n]^T中第jj'行对应的元素。

    Hi(μ)\bm{H}_i(\bm{\mu})表示对变量x\bm{x}Hessian矩阵,对应位置处元素为:
    [Hi(μ)]j,j=2gi(x)xjxjx=μ [\bm{H}_i(\bm{\mu})]_{j,j'}=\left.\frac{\partial^2g_i(\bm{x})}{\partial x_j\partial x_{j'}}\right|_{\bm{x}=\bm{\mu}}

    式中gi(x)g_i(\bm{x})xjx_jxjx_{j'}的含义参照Jacobian矩阵。

    注:这里需要注意的是与Jacobian矩阵不同,Hessian要求被求导的函数必须是一个实值函数,因此这里我们说Hi(μ)\bm{H}_i(\bm{\mu})而非H(μ)\bm{H}(\bm{\mu})是Hessian矩阵。而Jacobian矩阵的被求导函数既可以为矢量函数也可以为实值函数,当Jacobian矩阵的求导函数为实值函数时,Jacobian矩阵将退化为梯度矩阵

    高斯分布非线性变换的线性近似

    假设现在有一个高斯随机变量xN(μ,P)\bm{x}\sim N(\bm{\mu},\bm{P})和对应的非线性变换y=g(x)\bm{y}=\bm{g}(\bm{x}),利用式(1)对g(x)\bm{g}(\bm{x})进行泰勒展开并取其前可获得其对应的线性近似如下:
    g(x)g(μ)+J(μ)δx \bm{g}(\bm{x})\approx\bm{g}(\bm{\mu})+\bm{J}(\bm{\mu})\delta\bm{x}

    进而可以获得线性近似后的分布如下:
    E[g(x)]E[g(μ)+J(μ)δx]=g(μ)+J(μ)E[δx]=g(μ)Cov[g(x)]E[(g(x)E[g(x)])(g(x)E[g(x)])T]E[(g(x)g(μ))(g(x)g(μ))T]=E[(g(μ)+J(μ)δxg(μ))(g(μ)+J(μ)δxg(μ))T]=E[(J(μ)δx)(J(μ)δx)T]=J(μ)E[δxδxT]JT(μ)=J(μ)PJT(μ)(2) \begin{aligned} E[\bm{g}(\bm{x})]&\approx E[\bm{g}(\bm{\mu})+\bm{J}(\bm{\mu})\delta\bm{x}]\\ &=\bm{g}(\bm{\mu})+\bm{J}(\bm{\mu})E[\delta\bm{x}]\\ &=\bm{g}(\bm{\mu})\\ Cov[\bm{g}(\bm{x})]&\approx E[(\bm{g}(\bm{x})-E[\bm{g}(\bm{x})])(\bm{g}(\bm{x})-E[\bm{g}(\bm{x})])^T]\\ &\approx E[(\bm{g}(\bm{x})-\bm{g}(\bm{\mu}))(\bm{g}(\bm{x})-\bm{g}(\bm{\mu}))^T]\\ &=E[(\bm{g}(\bm{\mu})+\bm{J}(\bm{\mu})\delta\bm{x}-\bm{g}(\bm{\mu}))(\bm{g}(\bm{\mu})+\bm{J}(\bm{\mu})\delta\bm{x}-\bm{g}(\bm{\mu}))^T]\\ &=E[(\bm{J}(\bm{\mu})\delta\bm{x})(\bm{J}(\bm{\mu})\delta\bm{x})^T]\\ &=\bm{J}(\bm{\mu})E[\delta\bm{x}\delta\bm{x}^T]\bm{J}^T(\bm{\mu})\\ &=\bm{J}(\bm{\mu})\bm{P}\bm{J}^T(\bm{\mu})\\ \end{aligned} \tag{2}

    g~(x)=[xg(x)]T\tilde{\bm{g}}(\bm{x})=[\begin{array}{c}\bm{x} &\bm{g}(\bm{x})\end{array}]^T,进而我们可以得到x\bm{x}g(x)\bm{g}(\bm{x})的联合分布为:
    E[g~(μ)][μg(μ)]Cov[g~(μ)]J~(μ)PJT~(μ)=[IJ(μ)]P[IJ(μ)]T=[PPJT(μ)J(μ)PJ(μ)PJT(μ)](3) \begin{aligned} E[\tilde{\bm{g}}(\bm{\mu})]&\approx\left[\begin{array}{c}\bm{\mu}\\\bm{g}(\bm{\mu})\end{array}\right]\\ Cov[\tilde{\bm{g}}(\bm{\mu})]&\approx\tilde{\bm{J}}(\bm{\mu})\bm{P}\tilde{\bm{J}^T}(\bm{\mu})\\ &=\left[\begin{array}{c}\bm{I}\\\bm{J}(\bm{\mu})\end{array}\right]\bm{P}\left[\begin{array}{c}\bm{I}\\\bm{J}(\bm{\mu})\end{array}\right]^T\\ &=\left[\begin{matrix} \bm{P} & \bm{P}\bm{J}^T(\bm{\mu})\\ \bm{J}(\bm{\mu})\bm{P} & \bm{J}(\bm{\mu})\bm{P}\bm{J}^T(\bm{\mu}) \end{matrix}\right] \end{aligned} \tag{3}
    由于g(x)\bm{g}(\bm{x})是由x\bm{x}变换而来,其分布相当于条件分布p(g(x)x)p(\bm{g}(\bm{x})|\bm{x}),式(3)实际上和我们在Kalman滤波推导中提到过的由条件分布求解联合分布的公式是完全一致的。

    一阶近似线性近似EKF

    加性噪声模型

    在状态空间模型中,很多时候我们会假设控制变量uk\bm{u}_k为零,而只考虑系统本身的状态变量xk\bm{x}_k和噪声qk\bm{q}_k;又或者如量测方程一般,本身就并不包含控制变量。此时无论是预测方程还是量测方程都为y=g(x)+q\bm{y}=\bm{g}(\bm{x})+\bm{q}形式,由于噪声变量q\bm{q}是附加在原状态变量上的,这一类模型统称为加性噪声模型

    在加性噪声模型下我们有:
    y=g(x)+qxN(μ,P)qM(0,Q) \begin{aligned} \bm{y}&=\bm{g}(\bm{x})+\bm{q}\\ \bm{x}&\sim N(\bm{\mu},\bm{P})\\ \bm{q}&\sim M(\bm{0},\bm{Q}) \end{aligned}

    对联合分布g~(x)=[xg(x)]T\tilde{\bm{g}}(\bm{x})=[\begin{array}{c}\bm{x} &\bm{g}(\bm{x})\end{array}]^T取一阶泰勒近似有:
    g~(x)[μ+Iδxg(μ)+q+J(μ)δx] \tilde{\bm{g}}(\bm{x})\approx\left[\begin{array}{c}\bm{\mu}+\bm{I}\delta\bm{x}\\\bm{g}(\bm{\mu})+\bm{q}+\bm{J}(\bm{\mu})\delta\bm{x}\end{array}\right]

    对其求取均值,其中已知q\bm{q}和所有δx\delta\bm{x}项均值均为0\bm{0},有:
    E[g~(x)][μ+E[Iδx]g(μ)+E[q]+E[J(μ)δx]]=[μg(μ)] \begin{aligned} E[\tilde{\bm{g}}(\bm{x})]&\approx\left[\begin{array}{c}\bm{\mu}+E[\bm{I}\delta\bm{x}]\\\bm{g}(\bm{\mu})+E[\bm{q}]+E[\bm{J}(\bm{\mu})\delta\bm{x}]\end{array}\right]\\ &=\left[\begin{array}{c}\bm{\mu}\\\bm{g}(\bm{\mu})\end{array}\right] \end{aligned}

    将上述两式同时带入方差的定义中有:
    Cov[g~(x)]E[(g~(x)E[g~(x)])(g~(x)E[g~(x)])T]=E[[μ+Iδxμg(μ)+q+J(μ)δxg(μ)][μ+Iδxμg(μ)+q+J(μ)δxg(μ)]T]=[E[δxδxT]E[δxδxT]JT(μ)J(μ)E[δxδxT]J(μ)E[δxδxT]JT(μ)+E[δqδqT]]=[PPJT(μ)J(μ)PJ(μ)PJT(μ)+Q] \begin{aligned} Cov[\tilde{\bm{g}}(\bm{x})]&\approx E[\left(\tilde{\bm{g}}(\bm{x})-E[\tilde{\bm{g}}(\bm{x})]\right)\left(\tilde{\bm{g}}(\bm{x})-E[\tilde{\bm{g}}(\bm{x})]\right)^T]\\ &=E\left[\left[\begin{array}{c}\bm{\mu}+\bm{I}\delta\bm{x}-\bm{\mu}\\ \bm{g}(\bm{\mu})+\bm{q}+\bm{J}(\bm{\mu})\delta\bm{x}-\bm{g}(\bm{\mu})\end{array}\right]\left[\begin{array}{c}\bm{\mu}+\bm{I}\delta\bm{x}-\bm{\mu}\\ \bm{g}(\bm{\mu})+\bm{q}+\bm{J}(\bm{\mu})\delta\bm{x}-\bm{g}(\bm{\mu})\end{array}\right]^T\right]\\ &=\left[\begin{matrix} E[\delta\bm{x}\delta\bm{x}^T] & E[\delta\bm{x}\delta\bm{x}^T]\bm{J}^T(\bm{\mu})\\ \bm{J}(\bm{\mu})E[\delta\bm{x}\delta\bm{x}^T] & \bm{J}(\bm{\mu})E[\delta\bm{x}\delta\bm{x}^T]\bm{J}^T(\bm{\mu})+E[\delta\bm{q}\delta\bm{q}^T] \end{matrix}\right]\\ &=\left[\begin{matrix} \bm{P} & \bm{P}\bm{J}^T(\bm{\mu})\\ \bm{J}(\bm{\mu})\bm{P} & \bm{J}(\bm{\mu})\bm{P}\bm{J}^T(\bm{\mu})+\bm{Q} \end{matrix}\right] \end{aligned}

    现在再回到我们的状态估计问题中来,在加性噪声模型下,待估计系统的状态空间模型为:
    {xk=f(xk1)+qk1zk=h(xk)+rk \left\{ \begin{aligned} \bm{x}_k&=\bm{f}(\bm{x}_{k-1})+\bm{q}_{k-1}\\ \bm{z}_k&=\bm{h}(\bm{x}_k)+\bm{r}_k \end{aligned}\right.

    类比Kalman滤波的推导过程,假设我们有了kk时刻的先验分布p(xk1z1:k1)N(μk1,Pk1)p(\bm{x}_{k-1}|\bm{z}_{1:k-1})\sim N(\bm{\mu}_{k-1},\bm{P}_{k-1})和过程噪声p(qk1)N(0,Qk1)p(\bm{q}_{k-1})\sim N(\bm{0},\bm{Q}_{k-1}),那么根据状态转移方程我们很容易得到联合分布p(xk,xk1z1:k1)p(\bm{x}_k,\bm{x}_{k-1}|\bm{z}_{1:k-1})为:
    p(xk,xk1z1:k1)N(f(μk1)F(μk1)Pk1FT(μk1))+Qk1) p(\bm{x}_k,\bm{x}_{k-1}|\bm{z}_{1:k-1})\sim N(\bm{f}(\bm{\mu}_{k-1}),\bm{F}(\bm{\mu}_{k-1})\bm{P}_{k-1}\bm{F}^T(\bm{\mu}_{k-1}))+\bm{Q}_{k-1})

    式中,F(μ)\bm{F}(\bm{\mu})为对应的Jacobian矩阵。同样我们简记p(xk,xk1z1:k1)N(μ^k,P^k)p(\bm{x}_k,\bm{x}_{k-1}|\bm{z}_{1:k-1})\sim N(\hat{\bm{\mu}}_k,\hat{\bm{P}}_k),根据量测方程我们可以写出条件概率p(zkxk)N(Hkxk,Rk)p(\bm{z}_k|\bm{x}_k)\sim N(\bm{H}_k\bm{x}_k,\bm{R}_k),进而得到联合概率p(xk,zkz1:k1)p(\bm{x}_k,\bm{z}_k|\bm{z}_{1:k-1})为:
    p(xk,zkz1:k1)N([μ^kh(μ^k)],[P^kP^kHT(μ^k)H(μ^k)P^kH(μ^k)P^kHT(μ^k)+Rk]) p(\bm{x}_k,\bm{z}_k|\bm{z}_{1:k-1})\sim N(\left[\begin{array}{c}\hat{\bm{\mu}}_k\\ \bm{h}(\hat{\bm{\mu}}_k) \end{array}\right],\begin{bmatrix} \hat{\bm{P}}_k & \hat{\bm{P}}_k\bm{H}^T(\hat{\bm{\mu}}_k)\\ \bm{H}(\hat{\bm{\mu}}_k)\hat{\bm{P}}_k & \bm{H}(\hat{\bm{\mu}}_k)\hat{\bm{P}}_k\bm{H}^T(\hat{\bm{\mu}}_k) +\bm{R}_k \end{bmatrix})

    进而我们可以得到条件概率p(xk,zkz1:k1)p(\bm{x}_k,\bm{z}_k|\bm{z}_{1:k-1})为:
    p(xkzk,z1:k1)N(μ~k,P~k)μ~k=μ^k+P^kHT(μ^k)[H(μ^k)P^kHT(μ^k)+Rk]1(zkh(μ^k)P~k=P^kP^kHT(μ^k)[H(μ^k)P^kHT(μ^k)+Rk]1H(μ^k)P^k \begin{aligned} &p(\bm{x}_k|\bm{z}_k,\bm{z}_{1:k-1})\sim N(\tilde{\bm{\mu}}_k,\tilde{\bm{P}}_k)\\ &\tilde{\bm{\mu}}_k=\hat{\bm{\mu}}_k+\hat{\bm{P}}_k\bm{H}^T(\hat{\bm{\mu}}_k)[ \bm{H}(\hat{\bm{\mu}}_k)\hat{\bm{P}}_k\bm{H}^T(\hat{\bm{\mu}}_k) +\bm{R}_k]^{-1}(\bm{z}_k-\bm{h}(\hat{\bm{\mu}}_k)\\ &\tilde{\bm{P}}_k=\hat{\bm{P}}_k-\hat{\bm{P}}_k\bm{H}^T(\hat{\bm{\mu}}_k)[ \bm{H}(\hat{\bm{\mu}}_k)\hat{\bm{P}}_k\bm{H}^T(\hat{\bm{\mu}}_k) +\bm{R}_k]^{-1}\bm{H}(\hat{\bm{\mu}}_k)\hat{\bm{P}}_k \end{aligned}

    至此我们就得到了加性噪声模型下的一阶近似EKF算法,整理如下:
    EKF{{x^k=f(μk1)P^k=F(μk1)Pk1FT(μk1))+Qk1{K=P^kHT(μ^k)[H(μ^k)P^kHT(μ^k)+Rk]1x~k=μ^k+K(zkh(μ^k))P~k=P^kKH(μ^k)P^k 一阶近似EKF(加性)\left\{ \begin{aligned} 一步预测&\left\{\begin{aligned} \hat{\bm{x}}_k &= \bm{f}(\bm{\mu}_{k-1}) \\ \hat{\bm{P}}_k &= \bm{F}(\bm{\mu}_{k-1})\bm{P}_{k-1}\bm{F}^T(\bm{\mu}_{k-1}))+\bm{Q}_{k-1} \end{aligned}\right.\\ 量测更新&\left\{\begin{aligned} \bm{K} &= \hat{\bm{P}}_k\bm{H}^T(\hat{\bm{\mu}}_k)[ \bm{H}(\hat{\bm{\mu}}_k)\hat{\bm{P}}_k\bm{H}^T(\hat{\bm{\mu}}_k) +\bm{R}_k]^{-1}\\ \tilde{\bm{x}}_k &= \hat{\bm{\mu}}_k+\bm{K}(\bm{z}_k-\bm{h}(\hat{\bm{\mu}}_k))\\ \tilde{\bm{P}}_k &= \hat{\bm{P}}_k-\bm{K}\bm{H}(\hat{\bm{\mu}}_k)\hat{\bm{P}}_k \end{aligned}\right. \end{aligned} \right.

    非加性噪声模型

    而如果在状态空间模型中控制变量uk\bm{u}_k不为零,此时预测方程会变为y=g(x,q)\bm{y}=\bm{g}(\bm{x},\bm{q})形式。此时噪声变量q\bm{q}是和状态变量x\bm{x}同为g(x)\bm{g}(\bm{x})的自变量,两者显然并不具有可加性,因此这一类模型统称为非加性噪声模型

    对于非加性噪声模型来说,其泰勒级数在式(1)的基础上需要进行一定改动,这里直接给出结论:
    定理2:假设g(x,u)Rn\bm{g}(\bm{x},\bm{u})\in\mathbb{R}^n为关于自变量为xRn\bm{x}\in\mathbb{R}^nuRm\bm{u}\in\mathbb{R}^m的矢量函数,则g(x,u)\bm{g}(\bm{x},\bm{u})在点(x0,u0)(\bm{x}_0,\bm{u}_0)处的泰勒级数为:
    g(x,u)=g(x0,u0)+Jx(x0,u0)δx+Ju(x0,u0)δu+ \bm{g}(\bm{x},\bm{u})=\bm{g}(\bm{x}_0,\bm{u}_0)+\bm{J}_\bm{x}(\bm{x}_0,\bm{u}_0)\delta\bm{x}+\bm{J}_\bm{u}(\bm{x}_0,\bm{u}_0)\delta\bm{u}+\cdots

    那么,对于非线性变换y=g(x,q)\bm{y}=\bm{g}(\bm{x},\bm{q})xN(μ,P)\bm{x}\sim N(\bm{\mu},\bm{P})qN(0,Q)\bm{q}\sim N(\bm{0},\bm{Q}),联合分布g~(x)=[xg(x,q)]T\tilde{\bm{g}}(\bm{x})=[\begin{array}{cc}\bm{x}&\bm{g}(\bm{x},\bm{q})\end{array}]^T,可以求得均值为:
    E[g~(x)]=[E[x]E[g(μ,0)+Jx(μ,0)δx+Jq(μ,0)δq]]=[μg(μ)+JxE[(μ)δx]+Jq(μ)E[δq]]=[μg(μ)] \begin{aligned} E[\tilde{\bm{g}}(\bm{x})]&=\left[\begin{array}{c}E[\bm{x}]\\ E[\bm{g}(\bm{\mu},\bm{0})+\bm{J}_\bm{x}(\bm{\mu},\bm{0})\delta\bm{x}+\bm{J}_\bm{q}(\bm{\mu},\bm{0})\delta\bm{q}]\end{array}\right]\\ &=\left[\begin{array}{c}\bm{\mu}\\ \bm{g}(\bm{\mu})+\bm{J}_\bm{x}E[(\bm{\mu})\delta\bm{x}]+\bm{J}_\bm{q}(\bm{\mu})E[\delta\bm{q}]\end{array}\right]\\ &=\left[\begin{array}{c}\bm{\mu}\\ \bm{g}(\bm{\mu})\end{array}\right]\\ \end{aligned}
    同样,参考加性噪声模型的方法求解方法有:
    Cov[g~(x)]E[(g~(x)E[g~(x)])(g~(x)E[g~(x)])T]=E[[δxJx(μ)δx+Jq(μ)δq][δxJx(μ)δx+Jq(μ)δq]T]=[E[δxδxT]E[δxδxT]JxT(μ)+E[δxδqT]JqT(μ)Jx(μ)E[δxδxT]+Jq(μ)E[δqδxT]Jx(μ)E[δxδxT]Jx(μ)+Jq(μ)E[δqδxT]Jx(μ)+Jx(μ)E[δxδqT]Jq(μ)+Jq(μ)E[δqδqT]Jq(μ)]=[PPJxT(μ)Jx(μ)PJx(μ)PJx(μ)+Jq(μ)QJq(μ)] \footnotesize \begin{aligned} Cov[\tilde{\bm{g}}(\bm{x})]&\approx E[\left(\tilde{\bm{g}}(\bm{x})-E[\tilde{\bm{g}}(\bm{x})]\right)\left(\tilde{\bm{g}}(\bm{x})-E[\tilde{\bm{g}}(\bm{x})]\right)^T]\\ &=E\left[\left[\begin{array}{c}\delta\bm{x}\\ \bm{J}_\bm{x}(\bm{\mu})\delta\bm{x}+\bm{J}_\bm{q}(\bm{\mu})\delta\bm{q}\end{array}\right]\left[\begin{array}{c}\delta\bm{x}\\ \bm{J}_\bm{x}(\bm{\mu})\delta\bm{x}+\bm{J}_\bm{q}(\bm{\mu})\delta\bm{q}\end{array}\right]^T\right]\\ &=\begin{bmatrix} E[\delta\bm{x}\delta\bm{x}^T] & E[\delta\bm{x}\delta\bm{x}^T]\bm{J}_\bm{x}^T(\bm{\mu})+E[\delta\bm{x}\delta\bm{q}^T]\bm{J}_\bm{q}^T(\bm{\mu})\\ \bm{J}_\bm{x}(\bm{\mu})E[\delta\bm{x}\delta\bm{x}^T]+\bm{J}_\bm{q}(\bm{\mu})E[\delta\bm{q}\delta\bm{x}^T] & \begin{aligned} &\bm{J}_\bm{x}(\bm{\mu})E[\delta\bm{x}\delta\bm{x}^T]\bm{J}_\bm{x}(\bm{\mu})+\bm{J}_\bm{q}(\bm{\mu})E[\delta\bm{q}\delta\bm{x}^T]\bm{J}_\bm{x}(\bm{\mu})+\\ &\bm{J}_\bm{x}(\bm{\mu})E[\delta\bm{x}\delta\bm{q}^T]\bm{J}_\bm{q}(\bm{\mu})+\bm{J}_\bm{q}(\bm{\mu})E[\delta\bm{q}\delta\bm{q}^T]\bm{J}_\bm{q}(\bm{\mu}) \end{aligned} \end{bmatrix}\\ &=\begin{bmatrix} \bm{P} & \bm{P}\bm{J}_\bm{x}^T(\bm{\mu})\\ \bm{J}_\bm{x}(\bm{\mu})\bm{P} & \bm{J}_\bm{x}(\bm{\mu})\bm{P}\bm{J}_\bm{x}(\bm{\mu})+\bm{J}_\bm{q}(\bm{\mu})\bm{Q}\bm{J}_\bm{q}(\bm{\mu}) \end{bmatrix} \end{aligned}
    上式最后一步化简中利用了x\bm{x}q\bm{q}不相关的,互协方差E(δxδqT)=E(δqδxT)=0E(\delta\bm{x}\delta\bm{q}^T)=E(\delta\bm{q}\delta\bm{x}^T)=\bm{0}的性质。

    在有了非加性噪声模型下的Gaussian变换公式后,我们同样可以按照Kalman滤波的推导方法推导如下所示非加性噪声模型下的一阶近似EKF
    {xk=f(xk1,qk1)zk=h(xk,rk) \left\{ \begin{aligned} \bm{x}_k&=\bm{f}(\bm{x}_{k-1}, \bm{q}_{k-1})\\ \bm{z}_k&=\bm{h}(\bm{x}_k,\bm{r}_k) \end{aligned}\right.

    具体的推导步骤和加性噪声模型完全一致,这里不再赘述,直接给出结论:
    EKF{{x^k=f(μk1,0)P^k=Fx(μk1)Pk1FxT(μk1)+Fq(μk1)Qk1FqT(μk1){S=Hx(μk1)Pk1HxT(μk1)+Hr(μk1)Qk1HrT(μk1)K=P^kHxT(μ^k)S1x~k=μ^k+K(zkh(μ^k,0))P~k=P^kKHx(μ^k)P^k \footnotesize 一阶近似EKF(非加性)\left\{ \begin{aligned} 一步预测&\left\{\begin{aligned} \hat{\bm{x}}_k &= \bm{f}(\bm{\mu}_{k-1},\bm{0}) \\ \hat{\bm{P}}_k &= \bm{F}_\bm{x}(\bm{\mu}_{k-1})\bm{P}_{k-1}\bm{F}_\bm{x}^T(\bm{\mu}_{k-1})+\bm{F}_\bm{q}(\bm{\mu}_{k-1})\bm{Q}_{k-1}\bm{F}_\bm{q}^T(\bm{\mu}_{k-1}) \end{aligned}\right.\\ 量测更新&\left\{\begin{aligned} \bm{S} &= \bm{H}_\bm{x}(\bm{\mu}_{k-1})\bm{P}_{k-1}\bm{H}_\bm{x}^T(\bm{\mu}_{k-1})+\bm{H}_\bm{r}(\bm{\mu}_{k-1})\bm{Q}_{k-1}\bm{H}_\bm{r}^T(\bm{\mu}_{k-1})\\ \bm{K} &= \hat{\bm{P}}_k\bm{H}_{\bm{x}}^T(\hat{\bm{\mu}}_k)\bm{S}^{-1}\\ \tilde{\bm{x}}_k &= \hat{\bm{\mu}}_k+\bm{K}(\bm{z}_k-\bm{h}(\hat{\bm{\mu}}_k,\bm{0 }))\\ \tilde{\bm{P}}_k &= \hat{\bm{P}}_k-\bm{K}\bm{H}_{\bm{x}}(\hat{\bm{\mu}}_k)\hat{\bm{P}}_k \end{aligned}\right. \end{aligned} \right.

    式中,Fi(μk1,0),i=x,q\bm{F}_\bm{i}(\bm{\mu}_{k-1},\bm{0}),\bm{i}={\bm{x},\bm{q}}Hi(μ^k,0),i=x,q\bm{H}_\bm{i}(\hat{\bm{\mu}}_k,\bm{0}),\bm{i}={\bm{x},\bm{q}}分别为状态转移函数f(x,q)\bm{f}(\bm{x},\bm{q})和量测函数h(x,r)\bm{h}(\bm{x},\bm{r})在对应点处的Jacobian矩阵。

    总结

    除了上述两种一阶近似EKF之外,还有一种取泰勒级数二次项的二阶近似EKF,但其公式推导复杂,计算资源消耗较大,一般应用较少。对于大多数工业应用来说,一阶近似EKF的性能已完全能够满足我们的需求,因此这里对于二阶EKF略过不提,感兴趣的可自行推导。

    展开全文
  • 为什么L1正则化导致稀疏解

    千次阅读 热门讨论 2018-09-25 20:13:41
    如果你认为,你现有的数据来自于高斯分布,那么就应该在代价函数中加入数据先验P(x),一般由于推导和计算方便会加入对数似然,也就是log(P(x)),然后再去优化,这样最终的结果是,由于你的模型参数考虑了数据先验,模型效果...

    一、从数据先验的角度
    首先你要知道L1范式和L2范式是怎么来的,然后是为什么要把L1或者L2正则项加到代价函数中去.L1,L2范式来自于对数据的先验知识.如果你认为,你现有的数据来自于高斯分布,那么就应该在代价函数中加入数据先验P(x),一般由于推导和计算方便会加入对数似然,也就是log(P(x)),然后再去优化,这样最终的结果是,由于你的模型参数考虑了数据先验,模型效果当然就更好.哦对了,如果你去看看高斯分布的概率密度函数P(x),你会发现取对数后的log(P(x))就剩下一个平方项了,这就是L2范式的由来–高斯先验.同样,如果你认为你的数据是稀疏的,不妨就认为它来自某种laplace分布.不知你是否见过laplace分布的概率密度函数,我贴出一张维基上的图
    在这里插入图片描述

    作者:amnesia
    链接:https://www.zhihu.com/question/37096933/answer/70668476
    来源:知乎

    二、从数据计算的角度

    但为什么L1正则会产生稀疏解呢?这里利用公式进行解释。
    假设只有一个参数为w,损失函数为L(w),分别加上L1正则项和L2正则项后有:
    在这里插入图片描述
    假设L(w)在0处的倒数为d0,即
    在这里插入图片描述

    则可以推导使用L1正则和L2正则时的导数。
    引入L2正则项,在0处的导数
    在这里插入图片描述
    引入L1正则项,在0处的导数
    在这里插入图片描述

    可见,引入L2正则时,代价函数在0处的导数仍是d0,无变化。而引入L1正则后,代价函数在0处的导数有一个突变。从d0+λ到d0−λ,若d0+λ和d0−λ异号,则在0处会是一个极小值点。因此,优化时,很可能优化到该极小值点上,即w=0处。
    这里只解释了有一个参数的情况,如果有更多的参数,也是类似的。因此,用L1正则更容易产生稀疏解。

    来自https://blog.csdn.net/f156207495/article/details/82794151?utm_source=copy

    展开全文
  • 并且通过改变随机相位的高斯调制半宽可以改变光束的相干性分布. 研究表明, 随着随机.相位的高斯调制半宽的增加, 光束中两点间的相干度逐渐减小, 其光强分布由圆环状逐渐变化为类平顶的光.强分布...

空空如也

空空如也

1 2
收藏数 39
精华内容 15
关键字:

高斯分布加和推导