精华内容
下载资源
问答
  • 变量误差系统的ARX模型估计方法
  •   1、什么是基于模型的谱估计方法   2、应用场景和代表模型 二、模型函数 三、谱估计方法   1、ARMR谱估计   2、AR谱估计 一、概述 1、什么是基于模型的谱估计方法 对于传统窗函数外的信号数据直接按照0处理,...
  • 文章阐述了指数模型参数估计的傅立叶分析法和最小二乘法,计算表明两者通常可以获得较小 的残差及良好的参数估计值.两种方法可互为验证,时实际指教模型的参数估计有一定的参考价值
  • 该文在分析雷达回波稀疏特性的基础上,将参数估计问题转化为压缩感知理论中的稀疏信号重构问题,据此提出了一种基于压缩感知的2维GTD模型参数估计方法。该方法首先利用2维傅里叶变换成像确定目标散射中心的支撑区域,...
  • 线性高斯模型估计方法

    千次阅读 2019-04-14 11:28:58
    针对线性高斯模型y=Hx+w\boldsymbol{y}=\boldsymbol{Hx}+\boldsymbol{w}y=Hx+w,本篇博客总结归纳了,几种较为经典的算法,主要包括 [1] 最小二乘估计 (Least square, LS) [2] 最大似然估计 (Maximum likelihood,...

    个人博客www.qiuyun-blog.cn


    系统模型

    对于线性高斯模型
    y=Hx+w\boldsymbol{y}=\boldsymbol{Hx}+\boldsymbol{w}其中xRN\boldsymbol{x}\in \mathbb{R}^N为待估计变量,其概率密度为p(x)p(\boldsymbol{x})w\boldsymbol{w}是高斯白噪声,即wN(wa,Cw)\boldsymbol{w}\sim \mathcal{N}(\boldsymbol{w}|\boldsymbol{a},\boldsymbol{C}_{\boldsymbol{w} })。信号估计的目标是根据已知的模型信息,从观测向量yRM\boldsymbol{y}\in \mathbb{R}^M中恢复出原始信号x\boldsymbol{x}。为了得到确定解,一般y\boldsymbol{y}的维度大于x\boldsymbol{x}的维度,即模型为超定方程组。

    最小二乘法 (Least Square, LS)

    x\boldsymbol{x}的最小二乘估计,通过最小化如下损失函数得到
    J=yHx2 J=||\boldsymbol{y}-\boldsymbol{Hx}||^2由于该损失函数是凸函数,因此我们通过计算损失函数对x\boldsymbol{x}的导数
    Jx=2HTy+2HTHx \frac{\partial J}{\partial \boldsymbol{x} }=-2\boldsymbol{H}^T\boldsymbol{y}+2\boldsymbol{H}^T\boldsymbol{H}\boldsymbol{x}并令导数为零,得到该模型的最小二乘估计
    x^LS=(HTH)1HTy \hat{\boldsymbol{x} }_{\text{LS} }=(\boldsymbol{H}^T\boldsymbol{H})^{-1}\boldsymbol{H}^T\boldsymbol{y}

    几何解释: 如图所示,由于H\boldsymbol{H}所构成的超平面用C\mathcal{C}表示,最小化J=yHx2J=||\boldsymbol{y}-\boldsymbol{Hx}||^2所描述的是,找到y\boldsymbol{y}在超平面C\mathcal{C}上的正交投影。
    在这里插入图片描述

    Remarks:

    最小二乘的优势在于算法结构简单,其缺陷在于,由于忽略了噪声的存在,因此当噪声很大的时候,其估计性能极差。

    最大似然估计(Maximum likelihood, ML)

    似然函数的定义(摘自Wiki Pedia):

    In frequentist inference, a likelihood function (often simply the likelihood) is a function of the parameters of a statistical model, given specific observed data. Likelihood functions play a key role in frequentist inference, especially methods of estimating a parameter from a set of statistics. In informal contexts, “likelihood” is often used as a synonym for “probability”. In mathematical statistics, the two terms have different meanings. Probability in this mathematical context describes the plausibility of a random outcome, given a model parameter value, without reference to any observed data. Likelihood describes the plausibility of a model parameter value, given specific observed data.
    在概率推论中,一个似然函数(简称似然)是给定明确的观测数据,关于一个统计模型的参数的函数。似然函数在概率推论中扮演着重要的角色,尤其是从一组统计数据中估计参数。在非正式的文献中,似然函数通常被认为是“概率”。在统计数学中,这两者有不同的含义。在数学文献中,概率描述的是给定模型参数值下一个随机输出的可能性,没有参考任何观测数据。似然函数描述的是给定具体观测数据,模型参数值得可能性。
    Following Bayes’ Rule, the likelihood when seen as a conditional density can be multiplied by the prior probability density of the parameter and then normalized, to give a posterior probability density.
    根据贝叶斯公式,似然函数被看作是条件概率,可以乘上先验概率然后归一化得到后验概率。

    对于线性高斯模型y=Hx+w\boldsymbol{y}=\boldsymbol{Hx}+\boldsymbol{w},为了方便计算,这里我们设wN(0,σ2I)\boldsymbol{w}\sim \mathcal{N}(\boldsymbol{0},\sigma^2\mathbf{I}),则该模型的其似然函数为
    L(x)=p(yx)=N(yHx,σ2I) =(2πσ2)M2exp(12σ2(yHx)T(yHx)) L(\boldsymbol{x})=p(\boldsymbol{y}|\boldsymbol{x})=\mathcal{N}(\boldsymbol{y}|\boldsymbol{Hx},\sigma^2\mathbf{I})\\ \qquad \qquad \qquad \qquad \qquad \quad \ =(2\pi\sigma^2)^{-\frac{M}{2} }\exp \left(-\frac{1}{2\sigma^2}(\boldsymbol{y}-\boldsymbol{Hx})^T(\boldsymbol{y}-\boldsymbol{Hx})\right)等式两边取对数,有
    (x)=lnL(x)=12σ2(yHx)T(yHx)M2ln(2πσ2) \ell(\boldsymbol{x})=\ln L(\boldsymbol{x})=-\frac{1}{2\sigma^2}(\boldsymbol{y}-\boldsymbol{Hx})^T(\boldsymbol{y}-\boldsymbol{Hx})-\frac{M}{2}\ln (2\pi\sigma^2) 计算对数似然函数关于x\boldsymbol{x}的偏导数,有
    (x)x=12σ2(2HTy2HTHx)=0 x^ML=(HTH)1HTy \frac{\partial \ell(\boldsymbol{x})}{\partial \boldsymbol{x} }=-\frac{1}{2\sigma^2}(2\boldsymbol{H}^T\boldsymbol{y}-2\boldsymbol{H}^T\boldsymbol{H}\boldsymbol{x})=0 \ \Rightarrow \hat{\boldsymbol{x} }_{\text{ML} }=(\boldsymbol{H}^T\boldsymbol{H})^{-1}\boldsymbol{H}^T\boldsymbol{y} 因此,我们发现,线性高斯模型的最大似然解和最小二乘解一致。

    最小均方误差估计(Minimum mean square error, MMSE)

    定义如下贝叶斯均方误差(Bayesian mean square error, Bmse)
    Bmse(x^)=E{xx^2}=xx^2p(x,y)dxdy \text{Bmse}(\hat{\boldsymbol{x} })=\mathbb{E}\left\{||\boldsymbol{x}-\hat{\boldsymbol{x} }||^2\right\}=\int ||\boldsymbol{x}-\hat{\boldsymbol{x} }||^2p(\boldsymbol{x},\boldsymbol{y})\text{d}\boldsymbol{x}\text{d}\boldsymbol{y} 最小均方误差估计量,即寻找使得贝叶斯均方误差最小的x\boldsymbol{x}
       x^=argminx[xx^2p(xy)dx]p(y)dy=argminxxx^2p(xy)dx \qquad \qquad \ \ \ \hat{\boldsymbol{x} } =\underset{\boldsymbol{x} }{\arg \min} \int \left[\int ||\boldsymbol{x}-\hat{\boldsymbol{x} }||^2p(\boldsymbol{x}|\boldsymbol{y})\text{d}\boldsymbol{x}\right]p(\boldsymbol{y})\text{d}\boldsymbol{y}\\ =\underset{\boldsymbol{x} }{\arg \min}\int ||\boldsymbol{x}-\hat{\boldsymbol{x} }||^2p(\boldsymbol{x}|\boldsymbol{y})\text{d}\boldsymbol{x} 计算其导数
    xxx^2p(xy)dx=2(xx^)p(xy)dx=2xp(xy)dx2x^ \frac{\partial }{\partial \boldsymbol{x} }\int ||\boldsymbol{x}-\hat{\boldsymbol{x} }||^2p(\boldsymbol{x}|\boldsymbol{y})\text{d}\boldsymbol{x} =2\int (\boldsymbol{x}-\hat{\boldsymbol{x} })p(\boldsymbol{x}|\boldsymbol{y})\text{d}\boldsymbol{x}\\ \qquad \qquad \qquad \qquad \qquad \quad=2\int \boldsymbol{x}p(\boldsymbol{x}|\boldsymbol{y})\text{d}\boldsymbol{x}-2\hat{\boldsymbol{x} } 注意x^\hat{\boldsymbol{x} }是关于y\boldsymbol{y}的函数。令导数为0,有
    x^MMSE=xp(xy)dx=E[xy] \hat{\boldsymbol{x} }_{\text{MMSE} }=\int \boldsymbol{x} p(\boldsymbol{x}|\boldsymbol{y})\text{d}\boldsymbol{x}=\mathbb{E}\left[\boldsymbol{x}|\boldsymbol{y}\right]
    Remarks:

    1. 最小均方误差估计器,被称为后验均值估计,也就是选取后验概率的均值作为x\boldsymbol{x}的估计值。因此,最小均方误差估计器最为核心之处,在于计算后验概率p(xy)p(\boldsymbol{x}|\boldsymbol{y})。根据贝叶斯公式
      p(xy)=p(x,y)p(y)=p(yx)p(x)p(y) p(\boldsymbol{x}|\boldsymbol{y})=\frac{p(\boldsymbol{x},\boldsymbol{y})}{p(\boldsymbol{y})}=\frac{p(\boldsymbol{y}|\boldsymbol{x})p(\boldsymbol{x})}{p(\boldsymbol{y})} 这里我们仅需要求p(yx)p(x)p(\boldsymbol{y}|\boldsymbol{x})p(\boldsymbol{x}),而p(y)p(\boldsymbol{y})可以通过归一化来实现。
      x^=[x^1x^N]=[x1p(x1y)dx1x1p(xNy)dxN] \hat{\boldsymbol{x} }=\left[ \begin{matrix} \hat{x}_1\\ \vdots\\ \hat{x}_N \end{matrix} \right]=\left[ \begin{matrix} \int x_1p(x_1|\boldsymbol{y})\text{d}x_1\\ \vdots\\ \int x_1p(x_N|\boldsymbol{y})\text{d}x_N \end{matrix} \right] 因此,我们可以知道,最小均方误差真正的难点在于,求边缘后验概率
      p(xiy)=x\ip(xy)dx\i p(x_i|\boldsymbol{y})=\int_{\boldsymbol{x}_{\backslash i} } p(\boldsymbol{x}|\boldsymbol{y})\text{d}\boldsymbol{x}_{\backslash i} 其中x\i\boldsymbol{x}_{\backslash i}表示除了第ii个元素外,x\boldsymbol{x}中其余元素所构成的向量。
    2. 最小均方误差估计器是贝叶斯最优的,因为,最小均方误差估计器选取使得贝叶斯均方误差最小的x\boldsymbol{x}作为估计器。
    3. 当先验概率是高斯的时候,根据高斯相乘引理,我们可以写出线性高斯模型的MMSE估计器的解析表达式。
    4. 通常先验概率是非高斯的,此时,我们不能写出MMSE估计器的解析表达式。一种方法是,退而求其次,通过限制待估计量与观测值呈线性关系,即LMMSE估计器;另一种方法是通过因子图的角度出发,利用近似消息传递(approximate message passing, AMP)[1][2]类算法或者期望传播(Expectation propagation, EP)[3]类算法,来迭代得到估计量的MMSE解。注意,不管是AMP族算法还是EP族算法,其本质上是计算边缘后验概率。

    线性最小均方误差估计 (Linear minmum mean square error, LMMSE)

    线性最小均方误差估计,通过假设估计器的模型为y\boldsymbol{y}的线性模型,并使得贝叶斯均方误差最小,来得到估计器的表达式
    x^=Ay+b \hat{\boldsymbol{x} }=\boldsymbol{A}\boldsymbol{y}+\boldsymbol{b} 为了得到x\boldsymbol{x}的表达式,我们需要进一步确定A\boldsymbol{A}b\boldsymbol{b}。定义如下贝叶斯均方误差(Bayesian mean square error, BMSE)
    Bmse(x^)=E{xx^2} \text{Bmse}(\hat{\boldsymbol{x} })=\mathbb{E}\left\{||\boldsymbol{x}-\hat{\boldsymbol{x} }||^2\right\} 这里的期望是对联合概率p(x,y)p(\boldsymbol{x},\boldsymbol{y})求。

    Step 1\underline{\text{Step 1} }:为求x^=[x^1, ,x^N]T\hat{\boldsymbol{x} }=[\hat{x}_1,\cdots,\hat{x}_N]^T,我们首先考虑一维的情况,即
    x^=aTy+b \hat{x}=\boldsymbol{a}^T\boldsymbol{y}+b 其对应的贝叶斯均方误差为
    Bmse(x^)=E{(xx^)2} \text{Bmse}(\hat{x })=\mathbb{E}\left\{(x-\hat{x})^2\right\} 其中期望对p(x,y)p(x,\boldsymbol{y})取。

    Step 2\underline{\text{Step 2} }: 求bb。计算贝叶斯均方误差对bb的偏导,有
    bE{(xaTyb)2}=2E{xaTyb} \frac{\partial }{\partial b}\mathbb{E}\left\{(x-\boldsymbol{a}^T\boldsymbol{y}-b)^2\right\}=-2\mathbb{E}\left\{x-\boldsymbol{a}^T\boldsymbol{y}-b\right\}
    令偏导为0,得到
    b=E[x]aTE[y] b=\mathbb{E}[x]-\boldsymbol{a}^T\mathbb{E}[\boldsymbol{y}]
    Step 3\underline{\text{Step 3} }:计算a\boldsymbol{a}。计算贝叶斯均方误差如下
    Bmse(x^)=E{(xaTyE[x]+aTE[y])2}   =E{[aT(yE[y])(xE[x])]2}   =E{aT(yE[y])(yE[y])Ta}E{aT(yE[y])(xE[x])}E{(xE[x])(yE[y])Ta}+E{(xE[x])2} =aTCyyaaTCyxCxya+Cxx \text{Bmse}(\hat{x}) =\mathbb{E}\left\{(x-\boldsymbol{a}^T\boldsymbol{y}-\mathbb{E}[x]+\boldsymbol{a}^T\mathbb{E}[\boldsymbol{y}])^2\right\}\\ \qquad \quad \quad \ \ \ =\mathbb{E}\left\{\left[\boldsymbol{a}^T(\boldsymbol{y}-\mathbb{E}[\boldsymbol{y}])-(x-\mathbb{E}[x])\right]^2\right\}\\ \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \ \ \ =\mathbb{E}\left\{\boldsymbol{a}^T(\boldsymbol{y}-\mathbb{E}[\boldsymbol{y}])(\boldsymbol{y}-\mathbb{E}[\boldsymbol{y}])^T\boldsymbol{a}\right\}-\mathbb{E}\left\{\boldsymbol{a}^T(\boldsymbol{y}-\mathbb{E}[\boldsymbol{y}])(x-\mathbb{E}[x])\right\}\\ \qquad \qquad \qquad \qquad \qquad \qquad -\mathbb{E}\left\{(x-\mathbb{E}[x])(\boldsymbol{y}-\mathbb{E}[\boldsymbol{y}])^T\boldsymbol{a}\right\}+\mathbb{E}\left\{(x-\mathbb{E}[x])^2\right\}\\ \qquad \qquad \ =\boldsymbol{a}^T\boldsymbol{C}_{\boldsymbol{yy} }\boldsymbol{a}-\boldsymbol{a}^T\boldsymbol{C}_{\boldsymbol{y}x}-\boldsymbol{C}_{x\boldsymbol{y} }\boldsymbol{a}+C_{xx} 其中Cyy\boldsymbol{C}_{\boldsymbol{yy} }y\boldsymbol{y}的协方差矩阵,Cxy\boldsymbol{C}_{x\boldsymbol{y} }1×N1\times N的互协方差矢量,且Cxy=CyxT\boldsymbol{C}_{x\boldsymbol{y} }=\boldsymbol{C}_{\boldsymbol{y}x}^TCxxC_{xx}xx的方差。计算贝叶斯均方误差对a\boldsymbol{a}的偏导,并令偏导为0,有
    Bmse(x^)a=2Cyya2Cyx=0a=Cyy1Cyx \frac{\partial \text{Bmse}(\hat{\boldsymbol{x} })}{\partial \boldsymbol{a} }=2\boldsymbol{C}_{\boldsymbol{yy} }\boldsymbol{a}-2\boldsymbol{C}_{\boldsymbol{y}x}=0 \quad \Rightarrow \boldsymbol{a}=C_{\boldsymbol{yy} }^{-1}\boldsymbol{C}_{\boldsymbol{y}x} 因此,得到
     x^=CxyCyy1y+E[x]CxyCyy1E[y]=CxyCyy1(yE[y])+E[x] \quad \quad \ \hat{x} =\boldsymbol{C}_{x\boldsymbol{y} }\boldsymbol{C}_{\boldsymbol{yy} }^{-1}\boldsymbol{y}+\mathbb{E}[x]-\boldsymbol{C}_{x\boldsymbol{y} }\boldsymbol{C}_{\boldsymbol{yy} }^{-1}\mathbb{E}[\boldsymbol{y}]\\ =\boldsymbol{C}_{x\boldsymbol{y} }\boldsymbol{C}_{\boldsymbol{yy} }^{-1}(\boldsymbol{y}-\mathbb{E}[\boldsymbol{y}])+\mathbb{E}[x]

    Step 4\underline{\text{Step 4} }:扩展到矢量x^\hat{\boldsymbol{x} }
     x^=[E[x1]E[x2]E[xN]]+[Cx1yCyy1(yE[y])Cx2yCyy1(yE[y])CxNyCyy1(yE[y])]=E[x]+CxyCyy1(yE[y]) \qquad \quad \ \hat{\boldsymbol{x} } =\left[ \begin{matrix} \mathbb{E}[x_1]\\ \mathbb{E}[x_2]\\ \vdots\\ \mathbb{E}[x_N]\\ \end{matrix} \right] + \left[ \begin{matrix} \boldsymbol{C}_{x_1\boldsymbol{y} }\boldsymbol{C}_{\boldsymbol{yy} }^{-1}(\boldsymbol{y}-\mathbb{E}[\boldsymbol{y}])\\ \boldsymbol{C}_{x_2\boldsymbol{y} }\boldsymbol{C}_{\boldsymbol{yy} }^{-1}(\boldsymbol{y}-\mathbb{E}[\boldsymbol{y}])\\ \vdots\\ \boldsymbol{C}_{x_N\boldsymbol{y} }\boldsymbol{C}_{\boldsymbol{yy} }^{-1}(\boldsymbol{y}-\mathbb{E}[\boldsymbol{y}])\\ \end{matrix} \right]\\ =\mathbb{E}[\boldsymbol{x}]+\boldsymbol{C}_{\boldsymbol{xy} }\boldsymbol{C}_{\boldsymbol{yy} }^{-1}(\boldsymbol{y}-\mathbb{E}[\boldsymbol{y}]) 其中
    Cyy=HCxxHT+Cw,Cxy=CxxHT \boldsymbol{C}_{\boldsymbol{yy} } =\boldsymbol{H}\boldsymbol{C}_{\boldsymbol{xx} }\boldsymbol{H}^T+\boldsymbol{C}_{\boldsymbol{w} },\quad \boldsymbol{C}_{\boldsymbol{xy} }=\boldsymbol{C}_{\boldsymbol{xx} }\boldsymbol{H}^T 因此
    x^LMMSE=E[x]+CxxHT(HCxxHT+Cw)1(yHE[x])   =E[x]+(Cxx1+HTCw1H)1HTCw1(yHE[x]) \hat{\boldsymbol{x} }_{\text{LMMSE} } =\mathbb{E}[\boldsymbol{x}]+\boldsymbol{C}_{\boldsymbol{xx} }\boldsymbol{H}^T(\boldsymbol{H}\boldsymbol{C}_{\boldsymbol{xx} }\boldsymbol{H}^T+\boldsymbol{C}_{\boldsymbol{w} })^{-1}(\boldsymbol{y}-\boldsymbol{H}\mathbb{E}[\boldsymbol{x}])\\ \qquad \quad \ \ \ =\mathbb{E}[\boldsymbol{x}]+(\boldsymbol{C}_{\boldsymbol{xx} }^{-1}+\boldsymbol{H}^T\boldsymbol{C}_{\boldsymbol{w} }^{-1}\boldsymbol{H})^{-1}\boldsymbol{H}^T\boldsymbol{C}_{\boldsymbol{w} }^{-1}(\boldsymbol{y}-\boldsymbol{H}\mathbb{E}[\boldsymbol{x}])

    Remarks:

    1. 通常我们所遇到的模型中,经过功率归一化后,x\boldsymbol{x}的均值为0,方差为1,以及噪声方差为σ2\sigma^2。因此,进一步将其LMMSE估计器简化为
      x^LMMSE=(HTH+σ2I)1HTy \hat{\boldsymbol{x} }_{\text{LMMSE} }=(\boldsymbol{H}^T\boldsymbol{H}+\sigma^2\mathbf{I})^{-1}\boldsymbol{H}^T\boldsymbol{y} 我们可以看到,相对于LS而言 (x^=(HTH)1HTy)\left(\hat{\boldsymbol{x} }=(\boldsymbol{H}^T\boldsymbol{H})^{-1}\boldsymbol{H}^T\boldsymbol{y}\right),LMMSE加入了噪声修正项σ2I\sigma^2\mathbf{I}
    2. 对于简化后的LMMSE估计器模型x^=(HTH+σ2I)1HTy\hat{\boldsymbol{x} }=(\boldsymbol{H}^T\boldsymbol{H}+\sigma^2\mathbf{I})^{-1}\boldsymbol{H}^T\boldsymbol{y},我们可以将其视为,假设xN(x0,I)\boldsymbol{x}\sim \mathcal{N}(\boldsymbol{x}|\boldsymbol{0},\mathbf{I})的MMSE结果。证明如下
      p(xy)=p(x)p(yx)p(y)p(x)p(yx) p(\boldsymbol{x}|\boldsymbol{y}) =\frac{p(\boldsymbol{x})p(\boldsymbol{y}|\boldsymbol{x})}{p(\boldsymbol{y})}\\ \propto p(\boldsymbol{x})p(\boldsymbol{y}|\boldsymbol{x}) 根据高斯相乘引理[4]:
      p(x)p(yx)=N(x0,I)N(yHx,σ2I)   N(x0,I)N(x(HTH)1HTy,(σ2HTH)1)N(xc,C) \quad p(\boldsymbol{x})p(\boldsymbol{y}|\boldsymbol{x}) =\mathcal{N}(\boldsymbol{x}|\boldsymbol{0},\mathbf{I})\mathcal{N}(\boldsymbol{y}|\boldsymbol{Hx},\sigma^2\mathbf{I})\\ \ \ \ \qquad \qquad \qquad \qquad \qquad \qquad \qquad \quad \propto \mathcal{N}(\boldsymbol{x}|\boldsymbol{0},\mathbf{I})\mathcal{N}(\boldsymbol{x}|(\boldsymbol{H}^T\boldsymbol{H})^{-1}\boldsymbol{H}^T\boldsymbol{y},(\sigma^{-2}\boldsymbol{H}^T\boldsymbol{H})^{-1})\\ \propto \mathcal{N}(\boldsymbol{x}|\boldsymbol{c},\boldsymbol{C}) 其中
      C=(σ2HTH+I)1   c=C(σ2HTy)=(HTH+σ2I)1HTy \boldsymbol{C}=(\sigma^{-2}\boldsymbol{H}^T\boldsymbol{H}+\mathbf{I})^{-1}\\ \qquad \qquad \qquad \qquad \quad \ \ \ \boldsymbol{c}=\boldsymbol{C}\cdot (\sigma^{-2}\boldsymbol{H}^T\boldsymbol{y})=(\boldsymbol{H}^T\boldsymbol{H}+\sigma^2\mathbf{I})^{-1}\boldsymbol{H}^T\boldsymbol{y} 由于p(xy)p(\boldsymbol{x}|\boldsymbol{y})为高斯分布,因此,该模型的MMSE估计为其后验概率均值,即高斯的均值c=(HTH+σ2I)1HTy\boldsymbol{c}=(\boldsymbol{H}^T\boldsymbol{H}+\sigma^2\mathbf{I})^{-1}\boldsymbol{H}^T\boldsymbol{y}。我们可以看到,这与LMMSE解一致。

    最大后验概率估计(Maximum a posterior, MAP)

    最大后验概率估计,顾名思义,即选择后验概率最大值所处的x\boldsymbol{x}作为估计器。
    x^MAP=argmaxx p(xy) \hat{\boldsymbol{x} }_{\text{MAP} }=\underset{\boldsymbol{x} }{\arg \max} \ p(\boldsymbol{x}|\boldsymbol{y})\\ 估计器x^\hat{\boldsymbol{x} }的元素表示为
    x^i=argmaxxi{maxx\i p(xy)}  =argmaxxi{maxx\i logp(xy)} \hat{x}_i =\underset{x_i}{\arg \max} \left\{\max_{\boldsymbol{x}_{\backslash i} }\ p(\boldsymbol{x}|\boldsymbol{y})\right\}\\ \qquad \ \ =\underset{x_i}{\arg \max} \left\{\max_{\boldsymbol{x}_{\backslash i} }\ \log p(\boldsymbol{x}|\boldsymbol{y})\right\}

    Remarks:

    特别地,当先验概率为高斯时候,利用高斯相乘引理,我们可以得到后验概率p(xy)p(\boldsymbol{x}|\boldsymbol{y})是关于x\boldsymbol{x}的高斯分布。此时,最大后验概率估计,为该高斯分布的均值点,相应地,这种情况下的MMSE估计和MAP估计是一致的。然而,通常情况下先验概率为非高斯的,这种情况下,我们可以利用AMP算法或者EP算法来迭代计算边缘后验概率。

    References
    [1] Donoho D L, Maleki A, Montanari A. How to design message passing algorithms for compressed sensing[J]. preprint, 2011.
    [2] Meng X, Wu S, Kuang L, et al. Concise derivation of complex Bayesian approximate message passing via expectation propagation[J]. arXiv preprint arXiv:1509.08658, 2015.
    [3] Minka T P. A family of algorithms for approximate Bayesian inference[D]. Massachusetts Institute of Technology, 2001.
    [4] www.qiuyun-blog.cn/Gaussian_reproduction_lemma/

    展开全文
  • 室内单眼定位的基于线模型的漂移估计方法
  • 提出了一种ARMA模型的线性估计方法,这种方法通过两次AR模型的估计来实现ARMA的估计.讨论了一雏时间序列开环系统、闭环系统的辨识方法及定阶问题.仿真结果表明该方法具有良好的准确度和可靠性,可直接用于结构状态...
  • 建立实验验证方法,将3个估计参数代入模型模拟静态星像点,将模拟图像与存在噪声的实拍图像做相似度比较,3 pixel×3 pixel窗口内相似度高于0.97,5 pixel×5 pixel窗口内高于0.98,7 pixel×7 pixel窗口内高于0.98...
  • 基于时频 ICA 的 PMC 模型卷积噪声估计方法研究
  • OFDM 系统中基于降维 PARAFAC 模型的 信道估计方法
  • 根据LS 估计理论,对目前Cobb-Douglas 函数模型参数估计方法存在的问题进行了分析。通过方差稳定化变换建立了新的参数估计模型,新模型基本满足Gauss-Markov 假定,保持了LS 估计的优良性质。
  • 表点和加权距离的无参数系统辨识方法, 给出基于分类一致性准则的模型估计方式. 与传统系统辨识的区别是, “没 有参数”并且从实质上改变估计模型的方式. 用IRIS, Breast Cancer 等典型数据检验了模型的有效性....
  • 基于自适应尺度的类熵模型拟合估计方法,蔡锦龙,王菡子,本文提出了一种新的鲁棒估计方法:ASEE自适应尺度的类熵估计子。该鲁棒方法通过最小化内点残差的熵来估计模型的参数。该估计子基��
  • 目前只有两个模型估计包括为样本, homography_estimator和line_estimator 。 您可以根据提供的这些样本来实现其他模型估计量。 稍后将添加有关此内容的更多文档。 #代码来源这些代码不是我的! 我已经从这个伟大的...
  • 基于分类与回归混合模型的人脸年龄估计方法
  • 基于MCU模型的DCT域隐写容量估计方法
  • 马尔科夫转换-GARCH模型参数估计方法的研究和探讨,马艳青,黄光辉,金融市场波动可能存在结构变化,经典的GARCH模型由于系数保持不变,不能反映该结构变化,使得波动的预测不够准确。本文将马尔科夫�
  • 提出了一种ARMA 模型的线性估计方法, 这种方法通过两次AR 模型的估计 来实现ARMA 的估计Λ 讨论了一维时间序列开环系统、 闭环系统的辨识方法及定阶问题Λ 仿真结果表明该方法具有良好的准确度和可靠性, 可直接用于...
  • 评估结果表明,所提出的模型在几个指标上都优于其他两个典型模型,这些模型在时空估计误差,振荡和动态流量情况下的稳定性以及估计偏差等方面均能胜任一般流量矩阵的估计。 据我们所知,这是对P2P流量矩阵估计的第...
  • 基于非参数估计的不确定数据模型构建方法
  • 随机波动(SV)模型是研究金融收益率波动性的一种重要模型,但该模型没有精确的似然函数表达式,对其进行研究具有...将近十几年来国内外学者提出的不同参数估计方法分为2类,讨论了各种方法的优缺点,并对其给予了评价。
  • 具有测量误差的维纳退化模型的可靠性估计方法
  • 传统的噪声谱密度估计理论并没有随着神经网络的出现而衰退,因为经典的算法模型大大降低了运算速度,而将比较难搞的(估算)参数交给神经网络后,模型实现起来更简单实惠,所以有必要对此做一个回顾学习。

    前言

    传统的噪声谱密度估计理论并没有随着神经网络的出现而衰退,因为经典的算法模型大大降低了运算速度,而将比较难搞的(估算)参数交给神经网络后,模型实现起来更简单实惠,所以有必要对此做一个回顾学习。噪声模型一般分为加性噪声(底噪)和卷积噪声(混响),虽然各类文档中对噪声的假设是稳态的,但实际中噪声的非稳态特性是无法回避的。维纳滤波的引入,以及自适应滤波的非监督方法,已经使得噪声抑制在234G的无线通信领域和互联网语音通信方面取得了巨大的成功,而随着数据驱动的DeepLearning+neural networks在二十一世纪的第二个次世代异军突起,随之涌现出了很多所谓的智能降噪方法,有些将神经网络应用在经典降噪算法的某些环节,也有端到端的方法实现。神经网络去噪后的数据往往是给机器识别用的,评价方法也不再是mos,而是识别率WER,所以机器是不会在乎失真的语音听上去有多么令人烦恼,而我们人类也听不到这处理后的数据,所关心的只是某个算法比另一个算法多提高了多少识别率。试用此文,学习记录一下传统的和神经的两个领域典型的降噪算法,构建一个基本的单声道语音增强知识图谱。

    传统的

    参考的资料太多,可以看看【3】【6】【12】,以后有空在将传统的仔细推导一下,此处只罗列最典型的几个名词算了。

    谱减法

    最早的参考论文Suppression of Acoustic Noise in Speech Using Spec-tral Subtraction,,上个世纪70年代的东西,奠定了频域降噪的基础。谱减法的基本思想是在非语音帧,估计噪声的幅度谱,然后在语音帧,从受噪声污染的语音幅度谱线中减去这些噪声幅度谱偏置(bias),同时利用受噪语音的相位谱,合成时域信号,完成噪声的抑制,基本的范式可以利用下图【13】来概括:
    在这里插入图片描述
    但谱减法最大的问题是所谓的音乐噪声,这主要是由于噪声谱估计的不准确造成的,所以上图中有一个“Secondary processing”。后续的维纳滤波等方法虽然优于谱减法,但也无法彻底误差。判决引导DD方法利用上一帧降噪后的信息(先验信噪比的估计)与当前帧的后验信噪比联合判决,能有效的降低音乐噪声的影响,在维纳滤波里也有用到。上面这个框图差不多也是频域降噪的基本范式。

    维纳滤波

    【6】里有基本推导

    MMSE&MMSE-LSA

    来自于论文Speech enhancement using a minimum mean-square error short-time spectral amplitude estimatorSpeech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator 。主要作者就是Yariv Ephraim。

    OMLSA && IMCRA

    Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator
    Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement两篇论文阐述的内容 ,好像这个是经典算法的集大成者。再【14】中博主的解释比较具体和详细。在OMLSA&IMCRA学习笔记中仔细的推导了一下这些公式,本文不再赘述。

    神经的

    神经网络简单粗暴,设定目标,设计模型,输入数据,拟合目标。下面主要参考翻译【4】的资料,一般根据训练目标的设计分为两个范畴:

    mapping-based

    训练目标是一种非线性表达,定义一个映射函数FF,将受噪语音y(t)y(t)变换为干净的语音s(t)s(t)F:y(t)s(t)F:y(t)\rightarrow s(t) 由于语音数据的非稳态特性以及计算复杂度的考量,目标的学习策略通常变换到频域或者倒谱域来实现,不过近年来随着神经网络的成熟,很多时域方法也提出来了,即所谓的end-to-end,不过传统的还是在变换域需求答案。神经网络利用损失(误差)函数来拟合出原始的干净信号,MSE目标(损失)函数一般定义如下:
    J=1Nn=1NF(yn)xn2 \mathcal{J}=\frac{1}{N}\sum_{n=1}^N||F(y_n)-x_n||^2 很显然估计的干净信号为xn^=F(yn)\hat{x_n}=F(y_n),利用原始的受噪相位信息恢复信号s(t)^\hat{s(t)}简单的分类一下具体实现手段。

    堆栈自编码器或者深度玻尔兹曼机

    以堆叠自编码器为例,下图摘自 论文Deep Learning-Based Feature Representation and Its Application for Soft Sensor Modeling With Variable-Wise Weighted SAE,这个编码器很像全连接网络,大致上分为非线性编码阶段和一个线性解码阶段。
    在这里插入图片描述
    用公式来描述如下:
    h(y)=g(W1y+b)x^=W2h(y)+b h(y)=g(W_1y+b)\\ \hat{x}=W_2h(y)+b
    一般gg是激活函数,W1W_1W2W_2是编解码器的权重矩阵。

    LSTM-RNN

    无须赘述了,这种对上下文解析超强的网络势必会提升,虽然参考文章里没有提,但可以预见attention模型也会对此有非常大的帮助。

    CNN和TCN

    CNN的思想是将语谱图当成图像来分析,TCN的优势和LSTM类似,可能更有利于分析这种情景。

    GAN

    这个想法其实也来自与图像处理,generative network (G)和 discriminative network (D)组成的对抗结构也使得降噪水平全面优于经典的额维纳滤波器【4】

    masking-based

    训练目标是一种掩模(mask),这个来自于干净语音和受噪声污染的语音的计算。最早应该就是IBM(ideal binary masking”)了,简单的说就是时频T-F域对语音和噪声做归类,将被噪声污染的最严重的的时频单元mask掉。ideal的说法是遵循最早的定义,即分析干净的语音和加性噪声的时频能量(幅度);后来衍生为估算信噪比SNR【2】。那么后来有了soft mask,即IRM(ideal ratio masking),直观来说会比IBM更细粒度一点,但算法复杂度也会增加。其实IRM更像频域维纳滤波方法(利用先验信噪比得出的比例系数), masking-based的方法是要学习一个回归函数,这个函数将受噪声干扰的语音频谱映射成时频掩模。假设语音频谱为Y(n,f)Y(n,f),时频掩模为M(n,f)M(n,f),映射函数可以表示成F:Y(n,f)M(n,f)F:Y(n,f)\rightarrow M(n,f) IBM的M(n,f)M(n,f)可以用
    Mb(n,f)={1,if  SNR(nf) > R0,otherwise M^b(n,f)= \begin{cases} 1, & \text {if \ SNR($n$, $f$) > R} \\ 0, &\text{otherwise} \end{cases}
    IRM的M(n,f)M(n,f)可以用Mr(n,f)=Sα(n,f)Sα(n,f)+Nα(n,f)M^r(n,f)=\frac{S^\alpha(n,f)}{S^\alpha(n,f)+N^\alpha(n,f)}【4】中对α\alpha作为一个幅度缩放因子做了解释,这个因子的选择将影响掩模的尖锐度或者T-F时频特征的动态范围,并且典型的几个取值和经典的算法是相对应的,例如α=1\alpha=1是幅度掩模;α=2\alpha=2是功率掩模,这个算子就几乎变成了频域的维纳滤波【6】;而α=2/3\alpha=2/3被解释为听觉(auditory)掩模,暂时无处可考。

    传统和现代的碰撞

    经典的方法其实更像西医,其算法的可解释性(interpretability)、鲁棒性(robust)和自适应(adaptive)能力是非常大的优势,并且这种自适应是非监督的,这点非常重要。而神经网络有点像我们的中医,通常是基于大数据驱动的,虽然学习能力和性能上无与伦比,但因为往往是基于监督训练模型的,受制于训练数据的覆盖(不可能),不能放之四海皆准,而且可解释性(interpretability)一直被诟病,出了问题基本无法回溯和分析,最好的办法就是将fail的case重新训练,显然这种亡羊补牢的方法有的时候是不灵的。

    中西医结合的方法

    这里主要是根据维纳滤波器的算法推导结论【6】,下面再重写一下:H(ωk)=ξk1+ξk=11γk H(\omega_k)=\frac{\xi_{k}}{1+\xi_{k}}=1-\frac{1}{\gamma_{k}} 其实整个经典滤波都是围绕着获取准确的先验信噪比展开的。而从webrtc分析当中也可以看出,为了得出这个信噪比,绞尽脑汁想出了各种奇葩的算法,然而还是很难给出一劳永逸的办法,瞬态噪声依旧不给力,那么能不能将这个ξ\xi交给神经网络来处理,利用神经网络超强的拟合能力来破解这个难题呢?答案是肯定的,由此孕育除了非常多的好论文,大概是论文【8】开辟了这个新思想,后续的想法如雨后春笋的出来了,实测效果也非常不错。

    参考文献

    1. Isolating the energetic component of speech-on-speech maskingwith ideal time-frequency segregation
    2.On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis
    3.懷舊篇, 單通道降噪, MMSE-STSA, MMSE-LSA 方法
    4.Deep Learning for Environmentally Robust SpeechRecognition: An Overview of Recent Developments
    5.A Priori SNR Estimation Based on a Recurrent Neural Network for RobustSpeech Enhancement
    6.webrtc中的噪声抑制之一:频域维纳滤波
    7.Speech Enhancement Using a Mixture-Maximum Model
    8.A Priori SNR Estimation Based on a Recurrent Neural Network for RobustSpeech Enhancement
    9.Multi-objective Learning and Mask-based Post-processing for Deep NeuralNetwork based Speech Enhancement
    10.PERCEPTUALLY GUIDED SPEECH ENHANCEMENT USING DEEP NEURAL NETWORKS
    11.Binary and ratio time-frequency masks forrobust speech recognition
    12.webrtc中的噪声抑制之三:基于信号存在概率的递归平均噪声估计
    13.Comparison of Speech Enhancement Algorithms, Siddala Vihari,. U.V.C.E., Bangalore University, Bangalore, India
    14.关于 IMCRA+OMLSA 语音降噪算法的详细解释

    术语&缩略语

    PSD Power Spectral Density-功率谱密度

    MMSE Minimum Mean Square Error-最小均方差

    STSA log spectral amplitude estimator

    LSA Log-Spectral Amplitude

    OMLSA Optimally Modified Log-Spectral Amplitude Estimator

    iMCRA improved Minima Controlled Recursive Averaging

    SPP Speech Presence Probability

    SAP Speech Absence Probability

    IBM Ideal binary mask 理想二值掩蔽

    IRM Ideal Ratio Mask 理想比例掩蔽

    PSM Phase-Sensitive Mask

    DD Decision Directed 引导判定

    TCS Temporal Cepstrum Smoothing 时域倒谱平滑

    SDR signal-to-distortion ratio

    PESQ perceptual evaluation of quality

    STOI short-time objective intelligibility

    RIR Room Impulse Response

    MAP Maximum A Posterior

    MLLR MaximumLikelihood Linear Regression

    GMMs Gaussian Mixture Models

    HMMs Hidden Markov Models

    NAT Noise-Aware Training

    展开全文
  • 针对时变自回归滑动平均模型参数估计问题,基于时间基扩展思想,推导了两种不同的时变自回归滑动平均模型参数估计方法——非线性最小二乘方法和辅助序列法,并以灰色关联度作为观测序列和模型输出序列的相似性评价...
  • 为此,提出一种基于模型聚类的多模型估计方法。将数据点描述为所属模型的倾向集,把倾向集问的Jaccard距离描述为数据点的一种属性,基于该属性使用改进的Cobweb算法进行聚类。该方法无需预知模型数目和参数变换,可...
  • 机器学习中的模型参数估计方法:极大似然估计、贝叶斯估计、最大后验估计。

    机器学习(一):模型的参数估计方法

    前言:

      之前在看李航的《统计学习方法》,思考的同时打算对于其中一些问题做一些总结和记录,希望以后再看的时候能够有更深入的理解。



      我们知道,机器学习方法一般可以概括为三部分:模型(model)、策略(strategy)、算法(algorithm)。
      其中,模型表示我们要从假设空间中所给的函数集合中学习它们的条件概率分布或者是决策函数。对于监督学习而言,其定义就是从有限的给定数据集中学习模型,而这些数据是独立同分布产生的。因此,之所以学习条件概率分布或是决策函数,是在基本假设存在的基础上进行的。
      在构建好模型的基础上,我们需要选择出能够最好的表示所给数据集分布的模型,这就是策略。一般来说,选取最优模型需要考虑损失函数与风险函数。损失函数也叫代价函数,即loss function 或 cost function,是度量一次预测的错误程度;而风险函数则是损失函数的期望。损失函数的形式有很多种,其中就包括似然函数,这就引出了我们所要说的,关于模型的参数估计方法这一问题。
      另外,由于机器学习中的许多问题都可以转化为最优化问题来求解,而这些最优化问题又没有显式的解析解(很难用解析的方法直接求解),故需要用数值计算的方法来求解,这些计算方法就是算法


      以上是题外话,下面来说一说参数估计方法。

      统计学中的参数估计是指根据部分样本来估计总体分布中未知参数的过程:
      按估计形式,可分为点估计和区间估计;
      按构造估计量的方法,可分为矩估计、最小二乘估计、极大似然估计、贝叶斯估计等。

      这里,我们具体讨论两种机器学习中典型的、常用的参数估计方法,即极大似然估计法和贝叶斯估计法。


    1. 极大似然估计法

      Maximum Likelihood Estimation,即MLE,也译作最大似然估计(翻译不重要)。

      首先,要知道什么是“极大似然”。极大似然的基本思想是:一个随机试验如有若干个可能的结果A、B、C、… ,一次试验中若出现结果A,则认为实验条件对A的出现有利,也即该实验条件下A出现的概率P(A)较大。而极大似然估计就是要找到A出现概率最大值所对应的实验条件。

      那么,用数学语言描述一下极大似然估计:
      对于mm个样本的数据集X={x(1),x(2),...,x(m)}X = \left\{ {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right\},是独立地由未知的真实数据生成分布pdata(x){p_{data}}\left( x \right)生成的;令θ\theta是一族由p mod el(x;θ){p_{\bmod el}}\left( {x;\theta } \right)在相同空间上确定的概率分布,那么极大似然估计就是求出最大的θ\theta值,从而近似地估计出真实分布,可以表示为:
    θML=argmaxθp mod el(X;θ)=argmaxθi=1mp mod el(x(i);θ)\begin{array}{l} {\theta _{ML}} = \mathop {\arg \max }\limits_\theta {p_{\bmod el}}\left( {X;\theta } \right)\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \mathop {\arg \max }\limits_\theta \prod\limits_{i = 1}^m {{p_{\bmod el}}\left( {{x^{\left( i \right)}};\theta } \right)} \end{array}  这样,由于乘积不便计算和可能的数值下溢问题,考虑等价优化为求对数似然,那么上式就转化为:
    θML=argmaxθi=1mlogp mod el(x(i);θ){\theta _{ML}} = \mathop {\arg \max }\limits_\theta \sum\limits_{i = 1}^m {\log {p_{\bmod el}}\left( {{x^{\left( i \right)}};\theta } \right)}   进一步,考虑缩放代价函数时argmax\arg \max不变,那么可以对上式除以mm,从而得到和训练数据经验分布p^data{\hat p_{data}}相关的期望作为准则:
    θML=argmaxθExp^datalogp mod el(x;θ){\theta _{ML}} = \mathop {\arg \max }\limits_\theta {{\rm E}_{x\sim{{\hat p}_{data}}}}\log {p_{\bmod el}}\left( {x;\theta } \right)
      有一种说法认为极大似然估计可以看做是最小化KLKL散度,或者说是最小化分布间的交叉熵。为什么这么说?先看KLKL散度的定义:
      KLKL散度一般用来度量两个分布之间的差异。具体到这里来说,就是最小化训练集上经验分布p^data{\hat p_{data}}和模型分布之间的差异(因为真实分布pdata{p_{data}}未知,所以只能和经验分布来匹配),即:
    DKL(p^datap mod el)=Exp^data[logp^data(x)logp mod el(x)]{D_{KL}}\left( {{{\hat p}_{data}}\left\| {{p_{\bmod el}}} \right.} \right) = {{\rm E}_{x \sim {{\hat p}_{data}}}}\left[ {\log {{\hat p}_{data}}\left( x \right) - \log {p_{\bmod el}}\left( x \right)} \right]  由于等号右边的前一项只和原始数据生成过程有关,和模型无关,因此意味着在最小化KLKL散度时可以只考虑最小化等号右边的后一项,那么这就和极大似然估计的表示一样了。

      下面简单总结极大似然估计法的求解过程 :
      (1)根据所求目标模型写出似然函数;
      (2)对似然函数取对数并整理;
      (3)对似然对数求导;
      (4)解似然方程,得到估计参数的值;


    2. 贝叶斯估计法

      Bayesian Estimation,即利用贝叶斯定理结合先验概率及新的证据(一般指数据的似然函数),得到新的概率。

      一般来说,极大似然估计归于频率派,认为参数是一个定值;而贝叶斯派则认为参数服从某种概率分布(即考虑所有可能的θ\theta),这也是贝叶斯估计与极大似然估计的区别之一。

      具体的数学描述如下:
      对于mm个样本的数据集X={x(1),x(2),...,x(m)}X = \left\{ {{x^{\left( 1\right)}},{x^{\left( 2\right)}},...,{x^{\left( m \right)}}} \right\},通过贝叶斯规则结合数据似然p(x(1),x(2),...,x(m)θ)p\left( {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}\left| \theta \right.} \right)(似然函数可参照极大似然估计法中对似然函数的介绍)及先验,得到对于θ\theta的后验概率:
    p(θx(1),x(2),...,x(m))=p(x(1),x(2),...,x(m)θ)p(θ)p(X)p\left( {\left. \theta \right|{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right) = \frac{{p\left( {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}\left| \theta \right.} \right)p\left( \theta \right)}}{{p\left( X \right)}}  这就是贝叶斯估计法对参数θ\theta的估计结果。

      在贝叶斯估计的常用情景下,先验开始是相对均匀的分布或者是高熵的高斯分布,这样做是因为观测数据通常会使后验的熵下降,并集中在参数的几个可能性很高的值。

      同样地,下面简单梳理一下贝叶斯估计的求解过程:
      (1)确定参数θ\theta的先验分布p(θ)p\left( \theta \right)
      (2)由数据集求出其联合概率分布,即似然函数p(Xθ)p\left( {X\left| \theta \right.} \right)
      (3)由贝叶斯公式求出θ\theta的后验概率分布p(θX)p\left( {\theta \left| X \right.} \right)
      (4)求出θ\theta的贝叶斯估计值θ^=Θθp(θX)dθ\hat \theta = \int\limits_\Theta {\theta {\kern 1pt} p\left( {\theta \left| X \right.} \right)d\theta }。(Θ\Theta表示对应的参数空间)


    3. 极大似然估计和贝叶斯估计的区别

      (1) 前面提到过的,这里再说明一下:极大似然估计预测时使用的是θ\theta点估计,而贝叶斯估计使用的是θ\theta全分布估计。比如,在观测到mm个样本后,下一个数据样本的预测分布为:
    p(x(m+1)x(1),x(2),...,x(m))=p(x(m+1)θ)p(θx(1),x(2),...,x(m))dθp\left( {{x^{\left( {m + 1} \right)}}\left| {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right.} \right) = \int {p\left( {{x^{\left( {m + 1} \right)}}\left| \theta \right.} \right)p\left( {\theta \left| {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right.} \right)d\theta }  这里每个具有正概率密度的θ\theta值都有助于下一个样本的预测,其贡献由相应的后验概率密度加权;同时,对于mm个样本预测的不确定性也会包含在之后的预测中。

      (2) 和极大似然估计不同,贝叶斯估计需要“已知”参数θ\theta的先验分布,这是因为先验能够影响概率质量密度朝着参数空间中偏好先验的区域偏移。实践中,先验通常表现为偏好更简单或更光滑的模型。

      (3) 当训练数据很有限时,贝叶斯估计通常泛化性更好;但是当训练样本很大时,贝叶斯方法通常会有很大的计算代价。而极大似然估计会向参数的真实值方向收敛(这要求真实分布pdata{p_{data}}必须在模型分布族p mod el(;θ){p_{\bmod el}}\left( { \cdot {\kern 1pt} {\kern 1pt} ;\theta } \right)中,且真实分布pdata{p_{data}}必须刚好对应一个θ\theta值)。


    4. 最大后验估计

      Maximum A Posteriori,即MAP,也称最大后验点估计。

      那么什么是MAP呢?原则上,我们应该用参数θ\theta的完整贝叶斯后验分布进行预测,这就是贝叶斯估计。但是单点估计常常也是需要的,这是因为通常贝叶斯后验的计算对于大多数有意义的模型来说是困难的。这个时候就考虑用点估计求得一个近似解。由此,结合贝叶斯估计的优点,提出了最大后验点估计的方法。

      MAP估计选择后验概率最大的点作为对于参数θ\theta的估计值,即:
    θMAP=argmaxθp(θx)=argmaxθlogp(xθ)+logp(θ){\theta _{MAP}} = \mathop {\arg \max }\limits_\theta p\left( {\theta \left| x \right.} \right) = \mathop {\arg \max }\limits_\theta \log p\left( {x\left| \theta \right.} \right) + \log p\left( \theta \right)
      MAP的优点是利用了来自先验的信息,这个附加信息有助于减少估计的方差(相比于ML估计),但增大了偏差。
      另外,加入正则化的极大似然估计能够降低样本数目较少时发生过拟合的可能,这可以看做贝叶斯推断的MAP近似,即当正则化项对应于先验p(θ)p\left( \theta \right)时。当然,不是所有的正则化项都对应于MAP贝叶斯推断。


    5. 以朴素贝叶斯分类为例说明

      下面,以朴素贝叶斯分类为例,简单说明极大似然估计和贝叶斯估计的计算方法和过程。

      首先,简述朴素贝叶斯法:
      朴素贝叶斯法是一种学习模型和分类的方法。对于给定的训练数据集,基于特征条件独立假设学习输入和输出的联合概率分布,再对给定的输入利用贝叶斯定理求出后验概率最大的输出。
      朴素贝叶斯法对条件概率分布做了如下的条件独立假设:(ck{c_k}为类别)
    P(X=xY=ck)=P(X(1)=x(1),...,X(n)=x(n)Y=ck)=j=1nP(X(j)=x(j)Y=ck)\begin{array}{l} P\left( {X = x\left| {Y = {c_k}} \right.} \right){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = P\left( {{X^{\left( 1 \right)}} = {x^{\left( 1 \right)}},...,{X^{\left( n \right)}} = {x^{\left( n \right)}}\left| {Y = {c_k}} \right.} \right)\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \prod\limits_{j = 1}^n {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} \end{array}  朴素贝叶斯法分类时,后验概率为:
    P(Y=ckX=x)=P(X=xY=ck)P(Y=ck)kP(X=xY=ck)P(Y=ck)P\left( {Y = {c_k}\left| {X = x} \right.} \right) = \frac{{P\left( {X = x\left| {Y = {c_k}} \right.} \right)P\left( {Y = {c_k}} \right)}}{{\sum\nolimits_k {P\left( {X = x\left| {Y = {c_k}} \right.} \right)P\left( {Y = {c_k}} \right)} }}  由上两式可得朴素贝叶斯分类器
    y=f(x)=argmaxckP(Y=ck)jP(X(j)=x(j)Y=ck)kP(Y=ck)jP(X(j)=x(j)Y=ck)y = f\left( x \right) = \mathop {\arg \max }\limits_{{c_k}} \frac{{P\left( {Y = {c_k}} \right)\prod\nolimits_j {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} }}{{\sum\nolimits_k {P\left( {Y = {c_k}} \right)\prod\nolimits_j {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} } }}  由于分母对所有ck{c_k}都相同,则可以简化为
    y=f(x)=argmaxckP(Y=ck)jP(X(j)=x(j)Y=ck)y = f\left( x \right) = \mathop {\arg \max }\limits_{{c_k}} P\left( {Y = {c_k}} \right)\prod\nolimits_j {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)}
      以下分别用极大似然估计和贝叶斯估计计算朴素贝叶斯法中的概率。

      (1) 极大似然估计:
      先验概率的极大似然估计:
    P(Y=ck)=i=1NI(yi=ck)N,k=1,2,...,KP\left( {Y = {c_k}} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} }}{N}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} k = 1,2,...,K  条件概率的极大似然估计:
    P(X(j)=ajlY=ck)=i=1NI(xi(j)=ajl,yi=ck)i=1NI(yi=ck),j=1.2,...,n;l=1,2,...,S;k=1,2,...,KP\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {x_i^{\left( j \right)} = {a_{jl}}{\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {y_i} = {c_k}} \right)} }}{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} }}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} j = 1.2,...,n{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} l = 1,2,...,S{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} k = 1,2,...,K  其中,设第jj个特征x(j){x^{\left( j \right)}}可能的取值集合为{aj1,aj2,...,ajSj}\left\{ {{a_{j1}},{a_{j2}},...,{a_{j{S_j}}}} \right\}
      式中,x(j){x^{\left( j \right)}}是第ii个样本的第jj个特征;ajl{a_{jl}}是第jj个特征可能取的第ll个值;II为指示函数。

      (2) 贝叶斯估计:
      先验概率的贝叶斯估计:
    Pλ(Y=ck)=i=1NI(yi=ck)+λN+Kλ{P_\lambda }\left( {Y = c{}_k} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} + \lambda }}{{N + K\lambda }}  条件概率的贝叶斯估计:
    Pλ(X(j)=ajlY=ck)=i=1NI(xi(j)=ajl,yi=ck)+λi=1NI(yi=ck)+Sjλ{P_\lambda }\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {x_i^{\left( j \right)} = {a_{jl}},{y_i} = {c_k}} \right)} + \lambda }}{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} + {S_j}\lambda }}  式中,λ0\lambda \ge 0等价于在随机变量的各个取值的频数上赋予一个正数λ\lambda
      λ=0\lambda = 0时,就是极大似然估计;λ=1\lambda = 1时,称为拉普拉斯平滑。
      显然,对于任何l=1,2,...,Sj,k=1,2,...,Kl = 1,2,...,{S_j}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} k = 1,2,...,K,有:
    Pλ(X(j)=ajlY=ck)>0{P_\lambda }\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right) > 0l=1SjP(X(j)=ajlY=ck)=1\sum\limits_{l = 1}^{{S_j}} {P\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right)} = 1


    6. 小结

      本文简单分析和总结了机器学习中的参数估计方法,包括极大似然估计、贝叶斯估计以及最大后验估计。
      一般来说,极大似然估计是机器学习中的首选估计方法。当样本数目小到会发生过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的极大似然有偏版本。
      另外,如果能够知道参数的先验,那么可以考虑最大后验估计。相比于极大似然估计来说,先验有助于减少MAP的方差,但会增加偏差。因此,如何选择相应的估计方法,还需要具体问题具体分析。

    展开全文
  • 针对无初始风速信息情况下的虚拟大气数据计算问题,提出一种气动模型及导航信息辅助的大气参数粗精两级估计方法.利用飞行器气动模型下的动力学方程,建立与风速直接相关的导航传感器测量模型;采用非线性最小二乘优化...
  • 为取得更有效的预报效果,在深入分析传统LMS(Least mean square)算法的基础上,提出利用仿射投影算法对AR模型参数进行自适应估计,利用实测的动态数据结合AIC(Akaike information criterion)准则建立自适应AR...
  • 基于模型方法基于GNSS的火车定位的危险率估计

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,015
精华内容 3,606
关键字:

模型估计方法