精华内容
下载资源
问答
  • 本文借助变量变换,提出一确定参数Weibull分布参数估计值的新方法。资料计算表明,它不仅计算简便,而且可给出有效性高的参数估计
  • 参数估计方法

    千次阅读 2019-11-07 20:58:21
    参数估计有多种方法,下面简单和大家分享以下两: 一、最大似然估计 原理: 最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,也就是概率分布函数或者说是似然函数最大。 二、最小二乘法 当从...

    参数估计有多种方法,下面简单和大家分享以下两种:

    一、最大似然估计

    原理: 最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,也就是概率分布函数或者说是似然函数最大。

    二、最小二乘法

    当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。

    三、两者联系

    一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计是等价的,也就是说估计结果是相同的,但是原理是不同的。最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数。

    四、总结

    最小二乘法的核心是权衡,因为你要在很多条线中间选择,选择出距离所有点之后最短的,而极大似然核心是自恋,要相信自己是天选之子,自己看到的,就是冥冥之中最接近真相的。当服从正态分布时,两都的结论相等。

    个人见解,欢迎批评指正!

    ————————————————
    版权声明:本文为CSDN博主「玲[逆流而上]」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/qq_45734454/article/details/102961112

    展开全文
  • 主要是关于logistic的三种参数的算法:Yule算法,Rhodes算法,Nair算法matlab算法的实现。
  • 参数估计三种方法 机器学习有三种典型的参数估计方法,分别是极大似然估计(MLE),极大后验估计(MAP)以及贝叶斯估计。除了参数估计,每种方法还对应有样本的密度估计。假设X=[xi]i=1nX=[x_i]_{i=1}^nX=[xi​]i=1n​...

    参数估计的三种方法

    机器学习有三种典型的参数估计方法,分别是极大似然估计(MLE),极大后验估计(MAP)以及贝叶斯估计。除了参数估计,每种方法还对应有样本的密度估计。假设 X = [ x i ] i = 1 n X=[x_i]_{i=1}^n X=[xi]i=1n

    MLE

    极大似然是通过下式估计参数。

    θ ∗ = a r g m a x θ P ( X ∣ θ ) \theta^* = argmax_\theta P(X|\theta) θ=argmaxθP(Xθ)

    该式可以这样理解,在给定参数 θ \theta θ的情况下,求解具体概率 P ( X ∣ θ ) P(X|\theta) P(Xθ)的最大值,使得满足预期样本分布。上式往往通过下述方法求解:

    θ ∗ = a r g m a x θ P ( X ∣ θ ) = a r g m a x θ ∏ i = 1 n P ( x i ∣ θ ) \theta^* = argmax_\theta P(X|\theta)=argmax_\theta \prod_{i=1}^nP(x_i|\theta) θ=argmaxθP(Xθ)=argmaxθi=1nP(xiθ)

    MAP

    极大后验则给定样本的后验和参数的先验,求解下式:

    θ ∗ = a r g m a x θ P ( θ ∣ X ) \theta^* = argmax_\theta P(\theta|X) θ=argmaxθP(θX)

    可以这样理解,在给定观测样本集的条件下,估计最有可能的 θ ∗ \theta^* θ。该式往往利用Bayes公式求解,由于:
    P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)} P(θX)=P(X)P(Xθ)P(θ)
    所以:
    θ ∗ = a r g m a x θ P ( θ ∣ X ) = a r g m a x θ P ( X ∣ θ ) P ( θ ) P ( X ) = a r g m a x θ ∏ i = 1 n P ( x i ∣ θ ) P ( θ ) \theta^* = argmax_\theta P(\theta|X) = argmax_\theta \frac{P(X|\theta)P(\theta)}{P(X)} = argmax_\theta \prod_{i=1}^n P(x_i|\theta)P(\theta) θ=argmaxθP(θX)=argmaxθP(X)P(Xθ)P(θ)=argmaxθi=1nP(xiθ)P(θ)

    其中, P ( θ ) P(\theta) P(θ)为参数的先验。

    贝叶斯估计

    MLE和MAP方法有着共同点,即他们都是估计最可能的 θ \theta θ,并极大化上述式子求解 θ \theta θ,这被称为点估计。而Bayes估计承认明显的事实,参数 θ \theta θ可能有多个与数据兼容的值,用Bayes公式计算在数据X上参数 θ \theta θ的概率分布。

    P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) = ∏ i = 1 n P ( x i ∣ θ ) P ( θ ) P ( X ) P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)} = \frac{\prod_{i=1}^n P(x_i|\theta)P(\theta)}{P(X)} P(θX)=P(X)P(Xθ)P(θ)=P(X)i=1nP(xiθ)P(θ)

    注意,尽管和MAP形式上一致,但贝叶斯估计极大化过程。且有:

    P ( θ ∣ X ) P ( X ) = P ( X ∣ θ ) P ( θ ) P(\theta|X)P(X) = P(X|\theta)P(\theta) P(θX)P(X)=P(Xθ)P(θ)

    ∫ P ( θ ∣ X ) P ( X ) d θ = ∫ P ( X ∣ θ ) P ( θ ) d θ = P ( X ) \int P(\theta|X)P(X) d\theta = \int P(X|\theta)P(\theta) d\theta = P(X) P(θX)P(X)dθ=P(Xθ)P(θ)dθ=P(X)

    密度估计

    样本的密度估计即估算预测分布。即计算下式:

    P ( x ∗ ∣ X ) = ∫ P ( x ∗ ∣ θ ) P ( θ ∣ X ) d θ P(x^*|X) = \int P(x^*|\theta)P(\theta|X)d\theta P(xX)=P(xθ)P(θX)dθ

    可以这样理解, P ( x ∗ ∣ θ ) P(x^*|\theta) P(xθ)是一个给定值 θ \theta θ的预测。所以,积分可以当做由不同参数 θ ​ \theta​ θ确定的预测的加权和,也就是期望。

    由于MLE和MAP这两种参数估计方法均属于点估计,因此这两者在进行预测时

    P ( x ∗ ∣ X ) = ∫ P ( x ∗ ∣ θ ) δ ( θ − θ ∗ ) d θ P(x^*|X) = \int P(x^*|\theta)\delta(\theta-\theta^*)d\theta P(xX)=P(xθ)δ(θθ)dθ

    其中 δ ( z ) \delta(z) δ(z)积分为1,并且在除了z=0以外的任何点都为0。这是因为,在点估计方式下,隐含的假设为: θ \theta θ只有一个可能的最优值 θ ∗ \theta^* θ。因此这两种方法下,有:

    P ( θ ∗ ∣ X ) = ∞ P(\theta^*|X) = \infty P(θX)=

    P ( θ ≠ θ ∗ ∣ X ) = 0 P(\theta \neq \theta^*|X) = 0 P(θ̸=θX)=0

    由于 P ( x ∗ ∣ X ) = ∫ P ( x ∗ ∣ θ ) δ ( θ − θ ∗ ) d θ = P ( x ∗ ∣ θ ∗ ) P(x^*|X) = \int P(x^*|\theta)\delta(\theta-\theta^*)d\theta = P(x^*|\theta^*) P(xX)=P(xθ)δ(θθ)dθ=P(xθ)

    因此,MLE和MAP的密度估计方法自然导出:给定 θ ∗ \theta^* θ,预测样本的分布。

    贝叶斯估计中却不是这种方法,这是因为贝叶斯估计给出的 P ( θ ∣ X ) P(\theta|X) P(θX)是概率分布,非极大化的结果。所以,无法用 δ \delta δ函数对 P ( θ ∣ X ) P(\theta|X) P(θX)进行替换。

    举例-一元正态分布

    假设n个数据点 [ x i ] i = 1 n [x_i]_i=1^n [xi]i=1n从均值方差均为1的正态分布中采样得到。本例的目的是利用这些观测数据重新估算参数 μ , σ 2 \mu, \sigma^2 μ,σ2

    MLE

    利用极大似然估计,我们有

    P ( X ∣ μ , σ 2 ) = ∏ i = 1 n P ( x i ∣ μ , σ ) = ∏ i = 1 n N o r m x i ( μ , σ ) P(X|\mu, \sigma^2) = \prod_{i=1}^n P(x_i|\mu, \sigma) = \prod_{i=1}^n Norm_{x_i}(\mu,\sigma) P(Xμ,σ2)=i=1nP(xiμ,σ)=i=1nNormxi(μ,σ)

    其中 N o r m x i ( μ , σ ) = 1 2 π σ e − ( x i − μ ) 2 σ 2 Norm_{x_i}(\mu,\sigma) = \frac{1}{\sqrt{2\pi \sigma}}e^{-\frac{(x_i-\mu)^2}{\sigma^2}} Normxi(μ,σ)=2πσ 1eσ2(xiμ)2为点 x i x_i xi的概率密度。

    极大似然估计即:

    μ ∗ , σ 2 ∗ = a r g m a x μ , σ 2 P ( X ∣ μ , σ ) = a r g m a x μ , σ 2 l o g P ( X ∣ μ , σ 2 ) ​ \mu^*,\sigma^{2*} = argmax_{\mu, \sigma^2} P(X|\mu,\sigma) = argmax_{\mu, \sigma^2} log P(X|\mu,\sigma^2) ​ μ,σ2=argmaxμ,σ2P(Xμ,σ)=argmaxμ,σ2logP(Xμ,σ2)

    P ( X ∣ μ , σ 2 ) P(X|\mu,\sigma^2) P(Xμ,σ2)取对数,然后对 μ , σ 2 \mu,\sigma^2 μ,σ2分别求偏导为0可得最优解。

    MAP

    利用极大后验估计,我们有

    P ( μ , σ 2 ∣ X ) = P ( X ∣ μ , σ 2 ) P ( μ , σ 2 ) P ( X ) P(\mu,\sigma^2|X) = \frac{P(X|\mu,\sigma^2)P(\mu,\sigma^2)}{P(X)} P(μ,σ2X)=P(X)P(Xμ,σ2)P(μ,σ2)

    其中 P ( X ∣ μ , σ 2 ) P(X|\mu,\sigma^2) P(Xμ,σ2)和MLE中一致, μ , σ 2 \mu,\sigma^2 μ,σ2的先验分布假设为正态逆伽马分布。表达式如下:

    P ( μ , σ 2 ) P(\mu,\sigma^2) P(μ,σ2)
    = N o r m I n v G a m m a μ , σ 2 ( α , β , γ , δ ) = NormInvGamma_{\mu,\sigma^2}(\alpha,\beta,\gamma,\delta) =NormInvGammaμ,σ2(α,β,γ,δ)

    = γ σ 2 π β α Γ ( α ) ( 1 σ 2 ) α + 1 e − 2 β + γ ( δ − μ ) 2 2 σ 2 = \frac{\sqrt{\gamma}}{\sigma\sqrt{2\pi}} \frac{\beta^\alpha}{\Gamma(\alpha)}(\frac{1}{\sigma^2})^{\alpha+1} e^{-\frac{2\beta+\gamma(\delta-\mu)^2}{2\sigma^2}} =σ2π γ Γ(α)βα(σ21)α+1e2σ22β+γ(δμ)2

    正态逆伽马分布是正态分布的共轭,它有4个参数,分别是 α , β , γ , δ \alpha,\beta,\gamma,\delta α,β,γ,δ。共轭性具有以下特点:

    任意分布与其共轭分布乘积的结果正比于一个具有新参数的共轭分布。我们以正态分布和正态逆伽马分布为例:

    N o r m x i ( μ , σ 2 ) ∗ N o r m I n v G a m m a μ , σ 2 ( α , β , γ , δ ) = χ ( x i , α , β , γ , δ ) ∗ N o r m I n v G a m m a μ , σ 2 ( α ^ , β ^ , γ ^ , δ ^ ) Norm_{x_i}(\mu,\sigma^2)*NormInvGamma_{\mu,\sigma^2}(\alpha,\beta,\gamma,\delta) = \chi(x_i, \alpha,\beta,\gamma,\delta) * NormInvGamma_{\mu,\sigma^2}(\hat{\alpha}, \hat{\beta}, \hat{\gamma}, \hat{\delta}) Normxi(μ,σ2)NormInvGammaμ,σ2(α,β,γ,δ)=χ(xi,α,β,γ,δ)NormInvGammaμ,σ2(α^,β^,γ^,δ^)

    这在贝叶斯估计中很有用,具体地我们会在下一小节讲述。

    回到正题,现在我们得到了 P ( μ , σ 2 ∣ X ) P(\mu,\sigma^2|X) P(μ,σ2X),对其直接进行极大化,通过对参数求偏导为0可求解得到最优解。

    μ ∗ , σ 2 ∗ = a r g m a x μ , σ P ( μ , σ 2 ∣ X ) = a r g m a x μ , σ l o g P ( μ , σ 2 ∣ X ) \mu^*,\sigma^{2*}= argmax_{\mu,\sigma}P(\mu,\sigma^2|X) = argmax_{\mu,\sigma}log P(\mu,\sigma^2|X) μ,σ2=argmaxμ,σP(μ,σ2X)=argmaxμ,σlogP(μ,σ2X)

    贝叶斯估计

    贝叶斯估计则要复杂一些,它和MAP具有同样的形式,不同的是在最后一步。

    P ( μ , σ 2 ∣ X ) ​ P(\mu,\sigma^2|X)​ P(μ,σ2X)
    = P ( X ∣ μ , σ 2 ) P ( μ , σ 2 ) P ( X ) ​ = \frac{P(X|\mu,\sigma^2)P(\mu,\sigma^2)}{P(X)}​ =P(X)P(Xμ,σ2)P(μ,σ2)
    = ∏ i = 1 n N o r m x i ( μ , σ 2 ) N o r m I n v G a m m a μ , σ 2 ( α , β , γ , δ ) P ( X ) ​ = \frac{\prod_{i=1}^n Norm_{x_i}(\mu,\sigma^2)NormInvGamma_{\mu,\sigma^2}(\alpha,\beta,\gamma,\delta)}{P(X)}​ =P(X)i=1nNormxi(μ,σ2)NormInvGammaμ,σ2(α,β,γ,δ)
    = N o r m I n v G a m m a μ , σ 2 ( α ^ , β ^ , γ ^ , δ ^ ) ∏ i = 1 n χ ( x i , α , β , γ , δ ) P ( X ) ​ = \frac{NormInvGamma_{\mu,\sigma^2}(\hat{\alpha}, \hat{\beta}, \hat{\gamma}, \hat{\delta})\prod_{i=1}^n \chi(x_i, \alpha,\beta,\gamma,\delta) }{P(X)}​ =P(X)NormInvGammaμ,σ2(α^,β^,γ^,δ^)i=1nχ(xi,α,β,γ,δ)

    由于后验 P ( μ , σ 2 ∣ X ) P(\mu,\sigma^2|X) P(μ,σ2X)必须是有效的概率分布且和为1,而 N o r m I n v G a m m a μ , σ 2 ( α ^ , β ^ , γ ^ , δ ^ ) NormInvGamma_{\mu,\sigma^2}(\hat{\alpha}, \hat{\beta}, \hat{\gamma}, \hat{\delta}) NormInvGammaμ,σ2(α^,β^,γ^,δ^)也是一个概率分布且和为1。因此有:

    P ( μ , σ 2 ∣ X ) = N o r m I n v G a m m a μ , σ 2 ( α ^ , β ^ , γ ^ , δ ^ ) P(\mu,\sigma^2|X)=NormInvGamma_{\mu,\sigma^2}(\hat{\alpha}, \hat{\beta}, \hat{\gamma}, \hat{\delta}) P(μ,σ2X)=NormInvGammaμ,σ2(α^,β^,γ^,δ^)

    其中, α ^ = α + n / 2 , γ ^ = γ + n , δ ^ = γ δ + ∑ x i γ + n , β ^ = 0.5 ∑ x i 2 + β + 0.5 γ δ 2 − ( γ δ + ∑ x i ) 2 2 ( γ + n ) \hat{\alpha} = \alpha+n/2, \hat{\gamma}=\gamma+n, \hat{\delta} = \frac{\gamma\delta+\sum x_i}{\gamma+n}, \hat{\beta} = 0.5\sum x_i^2 + \beta+0.5\gamma\delta^2-\frac{(\gamma\delta+\sum x_i)^2}{2(\gamma+n)} α^=α+n/2,γ^=γ+n,δ^=γ+nγδ+xi,β^=0.5xi2+β+0.5γδ22(γ+n)(γδ+xi)2

    可以看到,利用贝叶斯公式我们可以得到参数的概率分布,这里我们看到使用共轭先验进行贝叶斯估计的第一个优点,比起MLE和MAP,这种方法得到的结果是一个closed-solution。并且,参数概率分布的峰值即为MAP的解。

    当数据比较多的时候,参数被指定好,概率分布比较集中,此时把所有概率量放到MAP估计处是对后验的一个好的逼近。然而,当数据稀少的时候,许多可能的参数也许已经解释了数据并且后验很宽,这种情况下用点估计方法是不合适的。

    密度估计

    对于MLE和MAP,由于它们是点估计。可以分别直接采用 P ( x ∗ ∣ μ ∗ , σ 2 ∗ ) P(x^*|\mu^*,\sigma^{2*}) P(xμ,σ2) P ( x ∗ ∣ μ ∗ , σ 2 ∗ ) P ( μ ∗ , σ 2 ∗ ) P(x^*|\mu^*,\sigma^{2*})P(\mu^*,\sigma^{2*}) P(xμ,σ2)P(μ,σ2)预测新样本 x ∗ x^* x的密度。
    对于贝叶斯估计方法,有:

    P ( x ∗ ∣ X ) P(x^*|X) P(xX)
    = ∫ ∫ P ( x ∗ ∣ μ , σ 2 ) P ( μ , σ 2 ∣ X ) d μ d σ = \int \int P(x^*|\mu,\sigma^2)P(\mu,\sigma^2|X)d\mu d\sigma =P(xμ,σ2)P(μ,σ2X)dμdσ
    = ∫ ∫ N o r m x ∗ ( μ , σ 2 ) N o r m I n v G a m m a μ , σ 2 ( α ^ , β ^ , γ ^ , δ ^ ) d μ d σ =\int\int Norm_{x^*}(\mu,\sigma^2)NormInvGamma_{\mu,\sigma^2}(\hat{\alpha}, \hat{\beta}, \hat{\gamma}, \hat{\delta})d\mu d\sigma =Normx(μ,σ2)NormInvGammaμ,σ2(α^,β^,γ^,δ^)dμdσ
    = χ ( x ∗ , α ^ , β ^ , γ ^ , δ ^ ) ∫ ∫ N o r m I n v G a m m a μ , σ 2 ( α ‾ , β ‾ , γ ‾ , δ ‾ ) d μ d σ =\chi(x^*,\hat{\alpha}, \hat{\beta}, \hat{\gamma}, \hat{\delta}) \int \int NormInvGamma_{\mu,\sigma^2}(\overline{\alpha}, \overline{\beta}, \overline{\gamma}, \overline{\delta})d\mu d\sigma =χ(x,α^,β^,γ^,δ^)NormInvGammaμ,σ2(α,β,γ,δ)dμdσ

    显然,积分项为1,所以有:
    P ( x ∗ ∣ X ) = χ ( x ∗ , α ^ , β ^ , γ ^ , δ ^ ) = 1 2 π γ ^ γ ‾ β α ^ ^ β ‾ α ‾ Γ ( α ‾ ) Γ ( α ^ ) P(x^*|X) =\chi(x^*,\hat{\alpha}, \hat{\beta}, \hat{\gamma}, \hat{\delta})=\frac{1}{\sqrt{2\pi}}\frac{\sqrt{\hat{\gamma}}}{\sqrt{\overline{\gamma}}}\frac{\hat{\beta^{\hat{\alpha}}}}{\overline{\beta}^{\overline{\alpha}}}\frac{\Gamma(\overline{\alpha})}{\Gamma(\hat{\alpha})} P(xX)=χ(x,α^,β^,γ^,δ^)=2π 1γ γ^ βαβα^^Γ(α^)Γ(α)

    其中,
    α ‾ = α ^ + n / 2 , γ ‾ = γ ^ + n , δ ‾ = γ ^ δ ^ + ∑ x i γ ^ + n , β ‾ = 0.5 ∑ x i 2 + β ^ + 0.5 γ ^ δ ^ 2 − ( γ ^ δ ^ + ∑ x i ) 2 2 ( γ ^ + n ) \overline{\alpha} = \hat{\alpha}+n/2, \overline{\gamma}=\hat{\gamma}+n, \overline{\delta} = \frac{\hat{\gamma}\hat{\delta}+\sum x_i}{\hat{\gamma}+n}, \overline{\beta} = 0.5\sum x_i^2 +\hat{ \beta}+0.5\hat{\gamma}\hat{\delta}^2-\frac{(\hat{\gamma}\hat{\delta}+\sum x_i)^2}{2(\hat{\gamma}+n)} α=α^+n/2,γ=γ^+n,δ=γ^+nγ^δ^+xi,β=0.5xi2+β^+0.5γ^δ^22(γ^+n)(γ^δ^+xi)2

    这里,我们可以看到使用共轭先验进行贝叶斯估计的第二个优点,它意味着积分是可以计算的,所以可以得到密度预测的一个不错的闭式表达式。

    对大量数据而言,贝叶斯估计和MAP估计得到的样本密度是非常接近的。但是在样本量少的情况下,贝叶斯估计的分布更加平稳,这也意味着它更不确定样本密度的真实性。

    展开全文
  • 参数估计方法和非参数估计方法

    万次阅读 2018-09-04 14:10:13
    这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要...

    https://wenku.baidu.com/view/1cf9639efab069dc502201fe.html

    以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。

     

    1、最大似然估计MLE

    首先回顾一下贝叶斯公式

     

     

    这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即

     

     

    最大似然估计就是要用似然函数取到最大值时的参数值作为估计值,似然函数可以写做

     

     

    由于有连乘运算,通常对似然函数取对数计算简便,即对数似然函数。最大似然估计问题可以写成

     

     

    这是一个关于的函数,求解这个优化问题通常对求导,得到导数为0的极值点。该函数取得最大值是对应的的取值就是我们估计的模型参数。

    以扔硬币的伯努利实验为例子,N次实验的结果服从二项分布,参数为P,即每次实验事件发生的概率,不妨设为是得到正面的概率。为了估计P,采用最大似然估计,似然函数可以写作

     

     

    其中表示实验结果为i的次数。下面求似然函数的极值点,有

     

     

    得到参数p的最大似然估计值为

     

     

    可以看出二项分布中每次事件发的概率p就等于做N次独立重复随机试验中事件发生的概率。

     

    如果我们做20次实验,出现正面12次,反面8次

    那么根据最大似然估计得到参数值p为12/20 = 0.6。

     

    2、最大后验估计MAP

    最大后验估计与最大似然估计相似,不同点在于估计的函数中允许加入一个先验,也就是说此时不是要求似然函数最大,而是要求由贝叶斯公式计算出的整个后验概率最大,即

     

     

    注意这里P(X)与参数无关,因此等价于要使分子最大。与最大似然估计相比,现在需要多加上一个先验分布概率的对数。在实际应用中,这个先验可以用来描述人们已经知道或者接受的普遍规律。例如在扔硬币的试验中,每次抛出正面发生的概率应该服从一个概率分布,这个概率在0.5处取得最大值,这个分布就是先验分布。先验分布的参数我们称为超参数(hyperparameter)即

     

     

    同样的道理,当上述后验概率取得最大值时,我们就得到根据MAP估计出的参数值。给定观测到的样本数据,一个新的值发生的概率是

     

     

    下面我们仍然以扔硬币的例子来说明,我们期望先验概率分布在0.5处取得最大值,我们可以选用Beta分布即

     

     

    其中Beta函数展开是

     

     

    当x为正整数时

     

    \Gamma(n) = (n-1)!\,

     

    Beta分布的随机变量范围是[0,1],所以可以生成normalised probability values。下图给出了不同参数情况下的Beta分布的概率密度函数

    我们取,这样先验分布在0.5处取得最大值,现在我们来求解MAP估计函数的极值点,同样对p求导数我们有

     

     

    得到参数p的的最大后验估计值为

     

     

    和最大似然估计的结果对比可以发现结果中多了这样的pseudo-counts,这就是先验在起作用。并且超参数越大,为了改变先验分布传递的belief所需要的观察值就越多,此时对应的Beta函数越聚集,紧缩在其最大值两侧。

    如果我们做20次实验,出现正面12次,反面8次,那么

    那么根据MAP估计出来的参数p为16/28 = 0.571,小于最大似然估计得到的值0.6,这也显示了“硬币一般是两面均匀的”这一先验对参数估计的影响。

     

    3 贝叶斯估计

    贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布。回顾一下贝叶斯公式

     

     

    现在不是要求后验概率最大,这样就需要求,即观察到的evidence的概率,由全概率公式展开可得

     

     

    当新的数据被观察到时,后验概率可以自动随之调整。但是通常这个全概率的求法是贝叶斯估计比较有技巧性的地方。

    那么如何用贝叶斯估计来做预测呢?如果我们想求一个新值的概率,可以由

     

     

    来计算。注意此时第二项因子在上的积分不再等于1,这就是和MLE及MAP很大的不同点。

    我们仍然以扔硬币的伯努利实验为例来说明。和MAP中一样,我们假设先验分布为Beta分布,但是构造贝叶斯估计时,不是要求用后验最大时的参数来近似作为参数值,而是求满足Beta分布的参数p的期望,有

     

     

    注意这里用到了公式

     

     

    当T为二维的情形可以对Beta分布来应用;T为多维的情形可以对狄利克雷分布应用

    根据结果可以知道,根据贝叶斯估计,参数p服从一个新的Beta分布。回忆一下,我们为p选取的先验分布是Beta分布,然后以p为参数的二项分布用贝叶斯估计得到的后验概率仍然服从Beta分布,由此我们说二项分布和Beta分布是共轭分布。在概率语言模型中,通常选取共轭分布作为先验,可以带来计算上的方便性。最典型的就是LDA中每个文档中词的Topic分布服从Multinomial分布,其先验选取共轭分布即Dirichlet分布;每个Topic下词的分布服从Multinomial分布,其先验也同样选取共轭分布即Dirichlet分布。

    根据Beta分布的期望和方差计算公式,我们有

     

     

    可以看出此时估计的p的期望和MLE ,MAP中得到的估计值都不同,此时如果仍然是做20次实验,12次正面,8次反面,那么我们根据贝叶斯估计得到的p满足参数为12+5和8+5的Beta分布,其均值和方差分别是17/30=0.567, 17*13/(31*30^2)=0.0079。可以看到此时求出的p的期望比MLE和MAP得到的估计值都小,更加接近0.5。

    综上所述我们可以可视化MLE,MAP和贝叶斯估计对参数的估计结果如下

    个人理解是,从MLE到MAP再到贝叶斯估计,对参数的表示越来越精确,得到的参数估计结果也越来越接近0.5这个先验概率,越来越能够反映基于样本的真实参数情况。

     

     

     

    原文地址:http://blog.csdn.net/yangliuy/article/details/8296481

     

    参考文献

    Gregor Heinrich, Parameter estimation for test analysis, technical report 

    Wikipedia Beta分布词条 ,  http://en.wikipedia.org/wiki/Beta_distribution

    展开全文
  • 三种参数估计方法的总结

    千次阅读 2015-03-17 18:05:04
    常见的三种参数估计方法:最大似然估计法、最大后验估计法、贝叶斯估计法 示例情景:θ为抛一次硬币下面朝上的概率,其服从参数α和β的Beta分布,而X=(x1, x2)则是一个向量,表示观测结果,x1表示观测到正面的...

    常见的三种参数估计的方法:最大似然估计法、最大后验估计法、贝叶斯估计法

    示例情景:θ为抛一次硬币下面朝上的概率,其服从参数α和β的Beta分布,而X=(x1, x2)则是一个向量,表示观测结果,x1表示观测到正面的个数,x2表示观测到反面的个数。

    其中α、β、X为已知量,我们的目标是求参数θ

    ML:最大似然估计法

    MAP:最大后验估计法

    Bayesian Estimation:贝叶斯估计法

    展开全文
  • 选择目前常用的5种三参数威布尔分布参数估计法(概率权重矩法、极大似然法、双线性回归法、相关系数优化法、灰色估计法)进行比较研究,采用不同样本的7组数据进行参数估计...
  • 三种参数估计方法(MLE,MAP,贝叶斯估计)
  • http://blog.csdn.net/pipisorry/article/details/51482120文本分析的参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。参数估计参数估计中,我们会遇到两个主要问题:(1)如何去估计参数的...
  • 参数估计方法(MLE, MAP, BOA)

    千次阅读 2018-10-01 11:21:36
    以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。...本文主要介绍文本分析的参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。   1、最大似然估计MLE ...
  • 参数估计方法——OLS、MLE、MAP

    千次阅读 2019-07-31 15:17:22
    文章目录1、前言2、最大似然估计法 MLE3、最大后验估计 MAP4...在概率论中,参数估计有点估计(point estimation)和区间估计(interval estimation)两。而 ML 中主要是构造点估计的方法常用的有:①最大似然估计法,...
  • 参数估计方法

    千次阅读 2017-04-01 16:40:20
    本文主要介绍参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。 1、最大似然估计MLE 首先回顾一下贝叶斯公式 这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和...
  • 参数估计有点估计(point estimation)和区间估计(interval estimation)两。 点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点...
  • 机器学习中的模型参数估计方法:极大似然估计、贝叶斯估计、最大后验估计。
  • 什么是参数估计

    千次阅读 2020-10-20 20:06:51
    参数估计属于统计推断的范畴,是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。 统计推断是数理统计研究的核心问题,是指根据样本对总体分布或分布的数字特征等作出合理的推断。 参数估计分为:点估计...
  • 最大似然估计 原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一给定观察数据来...联系:都是参数估计方法,当服从正态分布时,两都的结论相等。 ...
  • 计量经济学几种参数估计方法

    千次阅读 2015-04-29 17:59:00
    比较普遍的参数估计方法: 1、普通最小二乘法:适用于满足经典假设条件的但方程模型; 2、加权最小二乘:适合于异方差数据,加权的实质是用一个变量除以误差项,使得误差项的方差变为常数; 3、工具变量法:适合...
  • 机器学习中的参数估计方法

    千次阅读 2015-01-10 19:46:14
    前几天上的机器学习课上,老师讲到了参数估计三种方法:ML,MAP和Bayesian estimation。课后,又查了一些相关资料,以及老师推荐的LDA方面的论文《Parameter estimation for text analysis》。本文主要介绍文本...
  • 概率论基础知识(参数估计

    千次阅读 2018-09-23 14:04:33
    概率论基础知识(参数估计 1、矩 矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示。 矩是更具有一般意义的数字特征。 设有随机变量X,若E(∣X∣k)<+∞E(|X|^k)&...
  • 利用最小二乘法进行参数估计

    万次阅读 2019-05-08 11:14:06
    # 参数估计 # residuals误差函数 # par为拟合参数的初始值 # args为需要拟合的实验数据 def get_related_par(x, y, par, residuals):  plsq = leastsq(residuals, par, args=(y, x)) # 调用leastsq进行数据拟合, ...
  • 来源:首席数据科学家今天分享一下关于参数估计的基本概念。尤其是极大似然估计,有着重要的应用。01—参数估计的定义首先,什么是参数估计呢?之前我们其实已经了解到很多分布类型了,比如正态分布...
  • 已经知道观测数据符合某些模型的概率下,我们可以利用参数估计方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些模型这个事实。在这个事实上进行加工。 ...
  • 我们观测世界,得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤 1....我们来分析一下上面的个步骤,第一第二都很好解决,关于第...
  • 数理统计|参数估计

    千次阅读 2018-10-10 23:31:28
    3.1.4 贝叶斯估计   前面介绍的三种办法是频率学派的理论,而贝叶斯估计是贝叶斯学派的观点。   贝叶斯估计是建立在已经有关于参数的分布的信息的基础上,叫做先验信息,然后进行样本观测,推算后验分布。也...
  • 基于条件参数估计和偏最大似然估计的筛选方法都比较可靠,尤以后者为佳。但基于Wald统计量的检验则不然,它实际上未考虑各因素的综合作用,当因素间存在共线性时,结果不可靠,故应当慎用。 5.模型效果的判断指标 ①...
  • 我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估...
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...
  • 参数估计与非参数估计

    万次阅读 2015-05-06 11:38:58
    参数估计(parameter estimation): 根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或...
  • 统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。 一、参数估计基础-Z分布 在统计应用中,可以把任何一个均数为,标准差为的正态分布转变为,的标准正态分布,即将...
  • 推断统计:参数估计和假设检验

    千次阅读 多人点赞 2020-03-03 00:35:24
    目录 ...  3、参数估计(点估计和区间估计)    1)参数估计、点估计和区间统计的概念    2)点估计说明    3)区间估计说明   4、中心极限定理    1)中心极限定理的概念    2...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 151,094
精华内容 60,437
关键字:

参数估计的三种方法