精华内容
下载资源
问答
  • 参数估计方法

    2018-01-20 17:01:00
    参数估计方法 推断问题中, 一般会碰到两个问题: 1.参数估计问题: 已知 观测数据集 X, 估计其分布参数 \(\theta\), 也就是\(p(\theta|X)\) 2. 预测或回归问题: 已知观测数据集 X, 推测新观测数据 \(\tilde{x}\), 也...

    参数估计方法

    推断问题中, 一般会碰到两个问题: 1.参数估计问题: 已知 观测数据集 X, 估计其分布参数 \(\theta\), 也就是\(p(\theta|X)\) 2. 预测或回归问题: 已知观测数据集 X, 推测新观测数据 \(\tilde{x}\), 也就是 计算\(p(\tilde{x}| X )\).

    数据集 X 可以被认为是独立同分布的随机变量 \(\mathscr{X}\) 的观测值. \(\theta\) 则是分布参数, 比如, 在高斯分布中: \(\theta = \{\mu, \sigma^2\}\).

    根据贝叶斯定理:

    \[ p(\theta|X) = \frac{p(X|\theta)\cdot p(\theta)}{p(X)} \]

    上面的定理可用如下解释:

    \[ posterior = \frac{likelihood\cdot prior}{evidence} \]

    Maximum likelihood estimation

    \[ L(\theta| X) \triangleq p(X|\theta) = \bigcap_{x\in X}P\{\mathscr{X} = x|\theta\} = \prod_{x\in X} p(x|\theta) \]

    对上式取log , 可得如下化简的估计式:

    \[ \hat{\theta}_{ML} = \arg \max_{\theta} \mathscr{L}(\theta|X) = \arg\max_{\theta} \sum_{x\in X}\log p(x|\theta) \]

    其中 $\mathscr{L} \triangleq\log L $.

    求解方式也很自然:

    \[ \frac{\partial \mathscr{L}(\theta|X)}{\partial \theta_k} = 0 \qquad \forall \theta_k \in \theta \]

    对于预测问题:

    \[ p(\tilde{x}|X) = \int_{\theta\in\Theta}p(\tilde{x}|\theta)p(\theta|X)d \theta\approx \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta}_{ML})p(\theta|X)d\theta = p(\tilde{x}|\hat{\theta}_{ML}) \]

    例子:

    有一硬币, 出现正面的概率是p, 重复投掷N次,估计 p

    根据上面的ML:

    \[ \begin{array}\\ \mathscr{L} &=& \log\prod_{i = 1}^N p(X= x_i|p) \\ &=& \sum_{i = 1}^N\log p(x_i|p) = \sum_{i =1}^N\log(p^c\cdot p^{1-c}) \\ &=& \sum_{i = 1}^N\{\log p(c =1|p)+\log p(c=0|p)\}\\ &=& n_1 \log p(c=1|p) + n_0\log p(c=0|p)\\ &=& n_1 log p + n_0 log(1-p) \end{array} \]

    其中 c取 1(正面), 0(背面). n1, n0 分别为正, 背面出现的次数,显然: n1 + n0 = N.

    则:

    \[ \frac{\partial \mathscr{L}}{\partial p} = \frac{n_1}{p} + \frac{n_0}{1-p} = 0 ==> \hat{p} = \frac{n_1}{N} \]

    Maximum a posteriori(MAP) estimation

    MAP 在ML的基础上对 参数 加上先验信念(priori belief),操作上,即对参数进行加权(权重即为其出现的概率(先验的) \(p(\theta)\)), 虽是这样, 但信念却不等同于概率.

    \[ \hat{\theta}_{MAP} = \arg\max_{\theta} p(\theta|X) \]

    由贝叶斯定理:

    \[ \begin{array}\\ \hat{\theta}_{MAP} &= &\arg\max_{\theta}\frac{p(X|\theta)p(\theta)}{p(X)}\\ &=&\arg\max_{\theta}p(X|\theta)p(\theta) \\ &=& \arg\max_{\theta}\{{\mathscr{L}(\theta|X)}+\log p(\theta)\} \\ &=& \arg\max_{\theta}\{\sum_{x\in X}\log p(x| \theta) + \log p(\theta)\} \end{array} \]

    其中, P(X) 因不是\(\theta\)的函数, 故可省略.

    在MAP中, \(\theta\) (一般多维) 被认为是随机变量(列), 正如上面所述, \(\theta\) 的信念虽是以概率表示,

    对于预测问题:

    \[ p(\tilde{x}|X) = \int_{\theta\in\Theta}p(\tilde{x}|\theta)p(\theta|X)d \theta\approx \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta}_{ML})p(\theta|X)d\theta = p(\tilde{x}|\hat{\theta}_{ML}) \]

    再次考虑上面的例子, 一般我们会猜, 硬币两面出现的概率d大致相等, 即 p 的概率应该在0.5 附近. 这可表示为p 拥有一个先验分布, 且在 0.5 附近有很高的概率密度. 比如我们可能认为 p 服从 beta分布:
    \[ p(p| \alpha, \beta) = \frac{1}{B(\alpha, \beta)}p^{\alpha-1}(1-p)^{\beta - 1} \triangleq Beta(p|\alpha, \beta) \]

    其中, \(B(\alpha,\beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha +\beta)}\), 而 \(\Gamma(x) = \int_{0}^{\infty}t^{x-1}e^{-t}dt\).

    因此对 (9)式 求(偏)导:

    \[ \frac{\partial }{\partial p}(\mathscr{L} + \log p(p)) = \frac{n_1}{p}+ \frac{n_0}{1- p} + \frac{\alpha - 2}{p} - \frac{\beta - 1}{1- p} = 0\\ ==> \hat{p}_{MAP} = \frac{n_1 +\alpha -1 }{N+\alpha+\beta - 2} \]

    Bayesian estimation

    在MAP中,只取了P(θ|X)的峰值作为θ的估计,忽略了θ的其他可能性,可能丢失信息。贝叶斯在MAP的基础上更进一步, 把θ的所有可能取值考虑进来,然后算posterior分布上的期望.

    同样的, 根据贝叶斯定理:

    \[ p(\theta|X) = \frac{p(X|\theta)\cdot p(\theta)}{p(X)} \]

    在贝叶斯估计中, P(X) 可能表示成 参数的分布上的所有可能性的期望:

    \[ p(X) = \int_{\theta \in \Theta}p(X|\theta)p(\theta)d\theta \]

    预测问题:

    \[ p(\tilde{x}|X) = \int_{\theta\in\Theta}p(\tilde{x}|\theta)p(\theta|X)d \theta\\ \approx \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta})p(\theta|X)d\theta\\ = \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta})\frac{p(X|\theta)\cdot p(\theta)}{p(X)} \]

    再看上面的例子, 仍令 $\theta $服从Beta 分布:

    \[ \begin{array}\\ p(\theta|X)& =& \frac{p(X|\theta)\cdot p(\theta|\alpha, \beta)}{p(X)}\\ &= & \frac{p(X|\theta)\cdot p(\theta|\alpha, \beta)}{\int_{\theta \in \Theta}p(X|\theta)p(\theta|\alpha,\beta)d\theta}\\ &=& \frac{\prod_{i = 1}^Np(X=x_i|p)p(p|\alpha,\beta)}{\int_0^1 \prod_{i = 1}^Np(X=x_i|p)p(p|\alpha,\beta)dp}\\ &=& \frac{p^{n_1+\alpha-1}(1-p)^{n_0 +\beta-1}\frac{1}{Beta(\alpha,\beta)}p^{\alpha -1}(1-p)^{\beta -1}}{Z}\\ &=& Beta(p| n^1+\alpha, n^0+\beta) \end{array} \]

    其中Z 为Beta分布的归一化因子.

    \[ E p(p|X) = \frac{n^1 + \alpha}{N+\alpha +\beta} \]

    共轭分布:

    一个似然概率\(p(x|\theta)\)的共轭先验分布\(p(\theta)\) 是使参数的后验分布的形式与其相一致的分布, 如上面例子的贝叶斯估计中, 我们令 p 的概率分布服从 beta分布, 经计算p 的后验也是beta分布, 只不过分布的参数由原来的\((\alpha, \beta)\)变成 \((n^1+\alpha,n^0+\beta)\). 而这个似然概率是二次分布(N次重复的做bernulli 实验). 也即二项分布的共轭分为beta分布.

    推广:

    多项分布的 共轭分布为 Dirichlet 分布.

    多项分布:

    \[ p(n|p,N) = \Big(_n^N \Big) \prod_{k =1}^K p_k^{n(k)} \triangleq Mult(n|p,N) \]

    Dirichlet分布:

    \[ p(p|\alpha) = D(p|\alpha)\triangleq \frac{\Gamma(\sum_{k=1}^K \alpha)}{\prod_{k=1}^K\Gamma(\alpha_k)}\prod_{k =1}^Kp_k^{\alpha_k -1} = \frac{\prod_{k =1}^Kp_k^{\alpha_k -1}}{\Delta(\alpha)} \]

    其中, \(\Delta(\alpha) =\frac{\prod_{k=1}^K\Gamma(\alpha_k)} {\Gamma(\sum_{k=1}^K \alpha)}\).

    转载于:https://www.cnblogs.com/vpegasus/p/8321248.html

    展开全文
  • 单人行走运动参数估计方法
  • 自适应Tikhonov正则化参数估计方法
  • 文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。 参数估计 参数估计中,我们会遇到两个主要问题:(1)如何去估计参数的value。(2)...

    http://blog.csdn.net/pipisorry/article/details/51482120

    文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。

    参数估计

    参数估计中,我们会遇到两个主要问题:(1)如何去估计参数的value。(2)估计出参数的value之后,如何去计算新的observation的概率,即进行回归分析和预测。
    首先定义一些符号:

    图片1


    数据集X中的所有Xi,他们是独立同分布的,因此后面求X 的概率的时候,xi可以相乘。

    贝叶斯公式


    这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即

    [概率图模型:贝叶斯网络与朴素贝叶斯网络]


    最大似然估计MLE

    [参数估计:最大似然估计MLE ]



    最大后验估计MAP

    最大后验估计与最大似然估计相似,不同点在于估计的函数中允许加入一个先验,也就是说此时不是要求似然函数最大,而是要求由贝叶斯公式计算出的整个后验概率最大,不是在整个后验概率上积分,而是搜索该分布的最大值,即



    Note: 这里P(X)与参数无关,因此等价于要使分子最大。

    通过加上这个先验分布项,我们可以编码额外的信息,并且可以避免参数的过拟合问题。

        与最大似然估计相比,现在需要多加上一个先验分布概率的对数。在实际应用中,这个先验可以用来描述人们已经知道或者接受的普遍规律。例如在扔硬币的试验中,每次抛出正面发生的概率应该服从一个概率分布,这个概率在0.5处取得最大值,这个分布就是先验分布。先验分布的参数我们称为超参数(hyperparameter)即我们认为,theta也是服从一个先验分布的:alpha是他的超参数

    同样的道理,当上述后验概率取得最大值时,我们就得到根据MAP估计出的参数值。


    给定观测到的样本数据,一个新的值发生的概率是

      

    Note: 这里积分第一项与theta无关(使用的是MAP值),所以第二项积分为1(也就是后验概率不随新来的数据变化,为1?)。

    扔硬币的伯努利实验示例

        我们期望先验概率分布在0.5处取得最大值,我们可以选用Beta分布(lz:实际上选择beta分布的原因是beta分布和二项分布是共轭分布)即


    其中Beta函数展开是

    @plus ;%20%5Cbeta%29%7D" rel="nofollow">

    当x为正整数时


    Beta分布的随机变量范围是[0,1],所以可以生成normalized probability values。下图给出了不同参数情况下的Beta分布的概率密度函数


    我们取,这样先验分布在0.5处取得最大值(观察上面的图,因为我们先验认为p约等于0.5,因此超参数a和b是相等的,我们这里选择等于5)。

    现在我们来求解MAP估计函数的极值点,同样对p求导数,得到参数p的的最大后验估计值为

    后面两项是对log(p(p|alpha,beta))的求导


    @plus ;%5Cfrac%7B%5Calpha%20-%201%7D%7Bp%7D-%5Cfrac%7B%5Cbeta%20-%201%7D%7B1%20-%20p%7D%20=%200" rel="nofollow">

    和最大似然估计ML的结果对比可以发现结果中多了@plus ;%20%5Cbeta%20-2" rel="nofollow">,我们称这两者为pseudo count伪计数,这两项的作用是使总概率p向0.5拉近,因为我们的先验认为就是约等于0.5的。这样的pseudo-counts就是先验在起作用,并且超参数越大,为了改变先验分布传递的belief所需要的观察值就越多,此时对应的Beta函数越聚集,紧缩在其最大值两侧。

    如果我们做20次实验,出现正面12次,反面8次,那么,根据MAP估计出来的参数p为16/28 = 0.571,小于最大似然估计得到的值0.6,这也显示了“硬币一般是两面均匀的”这一先验对参数估计的影响。

    [主题模型TopicModel:LDA中的数学模型]

    MAP估计*

    MAP参数的敏感性以及后验概率形式的不敏感性

    MAP表示独立性

    [PGM原理与技术]

    最大后验查询的一个示例


    皮皮blog



    贝叶斯思想和贝叶斯参数估计

    [ 贝叶斯思想和贝叶斯参数估计 ]



    MLE,MAP和贝叶斯估计对参数估计的比较

    综上所述我们可以可视化MLE,MAP和贝叶斯估计对参数的估计结果如下

    lz:从MLE到MAP再到贝叶斯估计,对参数的表示越来越精确(由易到难,估计的value也越来越perfect),得到的参数估计结果也越来越接近0.5这个先验概率,越来越能够反映基于样本的真实参数情况。

    Why the MLE doesn’t work well?

    While MLE is guaranteed to maximizes the probability of an observed data, we areactually interested in finding estimators that perform well on new data. A serious problemarises from this perspective because the MLE assigns a zero probability to elements thathave not been observed in the corpus. This means it will assign a zero probability to anysequence containing a previously unseen element.

    from: http://blog.csdn.net/pipisorry/article/details/51482120

    ref: Gregor Heinrich: Parameter estimation for text analysis*

    参数估计(极大似然估计,极大后验概率估计,贝叶斯估计)*

    文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

    文本分析中的参数估计,以LDA为例,英文版:Heinrich-GibbsLDA.pdf

    Reading Note : Parameter estimation for text analysis 暨LDA学习小结

    统计学(四):几种常见的参数估计方法


    转载于:https://my.oschina.net/u/3579120/blog/1508495

    展开全文
  • 多元线性回归的参数估计方法,吴仕勋,赵东方,本文依据高斯—马尔可夫定理,通过对最小二乘估计方法得出的参数估计值的分析,从另外两个角度出发得出了参数估计的值与最小二乘
  • 参数估计方法简介

    2019-07-05 17:02:00
    1.参数估计和非参数估计  前面提到随机变量的分布不是很...其中,比较基础且常见的参数估计方法有最大似然估计、最小二乘估计以及最大后验概率估计。 2.最大似然估计  给出随机变量\(X(x1,x2,x3...)\)以及它...

    1.参数估计和非参数估计

      前面提到随机变量的分布不是很明确时,我们需要先对随机变量的分布进行估计。有一种情况是我们知道变量分布的模型,但是具体分布的参数未知,我们通过确定这些未知参数就可以实现对变量的估计,这种方式就是参数估计。其中,比较基础且常见的参数估计方法有最大似然估计、最小二乘估计以及最大后验概率估计。

    2.最大似然估计

      给出随机变量\(X(x1,x2,x3...)\)以及它的独立采样统计\(Y(y1,y2,y3...)\),且已知X的分布是\(f(\theta)\),这里我们可以把变量X的分布看作关于\(\theta\)的函数,即一组参数值\(\theta\)确定一个X的分布函数,我们要求的参数\(\theta\)应使得分布函数最贴近Y。那么如何表示这一点呢?对于最大似然估计,那就是以\(\theta\)为参数时,对X的估计结果恰好是\(Y(y1,y2,y3...)\)的总概率最大!我们由此构建了关于\(\theta\)的似然函数,用\(L(\theta)\)表示似然函数,用\(p(x_{i}|\theta)\)表示估计结果恰好为\(y_{i}\)的概率,有:$$L(\theta) = \prod_{i=1}^{n} p(x_{i}|\theta)$$

      注意前面提到了统计结果是独立的,所以总概率等于分概率相乘。对于连乘,通常采用取对数的方式做变换达到相近的结果:$$\widehat(L)(\theta) = \sum_{i=1}^{n} ln(p(x_{i}|\theta))$$

      上式也叫对数似然函数,当我们要求参数时,只需要对似然函数关于参数的求导并置0,解方程组即可得到目标参数。

    3.最小二乘法

      最小二乘法和最大似然估计的不同点在于,它认为待估计的参数应使得对X的预测和X的实际分布整体的“距离”最小。即求\(\theta\)满足:$$\theta = argmin \sum_{i = 1}^{n} (f(x_{i}|\theta) - y_{i})^2$$

      对于参数的求取我们同样可以转化为一阶导数为0的解,或者梯度下降发迭代求解。对于线性估计和非线性估计还有一些区别,本篇随笔只是简介,我会单独写一个关于最小二乘法的(完了,又一个坑)。

    4.最大后验概率估计

      提到最大后验概率,首先想起的就是贝叶斯估计,是的,最大后验概率是贝叶斯统计学说里面的。贝叶斯统计理论认为,对事物的观测结果可能根据观测角度、观测方法、样本的大小而不一样,因此直接通过统计对随机变量进行建模可能会引入误差,所以需要引入“先验知识”即先验概率。观察似然函数:$$L(\theta) = \prod_{i=1}^{n} p(x_{i}|\theta)$$

      如果我们已知\(\theta\)的分布\(p(\theta)\):$$L(\theta) = \prod_{i=1}^{n} \frac{p(\theta|x_{i})p(\theta)}{p(x_{i})}$$

      又分母与\(\theta\)无关,所以有:$$\theta = argmax  \prod_{i=1}^{n} p(\theta|x_{i})p(\theta)$$

      同样可以取对数似然:$$\theta = argmax  \sum_{i=1}^{n} (ln(p(\theta|x_{i})) + ln(p(\theta))$$

      最大后验概率和最大似然估计不一样的是,其追求\(p(x_{i}|\theta)p(\theta)\)的最大化,即保证预测尽可能接近分布的同时,\(\theta\)本身的概率也最大,感觉是给似然函数增加了“约束项”,不过是以乘法的形式。

    转载于:https://www.cnblogs.com/SshunWang/p/11135919.html

    展开全文
  • 基于PSO的多小区多参数估计方法
  • 使用滤波技术的Hammerstein系统解耦参数估计方法
  • 基于单幅图像的摄像机畸变参数估计方法
  • 利用滤波技术的Hammerstein系统解耦参数估计方法
  • POLSAR图像杂波L分布建模及其参数估计方法
  • 一种运动模糊图像的模糊参数估计方法
  • Hammerstein系统的基于块的单独参数估计方法
  • 基于社团PSO算法的异步电机参数估计方法
  • 线性调频步进信号雷达目标运动参数估计方法
  • 一种单自旋回波串信号参数估计方法
  • 参数估计方法和非参数估计方法

    万次阅读 2018-09-04 14:10:13
    这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要...

    https://wenku.baidu.com/view/1cf9639efab069dc502201fe.html

    以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。

     

    1、最大似然估计MLE

    首先回顾一下贝叶斯公式

     

     

    这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即

     

     

    最大似然估计就是要用似然函数取到最大值时的参数值作为估计值,似然函数可以写做

     

     

    由于有连乘运算,通常对似然函数取对数计算简便,即对数似然函数。最大似然估计问题可以写成

     

     

    这是一个关于的函数,求解这个优化问题通常对求导,得到导数为0的极值点。该函数取得最大值是对应的的取值就是我们估计的模型参数。

    以扔硬币的伯努利实验为例子,N次实验的结果服从二项分布,参数为P,即每次实验事件发生的概率,不妨设为是得到正面的概率。为了估计P,采用最大似然估计,似然函数可以写作

     

     

    其中表示实验结果为i的次数。下面求似然函数的极值点,有

     

     

    得到参数p的最大似然估计值为

     

     

    可以看出二项分布中每次事件发的概率p就等于做N次独立重复随机试验中事件发生的概率。

     

    如果我们做20次实验,出现正面12次,反面8次

    那么根据最大似然估计得到参数值p为12/20 = 0.6。

     

    2、最大后验估计MAP

    最大后验估计与最大似然估计相似,不同点在于估计的函数中允许加入一个先验,也就是说此时不是要求似然函数最大,而是要求由贝叶斯公式计算出的整个后验概率最大,即

     

     

    注意这里P(X)与参数无关,因此等价于要使分子最大。与最大似然估计相比,现在需要多加上一个先验分布概率的对数。在实际应用中,这个先验可以用来描述人们已经知道或者接受的普遍规律。例如在扔硬币的试验中,每次抛出正面发生的概率应该服从一个概率分布,这个概率在0.5处取得最大值,这个分布就是先验分布。先验分布的参数我们称为超参数(hyperparameter)即

     

     

    同样的道理,当上述后验概率取得最大值时,我们就得到根据MAP估计出的参数值。给定观测到的样本数据,一个新的值发生的概率是

     

     

    下面我们仍然以扔硬币的例子来说明,我们期望先验概率分布在0.5处取得最大值,我们可以选用Beta分布即

     

     

    其中Beta函数展开是

     

     

    当x为正整数时

     

    \Gamma(n) = (n-1)!\,

     

    Beta分布的随机变量范围是[0,1],所以可以生成normalised probability values。下图给出了不同参数情况下的Beta分布的概率密度函数

    我们取,这样先验分布在0.5处取得最大值,现在我们来求解MAP估计函数的极值点,同样对p求导数我们有

     

     

    得到参数p的的最大后验估计值为

     

     

    和最大似然估计的结果对比可以发现结果中多了这样的pseudo-counts,这就是先验在起作用。并且超参数越大,为了改变先验分布传递的belief所需要的观察值就越多,此时对应的Beta函数越聚集,紧缩在其最大值两侧。

    如果我们做20次实验,出现正面12次,反面8次,那么

    那么根据MAP估计出来的参数p为16/28 = 0.571,小于最大似然估计得到的值0.6,这也显示了“硬币一般是两面均匀的”这一先验对参数估计的影响。

     

    3 贝叶斯估计

    贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布。回顾一下贝叶斯公式

     

     

    现在不是要求后验概率最大,这样就需要求,即观察到的evidence的概率,由全概率公式展开可得

     

     

    当新的数据被观察到时,后验概率可以自动随之调整。但是通常这个全概率的求法是贝叶斯估计比较有技巧性的地方。

    那么如何用贝叶斯估计来做预测呢?如果我们想求一个新值的概率,可以由

     

     

    来计算。注意此时第二项因子在上的积分不再等于1,这就是和MLE及MAP很大的不同点。

    我们仍然以扔硬币的伯努利实验为例来说明。和MAP中一样,我们假设先验分布为Beta分布,但是构造贝叶斯估计时,不是要求用后验最大时的参数来近似作为参数值,而是求满足Beta分布的参数p的期望,有

     

     

    注意这里用到了公式

     

     

    当T为二维的情形可以对Beta分布来应用;T为多维的情形可以对狄利克雷分布应用

    根据结果可以知道,根据贝叶斯估计,参数p服从一个新的Beta分布。回忆一下,我们为p选取的先验分布是Beta分布,然后以p为参数的二项分布用贝叶斯估计得到的后验概率仍然服从Beta分布,由此我们说二项分布和Beta分布是共轭分布。在概率语言模型中,通常选取共轭分布作为先验,可以带来计算上的方便性。最典型的就是LDA中每个文档中词的Topic分布服从Multinomial分布,其先验选取共轭分布即Dirichlet分布;每个Topic下词的分布服从Multinomial分布,其先验也同样选取共轭分布即Dirichlet分布。

    根据Beta分布的期望和方差计算公式,我们有

     

     

    可以看出此时估计的p的期望和MLE ,MAP中得到的估计值都不同,此时如果仍然是做20次实验,12次正面,8次反面,那么我们根据贝叶斯估计得到的p满足参数为12+5和8+5的Beta分布,其均值和方差分别是17/30=0.567, 17*13/(31*30^2)=0.0079。可以看到此时求出的p的期望比MLE和MAP得到的估计值都小,更加接近0.5。

    综上所述我们可以可视化MLE,MAP和贝叶斯估计对参数的估计结果如下

    个人理解是,从MLE到MAP再到贝叶斯估计,对参数的表示越来越精确,得到的参数估计结果也越来越接近0.5这个先验概率,越来越能够反映基于样本的真实参数情况。

     

     

     

    原文地址:http://blog.csdn.net/yangliuy/article/details/8296481

     

    参考文献

    Gregor Heinrich, Parameter estimation for test analysis, technical report 

    Wikipedia Beta分布词条 ,  http://en.wikipedia.org/wiki/Beta_distribution

    展开全文
  • 基于粒子群优化算法的KK分布参数估计方法
  • 海面运动舰船微动特征分析与参数估计方法
  • 基于音乐和KF的宽带DCAR相干参数估计方法
  • 本文:提出了一种K布杂波的参数估计方法,该方法利用ln(x)的一、二阶矩之间的函数关系求解杂波的形状参数和尺度参数,避免了常规估计方法在杂波形状参数较大时所导致的错误估计。利用实测海杂波数据对该方法进行了...
  • 机器学习中几种主要参数估计方法的介绍
  • 该文在分析雷达回波稀疏特性的基础上,将参数估计问题转化为压缩感知理论中的稀疏信号重构问题,据此提出了一种基于压缩感知的2维GTD模型参数估计方法。该方法首先利用2维傅里叶变换成像确定目标散射中心的支撑区域,...
  • 基于高阶矩函数的雷达目标微动参数估计方法
  • 一种新的干扰采样中继器干扰的参数估计方法

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,482
精华内容 2,592
关键字:

参数估计方法