精华内容
下载资源
问答
  • 贝叶斯估计

    2017-11-27 11:02:08
    贝叶斯估计 贝叶斯估计 贝叶斯估计 贝叶斯估计 贝叶斯估计
  • 6.4贝叶斯估计

    2017-11-26 16:26:34
    6.4贝叶斯估计 6.4贝叶斯估计 6.4贝叶斯估计 最优估计
  • 贝叶斯估计和极大似然估计到底有何区别

    万次阅读 多人点赞 2017-03-12 21:28:00
    在开始接触最大似然估计和贝叶斯估计时,大家都会有个疑问:最大似然估计和贝叶斯估计二者很相似,到底有何区别?本文便来说说二者的不同之处以及推导二者使用时的数学模型!预热知识必知如何求类条件概率密度: ...

    前言:原创不易,转载请告知并注明出处!微信搜索【机器学习与自然语言处理】公众号,定期发布知识图谱,自然语言处理、机器学习等知识,添加微信号【17865190919】进讨论群,加好友时备注来自CSDN。
    在这里插入图片描述

    在开始接触最大似然估计和贝叶斯估计时,大家都会有个疑问:最大似然估计和贝叶斯估计二者很相似,到底有何区别?本文便来说说二者的不同之处以及求参模型的公式推导!

    预热知识必知

    如何求类条件概率密度:
    我们知道贝叶斯决策中关键便在于知道后验概率,那么问题便集中在求解类条件概率密度!那么如何求呢?答案便是:将类条件概率密度进行参数化。

    最大似然估计和贝叶斯估计参数估计:
    鉴于类条件概率密度难求,我们将其进行参数化,这样我们便只需要对参数进行求解就行了,问题难度将大大降低!比如:我们假设类条件概率密度p(x|w)是一个多元正态分布,那么我们就可以把问题从估计完全未知的概率密度p(x|w)转化成估计参数:均值u、协方差ε

    所以最大似然估计和贝叶斯估计都属于参数化估计!…当然像KNN估计、Parzen窗这些就是非参数话估计啦!但是参数化估计也自然有它的缺点,下面会说的!

    简述二者最大的区别

    若用两个字高度概括二者的最大区别那就是:参数

    最大似然估计和贝叶斯估计最大区别便在于估计的参数不同,最大似然估计要估计的参数θ被当作是固定形式的一个未知变量,然后我们结合真实数据通过最大化似然函数来求解这个固定形式的未知变量!

    贝叶斯估计则是将参数视为是有某种已知先验分布的随机变量,意思便是这个参数他不是一个固定的未知数,而是符合一定先验分布如:随机变量θ符合正态分布等!那么在贝叶斯估计中除了类条件概率密度p(x|w)符合一定的先验分布,参数θ也符合一定的先验分布。我们通过贝叶斯规则将参数的先验分布转化成后验分布进行求解!

    同时在贝叶斯模型使用过程中,贝叶斯估计用的是后验概率,而最大似然估计直接使用的是类条件概率密度。

    下面会详细分析最大似然估计和贝叶斯估计求解模型!

    从其他方面谈谈二者的异同

    在先验概率能保证问题有解的情况下,最大似然估计和贝叶斯估计在训练样本趋近于无穷时得到的结果是一样的!但是实际的模式识别问题中,训练样本总是有限的,我们应如何选择使用哪种模型呢?下面简单分析分析:

    (1) 计算复杂度:就实现的复杂度来说,肯定是有限选择最大似然估计,最大似然估计中只需要使用到简单的微分运算即可,而在贝叶斯估计中则需要用到非常复杂的多重积分,不仅如此,贝叶斯估计相对来说也更难理解;

    (2)准确性:当采用的样本数据很有限时,贝叶斯估计误差更小,毕竟在理论上,贝叶斯估计有很强的理论和算法基础。

    参数化估计的缺点:
    贝叶斯估计和最大似然估计都是属于参数化估计,那么二者存在着一个共同的缺点:参数化估计虽然使得类条件概率密度变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中,与做出能较好的接近潜在真实分布中的假设,往往需要一定程度上利用关于应用任务本身的经验知识,否则若仅凭“猜测”来假设概率分布形式,很可能产生误导性的结果!所以没有什么算法是十全十美的啦!

    下面便推导一下最大似然估计和贝叶斯估计所使用的模型,最大似然简单些,贝叶斯估计就比较复杂了!

    最大似然估计模型推导

    假设样本集D={x1 、x2 、…、xn},假设样本之间都是相对独立的,注意这个假设很重要!于是便有:

    这里写图片描述
    所以假设似然函数为:

    这里写图片描述
    接下来我们求参的准则便是如名字一样最大化似然函数喽:

    这里写图片描述
    下面有一个优化,专业名词为拉布拉斯修正

    简单说:就是防止先验概率为0,那么上面的L(θ|D)整个式子便都成0 了,那肯定是不行的啊,不能因为一个数据误差影响了整个数据的使用。同时那么多先验概率相乘,可能出现下溢出。所以引入拉普拉斯修正,也就是取对数ln,想必大家在数学中都用过这种方法的。

    所以做出下面变换:

    这里写图片描述

    所以最大化的目标便是:

    这里写图片描述

    求解上面问题便不多说了,使用数学中的微分知识便可:

    这里写图片描述
    然后使得偏导数为0:

    自此便求出了参数θ,然后便得到了类条件概率密度,便可进行判别等接下来的工作了。

    下面讲解贝叶斯模型推导,略微复杂些,下伙伴们仔细看啊!

    贝叶斯估计模型推导

    先说一句,贝叶斯估计最终也是为了得出后验概率。所以贝叶斯最终所要的得到推导的是:

    (1)
    正如上面所说我们便是要参数的先验分布通过贝叶斯规则转化成后验概率,也就是上面这个公式,接下来我们一起看看如何推导出上面后验概率的公式通过参数的先验概率。

    上式中有:

    这里写图片描述
    带入后验概率的式子可得:

    这里写图片描述

    大家注意啦!!!这里也有个重要的假设,那就是样本之间是相互独立的,同时类也是相互独立的。所以有如下假设:

    这里写图片描述
    同时由于类之间相互独立,所以我们不用区分类了,便有:

    这里写图片描述

    这里给大家顺一下思路,所以我们要求后验概率便是要求出P(x|D)便可:

    下面说明P(x|D)的推导:

    这里写图片描述

    正如我们前面所说上式中p(x| θ),我们假设它是一个已知的满足一定先验分布的,我们现在便是要知道:

    这里写图片描述

    下面给出其推导过程:

    这里写图片描述

    对于上式中的P(D|θ),还记得上面说的很重要的样本之间是独立的吗,所以和最大似然函数类似有:

    这里写图片描述
    因此最终我们便可以求得P(x|D):

    这里写图片描述

    这样我们将P(x|D)待会后验概率的式子便可求出后验概率了,所以我们完成了上面的说法,便是将参数θ 服从的先验概率分布转化成了后验概率分布了。

    本文参考资料:
    【1】Pattern Classification Second Edition
    【2】Machine Learining in Action
    【3】机器学习 著周志华

    展开全文
  • 贝叶斯估计 贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布。回忆下贝叶斯公式: p(θ∣x)=p(x∣θ)×p(θ)P(x)p(\theta|x) = \frac{p(x|\theta)\times p(\theta)}{P(x)}p...

    项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
    欢迎大家star,留言,一起学习进步

    1.什么是参数

    在机器学习中,我们经常使用一个模型来描述生成观察数据的过程。例如,我们可以使用一个随机森林模型来分类客户是否会取消订阅服务(称为流失建模),或者我们可以用线性模型根据公司的广告支出来预测公司的收入(这是一个线性回归的例子)。每个模型都包含自己的一组参数,这些参数最终定义了模型本身。

    我们可以把线性模型写成 y = mx + c 的形式。在广告预测收入的例子中,x 可以表示广告支出,y 是产生的收入。m 和 c 则是这个模型的参数。这些参数的不同值将在坐标平面上给出不同的直线(见下图)。

    这里写图片描述

    2.参数估计的方法

    就是根据样本统计量的数值对总体参数进行估计的过程。根据参数估计的性质不同,可以分成两种类型:点估计和区间估计。
    点估计就是用样本统计量的某一具体数值直接推断未知的总体参数。例如,在进行有关小学生身高的研究中,随机抽取1000名小学生并计算出他们的平均身高为1.45米。如果直接用这个1.45米代表所有小学生的平均身高,那么这种估计方法就是点估计。
    而对总体参数进行点估计常用的方法有两种:矩估计与最大似然估计,其中最大似然估计就是我们实际中使用非常广泛的一种方法。
    按这两种方法对总体参数进行点估计,能够得到相对准确的结果。如用样本均值X估计总体均值,或者用样本标准差S估计总体标准差σ。
    但是,点估计有一个不足之处,即这种估计方法不能提供估计参数的估计误差大小。对于一个总体来说,它的总体参数是一个常数值,而它的样本统计量却是随机变量。当用随机变量去估计常数值时,误差是不可避免的,只用一个样本数值去估计总体参数是要冒很大风险的。因为这种误差风险的存在,并且风险的大小还未知,所以,点估计主要为许多定性研究提供一定的参考数据,或在对总体参数要求不精确时使用,而在需要用精确总体参数的数据进行决策时则很少使用。
    区间估计就是在推断总体参数时,还要根据统计量的抽样分布特征,估计出总体参数的一个区间,而不是一个数值,并同时给出总体参数落在这一区间的可能性大小,概率的保证。还是举小学生身高的例子,如果用区间估计的方法推断小学生身高,则会给出以下的表达:根据样本数据,估计小学生的平均身高在1.4~1.5米之间,置信程度为95%,这种估计就属于区间估计。

    3.概率与统计的区别

    概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。

    概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

    统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

    一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。
    显然,对于最大似然估计,最大后验估计,贝叶斯估计来说,都属于统计的范畴。

    4.最大似然估计(maximum likelihood estimates,MLE)

    前文提到,最大似然估计(maximum likelihood estimates,MLE)是实际中使用非常广泛的一种方法,用我们老师的一句最简单的话来总结最大似然估计,就是“谁大像谁”。
    说到最大似然估计与最大后验估计,最好的例子自然就是抛硬币了。本文也不免俗,同样以抛硬币作为例子。
    于是我们拿这枚硬币抛了10次,得到的数据X是:反正正正正反正正正反。我们想求的正面概率θ是模型参数,而抛硬币模型我们可以假设是二项分布。
    在概率论和统计学中,二项分布(Binomial distribution)是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n = 1时,二项分布就是伯努利分布。
    伯努利分布(Bernoulli distribution,又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。)若伯努利试验成功,则伯努利随机变量取值为0。记其成功概率为 p(0p1){\displaystyle p(0{\leq }p{\leq }1)},失败概率为 q=1p{\displaystyle q=1-p}
    对于伯努利分布来说:
    概率质量函数为:
    KaTeX parse error: Undefined control sequence: \mbox at position 66: …egin{matrix}p&{\̲m̲b̲o̲x̲{if }}x=1,\\q\ …
    期望为:
    E[X]=i=01xifX(x)=0+p=p\displaystyle \operatorname {E} [X]=\sum _{i=0}^{1}x_{i}f_{X}(x)=0+p=p
    方差为:
    var[X]=i=01(xiE[X])2fX(x)=(0p)2(1p)+(1p)2p=p(1p)=pq\displaystyle \operatorname {var} [X]=\sum _{i=0}^{1}(x_{i}-E[X])^{2}f_{X}(x)=(0-p)^{2}(1-p)+(1-p)^{2}p=p(1-p)=pq
    而如果X ~ B(n, p)(也就是说,X是服从二项分布的随机变量)
    一般的二项分布是n次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和:
    μn=k=1nμ=np,σn2=k=1nσ2=np(1p).\displaystyle \mu _{n}=\sum _{k=1}^{n}\mu =np,\qquad \sigma _{n}^{2}=\sum _{k=1}^{n}\sigma ^{2}=np(1-p).

    回到抛硬币的例子,出现实验结果X的似然函数是什么呢?
    f(X,θ)=θ7(1θ)3f(X, \theta) = \theta^7(1-\theta)^3
    需要注意的是,上面只是个关于θ\theta的函数。而最大似然估计,很明显是要最大化这个函数。可以看一下这个函数的图像:
    这里写图片描述
    容易得出,在θ=0.7\theta=0.7时,似然函数能取到最大值。
    当然实际中我们一般不会画图,而是通过更为简洁的数学手段来处理。
    首先我们取对数似然函数,这样更方便后续的数学运算:
    ln(f(X,θ))=ln(θ7(1θ)3)=7ln(θ)+3ln(1θ)ln(f(X, \theta)) = ln(\theta^7(1-\theta)^3) = 7ln(\theta) + 3ln(1-\theta)
    对对数似然函数求导:
    ln(f(X,θ))=7θ31θln'(f(X, \theta)) = \frac{7}{\theta} - \frac{3}{1-\theta}
    令导数为0:
    7(1θ)3θ=07(1-\theta) - 3\theta = 0
    最终求得:
    θ=0.7\theta = 0.7

    这样,我们已经完成了对
    的最大似然估计。即,抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。是不是非常直接,非常简单粗暴?没错,就是这样,谁大像谁!
    说到这里为止,可能很多同学不以为然:你这不坑爹嘛?只要硬币一枚正常硬币,不存在作弊情况,正面朝上的概率必然为0.5么,你这怎么就忽悠我们是0.7呢。OK,如果你这么想,恭喜你,那你就天然包含了贝叶斯学派的思想!我们所谓的正常硬币向上的概率为0.5,就是贝叶斯里的先验概率。

    5.最大后验估计(maximum a posteriori estimation)

    上面的最大似然估计MLE其实就是求一组能够使似然函数最大的参数,即
    θ^ML(x)=argmaxθf(xθ) ⁣\displaystyle {\hat {\theta }}_{\mathrm {ML} }(x)=\arg \max _{\theta }f(x|\theta )\!
    如果我们把问题稍微弄复杂一点,如果这个参数θ\theta有一个先验概率呢?比如上面的例子中,实际生活经验告诉我们,硬币一般都是均匀的,也就是θ=0.5\theta=0.5的概率最大,那么这个参数该怎么估计?
    这个时候就用到了我们的最大后验概率MAP。MAP的基础是贝叶斯公式:
    p(θx)=p(xθ)×p(θ)P(x)p(\theta|x) = \frac{p(x|\theta)\times p(\theta)}{P(x)}

    其中,p(xθ)p(x|\theta)就是之前讲的似然函数,p(θ)p(\theta)是先验概率,是指在没有任何实验数据的时候对参数 θ\theta的经验判断,对于一个硬币,大概率认为他是正常的,正面的概率为0.5的可能性最大。

    MAP优化的就是一个后验概率,即给定了观测值以后使后验概率最大:
    KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ {\hat {\theta …

    从上面公式可以看出,p(xθ)p(x|\theta)是似然函数,而p(θ)p(\theta)就是先验概率。对其取对数:
    KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \arg \max _{\t…

    通过MAP最终的式子不难看出,MAP就是多个作为因子的先验概率P(θ)P(\theta)。这个p(θ)p(\theta)可以是任何的概率分布,比如高斯分布,比如也可以是β\beta分布。比如β(5,2)\beta(5,2)的概率分布图如下:
    这里写图片描述
    如果将这个概率分布作为p(θ)p(\theta),那么我们在还未抛硬币前,便认为θ\theta很可能接近于0.8,而不大可能是个很小的值或是一个很大的值。换言之,我们在抛硬币前,便估计这枚硬币更可能有0.8的概率抛出正面。
    那么问题就来了,为什么我们要用β\beta分布来描述先验概率呢?
    首先一点,通过调节 Beta 分布中的a和b,你可以让这个概率分布变成各种你想要的形状!Beta 分布已经很足够表达我们事先对θ\theta的估计了。
    更重要的一点是,如果使用Beta 分布,会让之后的计算更加方便。因为有如下结论:
    p(θ)p(\theta)是个Beta分布,那么在观测到"X = 抛10次硬币出现7次正面"的事件后,p(θX)p(\theta|X)仍然是个Beta分布,只不过此时概率分布的形状因为有了观测事件而发生了变化!此时有
    p(θX)=Beta(θa+3,b+2)p(\theta|X) = Beta(\theta|a+3, b+2)
    换句话说,数据观测前后,对θ\theta的估计的概率分布均为 Beta 分布,这就是为什么使用 Beta 分布方便我们计算的原因。当我们得知p(θX)=Beta(θa+3,b+2)p(\theta|X) = Beta(\theta|a+3, b+2)后,只要根据 Beta 分布的特性,得出θ\theta最有可能等于多少了。即θ\theta等于多少时,观测后得到的 Beta 分布有最大的概率密度)。
    到此为止,我们可以得到“共轭性”的真正含义了!后验概率分布(正⽐于先验和似然函数的乘积)拥有与先验分布相同的函数形式。这个性质被叫做共轭性(Conjugacy)。共轭先验(conjugate prior)有着很重要的作⽤。它使得后验概率分布的函数形式与先验概率相同,因此使得贝叶斯分析得到了极⼤的简化。例如,二项分布的参数之共轭先验就是我们前面介绍的 Beta 分布。多项式分布的参数之共轭先验则是 Dirichlet 分布,⽽⾼斯分布的均值之共轭先验是另⼀个⾼斯分布。
    总的来说,对于给定的概率分布p(Xθ)p(X|\theta),我们可以寻求一个与该似然函数p(Xθ)p(X|\theta)共轭的先验分布p(θ)p(\theta),如此一来后验分布p(θX)p(\theta|X)就会同先验分布具有相同的函数形式。而且对于任何指数族成员来说,都存在有一个共轭先验。

    6.贝叶斯估计

    贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布。回忆下贝叶斯公式:
    p(θx)=p(xθ)×p(θ)P(x)p(\theta|x) = \frac{p(x|\theta)\times p(\theta)}{P(x)}
    现在我们不要求后验概率最大,这个时候就需要求p(X)p(X),即观察到的X的概率。一般来说,用全概率公式可以求p(X)p(X)
    p(X)=p(Xθ)p(θ)dθp(X) = \int p(X | \theta)p(\theta)d\theta

    那么如何用贝叶斯估计来预测呢?如果我们想求一个值 x’ 的概率,可以用下面的方法
    这里写图片描述

    7.什么时候 MAP 估计与最大似然估计相等?

    当先验分布均匀之时,MAP 估计与 MLE 相等。直观讲,它表征了最有可能值的任何先验知识的匮乏。在这一情况中,所有权重分配到似然函数,因此当我们把先验与似然相乘,由此得到的后验极其类似于似然。因此,最大似然方法可被看作一种特殊的 MAP。

    如果先验认为这个硬币是概率是均匀分布的,被称为无信息先验( non-informative prior ),通俗的说就是“让数据自己说话”,此时贝叶斯方法等同于频率方法。
    随着数据的增加,先验的作用越来越弱,数据的作用越来越强,参数的分布会向着最大似然估计靠拢。而且可以证明,最大后验估计的结果是先验和最大似然估计的凸组合。

    参考文献:

    1.https://blog.csdn.net/baimafujinji/article/details/51374202
    2.https://blog.csdn.net/yt71656/article/details/42585873
    3.https://www.jiqizhixin.com/articles/2018-01-09-6
    4.https://zh.wikipedia.org/zh-hans/二項分佈
    5.https://zh.wikipedia.org/wiki/伯努利分布
    6.Pattern Recognition And Machine Learning

    展开全文
  • 贝叶斯估计讲稿

    2015-05-03 15:52:20
    贝叶斯估计,很棒的!欢迎下载。其中包含大量的贝叶斯估计方面的资料。
  • 贝叶斯定理与贝叶斯估计

    贝叶斯公式
    如果我们把事件A看成“结果”,把诸事件 B1,B2,,Bn 看成导致这结果可能的“原因”,而事件A只能伴随着“原因”B1,B2,,Bn 其中之一发生。又已知各“原因”Bi 的概率和在每个“原因”下A的概率。若要求A的概率时,通常用全概率公式。如果在该试验中,事件A已经发生,要求出某个“原因”Bi 导致该结果发生的概率,要用到一下介绍的Bayes公式。
    设一完备事件组 B1,B2,,Bn,则对任一事件A,若P(A)>0,有:

    P(Bi|A)=P(Bi)P(A|Bi)nj=1P(Bj)P(A|Bj),i=1,2,….,n
    以上定理称为Bayes公式。

    先验(Priori)概率与后验(Posterior)概率
    在上述公式中,P(Bi)是在没有得到信息,即不知A是否发生的情况下,人们对Bi 发生可能性大小的估计,成为先验概率。换一种说法,可以将先验概率视为边缘概率,即某个事件发生的概率。
    若得到新的信息,即A已经发生的情况下人们对Bi 发生可能性大小有了新的估计。得到的条件概率P(Bi|A)称为后验概率。通俗易懂的说可以将条件概率视为后验概率。P(A|B)可以表达为事件A在事件B已经发生条件下的发生概率。
    P(A|B)=P(A,B)P(B)
    联合概率表示两个事件共同发生的概率。A与B的联合概率表示为P(AB) 或 P(A,B).

    展开全文
  • 贝叶斯估计2

    2018-01-04 21:51:46
    贝叶斯估计(Bayesian estimation)是利用贝斯定理结合新的证据及以前的先验概率,来得到新的概率。它提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
  • 卡尔曼滤波作为递归贝叶斯估计 这是一个从直方图滤镜到N维卡尔曼滤镜的分步教程。 它基于塞巴斯蒂安·特伦(Sebastian Thrun)提供的出色的Udacity课程: 它涵盖:
  • 贝叶斯估计详解

    万次阅读 多人点赞 2017-06-06 22:48:22
    贝叶斯估计  贝叶斯估计:从参数的先验知识和样本出发。  不同于ML估计,不再把参数θ看成一个未知的确定变量,而是看成未知的随机变量,通过对第i类样本Di的观察,使概率密度分布P(Di|θ)转化为后验概率P(θ|Di)...

    贝叶斯估计

            贝叶斯估计:从参数的先验知识和样本出发。

            不同于ML估计,不再把参数θ看成一个未知的确定变量,而是看成未知的随机变量,通过对第i类样本Di的观察,使概率密度分布P(Di|θ)转化为后验概率P(θ|Di),再求贝叶斯估计。

            假设:将待估计的参数看作符合某种先验概率分布的随机变量。

            基本原理:


            我们期望在真实的θ值处有一个尖峰。

     

            贝叶斯估计的本质:贝叶斯估计的本质是通过贝叶斯决策得到参数θ的最优估计,使得总期望风险最小。




            损失函数:通常规定函数是一个二次函数,即平方误差损失函数:

            可以证明,如果采用平方误差损失函数,则θ的贝叶斯估计值是在给定x时θ的条件期望。


            同理可得,在给定样本集D下,θ的贝叶斯估计值是:



            


            例子:正态分布情况,参数θ仅有均值μ未知,而方差已知。给定样本D,,均值变量的先验分布。求μ的后验概率




            


    展开全文
  • 概述在日常学习之中,我们经常能见到各种带有“贝叶斯”的词语,例如贝叶斯决策、朴素贝叶斯、贝叶斯估计,有时就会在诸如机器学习或者模式识别的课程上遇到它们中的一两个,学习的时候能把其中某个弄得清清楚楚,...
  • 贝叶斯估计与跟踪

    2017-12-17 19:14:47
    贝叶斯估计与跟踪 里面有matlab代码 很经典也很浅显易懂 推荐下载
  • 贝叶斯估计学习笔记

    2021-01-05 18:10:59
    【学习笔记】贝叶斯估计 文章目录【学习笔记】贝叶斯估计1.基本概念2.贝叶斯定理(Bayes' Theorem)3.贝叶斯估计4.一个例子——贝叶斯公式的密度函数4.共轭分布参考资料 计量学习中充斥了各种参数估计方法,假设参数...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,092
精华内容 1,636
关键字:

贝叶斯估计