精华内容
下载资源
问答
  • 本文原始地址:最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很

    声明:本文为原创文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。
    本文作者: nebulaf91
    本文原始地址:http://blog.csdn.net/u011508640/article/details/72815981


    最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。

    但别急,我们先从概率和统计的区别讲起。

    概率和统计是一个东西吗?

    概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。

    概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

    统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

    一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

    显然,本文解释的MLE和MAP都是统计领域的问题。它们都是用来推测参数的方法。为什么会存在着两种不同方法呢? 这需要理解贝叶斯思想。我们来看看贝叶斯公式。

    贝叶斯公式到底在说什么?

    学习机器学习和模式识别的人一定都听过贝叶斯公式(Bayes’ Theorem):

    P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)} 【式1】

    贝叶斯公式看起来很简单,无非是倒了倒条件概率和联合概率的公式。

    把B展开,可以写成:

    P(AB)=P(BA)P(A)P(BA)P(A)+P(BA)P(A)P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|\sim A)P(\sim A)} 【式2】(A\sim A表示"非A")

    这个式子就很有意思了。

    想想这个情况。一辆汽车(或者电瓶车)的警报响了,你通常是什么反应?有小偷?撞车了? 不。。 你通常什么反应都没有。因为汽车警报响一响实在是太正常了!每天都要发生好多次。本来,汽车警报设置的功能是,出现了异常情况,需要人关注。然而,由于虚警实在是太多,人们渐渐不相信警报的功能了。

    贝叶斯公式就是在描述,你有多大把握能相信一件证据?(how much you can trust the evidence)

    我们假设响警报的目的就是想说汽车被砸了。把A计作“汽车被砸了”,B计作“警报响了”,带进贝叶斯公式里看。我们想求等式左边发生ABA|B的概率,这是在说警报响了,汽车也确实被砸了。汽车被砸**引起(trigger)**警报响,即BAB|A。但是,也有可能是汽车被小孩子皮球踢了一下、被行人碰了一下等其他原因(统统计作A\sim A),其他原因引起汽车警报响了,即BAB|\sim A。那么,现在突然听见警报响了,这时汽车已经被砸了的概率是多少呢(这即是说,警报响这个证据有了,多大把握能相信它确实是在报警说汽车被砸了)?想一想,应当这样来计算。用警报响起、汽车也被砸了这事件的数量,除以响警报事件的数量(这即【式1】)。进一步展开,即警报响起、汽车也被砸了的事件的数量,除以警报响起、汽车被砸了的事件数量加上警报响起、汽车没被砸的事件数量(这即【式2】)。

    可能有点绕,请稍稍想一想。

    再思考【式2】。想让P(AB)=1P(A|B) = 1,即警报响了,汽车一定被砸了,该怎么做呢?让$ P(B|\sim A)P(\sim A) = 0即可。很容易想清楚,假若让P(\sim A) = 0$,即杜绝了汽车被球踢、被行人碰到等等其他所有情况,那自然,警报响了,只剩下一种可能——汽车被砸了。这即是提高了响警报这个证据的说服力。

    从这个角度总结贝叶斯公式:做判断的时候,要考虑所有的因素。 老板骂你,不一定是你把什么工作搞砸了,可能只是他今天出门前和太太吵了一架。

    再思考【式2】。观察【式2】右边的分子,P(BA)P(B|A)为汽车被砸后响警报的概率。姑且仍为这是1吧。但是,若P(A)P(A)很小,即汽车被砸的概率本身就很小,则P(BA)P(A)P(B|A)P(A)仍然很小,即【式2】右边分子仍然很小,$P(A|B) $ 还是大不起来。 这里,​P(A)P(A)即是常说的先验概率,如果A的先验概率很小,就算P(BA)P(B|A)较大,可能A的后验概率P(AB)P(A|B)还是不会大(假设P(BA)P(A)P(B|\sim A)P(\sim A)不变的情况下)。

    从这个角度思考贝叶斯公式:一个本来就难以发生的事情,就算出现某个证据和他强烈相关,也要谨慎。证据很可能来自别的虽然不是很相关,但发生概率较高的事情。 发现刚才写的代码编译报错,可是我今天状态特别好,这语言我也很熟悉,犯错的概率很低。因此觉得是编译器出错了。 ————别,还是先再检查下自己的代码吧。

    好了好了,说了这么多,下面言归正传,说一说MLE。

    ——————不行,还得先说似然函数(likelihood function)

    似然函数

    似然(likelihood)这个词其实和概率(probability)是差不多的意思,Colins字典这么解释:The likelihood of something happening is how likely it is to happen. 你把likelihood换成probability,这解释也读得通。但是在统计里面,似然函数和概率函数却是两个不同的概念(其实也很相近就是了)。

    对于这个函数:

    P(xθ)P(x|\theta)

    输入有两个:x表示某一个具体的数据;θ\theta表示模型的参数。

    如果θ\theta是已知确定的,xx是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。

    如果xx是已知确定的,θ\theta是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。

    这有点像“一菜两吃”的意思。其实这样的形式我们以前也不是没遇到过。例如,$f(x, y) = x^y ,, 即xy次方。如果x(是已知确定的(例如x = 2)),这就是f(y) = 2^y,, 这是指数函数。 如果y(是已知确定的(例如y = 2)),这就是f(x) = x^2$,这是二次函数。同一个数学形式,从不同的变量角度观察,可以有不同的名字。

    这么说应该清楚了吧? 如果还没讲清楚,别急,下文会有具体例子。

    现在真要先讲讲MLE了。。

    最大似然估计(MLE)

    假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为θ\theta)各是多少?

    这是一个统计问题,回想一下,解决统计问题需要什么? 数据!

    于是我们拿这枚硬币抛了10次,得到的数据(x0x_0)是:反正正正正反正正正反。我们想求的正面概率θ\theta是模型参数,而抛硬币模型我们可以假设是 二项分布

    那么,出现实验结果$ x_0$(即反正正正正反正正正反)的似然函数是多少呢?

    f(x0,θ)=(1θ)×θ×θ×θ×θ×(1θ)×θ×θ×θ×(1θ)=θ7(1θ)3=f(θ)f(x_0 ,\theta) = (1-\theta)\times\theta\times\theta\times\theta\times\theta\times(1-\theta)\times\theta\times\theta\times\theta\times(1-\theta) = \theta ^ 7(1 - \theta)^3 = f(\theta)

    注意,这是个只关于θ\theta的函数。而最大似然估计,顾名思义,就是要最大化这个函数。我们可以画出f(θ)f(\theta)的图像:

    likeli

    可以看出,在θ=0.7\theta = 0.7时,似然函数取得最大值。

    这样,我们已经完成了对θ\theta的最大似然估计。即,抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。(ummm…这非常直观合理,对吧?)

    且慢,一些人可能会说,硬币一般都是均匀的啊! 就算你做实验发现结果是“反正正正正反正正正反”,我也不信θ=0.7\theta = 0.7

    这里就包含了贝叶斯学派的思想了——要考虑先验概率。 为此,引入了最大后验概率估计。

    最大后验概率估计

    最大似然估计是求参数θ\theta, 使似然函数$P(x_0 | \theta) 最大。最大后验概率估计则是想求\theta使使P(x_0 | \theta) P(\theta)最大。求得的\theta不单单让似然函数大,\theta$自己出现的先验概率也得大。 (这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法)

    MAP其实是在最大化P(θx0)=P(x0θ)P(θ)P(x0)P(\theta|x_0) = \frac{P(x_0|\theta)P(\theta)}{P(x_0)},不过因为x0x_0是确定的(即投出的“反正正正正反正正正反”),P(x0)P(x_0)是一个已知值,所以去掉了分母P(x0)P(x_0)(假设“投10次硬币”是一次实验,实验做了1000次,“反正正正正反正正正反”出现了n次,则P(x0)=n/1000P(x_0) = n/1000。总之,这是一个可以由数据集得到的值)。最大化P(θx0)P(\theta | x_0)的意义也很明确,x0x_0已经出现了,要求θ\theta取什么值使P(θx0)P(\theta | x_0)最大。顺带一提,P(θx0)P(\theta | x_0)即后验概率,这就是“最大后验概率估计”名字的由来。

    对于投硬币的例子来看,我们认为(”先验地知道“)θ\theta取0.5的概率很大,取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识,例如假设P(θ)P(\theta)为均值0.5,方差0.1的高斯函数,如下图:

    ptheta

    P(x0θ)P(θ)P(x_0 | \theta) P(\theta)的函数图像为:

    map1

    注意,此时函数取最大值时,θ\theta取值已向左偏移,不再是0.7。实际上,在θ=0.558\theta = 0.558时函数取得了最大值。即,用最大后验概率估计,得到θ=0.558\theta = 0.558

    最后,那要怎样才能说服一个贝叶斯派相信θ=0.7\theta = 0.7呢?你得多做点实验。。

    如果做了1000次实验,其中700次都是正面向上,这时似然函数为:

    likeli2

    如果仍然假设P(θ)P(\theta)为均值0.5,方差0.1的高斯函数,P(x0θ)P(θ)P(x_0 | \theta) P(\theta)的函数图像为:

    map2

    θ=0.696\theta = 0.696处,P(x0θ)P(θ)P(x_0 | \theta) P(\theta)取得最大值。

    这样,就算一个考虑了先验概率的贝叶斯派,也不得不承认得把θ\theta估计在0.7附近了。

    PS. 要是遇上了顽固的贝叶斯派,认为P(θ=0.5)=1P(\theta = 0.5) = 1 ,那就没得玩了。。 无论怎么做实验,使用MAP估计出来都是θ=0.5\theta = 0.5。这也说明,一个合理的先验概率假设是很重要的。(通常,先验概率能从数据中直接分析得到)

    最大似然估计和最大后验概率估计的区别

    相信读完上文,MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)P(\theta)。或者,也可以反过来,认为MLE是把先验概率P(θ)P(\theta)认为等于1,即认为θ\theta是均匀分布。


    如果有说错的或者没说清楚的地方,欢迎留言指教!如果您更好的见解,也欢迎留言交流!
    谢谢阅读!
    作者: nebulaf91

    展开全文
  • 最大似然估计和最大后验概率估计 最大似然估计 似然函数 最大似然估计 最大后验概率估计 条件概率公式 全概率公式 贝叶斯公式 先验概率 后验概率 最大后验概率估计 给定观测量x时,关于参数θ的似然函数L...

    最大似然估计和最大后验概率估计

    • 最大似然估计
      • 似然函数
      • 最大似然估计
    • 最大后验概率估计
      • 条件概率公式
      • 全概率公式
      • 贝叶斯公式
        • 先验概率
        • 后验概率
      • 最大后验概率估计

    这里写图片描述

    给定观测量x时,关于参数θ的似然函数L(θ)(在数值上)等于给定参数θ后变量x的概率:

    L(θ)=L(θ|x)=pθ=p(x|θ)=p(x;θ)

    这里写图片描述

    这里写图片描述

    这里写图片描述

    这里写图片描述

    参考:

    https://blog.csdn.net/u011508640/article/details/72815981

    https://blog.csdn.net/frozenspring/article/details/78785853

    https://www.cnblogs.com/sylvanas2012/p/5058065.html

    展开全文
  • 文章目录频率学派与贝叶斯派① 频率学派② 贝叶斯派极大似然估计与最大后验概率估计① 极大似然估计(MLE)② 最大后验概率估计(MAP) 频率学派与贝叶斯派 在说极大似然估计(Maximum Likelihood Estimate)与最大...

    频率学派与贝叶斯派

    在说极大似然估计(Maximum Likelihood Estimate)与最大后验概率估计(Maximum A Posteriori estimation)之前,不得不说对于概率看法不同的两大派别频率学派与贝叶斯派。他们看待世界的视角不同,导致他们对于产生数据的模型参数的理解也不同。

    ① 频率学派

    他们认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率。

    他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

    ② 贝叶斯派

    他们认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。 他们不试图对事件本身进行建模,而是从旁观者的角度来说。因此对于同一个事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同。
    θ是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。先验,即 P(θ) ,指的是在没有观测到任何数据时对θ的预先判断,例如给我一个硬币,一种可行的先验是认为这个硬币有很大的概率是均匀的,有较小的概率是是不均匀的;似然,即P(X|θ) ,是假设 θ已知后我们观察到的数据应该是什么样子的;后验,即 P(θ|X) ,是最终的参数分布。贝叶斯估计的基础是贝叶斯公式,如下:
    在这里插入图片描述
    他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计(MAP),这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。

    极大似然估计与最大后验概率估计

    我们这有一个任务,就是根据已知的一堆数据样本,来推测产生该数据的模型的参数,即已知数据,推测模型和参数。因此根据两大派别的不同,对于模型的参数估计方法也有两类:极大似然估计与最大后验概率估计。

    ① 极大似然估计(MLE)

    -是频率学派模型参数估计的常用方法。

    -顾名思义:似然,可以简单理解为概率、可能性,也就是说要最大化该事件发生的可能性

    -含义是根据已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率。

    • 在这举个猜黑球的例子:假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球。问拿出黑球的概率 p 是多少?

    我们假设7次黑球,3次红球为事件 A ,一个理所当然的想法就是既然事件 A已经发生了,那么事件 A 发生的概率应该最大。所以既然事件 A 的结果已定, 我们就有理由相信这不是一个偶然发生的事件,这个已发生的事件肯定一定程度上反映了黑球在整体中的比例。所以我们要让模型产生这个整体事件的概率最大,我们把这十次抽取看成一个整体事件 A ,很明显事件 A 发生的概率是每个子事件概率之积。我们把 P(A) 看成一个关于 p 的函数,求 P(A) 取最大值时的 p ,这就是极大似然估计的思想。具体公式化描述为P(A)=p7*(1-p)3。

    接下来就是取对数转换为累加,然后通过求导令式子为0来求极值,求出p的结果。
    在这里插入图片描述

    ② 最大后验概率估计(MAP)

    -她是贝叶斯派模型参数估计的常用方法。

    -顾名思义:就是最大化在给定数据样本的情况下模型参数的后验概率

    -她依然是根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,即模型参数可能满足某种分布,不再一味地依赖数据样例(万一数据量少或者数据不靠谱呢)。

    -在这里举个掷硬币的例子:抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率p。

    在频率学派来看,利用极大似然估计可以得到 p= 10 / 10 = 1.0。显然当缺乏数据时MLE可能会产生严重的偏差。

    如果我们利用极大后验概率估计来看这件事,先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么P(p|X),是一个分布,最大值会介于0.5~1之间,而不是武断的给出p= 1。

    显然,随着数据量的增加,参数分布会更倾向于向数据靠拢,先验假设的影响会越来越小。

    转自:https://www.jianshu.com/p/f9d56aeab75e

    展开全文
  • 本内容主要介绍概率论与统计学相关基础知识,主要涉及 联合概率、边缘概率和条件概率;贝叶斯公式、先验概率、后验概率...最大似然估计、最大后验概率估计和贝叶斯估计 等。为机器学习中的贝叶斯分类提供相关基础知识。

      本内容主要介绍概率论与统计学相关基础知识,主要涉及 联合概率、边缘概率和条件概率;贝叶斯公式、先验概率、后验概率和似然函数;最大似然估计、最大后验概率估计和贝叶斯估计 等。为机器学习中的贝叶斯分类提供相关基础知识。

    一、基础知识

    1.1 概率与统计

      概率论(Probability) 和 统计学(Statistics)看似两个相近的概念,其实研究的问题刚好相反。概率论 是集中研究概率及随机现象的数学分支,是研究随机性或不确定性等现象的数学。统计学 是在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。

      概率论是给定条件(已知模型和参数)下,对要发生的事件(新输入数据)的预测。统计推断是在给定数据(训练数据)下,对数据生成方式(模型和参数)的归纳总结。简单地说,概率论是已知模型和参数,推数据;统计学是已知数据,推模型和参数。概率论是统计学的数学基础,统计学是对概率论的应用

    1.2 联合概率、边缘概率和条件概率

    1.2.1 联合概率

      假设有随机变量 XXYY,此时, P(X=a,Y=b)P(X=a,Y=b) 用于表示 X=aX=aY=bY=b 的概率。这类包含多个条件且所有条件同时成立的概率称为 联合概率。我们也可以使用 P(a,b)P(a,b)P(ab)P(ab) 表示联合概率。

    1.2.2 边缘概率

      边缘概率是与联合概率对应的,P(X=a)P(X=a)P(Y=b)P(Y=b)​,这类仅与单个随机变量有关的概率称为 边缘概率

    1.2.3 条件概率

      条件概率 表示在条件 Y=bY=b 成立的情况下,X=aX=a 的概率,记作 P(X=a    Y=b)P(X=a\;| \; Y=b)。它具有如下性质:在条件 Y=bY=bXX 的条件分布,也是一种 XX 的概率分布,因此穷举 XX 的可取值之后,所有这些值对应的概率之和为 1,即 aP(X=a    Y=b)=1\sum_a P(X=a \; | \; Y=b) = 1

    1.2.4 联合概率与边缘概率的关系

    (1)P(X=a)=bP(X=a,Y=b) P(X=a) = \sum_b P(X=a, Y=b) \tag{1}

    (2)P(Y=b)=aP(X=a,Y=b) P(Y=b) = \sum_a P(X=a, Y=b) \tag{2}

    1.2.5 联合概率、边缘概率与条件概率之间的关系

    (3)P(X=a,Y=b)=P(X=a    Y=b)P(Y=b)=P(Y=b    X=a)P(X=a) \begin{aligned} P(X=a,Y=b) &= P(X=a \; | \; Y=b)P(Y=b) \\\\ &= P(Y=b \; | \; X=a)P(X=a) \end{aligned} \tag{3}

    (4)P(X=a    Y=b)=P(X=a,Y=b)P(Y=b) P(X=a \; | \; Y=b) = \frac{P(X=a, Y=b)}{P(Y=b)} \tag{4}


    1.3 全概率公式

      假设随机变量 XX​ 的所有可能取值为 (a1,a2, ,an)(a_1,a_2,\cdots,a_n)​,它们构成一个完备事件组,即它们两两互斥,其和为全集;并且 P(X=ai)P(X=a_i)​ 大于 00​,则对任意事件 Y=bY=b​

    (5)P(Y=b)=P(Y=b    X=a1)P(X=a1)++P(Y=b    X=an)P(X=an)=i=1nP(Y=b    X=ai)P(X=ai) \begin{aligned} P(Y=b) &= P(Y=b \; | \; X=a_1)P(X=a_1) + \cdots + P(Y=b \; | \; X=a_n)P(X=a_n) \\\\ &= \sum_{i=1}^{n} P(Y=b \; | \; X=a_i)P(X=a_i) \end{aligned} \tag{5}
    上面的公式称为 全概率公式。它将对复杂事件 Y=bY=b​ 的概率问题 转化为在不同情况下发生的简单事件的概率的求和问题 。

    1.4 贝叶斯公式

    (6)P(YX)=P(XY)P(Y)P(X) P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)} \tag{6}

    上面的公式称为 贝叶斯公式,也叫做 贝叶斯定理贝叶斯法则

    1.5 先验概率、后验概率和似然函数

      先验概率(Prior Probability)是指根据以往经验和分析得到的概率。

      后验概率(Posterior Probability)是指在得到 “结果” 的信息后重新修正的概率。

      在统计学中,似然函数(Likelihood Function)是一种关于统计模型参数的函数。给定输出 XX​ 时,关于参数 θ\theta​ 的似然函数 L(θX)L(\theta|X)​ (在数值上)等于给定参数 θ\theta​ 后变量 XX​ 的概率:L(θX)=P(Xθ)L(\theta|X) = P(X|\theta)​

    二、概率模型参数估计方法

      假如我们现在有一组观测数据(即数据集,样本),并且我们知道它们是从某一种分布中随机取出来的,但是我们并不知道这个分布的具体参数,即 “模型已定,参数未知”。那我们应该如何去估计参数呢?

      对于参数估计,统计学界的两个学派分别提供了不同的解决方案:频率学派 认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值;贝叶斯学派 则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。

      下面将介绍三种概率模型参数估计方法,分别为 源自频率学派的最大似然估计,以及源自贝叶斯学派的最大后验概率估计和贝叶斯估计

    2.1 最大似然估计

      最大似然估计(Maximum Likelihood Estimation,MLE,也叫极大似然估计)是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。其核心思想是:认为当前发生的事件(即观测数据)是概率最大的事件,则使得当前发生的事件发生概率最大的参数就是最好的参数。

      在最大似然估计中,认为参数为固定的值,只是其值未知;然后基于观测数据,通过最大化似然函数来求解参数。

      注意:对一个独立同分布的数据集来说,总体的似然就是每个样本似然的乘积。

    2.1.1 示例一:二项分布的最大似然估计(抛硬币)

      针对抛硬币的例子,抛 10 次的结果为:00010001000,0,0,1,0,0,0,1,0,0​,,其中正面朝上为 11​,反面朝上为 00​,求这个硬币正面朝上的概率是多大?

      我们知道每次抛硬币都是一次二项分布,设正面朝上的概率为 θ\theta​,那么似然函数为:

    (7)L(X;θ)=i=1nP(xi,θ)=i=1nθxi(1θ)1xi L(X; \theta) = \prod_{i=1}^{n} P(x_i, \theta) = \prod_{i=1}^{n}\theta^{x_i}(1-\theta)^{1-x_i} \tag{7}

    其中,正面朝上时,xi=1x_i =1​;反面朝上时,xi=0x_i=0​

      为了求解方便,我们通常会将似然函数转成对数似然函数,然后再求解(可以转成对数似然函数的主要原因是对数函数并不影响函数的凹凸性。)。则有
    (8)lnL(X;θ)=lni=1nθxi(1θ)1xi=i=1nln(θxi(1θ)1xi)=i=1n(lnθxi+ln(1θ)1xi)=i=1n(xilnθ+(1xi)ln(1θ)) \begin{aligned} \ln L(X; \theta) &= \ln \prod_{i=1}^{n}\theta^{x_i}(1-\theta)^{1-x_i} \\ &= \sum_{i=1}^{n} \ln (\theta^{x_i}(1-\theta)^{1-x_i}) \\ &= \sum_{i=1}^{n} (\ln \theta^{x_i} + \ln (1-\theta)^{1-x_i}) \\ &= \sum_{i=1}^{n} (x_i \ln \theta + (1-x_i)\ln (1-\theta)) \end{aligned} \tag{8}

    对其求导,得

    (9)θlnL(X;θ)=i=1nθ(xilnθ+(1xi)ln(1θ))=i=1nxiθlnθ+i=1n(1xi)θln(1θ)=1θi=1nxi11θi=1n(1xi) \begin{aligned} \frac{\partial}{\partial \theta} \ln L(X; \theta) &= \sum_{i=1}^{n} \frac{\partial}{\partial \theta}(x_i \ln \theta + (1-x_i)\ln (1-\theta)) \\ &= \sum_{i=1}^{n} x_i \frac{\partial}{\partial \theta} \ln \theta + \sum_{i=1}^{n} (1-x_i) \frac{\partial}{\partial \theta} \ln (1-\theta) \\ &= \frac{1}{\theta} \sum_{i=1}^{n} x_i - \frac{1}{1-\theta} \sum_{i=1}^{n} (1-x_i) \end{aligned} \tag{9}

    令导数为 00,可求得

    (10)θ^=1ni=1nxi \hat{\theta} = \frac{1}{n}\sum_{i=1}^{n} x_i \tag{10}

    将上面的观测数据代入,可求得 θ^=0.2\hat{\theta} = 0.2

    2.1.2 实例二:正态分布的最大似然估计

      假设样本服从正态分布 N (μ,σ2)N ~ (\mu, \sigma^2),则其似然函数为

    (11)L(μ,σ2)=i=1n12πσe(xiμ)22σ2 L(\mu, \sigma^2) =\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x_i - \mu)^2}{2\sigma^2}} \tag{11}

    对其求对数得

    (12)lnL(μ,σ2)=i=1nln12πσe(xiμ)22σ2=i=1nln12πσi=1n(xiμ)22σ2=i=1nln12π+i=1nln1σi=1n(xiμ)22σ2=nln12πn2lnσ212σ2i=1n(xiμ)2 \begin{aligned} \ln L(\mu, \sigma^2) &= \sum_{i=1}^{n} \ln \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x_i - \mu)^2}{2\sigma^2}} \\ &= \sum_{i=1}^{n} \ln \frac{1}{\sqrt{2\pi}\sigma} - \sum_{i=1}^{n} \frac{(x_i - \mu)^2}{2\sigma^2} \\ &= \sum_{i=1}^{n} \ln \frac{1}{\sqrt{2\pi}} + \sum_{i=1}^{n} \ln \frac{1}{\sigma} - \sum_{i=1}^{n} \frac{(x_i - \mu)^2}{2\sigma^2} \\ &= n \ln \frac{1}{\sqrt{2\pi}} - \frac{n}{2} \ln \sigma^2 - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 \end{aligned} \tag{12}

    分别对 μ\muσ2\sigma^2 求偏导,并令偏导数为 0,得

    (13){μlnL(μ,σ2)=1σ2i=1n(xiμ)=1σ2(i=1nxinμ)=0σ2lnL(μ,σ2)=n2σ2+12σ4i=1n(xiμ)2=0 \left \{ \begin{array}{cc} \begin{aligned} &\frac{\partial}{\partial \mu} \ln L(\mu, \sigma^2) =\frac{1}{\sigma^2} \sum_{i=1}^n(x_i - \mu) =\frac{1}{\sigma^2} (\sum_{i=1}^n x_i - n\mu) =0 \\\\ &\frac{\partial}{\partial \sigma^2} \ln L(\mu, \sigma^2) =-\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4}\sum_{i=1}^{n} (x_i - \mu)^2 =0 \end{aligned} \end{array} \right. \tag{13}

    求得

    (14){μ^=1ni=1nxi=xˉσ2^=1ni=1n(xixˉ)2 \left \{ \begin{array}{cc} \begin{aligned} &\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n}x_i = \bar{x} \\\\ &\hat{\sigma^2} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \end{aligned} \end{array} \right. \tag{14}

    2.1.3 求解步骤

      最大似然估计的求解步骤:

    1. 确定似然函数。

    2. 将似然函数转换为对数似然函数。

    3. 求导数,并令其为 00

    4. 求解得到模型中参数的最优值。

      极大似然估计只关注当前的观测数据,也就是只关注当前发生的事件,不考虑事件的先验情况。由于计算简单,而且不需要关注先验知识,因此在机器学习中的应用非常广,最常见的就是 Logistic 回归。

    2.2 最大后验概率估计

      在最大似然估计中,是求使似然函数最大的参数。现在问题稍微复杂一点点,假如这个参数有一个先验概率呢?比如,上面的抛硬币的例子,我们的经验告诉我们,硬币一般都是匀称的,也就是 θ=0.5\theta = 0.5 的概率最大,θ=0.2\theta = 0.2​ 的概率比较小。这个时候我们应该怎么估计参数呢?这就是 最大后验概率估计(Maximum a Posteriori Estimation,MAP)要考虑的问题。

      通过前面的介绍,我们了解到在最大似然估计中,认为参数为固定的值,只是其值未知,通过最大化似然函数来求解参数。但是在最大后验概率估计中,认为参数是一个随机变量,其本身也具有某种概率分布,称为先验分布。在求解时,除了要考虑似然函数 P(Xθ)P(X|\theta)​ 之外,还要考虑 θ\theta​ 的先验分布 P(θ)P(\theta)​,因此其认为是 P(Xθ)P(θ)P(X|\theta) P(\theta)​ 取最大值的 θ\theta​ 就是最好的 θ\theta​。此时要最大化的函数变为 P(Xθ)P(θ)P(X|\theta) P(\theta)​,由于 XX​ 的先验分布 P(X)P(X)​ 是固定的,因此最大化函数可变为 P(Xθ)P(θ)/P(X){P(X|\theta)P(\theta)} / {P(X)}​,根据贝叶斯公式可知,实际上要最大化的函数是 P(θX)P(\theta|X)​,其为 θ\theta​ 的后验概率。最大化后验概率估计可以看作是正则化的最大似然估计,当然机器学习或深度学习中的正则化通常是加法,而在最大后验概率估计中采用的是乘法,P(θ)P(\theta)​ 是正则项。在最大似然估计中,由于认为 θ\theta​ 是固定的,因此 P(θ)=1P(\theta) = 1​

    2.2.1 示例一:参数 θ\theta 的先验分布为 Beta 分布

      我们继续使用上面的抛硬币的例子,假设参数 θ\theta​ 的先验分布为 Beta 分布。则

    (15)P(Xθ)P(θ)=i=1nθxi(1θ)1xi1B(α,β)θα1(1θ)β1 P(X|\theta)P(\theta) = \prod_{i=1}^{n}\theta^{x_i}(1-\theta)^{1-x_i} \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} \tag{15}

    对其求对数得

    (16)lnP(Xθ)P(θ)=i=1nln(θxi(1θ)1xi)+ln1B(α,β)+lnθα1+ln(1θ)β1=lnθi=1nxi+ln(1θ)i=1n(1xi)lnB(α,β)+(α1)lnθ+(β1)ln(1θ) \begin{aligned} \ln P(X|\theta)P(\theta) &= \sum_{i=1}^{n} \ln \left(\theta^{x_i}(1-\theta)^{1-x_i}\right) + \ln \frac{1}{B(\alpha, \beta)} + \ln \theta^{\alpha-1} + \ln (1-\theta)^{\beta-1} \\\\ &= \ln \theta \sum_{i=1}^{n} x_i +\ln(1-\theta)\sum_{i=1}^{n} (1-x_i) \\ &\quad\quad-\ln B(\alpha, \beta) +(\alpha-1) \ln \theta +(\beta - 1) \ln (1-\theta) \end{aligned} \tag{16}

    对参数求导,得

    (17)θlnP(Xθ)P(θ)=1θi=1nxi11θi=1n(1xi)+α1θβ11θ \begin{aligned} \frac{\partial}{\partial \theta} \ln P(X|\theta)P(\theta) &= \frac{1}{\theta} \sum_{i=1}^{n} x_i -\frac{1}{1-\theta}\sum_{i=1}^{n}(1-x_i) +\frac{\alpha-1}{\theta} -\frac{\beta-1}{1-\theta} \end{aligned} \tag{17}

    令其为 00,求得

    (18)θ^=i=1nxi+α1n+α+β2 \hat{\theta} = \frac{\sum_{i=1}^{n}x_i + \alpha-1}{n+\alpha + \beta - 2} \tag{18}

      假设 Beta 分布的参数分别为 α=3\alpha=3β=3\beta = 3,将上面的观测数据代入,可求得

    (19)θ^=2+3110+3+32=414=0.2857 \hat{\theta} = \frac{2 + 3 - 1}{10 + 3 + 3 - 2} = \frac{4}{14} = 0.2857 \tag{19}

    2.2.2 求解步骤

      最大后验概率估计的求解步骤:

    1. 确定参数的先验分布以及似然函数。
    2. 确定参数的后验分布函数。
    3. 将后验分布函数转换为对数函数。
    4. 求对数函数的最大值(求导,解方程)

      最大后验概率估计不只是关注当前的观测数据,还关注已经发生过的先验知识。

      最大后验估计和最大似然估计的区别:最大后验估计允许我们把先验知识加入到估计模型中,这在样本很少的时候是很有用的(因此朴素贝叶斯在较少的样本下就能有很好的表现),因为样本很少的时候我们的观测结果很可能出现偏差,此时先验知识会把估计的结果“拉”向先验,实际的预估结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数,比如beta分布的α,β,我们还可以调节把估计的结果“拉”向先验的幅度,α,β越大,这个顶峰越尖锐。这样的参数,我们叫做预估模型的“超参数”。

    2.3 贝叶斯估计

      贝叶斯估计是最大后验概率估计的进一步扩展,贝叶斯估计同样假定参数是一个随机变量,但贝叶斯估计并不是直接估计出参数的某个特定值,而是估计参数的分布,这是贝叶斯估计与最大后验概率估计不同的地方。在贝叶斯估计中,先验分布是不可忽略的。

    待添加……

    参考:

    [1] 周志华《机器学习》
    [2] 李航《统计学习方法》
    [3] 贝叶斯估计、最大似然估计、最大后验概率估计
    [4] 最大似然估计、最大后验估计、贝叶斯估计的对比
    [5] 最大似然估计 (MLE) 最大后验概率(MAP)
    [6] 极大似然估计详解

    展开全文
  • 最大后验概率估计(MAP) Maximum a posteriori estimation
  • 贝叶斯估计、最大似然估计(MLE)、最大后验概率估计(MAP)这几个概念在机器学习和深度学习中经常碰到,读文章的时候还感觉挺明白,但独立思考时经常会傻傻分不清楚
  • 今天主要复习一下两种参数估计的统计学方法,分别是极大似然估计(MLE)和最大后验概率估计(MAP)。 问题背景 MLE MAP MLE与MAP之间的区别与联系 问题背景 以掷硬币为例。现在我们一共抛掷了10次硬币,其结果为...
  • 在博客朴素贝叶斯分类器中,对贝叶斯公式有了一个粗浅的理解,而且我们知道了贝叶斯分类器原理就是最大后验概率估计。这篇博客主要是深入理解最大似然估计、最大后验概率估计、贝叶斯公式的数学原理和它们之间的联系...
  • 极大似然估计与最大后验估计2.1 极大似然估计(MLE)2.2 最大后验概率估计(MAP)3. 经验风险最小化与结构风险最小化3.1 经验风险最小化3.2 结构风险最小化4. MLE与MAP的联系 0. 写在前面 最近复习《统计学基础》,在第...
  • 不知看过多少次极大似然估计与最大后验概率估计的区别,但还是傻傻分不清楚。或是当时道行太浅,或是当时积累不够。 这次重游机器学习之路,看到李航老师《统计学习方法》中第一章关于经验风险最小化与结构风险最小...
  • 前言不知看过多少次极大似然估计与最大后验概率估计的区别,但还是傻傻分不清楚。或是当时道行太浅,或是当时积累不够。这次重游机器学习之路,看到李航老师《统计学习方法》中第一章关于经验风险最小化与结构风险...
  • 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细...
  • 以下所有例子都是抛硬币问题,在两次试验中出现正,反两次结果,求该硬币出现正面的概率p, 最大似然估计: 假设分布为伯努利分布,也就是二项分布,出现正面的概率是p,则下次出现上述...最大后验概率估计: 我们...
  • 在机器学习领域,贝叶斯概率是经常用到的一种模型,而贝叶斯估计中,我们经常会看到两种概率估计模型,一种是最大似然估计,即 Maximum likelihood, 另外一种就是最大后验概率估计,即 Maximum posterior , 两种...
  • 本文将入门讲解3个最基本的方法:最大似然估计(Maximum Likelihood Estimation,简称MLE),最大后验概率估计(Maximum a Posteriori estimation,简称MAP),以及贝叶斯估计。 下面的所有讲解都将用到这样的一组实验...
  •  本文作者: nebulaf91 本文原始地址:http://blog.csdn.net/u011508640/article/details/72815981最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a pos...
  • 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细...
  • 不知看过多少次极大似然估计与最大后验概率估计的区别,但还是傻傻分不清楚。或是当时道行太浅,或是当时积累不够。 这次重游机器学习之路,看到李航老师《统计学习方法》中第一章关于经验风险最小化与结构风险最小...
  • 贝叶斯思想以及与最大似然估计、最大后验估计的区别 参数估计(2):极大似然,最大后验,贝叶斯推断以及最大熵 ...机器学习(二十五)— 极大似然估计(MLE)、贝叶斯估计、最大后验概率估计(MAP)区别 ...
  • 【机器学习基本理论】详解最大后验概率估计(MAP)的理解 https://mp.weixin.qq.com/s/dQxN46wEbFrpvV369uOHdA 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori...
  • 先验概率与后验概率 根本区别:概率与事件发生的先后顺序,事件发生前则为先验概率,事件发生后则为后验概率。 先验概率: 事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观...
  • 最大后验概率估计MAP则将θ看作概率分布,欲求使P(X|θ)P(θ)最大的θ。此时,不仅要求P(X|θ)要大,在参数组θ先验分布中θ出现的概率P(θ)也要大,最后求二者共同作用下的最大值。 根据贝叶斯法则+数据集中P(X)...
  • 贝叶斯估计、最大似然估计(MLE)、最大后验概率估计(MAP)这几个概念在机器学习和深度学习中经常碰到,读文章的时候还感觉挺明白,但独立思考时经常会傻傻分不清楚(????),因此希望通过本文对其进行总结。2. 背景知识...
  • 最大似然估计(MLE)和最大后验概率估计(MAP)是很常用的两种参数估计方法。下文将详细说明MLE和MAP的思路与区别。 但别急,我们先从概率和统计的区别讲起。 一、概率和统计是一个东西吗? 概率(probabilty)和...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,614
精华内容 645
关键字:

后验概率估计