精华内容
下载资源
问答
  • 极大似然估计详解

    万次阅读 多人点赞 2017-05-28 00:55:10
     以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下: 贝叶斯决策  首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:  其中:p(w):...

    极大似然估计

            以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:


    贝叶斯决策

            首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:


            其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下。

            我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?

            从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。

            设:

            由已知可得:

            男性和女性穿凉鞋相互独立,所以

    (若只考虑分类问题,只需要比较后验概率的大小,的取值并不重要)。

            由贝叶斯公式算出:


    问题引出

            但是在实际问题中并不都是这样幸运的,我们能获得的数据可能只有有限数目的样本数据,而先验概率和类条件概率(各类的总体分布)都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。

            先验概率的估计较简单,1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计。

            类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息;样本数据可能不多;特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是,把估计完全未知的概率密度转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。


    重要前提

            上面说到,参数估计问题只是实际问题求解过程中的一种简化方法(由于直接估计类条件概率密度函数很困难)。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设。

            重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本


    极大似然估计

            极大似然估计的原理,用一张图片来说明,如下图所示:


            总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

            原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

            由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:


            似然函数(linkehood function):联合概率密度函数称为相对于的θ的似然函数。


            如果是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量。它是样本集的函数,记作:



    求解极大似然函数

            ML估计:求使得出现该组样本的概率最大的θ值。


             实际中为了便于分析,定义了对数似然函数:


            1. 未知参数只有一个(θ为标量)

            在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:


            2.未知参数有多个(θ为向量)

            则θ可表示为具有S个分量的未知向量:


             记梯度算子:


             若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。


             方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。


    极大似然估计的例子

            例1:设样本服从正态分布,则似然函数为:


            它的对数:


            求导,得方程组:


            联合解得:


            似然方程有唯一解:,而且它一定是最大值点,这是因为当时,非负函数。于是U的极大似然估计为


            例2:设样本服从均匀分布[a, b]。则X的概率密度函数:


            对样本


            很显然,L(a,b)作为a和b的二元函数是不连续的,这时不能用导数来求解。而必须从极大似然估计的定义出发,求L(a,b)的最大值,为使L(a,b)达到最大,b-a应该尽可能地小,但b又不能小于,否则,L(a,b)=0。类似地a不能大过,因此,a和b的极大似然估计:



    总结

            求最大似然估计量的一般步骤:

            (1)写出似然函数;

            (2)对似然函数取对数,并整理;

            (3)求导数;

            (4)解似然方程。

            最大似然估计的特点:

            1.比其他估计方法更加简单;

            2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;

            3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。


    正态分布ML估计的Matlab实例:点击打开链接

    展开全文
  • 本文原始地址:最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很

    声明:本文为原创文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。
    本文作者: nebulaf91
    本文原始地址:http://blog.csdn.net/u011508640/article/details/72815981


    最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。

    但别急,我们先从概率和统计的区别讲起。

    概率和统计是一个东西吗?

    概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。

    概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

    统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

    一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

    显然,本文解释的MLE和MAP都是统计领域的问题。它们都是用来推测参数的方法。为什么会存在着两种不同方法呢? 这需要理解贝叶斯思想。我们来看看贝叶斯公式。

    贝叶斯公式到底在说什么?

    学习机器学习和模式识别的人一定都听过贝叶斯公式(Bayes’ Theorem):

    P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A) 【式1】

    贝叶斯公式看起来很简单,无非是倒了倒条件概率和联合概率的公式。

    把B展开,可以写成:

    P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ∣ A ) P ( A ) + P ( B ∣ ∼ A ) P ( ∼ A ) P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|\sim A)P(\sim A)} P(AB)=P(BA)P(A)+P(BA)P(A)P(BA)P(A) 【式2】( ∼ A \sim A A表示"非A")

    这个式子就很有意思了。

    想想这个情况。一辆汽车(或者电瓶车)的警报响了,你通常是什么反应?有小偷?撞车了? 不。。 你通常什么反应都没有。因为汽车警报响一响实在是太正常了!每天都要发生好多次。本来,汽车警报设置的功能是,出现了异常情况,需要人关注。然而,由于虚警实在是太多,人们渐渐不相信警报的功能了。

    贝叶斯公式就是在描述,你有多大把握能相信一件证据?(how much you can trust the evidence)

    我们假设响警报的目的就是想说汽车被砸了。把A计作“汽车被砸了”,B计作“警报响了”,带进贝叶斯公式里看。我们想求等式左边发生 A ∣ B A|B AB的概率,这是在说警报响了,汽车也确实被砸了。汽车被砸**引起(trigger)**警报响,即 B ∣ A B|A BA。但是,也有可能是汽车被小孩子皮球踢了一下、被行人碰了一下等其他原因(统统计作 ∼ A \sim A A),其他原因引起汽车警报响了,即 B ∣ ∼ A B|\sim A BA。那么,现在突然听见警报响了,这时汽车已经被砸了的概率是多少呢(这即是说,警报响这个证据有了,多大把握能相信它确实是在报警说汽车被砸了)?想一想,应当这样来计算。用警报响起、汽车也被砸了这事件的数量,除以响警报事件的数量(这即【式1】)。进一步展开,即警报响起、汽车也被砸了的事件的数量,除以警报响起、汽车被砸了的事件数量加上警报响起、汽车没被砸的事件数量(这即【式2】)。

    可能有点绕,请稍稍想一想。

    再思考【式2】。想让 P ( A ∣ B ) = 1 P(A|B) = 1 P(AB)=1,即警报响了,汽车一定被砸了,该怎么做呢?让$ P(B|\sim A)P(\sim A) = 0 即 可 。 很 容 易 想 清 楚 , 假 若 让 即可。很容易想清楚,假若让 P(\sim A) = 0$,即杜绝了汽车被球踢、被行人碰到等等其他所有情况,那自然,警报响了,只剩下一种可能——汽车被砸了。这即是提高了响警报这个证据的说服力。

    从这个角度总结贝叶斯公式:做判断的时候,要考虑所有的因素。 老板骂你,不一定是你把什么工作搞砸了,可能只是他今天出门前和太太吵了一架。

    再思考【式2】。观察【式2】右边的分子, P ( B ∣ A ) P(B|A) P(BA)为汽车被砸后响警报的概率。姑且仍为这是1吧。但是,若 P ( A ) P(A) P(A)很小,即汽车被砸的概率本身就很小,则 P ( B ∣ A ) P ( A ) P(B|A)P(A) P(BA)P(A)仍然很小,即【式2】右边分子仍然很小,$P(A|B) $ 还是大不起来。 这里,​ P ( A ) P(A) P(A)即是常说的先验概率,如果A的先验概率很小,就算 P ( B ∣ A ) P(B|A) P(BA)较大,可能A的后验概率 P ( A ∣ B ) P(A|B) P(AB)还是不会大(假设 P ( B ∣ ∼ A ) P ( ∼ A ) P(B|\sim A)P(\sim A) P(BA)P(A)不变的情况下)。

    从这个角度思考贝叶斯公式:一个本来就难以发生的事情,就算出现某个证据和他强烈相关,也要谨慎。证据很可能来自别的虽然不是很相关,但发生概率较高的事情。 发现刚才写的代码编译报错,可是我今天状态特别好,这语言我也很熟悉,犯错的概率很低。因此觉得是编译器出错了。 ————别,还是先再检查下自己的代码吧。

    好了好了,说了这么多,下面言归正传,说一说MLE。

    ——————不行,还得先说似然函数(likelihood function)

    似然函数

    似然(likelihood)这个词其实和概率(probability)是差不多的意思,Colins字典这么解释:The likelihood of something happening is how likely it is to happen. 你把likelihood换成probability,这解释也读得通。但是在统计里面,似然函数和概率函数却是两个不同的概念(其实也很相近就是了)。

    对于这个函数:

    P ( x ∣ θ ) P(x|\theta) P(xθ)

    输入有两个:x表示某一个具体的数据; θ \theta θ表示模型的参数。

    如果 θ \theta θ是已知确定的, x x x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。

    如果 x x x是已知确定的, θ \theta θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。

    这有点像“一菜两吃”的意思。其实这样的形式我们以前也不是没遇到过。例如,$f(x, y) = x^y , 即 , 即 ,x 的 的 y 次 方 。 如 果 次方。如果 x 是 已 知 确 定 的 ( 例 如 是已知确定的(例如 (x = 2 ) , 这 就 是 ),这就是 )f(y) = 2^y , 这 是 指 数 函 数 。 如 果 , 这是指数函数。 如果 ,y 是 已 知 确 定 的 ( 例 如 是已知确定的(例如 (y = 2 ) , 这 就 是 ),这就是 )f(x) = x^2$,这是二次函数。同一个数学形式,从不同的变量角度观察,可以有不同的名字。

    这么说应该清楚了吧? 如果还没讲清楚,别急,下文会有具体例子。

    现在真要先讲讲MLE了。。

    最大似然估计(MLE)

    假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为 θ \theta θ)各是多少?

    这是一个统计问题,回想一下,解决统计问题需要什么? 数据!

    于是我们拿这枚硬币抛了10次,得到的数据( x 0 x_0 x0)是:反正正正正反正正正反。我们想求的正面概率 θ \theta θ是模型参数,而抛硬币模型我们可以假设是 二项分布

    那么,出现实验结果$ x_0$(即反正正正正反正正正反)的似然函数是多少呢?

    f ( x 0 , θ ) = ( 1 − θ ) × θ × θ × θ × θ × ( 1 − θ ) × θ × θ × θ × ( 1 − θ ) = θ 7 ( 1 − θ ) 3 = f ( θ ) f(x_0 ,\theta) = (1-\theta)\times\theta\times\theta\times\theta\times\theta\times(1-\theta)\times\theta\times\theta\times\theta\times(1-\theta) = \theta ^ 7(1 - \theta)^3 = f(\theta) f(x0,θ)=(1θ)×θ×θ×θ×θ×(1θ)×θ×θ×θ×(1θ)=θ7(1θ)3=f(θ)

    注意,这是个只关于 θ \theta θ的函数。而最大似然估计,顾名思义,就是要最大化这个函数。我们可以画出 f ( θ ) f(\theta) f(θ)的图像:

    likeli

    可以看出,在 θ = 0.7 \theta = 0.7 θ=0.7时,似然函数取得最大值。

    这样,我们已经完成了对 θ \theta θ的最大似然估计。即,抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。(ummm…这非常直观合理,对吧?)

    且慢,一些人可能会说,硬币一般都是均匀的啊! 就算你做实验发现结果是“反正正正正反正正正反”,我也不信 θ = 0.7 \theta = 0.7 θ=0.7

    这里就包含了贝叶斯学派的思想了——要考虑先验概率。 为此,引入了最大后验概率估计。

    最大后验概率估计

    最大似然估计是求参数 θ \theta θ, 使似然函数$P(x_0 | \theta) 最 大 。 最 大 后 验 概 率 估 计 则 是 想 求 最大。最大后验概率估计则是想求 \theta 使 使 使P(x_0 | \theta) P(\theta) 最 大 。 求 得 的 最大。求得的 \theta 不 单 单 让 似 然 函 数 大 , 不单单让似然函数大, \theta$自己出现的先验概率也得大。 (这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法)

    MAP其实是在最大化 P ( θ ∣ x 0 ) = P ( x 0 ∣ θ ) P ( θ ) P ( x 0 ) P(\theta|x_0) = \frac{P(x_0|\theta)P(\theta)}{P(x_0)} P(θx0)=P(x0)P(x0θ)P(θ),不过因为 x 0 x_0 x0是确定的(即投出的“反正正正正反正正正反”), P ( x 0 ) P(x_0) P(x0)是一个已知值,所以去掉了分母 P ( x 0 ) P(x_0) P(x0)(假设“投10次硬币”是一次实验,实验做了1000次,“反正正正正反正正正反”出现了n次,则 P ( x 0 ) = n / 1000 P(x_0) = n/1000 P(x0)=n/1000。总之,这是一个可以由数据集得到的值)。最大化 P ( θ ∣ x 0 ) P(\theta | x_0) P(θx0)的意义也很明确, x 0 x_0 x0已经出现了,要求 θ \theta θ取什么值使 P ( θ ∣ x 0 ) P(\theta | x_0) P(θx0)最大。顺带一提, P ( θ ∣ x 0 ) P(\theta | x_0) P(θx0)即后验概率,这就是“最大后验概率估计”名字的由来。

    对于投硬币的例子来看,我们认为(”先验地知道“) θ \theta θ取0.5的概率很大,取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识,例如假设 P ( θ ) P(\theta) P(θ)为均值0.5,方差0.1的高斯函数,如下图:

    ptheta

    P ( x 0 ∣ θ ) P ( θ ) P(x_0 | \theta) P(\theta) P(x0θ)P(θ)的函数图像为:

    map1

    注意,此时函数取最大值时, θ \theta θ取值已向左偏移,不再是0.7。实际上,在 θ = 0.558 \theta = 0.558 θ=0.558时函数取得了最大值。即,用最大后验概率估计,得到 θ = 0.558 \theta = 0.558 θ=0.558

    最后,那要怎样才能说服一个贝叶斯派相信 θ = 0.7 \theta = 0.7 θ=0.7呢?你得多做点实验。。

    如果做了1000次实验,其中700次都是正面向上,这时似然函数为:

    likeli2

    如果仍然假设 P ( θ ) P(\theta) P(θ)为均值0.5,方差0.1的高斯函数, P ( x 0 ∣ θ ) P ( θ ) P(x_0 | \theta) P(\theta) P(x0θ)P(θ)的函数图像为:

    map2

    θ = 0.696 \theta = 0.696 θ=0.696处, P ( x 0 ∣ θ ) P ( θ ) P(x_0 | \theta) P(\theta) P(x0θ)P(θ)取得最大值。

    这样,就算一个考虑了先验概率的贝叶斯派,也不得不承认得把 θ \theta θ估计在0.7附近了。

    PS. 要是遇上了顽固的贝叶斯派,认为 P ( θ = 0.5 ) = 1 P(\theta = 0.5) = 1 P(θ=0.5)=1 ,那就没得玩了。。 无论怎么做实验,使用MAP估计出来都是 θ = 0.5 \theta = 0.5 θ=0.5。这也说明,一个合理的先验概率假设是很重要的。(通常,先验概率能从数据中直接分析得到)

    最大似然估计和最大后验概率估计的区别

    相信读完上文,MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率 P ( θ ) P(\theta) P(θ)。或者,也可以反过来,认为MLE是把先验概率 P ( θ ) P(\theta) P(θ)认为等于1,即认为 θ \theta θ是均匀分布。


    如果有说错的或者没说清楚的地方,欢迎留言指教!如果您更好的见解,也欢迎留言交流!
    谢谢阅读!
    作者: nebulaf91

    展开全文
  • 1、极大似然估计是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在一次试验中,结果A出现,则一般...

    1、极大似然估计是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。

          可以这么理解,在多次试验中,试验条件X使众多试验结果的A结果发生的概率很大,我们计算这个试验条件的相关参数。你还可以更广泛地理解,在X发生的前提下,A发生的概率很大,我们知道A发生的概率,需要求出X发生的相关参数

        极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。  

    2、求极大似然函数估计值的一般步骤:

      (1) 写出似然函数;

      (2) 对似然函数取对数,并整理;

      (3) 求导数 ;

      (4) 解似然方程

      极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。

       当然极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。

    3、

    最大似然估计法的基本思想
      最大似然估计法的思想很简单:在已经得到试验结果的情况下,我们应该寻找使这个结果出现的可能性最大的那个作为真的估计。
      我们分两种情进行分析:
      1.离散型总体 
      设为离散型随机变量,其概率分布的形式为,则样本 的概率分布为,在固定时,上式表示 取值的概率;当固定时,它是的函数,我们把它记为 并称为似然函数。似然函数的值的大小意味着该样本值出现的可能性的大小。既然已经得到了样本值,那它出现的可能性应该是大的,即似然函数的值应该是大的。因而我们选择使 达到最大值的那个作为真的估计。


      2.连续型总体
      设为连续型随机变量,其概率密度函数为为从该总体抽出的样本。因为相互独立且同分布,于是,样本的联合概率密度函数为
      ,在是固定时,它是处的 密度,它的大小与落在附近的概率的大小成正比,而当样本值固定时,它是的函数。我们仍把它记为并称为似然函数。类似于刚才的讨论,我们选择使最大的那个作为真的估计。
                 

      总之,在有了试验结果即样本值时,似然函数反映了的各个不同值导出这个结果的可能性的大小。 我们选择使达到最大值的那个作为真的估计。这种求点估计的方法就叫作最大似然法。   

      7.2.2 最大似然估计的求法
      假定现在我们已经观测到一组样本要去估计未知参数。一种直观的想法是,哪一组能数值使现在的样本出现的可能性最大,哪一组参数可能就是真正的参数,我们就要用它作为参数的估计值。这里,假定我们有一组样本.如果对参数的两组不同的值,似然函数有如下关系
       ,
      那么,从又是概率密度函数的角度来看,上式的意义就是参数使出现的可能性比参数使出现的可能性大,当然参数更像是真正的参数.这样的分析就导致了参数估计的一种方法,即用使似然函数达到最大值的点,作为未知参数的估计,这就是所谓的最大似然估计。 现在我们讨论求最大似然估计的具体方法.为简单起见,以下记,求θ的极大似然估计就归结为求的最大值点.由于对数函数是单调增函数,所以
                      (7.2.1)

     与有相同的最大值点。而在许多情况下,求的最大值点比较简单,于是,我们就将求的最大值点改为求的最大值点.对关于求导数,并命其等于零,得到方程组
              ,                           (7.2.2)
      称为似然方程组。解这个方程组,又能验证它是一个极大值点,则它必是,也就是的最大值点,即为所求的最大似然估计。大多常用的重要例子多属于这种情况。然而在一些情况下,问题比较复杂,似然方程组的解可能不唯一,这时就需要进一步判定哪一个是最大值点。
      还需要指出,若函数关于的导数不存在时,我们就无法得到似然方程组 (7.2.2),这时就必须根据最大似然估计的定义直接去的最大值点。
      在一些情况下,我们需要估计。如果分别是的最大似然估计,则称的最大似然估计。
      下面我们举一些例子来说明求最大似然估计的方法。

       7.2.1 设从正态总体抽出样本,这里未知参数为mm (注意我们把看作一个参数)。似然函数为
                       
                        =
      它的对数为
      
      似然方程组为
               
      由第一式解得
               ,               (7.2.3)
        代入第二式得
               .             (7.2.4)
      似然方程组有唯一解(),而且它一定是最大值点,这是因为当或∞时,非负函数。于是的最大似然估计为
             .         (7.2.5)
      这里,我们用大写字母表示所有涉及的样本,因为最大似然估计都是统计量,离开了具体的一次试验或观测,它们都是随机的。
      7.2.2 设总体服从参数为的泊松分布,它的分布律为
            
      有了样本之后,参数λ的似然函数为
               

      似然方程为
               
      解得
                 .
      因为的二阶导数总是负值,可见,似然函数在处达到最大值。所以,是λ的最大似然估计。
      例7.2.3 设总体上的均匀分布,求的最大似然估计。
      的概率密度函数为
             
      对样本
             

      很显然,L(ab)作为ab的二元函数是不连续的。这时我们不能用似然方程组(7.2.2)来求最大似然估计,而必须从最大似然估计的定义出发,求L(ab)的最大值。为使L(ab)达到最大,ba应该尽量地小,但b又不能小于,否则,L(ab)=0。
      类似地,a不能大过。因此,ab的最大似然估计为
             
                . 
      现在为止,我们以正态分布,泊松分布,均匀分布的参数以及事件发生的概率的估计为例子讨论了矩估计和最大似然估计。在我们所举的例子中,除了均匀分布外,两种估计都是一致的。矩估计的优点是简单,只需知道总体的矩,总体的分布形式不必知道。而最大似然估计则必须知道总体分布形式,并且在一般情况下,似然方程组的求解较复杂,往往需要在计算机上通过迭代运算才能计算出其近似解。

     

    展开全文
  • 极大似然估计

    千次阅读 2017-05-17 18:43:46
    极大似然估计

    本文摘自《机器学习》 周志华著 清华大学出版社
    本文摘自《概率论与数理统计》 陈希孺著 中国科学技术大学出版社

    极大似然估计

    定义

    设总体有分布 f(x;θ1,...,θk),X1,...,Xn 为自这个总体中抽出的样本,则样本 (X1,...,Xn) 的分布(即其概率密度函数或概率函数为)


    f(x1;θ1,...,θk)f(x2;θ1,...,θk)...f(xn;θ1,...θk),

    记为 L(x1,...,xn;θ1,...θk)
    固定 θ1,...,θk ,而看作 x1,...,xn 的函数时, L 是一个概率密度函数或概率函数。可以这样理解:若L(Y1,...,Yn;θ1,...,θk)>L(X1,...,Xn;θ1,...,θk),则在观察时出现 (Y1,...,Yn) 这个点的可能性要比出现 (X1,...,Xn) 这个点的可能性大。把这件事情反过来说,可以这样想:当已观察到 X1,...,Xn 时,若 L(X1,...,Xn;θ1,...,θk)>L(X1,...,Xn;θ1,...,θk) ,则被估计的参数 (θ1,...,θk) (θ1,...,θk) 的可能性要比它是 (θ1,...,θk) 的可能性要大。
    X1,...,Xn 固定而把 L 看做θ1,...,θk的函数时,它称为“似然函数”。这个名称的意义,可根据上述分析得到理解:这个函数对不同的 (θ1,...,θk) 取值,反映了在观察结果 (X1,...,Xn) 已知的条件下, (θ1,...,θk) 的各种值得“似然程度”。注意,这里有些像贝叶斯公式中的推理:把观察值 X1,...,Xn 看成结果,而把参数值 (θ1,...,θk) 看成是导致这个结果的原因。现已有了结果了,要反过来推算各种原因的概率。这里,参数 θ1,...,θk 有一定的值(虽然未知),并非事件或随机变量,无概率可言,于是就改用“似然”这个词。
    由上述分析就自然地导致如下的方法:应该用似然程度最大的那个点 (θ1,...,θk) ,即满足下面条件:


    L(X1,...,Xn;θ1,...,θk)=maxL(X1,...,Xn;θ1,...,θk)θ1,...,θk   1

    (θ1,...,θk) 去做 (θ1,...,θk) 的估计值,因为在已得到的样本 X1,...,Xn 的条件下,这个“看来最像”是真参数值。这个估计 (θ1,...θn) 就叫做 (θ1,...,θn) 的“极大似然估计”。如果要估计的是 g(θ1,...,θk) ,则 g(θ1,...,θn) 是它的极大似然估计。因为


    lnL=ni=1lnf(Xi;θ1,...,θk),2

    且为使 L 达到最大,只需使lnL达到最大,故在 f θ1,...,θk存在连续的偏导数时,可建立方程组(称为似然方程组):


    lnLθi=0(i=1,...,k)3

    如果这个方程组有唯一解,又能验证它是一个极大值点,则它必是使 L 达到最大的点,即最大似然估计。在几个常见的重要例子中,这一点不难验证。可是,在较复杂的场合,方程组(3)可以有不止一组解,求出这样的解很费计算,且不容易判定哪一个使L达到最大。
    有时,函数 f 并不对θ1,...,θk可导,甚至 f 本身也不连续,这是方程组(3)就没有办法应用了,必须回归到原来的定义公式(1)中。

    实例

    上面讲的内容太抽象,那砸门来个例题来看看极大似然估计是如何解决问题。
    考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(即,我们获取一个采样x1=H,x2=T,,x80=T并把正面的次数记下来,正面记为H,反面记为T).并把抛出一个正面的概率记为 p , 抛出一个反面的概率记为1p (因此,这里的p即相当于上边的θ). 假设我们抛出了49个正面,31 个反面,即49次H,31次T。假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。这三个硬币抛出正面的概率分别为p = 1 / 3, p = 1 / 2, p = 2 / 3. 这些硬币没有标记,所以我们无法知道哪个是哪个。使用最大似然估计, 通过这些试验数据(即采样数据),我们可以计算出哪个硬币的可能性最大。这个可能性函数取以下三个值中的一个:


    P(H=49,T=31 | p=13)=(8049)(13)49×(113)310.000

    P(H=49,T=31 | p=12)=(8049)(12)49×(112)310.012

    P(H=49,T=31 | p=13)=(8049)(23)49×(123)310.054

    从上面的算式可以看出, p̂ =23 时,似然函数取得最大值,为0.054。

    最大似然估计在各种分布中的运用

    正态分布

    X1,...,Xn 是从正态总体 N(μ,σ2) 中抽出的样本,则似然函数为:


    L=i=1n[(2πσ2)1exp(12σ2(Xiμ)2]) ,4

    故,


    lnL=n2ln(2π)n2lnσ212σ2i=1n(Xiμ)2

    求方程组(3)(把 σ2 作为一个整体看)。


    f(x)=lnLμ=1σ2i=1n(Xiμ)=0 , lnLσ2=n2σ2+12σ4i=1n(Xiμ)2=0

    由第一式得出,


    μ=i=1nXin=X¯ ,

    由此带入式2中,得到 σ2 的解为:


    σ2=i=1n(XiX¯)2n=m2

    我们看到: μ σ 的极大似然估计 μ σ 与其矩估计完全一样。在本例中,容易肯定 (μ,σ) 确是使似然函数 L 达到最大值得点。因为似然方程组只有唯一的根(μ,σ),而这个点不可能是 L 的极小值点。因为由L的表达式公式(4)可知,当 μ σ20 时, L 趋向于0,而L在每个点出都大于0。以下几个例子类似。

    指数分布

    X1,...,Xn 是从指数分布总体中抽出的样本,求参数 λ 的极大似然估计。有


    L=i=1n(λeλXi) ,

    故,


    lnL=nlnλλi=1nXi ,

    解方程,


    lnLλ=nλi=1nXi=0 ,

    λ 的极大似然估计为


    λ=ni=1nXi=1X ,

    仍与其矩估计一样。但是在这里,极大似然估计只有一个。

    均匀分布

    Xi,...,Xn 是从均匀分布 R(0,θ) 的总体中抽出的样本,求 θ 的极大似然估计。
    0<Xi<θ 时, Xi 的密度函数为 1θ ,此外为0。故似然函数 L


    L={θn ,0<Xi<θ0 ,     

    对固定的 X1,...,Xn ,此函数为 θ 的间断函数,故无法使用似然方程。但此例不难直接使用定义公式(1)去解决:为使 L 达到最大,θ必须尽量小,但不能太小以致 L 为0。这个界线就在θ=max(X1,...,Xn)处:当 θθ 时, L 大于0且为θn;当 θ<θ 时, L 为0。故唯一使L达到最大值的 θ 值,即 θ 的极大似然估计,为 θ
    如果使用矩阵法,则因总体分布的均值为 θ2 θ 的矩估计为 θ̂ =2X

    柯西分布

    设总体分布有密度函数


    f(x,θ)=1π[1+(xθ2)](<x<)5

    这个分布包含一个参数 θ θ 可取任何实数值。这个分布叫做柯西分布,其密度作为 x 的函数,关于θ对称。故 θ 是这个分布的中位数。
    现设 X1,...,XN 为自这个总体中抽出的样本,要估计 θ 。由于


    i=1nXiθ1+(Xiθ)2=0,

    这个方程有很多根,且求根不容易。因此,对本例而言,极大似然估计法也不是理想的方法。
    为估计参数 θ ,有一个简答易行但考来合理的方法可用。这个方法基于 θ 是总体分布的中位数这个事实。既然如此,我们就要设法在样本 X1,...,Xn 中找到一种对应于中位数的东西。这个思想其实在矩估计法中已经使用过了,因为总体矩在样本中对应物就是样本矩。
    现在把 X1,...,Xn 按由小到大顺序排成一列,得:


    X(1)X(2) ... X(n) ,     公式(6)

    它们称为次序统计量。既然中位数是“居中”的意思,我们就在样本中找到居中者:


    m̂ =X(n+1)2 ,nX(n2)+X(n2+1)/ 2 ,n

    n 为奇数的时候,有一个居中者,为X((n+1)2);当 n 为偶数,就没有一个居中者,那就把最居中的两个平均,这样定义的m̂ 叫做“样本中位数”。我们就拿 m̂  作为 θ 的估计。
    就正态总体 N(μ,σ2) 而言, μ 也是总体的中位数,故 μ 也可以用样本的中位数去估计。从这些例子中,我们看出一点:统计推断问题,往往可以从许多看来都合理的途径去考虑,并无一成不变的方法,不同解固然有优劣之分,但这种优劣也是相对于一定的准则而言,并无绝对的价值。下述情况也并非不常见:估计甲在某一准则下优于乙,而乙又在另一准则下优于甲。

    注意

    需要注意的是,这种参数变化的方法虽能使类条件使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中,欲做出能较好接近潜在真实分布的假设,往往需在一定程度上利用关于应用任务本身的经验知识,否则若仅凭“猜测”来假设概率分布形式,很可能产生误导性的结果。

    展开全文
  • 图解极大似然估计

    2019-11-27 22:42:50
    极大似然估计**是神经网络和很多复杂模型得以优化求解的理论基础, 我们今天来学习并试着深入理解极大似然估计的原理和推导, 最后我们对极大似然估计进行3D可视化, 建立一种直观的认识. 要理解极大似然估计是什么, ...
  • 极大似然估计详解,写的太好了!

    万次阅读 多人点赞 2018-08-18 15:42:08
    极大似然估计  以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:   贝叶斯决策  首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:...
  • 最大似然估计

    2019-09-17 15:03:35
    极大似然估计 以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下: 贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: ...
  • 似然与极大似然估计

    2019-08-24 18:30:27
    2极大似然估计 2.1什么是极大似然估计 2.2极大似然原理及数学表示 2.3极大似然估计法(Maximum Likelihood Estimation,MLE) 2.3.1总体X为离散型 2.3.2总体X为连续型 2.4极大似然估计法求估计值 3极大似然估计...
  • 极大似然估计的理解 极大似然估计的形式: 1.离散型统计模型 表示观测值。 2.连续型统计模型 自己的理解: 似然函数的形式是理论上各事件(这个事件表示一个采样一个样本,每个样本有不同的分类)的...
  • 转载 极大似然估计

    2018-10-11 15:50:41
     以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:   贝叶斯决策  首先来看贝叶斯分类,我们都知道经典的贝叶...
  • 最大似然估计详解

    2021-06-09 11:34:28
      极大似然估计,我们也把它叫做最大似然估计(Maximum Likelihood Estimation),英文简称MLE。它是机器学习中常用的一种参数估计方法。它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定。...
  • 极大似然估计的数学意义及例题

    千次阅读 2019-10-14 16:11:44
    最大似然估计是一种用来在给定观察数据下估计所需参数的技术。比如,如果已知人口分布遵从正太分布,但是均值和方差未知, MLE(maximum likelihood estimation)可以利用有限的样本来估计这些参数。 1.正规定义 从...
  • 极大似然估计与贝叶斯估计

    万次阅读 多人点赞 2016-10-11 14:04:58
    极大似然估计与贝叶斯估计是统计中两种对模型的参数确定的方法,两种参数估计方法使用不同的思想。前者来自于频率派,认为参数是固定的,我们要做的事情就是根据已经掌握的数据来估计这个参数;而后者属于贝叶斯派,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,614
精华内容 4,645
关键字:

最大似然估计意义