精华内容
下载资源
问答
  • 最大似然估计意义
    2021-05-05 16:34:22

    极大似然估计(Maximum Likelihood Estimate,MLE)

    这个名字就很奇怪,又拗口,一直不懂到底什么意思。

    先不讲它的原理,直接举个例子看看:


    假设有个篮子,里面装了2种球:红球和白球。

    问:随便抽一个球,抽到红球的概率是多少?

    怎么办?现在假设抽到红球的概率是 p p p,则抽到白球的概率是 1 − p 1-p 1p
    p p p 就是我们要的答案。


    为了得到 p p p 的值,有一个机灵的小伙子做了一个实验:
    他抽了10次球,每次抽完都放回去。结果是10次里面有7次是红球,有3次是白球。

    他把这次实验记为事件 A A A,则事件 A A A 发生的概率为: P ( A ) = p 7 ( 1 − p ) 3 (1) P(A) = p^7 (1-p)^3\tag{1} P(A)=p7(1p)3(1)
    既然事件 A A A 已经发生了,说明此时它发生的概率很大,即 P ( A ) P(A) P(A) 很大。
    到底有多大不用管,反正大到不能再大,也就是极大。
    怎样能让 P ( A ) P(A) P(A) 极大?需要找到合适的 p p p 值,使它极大。

    记式 (1) 为 F ( p ) F(p) F(p),则 F ( p ) = p 7 ( 1 − p ) 3 (2) F(p) = p^7 (1-p)^3\tag{2} F(p)=p7(1p)3(2)

    p p p 求导得: d F ( p ) d p = 7 p 6 ( 1 − p ) 3 − 3 p 7 ( 1 − p ) 2 \frac{\text{d}F(p)}{\text{d}p} = 7p^6(1-p)^3 - 3p^7(1-p)^2 dpdF(p)=7p6(1p)33p7(1p)2
    令导数为 0 0 0,则 7 p 6 ( 1 − p ) 3 − 3 p 7 ( 1 − p ) 2 = 0 7 p 6 ( 1 − p ) 3 = 3 p 7 ( 1 − p ) 2 7 ( 1 − p ) = 3 p 7 − 7 p = 3 p p = 0.7 \begin{aligned} 7p^6(1-p)^3 - 3p^7(1-p)^2 &= 0 \\ 7p^6(1-p)^3 &= 3p^7(1-p)^2 \\ 7(1-p) &= 3p \\ 7 - 7p &= 3p \\ p &= 0.7 \end{aligned} 7p6(1p)33p7(1p)27p6(1p)37(1p)77pp=0=3p7(1p)2=3p=3p=0.7

    惊, p p p 求出来是 0.7 0.7 0.7 0.7 0.7 0.7 就是我们要求的值!真是神奇。


    下面整理一下。

    这个例子的 F ( p ) F(p) F(p) 叫做似然函数,在这个例子里 F ( p ) = p 7 ( 1 − p ) 3 F(p) = p^7 (1-p)^3 F(p)=p7(1p)3。(不用纠结它似什么然,它就叫这名字)

    我们要找到一个对应的 p p p,使似然函数的值极大,所以就叫做极大似然估计

    用公式是这样表达的: p ^ = arg ⁡ max ⁡ p F ( p ) \hat{p} = \arg\max_p F(p) p^=argpmaxF(p)

    意思是, p p p 是函数 F ( p ) F(p) F(p) 的参数,而取到 p ^ \hat{p} p^ 的时候可以使函数 F ( p ) F(p) F(p) 的值最大。

    这是一个已知函数求其参数的过程,这个参数是使函数值最大的那个参数。

    变量上面的帽子 ^ \hat{ } ^ ,代表这个变量是估计值。 极大似然估计就是要估计它。


    求最大值的方法有很多,由于取对数后函数的单调性不变,可以对式 (2) 两边取对数: f ( p ) = ln ⁡ F ( p ) = ln ⁡ ( p 7 ( 1 − p ) 3 ) = ln ⁡ p 7 + ln ⁡ ( 1 − p ) 3 = 7 ln ⁡ p + 3 ln ⁡ ( 1 − p ) \begin{aligned} f(p) = \ln{F(p)} &= \ln{\left(p^7 (1-p)^3\right)} \\ &= \ln{p^7} + \ln{(1-p)^3} \\ &= 7\ln{p} + 3\ln{(1-p)} \end{aligned} f(p)=lnF(p)=ln(p7(1p)3)=lnp7+ln(1p)3=7lnp+3ln(1p)

    f ( p ) f(p) f(p) F ( p ) F(p) F(p) 的单调性相同,因此可以代替它来找极(最)大值。

    求一阶导: d f ( p ) d p = 7 p − 3 1 − p \frac{\text{d}f(p)}{\text{d}p} = \frac{7}{p} - \frac{3}{1-p} dpdf(p)=p71p3

    二阶导:
    d 2 f ( p ) d p 2 = − 7 p 2 − 3 ( 1 − p ) 2 \frac{\text{d}^2f(p)}{\text{d}p^2} = -\frac{7}{p^2} - \frac{3}{(1-p)^2} dp2d2f(p)=p27(1p)23

    可以看出二阶导一定是负数(那2个分母都是平方,必定大于0),因此一阶导是单调递减的,所以一阶导为 0 0 0 的点是极大值点。同时在作用域内是最大值点,解得此时 p = 0.7 p=0.7 p=0.7


    极大似然估计一般用于估计概率模型的参数。
    说的是,已知某个随机样本满足某种概率分布(但是其中具体的参数不清楚)。
    要对它的参数进行估计:通过若干次试验,观察其结果,利用结果推出参数的大概值。

    引用维基百科的介绍:
    In statistics, maximum likelihood estimation (MLE) is a method of estimating the parameters of a probability distribution by maximizing a likelihood function, so that under the assumed statistical model the observed data is most probable
    在统计学中,极大似然估计是一种通过最大化似然函数,来估计概率分布的参数的方法。

    更多相关内容
  • 极大似然估计的理解 极大似然估计的形式: 1.离散型统计模型 表示观测值。 2.连续型统计模型 自己的理解: 似然函数的形式是理论上各事件(这个事件表示一个采样一个样本,每个样本有不同的分类)的...

    对极大似然估计的理解

     

    极大似然估计的形式

    1.离散型统计模型

    表示观测值。

    2.连续型统计模型

    问题:问什么要取似然函数最大值来估算参数θ?

    自己的理解:

    似然函数的形式是理论上各事件(这个事件表示一次采样一个样本,每个样本有不同的分类)的发生概率。现在发生了的某个事件,似然函数就变成了这个样本的理论概率,而现在的采样结果代表某个事件已经确定发生了,那这个事发生的理论概率应该尽量大(在这个事件发生的理论概率中最大的那种情况),才会导致这个事件发生概率最大,所以要用极大似然函数估计。

     

    或者这么想:

    似然函数的形式是理论上各事件的发生概率。现在发生了某一事件,可以认为,这个事件是理论上概率最大的那个事件。所以使似然函数最大,也就是让现在发生的这个事件成为概率最大的事件。

     

     

    一些其他的理解:

    极大似然估计,就是基于一个基本常识的假设:现实发生的样本最有可能是整个样本空间中概率最大的。所以就假设为最大概率来进行参数估计。

     

    学过统计物理就很直观了,n次独立实验的概率就是乘法原理。而我们会倾向于认为,现实发生的事件应该就对应于理论上概率最大的那一个事件。历史上玻尔兹曼分布就是这么算出来的

     

     

    展开全文
  • 目录 1.概率模型和非概率模型 1.1 非概率模型 1.1 概率模型 2 频率学派和贝叶斯学派 2.1 频率学派 ...3. 极大似然估计 ...3.1 什么是极大似然估计 ...3.3 极大似然估计法(Maximum ...极大似然估计最大后验估计都.

    目录

    1.前言

    2 频率学派和贝叶斯学派

    2.1 频率学派

    2.2 贝叶斯学派

    3. 极大似然估计

    3.1 概率和似然

     3.2 极大似然原理及求解

     3.3 例题

    4. 最大后验估计

    4.1 最大后验估计原理

    5. 参考


    1.前言

    极大似然估计和最大后验估计都是参数的估计方法,一定要记住,它的目标是对模型的参数\LARGE \theta进行估计

    为什么一定要强调是模型参数的估计方法?

    因为实际上(有监督的)机器学习的方法在训练和测试上完成的是两件事,这两件事是先后关系,也是有区分的。

    第一件事(训练阶段):参数估计。这是一个是统计过程,根据训练数据求得模型的参数。这一阶段模型的参数\LARGE \theta是未知的,而训练的样本\LARGE (X,Y)是已知的,其中\LARGE X表示输入的训练样本、\LARGE Y表示类别(或者说概率,因此知道概率就可以进行类别划分),目标是求解\LARGE \theta,因此称为参数估计。

    第二件事(测试、推理阶段):预测,也称为概率预测。根据已经求得的模型参数\LARGE \theta来进行样本的预测。最常见的逻辑回归就是根据输入样本,来求得样本类别。在这个阶段模型的参数\LARGE \theta和输入的样本\LARGE X是已知的,而样本的类别\LARGE Y是未知的,是一个求概率的过程。

    了解在不同阶段中\LARGE \theta\LARGE X\LARGE Y的已知、未知情况,对于我们理解后面极大似然估计和最大后验估计非常有用。具体的情况将在后面详细阐述。

    2 频率学派和贝叶斯学派

    为了更通俗易懂的说明极大似然估计和最大后验估计,我们我们首先定义两个参数:

    • \LARGE \theta:表示事件发生的概率,或者产生某一事件的重要因素,是导致事件发生的原因。
    • \LARGE x或者\LARGE X:是一个随机变量,表示某一事件发生的结果,或者说我们多次实验观测到的结果。

    2.1 频率学派

    频率学派认为, 一个事件发生的概率,也就是前面我们声明的参数\LARGE \theta,虽然是未知的, 但是却是一个客观存在的固定值

    如何理解这句话呢?

    就是说事件概率是一个确定的值,当进行大量实验时,该事件出现的频率就会趋于一个稳定的值,这个值就是事件的概率。频率学派的代表算法就是极大似然估计MLE。

    这里举两个极大似然方法最经典的例子:

    例子1:抛硬币。在抛硬币的事件中,正面向上的概率P就是参数\LARGE \theta,现在我们为了求这个概率p,抛10次硬币,结果10次正面向上,那么根据极大似然方法,P就为1.0。

    例子2:简单的抓球游戏。假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球,问黑球的个数。这个黑球的个数就是参数\LARGE \theta ,基于\LARGE \theta的取值,我们多次拿取得到了7次黑球,3次红球的观测结果,即\LARGE X。根据极大似然方法,黑球的数量为10个。

    2.2 贝叶斯学派

    贝叶斯学派则认为参数\LARGE \theta也是一个随机变量, 它自身也服从一个先验分布,然后基于观测结果\LARGE X来计算后验分布, 最后通过后验概率的最大化来确定参数自身的分布。

    贝叶斯派的代表算法就是最大后验概率估计MAP,这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。

    可能有些人就会迷糊,逻辑回归就是假设服从伯努利分布,为什么采用的是概率学派的极大似然估计来求解呢?
    逻辑回归是分类的结果Y服从伯努利分布,即认为类别1出现的概率为P,相应地,类别0出现的概率就为1-P,即认为这个P的值是客观存在的,因此可以根据实验结果利用极大似然估计来求解。而贝叶斯学派认为的是概率P本身也是随机变量,服从一定的分布,而非前面的Y。

    3. 极大似然估计

    3.1 概率和似然

    在讲具体的极大似然估计前,首先来区分一下概率和似然。

    似然(likelihood)这个词其实和概率(probability)是差不多的意思,Colins字典这么解释:The likelihood of something happening is how likely it is to happen. 你把likelihood换成probability,这解释也读得通。但是在统计里面,似然函数和概率函数却是两个不同的概念(其实也很相近就是了)。

    在极大似然估计相关博文中,出现频率最高的就是这个公式:

    公式的输入分别为参数\LARGE \theta以及结果\LARGE x

    根据\LARGE \theta\LARGE x的已知或者未知的情况,该公式有两个不同的意义:

    • \LARGE \theta是已知的并且保持不变,\LARGE x是变量时,该公式描述的是在参数确定的情况下,某一事件(结果)\LARGE x出现的概率,是概率函数
    • \LARGE \theta是变量,\LARGE x是已知的并且保持不变,该公式描述的是事件(结果)在不同\LARGE \theta下出现的概率,是似然函数在后面极大似然估计中,用到的是就是似然函数。在似然的意义下,还可以写成:,即用“;”代替“|”。一般情况下为了特别的区分似然函数和概率函数,都会采用后面的写法。

     3.2 极大似然原理及求解

    最大似然估计的目的就是:利用已知的数据分布\LARGE x,反推出什么样的参数\LARGE \theta才能使我们目前观测到结果出现的概率最大。

    根据我们3.1所述,很明显就要让似然函数最大。

    这里需要解释一下为什么在2.1中我们说极大似然估计法的前提是认为参数\LARGE \theta是一个客观存在的固定值,而在3.1又说\LARGE \theta是一个变量?

    这两种说法实际上是不冲突的。因此极大似然的过程是求解\LARGE \theta的过程,虽然我们认为\LARGE \theta是固定的,但是我们还不知道它具体的取值。可以理解为,我们需要一次次输入\LARGE x来计算\LARGE \theta,只有使结果概率最大的\LARGE \theta才是最终我们需要的。在这种情况下,我们每一次计算用的都是相同的\LARGE x,即\LARGE x是已知并且保持不变,每一次计算的\LARGE \theta都不同,是变量。

    这里给出极大似然估计法在离散型和连续情况下的定义。因为我们需要每一个样本对应的似然函数都最大,因此需要将它们相乘取最大。

    求解的步骤如下:

     

     3.3 例题

    现在有一个黑箱子里面有标有1或2的球共100个,现在从中有放回的抽取10个球,结果为{1,2,2,2,1,2,1,1,2,2},估计标有1的球在黑箱子里面有多少个。

    问题的本质在于估计标号为1的球的个数,设其个数为\LARGE \theta个,那么选中标号1的球的概率 p(x=1) = \LARGE \theta/100,而实验结果我们可以得到:

                                                                                                            P = p^{4} *(1-p)^{6}

    之后对P取对数:

                                                                                              ln(p)= 4ln(p) + 6ln(1-p) 

     为了使对数值最大,求导求驻点:

                                                                                              \frac{\partial l}{\partial p} = \frac{4}{p} - \frac{6}{1-p} = \frac{4-10p}{p(1-p)}

    算出 p = 0.4,即 \LARGE \theta/100 = 0.4,那么\LARGE \theta=40

    4. 最大后验估计

    4.1 最大后验估计原理

    仍然以我们2.1举的抛硬币的例,抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率p。在频率学派来看,利用极大似然估计可以得到 p= 1.0。但是很显然,一般情况下硬币都是均匀的。可以看到,当缺乏数据时极大似然估计可能会产生严重的偏差。

    最大后验估计就可以在一定程度上解决这样的问题。

    最大后验估计依然是根据已知样本\LARGE x,通过调整模型参数\LARGE \theta使得模型能够产生该数据样本的概率最大,只不过对于参数有了一个先验假设,即模型参数可能满足某种分布,不再一味地依赖数据样例(万一数据量少或者数据不靠谱呢)。

    可以看到,最大后验估计认为\LARGE \theta也是是一个随机变量,即\LARGE \theta也具有某种分布,称为先验分布,记为。求解时除了要考虑似然函数之外,还要考虑的先验分布,认为使取最大值的才是最好的,此时要最大化的函数变为:

    由于的先验分布\LARGE P(X)是固定的(可通过分析数据获得,其实我们也不关心\LARGE X的分布,我们关心的是\LARGE \theta),因此最大化函数可变为:

    因此最终最大化,是参数\LARGE \theta的后验分布。

    如何理解\LARGE \theta的后验分布?

    在博文后验概率、全概率公式以及贝叶斯公式中,其中讲到由果求因就是后验概率。在这里我们细想一个例子: 抓球实验,因为箱子的黑球和红球的数量(\LARGE \theta)不同,因此我们才会在那么多次有放回的抽取的中得到不同的结果\LARGE X。也就是\LARGE \theta是产生我们这样一系列观测结果\LARGE X的因,从这个角度来看确实是后验概率。

    最大后验概率估计的公式表示如下:

     从上面公式可以看出,p(x|\theta )是似然函数,而p(\theta )是先验概率。对其取对数:

    通过MAP最终的式子不难看出,MAP就是多个作为因子的先验概率p(\theta )。这个p(\theta )可以是任何的概率分布,比如高斯分布。 

    5. 逻辑回归和极大似然

    到目前为止,极大似然和最大后验估计的原理都已经讲的非常明确了。

    • 极大似然估计:使似然函数最大,即最大化。由于参数\LARGE \theta是是产生这样观测结果\LARGE x的原因,因此可以简单的看成是:P(果|因)
    • 最大后验估计:使\LARGE \theta的后验概率最大,即最大化,等价于最大化似然函数乘以先验概率。后验概率可以看成是由果索因:P(因|果)

    上述情况只涉及到简单的对参数进行估计,而在实际中我们除了完成参数估计,还希望可以对未知样本进行预测。

    现在我们来看一个机器学习的典型模型——逻辑回归,公式如下。在这里\LARGE x并非前面所述的观测结果,而是输入的样本,\LARGE \theta表示逻辑回归的参数,\LARGE y表示样本的类别。

    由于逻辑回归是一个二分类模型,因此对应的判别为类别0的概率就为:

    进一步进行统一:

    之后通过极大似然的方法进行参数估计:

    这一切看起来都太丝滑了,似乎没有任何问题。但是很多博客中都将称为给定样本\LARGE x,模型判别为为类别1的后验概率。既然是后验概率,那么对应的似然函数应该\LARGE P(x|y)啊,那怎么就直接对构建似然函数了呢?

    我们从两个方面来说明一下:

    第一个方面:在概率模型的讲述中,很多都将称为是后验概率,难道这么称呼有错吗?当然没有,只不过他们都是从样本预测的角度来说明的,我们上面的公式也一样。在预测阶段,输入样本\LARGE x,经过逻辑回归后得到样本的特征,此时样本的特征是结果,根据特征来判断样本属于哪个类别,是由果索因,因此可以看成是后验概率。

    有些人可能会认为我们已知样本了特征,然后根据这些特征来求得样本的类别,是由因索果。

    这样理解是搞错了特征,类别的因果关系。因为样本是客观存在的,它不会因为我们的观测方式(特征提取的方法)而改变,各类算法提取出的特征只是样本本质的体现。
    因此实际上,样本的类别,是本质,是因,正因为有了这样的因,我们通过不同的观测(特征提取算法)才会得到不同的特征,即特征只是样本的在不同维度下体现,是果。

    第二个方面:我引用博客的一段话:

    个人认为用“因”“果”描述先验后验,不太合适。英文将先验概率P(x)描述为evidence,evidence有显性的意思在里面,如果用“显示的”“隐藏的”来描述,看是不是能顺畅点。

    似然:P(显|隐)

    后验:P(隐|显)

    这也就是我们前言所讲的,真的铺垫了很久。在逻辑回归参数估计阶段,我们输入样本\LARGE x和对应的类别\LARGE y,这时候样本\LARGE x和对应的类别\LARGE y 是已知的,是“显”,而模型的参数\LARGE \theta是未知的,是“隐”。因此这么来看,似然函数不是,也不是\LARGE P(x|y),而是\LARGE P((x,y)|\theta )。但是这个式子中\LARGE P(x,y)往往表示\LARGE x\LARGE y的联合概率分布,是不准确的,因此准确来说似然函数是\LARGE P((y|x)|\theta )。然后我们再来看一下前面似然函数的另一个写法:将’|‘变为';',因此\LARGE P((y|x)|\theta )还可以写为\LARGE P((y|x);\theta),进一步写为:\LARGE P(y|x;\theta),这也是很多博客在推导逻辑回归的极大似然函数所用到的写法。

     

    5. 参考

    监督学习的分类:判别模型与生成模型,概率模型与非概率模型、参数模型与非参数模型

    先验概率、后验概率、似然函数与机器学习中概率模型(如逻辑回归)的关系理解

    最大似然估计,最大后验估计,贝叶斯估计联系与区别

    极大似然估计与最大后验概率估计

    最大似然估计+最大后验估计+LR

    极大似然估计的理解与应用

    极大似然估计详解

    极大似然估计

    展开全文
  • 2 以前多次接触过极大似然估计,最近在看贝叶斯分类,总结如下:贝叶斯决策?0?2 ?0?2 ?0?2 ?0?2 首先来看贝叶斯分类?0?2 ?0?2 ?0?2 ?0?2 其中:p(w):为先验概率,表示在某种类别前提下,表示某事发生了,有了这个后...

    版权声明:本文为博主原创文章https://极大似然估计

    ?0?2 ?0?2 ?0?2 ?0?2 以前多次接触过极大似然估计,最近在看贝叶斯分类,总结如下:

    贝叶斯决策

    ?0?2 ?0?2 ?0?2 ?0?2 首先来看贝叶斯分类3354338c9aaa510dc0c4989f43d17d89.png

    ?0?2 ?0?2 ?0?2 ?0?2 其中:p(w):为先验概率,表示在某种类别前提下,表示某事发生了,有了这个后验概率,说明某事物属于这个类别的可能性越大?0?2 ?0?2 ?0?2 ?0?2 我们来看一个直观的例子:已知:在夏季,女性穿凉鞋的概率为2/3,问题:若你在公园中随机遇到一个穿凉鞋的人?0?2 ?0?2 ?0?2 ?0?2 从问题看,某事发生了?0?2 ?0?2 ?0?2 ?0?2 设:

    f8f8cdcb825fd07a492576ee0e0b9f5f.png

    ?0?2 ?0?2 ?0?2 ?0?2 由已知可得:

    59f310ba4ec7029031c10006233a73c5.png

    ?0?2 ?0?2 ?0?2 ?0?2 男性和女性穿凉鞋相互独立(若只考虑分类问题,的取值并不重要)。

    ?0?2 ?0?2 ?0?2 ?0?2 由贝叶斯公式算出:

    0bead7a4bb4ce5db3274d7dba11cffe2.png

    问题引出

    ?0?2 ?0?2 ?0?2 ?0?2 但是在实际问题中并不都是这样幸运的,而先验概率

    9c54e6020c32bec665a6d906df13845e.png和类条件概率(各类的总体分布)

    696a5e296778eb91665ebeeca5d73b3c.png都是未知的。根据仅有的样本数据进行分类时,然后再套用贝叶斯分类器。

    ?0?2 ?0?2 ?0?2 ?0?2 先验概率的估计较简单?0?2 ?0?2 ?0?2 ?0?2 类条件概率的估计(非常难),把估计完全未知的概率密度

    696a5e296778eb91665ebeeca5d73b3c.png转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,概率密度函数的选取很重要,在样本区域无穷时,如果模型都错了,肯定也没啥意义了。

    重要前提

    ?0?2 ?0?2 ?0?2 ?0?2 上面说到?0?2 ?0?2 ?0?2 ?0?2?0?2重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件)。

    极大似然估计

    ?0?2 ?0?2 ?0?2 ?0?2 极大似然估计的原理,如下图所示:

    045d10a6823091cd6a7ef81b8ff72aea.png

    ?0?2 ?0?2 ?0?2 ?0?2 总结起来,反推最有可能(最大概率)导致这样结果的参数值。

    ?0?2 ?0?2 ?0?2 ?0?2 原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,即:“模型已定,观察其结果,则称为极大似然估计。

    ?0?2 ?0?2 ?0?2 ?0?2 由于样本集中的样本都是独立同分布,来估计参数向量θ。记已知的样本集为:

    a3393c0550c7cfbc56b8f3487bff21d7.png

    ?0?2 ?0?2 ?0?2 ?0?2 似然函数(linkehood function):联合概率密度函数

    b8d6c28236c5c9fc0c0919502ffbdd99.png称为相对于

    8bf5e30cb984124cefc84c243ec7b25d.png的θ的似然函数。

    59d2a66732ac539b0ea19ac3a49388aa.png

    ?0?2 ?0?2 ?0?2 ?0?2 如果

    5635e0e4d51aa6972420d337524ee21e.png是参数空间中能使似然函数

    cdb129476856b6d73a10874124ac8a3d.png最大的θ值,那么

    5635e0e4d51aa6972420d337524ee21e.png就是θ的极大似然估计量。它是样本集的函数a42c49b7899a2801ff1018d063ee3eee.png

    求解极大似然函数

    ?0?2 ?0?2 ?0?2 ?0?2 ML估计:求使得出现该组样本的概率最大的θ值。

    58e00cd766004390e6d02d1535453acb.png

    ?0?2?0?2?0?2?0?2?0?2?0?2?0?2?0?2 实际中为了便于分析819339ca3dffbce2f8d918444c8e7a30.png

    01e63b81726251af3bf6641c0cd7bcff.png

    ?0?2 ?0?2 ?0?2 ?0?2 1. 未知参数只有一个(θ为标量)

    ?0?2 ?0?2 ?0?2 ?0?2 在似然函数满足连续、可微的正则条件下122bf1a6aef96f3bdbcd016d46903840.png

    ?0?2 ?0?2 ?0?2 ?0?2 2.未知参数有多个(θ为向量)

    ?0?2 ?0?2 ?0?2 ?0?2 则θ可表示为具有S个分量的未知向量:

    6125c33de41e757a0331c5cc7ca946e4.png

    ?0?2?0?2?0?2?0?2?0?2?0?2?0?2?0?2 记梯度算子:

    0ce84cdc556467c67a435fc129b8a3c4.png

    ?0?2?0?2?0?2?0?2?0?2?0?2?0?2?0?2 若似然函数满足连续可导的条件8076cec3c35d9bb9f62ddc1bc01c5d2a.png

    ?0?2?0?2?0?2?0?2?0?2?0?2?0?2?0?2 方程的解只是一个估计值,它才会接近于真实值。

    极大似然估计的例子

    ?0?2 ?0?2 ?0?2 ?0?2 例1:设样本服从正态分布

    c0c819f5e758e197f9931a49bccd3d0d.png314111bd6666a755d32c95596781a0fb.png

    ?0?2 ?0?2 ?0?2 ?0?2 它的对数:

    9458e3f5aea3f3aa195ee3b926e86a95.png

    ?0?2 ?0?2 ?0?2 ?0?2 求导6624648d68b7ac92a91d450687d22e5b.png

    ?0?2 ?0?2 ?0?2 ?0?2 联合解得:

    52c27468bbfa2afc2f2b08d29ce778af.png

    ?0?2 ?0?2 ?0?2 ?0?2 似然方程有唯一解

    a66a20b64ea97b40fd5346df15bb82ff.png:,这是因为当

    c8abe2447730dd381ec0223d1d92e9ad.png

    d9de6c444ba2d07a65d83a46e6db719d.png时。于是U和

    22b2817fa239cb451cccd6b309e81717.png的极大似然估计为

    a66a20b64ea97b40fd5346df15bb82ff.png

    ?0?2 ?0?2 ?0?2 ?0?2 例2:设样本服从均匀分布[afbd1c84021751ea0df4459fdf738063a.png

    ?0?2 ?0?2 ?0?2 ?0?2 对样本

    05cbafa24b155edda15dd4aa91504286.png

    12cee68c70ebe8d4419650164adf8ea6.png

    ?0?2 ?0?2 ?0?2 ?0?2 很显然,b)作为a和b的二元函数是不连续的,求L(a,为使L(a,b-a应该尽可能地小,否则,b)=0。类似地a不能大过

    77c58d936b36b50598ee91f1bbbd859d.png,a和b的极大似然估计:

    dda0e4880202ef395b13e7568197201d.png

    总结

    ?0?2 ?0?2 ?0?2 ?0?2 求最大似然估计量

    5635e0e4d51aa6972420d337524ee21e.png的一般步骤:

    ?0?2 ?0?2 ?0?2 ?0?2 (1)写出似然函数;

    ?0?2 ?0?2 ?0?2 ?0?2 (2)对似然函数取对数?0?2 ?0?2 ?0?2 ?0?2 (3)求导数;

    ?0?2 ?0?2 ?0?2 ?0?2 (4)解似然方程。

    ?0?2 ?0?2 ?0?2 ?0?2 最大似然估计的特点:

    ?0?2 ?0?2 ?0?2 ?0?2 1.比其他估计方法更加简单;

    ?0?2 ?0?2 ?0?2 ?0?2 2.收敛性:无偏或者渐近无偏,收敛性质会更好;

    ?0?2 ?0?2 ?0?2 ?0?2 3.如果假设的类条件概率模型正确,将导致非常差的估计结果。

    展开全文
  • 极大似然估计的数学意义及例题

    千次阅读 2019-10-14 16:11:44
    最大似然估计是一种用来在给定观察数据下估计所需参数的技术。比如,如果已知人口分布遵从正太分布,但是均值和方差未知, MLE(maximum likelihood estimation)可以利用有限的样本来估计这些参数。 1.正规定义 从...
  • 极大似然估计详解

    万次阅读 多人点赞 2017-05-28 00:55:10
     以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下: 贝叶斯决策  首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:  其中:p(w):...
  • 如何理解最大似然估计

    千次阅读 2017-11-07 19:41:25
    转载自:最大似然估计总结笔记,小编辛辛苦苦对原文进行了文字和公式的润色。 如何理解最大似然估计?1、作用在已知实验结果的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数θ\theta作为真实θ^\...
  • 理解极大似然估计(MLE)与最大后验概率估计(MAP)
  • 最大似然估计详解

    千次阅读 多人点赞 2021-06-09 11:34:28
      极大似然估计,我们也把它叫做最大似然估计(Maximum Likelihood Estimation),英文简称MLE。它是机器学习中常用的一种参数估计方法。它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定。...
  • 似然函数的意义极大似然估计

    千次阅读 2019-07-02 19:18:41
    什么是概率? 简单来说,概率是一个函数,定义域是样本空间,满足非负性,规范性,可列可加性。 严格的公理化定义如下: ...什么是先验概率,后验概率,似然?...后验概率:由果及因,后知后觉,根据...似然:由因及...
  • 最大似然估计说的就是,如果事情发生了,那必然是概率最大的。 一般来说,我们都觉得硬币是公平的,也就是“花”和“字”出现的概率是差不多的。如果我扔了100次硬币,100次出现的都是“花”。在这样的事实下,我...
  • 来源:首席数据科学家今天分享一下关于参数估计的基本概念。尤其是极大似然估计,有着重要的应用。01—参数估计的定义首先,什么是参数估计呢?之前我们其实已经了解到很多种分布类型了,比如正态分布...
  • 最大似然估计

    千次阅读 2020-09-11 23:36:18
    (2)最大似然估计的目的:我们要在参数空间中找到一个值(并且用值来表示该估计值),它能使似然函数极大化。一般来说,使似然函数的值最大的是样本的函数,记为。我们把叫做的最大似然估计量:。 (3)最大似然估计...
  • 我在概率论:参数估计里面提到了极大似然估计,不熟悉的可以看一下,本文将从贝叶斯分类的角度看极大似然估计。 在进行贝叶斯分类的时候,通常需要知道P(wi),P(x∣wi)P(w_i), P(x|w_i)P(wi​),P(x∣wi​)的值,这里...
  • 最大似然估计算法
  • 极大似然估计(Maximum likelihood estimation)

    万次阅读 多人点赞 2019-03-19 15:36:05
    极大似然估计法(the Principle of Maximum Likelihood )由高斯和费希尔(R.A.Figher)先后提出,是被使用最广泛的一种参数估计方法,该方法建立的依据是直观的最大似然原理。 总结起来,最大似然估计的目的就是...
  • 上周有读者私信我说,面试被问到了极大似然估计没回答出来,虽然网上有很多讲解,但是不大能看得懂,而且有一些疑问没有解释清楚。经过一周的撰写,今天困哥就专门整理了一篇数千字的文章,来详细介绍一下极大似然...
  • 最大似然估计(Maximum Likelihood Estimation,简称MLE)。它是机器学习中常用的一种参数估计方法。它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定。利用已知样本结果(统计概率)反推最有...
  • 熵,交叉熵,相对熵,最大似然估计,最大熵熵交叉熵相对熵(KL散度)最大似然估计最大熵 熵 熵是信息论中的概念,首先需要定义一个事件X=xX=xX=x的信息量,要求满足以下两个条件: 越不可能发生的事情,信息越 几...
  • 极大似然估计详解,写的太好了!

    万次阅读 多人点赞 2018-08-18 15:42:08
    极大似然估计  以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:   贝叶斯决策  首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:...
  • 有了这个推导我们就可以请出我们的主人公了:极大似然估计极大似然估计 设总体分布为 f ( x , θ ) f(x,\theta) f ( x , θ ) , X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X 1 ​ , X 2 ​ , ⋯ , X n ​ ...
  • 今天来学习极大似然估计这个颇为抽象的内容。 1、似然与概率的概念 二者看似相近,实则不同。在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个重要内容,在非正式场合似然和概率...
  • 极大似然估计原理解析

    万次阅读 2019-06-13 14:10:07
    本文转载自《知行流浪》的CSDN 博文,感谢牛的付出,特此收纳,以表敬意。 原文连接:https://blog.csdn.net/zengxiantao1994/article/details/72787849 贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的...
  • 在所有双射函数的意义上,最大似然估计是不变的 如果 是的最大似然估计 然后 。让 , 然后 等于 和中的似然函数 是 。由于 是的最大似然估计
  • 1. 极大似然估计 2. 估计量的评价准则,无偏性 3. 有效性,均方误差 1. 极大似然估计 极(最)大似然估计的原理介绍 假设在一个罐中放着许多白球和黑球,并假定已经知道两种球的数目之比是1:3,但不知道哪种颜色的...
  • 上一期为大家说明了什么是无监督生成模型。在无监督生成模型中,极大似然法一直扮演着非常核心的位置,我们必须对它有深刻的理解,本期小米粥将为大家讲一下极大似然法的那些事情。 ...
  • 极大似然估计

    千次阅读 2017-05-17 18:43:46
    极大似然估计

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,034
精华内容 5,213
关键字:

最大似然估计意义