精华内容
下载资源
问答
  • 极大似然估计和最大似然估计定义

    万次阅读 多人点赞 2018-01-28 18:54:39
    最近看朴素贝叶斯法,发现有关于极大似然估计部分,网上找了好久,感觉也都说不清。然后还有个最大似然估计,最要命的是我发现还有人专门对两者区别做了论述。然后我就看了下英文定义: 最大似然估计(maximum ...

    最近看朴素贝叶斯法,发现有关于极大似然估计部分,网上找了好久,感觉也都说不清。然后还有个最大似然估计,最要命的是我发现还有人专门对两者区别做了论述。然后我就看了下英文定义:

    最大似然估计(maximum likelihood estimation, MLE)

    极大似然估计方法(Maximum Likelihood Estimate,MLE)

    其实两者是一样的。

    本文源自频率主义学派的最大似然估计。

    翻看了宗成庆著的《统计自然语言处理》第二章有关于它的定义:


    因为不会在CSDN写公式,所以就先写到word,然后粘成图片,见谅


    展开全文
  • 目录 1.概率模型和非概率模型 1.1 非概率模型 1.1 概率模型 2 频率学派和贝叶斯学派 2.1 频率学派 ...3. 极大似然估计 ...3.1 什么是极大似然估计 ...3.2 极大似然原理及数学表示 ...极大似然估计和最大后验估计都.

    目录

    1.概率模型和非概率模型

    2 频率学派和贝叶斯学派

    2.1 频率学派

    2.2 贝叶斯学派

    3. 极大似然估计

    3.1 什么是极大似然估计

    3.2 极大似然原理及数学表示

    3.3 极大似然估计法(Maximum Likelihood Estimation,MLE)

    3.4 极大似然估计法求估计值的步骤

    3.5 例题

    4. 最大后验估计

    4.1 什么是最大后验估计

    4.2 最大后验估计原理及表达式

    5. 参考


    1.概率模型和非概率模型

    要介绍极大似然估计和最大后验估计,就要先从概率模型和非概率模型说起。极大似然估计和最大后验估计都是概率模型的求解方法。见博客:【机器学习】判别模型vs生成模型、概率模型vs非概率模型

    2 频率学派和贝叶斯学派

    概率模型的学习过程, 就是给定模型的条件下的参数估计过程, 长久以来, 统计学界的两个学派分别提出了各自的解决方案。

    2.1 频率学派

    频率学派认为, 参数(概率)虽然未知, 但是却是客观存在的固定值。如何理解这句话呢?就是说事件概率是确定的,所以当重复的进行实验时,结果出现的频率就会趋于一个稳定的值p,这个p就是事件的概率

    频率学派的代表算法就是极大似然估计MLE,这里常举的例子是硬币的例子,如果抛10次硬币,10次正面向上,则根据极大似然方法,P(抛硬币正面向上)就为1.0(显然,这是有一定问题的)。

    2.2 贝叶斯学派

    贝叶斯学派,参数(概率)也是随机变量, 它自身也有分布, 可以假定参数服从一个先验分布, 然后基于样本来计算后验分布, 最后通过后验概率的最大化来确定参数自身的分布。

    贝叶斯派的代表算法就是最大后验概率估计MAP,这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。

    可能有些人就会迷糊,逻辑回归就是假设服从伯努利分布,为什么采用的是概率学派的极大似然估计来求解呢?
    逻辑回归是分类的结果Y服从伯努利分布,即认为类别1出现的概率为P,相应地,类别0出现的概率就为1-P,即认为这个P的值是客观存在的,因此可以根据实验结果利用极大似然估计来求解。而贝叶斯学派认为的是概率P本身也是随机变量,服从一定的分布,而非前面的Y。

    3. 极大似然估计

    3.1 什么是极大似然估计

      在日常生活中,我们很容易无意中就使用到极大似然估计的思想,只是我们并不知道极大似然估计在数学中的如何确定以及推导的。下面我们使用两个例子让大家大概了解一下什么是极大似然估计:

    (1)猎人师傅和徒弟一同去打猎,遇到一只兔子,师傅和徒弟同时放枪,兔子被击中一枪,那么是师傅打中的,还是徒弟打中的?
    (2)一个袋子中总共有黑白两种颜色100个球,其中一种颜色90个,随机取出一个球,发现是黑球。那么是黑色球90个?还是白色球90个?

      对于第(1)个问题,由于师傅的技术一般比徒弟高,因此我们会猜测兔子是师傅打中的。对于第(2)个问题,对于颜色有90个的球,我们抽中它的概率更大,因此当抽中为黑色球时,我们便会认为90个的是黑色球。
      对于以上两个例子可以看出,我们在进行猜测时,往往认为:概率最大的事件,最可能发生,因此在一次试验中就出现的事件应当具有较大的概率。

    3.2 极大似然原理及数学表示

      极大似然原理是指:若一次试验有 n个可能结果 现在我们做一次试验,试验的结果为 Ai ,那么我们就可以认为事件 Ai在这个 n个可能结果中出现的概率最大。
      极大似然估计是指:在一次抽样中,样本出现的概率是关于参数 θ 的函数,若在一些试验中,得到观测值 ,则我们可以选取  作为 θ的估计值,使得当  时,样本出现的概率最大。而极大似然估计就是要求解出参数 θ的估计值。可采用极大似然估计法

    简言之,极大似然就是利用已知的样本分布,找到最有可能导致这种分布的参数值;或者说什么样的参数才能使我们观测到目前这组数据的概率最大

    3.3 极大似然估计法(Maximum Likelihood Estimation,MLE)

    3.4 极大似然估计法求估计值的步骤

    3.5 例题

    现在有一个黑箱子里面有标有1或2的球共100个,现在从中有放回的抽取10个球,结果为{1,2,2,2,1,2,1,1,2,2},估计标有1的球在黑箱子里面有多少个。

    问题的本质在于估计标号为1的球的个数,设其个数为theta个,那么选中标号1的球的概率 p(x=1) = theta/100,而实验结果我们可以得到:

                                                                                                            P = p^{4} *(1-p)^{6}

    之后对P取对数:

                                                                                              ln(p)= 4ln(p) + 6ln(1-p) 

     为了使对数值最大,求导求驻点:

                                                                                              \frac{\partial l}{\partial p} = \frac{4}{p} - \frac{6}{1-p} = \frac{4-10p}{p(1-p)}

    算出 p = 0.4,即 theta/100 = 0.4,那么 theta=40

    4. 最大后验估计

    4.1 什么是最大后验估计

    最大后验概率依然是根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,即模型参数可能满足某种分布,不再一味地依赖数据样例(万一数据量少或者数据不靠谱呢)。

    就如我们2.1所举的例子,抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率p。在频率学派来看,利用极大似然估计可以得到 p= 10 / 10 = 1.0。显然当缺乏数据时MLE可能会产生严重的偏差。

    如果我们利用极大后验概率估计来看这件事,先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么P(p|X),是一个分布,最大值会介于0.5~1之间,而不是武断的给出p= 1。

    4.2 最大后验估计原理及表达式

    要讲解最大后验估计,必须要知道后验概率、全概率公式以及贝叶斯公式,这里不再详述。

    MAP的基础是贝叶斯公式:

    其中,p(x|\theta )就是之前讲的似然函数,p(\theta )先验概率,是指在没有任何实验数据的时候对参数 θ的经验判断,对于一个硬币,大概率认为他是正常的,正面的概率为p(\theta) = 0.5的可能性最大。

    MAP优化的就是一个后验概率,即给定了观测值以后使后验概率最大: 

     从上面公式可以看出,p(x|\theta )是似然函数,而p(\theta )是先验概率。对其取对数:

    通过MAP最终的式子不难看出,MAP就是多个作为因子的先验概率p(\theta )。这个p(\theta )可以是任何的概率分布,比如高斯分布。 

    5. 参考

    监督学习的分类:判别模型与生成模型,概率模型与非概率模型、参数模型与非参数模型

    先验概率、后验概率、似然函数与机器学习中概率模型(如逻辑回归)的关系理解

    最大似然估计,最大后验估计,贝叶斯估计联系与区别

    极大似然估计与最大后验概率估计

    最大似然估计+最大后验估计+LR

    极大似然估计的理解与应用

    极大似然估计详解

    极大似然估计

    展开全文
  • 最小二乘,极大似然和最大后验估计的关系 problem:曲线拟合中最基本和最常用的是直线拟合。设x和y之间的函数关系由直线方程y=α+βxy=α+βxy=\alpha +\beta x确定,αα\alpha和ββ\beta分别是截距和斜率。N组...

    最小二乘,极大似然和最大后验估计的关系

    problem:曲线拟合中最基本和最常用的是直线拟合。设xy之间的函数关系由直线方程y=α+βx确定,αβ分别是截距和斜率。N组数据D={(xi,yi),i=1,2,...,N}

    a)最小二乘估计参数(Least square estimation):残差平方和χ2=i=1Nωi[yi(α+βxi)]2最小,求α,β的最小二乘估计最优值。

    b)最大似然估计参数 (maximum likelihood estimation):引入残差项ξy=α+βx+ξ ,假设ξiN(0,σ2),给出似然函数并求出和的最大似然估计最优值。

    c)最大后验估计参数(maximum a posterior estimation) 假设ξiN(0,σ2),此外对参数有先验信息α,βN(0,τ2),求出α,β的最大后验估计最优值。

    a:
    这里写图片描述

    解得:
    这里写图片描述

    b:建立似然函数L,求似然函数的极值

    1528989582380](C:\Users\Alvin Lee\Desktop\1528989582380.png)![这里写图片描述

    1528989653602](C:\Users\Alvin Lee\Desktop\1528989653602.png)![这里写图片描述

    c:在有先验信息时,似然函数变为如下:

    1528989759386](C:\Users\Alvin Lee\Desktop\1528989759386.png)![这里写图片描述

    这里写图片描述

    1528989922046](C:\Users\Alvin Lee\Desktop\1528989922046.png)![这里写图片描述

    通过上述推导,最小二乘估计是加权最小二乘估计的权重等于1时的特殊情况;

    当残差满足正态分布时,极大似然估计的结果和最小二乘的结果相同;

    极大似然估计是最大后验估计的先验概率p(θ)=1特殊形式。

    展开全文
  • 文章目录频率学派与贝叶斯派① 频率学派② 贝叶斯派极大似然估计与最大后验概率估计① 极大似然估计(MLE)② 最大后验概率估计(MAP) 频率学派与贝叶斯派 在说极大似然估计(Maximum Likelihood Estimate)与最大...

    频率学派与贝叶斯派

    在说极大似然估计(Maximum Likelihood Estimate)与最大后验概率估计(Maximum A Posteriori estimation)之前,不得不说对于概率看法不同的两大派别频率学派与贝叶斯派。他们看待世界的视角不同,导致他们对于产生数据的模型参数的理解也不同。

    ① 频率学派

    他们认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率。

    他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

    ② 贝叶斯派

    他们认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。 他们不试图对事件本身进行建模,而是从旁观者的角度来说。因此对于同一个事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同。
    θ是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。先验,即 P(θ) ,指的是在没有观测到任何数据时对θ的预先判断,例如给我一个硬币,一种可行的先验是认为这个硬币有很大的概率是均匀的,有较小的概率是是不均匀的;似然,即P(X|θ) ,是假设 θ已知后我们观察到的数据应该是什么样子的;后验,即 P(θ|X) ,是最终的参数分布。贝叶斯估计的基础是贝叶斯公式,如下:
    在这里插入图片描述
    他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计(MAP),这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。

    极大似然估计与最大后验概率估计

    我们这有一个任务,就是根据已知的一堆数据样本,来推测产生该数据的模型的参数,即已知数据,推测模型和参数。因此根据两大派别的不同,对于模型的参数估计方法也有两类:极大似然估计与最大后验概率估计。

    ① 极大似然估计(MLE)

    -是频率学派模型参数估计的常用方法。

    -顾名思义:似然,可以简单理解为概率、可能性,也就是说要最大化该事件发生的可能性

    -含义是根据已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率。

    • 在这举个猜黑球的例子:假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球。问拿出黑球的概率 p 是多少?

    我们假设7次黑球,3次红球为事件 A ,一个理所当然的想法就是既然事件 A已经发生了,那么事件 A 发生的概率应该最大。所以既然事件 A 的结果已定, 我们就有理由相信这不是一个偶然发生的事件,这个已发生的事件肯定一定程度上反映了黑球在整体中的比例。所以我们要让模型产生这个整体事件的概率最大,我们把这十次抽取看成一个整体事件 A ,很明显事件 A 发生的概率是每个子事件概率之积。我们把 P(A) 看成一个关于 p 的函数,求 P(A) 取最大值时的 p ,这就是极大似然估计的思想。具体公式化描述为P(A)=p7*(1-p)3。

    接下来就是取对数转换为累加,然后通过求导令式子为0来求极值,求出p的结果。
    在这里插入图片描述

    ② 最大后验概率估计(MAP)

    -她是贝叶斯派模型参数估计的常用方法。

    -顾名思义:就是最大化在给定数据样本的情况下模型参数的后验概率

    -她依然是根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,即模型参数可能满足某种分布,不再一味地依赖数据样例(万一数据量少或者数据不靠谱呢)。

    -在这里举个掷硬币的例子:抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率p。

    在频率学派来看,利用极大似然估计可以得到 p= 10 / 10 = 1.0。显然当缺乏数据时MLE可能会产生严重的偏差。

    如果我们利用极大后验概率估计来看这件事,先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么P(p|X),是一个分布,最大值会介于0.5~1之间,而不是武断的给出p= 1。

    显然,随着数据量的增加,参数分布会更倾向于向数据靠拢,先验假设的影响会越来越小。

    转自:https://www.jianshu.com/p/f9d56aeab75e

    展开全文
  • 极大似然估计,是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数...注意:EM算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用EM极...
  • 通过样例来讲解最大似然估计和极大似然估计以及他们的区别
  • 极大似然估计和最大后验估计

    千次阅读 2016-08-30 21:53:22
    极大似然估计和最大后验估计  说到极大似然估计,那肯定先要说一下似然函数,似然函数通常是用描述一个(或一系列)事件发生的概率来表示。把似然函数写出来,大致是这样的: L(θ|χ)=p(χ|θ)L(\theta| \chi) =...
  • 这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。 贝叶斯派 他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式...
  • 极大似然估计最大后验估计最大熵估计参考资料 参数估计(2):极大似然最大后验,贝叶斯推断以及最大熵
  • 极大似然估计和最大后验估计前言什么是估计怎么估计极大似然估计最大后验估计频率学派和贝叶斯学派总结 前言 国内有很多关于这个主题的博客, 但我都看不懂, 感觉他们在说废话. 什么是估计 线性回归, 逻辑回归, 神经...
  • 朴素贝叶斯分类算法:... 极大似然估计:https://blog.csdn.net/zengxiantao1994/article/details/72787849 极大似然估计与最大后验概率估计:https://zhuanlan.zhihu.com/p/40024110 ...
  • 1.Blog 最大似然概率后验概率的区别 最大后验概率(MAP)- maximum a posteriori
  • 一、似然函数 似然函数,是根据已知结果去推测固有性质的可能性(likelihood),是对固有性质的拟合程度,所以不能称为概率。假设是否堵车,受天气,路上的车辆的数量...二、极大似然估计 三、最大后验估计 参...
  • 极大似然估计(Maximum Likelihood Estimattion Theory)是什么?极大似然估计的本质思想是什么?为什么极大似然可以作为损失函数使用?负对数似然损失函数(Negative Log Likelihood)又是什么?交叉熵函数与最大...
  • 朴素贝叶斯没有参数估计,给堆数据直接求,属于...(1) 朴素贝叶斯是根据后验概率最大来分类的,在LR最大熵模型的时候你肯定记得“极大似然估计”,“后验概率最大极大似然”这二者有什么区别联系吗? ...
  • 极大似然估计贝叶斯最大后验是参数估计的两种最常用的手段 在说极大似然估计(Maximum Likelihood Estimate)与最大后验概率估计(Maximum A Posteriori estimation)之前,不得不说对于概率看法不同的两大派别...
  • 最近复习《统计学基础》,在第一张看到了最大似然和最大后验概率估计,突然傻了眼,一点印象都没有,然后决定这次彻底把它弄懂,本文会参考这篇博客。 1. 频率学派与贝叶斯派 在说极大似然估计(Maximum Likeli
  •  极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值...
  • 极大似然估计

    2019-05-01 10:40:02
    极大似然估计 极大似然估计是一种参数估计的方法。 先验概率是 知因求果,后验概率是 知果求因,极大似然是 知果求最可能的原因。 即它的核心思想是:找到参数 θ 的一个估计值,使得当前样本出现的可能性最大。 ...
  • 这篇文章给了我一个启发,我们可以自己用已知分布的密度函数进行组合,然后构建一个新的密度函数啦,然后用极大似然估计MLE进行估计。代码结果演示代码:#取出MASS包这中的数据data(geyser,package="MASS")head...
  • 贝叶斯估计和极大似然估计到底有何区别

    万次阅读 多人点赞 2017-03-12 21:28:00
    在开始接触最大似然估计贝叶斯估计时,大家都会有个疑问:最大似然估计贝叶斯估计二者很相似,到底有何区别?本文便来说说二者的不同之处以及推导二者使用时的数学模型!预热知识必知如何求类条件概率密度: ...
  • 1.极大似然估计 给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已知,参数未知”。例如,我们知道这个分布是正态分布,但是不知道均值方差;或者是二...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 535
精华内容 214
关键字:

极大似然和最大似然