精华内容
下载资源
问答
  • 最大似然估计

    2020-06-17 16:49:39
    似然与概率 在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对...这个概率只有在抛硬币之前才是有意义的,抛完硬币后

    似然与概率

    在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性,比如抛硬币,抛之前我们不知道最后是哪一面朝上,但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%,这个概率只有在抛硬币之前才是有意义的,抛完硬币后的结果便是确定的;而似然刚好相反,是在确定的结果下去推测产生这个结果的可能环境(参数),还是抛硬币的例子,假设我们随机抛掷一枚硬币1,000次,结果500次人头朝上,500次数字朝上(实际情况一般不会这么理想,这里只是举个例子),我们很容易判断这是一枚标准的硬币,两面朝上的概率均为50%,这个过程就是我们根据结果来判断这个事情本身的性质(参数),也就是似然。

    结果和参数相互对应的时候,似然和概率在数值上是相等的,如果用 θ 表示环境对应的参数,x 表示结果,那么概率可以表示为:

    P(x|θ) 
    P(x|θ) 
    是条件概率的表示方法,θ是前置条件,理解为在θ 的前提下,事件 x 发生的概率,相对应的似然可以表示为:

    这里写图片描述 
    理解为已知结果为 x ,参数为θ (似然函数里θ 是变量,这里## 标题 ##说的参数是相对与概率而言的)对应的概率,即:

    这里写图片描述 
    需要说明的是两者在数值上相等,但是意义并不相同,这里写图片描述 是关于 θ 的函数,而 P 则是关于 x 的函数,两者从不同的角度描述一件事情。

    举个例子

    以伯努利分布(Bernoulli distribution,又叫做两点分布或0-1分布)为例:

    这里写图片描述

    也可以写成以下形式: 
    这里写图片描述

    这里注意区分 f(x;p)f(x;p) 与前面的条件概率的区别,引号后的 pp 仅表示 ff 依赖于 pp 的值,pp 并不是 ff 的前置条件,而只是这个概率分布的一个参数而已,也可以省略引号后的内容:

    这里写图片描述

    对于任意的参数 pp 我们都可以画出伯努利分布的概率图,当 p=0.5p=0.5 时:

                        f(x)=0.5
    
    • 1
    • 2

    我们可以得到下面的概率密度图: 
    这里写图片描述

    从似然的角度出发,假设我们观测到的结果是 x=0.5x=0.5(即某一面朝上的概率是50%,这个结果可能是通过几千次几万次的试验得到的,总之我们现在知道这个结论),可以得到以下的似然函数: 
    这里写图片描述

    对应的图是这样的: 
    这里写图片描述

    与概率分布图不同的是,似然函数是一个(0, 1)内连续的函数,所以得到的图也是连续的,我们很容易看出似然函数的极值(也是最大值)在 p=0.5p=0.5 处得到,通常不需要做图来观察极值,令似然函数的偏导数为零即可求得极值条件。

    ps. 似然函数里的 pp 描述的是硬币的性质而非事件发生的概率(比如 p=0.5p=0.5 描述的是一枚两面均匀的硬币)。为了避免混淆,可以用其他字母来表示这个性质,如果我们用 ππ 来表示,那么似然函数就可以写成: 
    这里写图片描述

    似然函数的最大值

    似然函数的最大值意味着什么?让我们回到概率和似然的定义,概率描述的是在一定条件下某个事件发生的可能性,概率越大说明这件事情越可能会发生;而似然描述的是结果已知的情况下,该事件在不同条件下发生的可能性,似然函数的值越大说明该事件在对应的条件下发生的可能性越大。

    现在再来看看之前提到的抛硬币的例子:

    这里写图片描述

    上面的 pp (硬币的性质)就是我们说的事件发生的条件,LL 描述的是性质不同的硬币,任意一面向上概率为50% 的可能性有多大,是不是有点绕?让我们来定义 A:

    A=事件的结果=任意一面向上概率为50%

    那么 LL 描述的是性质不同的硬币,A 事件的可能性有多大,这么一说是不是清楚多了?

    在很多实际问题中,比如机器学习领域,我们更关注的是似然函数的最大值,我们需要根据已知事件来找出产生这种结果最有可能的条件,目的当然是根据这个最有可能的条件去推测未知事件的概率。在这个抛硬币的事件中,pp 可以取 [0, 1] 内的所有值,这是由硬币的性质所决定的,显而易见的是 p=0.5p=0.5 这种硬币最有可能产生我们观测到的结果。

    对数化的似然函数

    实际问题往往要比抛一次硬币复杂得多,会涉及到多个独立事件,在似然函数的表达式中通常都会出现连乘: 
    这里写图片描述

    对多项乘积的求导往往非常复杂,但是对于多项求和的求导却要简单的多,对数函数不改变原函数的单调性和极值位置,而且根据对数函数的性质可以将乘积转换为加减式,这可以大大简化求导的过程: 
    这里写图片描述

    在机器学习的公式推导中,经常能看到类似的转化。

    看到这应该不会再那么迷糊了吧~最后再来个例子:


    举个别人博客中的例子,假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?很多人马上就有答案了:70%。而其后的理论支撑是什么呢?

    我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜 色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的概率是P(Data | M),这里Data是所有的数据,M是所给出的模型,表示每次抽出来的球是白色的概率为p。如果第一抽样的结果记为x1,第二抽样的结果记为x2... 那么Data = (x1,x2,…,x100)。这样,
    
    • 1
    • 2

        P(Data | M)

         = P(x1,x2,…,x100|M)

         = P(x1|M)P(x2|M)…P(x100|M)

         = p^70(1-p)^30.

    那么p在取什么值的时候,P(Data |M)的值最大呢?将p^70(1-p)^30对p求导,并其等于零。

        70p^69(1-p)^30-p^70*30(1-p)^29=0。

        解方程可以得到p=0.7。

    在边界点p=0,1,P(Data|M)=0。所以当p=0.7时,P(Data|M)的值最大。这和我们常识中按抽样中的比例来计算的结果是一样的。

    假如我们有一组连续变量的采样值(x1,x2,…,xn),我们知道这组数据服从正态分布,标准差已知。请问这个正态分布的期望值为多少时,产生这个已有数据的概率最大?

        P(Data | M) = ?

    根据公式 
    这里写图片描述

    由上可知最大似然估计的一般求解过程:

      (1) 写出似然函数;

      (2) 对似然函数取对数,并整理;

      (3) 求导数 ;

      (4) 解似然方程

    展开全文
  • 最大似然估计(MLE) 是频率学派观点; 最大后验估计(MAP)是贝叶斯学派观点,有后验概率。 二、疑问 至今贝叶斯统计大量应用都是基于无信息先验进行的。那么贝叶斯统计还有什么意义呢,不就退化成似然估计了么? ...

    一、区别与联系

    他们的理论和方法都建立在概率论的基础上
    

    最大似然估计(MLE) 是频率学派观点;
    最大后验估计(MAP)是贝叶斯学派观点,有后验概率。

    二、疑问

    至今贝叶斯统计大量应用都是基于无信息先验进行的。那么贝叶斯统计还有什么意义呢,不就退化成似然估计了么?

    展开全文
  • 最小二乘法 最小二乘法又叫最小乘方法,很明显最小乘方法的命名...最大似然估计则是一种已知样本点,求取最符合这些样本点的函数的参数的问题,就是要让这些参数尽可能地匹配这些点。 未完待续。。。。。。。。。 ...
        

    最小二乘法
    最小二乘法又叫最小乘方法,很明显最小乘方法的命名方式要显得通俗易懂的多。其实只是一个求取线性拟合直线的问题。某种意义上来说与SVM很相似,只需要将SVM中的支持向量替换为样本中的点然后求取最小距离的二次方的乘积即可。

    最大似然估计
    最大似然估计则是一种已知样本点,求取最符合这些样本点的函数的参数的问题,就是要让这些参数尽可能地匹配这些点。

    未完待续。。。。。。。。。

    展开全文
  • 最大似然估计(MLE) 1.似然函数:L(θ|x)=P(X=x|θ) ①物理意义:某次实验,θ取不同值时,出现X=x的结果的概率; ②似然函数是参数(θ)的函数; ③似然函数是条件转移概率。例1:设一枚硬币正面朝上的概率...

    最大似然估计(MLE)
    1.似然函数:L(θ|x)=P(X=x|θ)
    ①物理意义:某次实验,θ取不同值时,出现X=x的结果的概率;
    ②似然函数是参数(θ)的函数;
    ③似然函数是条件转移概率。

    例1:设一枚硬币正面朝上的概率为p,求两次抛掷都正面朝上的似然函数。
    L(p|HH)=P(HH|p)=p*2
    可以看到,L是参数p的似然函数。当p=0.5时,L=0.25,这与实际概率相吻合。当p=1 时,L=1,这表示当这枚硬币只有正面时,出现“两次朝上”这一结果的概率为100%。

    2.最大似然估计
    原理:对某(一批)实验结果(或者说样本值)求关于参数的似然函数,并求参数取何值时,似然函数的值最大,该参数即为估计结果,该方法即为最大似然估计法。

    例1中,最大似然估计的结果为p=1

    最大后验概率估计(MAP)
    1.后验概率:P(θ|X=x)=P(X=x|θ)P(θ) / P(X=x)
    物理意义:某次实验,样本为X=x时,θ在不同取值下的概率;
    2.最大后验概率
    由于分母P(X=x)=Σi P(X=x|θi)=常数,因而后验概率P(θ|X=x)取得最大值时,分子也取得最大值,问题就变为求:使得P(X=x|θ)P(θ)取最大值的参数θ。
    可以看到,MAP要求取最大值的函数,形式上就是在MLE的似然函数基础上乘以参数的先验概率,这表示MAP除了考虑参数与样本值的联系外,还考虑了参数本身的先验概率。
    再看例1,如果用MLE对参数p进行估计,仅根据样本推断实际,得出结果“硬币只有正面”的结论;但用MAP方法时,我们首先认为“硬币只有正面”这件事情的概率是很低的,因而其后验概率也低,而P(p=0.5)的概率是最高的,因而乘上条件转移概率后,其后验概率也会比较大。

    MLE和MAP的比较
    异:
    1.MLE仅根据已有样本估计参数,MAP则根据已有样本和参数的先验概率共同估计参数;
    2.样本较少时,MAP更准确;样本比较多时,MLE更省事。
    同:
    1.MLE和MAP都是点估计;
    2.当先验等概时,两者估计结果相同。

    深度学习中softmax函数与MLE/MAP的关系
    在CS231n课程笔记(https://zhuanlan.zhihu.com/p/20945670?refer=intelligentunit)中,认为softmax的输出概率是似然函数P(P|w),使交叉熵(负对数概率)降低的最优化过程即为最大似然估计。而加上正则化损失则被比作“加上先验概率”。

    查了一些资料后谈一下我对这种比喻的理解:
    1.“正则化”与“先验概率”却有异曲同工之妙。正则化抑制不合常规的样本点(噪声),MAP中考虑先验概率则是抑制不合常规的概率事件,如例1中硬币只有正面。
    2.两者只是功能类似,但物理意义上是没有关系的。
    3.且添加正则化损失是加法,考虑先验概率是乘法。

    有关贝叶斯估计的方法,等之后再学习和总结。
    参考文章:
    http://blog.csdn.net/u011508640/article/details/72815981

    展开全文
  • 理解交叉熵和最大似然估计的关系

    千次阅读 2018-11-08 07:23:54
    理解交叉熵作为神经网络的损失函数的意义: 交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近,即拟合的更好。...这也是很多模型又采用最大似然估计作为损...
  • 对极大似然估计的理解 极大似然估计的形式: 1.离散型统计模型 表示观测值。 2.连续型统计模型 自己的理解: 似然函数的形式是理论上各事件(这个事件表示一个采样一个样本,每个样本有不同的分类)的...
  • 一维正态分布的最大似然估计

    千次阅读 2020-06-02 18:56:52
    正态分布密度函数是:  若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。当μ=0,σ2=1是,称为标准正态分布。不需要记住这个复杂的...最大似然估计量  随机变量X服从正态分布:  
  • 今天就给你们讲一个在机器学习中重要的方法——极大似然估计。这是一个,能够让你拥有拟合最大盈利函数模型的估计方法哦!现实意义在机器学习中,我们经常会使用一个模型来描述生成数据的过程。例如...
  • 矩估计和极大似然估计 矩估计基于辛钦大数定律: 当样本的容量足够大时,样本k阶距(A_k)收敛域总体k阶距(a_k) 样本的平均值去估计总体的均值(期望) 期望和均值 数学期望常称为“均值”,即“随机变量取值的平均值”...
  • Censored Weibull Distribution 最大似然估计 (结合牛顿法求解) 前言:写这篇博客是因为我前几天偶然读到一篇很有意思的文章, 然后想用自己的实验数据测试一下其分布情况,本以外是一个很简单的工作,但再简单的...
  • 交叉熵作为损失函数的实际意义,这里引用这篇博文(https://blog.csdn.net/elite666/article/details/83850786)的一句话: 交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个...
  • 对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是...在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然...
  • 极大似然估计的数学意义及例题

    千次阅读 2019-10-14 16:11:44
    最大似然估计是一种用来在给定观察数据下估计所需参数的技术。比如,如果已知人口分布遵从正太分布,但是均值和方差未知, MLE(maximum likelihood estimation)可以利用有限的样本来估计这些参数。 1.正规定义 从...
  • 1. MLE的意义:样本估计总体分布参数 假定一个事件的观测样本服从如下分布,我们如何确定总体数据的分布模型? 首先应该想到是建立线性回归模型,然而由于该变量不是正态分布的,而且是不对称的,因此不符合线性...
  • 最近恶补理论知识,发现似然估计一直都是会用,但是意义掌握的不好,梳理一下思路 意义直白点就是:已知一个结果已经发生了,推测最有可能导致结果发生的一个“原因”(参数) 举个别人博客的例子: 假如有一个...
  • 不需要记住这个复杂的公式,知道它的意义即可,在使用时可以随时查阅。  在研究正态分布时,我们认为每个样本都是等权的,因此μ是随机变量的均值,控制了曲线的位置,σ2控制了曲线的陡峭程度:   σ2越小,...
  • 前面用高数和线代做。...但是ttt本身不是独立的,ttt随着xxx的变化有一个趋势,这就是我们建模的意义,如果完全独立的话,没有任何关系,我们也没有研究的必要啊。实际上,给定www,ttt是独立的,没有此条件则不成立。
  • 在所有双射函数的意义上,最大似然估计是不变的 如果 是的最大似然估计 然后 。让 , 然后 等于 和中的似然函数 是 。由于 是的最大似然估计
  • 阅读【神经网络与机器学习】第二章的最大似然参数估计的感想。 书中具体内容请查看原文,大体内容就是讲最大似然参数估计算法,但其中有涉及到正则化。 其中的正则化项即是待估计参数W的先验概率,书中说W的先验...
  • 极大似然估计法原理就是固定样本观测值,选择参数,使最大。通俗来说,就是已知观测值请你解释这个样本空间为什么会是这样子的。那怎么解释呢?使用极大似然估计就能解释。举个栗子: 暗箱中放有n个黑白小球,我们不...
  • 对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也...在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函...
  • 在研究SoftMax交叉熵损失函数(Cross Entropy Loss Function)的时候,一种方法是从概率的角度来解释softmax cross entropy loss function的物理意义[1]。 我们再来回顾下分类器输出的Probability Map,如下: P(yi∣...
  • 对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的...在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现...
  • 最大似然函数和最小二乘法的区别和理解: 对于最小二乘法,当从模型中选择n个样本观察值时,参数的合理性要求就是让模型更好地拟合...在最大似然法中,通过选择参数,让已知数据在某种意义上最有可能出现,这个某种...
  • 最小二乘法和最大似然估计的区别和理解: 它们的原理不同 对于最小二乘法,当从模型中选择n个样本观察值时,参数的合理性要求就是让模型更好地拟合这个样本数据,就是让观察值和估计值之间的误差更小。而对于最大...
  • 1 第一个问题:最大似然估计是什么?从分类上来说属于概率论中的点估计方式。 2 由Fisher这个人才在1912年重新提出,最早提出还是数学王子高斯。不过准确的说他属于数理统计的范畴。 3 概率论和数理统计是互逆...
  • 似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确...

空空如也

空空如也

1 2 3 4
收藏数 69
精华内容 27
关键字:

最大似然估计意义