精华内容
下载资源
问答
  • 对极大似然估计的理解 极大似然估计的形式: 1.离散型统计模型 表示观测值。 2.连续型统计模型 自己的理解似然函数的形式是理论上各事件(这个事件表示一个采样一个样本,每个样本有不同的分类)的...

    对极大似然估计的理解

     

    极大似然估计的形式

    1.离散型统计模型

    表示观测值。

    2.连续型统计模型

    问题:问什么要取似然函数最大值来估算参数θ?

    自己的理解:

    似然函数的形式是理论上各事件(这个事件表示一次采样一个样本,每个样本有不同的分类)的发生概率。现在发生了的某个事件,似然函数就变成了这个样本的理论概率,而现在的采样结果代表某个事件已经确定发生了,那这个事发生的理论概率应该尽量大(在这个事件发生的理论概率中最大的那种情况),才会导致这个事件发生概率最大,所以要用极大似然函数估计。

     

    或者这么想:

    似然函数的形式是理论上各事件的发生概率。现在发生了某一事件,可以认为,这个事件是理论上概率最大的那个事件。所以使似然函数最大,也就是让现在发生的这个事件成为概率最大的事件。

     

     

    一些其他的理解:

    极大似然估计,就是基于一个基本常识的假设:现实发生的样本最有可能是整个样本空间中概率最大的。所以就假设为最大概率来进行参数估计。

     

    学过统计物理就很直观了,n次独立实验的概率就是乘法原理。而我们会倾向于认为,现实发生的事件应该就对应于理论上概率最大的那一个事件。历史上玻尔兹曼分布就是这么算出来的

     

     

    展开全文
  • 极大似然函数 对于L(θ|x)=f(x|θ)这个等式表示是对于事件发生两种角度看法。其实等式两遍都是表示这个事件发生概率或者说可能性。再给定一个样本x后,我们去想这个样本出现可能性到底是多大。统计学...

    概率

    对概率p(xw)p(x|w)是描述固定参数w时,随机变量x的分布情况。

    极大似然函数

    对于L(θ|x)=f(x|θ)这个等式表示的是对于事件发生的两种角度的看法。其实等式两遍都是表示的这个事件发生的概率或者说可能性。再给定一个样本x后,我们去想这个样本出现的可能性到底是多大。统计学的观点始终是认为样本的出现是基于一个分布的。那么我们去假设这个分布为f,里面有参数theta。对于不同的theta,样本的分布不一样。f(x|θ)表示的就是在给定参数theta的情况下,x出现的可能性多大。L(θ|x)表示的是在给定样本x的时候,哪个参数theta使得x出现的可能性最大。

    例子

    对于投硬币来说,我们已知概率正反面分别为0.5,那么假设投硬币投10次那么概率p(x1,x2,.....x10p=0.5)=11024p(x_1,x_2,.....x_{10}|p=0.5)=\frac{1}{1024},这是对于概率来说的。
    那么对于极大似然函数来说,我们知道结果满足伯努利分布,假设具体的p值我们不知道,我们只知道从该分布取样得到的
    PPNNPNPPPP的一组样本,p代表正面,N代表反面,因为我们只知道这组样本,那么极大似然的思想就是求得使这组样本得到概率最大的对应的p。那么L(θ|x)=f(x|θ)=p*p*(1-p)*(1-p)*p*(1-p)*p*p*p*p=p7(1p)3p^7(1-p)3,对于这个例子来说p=0.5的时候,概率等于11024\frac{1}{1024},但是这个时候概率有更大的值,已知当p=0.7的时候概率最大。但是要知道,我们只取了一组样本,当样本足够大的时候,可以得出p=0.5的时候,概率最大,这与上文我们已知p=0.5一致。

    展开全文
  • 参数估计(parameter estimation) 统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。...举例来说,一堆离散的样本点,需要拟合,拟合出的函数的w系数,即是反推的参数值。 这点便是...

    参数估计(parameter estimation)

    统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。

    参数估计的目的

    利用样本的已知信息,反推样本的具体环境,即反推参数值。
    举例来说,一堆离散的样本点,需要拟合,拟合出的函数的w系数,即是反推的参数值。
    这点便是机器学习方法中的精髓。

    极大似然估计的的方法

    利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
    极大似然原理最简单的理解就是:样本所展现的状态便是所有可能状态中出现概率最大的状态。

    即在样本x条件下,对参数theta的估计
    多数情况下我们是根据已知条件来推算结果,而极大似然估计是已经知道了结果,然后寻求使该结果出现的可能性最大的条件,以此作为估计值。
    举例来说,小明长得像A,长得不像B,因此我们在现有的条件下,可以推断小明与A有血缘关系,这便是极大似然估计的一个粗暴理解。

    在机器学习中,极大似然估计便是经验风险最小化的一个例子。当模型是条件概率分布式且损失函数是对数损失函数是,经验风险最小化就等价于极大似然估计;同样的,极大似然估计也是逻辑回归(logistic regression)的本质。

    更多内容访问omegaxyz.com
    网站所有代码采用Apache 2.0授权
    网站文章采用知识共享许可协议BY-NC-SA4.0授权
    © 2019 • OmegaXYZ-版权所有 转载请注明出处

    展开全文
  • 论及本质,其实两者只是用不同度量空间来进行投影,如同 @颢卿 答案所提到那样,OLS度量是L2 norm distance,而极大似然的度量是Kullback-Leibler divergence.不过这种高度抽象统一框架,主要功能就是让...

    谢邀,这个问题下的答案很多是直接从机器学习领域过来回答的,很有启发性,让我了解了在别的领域是如何理解这两种方法的。论及本质,其实两者只是用不同的度量空间来进行的投影,如同 @颢卿 的答案所提到的那样,OLS的度量是L2 norm distance,而极大似然的度量是Kullback-Leibler divergence.

    不过这种高度抽象的统一框架,主要功能就是让人听起来很优雅很爽,满足了人对形式美的追求,缺点也很明显:不在概率论方面下一些功夫不太能真正理解

    无法直接拿过来应用

    所以在大多数情况下,我们介绍这两种方法的时候,可能并不需要讲解这么抽象的东西。好,下面我们开始说人话^_^

    设想一个例子,教育程度和工资之间的关系。我们观察到的数据无非就是一个教育程度,对应着一个工资。我们希望的自然是找到两者之间的规律:如果把教育程度的初中、高中、大学、研究生及博士定义为1234的话,我们希望找到类似于工资=1000 +2000x教育程度 的这种规律,其中1000和2000是我们需要从数据里面发现的,前者称之为底薪,后者称之为教育增量薪水。

    如果我们就观察到两个数据,那解起来很简单,直接把两个数据带进去,二元一次方程组,就得到底薪和教育程度增量薪水之间的关系。这个在图上就体现为两点决定一条直线:

    但是如果现在有三个数据,怎么办呢?如果这三个点不在一条线上,我们就需要作出取舍了,如果我们取任意两个点,那么就没有好好的利用第三个点带来的新信息,并且因为这三个点在数据中的地位相同,我们如何来断定应该选用哪两个点来作为我们的基准呢?这就都是问题了。这个时候我们最直观的想法就是『折衷』一下,在这三个数据,三条线中间取得某种平衡作为我们的最终结果,类似于图中的红线这样:

    那怎么取平衡呢?那我们现在必须引入误差的存在,也就是我们要承认观测到的数据中有一些因素是不可知的,不能完全的被学历所解释。而这个不能解释的程度,自然就是每个点到红线在Y轴的距离。

    但是我们尽管痛苦的承认了有不能解释的因素,但是我们依然想尽可能的让这种『不被解释』的程度最小,于是我们就想最小化这种不被解释的程度。因为点可能在线的上面或者下面,故而距离有正有负,取绝对值又太麻烦,于是我们就直接把每个距离都取一个平方变成正的,然后试图找出一个距离所有点的距离的平方最小的这条线,这就是最小二乘法了,简单粗暴而有效。

    而极大似然则更加的有哲理一些。还用上面的例子,我们观察到了三个点,于是我们开始反思,为什么我们观察到的是这三个点而不是另外三个?大千世界,芸芸众生,这么多人都有不同的工资,不同的学历,但是偏偏这三个点让我给观察到了。这肯定说明了某种世界的真相。

    什么世界的真相呢?因为我们观察到了这三个点,反过来说,冥冥之中注定了这三个点被我们观察到的概率可能是最大的。所以我们希望找到一个特定的底薪和教育增量薪水的组合,让我们观察到这三个点的概率最大,这个找的过程就是极大似然估计。

    具体的做法很简单,因为底薪和教育增量薪水虽然我们不知道,但是它一定存在,所以是个固定的值,能够随机变动的就是我们观察不到的神秘误差,那么给定一组底薪和教育增量薪水,必然存在一个唯一的误差与之对应,共同组合成了我们看到的数据。比如说,我们观察到一个人是:

    高中毕业(学历变量=2) 工资 4500,如果我们假定工资=1000 +2000x教育程度的话,那么理论上工资应该是5000,而我们观察到了4500,所以这个时候误差为500。而误差=500,根据我们假设的误差的概率函数,总是存在一个概率与之相对应的(这个概率的分布我们可以假设)。而极大似然估计,就是把我们观察到每个样本所对应的误差的概率乘到一起,然后试图调整参数以最大化这个概率的乘积。

    其背后的直觉是:假想有一个神秘的超自然力量,他全知全能,自然也知道真实的数据背后的规律。他在你抽样之前先做了一次复杂的计算,把无数个可能的抽样中,最可能出现的那个抽样展示给你。于是你根据这个抽样,逆流而上,倒推出来了数据背后的真实规律。

    总结一句话,最小二乘法的核心是权衡,因为你要在很多条线中间选择,选择出距离所有的点之和最短的;而极大似然的核心是自恋,要相信自己是天选之子,自己看到的,就是冥冥之中最接近真相的。^_^

    展开全文
  • 极大似然估计个人理解 极大似然估计属于频率派统计。 极大似然估计理解: 给定一组样本,分布进行估计。 拿正态分布来说:上帝(知道正态分布里真正的的μ和θ比如μ=0,θ=0.4)从这个分布里拿出N个样本点...
  • 先验概率、后验概率、贝叶斯、似然函数极大似然估计概述先验概率后验概率贝叶斯公式似然函数极大似然估计 概述 因为笔者这些的概念跟联系老是分不太清楚,为了加深自己的理解,只好写下这篇博客,以便后续翻阅。...
  • 极大似然估计就是估计某个参数支持这个分布。这样某个函数的参数的求值就转化为求似然函数最大时对应的的参数值。接下来是如何求似然函数最大时对应的参数值。如果这里的似然函数是个凸函数,就可以用凸函数的优化...
  • 对似然函数取对数,并整理 求导数 解似然方程。 最大似然估计特点: 1) 比其他估计方法更加简单 2)收敛性:无偏或者渐进无偏,当样本数目增加时,收敛性质会更好 3)如果假设类条件概率模型正确,则通常能...
  • 极大似然估计直观理解 先来看看维基百科关于“似然函数定义: 在数理统计学中,似然函数是一种关于统计模型中参数函数,表示模型参数中似然性。似然函数在统计推断中有重大作用,如在最大似然估计和...
  • 首先我们不要你这个名称吓到,极大似然估计我们可以理解为一种通过最大化似然函数概率分布中参数进行估计方法,目的是估计概率分布中参数,方法是最大化似然函数,这样是不是就很好理解了。 想要了解极大...
  • 图解极大似然估计

    2019-11-27 22:42:50
    极大似然估计**是神经网络和很多复杂模型得以优化求解理论基础, 我们今天来学习并试着深入理解极大似然估计原理和推导, 最后我们对极大似然估计进行3D可视化, 建立一种直观认识. 要理解极大似然估计是什么, ...
  • 1.极大似然估计(也称最大似然估计) 模型和观察数据X已知,模型参数未知。假设所有采样都是独立同分布,得到让观察样本出现概率最大参数。 最大似然估计: 求最大似然函数估计值一般步骤: (1)...
  • 1,通过学习理解极大似然估计是在”模型已知,参数未知“情况下,利用采样得到数据(即类似现实中一些数据进行人工记录下来,得到一组已知观测数据),在假设模型中训练,将使似然函数取最大值时参数...
  • 极大似然估计(加实例推导)

    千次阅读 2018-04-14 23:18:23
    极大似然估计: 已知X是离散型随机变量,可能取值有0,1, 2。对应概率为: 这里X更具体解释话,可以理解为抛两次硬币,正面记1,反面记0,结果累加,只不过这里硬币特殊,抛到反面概率是θ。 这时X...
  • 知乎玩家霍华德对极大似然估计理解 知乎玩家马同学对极大似然估计理解 通过事实,推断出最有可能概率情况,就是最大似然估计。 我觉得霍华德那个例子最有助于理解极大似然估计!!!! 我们丢100次硬币,出现正面...
  • 极大似然估计是概率论与数理统计中的内容,个人对极大似然估计的印象是根据样本求参数,求样本符合哪种参数假设,所以极大似然估计是要假设数据的总体分布,要不然我们估计的到底是什么分布函数的参数呢。...
  • R语言学习系列(极大似然法)

    千次阅读 2012-05-23 21:19:48
    似然函数其实就是密度函数的变量常量化,参数变量化,然后求极大值点下的参数值作为参数估计值(前提当然是必须有极大值存在,连续,一阶导存在),因此需要对似然函数求一阶导,得出似然方程或者对数似然方程。...
  • 文章目录似然函数极大似然估计实际应用最大似然估计与极大似然估计(MLE)常见概率分布模型直观理解 似然函数   在概率论中,设f(x,θ)f(x,\theta)f(x,θ)为总体分布,其中θ\thetaθ为概率分布模型参数且在...
  • 今天就给你们讲一个在机器学习中重要方法——极大似然估计。这是一个,能够让你拥有拟合最大盈利函数模型估计方法哦!现实意义在机器学习中,我们经常会使用一个模型来描述生成数据过程。例如...
  • 在《统计学习方法》5.1.4决策树学习这一节中,书中有提到:决策树损失函数通常是正则化的极大似然函数。 在决策树学习算法过程中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支...
  • 最大熵模型与最大似然估计

    千次阅读 2019-02-28 21:50:34
    作者在这一章介绍了最大熵模型并且推导了函数的极大化等价于最大熵模型的极大似然估计, 面对一大堆的概念, 我重新回顾了一遍其中相关的内容. 1 最大熵模型 最大熵原理是在 1957 年由 E.T.Jaynes 提出的,其...
  • 似然与极大似然估计 似然与概率 在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然...
  • 当一件事情发生时,若某个参数是未知,我们如何从事件结果中推测出这个未知参数呢? 例如,以抛一次硬币为一次实验,重复...极大似然估计法 P(X|θ)可看做为一个自变量为θ的函数,求P(X|θ)对于θ最大值点...
  • 最小二乘法的理解:在给定参数个数和函数模型之后,根据测试数据,找出与所有测试数据的偏差的平方和最小的参数。 这里面应该有两个问题: 1、为什么选取与真实数据平方和最小的拟合函数; 2、如何求参数。 为...
  • em算法一些理解

    2017-09-15 10:06:50
    不同于极大似然估计,可以显式求出使得数据似然度最大参数,在含有隐变量模型中,由于需要隐变量做全概率展开,所以最终的似然函数是求和形式,而且关键是没有隐变量数据所以无法求出最大似然度对应...

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 131
精华内容 52
关键字:

对极大似然函数的理解