精华内容
下载资源
问答
  • 似然函数

    2019-04-25 18:29:09
    似然函数
                    似然函数在形式上,其实就是样本的联合密度。
    把x1,x2,x3,.....,xn看作常数,而把待定参数θ0,θ2,.....,θn看作 L 的自变量。
    对连续型总体X 和 离散型随机变量X,样本的似然函数分别是概率密度 和 分布率的连城形式。

    极大似然估计法的基本思想:在OLS估计中,我们假定一个单一总体的参数是确定的。这个总体可以生成大量的随机样本,我们所用的样本不过是其中的一个。总之,在假设的重复抽样过程中会产生大量的样本,因而可以产生总体参数的大量样本估计值。
    极大似然估计法(Maximum Likelihood Estimation,MLE)需要对随机扰动项的分布做出假定,通常选择正态分布假定。在极大似然估计中,假定样本是固定的,竹个观测值都是独立观测的,这个样本可由各种不同的总体生成,而每个样本总体都有自己的参数。那么在可供选择的总体中,哪个总体最可能生成所观测到的n个样本值? 为此需要估计每个可能总体取得这n个观测值的联合概率,选择其参数能使观测样本的联合概率最大的那个总体。

    最大似然法,在二十世纪二十年代初,由费歇(R,A,Fisher l890—1962)发明的最大似然法(maximum likelihood method)是在所有估计问题中应用范围最广,并且可以从理论上证明由此得到的估计量具有几个理想的特性的方法( 见下面说明)。它可以说是统计估计理论上划时代的发现之一。设总体的概率模型为F(x|θ)。为了说明的方便,暂假定只有一个未知参数,X1,X2,……,Xn是容量为 n 的随机样本(大写X),实际观测到的样本观测值(小写x)为 Xl=x1,X2=x2,……,Xn=xn 。把同各Xi对应的密度函数或概率函数(包括作为未知数的未知参数)的连乘积看成是未知参数的函数,称其为似然函数(Likelihood function)。
    也就是说,这样定义的似然函数,就是把手中得到的样本观测值实现的“概率密度或概率”,即“似然程度”看成是未知参数θ的函数。使这一似然程度为最大从而决定θ的值的“方式”,可以说是极为“合理的”估计方式。令作为样本观测值的函数被决定的θ* = g(x1,x2,……,xn)对于一切可能的(先验容许的)θ值,都能满足下列条件
    L(θ*)≥L(θ) ①
    就是说θ*是使给定的样本观测值的似然程度为最大的θ。这时θ*叫做θ的最大似然估计值。用观测以前的样本(随机变量)X1,X2,……,Xn,代换函数g 的 n 个变量后得到的θ估计值θ^ = g(Xl,X2,……,Xn)叫做根据容量为n的样本计算的最大似然估计量。

    如果所有可能的θ的集合是有限集合,要求解满足条件①式的θ值是很容易确定的,然而在大部分的应用问题中,θ的集合是无限集合。因此,在许多场合将似然函数对θ求偏导数,然后需要另外求解的方法。
    此外,由于似然函数是非负的,对其进行对数变换是单调递增的变换,所以①式等价于 ㏒ L(θ*)≥㏒ L(θ)
    并且, 偏导数㏒/偏导数θ = (1/L) * 偏导数L/偏导数θ
    所以使logL(θ)的偏导数为0的θ值 和 使L(θ)的偏导函数为0的θ值相等。
    因此,当对L(θ)直接求导比较麻烦时,可以对LogL(θ)求导,从而求得估计值θ^。

    似然函数(Likelihood Function):
    假定{xi}i=1→n 是从概率密度函数为f(x ; θ)的总体中抽取的独立同分布样本。目标是估计未知参数向量θ∈Rk。
    似然函数定义为观察值xi的联合密度L(X;θ),它是θ的函数:
    L(x;θ) = ∏f(xi ; θ)

    其中,X为样本数据矩阵,由观察值x1 , x2,……,xn组成每一行。
    θ的最大似然估计量(maximum likelihood estimator,MLE)定义为θ= arg maxL(X;θ)
    通常最大化对数似然函数更容易求
    ζ(X;0) = Log L(X;θ)
    对数似然函数与似然函数的解是等价的,因为对数转换是单调的一对一映射。即
    θ = arg max L(X;θ) = argmaxf(X;θ)
    最大化过程总是可以被分析表达的,即我们将得到θ估计值的显式分析表达式。然而不幸的是,在其他一些情形下,最大化过程可能是错综复杂的,牵涉到非线性最优化技术。

    给定样本X和似然函数,可将运用数值方法(numerical method)来确定最大化 L(X;θ)或者ζ(X;θ)的θ值,这些数值方法通常是基于牛顿一拉普生(Newton-Raphson)迭代技术。

    来自:http://www.zybang.com/question/b404a34559959d22af97c1dc3233c7ce.html

    总结:似然函数与概率的区别在于,似然函数引入了参数的概念,是已知概率求参数,概率是已知参数求概率。

    举例:

    例子:

    考虑投掷一枚硬币的实验。通常来说,已知投出的硬币正面朝上和反面朝上的概率各自是pH = 0.5,便可以知道投掷若干次后出现各种结果的可能性。比如说,投两次都是正面朝上的概率是0.25。用条件概率表示,就是:

    P(\mbox{HH} \mid p_H = 0.5) = 0.5^2 = 0.25

    其中H表示正面朝上。

    在统计学中,我们关心的是在已知一系列投掷的结果时,关于硬币投掷时正面朝上的可能性的信息。我们可以建立一个统计模型:假设硬币投出时会有pH 的概率正面朝上,而有1 − pH 的概率反面朝上。这时,条件概率可以改写成似然函数:

    L(p_H =  0.5 \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = 0.5) =0.25

    也就是说,对于取定的似然函数,在观测到两次投掷都是正面朝上时,pH = 0.5 的似然性是0.25(这并不表示当观测到两次正面朝上时pH = 0.5 的概率是0.25)。

    如果考虑pH = 0.6,那么似然函数的值也会改变。

    L(p_H = 0.6 \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = 0.6) =0.36

    注意到似然函数的值变大了。这说明,如果参数pH 的取值变成0.6的话,结果观测到连续两次正面朝上的概率要比假设pH = 0.5时更大。也就是说,参数pH 取成0.6 要比取成0.5 更有说服力,更为“合理”。总之,似然函数的重要性不是它的具体取值,而是当参数变化时函数到底变小还是变大。对同一个似然函数,如果存在一个参数值,使得它的函数值达到最大的话,那么这个值就是最为“合理”的参数值。

    在这个例子中,似然函数实际上等于:

    L(p_H = \theta  \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = \theta) =\theta^2, 其中 0 \le p_H  \le 1

    如果取pH = 1,那么似然函数达到最大值1。也就是说,当连续观测到两次正面朝上时,假设硬币投掷时正面朝上的概率为1是最合理的。

    类似地,如果观测到的是三次投掷硬币,头两次正面朝上,第三次反面朝上,那么似然函数将会是:

    L(p_H = \theta  \mid \mbox{HHT}) = P(\mbox{HHT}\mid p_H = \theta) =\theta^2(1 - \theta), 其中 T表示反面朝上, 0 \le p_H  \le 1

    这时候,似然函数的最大值将会在p_H = \frac{2}{3}的时候取到。也就是说,当观测到三次投掷中前两次正面朝上而后一次反面朝上时,估计硬币投掷时正面朝上的概率p_H = \frac{2}{3}是最合理的。

    来自:http://www.cnblogs.com/kevinGaoblog/archive/2012/03/29/2424346.html
               
    展开全文
  • 今天复习Logistic回归的时候涉及到二项分布的求最大似然解,突然发现这个对数似然函数熟悉,似曾相识,不就是交叉熵损失函数么,难道这仅仅是巧合,不能够。先看下这个推导。 1. 二项分布(0-1分布): 2. 最大...

           今天复习Logistic回归的时候涉及到二项分布的求最大似然解,突然发现这个对数似然函数熟悉,似曾相识,不就是交叉熵损失函数么,难道这仅仅是巧合,不能够。先看下这个推导。

    1. 二项分布(0-1分布):

    2. 最大似然估计法:

     

    3. 求解最大似然估计量:

    这里我们主要看下标记处的对数似然函数,是不是很熟悉?

    交叉熵代价函数(cross-entropy cost function)

    后边上网找了下,发现了这片博文:https://blog.csdn.net/lanchunhui/article/details/75433608。算是一个解释吧。接下来要学习下latex了,这样排版太丑了。

     

    参考:

    概率论与数理统计 浙大版

     

    展开全文
  • 最大似然函数

    2019-06-20 10:40:00
    概率函数 vs 似然函数 :p(x|θ) (概率函数是θ,已知,求x的概率。似然函数是x已知,求θ) 分布是p(x|θ)的总体样本中抽取到这100个样本的概率,也就是样本集X中各个样本的联合概率 最大似然估计为: 为了...

    概率函数 vs 似然函数  : p(x|θ) (概率函数是θ,已知,求x的概率。似然函数是x已知,求θ)

     

    分布是p(x|θ)的总体样本中抽取到这100个样本的概率,也就是样本集X中各个样本的联合概率

    最大似然估计为:

    为了方便计算,对联合概率取对数

    求最大似然函数估计值的一般步骤:

    (1)写出似然函数;

    (2)对似然函数取对数,并整理;

    (3)求导数,令导数为0,得到似然方程;

    (4)解似然方程,得到的参数即为所求;

     

    最大似然函数推导交叉熵:

    二分类问题二分类模型可认为符合二项分布,设X={0,1}, [公式] 为样品的真实类别。则有 [公式] 因此有
    [公式] 
    对于m次观察结果,则有
    [公式] 
    写出似然函数
    [公式] 
    取对数似然,有
    [公式] 
    当 [公式] 取得最大时,则似然函数也取得最大。
    通常我们做二分类时,最后通过sigmoid激活函数输出,其输出值即是 [公式] 。
    因此将上式化简,即是binary cross entropy形式:
    [公式]

    多分类问题多分类问题将二项分布扩展到多项分布,设有n个类别,则有
    [公式] 
    同样的,对于m个样本,写出其对数似然
    [公式] 
    其中 [公式] 即是cross entropy,当其取得最小时,似然函数取得最大。

     

    转载于:https://www.cnblogs.com/heixialee/p/11057289.html

    展开全文
  • 1. 二项分布二项分布也叫 0-1 分布,如随机变量 xx 服从二项分布,关于参数 μ\mu(0≤μ≤10\leq \mu\leq 1),其值取 1 和取 0 的概率如下:{p(x=1|μ)=μp(x=0|μ)=1−μ \left\{ \begin{split} &p(x=1|\mu)=\mu\...

    1. 二项分布

    二项分布也叫 0-1 分布,如随机变量 x 服从二项分布,关于参数 μ 0μ1 ),其值取 1 和取 0 的概率如下:

    {p(x=1|μ)=μp(x=0|μ)=1μ

    则在 x 上的概率分布为:

    Bern(x|μ)=μx(1μ)1x

    2. 服从二项分布的样本集的对数似然函数

    给定样本集 D={x1,x2,,xB} 是对随机变量 x 的观测值,假定样本集从二项分布 p(x|μ) 中独立( p(x1,x2,,xN)=ip(xi) )采样得来,则当前样本集关于 μ 的似然函数为:

    p(D|μ)=n=1Np(xn|μ)=n=1Nμxn(1μ)1xn

    从频率学派的观点来说,通过最大似然函数的取值,可以估计参数 μ ,最大化似然函数,等价于最大化其对数形式:

    则有:

    lnp(D|μ)===lnμn=1Nxn+ln(1μ)n=1N1xnlnμn=1Nxn+ln(1μ)(Nn=1Nxn)n=1Nxnlnμ+(1xn)ln(1μ)

    求其关于 μ 的导数,解得 μ 的最大似然解为:

    μML=1Nn=1Nxn

    这里我们仅关注:

    lnP(D|μ)=n=1Nxnlnμ+(1xn)ln(1μ)

    3. 交叉熵损失函数

    LH(x,z)=n=1Nxnlogzn+(1xn)log(1zn)

    x 表示原始信号, z 表示重构信号。(损失函数的目标是最小化,似然函数则是最大化,二者仅相差一个符号)。

    展开全文
  • 最大熵模型中的对数似然函数的解释

    万次阅读 多人点赞 2017-09-13 14:33:59
    最大熵模型中的对数似然函数的解释 最近在学习最大熵模型,看到极大似然估计这部分,没有看明白条件概率分布p(y|x)p(y|x)p(y|x)的对数似然函数。上网查了很多资料都没有一个合理的解释。基本直接给出对数似然函数的...
  • 似然函数的理解

    2016-06-03 17:02:25
    摘自Wikipedia,估计一个theta 让似然函数最大
  • R语言:Newton法、似然函数

    千次阅读 2020-11-29 22:51:20
    hello,大家好,上一篇分享了如何用R语言实现蒙特卡洛模拟,并用蒙特卡洛模拟计算了分布的...目录Newton法例1:求解方程组矩估计例2:设总体XXX服从二项分布B(k,p)B(k,p)B(k,p),其中k,pk,pk,p为未知参数,X1,X2,…,
  • 似然函数  似然函数与概率非常类似但又有根本的区别,概率为在某种条件(参数)下预测某事件发生的可能性;而似然函数与之相反为已知该事件的情况下推测出该事件发生时的条件(参数);所以似然估计也称为参数估计...
  • 文章目录似然函数与最大似然估计似然的概念似然函数最大似然估计伯努利分布伯努利分布下的最大似然估计高斯分布高斯分布下的最大似然估计信息量、熵、相对熵、交叉熵、机器学习中的交叉熵信息量熵相对熵(KL散度) ...
  • 最大似然函数及其求解

    万次阅读 2017-12-09 11:14:29
    使用最大似然法来求解线性模型(1) ...在Coursera机器学习课程中,第一篇练习就是如何使用最小均方差...本文从概率论的角度---最大化似然函数,来求解模型参数,得到线性模型。本文内容来源于:《A First Course
  • 这篇博客主要讲解概率论和统计学中经常涉及到的,不是很好理解的一个概念——似然(Likelihood)及似然函数(Likelihood Function),同时讲解了有关最大似然估计(Maximum Likelihood Estimation, MLE)的概念。...
  • 1 ,真实值函数推导 : 真实值正态曲线 定义 : 跟数据曲线很相似的函数 个人思考 : 1 ,目的 : 得到数据的正态分布图 2 ,已知 : 高斯分布图 ( ...似然函数 : 将样本中的每个值,带入到方程中,将每个样本的概率
  • 似然函数,在机器学习的算法模型中,可谓是屡见不鲜了,每次总觉得自己已经掌握了这个概念,但是遇到具体的情况后,发现还是很难说清楚,于是根据wiki上关于Likelihood function的解释,以及个人的学习理解,整理...
  • 什么是似然函数?是条件概率吗?

    千次阅读 2019-12-14 21:47:07
    对多乘积的求导往往非常复杂,但是对于多求和的求导却要简单的多,对数函数不改变原函数的单调性和极值位置,而且根据对数函数的性质可以将乘积转换为加减,这可以大大简化求导的过程: 在机器学习的公式...
  • 在机器学习中的贝叶斯方法---先验概率、似然函数、后验概率的理解及如何使用贝叶斯进行模型预测(1)文章中介绍了先验分布和似然函数,接下来,将重点介绍后验概率,即通过贝叶斯定理,如何根据先验分布和似然函数,...
  • 二项式分布到多项式分布-从Beta分布到Dirichlet分布 一、前言 参数估计是一个重要的话题。对于典型的离散型随机变量分布:二项式分布,多项式分布;典型的连续型随机变量分布:正态分布。他们都可以看着是参数...
  • ebbr:R中的二项式的经验贝叶斯 执照: 经验贝叶斯收缩的方法和对数据的估计以及对成功/总数的多次观察。 这些方法在,但可以应用于多种数据类型。 安装 您可以使用从GitHub安装该软件包: devtools :: install_...
  • 在讲义的第一部分中,Ng首先讲解了什么叫做监督学习,其次讲了用最小二乘法求解的线性模型,用sigmod函数表示响应函数的logistics回归,接着,利用这两种模型,推出了一种应用十分广泛的指数分布族,在指数分布族的...
  • 第二章Probability Distributions的贝塔-二项式、狄利克雷-多项式共轭、高斯分布、指数族等很基础也很重要。
  • 知识点:伯努利分布、二项式分布、多项式分布、先验概率,后验概率,共轭分布、贝塔分布、贝塔-二项分布、负二项分布、狄里克雷分布,伽马函数、分布 一,伯努利分布(bernouli distribution) 又叫做0-1分布,...
  • 他们都可以看着是参数分布,因为他们的函数形式都被一小部分的参数控制,比如正态分布的均值和方差,二项式分布事件发生的概率等。因此,给定一堆观测数据集(假定数据满足独立同分布),我们需要有一个
  • 原文转自:... ...对于典型的离散型随机变量分布:二项式分布,多项式分布;...他们都可以看着是参数分布,因为他们的函数形式都被一小部分的参数控制,比如正态分布的均值和方差,二项式分布事件发生的概
  • 机器学习是要去学习一个目标函数fff或者说一个假设hhh,这个函数fff或者假设hhh可以正确分类数据或者正确拟合数据 机器学习是要去学习一个概率分布P(h∣D)P(h|D)P(h∣D),这个概率表达式的含义是在给定数据集DDD上,...
  • 文章目录损失函数梯度 25天看完了吴恩达的机器学习以及《深度学习入门》和《tensorflow实战》两本书,吴恩达的学习课程只学了理论知识,另外两本书的代码自己敲了一遍,感觉过的太快,趁着跑cGAN的时间把两本书的...
  • 关于对数似然法原理,网上博客众说纷纭,但能说清楚,解释对数似然公式为何如此却寥寥无几。今天我就发个博客,来和大家讨论一下。 (未经博主允许不得转载) ——————————————————...
  • 最大似然估计与logistic交叉熵损失函数以及线性回归过程中的最小二乘法的关系理解

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,519
精华内容 5,407
关键字:

二项式似然函数