精华内容
下载资源
问答
  • 今天复习Logistic回归的时候涉及到二项分布的求最大似然解,突然发现这个对数似然函数熟悉,似曾相识,不就是交叉熵损失函数么,难道这仅仅是巧合,不能够。先看下这个推导。 1. 二项分布(0-1分布): 2. 最大...

           今天复习Logistic回归的时候涉及到二项分布的求最大似然解,突然发现这个对数似然函数熟悉,似曾相识,不就是交叉熵损失函数么,难道这仅仅是巧合,不能够。先看下这个推导。

    1. 二项分布(0-1分布):

    2. 最大似然估计法:

     

    3. 求解最大似然估计量:

    这里我们主要看下标记处的对数似然函数,是不是很熟悉?

    交叉熵代价函数(cross-entropy cost function)

    后边上网找了下,发现了这片博文:https://blog.csdn.net/lanchunhui/article/details/75433608。算是一个解释吧。接下来要学习下latex了,这样排版太丑了。

     

    参考:

    概率论与数理统计 浙大版

     

    展开全文
  • 1. 二项分布 二项分布也叫 0-1 分布,如随机变量 x 服从二项分布,关于参数 μ(0≤μ≤1),其值取 1 和取 0 的概率如下: ...2. 服从二项分布的样本集的对数似然函数 给定样本集 D={x1,x2,…,xB} 是对随机变...

    1. 二项分布

    二项分布也叫 0-1 分布,如随机变量 x 服从二项分布,关于参数 μ0μ1),其值取 1 和取 0 的概率如下:

    {p(x=1|μ)=μp(x=0|μ)=1μ

    则在 x 上的概率分布为:

    Bern(x|μ)=μx(1μ)1x

    2. 服从二项分布的样本集的对数似然函数

    给定样本集 D={x1,x2,,xB} 是对随机变量 x 的观测值,假定样本集从二项分布 p(x|μ) 中独立(p(x1,x2,,xN)=ip(xi))采样得来,则当前样本集关于 μ 的似然函数为:

    p(D|μ)=n=1Np(xn|μ)=n=1Nμxn(1μ)1xn

    从频率学派的观点来说,通过最大似然函数的取值,可以估计参数 μ,最大化似然函数,等价于最大化其对数形式:

    则有:

    lnp(D|μ)===lnμn=1Nxn+ln(1μ)n=1N1xnlnμn=1Nxn+ln(1μ)(Nn=1Nxn)n=1Nxnlnμ+(1xn)ln(1μ)

    求其关于 μ 的导数,解得 μ 的最大似然解为:

    μML=1Nn=1Nxn

    这里我们仅关注:

    lnP(D|μ)=n=1Nxnlnμ+(1xn)ln(1μ)

    3. 交叉熵损失函数

    LH(x,z)=n=1Nxnlogzn+(1xn)log(1zn)

    x 表示原始信号,z 表示重构信号。(损失函数的目标是最小化,似然函数则是最大化,二者仅相差一个符号)。

    转载于:https://www.cnblogs.com/mtcnn/p/9421306.html

    展开全文
  • 上边是二项分布计算概率的一般公式,似然函数中的自变量是公式中的p,而概率密度分布函数中的自变量是公式中的k 如果你还是不理解,这里引用quora上的一个回答 What is the difference between probability and ...

    似然函数是某一特定事件发生的概率,其中自变量是分布参数θ,特定事件(一组样本取到一组特定值的联合概率)发生的概率随θ的不同而不同
    概率密度分布函数是不同事件发生的概率,自变量是样本取值,这样说可能不便于理解,下边通过二项分布概率公式说明:
    在这里插入图片描述
    上边是二项分布计算概率的一般公式,似然函数中的自变量是公式中的p,而概率密度分布函数中的自变量是公式中的k

    如果你还是不理解,这里引用quora上的一个回答 What is the difference between probability and likelihood

    我们可以再做一个类比,假设一个函数为 a^b ,这个函数包含两个变量。 如果你令b=2,这样你就得到了一个关于a的二次函数,即 :a^2;当你令a=2时,你将得到一个关于b的指数函数,即 2^b
    可以看到这两个函数有着不同的名字,却源于同一个函数。而p(x|θ)也是一个有着两个变量的函数。如果,你将θ设为常量,则你会得到一个概率函数(关于x的函数);如果,你将x设为常量你将得到似然函数(关于θ的函数)

    展开全文
  • 似然函数

    2019-04-25 18:29:09
    似然函数
                    似然函数在形式上,其实就是样本的联合密度。
    把x1,x2,x3,.....,xn看作常数,而把待定参数θ0,θ2,.....,θn看作 L 的自变量。
    对连续型总体X 和 离散型随机变量X,样本的似然函数分别是概率密度 和 分布率的连城形式。

    极大似然估计法的基本思想:在OLS估计中,我们假定一个单一总体的参数是确定的。这个总体可以生成大量的随机样本,我们所用的样本不过是其中的一个。总之,在假设的重复抽样过程中会产生大量的样本,因而可以产生总体参数的大量样本估计值。
    极大似然估计法(Maximum Likelihood Estimation,MLE)需要对随机扰动项的分布做出假定,通常选择正态分布假定。在极大似然估计中,假定样本是固定的,竹个观测值都是独立观测的,这个样本可由各种不同的总体生成,而每个样本总体都有自己的参数。那么在可供选择的总体中,哪个总体最可能生成所观测到的n个样本值? 为此需要估计每个可能总体取得这n个观测值的联合概率,选择其参数能使观测样本的联合概率最大的那个总体。

    最大似然法,在二十世纪二十年代初,由费歇(R,A,Fisher l890—1962)发明的最大似然法(maximum likelihood method)是在所有估计问题中应用范围最广,并且可以从理论上证明由此得到的估计量具有几个理想的特性的方法( 见下面说明)。它可以说是统计估计理论上划时代的发现之一。设总体的概率模型为F(x|θ)。为了说明的方便,暂假定只有一个未知参数,X1,X2,……,Xn是容量为 n 的随机样本(大写X),实际观测到的样本观测值(小写x)为 Xl=x1,X2=x2,……,Xn=xn 。把同各Xi对应的密度函数或概率函数(包括作为未知数的未知参数)的连乘积看成是未知参数的函数,称其为似然函数(Likelihood function)。
    也就是说,这样定义的似然函数,就是把手中得到的样本观测值实现的“概率密度或概率”,即“似然程度”看成是未知参数θ的函数。使这一似然程度为最大从而决定θ的值的“方式”,可以说是极为“合理的”估计方式。令作为样本观测值的函数被决定的θ* = g(x1,x2,……,xn)对于一切可能的(先验容许的)θ值,都能满足下列条件
    L(θ*)≥L(θ) ①
    就是说θ*是使给定的样本观测值的似然程度为最大的θ。这时θ*叫做θ的最大似然估计值。用观测以前的样本(随机变量)X1,X2,……,Xn,代换函数g 的 n 个变量后得到的θ估计值θ^ = g(Xl,X2,……,Xn)叫做根据容量为n的样本计算的最大似然估计量。

    如果所有可能的θ的集合是有限集合,要求解满足条件①式的θ值是很容易确定的,然而在大部分的应用问题中,θ的集合是无限集合。因此,在许多场合将似然函数对θ求偏导数,然后需要另外求解的方法。
    此外,由于似然函数是非负的,对其进行对数变换是单调递增的变换,所以①式等价于 ㏒ L(θ*)≥㏒ L(θ)
    并且, 偏导数㏒/偏导数θ = (1/L) * 偏导数L/偏导数θ
    所以使logL(θ)的偏导数为0的θ值 和 使L(θ)的偏导函数为0的θ值相等。
    因此,当对L(θ)直接求导比较麻烦时,可以对LogL(θ)求导,从而求得估计值θ^。

    似然函数(Likelihood Function):
    假定{xi}i=1→n 是从概率密度函数为f(x ; θ)的总体中抽取的独立同分布样本。目标是估计未知参数向量θ∈Rk。
    似然函数定义为观察值xi的联合密度L(X;θ),它是θ的函数:
    L(x;θ) = ∏f(xi ; θ)

    其中,X为样本数据矩阵,由观察值x1 , x2,……,xn组成每一行。
    θ的最大似然估计量(maximum likelihood estimator,MLE)定义为θ= arg maxL(X;θ)
    通常最大化对数似然函数更容易求
    ζ(X;0) = Log L(X;θ)
    对数似然函数与似然函数的解是等价的,因为对数转换是单调的一对一映射。即
    θ = arg max L(X;θ) = argmaxf(X;θ)
    最大化过程总是可以被分析表达的,即我们将得到θ估计值的显式分析表达式。然而不幸的是,在其他一些情形下,最大化过程可能是错综复杂的,牵涉到非线性最优化技术。

    给定样本X和似然函数,可将运用数值方法(numerical method)来确定最大化 L(X;θ)或者ζ(X;θ)的θ值,这些数值方法通常是基于牛顿一拉普生(Newton-Raphson)迭代技术。

    来自:http://www.zybang.com/question/b404a34559959d22af97c1dc3233c7ce.html

    总结:似然函数与概率的区别在于,似然函数引入了参数的概念,是已知概率求参数,概率是已知参数求概率。

    举例:

    例子:

    考虑投掷一枚硬币的实验。通常来说,已知投出的硬币正面朝上和反面朝上的概率各自是pH = 0.5,便可以知道投掷若干次后出现各种结果的可能性。比如说,投两次都是正面朝上的概率是0.25。用条件概率表示,就是:

    P(\mbox{HH} \mid p_H = 0.5) = 0.5^2 = 0.25

    其中H表示正面朝上。

    在统计学中,我们关心的是在已知一系列投掷的结果时,关于硬币投掷时正面朝上的可能性的信息。我们可以建立一个统计模型:假设硬币投出时会有pH 的概率正面朝上,而有1 − pH 的概率反面朝上。这时,条件概率可以改写成似然函数:

    L(p_H =  0.5 \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = 0.5) =0.25

    也就是说,对于取定的似然函数,在观测到两次投掷都是正面朝上时,pH = 0.5 似然性是0.25(这并不表示当观测到两次正面朝上时pH = 0.5 概率是0.25)。

    如果考虑pH = 0.6,那么似然函数的值也会改变。

    L(p_H = 0.6 \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = 0.6) =0.36

    注意到似然函数的值变大了。这说明,如果参数pH 的取值变成0.6的话,结果观测到连续两次正面朝上的概率要比假设pH = 0.5时更大。也就是说,参数pH 取成0.6 要比取成0.5 更有说服力,更为“合理”。总之,似然函数的重要性不是它的具体取值,而是当参数变化时函数到底变小还是变大。对同一个似然函数,如果存在一个参数值,使得它的函数值达到最大的话,那么这个值就是最为“合理”的参数值。

    在这个例子中,似然函数实际上等于:

    L(p_H = \theta  \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = \theta) =\theta^2, 其中0 \le p_H  \le 1

    如果取pH = 1,那么似然函数达到最大值1。也就是说,当连续观测到两次正面朝上时,假设硬币投掷时正面朝上的概率为1是最合理的。

    类似地,如果观测到的是三次投掷硬币,头两次正面朝上,第三次反面朝上,那么似然函数将会是:

    L(p_H = \theta  \mid \mbox{HHT}) = P(\mbox{HHT}\mid p_H = \theta) =\theta^2(1 - \theta), 其中T表示反面朝上,0 \le p_H  \le 1

    这时候,似然函数的最大值将会在p_H = \frac{2}{3}的时候取到。也就是说,当观测到三次投掷中前两次正面朝上而后一次反面朝上时,估计硬币投掷时正面朝上的概率p_H = \frac{2}{3}是最合理的。

    来自:http://www.cnblogs.com/kevinGaoblog/archive/2012/03/29/2424346.html
               
    展开全文
  • Q1:为什么是似然函数是累乘?(可以参考以下链接 https://zhidao.baidu.com/question/473897853.html 似然函数 什么样的参数跟我们的数据组合之后离真实值越近 似然函数是关于参数的函数 似然函数中,真实值与...
  • 先验分布,后验分布似然函数

    千次阅读 2018-10-25 16:58:44
    一个例子搞清楚(先验分布/后验分布/似然估计) preface: 无论是《通信原理》、《信息论》、《信道编码》还是《概率与统计理论》,或者在现在流行的《模式识别》和《Machine Learning》中总会遇到这么几个概念...
  • 混合正态分布似然函数估计参数 图像为 数据为R中MASS包的geyser library(MASS) attach(geyser) #定义log-likelihood函数 ...
  • 最大似然函数、交叉熵和经验分布的关系 经验分布 最大似然函数能推导出交叉熵,他们俩本质是一回事,推导的桥梁就是经验分布。经验分布的定义: KaTeX parse error: No such environment: equation at position 8...
  • 假设: 这里的error也就是模型和实际数值之间的误差值 对于任意一个x(其中包括x1,x2…xn),总有其对应的y值。此时,线性回归的问题就变成了求解最小误差值的问题。...线性回归使用似然函数解释 ...
  • 最大似然函数

    2019-06-20 10:40:00
    概率函数 vs 似然函数 :p(x|θ) (概率函数是θ,已知,求x的概率。似然函数是x已知,求θ) 分布是p(x|θ)的总体样本中抽取到这100个样本的概率,...(2)对似然函数取对数,并整理; (3)求导数,令导数为0,得...
  • P5 似然函数与狄拉克函数似然函数与狄拉克函数似然模型重要定理狄拉克函数 似然函数与狄拉克函数 直接对似然函数进行积分,会导致积分结果为0。 对似然函数乘以一个很小的函数,在进行积分。 ϵ\epsilonϵ 可以...
  • 从统计的角度,在某一分布下,概率空间中的事件x已知(如抛硬币,x即硬币的正、反面),似然函数为参数θ取什么值时,似然函数L(θ|x)与事件x的结果最接近(最大似然估计)。 似然函数可以简单理解为,在事件发生...
  • 似然函数简明讲解

    千次阅读 2019-04-25 14:05:26
    概述: 统计学中,似然函数是一种关于统计模型参数的函数。当给定输出x时,关于参数θ\thetaθ 的似然函数L(θ∣x)L(θ|x)L(θ∣x)似然值等于给定参θ\thetaθ后变量x的发生概率L(θ∣x)=P(X=x∣θ)L(\theta | x)=P...
  • 似然函数个人理解

    千次阅读 2017-12-23 09:10:27
    以前上学的时候对似然函数什么的一看到就头疼,最近专门研究了一下,写一下自己的总计,后序会是与似然函数先骨干的GMM和HMM的总结。 经典理解:  设总体的概率模型为F(x|θ)。为了说明的方便,暂假定只有一个...
  • 似然函数基本概念

    万次阅读 2016-10-02 23:08:38
    在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都...
  • 对极大似然估计的理解 ...现在发生了的某个事件,似然函数就变成了这个样本的理论概率,而现在的采样结果代表某个事件已经确定发生了,那这个事发生的理论概率应该尽量大(在这个事件发生的理论概率中...
  • 似然函数学习笔记

    2020-12-17 20:38:49
    在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然性,是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值。 我们可以反过来构造表示似然性的方法:已知...
  • 最近在看例子滤波,然后权值更新的地方wi=w(i-1)*似然函数,但是用matlab编程时这个似然函数应该怎么实现啊,看很多程序上面都是直接用的正态分布,而且如果观测值是维的,比如观测值是目标的位置和角度,会有影响...
  • 如何理解似然函数

    千次阅读 2018-06-25 22:07:21
    转载自:如何理解似然函数? - Yeung Evan的回答 - 知乎 https://www.zhihu.com/question/54082000/answer/145495695 1、似然与概率的区别 在英语语境里,likelihood 和 probability 的日常使用是可以互换的,都...
  • 最大熵模型中的对数似然函数的解释

    万次阅读 多人点赞 2017-09-13 14:33:59
    最近在学习最大熵模型,看到极大似然估计这部分,没有看明白条件概率分布p(y|x)p(y|x)p(y|x)的对数似然函数。上网查了很多资料都没有一个合理的解释。基本直接给出对数似然函数的一般形式: Lp⎯⎯⎯=∏xp(x)p⎯⎯⎯...
  • ML - 似然函数

    2021-05-10 17:31:39
    似然和概率都可以理解为“可能性”,但是它们针对的对象不一样,似然函数是关于Θ的函数,概率密度函数是关于x的函数。比如似然函数定义为:L(Θ|x),而概率密度函数定义为f(x|Θ)。 假设X的概率密度函数可以定义为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 33,653
精华内容 13,461
关键字:

二项分布的似然函数