精华内容
下载资源
问答
  • 极大似然估计

    2015-11-03 11:16:14
    极大似然估计极大似然估计是一种估计方法,针对该估计方法我们需要考虑的问题有: 估计的对象 估计的想法 估计的理论 估计的性质 求解的方法 估计的对象参数估计分为点估计和区间估计,极大似然估计是点估计的一种...

    极大似然估计

    极大似然估计是一种估计方法,针对该估计方法我们需要考虑的问题有:

    • 估计的对象
    • 估计的想法
    • 估计的理论
    • 估计的性质
    • 求解的方法

    估计的对象

    参数估计分为点估计和区间估计,极大似然估计是点估计的一种方法,在已知样本的前提下,用来估计满足这些样本分布的参数,并把可能性最大的那个参数作为真实的参数。

    估计的想法

    统计的思想就是从样本去推断总体,参数估计就是用样本分布去估计总体的分布,因为样本分布是来自于总体也是最能体现总体特征的,样本的联合分布表示的是随机变量取该样本时的概率,在样本已知的情况下,样本联合分布是关于参数的函数,记其为似然函数,其越大表示随机变量取该样本的概率越大,因为该样本是已经出现的,说明其在总体中出现的概率应该是很大,所以极大似然估计的想法就是估计使出现该样本的可能性达到最大的似然函数,求解该似然函数中的参数,作为真实的参数。
    例子
    肺癌和抽烟:样本为肺癌患者,估计参数为是否抽烟。
    猎人和学生打猎:样本为命中猎物,估计参数为是学生还是猎人。
    一号箱有99个白球和1个黑球,二号箱有99个黑球和1个白球:样本为取出一个球为白球,估计参数为是从一号箱还是二号箱抽取。样本为白球,说明在总体中白球出现的概率是很大的,所以估计出的参数所满足的样本分布中,要使出现白球的概率最大化,所以估计的参数为从一号箱抽取。

    估计的理论

    见《高等数理统计》

    估计的性质

    • 不变性

    求解的方法

    求解极值的一般方法为求导,使其导数为零,再求解该式子。求解算法有:

    牛顿迭代法

    梯度下降法

    还有

    EM算法

    展开全文
  • 极大似然估计

    2017-08-16 14:13:26
    极大似然估计法是求估计的另一种方法。它最早由高斯提出。后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质极大似然估计这一名称也是费歇给的。这是一种上前仍然得到广泛应用的方法。它是建立在...

    极大似然估计法是求估计的另一种方法。它最早由高斯提出。后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质。极大似然估计这一名称也是费歇给的。这是一种上前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。

    最大似然估计法的基本思想
      最大似然估计法的思想很简单:在已经得到试验结果的情况下,我们应该寻找使这个结果出现的可能性最大的那个  作为真  的估计。
      我们分两种情进行分析:
      1.离散型总体 

      设
      为离散型随机变量,其概率分布的形式为  ,则样本  的概率分布为  ,在  固定时,上式表示  取值  的概率;当  固定时,它是  的函数,我们把它记为  并称为似然函数。似然函数  的值的大小意味着该样本值出现的可能性的大小。既然已经得到了样本值  ,那它出现的可能性应该是大的,即似然函数的值应该是大的。因而我们选择使  达到最大值的那个  作为真  的估计。


      2.连续总体 
      设  为连续型随机变量,其概率密度函数为    为从该总体抽出的样本。因为  相互独立且同分布,于是,样本的联合概率密度函数为
       ,在  是固定时,它是    处的 密度,它的大小与  落在  附近的概率的大小成正比,而当样本值  固定时,它是 的函数。我们仍把它记为  并称为似然函数。类似于刚才的讨论,我们选择使  最大的那个  作为真  的估计。 
                 

      总之,在有了试验结果即样本值  时,似然函数  反映了  的各个不同值导出这个结果的可能性的大小。 我们选择使  达到最大值的那个 作为真  的估计。这种求点估计的方法就叫作最大似然法。   

      7.2.2 最大似然估计的求法
      假定现在我们已经观测到一组样本  要去估计未知参数  。一种直观的想法是,哪一组能数值使现在的样本  出现的可能性最大,哪一组参数可能就是真正的参数,我们就要用它作为参数的估计值。这里,假定我们有一组样本  .如果对参数的两组不同的值   ,似然函数有如下关系
        ,
      那么,从  又是概率密度函数的角度来看,上式的意义就是参数  使 出现的可能性比参数  使  出现的可能性大,当然参数   更像是真正的参数.这样的分析就导致了参数估计的一种方法,即用使似然函数达到最大值的点 ,作为未知参数的估计,这就是所谓的最大似然估计。 现在我们讨论求最大似然估计的具体方.为简单起见,以下记  ,求θ的极大似然估计就归结为求  的最大值点.由于对数函数是单调增函数,所以
                        (7.2.1)

     与  有相同的最大值点。而在许多情况下,求  的最大值点比较简单,于是,我们就将求  的最大值点改为求  的最大值点.  关于  求导数,并命其等于零,得到方程组 
               ,                            (7.2.2)
      称为似然方程组。解这个方程组,又能验证它是一个极大值点,则它必是  ,也就是  的最大值点,即为所求的最大似然估计。大多常用的重要例子多属于这种情况。然而在一些情况下,问题比较复杂,似然方程组的解可能不唯一,这时就需要进一步判定哪一个是最大值点。
      还需要指出,若函数  关于  的导数不存在时,我们就无法得到似然方程组 (7.2.2),这时就必须根据最大似然估计的定义直接去  的最大值点。
      在一些情况下,我们需要估计  。如果  分别是  的最大似然估计,则称    的最大似然估计。 
      下面我们举一些例子来说明求最大似然估计的方法。

        7.2.1 设从正态总体  抽出样本  ,这里未知参数为mm   (注意我们把  看作一个参数)。似然函数为
                        
                        = 
      它的对数为
       
      似然方程组为 
                
      由第一式解得
                               (7.2.3)
        代入第二式得
                .             (7.2.4) 
      似然方程组有唯一解(    ),而且它一定是最大值点,这是因为当    或∞时,非负函数  。于是    的最大似然估计为
                .         (7.2.5) 
      这里,我们用大写字母表示所有涉及的样本,因为最大似然估计    都是统计量,离开了具体的一次试验或观测,它们都是随机的。
      7.2.2 设总体  服从参数为的泊松分布,它的分布律为
               
      有了样本  之后,参数λ的似然函数为 
                

      似然方程为 
                
      解得
                  
      因为  的二阶导数总是负值,可见,似然函数在  处达到最大值。所以,  是λ的最大似然估计。
      例7.2.3 设总体    上的均匀分布,求  的最大似然估计。
       的概率密度函数为
              
      对样本  
             

      很显然,L(ab)作为ab的二元函数是不连续的。这时我们不能用似然方程组(7.2.2)来求最大似然估计,而必须从最大似然估计的定义出发,求L(ab)的最大值。为使L(ab)达到最大,ba应该尽量地小,但b又不能小于  ,否则,L(ab)=0
      类似地,a不能大过  。因此,ab的最大似然估计为
               , 
                 . 
      现在为止,我们以正态分布,泊松分布,均匀分布的参数以及事件发生的概率的估计为例子讨论了矩估计和最大似然估计。在我们所举的例子中,除了均匀分布外,两种估计都是一致的。矩估计的优点是简单,只需知道总体的矩,总体的分布形式不必知道。而最大似然估计则必须知道总体分布形式,并且在一般情况下,似然方程组的求解较复杂,往往需要在计算机上通过迭代运算才能计算出其近似解。


    http://blog.sciencenet.cn/blog-491809-400893.html 

    展开全文
  • 导读:极大似然估计(MLE) 是统计机器学习中最基本的概念,但是能真正全面深入地理解它的性质和背后和其他基本理论的关系不是件容易的事情。极大似然估计和以下概念都有着紧密的联系:随机变量,无...

    导读:极大似然估计(MLE) 是统计机器学习中最基本的概念,但是能真正全面深入地理解它的性质和背后和其他基本理论的关系不是件容易的事情。极大似然估计和以下概念都有着紧密的联系:随机变量,无偏性质(unbiasedness),一致估计(consistent),asymptotic normality,最优化(optimization),Fisher Information,MAP(最大后验估计),KL-Divergence,sufficient statistics等。在众多阐述 MLE 的文章或者课程中,总体来说都比较抽象,注重公式推导。本系列文章受 3blue1brown 可视化教学的启发,坚持从第一性原理出发,通过数学原理结合模拟和动画,深入浅出地让读者理解极大似然估计。

    相关链接:

    用逆变换采样方法构建随机变量生成器

    从零构建统计随机变量生成器之离散基础篇

    抛硬币问题

    我们来思考这个老套问题,考虑手上有一枚硬币,旋转(抛)硬币得到正反面的概率固定(令正面概率为)但未知,我们如何能通过实验推测出

     

    朴素的想法是,不断尝试抛硬币,随着次数 n 的增多,正面的比例会趋近于

    对应到数学形式上,令我们对于 的估计为 ,则希望

    模拟试验代码

    假设我们尝试了n次,每次的结果为 为1(正面) 或 0(反面)。比如试了三次的结果是 [1, 0, 1],则 。一般,我们将观察到的数据写成向量形式

    我们知道硬币的正反结果符合伯努利分布,也就是

    因为 x 只有0,1两种取值,因此上式也可以写成等价如下的不含条件分支的形式

    假设 ,如果做 n=10 次试验,结果应该比较接近7个1,3个0。

    下面我们来模拟一下 n=10,看看结果如何。

    下面代码的实现上我们直接使用了pytorch 内置的 bernoulli 函数生成 n 个随机变量实例

    def gen_coins(theta, n=1):
        import torch
        theta_vec = torch.tensor(n*[theta])
        random_values = torch.bernoulli(theta_vec)
        return random_values
    

    让我们来做三次 n=10 的试验

    for i in range(3):
        coins = gen_coins(theta=0.7, n=10)
        print(f'trial {i}')
        print(f'head #: {sum(coins)}')
        print(f'tail #: {sum(1-coins)}')
        print()
    

    能发现 7个1,3个0 确实是比较可能的结果。

    trial 0
    head #: 7.0
    tail #: 3.0
    
    trial 1
    head #: 9.0
    tail #: 1.0
    
    trial 2
    head #: 7.0
    tail #: 3.0
    

    生成概率

    直觉告诉我们,当 时,根据 ,7个1,3个0 出现的概率应该是最大,6个1,4个0 或者 8个1,2个0 这两种情况出现概率稍小,其他的情况概率更小。通过基本概率和伯努利公式,重复 n 次试验 1和0出现的概率可以由下面公式算出。(注:7个1,3个0不是单一事件,需要乘以组合数算出实际概率)


    P(X)
    head=00.000006
    head=10.000138
    head=20.000032
    head=30.001447
    head=40.036757
    head=50.102919
    head=60.200121
    head=70.266828
    head=80.233474
    head=90.121061
    head=100.028248

    画出图看的很明显,1出现7次的概率确实最大。

     

    回到我们的问题,我们先假定 的硬币做 n=10 次试验的结果就是 7个1,3个0,或者具体序列为 [1, 0, 0, 1, 0, 1, 1, 1, 1, 1]。那么我们希望按照某种方法推测的估计值 也为 0.7。

    若将这个方法也记做 ,它是 的函数


    我们如何构建这个方法呢?很显然, 中 1 的个数就可以胜任,。这个方式确实是正确的,后面的文章我们也会证明它是MLE在伯努利分布参数估计时的计算方法。

    但是伯努利分布参数估计的问题中是最简单的情况,背后对应的更一般的问题是:假设我们知道某个过程或者实验生成了某种分布 P,但是不知道它的参数 ,如何能通过反复的试验来推断 ,同时,我们希望随着试验次数的增多, 能逼近

    由于过程是有随机性,试验结果 并不能确定一定是从 生成的,因此我们需要对所有 打分。对于抛硬币试验来说,我们穷举所有在 [0, 1] 范围内的 ,定义它的打分函数 ,并且希望我们定义的  在 时得分最高。推广到一般场景,有如下性质

    如此,我们将推测参数问题转换成了优化问题

    朴素方法

    一种朴素的想法是,由于 ,因此我们每次的结果应该稍微偏向 1,如果出现了 1,就记0.7分,出现了0,记0.3分,那么我们可以用10个结果的总分来定义总得分,即最大化函数

    很可惜,我们定义的 f 并不符合 时取到最大的原则。下面画出了 在 [0, 1] 范围内 f 值,X 固定为 [1, 0, 0, 1, 0, 1, 1, 1, 1, 1]。显然,极值在 0.5 左右。

     

    这种对于观察到的变量实例在整个参数空间打分的方法是最大似然方法的雏形。我们将每次试验结果对于不同 的打分就是似然函数的概念。

    伯努利似然函数(Likelihood)

    伯努利单个结果的似然函数 视为 的函数,x视为给定值,它等价于概率质量函数 PMF

    极大似然估计(MLE)

    有了单个结果的似然函数,我们如何定义 呢?我们定义的 需要满足,在   的情况下,试验最有可能的结果是 7 个1,3个0,此时 f 需要在 时取到最大值。

    极大似然估计(MLE) 为我们定义了合理的 ,和朴素的想法类似,但是这次用单个结果的似然函数连乘而非连加

    我们再来看一下当 时   空间的取值情况,果然,MLE 能在 0.7时取到最大值。

     

    对数似然函数

    最大似然函数 能让我们找到最可能的 ,但现实中,我们一般采用最大其 log 的形式。

    理论能证明,最大对数似然函数得到的极值等价于最大似然函数。但这么做有什么额外好处呢?

    我们先将对数似然函数画出来

     

    它的极大值也在 0.7,但是我们发现对数似然函数是个 concave 函数。在优化领域,最大化 concave 函数或者最小化 convex 函数可以有非常高效的解法。再仔细看之前的似然函数,它并不是一个 concave 函数。另一个非常重要的好处是,随着 n 的增大,连乘会导致浮点数 underflow,而单个点的对数似然函数的和的形式就不会有这个问题。

    Pytorch MLE 实践

    就让我们来实践一下,通过 pytorch 梯度下降来找到极值点。为什么是梯度下降呢,因为我们在代码中的 loss 是上面对数似然函数取负值,这个就是最常见的负对数似然 loss (NLL)。

    from stats.coin import gen_coins
    from collections import deque
    
    
    def train(num_head: int, num_tail: int) -> float:
        import torch
        theta = torch.tensor(0.5, requires_grad=True)
    
        recent = deque(3*[100], maxlen=3)
    
        lr = 0.00001
        for iter in range(2000):
            loss = -(num_head * torch.log(theta) + num_tail * torch.log(1 - theta))
            loss.backward()
            with torch.no_grad():
                theta -= lr * theta.grad
                # print(f'{iter}: {theta}, {theta.grad}')
                recent.append(theta.grad.item())
                if all(map(lambda x: abs(x) < 1, recent)):
                    break
            theta.grad.zero_()
        return theta.item()
    
    
    if __name__ == '__main__':
        data = gen_coins(0.6, n=200)
    
        num_head = (data.detach() == 1).sum().item()
        num_tail = (data.detach() == 0).sum().item()
    
        print(num_head, num_tail)
        print(train(num_head, num_tail))
    

    有一点需要说明的是,在迭代过程中,我们保存最后三个导数的值,当最新的三个导数都很小时就退出迭代。

    if all(map(lambda x: abs(x) < 1, recent))
    

    运行代码,能发现最大化对数似然函数能很稳定的找到

    现在大家对于伯努利MLE有了一定了解,接着,我们来思考一下最大化似然函数方法是否随着观察次数的增多能不断逼近真实的 呢?

    MLE 估计的收敛性

     的情况下,我们来这样做试验,第一次做 n=1生成观察数据 ,第二次做 n=2生成观察数据

    对于每个数据集 通过最大似然方法求得估计的

    将这些 画出来,可以看到,随着

     

    换一个角度来看一下,我们将 数列按照顺序,离散化后再归一化比例,如下图画出来,红色的柱代表了最新的值 。可以发现,初始时候, 在较远离 0.7 的地方出现,随着 n 的增大,出现的位置比较接近 0.7。

    但是不是所有 MLE 的结果都有无限接近目标参数的性质呢?这个悬念卖个关子留到后续的篇幅来揭示。

     

    MLE 估计的偏差和方差

    我们已经知道 MLE 方法可以通过观察数据推测出最有可能的 ,由于观察数据 是伯努利过程产生的,具有随机性,那么 可以看成是 的随机变量。我们通过上面的试验知道随着试验次数的增大,我们的估计会越来越逼近真实值,现在的问题是对于固定的n 的方差是多少,它的均值是否是无偏的呢?

    带着这样的疑问,我们现在做如下试验:

    固定 n=10,重复做实验,画出随着次数增多 的分布,见图中绿色部分。同样的,红色是 n=80 不断试验的分布变化。

     
    看的出来,随着试验次数的增多
    •   都趋近于正态分布

    • 的分散度比 要大,即方差要大

    • 的均值都在 0.7

    好了,本篇就到这里,更多深入的可视化概念以及MLE和其他概念的联系,敬请后续篇幅为您呈现。

    展开全文
  • 一、似然函数 似然函数,是根据已知结果去推测固有性质的可能性(likelihood),是对固有性质的拟合程度,所以不能称为概率。假设是否堵车,受天气,路上车辆数量和...二、极大似然估计 三、最大后验估计 参...

    一、背景知识

    1.1 似然函数

    似然函数,是根据已知结果去推测固有性质的可能性(likelihood),是对固有性质的拟合程度,所以不能称为概率。假设是否堵车,受天气,路上的车辆的数量和事故影响,这里只关心堵车和事故之间的关系,如果发生了事故,那么对堵车这一属性的拟合程度有多大。和后验概率非常像,区别在于似然函数把堵车看成一个肯定存在的属性,而后验概率把堵车看成一个随机变量。

    先看似然函数的定义,它是给定联合样本值x下关于(未知)参数 θ\theta 的函数:L(θx)=f(xθ)L(\theta|x)=f(x|\theta)
    这里的小x是指联合样本随机变量X取到的值,即X=xX=x
    这里的θ\theta是指未知参数,它属于参数空间;
    这里的f(xθ)f(x|\theta)是一个密度函数,特别地,它表示(给定)θ\theta下关于联合样本值的联合密度函数。所以从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于θ\theta的函数,后者是关于x的函数。所以这里的等号 == 理解为函数值形式的相等,而不是两个函数本身是同一函数(根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。

    说完两者的区别,再说两者的联系。
    (1)如果X是离散的随机向量,那么其概率密度函数f(xθ)f(x|\theta)可改写为f(xθ)=Pθ(X=x)f(x|\theta)=P_\theta(X=x) ,即代表了在参数θ\theta下随机向量X取到值x的可能性;并且,如果我们发现
    L(θ1x)=Pθ1(X=x)>Pθ2(X=x)=L(θ2x)L(\theta_1|x)=P_{\theta_1}(X=x)>P_{\theta_2}(X=x)=L(\theta_2|x)
    那么似然函数就反应出这样一个朴素推测:在参数θ1\theta_1下随机向量取到值的可能性大于 在参数θ2\theta_2下随机向量取到值的可能性。换句话说,我们更有理由相信(相对于θ2\theta_2来说)θ1\theta_1更有可能是真实值。这里的可能性由概率来刻画。
    (2)如果是连续的随机向量,那么其密度函数f(xθ)f(x|\theta)本身(如果在x连续的话)在x处的概率为0,为了方便考虑一维情况:给定一个充分小ϵ>0\epsilon>0,那么随机变量取值在区间(xϵ,x+ϵ)(x-\epsilon, x+\epsilon)内的概率即为
    Pθ(xϵ<X<x+ϵ)=xϵx+ϵf(xθ)dx2ϵf(xθ)=2ϵL(θx)P_\theta(x-\epsilon < X < x+\epsilon)=\int_{x-\epsilon}^{x+\epsilon}f(x|\theta)dx \approx 2\epsilon f(x|\theta) = 2\epsilon L(\theta|x)
    并且两个未知参数的情况下做比就能约掉2ϵ2\epsilon,所以和离散情况下的理解一致,只是此时似然所表达的那种可能性和概率f(xθ)=0f(x|\theta)=0无关。

    综上,概率(密度)表达给定θ\theta下样本随机向量的可能性,而似然表达了给定样本X=xX=x下参数θ1\theta_1(相对于另外的参数θ2\theta_2)为真实值的可能性。我们总是对随机变量的取值谈概率,而在非贝叶斯统计的角度下,参数是一个实数而非随机变量,所以我们一般不谈一个参数的概率。

    最后我们再回到L(θx)=f(xθ)L(\theta|x)=f(x|\theta)这个表达。首先我们严格记号,竖线|表示条件概率或者条件分布,分号;表示把参数隔开。所以这个式子的严格书写方式是L(θx)=f(x;θ)L(\theta|x)=f(x;\theta)因为θ\theta在右端只当作参数理解。

    1.2 频率学派和贝叶斯派

    在说极大似然估计(Maximum Likelihood Estimate)与最大后验概率估计(Maximum A Posteriori estimation)之前,不得不说对于概率看法不同的两大派别频率学派与贝叶斯派。他们看待世界的视角不同,导致他们对于产生数据的模型参数的理解也不同。

    • 频率学派
      他们认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率。他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在 大数据量 的情况下可以很好的还原模型的真实情况。

    • 贝叶斯派
      他们认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。 他们不试图对事件本身进行建模,而是从旁观者的角度来说。因此对于同一个事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同。
      他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计(MAP),这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。
      极大似然估计与最大后验概率估计

    二、极大似然估计

    极大似然估计的核心思想是:认为当前发生的事件是概率最大的事件。因此就可以给定的数据集,使得该数据集发生的概率最大来求得模型中的参数。似然函数如下:
    p(Xθ)=x1xnp(xiθ)p(X|\theta)=\prod_{x_1}^{x_n}p(x_i|\theta)
    为了便于计算,我们对似然函数两边取对数,生成新的对数似然函数(因为对数函数是单调增函数,因此求似然函数最大化就可以转换成对数似然函数最大化):
    p(Xθ)=x1xnp(xiθ)=x1xnlogp(xiθ)p(X|\theta)=\prod_{x_1}^{x_n}p(x_i|\theta)=\sum_{x_1}^{x_n}log p(x_i|\theta)
    求对数似然函数最大化,可以通过一阶优化算法如sgd或者二阶优化算法如Newton求解。

    极大似然估计只关注当前的样本,也就是只关注当前发生的事情,不考虑事情的先验情况。由于计算简单,而且不需要关注先验知识,因此在机器学习中的应用非常广,最常见的就是逻辑回归的求解就是用的极大似然估计。

    三、最大后验估计

    和最大似然估计不同的是,最大后验估计中引入了先验概率(先验分布属于贝叶斯学派引入的,像L1,L2正则化就是对参数引入了拉普拉斯先验分布和高斯先验分布),最大后验估计可以写成下面的形式:
    argmaxp(x)=argmaxp(Xθ)p(θ)p(X)=argmaxP(Xθ)p(θ)=argmax(x1xnp(xiθ))p(θ)argmax p(x)= argmax \frac{p(X|\theta)p(\theta)}{p(X)}=argmax P(X|\theta)p(\theta)=argmax(\prod_{x_1}^{x_n}p(x_i|\theta))p(\theta)
    在求最大后验概率时,可以忽略分母p(X)p(X),因为该值不影响对θθ的估计。

    同样为了便于计算,对两边取对数,后验概率最大化就变成了:(在极大似然法估计的过程中,因为极大似然假设[公式]是一个定值而不是一个随机变量,并不假设它的分布情况而当作一个常量处理所以p([公式])=1带入map的式子消去就得到了mle的极大似然函数式了)
    argmax(x1xnlogp(xiθ)+logp(θ))argmax(\sum_{x_1}^{x_n}log p(x_i|\theta)+logp(\theta))
    我们和极大似然估计(p(Xθ)=x1xnp(xiθ)=x1xnlogp(xiθ)p(X|\theta)=\prod_{x_1}^{x_n}p(x_i|\theta)=\sum_{x_1}^{x_n}log p(x_i|\theta))比较一下:最大后验估计不只是关注当前的样本的情况,还关注已经发生过的先验知识。

    最大后验估计和极大似然估计的区别:最大后验估计允许我们把先验知识加入到估计模型中,对于逻辑回归,在公式上的表达就是多了一个log P(theta)的项,这在样本很少的时候是很有用的(因此朴素贝叶斯在较少的样本下就能有很好的表现),因为样本很少的时候我们的观测结果很可能出现偏差,此时先验知识会把估计的结果“拉”向先验,实际的预估结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数,比如beta分布的α,β,我们还可以调节把估计的结果“拉”向先验的幅度,α,β越大,这个顶峰越尖锐。这样的参数,我们叫做预估模型的“超参数”。(但是这也和我们选取的先验有关,如果先验的概率选取不当反而会适得其反)

    参考文献

    [1] 如何理解似然函数
    [2] 先验概率,后验概率与似然函数
    [3] 极大似然估计与最大后验概率估计
    [4] 极大似然估计、最大后验估计和贝叶斯估计

    展开全文
  • 为了解决在估计条件自回归极差模型...证明了对数正态分布下的拟极大似然估计是局部相合和渐近正态的,并且对数正态分布的厚尾性也较好地解决了异常值问题相对于目前广泛采用的指数似然估计方法,提高了参数估计的效率。
  • 求最大似然估计量 θ^θ^\hat\theta 的一般步骤: 写出似然函数 对似然函数取对数,并整理 求导数 解似然方程。 最大似然估计的特点: ...1) 比其他估计方法更加简单 ...最大似然估计的目的就是:利...
  •  极大似然估计法是求估计值另一种方法,最早由高斯(R.A,Gauss)提出,后来为费史(Fisher)在1912年重新提出,并证明该方法一些性质.它是建立在极大似然原理基础上一个统计方法.  极大似然原理:一个随机...
  • 原创致GreatChallengeHub 2019-06-17 16:14:53 手机阅读 收录于话题 #机器学习课程 ...极大似然估计的思想是:选取这样的θ̂,使得当它作为未知参数θ的估计时,观察结果出现的可能性(概率)...
  • 据参数估计的性质不同,分成点估计:用样本统计量的某一具体数值直接推断未知的总体参数,常用方法包括极大似然估计、贝叶斯估计、矩估计、最小二乘法等; 区间估计:在点估计的基础上,由样本统计量所构造的总体...
  • 简述最小二乘和极大似然估计的原理,思想?相同点以及异同? 最小二乘估计和极大似然估计简述最小二乘和极大似然估计的原理,思想?相同点以及异同?1、多元线性回归方程的矩阵表示1.1 最小二乘估计的原理、思想及...
  • 极大似然估计的直观理解 先来看看维基百科关于“似然函数”的定义: 在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数在统计推断中有重大作用,如在最大似然估计和...
  • 极大似然估计(Maximum Likelihood Estimate)一、背景知识二、从概率模型理解极大似然估计三、极大似然估计的理论原理四、应用场景 一、背景知识 1822年首先由德国数学家高斯(C. F. Gauss)在处理正态分布时首次...
  • 极大似然估计标准差

    千次阅读 2017-01-09 19:28:40
    极大似然估计有很好渐进性质,在一定正则条件下具有强相合性和渐进正态性。 预备知识 设X1,X2,...,XnX_1,X_2,...,X_n为独立同分布样本,X1∼f(x1,θ),l(θ,x1)=logf(x1,θ)X_1\sim f(x_1,\theta), \quad l(\...
  • 极大似然估计的直观解释-转

    千次阅读 2009-11-13 15:09:00
    教材云: 极大似然估计法是求估计值另一种方法,最早由高斯(R.A,Gauss)提出,后来为费史(Fisher)在1912年重新提出,并证明该方法一些性质.它是建立在极大似然原理基础上一个统计方法. 极大似然原理:一个...
  • 极大似然估计法是在总体分布类型已知条件下所使用一种参数估计方法 它首先是由德国数学家Gauss在1821年提出,然而,这个方法常归功于英国统计学家Fisher Fisher在1922年重新发现了这一方法,并首先研究了...
  • 在参数估计中,我们通常喜欢用极大似然估计来估计一个参数,这样估计的参数通常具有良好的性质,但有时其并不那么容易求解。在参数估计中,矩估计的计算方法较为简易,但其结果的偏差通常会很大。这里我将给出截尾...
  • 简介 条件对数似然和均方误差 最大似然的性质一般提到估计,我们首先想到的是通过输入,估计输出。这时,有很多准则,比如...极大似然估计就可以帮我们从函数空间中选定特定的函数作为好的估计简单来说,就对于y=f(x
  • (Maximum Likelihood Estimation) 对于一组数据,我们常用某种模型对其进行...根据参数估计的性质不同,可以将参数估计的方法分为点估计和区间估计。 点估计是通过样本统计量来推断未知总体的参数,如调查一个地区...
  • 极大似然估计(MR)

    2020-07-22 10:08:44
    概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性,比如抛硬币,抛之前我们不知道最后是哪一面朝上,但是根据硬币的性质我们可以推测任何一面朝上的...
  • Log-GARCH模型及 Nelson(1991)提出 EGARCH模型基础上,提出了非对称Log-GARCH( Asymmetric Log-GARCH)模型,该模型不仅考虑了信息非对称效应,和 EGARCH模型相比,在重尾误差下更容易得到准极大似然估计,最后文章...
  • 导读:极大似然估计(MLE) 是统计机器学习中最基本的概念,但是能真正全面深入地理解它的性质和背后和其他基本理论的关系不是件容易的事情。极大似然估计和以下概念都有着紧密的联系:随机变量,无...
  • 请阅读《机器学习之矩阵微积分及其性质》和《机器学习之线性回归公式推导》。首先我们还是使用如下数据: feature_1 feature_2 feature_n value 1 ... 2 ......
  • 3.10:sigmoid、softplus函数性质 3.11:贝叶斯规则 3.13:信息论基础 3.14:概率图模型基础 4 数值计算 4.1-4.2:上溢和下溢,病态条件 4.3:基于梯度优化方法 4.4:约束优化,KKT方法 4.5:线性...
  • 在数理统计学中,似然函数是一种关于统计模型中的参数的函数,...概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计
  • 表示全量相互排斥且性质关联事物,即: , 那么可以得到 ,这就是全概率公式。 全概率公式意义在于:无法知道一个事物独立发生概率,但是我们可以将其在各种条件下发生概率进行累加获得。 ...
  • 最大似然估计 高斯分布

    千次阅读 2017-05-09 13:35:34
    极大似然估计法是求估计的另一种方法。它最早由高斯提出。后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质极大似然估计这一名称也是费歇给的。这是一种上前仍然得到广泛应用的方法。它是建立在...
  • 最大似然估计

    千次阅读 2012-12-03 11:40:05
    极大似然估计法是求估计的另一种方法。它最早由高斯提出。后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质极大似然估计这一名称也是费歇给的。这是一种上前仍然得到广泛应用的方法。它是建立在...

空空如也

空空如也

1 2 3 4 5 ... 8
收藏数 155
精华内容 62
关键字:

极大似然估计的性质