精华内容
下载资源
问答
  • 无偏估计

    千次阅读 2019-08-14 11:34:28
    目录 ...5如何理解无偏估计量? 5.1 偏性 5.2有效性 5.3一致性 5.4 总结 参考百度百科:https://baike.baidu.com/item/%E6%97%A0%E5%81%8F%E4%BC%B0%E8%AE%A1%E9%87%8F/303853?fr=aladdin ...

     

    目录

    1 定义

    2 实际意义

    3 结论

    3.1 结论一

    3.2 结论二

    4 应用

    5 如何理解无偏估计量?

    5.1 无偏性

    5.2 有效性

    5.3 一致性

    5.4 总结


    参考百度百科:https://baike.baidu.com/item/%E6%97%A0%E5%81%8F%E4%BC%B0%E8%AE%A1%E9%87%8F/303853?fr=aladdin

    1 定义

          对于待估参数,不同的样本值就会得到不同的估计值。这样,要确定一个估计量的好坏,就不能仅仅依据某次抽样的结果来衡量,而必须由大量抽样的结果来衡量。对此,一个自然而基本的衡量标准是要求估计量无系统偏差。也就是说,尽管在一次抽样中得到的估计值不一定恰好等于待估参数的真值,但在大量重复抽样时,所得到的估计值平均起来应与待估参数的真值相同,换句话说,希望估计量的均值数学期望应等于未知参数的真值,这就是所谓无偏性(Unbiasedness)的要求。数学期望等于被估计的量统计估计量称为无偏估计量

            设  是来自总体X的一个样本,θ是包含在总体X的分布中的待估参数。若估计量  

    的数学期望  存在,且有  ,则称  是θ的无偏估计量。

    2 实际意义

            在科学技术中,  称为以  作为θ的估计的系统误差,无偏估计的实际意义就是系统误差。例如,设总体X均值?方差σ²都存在但均未知,因为  ,  ,这就是说不论总体服从什么分布,其样本均值总体均值无偏估计样本方差总体方差的无偏估计。若  ,则称  是θ的渐进无偏估计量

    3 结论

    3.1 结论一

            设总体X的k阶中心矩  存在,  是X的一个样本,不论X服从什么分布, 

    是  的无偏估计量。特别地,不论X服从什么分布,只要E(X)存在,  总是E(X)的无偏估计。

    证明:

            因为  与X同分布,所以  。

              

    注:距的初步理解:https://www.jianshu.com/p/c4aaa8ddb02f?mType=Group

           k阶矩、原点矩、中心距: https://blog.csdn.net/u013066730/article/details/95978646

           中心距:https://baike.baidu.com/item/%E4%B8%AD%E5%BF%83%E7%9F%A9/4111480?fr=aladdin

    3.2 结论二

            对于总体X,设E(X)=?,D(X)=σ²都存在,且σ²>0,若?,σ²均未知,则σ²的估计量

    是有偏的。另一方面,由于  ,所以  是σ²的渐进无偏估计量。

    证明:

    因为  ,而

    所以

      是σ²的有偏估计。若在  的两边同乘  ,即  ,而  。

            可见样本方差S²可以作为方差σ²的估计,而且是无偏估计。因此常用S²作为方差σ²的估计量。从无偏估计量的角度考虑,S²比二阶中心矩作为  的估计好。

            为什么样本方差(sample variance)的分母是 n-1?:https://www.matongxue.com/madocs/607.html

    4 应用

            在实际应用中,对整个系统(整个实验)而言无系统偏差,就一次实验来讲,  可能偏大也可能偏小,实质上并说明不了什么问题,只是平均来说它没有偏差,所以无偏性只有在大量的重复实验中才能体现出来;另一方面,无偏估计只涉及一阶矩(均值),虽然计算简便,但往往会出现一个参数的无偏估计有多个,而无法确定哪个估计量好。因此,无偏性的作用在于可以把重复估计中的各次误差通过平均来消除。这并不意味着该估计量在一次使用时并能获得良好的结果。在具体问题中,无偏性是否合理,应当结合具体情况来考虑。在有些问题中,无偏性的要求可能会导出不同的结果来。

            事实上,  中的每一个均可作为θ的无偏估计量,究竟哪个估计量更合理,就看哪个估计量的观察值更接近真实值,即估计量的观察值更密集地分布在真实值附近。而方差能反映随机变量取值的分散程度,所以无偏估计以方差最小者为最好、最合理,为此后人引进了估计量的有效性概念。

    5 如何理解无偏估计量?

           参考:https://www.matongxue.com/madocs/808.html

            现实中常常有这样的问题,比如,想知道全体女性的身高均值,但是没有办法把每个女性都进行测量,只有抽样一些女性来估计全体女性的身高:

    那么根据抽样数据怎么进行推断?什么样的推断方法可以称为“好”?

    5.1 无偏性

    比如说我们采样到的女性身高分别为:

                             

    那么:

    是对不错的一个估计,为什么?因为它是无偏估计。

    首先,真正的全体女性的身高均值,我们是不知道,只有上帝才知道,在图中就画为虚线:

    我们通过采样计算出

    会发现,不同采样得到的是围绕左右波动的:

    这有点像打靶,只要命中在靶心周围,还算不错的成绩:

    如果用以下式子去估计方差

              

    就会产生偏差:

            

    这个偏差经过计算,就是:

    详见  :为什么样本方差(sample variance)的分母是 n-1?:https://mp.csdn.net/postedit/99563251

    5.2 有效性

            指估计量与总体参数的离散程度,如果两个估计量都是无偏的,那么离散程度较小的估计量相对来说是有效的,离散程度用方差来衡量。

    打靶的时候,右边的成绩肯定更优秀:

            

           进行估计的时候也是,估计量越靠近目标效果越“好”。这个“靠近”可以用方差来衡量。

           比如,仍然对进行估计,方差越小,估计量的分布越接近

              

    有效估计无偏估计是不相关的:

    举个例子,从中抽出10个样本:

    下面两个都是无偏估计量:

    但是后者比前者方差小,后者更有效。

    并且在现实中不一定非要选无偏估计量,比如:

               

    如果能接受点误差,选择右边这个估计量更好。

    注:有效估计值(https://baike.baidu.com/item/%E6%9C%89%E6%95%88%E4%BC%B0%E8%AE%A1%E5%80%BC/521602)

            有效估计值是指在诸多无偏估计值中具有最小方差的无偏估计值,是在无偏估计基础上的一种估计方法。

    (1)前提

             无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。无偏估计常被应用于测验分数统计中  。

            具有最小方差的无偏估计的判别方法如下:

            设  是  的一个无偏估计,  若对任何满足条件:  的统计量  ,有

                                         

            则无偏估计  是  的最小方差无偏估计。

    (2)定义

            由样本值求得的估计值方差越小,估计值接近待估参数概率越大,种特性称为估计有效性 [2]  。

            设  是  的一个无偏估计,若

                                

               则  是  的有效估计。

               因为多次测定的平均值比单次测定值具有更好的精密度,因此,用平均值要比单次测定值xi作为总体均值μ的估计值更有效。在正态分布中,不知总体分布时,均值仍然可以作为分布的无偏估计值,但不是有效的。有结果(Gauss-Markov Theorem)指向这个结论,均值比总体均值μ的其他线性无偏估计值拥有更小的方差。

    (3)性质

    (1)设  是  的任一无偏估计,称

                        

            为估计量的效率,且显然  。

    (2)如果无偏估计量的效率满足

                           

             则称  为渐进有效估计。

    (3)如果  为有效估计,则它也是最小方差无偏估计,但反之却不成立。

    5.3 一致性

         之前说了,如果用以下式子去估计方差

    会有一个偏差:

    可以看到,随着采样个数的增加,这个偏差会越来越小。那么这个估计就是“一致”的。

    如果样本数够多,其实这种有偏但是一致的估计量也是可以选的。

    5.4 总结

    判断一个估计量“好坏”,至少可以从以下三个方面来考虑:

    • 无偏
    • 有效
    • 一致

    实际操作中,要找到满足三个方面的量有时候并不容易,可以根据情况进行取舍。

     

     

     

     

     

     

     

     

    展开全文
  • 只是在对于样本的方差估计上分无偏估计(unbiased estimator)与有偏估计(biased estimator)。因此, 样本方差计算 1 n ∑ i = 1 n ( X i − μ ) 2 \frac{1}{n} \displaystyle\sum_{i=1}^n\Big(X_i -\mu\Big)^2 ...

            在机器学习当中,我们会经常遇到有关朴素贝叶斯的知识。其出现频率可以说是占据ML的半壁江山。作为热门的概率论的分类方法,有必要对其深入了解。加之前不久的面试笔试部分,有一道简述极大似然和贝叶斯的原理与区别的问题。因此更加加剧了我学习写下这篇文章的想法。下面算是我对知识的整理及认识,不算面面俱到,但也体现了我的整体思路,欢迎读者讨论或指正。

    极大似然估计与贝叶斯估计的区别
    贝叶斯公式

    P(wx)=P(xw)P(w)P(x)

    这里解释一下符号的含义:
    x :已知条件或者已有的数据
    w:条件样本,个人理解在某个 x 样本中,w为可能存在的行为或者样本。(注意,在极大似然估计中也可理解为要估计的参数,因为两种方法对待w的态度不同,后面会有介绍)
    P(w) :先验概率
    P(x) :数据的分布,即某个数据样本在整体出现的概率
    P(wx) :后验概率
    P(xw) :条件概率或极大似然函数
            关于理解先验和后验两者的概念,这里直接给出链接。里面的例子足够解释其关系。总体概括就是 P(BA) 以后者A为前提下发生B的概率,反之亦然。
    参考链接: https://www.zhihu.com/question/19725590
            贝叶斯估计根据先验概率与已知条件概率(似然函数)计算后验概率,其参数服从某种概率,当数据量较小时,以先验概率作为提高后验概率的基准。
            贝叶斯估计认为事物依据概率分布的,所以在预测某样本数据时,可以依据概率产生的“经验”。无论其是否可靠,这种“经验”都会被作为已知条件。
            相反,极大似然估计靠已有的数据样本从而推测出事物的最有可能的分布概率。所以在数据样本量大的情况下,这种概率更为可靠。两种思想对于概率(在此称其为参数)的态度不同。 极大似然估计就是假设一个参数 θ ,然后根据数据来求出这个 θ 而贝叶斯估计的难点在于 p(θ) 需要人为设定。

    极大似然估计模型推导
            已知样本集 D={x1,x2,,xn} ,对于样本集的理解有如下例子:假设有一个装了黑色和灰色石头的罐子,从罐子里面每次取一颗石头,取3次,得到2次灰色1次黑色,假设条件独立。则有 n=3 ;记灰色石子为G,黑色为B,则有 D={GGB} ;取到灰色石子概率为 θ ,则取到黑色 1θ
            我们有 P(Dθ) 似然函数,则求最大的 θ ,因此称之为极大似然估计,有公式:

    argmaxθP(Dθ)

            又有:
    P(Dθ)=i=1nP(xiθ)

            当 P(Dθ) 的导数等于0的情况下,可以得到最大的 θ 。因此上面的例子就有:
    P(Dθ)=P(x1θ)P(x2θ)P(x3θ)=θθ1θ
    求导:
    2θ3θ2=0
    得到从罐子中取出石头颜色为灰色的概率 2/3

            对于较难求导的似然函数,我们可以选择对数似然函数,根据对数运算可得:

    lni=1nP(xiθ)=i=1nlnP(xiθ)
    从而对右侧进行求导。

            网上还有提及到样本成正态分布的对数似然函数推导公式,在此不做列举了。只是在对于样本的方差估计上分无偏估计(unbiased estimator)与有偏估计(biased estimator)。因此,样本方差计算

    1ni=1n(Xiμ)2

    当不知道 μ 的去情况下,可以使用样本平均值 X¯¯¯ 来计算:

    1n1i=1n(XiX¯¯¯)2

    参考链接:https://www.zhihu.com/question/20099757
    链接很好的回答了其中无偏估计比有偏估计更符合常识的原因。

    展开全文
  • 09.第三章 点估计(4)

    2020-09-10 23:07:41
    C-R不等式是判别一个无偏估计量是否为UMVUE的方法之一,其思想是对于g(θ)g(\theta)g(θ)的无偏估计类Ug\mathscr U_gUg​,里面的无偏估计有一个方差下界,如果能找到一个g^\hat gg^​的方差到达这个下界,这个g^\...

    第三章 点估计(4)

    1.Cramer-Rao不等式(C-R不等式)

    C-R不等式是判别一个无偏估计量是否为UMVUE的方法之一,其思想是对于 g ( θ ) g(\theta) g(θ)的无偏估计类 U g \mathscr U_g Ug,里面的无偏估计有一个方差下界,如果能找到一个 g ^ \hat g g^的方差到达这个下界,这个 g ^ \hat g g^就是 g ( θ ) g(\theta) g(θ)的一个UMVUE。这个方差下界,就由C-R不等式取得。

    要满足这个不等式,需要满足一定的条件——正则条件。对于单参数概率函数族 F = { f ( x , θ ) , θ ∈ Θ } \mathscr F=\{f(x,\theta),\theta\in\Theta\} F={f(x,θ),θΘ},满足以下条件:

    1. 参数空间 Θ \Theta Θ是直线上的某个开区间

    2. 对任何 x ∈ X x\in \mathscr X xX θ ∈ Θ \theta \in \Theta θΘ f ( x , θ ) > 0 f(x,\theta)>0 f(x,θ)>0,即分布族拥有共同的支撑;

    3. 对任何 x ∈ X x\in \mathscr X xX θ ∈ Θ \theta \in \Theta θΘ ∂ f ( x , θ ) ∂ θ \frac{\partial f(x,\theta)}{\partial\theta} θf(x,θ)存在;

    4. 概率函数 f ( x , θ ) f(x,\theta) f(x,θ)的积分与微分可交换,即
      ∂ ∂ θ ∫ f ( x , θ ) d x = ∫ ∂ ∂ θ f ( x , θ ) d x \frac{\partial }{\partial \theta}\int f(x,\theta)dx=\int \frac{\partial}{\partial\theta}f(x,\theta)dx θf(x,θ)dx=θf(x,θ)dx
      如果是离散随机变量的分布,则无穷级数与微分可交换。

    5. Fisher信息量 I ( θ ) I(\theta) I(θ)存在,且 0 < I ( θ ) < ∞ 0<I(\theta)<\infty 0<I(θ)<,这里
      I ( θ ) = E θ [ ∂ ln ⁡ f ( x , θ ) ∂ θ ] 2 I(\theta)=E_\theta\left[\frac{\partial\ln f(x,\theta)}{\partial \theta}\right]^2 I(θ)=Eθ[θlnf(x,θ)]2

    满足以上五个条件的分布族被称为C-R正则分布族,这五个条件称为C-R正则条件。

    对于满足C-R正则条件的分布族, g ^ ( X ) \hat g(X) g^(X) g ( θ ) g(\theta) g(θ)的任一无偏估计,且满足
    ∫ ⋯ ∫ g ^ ( x ) f ( x , θ ) d x , d x = d x 1 ⋯ d x n \int\cdots\int\hat g(\boldsymbol x)f(\boldsymbol x,\theta)d\boldsymbol x,d\boldsymbol x=dx_1\cdots dx_n g^(x)f(x,θ)dx,dx=dx1dxn
    可以在积分下对 θ \theta θ求导数,则有以下不等式(C-R不等式)成立:
    D θ [ g ^ ( X ) ] ≥ ( g ′ ( θ ) ) 2 n I ( θ ) , ∀ θ ∈ Θ D_\theta[\hat g(\boldsymbol X)]\ge\frac{(g'(\theta))^2}{nI(\theta)},\forall \theta\in \Theta Dθ[g^(X)]nI(θ)(g(θ))2,θΘ
    特别当 g ( θ ) = θ g(\theta)=\theta g(θ)=θ时,有 D θ [ g ^ ( X ) ] ≥ ( n I ( θ ) ) − 1 D_\theta[\hat g(\boldsymbol X)]\ge (nI(\theta))^{-1} Dθ[g^(X)](nI(θ))1

    对于一般的分布族,要验证是否符合1~5正则条件与积分号下可微的条件,比较麻烦;但对于指数族,上述六条性质都满足。

    C-R不等式给出的C-R下界并不一定就是UMVUE的方差,有时候UMVUE是达不到这个C-R下界的。这种情况下只能说用C-R不等式不能判别。关于能否达到C-R下界(即能否使不等式的等号成立),有以下结论:

    1. 如果样本分布族不是指数族,则任何 g ( θ ) g(\theta) g(θ)的无偏估计,其方差不能处处达到C-R不等式中的下界。
    2. 即使分布族是指数族,也唯有在 g ( θ ) = E θ ( a T ( X ) + b ) g(\theta)=E_\theta(aT(\boldsymbol {X})+b) g(θ)=Eθ(aT(X)+b),即 g ^ ( X ) = a T ( X ) + b \hat g(\boldsymbol X)=aT(\boldsymbol{X})+b g^(X)=aT(X)+b的情形下,才能够让估计量处处达到C-R下界。这里 a , b a,b a,b X \boldsymbol X X无关,但可以是 θ \theta θ的函数。

    2.Fisher信息函数

    Fisher信息函数即C-R不等式中的
    I ( θ ) = E θ [ ∂ ln ⁡ f ( X , θ ) ∂ θ ] 2 I(\theta)=E_\theta\left[\frac{\partial \ln f(X,\theta)}{\partial \theta}\right]^2 I(θ)=Eθ[θlnf(X,θ)]2
    不妨令 g ( θ ) = θ g(\theta)=\theta g(θ)=θ,并且其C-R下界可达到,则UMVUE的方差下界为 1 n I ( θ ) \frac{1}{nI(\theta)} nI(θ)1,如果 n I ( θ ) nI(\theta) nI(θ)越大,则说明 g ( θ ) g(\theta) g(θ)可以估计得越精。

    n n n作为样本容量,若以估计量方差的倒数作为精度的指标,则精度与样本容量成正比; I ( θ ) I(\theta) I(θ)则反映总体的性质,如果 I ( θ ) I(\theta) I(θ)越大,则意味着总体的参数越容易估计,总体模型本身提供的信息量越多,因此将 I ( θ ) I(\theta) I(θ)看作总体蕴含信息量的指标——信息函数。

    整个样本中,每一个样本的地位是平等的,所以整个样本提供的信息量是 n I ( θ ) nI(\theta) nI(θ),此时信息量 I ( θ ) I(\theta) I(θ)也可以被看作单个样本提供的信息量。

    在极大似然估计MLE的渐进正态相合性中,我们得到的结论是
    n ( θ ^ ∗ − θ ) ⟶ L N ( 0 , 1 I ( θ ) ) 即 θ ^ ∗ ⟶ L N ( θ , 1 n I ( θ ) ) \sqrt{n}(\hat \theta^*-\theta)\stackrel{\mathscr{L}}{\longrightarrow }N(0,\frac1{I(\theta)})\\ 即\hat\theta^*\stackrel{\mathscr L}{\longrightarrow}N(\theta,\frac1{nI(\theta)}) n (θ^θ)LN(0,I(θ)1)θ^LN(θ,nI(θ)1)
    即样本的信息量 n I ( θ ) nI(\theta) nI(θ)是MLE方差的倒数,这表明 I ( θ ) I(\theta) I(θ)越大,用MLE来估计 θ \theta θ就越精确。

    3.多参数C-R不等式

    矩阵的比较:设 A = ( a i j ) , B = ( b i j ) A=(a_{ij}),B=(b_{ij}) A=(aij),B=(bij)是同阶非负定矩阵,若 A − B A-B AB是非负定的,则记作 A ≥ B A\ge B AB,此时必有 a i i ≥ b i i , ∀ i a_{ii}\ge b_{ii},\forall i aiibii,i

    现设 θ = ( θ 1 , ⋯   , θ k ) \boldsymbol \theta=(\theta_1,\cdots,\theta_k) θ=(θ1,,θk),总体概率函数记作 f ( x , θ ) f(x,\boldsymbol \theta) f(x,θ) X = ( X 1 , ⋯   , X n ) \boldsymbol X=(X_1,\cdots,X_n) X=(X1,,Xn)是总体中抽取的简单随机样本。设 θ ^ = θ ^ ( X ) = ( θ ^ 1 , ⋯   , θ ^ k ) \hat {\boldsymbol \theta}=\hat \theta(\boldsymbol X)=(\hat \theta_1,\cdots,\hat \theta_k) θ^=θ^(X)=(θ^1,,θ^k) θ \boldsymbol \theta θ的一个无偏估计, C o v θ ^ ( θ ^ ) Cov_{\boldsymbol {\hat {\theta}}}(\hat {\boldsymbol \theta}) Covθ^(θ^)为其协方差矩阵,它是一个 k k k阶非负定方阵, ( i , j ) (i,j) (i,j)元为 E θ ^ [ ( θ ^ i − θ i ) ( θ ^ j − θ j ) ] E_{\hat{\boldsymbol \theta}}[(\hat \theta_i-\theta_i)(\hat \theta_j - \theta_j)] Eθ^[(θ^iθi)(θ^jθj)],则C-R不等式表现为
    C o v θ ^ ( θ ^ ) ≥ ( n I ( θ ) ) − 1 I ( θ ) = ( I i j ( θ ) ) I i j ( θ ) = E θ [ ( ∂ ln ⁡ f ( X , θ ) ∂ θ i ) ( ∂ ln ⁡ f ( X , θ ) ∂ θ j ) ] Cov_{\hat {\boldsymbol \theta}}(\hat {\boldsymbol \theta})\ge(n\boldsymbol I(\boldsymbol \theta))^{-1}\\ \boldsymbol I(\boldsymbol \theta)=(I_{ij}(\boldsymbol \theta))\\ I_{ij}(\boldsymbol \theta)=E_\boldsymbol \theta \left[ \left( \frac{\partial \ln f(\boldsymbol X,\boldsymbol \theta)}{\partial \theta_i} \right) \left( \frac{\partial \ln f(\boldsymbol X,\boldsymbol\theta)}{\partial \theta_j} \right) \right] Covθ^(θ^)(nI(θ))1I(θ)=(Iij(θ))Iij(θ)=Eθ[(θilnf(X,θ))(θjlnf(X,θ))]
    如果要判断其中每一个分量 θ ^ i \hat \theta_i θ^i的方差下界,则相对应地寻找 ( n I ( θ ) ) − 1 (n\boldsymbol I(\boldsymbol \theta))^{-1} (nI(θ))1的第 ( i , i ) (i,i) (i,i)项,这就是 θ ^ i \hat \theta_i θ^i的方差C-R下界。

    4.估计的效率

    估计的效率指无偏估计方差达到C-R下界的程度,由于
    D ( g ^ ( X ) ) ≥ ( g ′ ( θ ) ) 2 n I ( θ ) D(\hat g(X))\ge\frac{(g'(\theta))^2}{nI(\theta)} D(g^(X))nI(θ)(g(θ))2
    因此控制效率在 ( 0 , 1 ] (0,1] (0,1]之间,记无偏估计 g ^ ( X ) \hat g(X) g^(X)的效率为
    e g ^ ( θ ) = ( g ′ ( θ ) ) 2 D ( g ^ ( X ) ) ⋅ n I ( θ ) e_{\hat g}(\theta)=\frac{(g'(\theta))^2}{D(\hat g(X))\cdot nI(\theta)} eg^(θ)=D(g^(X))nI(θ)(g(θ))2
    如果 e g ^ ( θ ) = 1 e_{\hat g}(\theta)=1 eg^(θ)=1,则称 g ^ ( X ) \hat g(X) g^(X) g ( θ ) g(\theta) g(θ)的有效估计,显然有效估计一定是UMVUE,但反之却不一定。很多UMVUE不是有效估计,这是因为C-R下界偏小,在很多场合达不到;也有可能因为分布族不是指数族、不满足正则条件,引起C-R不等式不成立,此时C-R下界就没意义了。

    如果随着样本容量的增加,估计效率趋近于1,即 lim ⁡ n → ∞ e g ^ ( θ ) = 1 \lim \limits_{n\to \infty} e_{\hat g}(\theta)=1 nlimeg^(θ)=1,则称 g ^ ( X ) \hat g(X) g^(X) g ( θ ) g(\theta) g(θ)的渐进有效估计。

    展开全文
  • 极大似然估计详解

    2018-04-19 11:33:26
    极大似然估计  以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:贝叶斯决策  首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:  其中...

    极大似然估计

            以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:


    贝叶斯决策

            首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:


            其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下。

            我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?

            从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。

            设:

            由已知可得:

            男性和女性穿凉鞋相互独立,所以

    (若只考虑分类问题,只需要比较后验概率的大小,的取值并不重要)。

            由贝叶斯公式算出:


    问题引出

            但是在实际问题中并不都是这样幸运的,我们能获得的数据可能只有有限数目的样本数据,而先验概率和类条件概率(各类的总体分布)都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。

            先验概率的估计较简单,1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计。

            类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息;样本数据可能不多;特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是,把估计完全未知的概率密度转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。


    重要前提

            上面说到,参数估计问题只是实际问题求解过程中的一种简化方法(由于直接估计类条件概率密度函数很困难)。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设。

            重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。


    极大似然估计

            极大似然估计的原理,用一张图片来说明,如下图所示:


            总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

            原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

            由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:


            似然函数(linkehood function):联合概率密度函数称为相对于的θ的似然函数。


            如果是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量。它是样本集的函数,记作:



    求解极大似然函数

            ML估计:求使得出现该组样本的概率最大的θ值。


             实际中为了便于分析,定义了对数似然函数:



            1. 未知参数只有一个(θ为标量)

            在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:


            2.未知参数有多个(θ为向量)

            则θ可表示为具有S个分量的未知向量:


             记梯度算子:


             若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。


             方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。


    极大似然估计的例子

            例1:设样本服从正态分布,则似然函数为:


            它的对数:


            求导,得方程组:


            联合解得:


            似然方程有唯一解:,而且它一定是最大值点,这是因为当时,非负函数。于是U和的极大似然估计为


            例2:设样本服从均匀分布[a, b]。则X的概率密度函数:


            对样本


            很显然,L(a,b)作为a和b的二元函数是不连续的,这时不能用导数来求解。而必须从极大似然估计的定义出发,求L(a,b)的最大值,为使L(a,b)达到最大,b-a应该尽可能地小,但b又不能小于,否则,L(a,b)=0。类似地a不能大过,因此,a和b的极大似然估计:



    总结

            求最大似然估计量的一般步骤:

            (1)写出似然函数;

            (2)对似然函数取对数,并整理;

            (3)求导数;

            (4)解似然方程。

            最大似然估计的特点:

            1.比其他估计方法更加简单;

            2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;

            3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。


    正态分布ML估计的Matlab实例:点击打开链接

    原文地址:https://blog.csdn.net/zengxiantao1994/article/details/72787849

    展开全文
  • 贝叶斯估计和极大似然估计到底有何区别

    万次阅读 多人点赞 2017-03-12 21:28:00
    在开始接触最大似然估计和贝叶斯估计时,大家都会有个疑问:最大似然估计和贝叶斯估计二者很相似,到底有何区别?本文便来说说二者的不同之处以及推导二者使用时的数学模型!预热知识必知如何求类条件概率密度: ...
  • 贝叶斯估计和极大似然估计

    千次阅读 2018-10-20 11:18:33
    在开始接触最大似然估计和贝叶斯估计时,大家都会有个疑问:最大似然估计和贝叶斯估计二者很相似,到底有何区别?本文便来说说二者的不同之处以及求参模型的公式推导! 预热知识必知 如何求类条件概率密度: ...
  • 在正态分布中,我们对公式求导,将对于各个参数的导数置为零,就可以得到各个参数的极大似然估计: μ = 1 / | D c | ∑ x     ( x ∈ D c ) σ 2 = 1 / | D c | ∑ ( x − μ ) ( x − μ ) T     ( x ∈ D ...
  • 参数估计

    2018-12-03 17:43:50
    参数的点估计 设总体XXX服从某种已知分布,如正态分布N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2),泊松分布P(λ)P(\lambda)P(λ),指数分布E(λ)E...判别估计量好坏的标准 正态总体参数的区间估计 区间估计的基本概念 ...
  • 最小二乘(Partial Least Squares,PLS)原理及模型建立

    千次阅读 多人点赞 2021-08-05 16:00:36
    随着对数据驱动的工业检测与诊断方法的逐步深入,过程监测的多元统计需要总结的东西越来越多,那么今天来整理一下。 内容较多,理论较复杂,建议细品,你品!最好推一遍~ ...最小二乘模型将试图找到X空间的
  • 参考链接: 似然与极大似然估计
  • 摘要 基于概率滤波器和平滑器的生成状态估计器是机器人和自动车辆状态...提出了一种将潜在状态分布参数直接优化为确定性计算图的方法,得到了一种简单有效的梯度下降算法来训练判别估计量。我们证明,这个过程...
  • 最大似然估计方法介绍

    千次阅读 2018-10-06 14:46:58
    1. 什么是最大似然估计? 在一次机器语言的学习中,引入了一个新概念—最大似然估计。然而面对繁琐的数学公式和复杂的推理过程,使我对概念非常模糊,也不懂到底是什么原理,但通过后来的慢慢学习使我对最大似然...
  • 贝叶斯决策、概率估计 本文主要来源于: 东北大学 信息科学与工程学院 人工智能与机器人研究所 陈东岳教授的 模式识别课程笔记。 Introduction   将未知的东西,进行正确的类别划分,叫做classification。怎么用...
  • 估计结果类似无偏估计。 贝叶斯参数估计 参数被视为随机变量,估计其后验分布 我们先来简化一下贝叶斯决策的条件概率密度形式。考虑训练样本对分类决策的影响,后验概率可写作: 首先由于先验概率一般可以...
  • 【知识图谱】知识图谱的基础概念与构建流程

    千次阅读 多人点赞 2019-11-09 18:46:49
    文献[21]提出了一种基于监督学习的开放域聚类算法,其基本思想是基于已知实体的语义特征去搜索日志中识别出命名的实体,然后进行聚类。 1.2 语义类抽取 语义类抽取是指从文本中自动抽取信息来构造语义类并...
  • Selection ratio 指标可以帮助我们来判别不可观测变量选择性误的强度!这背后的原理是系数估计稳定性理论。系数估计稳定性理论讲的是在控制了关键控制变量之后,新加入的控制变量与核心解释变量的残余相关性比较...
  • 基于CNN的2D单人体姿态估计论文综述

    千次阅读 2020-02-06 20:21:56
    Google大佬首次提出,如何使用CNN来进行姿态估计的公式,并且提出了一种使用级联的方式来进行更准确的姿态估计器。作者使用CNN并不是用的分类损失,而是使用线性回归损失,预测的关键点和ground-true 的 L2-loss。...
  • 最小二乘回归是PCA、CCA和传统最小二乘模型的结合。 一、PCA主成分分析: 1.我们希望对数据进行有损压缩,即将属于R^n的x投影为属于R^l的c,有编码函数f(x)=c,使得损失的信息尽量少。同时有对应的解码函数g(c)...
  • 基于深度图像的头部姿态估计

    千次阅读 2016-11-15 09:06:27
    1.头部姿态 ...描述头部方向度参数的有三个:水平转动的航角(Yaw)、垂直转动仰俯角(Pitch)以及左右转动的旋转角(Roll)。如下图所示,一般而言,一个正常的成年人的头部四周运动的范围为:左右偏角
  • 最小二乘回归分析原理详解背景最小二乘回归分析 Partial least squares regression analysis基本思想建模步骤步骤一:分别提取两变量组的第一对成分,并使之相关性达最大步骤二:建立 y1,⋯ ,yp\boldsymbol{y}_...
  • 用SPSS估计HLM层次线性模型模型 2.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA) 3.基于R语言的lmer混合线性回归模型 4.R语言Gibbs抽样的贝叶斯简单线性回归仿真分析 5.在r语言中使用GAM...
  • 3D人体姿态估计(介绍及论文归纳)

    千次阅读 2021-04-27 10:19:46
    3D人体姿态估计基本概念姿态估计难点人体结构化特性2D 姿态估计任务挑战3D 姿态估计问题挑战应用方法数据集类型可用信息姿态数据集PoseTrackCrowdPoseHuman3.6MDensePoseCOCOMPIIFLICLSPRGB数据集Leeds Sports Pose ...
  • 而利用到类别信息的算法如线性判别分析,也会因为小样本问题而有所影响。为了解决这些问题,结合二维最小二乘与非负矩阵分解的非负性思想提出二维非负最小二乘(Two-Dimensional Nonnegative Partial Least ...
  • 基础 频率学派与贝叶斯学派 http://www.douban.com/group/topic/16719644/ ...最大似然估计(Maximum likelihood estimation,MLE) http://baike.baidu.com/view/1918804.htm http:
  • 估计理论(3):充分统计量的完备性

    千次阅读 2020-08-18 10:38:13
      根据下面两个定理,我们知道如果能够找到CRLB界,或者对于线性模型,都能够很容易找到MVU估计。 1、CRLB 【定理3.1:标量参数的CRLB】 假设概率密度函数满足正则条件 E[∂ln⁡p(x;θ)∂θ]=0, {\rm E}\left[\...
  • Human Mesh Recovery from Monocular Images via a Skeleton-disentangled Representation 【VIBE】则是引入了 AMASS 这个庞大的 Motion Capture 数据集,用来判别 RNN 生成的结果是否真实。 VIBE 1.4 RGBD image ...
  • 极大似然估计

    2018-05-12 14:47:03
    最大似然估计是利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果的模型参数值。例如:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到...
  • Head Pose Estimation in Computer Vision: A Survey Erik Murphy-Chutorian, Student Member...估计另一个人头部姿势的能力是一种常见的人类能力,对计算机视觉系统提出了独特的挑战。 与作为面部相关视觉研究的主...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,630
精华内容 2,652
热门标签
关键字:

如何判别无偏估计