精华内容
下载资源
问答
  • 数理统计:参数估计

    千次阅读 2020-12-29 22:57:30
    learning why, thinking what, then forgetting how. 随着时间的流逝,知识总会被遗忘和...统计推断主要分为参数估计和假设检验,参数估计分为点估计和区间估计。 2.1 参数的点估计 首先提出参数和参数的估计量的.

    learning why, thinking what, then forgetting how.

    随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分

    教材为:《数理统计(孙海燕等)》


    第二章 参数估计

    在解决实际问题中,当确定了总体的分布族后,我们要从样本来推断总体的具体分布或感兴趣的总体特征数。例如,总体的数学期望方差等。统计推断主要分为参数估计假设检验,参数估计又分为点估计区间估计


    2.1 参数的点估计

    首先提出参数参数的估计量的概念。

    • 参数:任何与总体有关的待估计量都看成参数。它可以是决定总体分布的参数θ本身,也可以是θ的实函数。不局限于参数统计范围,总体数学期望和方差等特征数也看成参数。
    • 参数的估计量:用于估计参数或其实函数的实值统计量。其值称为估计值。

    参数估计的实质:构造合适的统计量,作为参数的实函数的估计

    常见的参数估计方法:

    • 替换原理法:
      1. 频率替换法
      2. 矩估计法
    • 极大似然估计法
    • EM 算法

    2.1.1 频率替换估计

    1. 根据样本已知的频率确定一个使用的概率
    2. 将概率表示成待估计量的函数。
    3. 将待估计量反解成概率的函数。
    4. 使用已知样本频率替换总体概率。

    频率替换法所获得的估计可能不是唯一的。需要评估那个较优。

    2.1.2 矩估计

    大数定律可知,若总体矩存在,则样本矩依概率几乎必然收敛于相应的总体矩。只要总体矩存在,就可以用相应的样本矩作为总体矩的合理估计

    1. 使用待求的参数的函数表示总体原点矩总体中心矩
    2. 将待求的参数反解为总体原点矩或总体中心距的函数。
    3. 使用已知的样本原点矩或样本中心距替换总体原点矩或总体中心距。

    无论总体服从何种分布,只要总体的二阶矩存在,则样本平均值和二阶中心距就分别是总体均值和方差的矩估计

    只有总体矩存在,且总体原点绝对矩存在的阶数大于待估计参数的维数时,才能使用矩估计法来求参数的估计。

    根据不同总体矩的选择,矩估计有不唯一性,尽量选择低阶矩来估计参数。

    因为样本矩与总体分布的具体表达式无关,因此当总体的分布形式已知时,矩估计法并没有充分利用总体分布形式所提供的有关参数的信息。建立在已知总体分布形式上的估计方法就是极大似然估计法

    2.1.3 极大似然估计

    极大似然估计的直观思想:若在一次试验中,某个试验结果发生,则一般认为试验条件对这个结果的发生有利,也就是说这个结果发生的机会最大

    极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的。

    1. 写出联合概率分布函数作为似然函数
    2. 对似然函数取对数,并整理;
    3. 求导数,令导数为 0,得到似然方程
    4. 解似然方程,得到的参数即为参数的极大似然估计

    若考虑的参数空间不同,则极大似然估计的值会有所不同。求极大似然估计时一定要顾及参数所属的范围

    如果似然函数的偏导数不存在,或者似然方程组不存在,就只能根据原始定义采用别的方法求极大似然估计。例如穷举法求极大似然估计。

    由因子分解定理得,极大似然估计值一定是充分统计量的函数,这是极大似然估计的优点。而矩估计则不具有这样的性质。

    扩展:EM 算法(Expectation-Maximization)

    求解似然方程组可以获得极大似然估计的显式解,但是在实际中常常会遇到似然方程组难以求解的情况,此时可以求似然估计的近似解数值解。常用的求解方法有(1)Newton 法;(2)Fisher 法;(3)EM 算法等。

    前提:EM 算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用 EM 算法的。

    问题描述:有些问题中的参数分为隐含参数模型参数,且参数之间相互依赖,单个参数易求得,而直接求出所有参数十分困难。因此可以采用迭代的方法,随机初始化一个参数,之后每次迭代求出一个参数,最终会收敛到一个解。

    算法流程

    1. 随机初始化模型参数的初始值
    2. 迭代:
      • E 步:计算隐含参数的条件概率期望
      • M 步:计算模型参数的极大似然解
    3. 迭代 E-M 步骤直到算法收敛

    算法理解:EM 算法可以理解为坐标上升法,类似梯度下降法。梯度下降法的目的是最小化代价函数,坐标上升法的目的是最优化似然函数。如下图所示,为迭代优化的路径,因为优化的函数不能直接求导,因此无法直接使用梯度下降法(或许两部的梯度下降法会有效),E-M 算法每次固定一个变量对另外的变量求极值,逐步逼近极值。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAiY6g0v-1609253314429)(./img_statistics/em.jpg)]

    算法分析:E-M 算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法。当然,如果我们的优化目标是凸的,则 E-M 算法可以保证收敛到全局极大值,这点和梯度下降法这样的迭代算法相同。

    更详细的步骤参见EM 算法详解:人人都懂 EM 算法


    2.2 估计量的评优准则

    对同一参数用不同估计方法可能得到不同的估计,即使使用相同的估计方法也可能得到不同的估计,甚至任何统计量都可以作为参数的估计。需要讨论估计量的优良性,以下主要讨论均方误差准则无偏性准则,以及满足最小均方误差和无偏的一致最小方差无偏估计

    2.2.1 均方误差准则

    评估估计好坏的一个直观标准就是绝对误差 ∣ T ( x ) − q ( θ ) ∣ | T(x) - q(θ)| T(x)q(θ。使用数学期望消除随机因素产生的影响,使用平方以获得良好的数学性质,使用均方误差(MSE)作为评估估计好坏的标准:

    M S E θ ( T ( X ) ) = E θ [ T ( x ) − q ( θ ) ] 2 = V a r θ ( T ( X ) ) + ( E θ [ T ( x ) − q ( θ ) ] ) 2 MSE_θ( T(X) ) = E_θ [ T(x) - q(θ) ]^2 = Var_θ( T(X) ) + (E_θ [ T(x) - q(θ) ])^2 MSEθ(T(X))=Eθ[T(x)q(θ)]2=Varθ(T(X))+(Eθ[T(x)q(θ)])2

    均方误差等于方差加偏差

    总体方差的两个估计量:样本方差和样本二阶中心距。样本方差无偏,但是均方误差较大;样本二阶中心距均方误差较小,但是有偏。

    对于待估计参数,均方误差最小的估计是不存在的,因为均方误差最小总是无限趋向于完全准确估计。即所考虑的估计类的范围太大了,因此可以提出额外的合理要求,在缩小的估计类范围内寻求最优估计。最常见的合理要求就是无偏性准则

    2.2.2 无偏估计

    无偏估计即偏差为零,其均方误差等于方差

    E θ [ T ( x ) ] = q ( θ ) E_θ [ T(x) ] = q(θ) Eθ[T(x)]=q(θ)

    E θ ( T ( X ) ) = V a r θ ( T ( X ) ) E_θ( T(X) ) = Var_θ( T(X) ) Eθ(T(X))=Varθ(T(X))

    无偏估计的性质

    1. 无偏估计要求对于所有的参数 θ,估计都是无偏的。
    2. 无偏估计可能不存在
    3. 若无偏估计存在,则一般是不唯一的。
    4. 在均方误差准则下,无偏估计不一定是好的估计。无偏但是方差很大
    5. 函数变换下,无偏性可能消失。

    2.2.3 一致最小方差无偏估计

    一致最小方差无偏估计(UMVUE):在无偏估计中,方差最小的估计。

    建立在充分统计量基础上,寻找一致最小方差无偏估计的方法:利用无偏估计量对充分统计量取条件期望,可以降低无偏估计量的方差

    提出完全统计量的概念, E θ ( g ( T ) ) = 0 E_θ(g(T)) = 0 Eθ(g(T))=0,则 T 为完全统计量。

    完全充分统计量

    p ( x 1 , x 2 , … … , x n ; θ ) = c ( θ ) h ( x 1 , x 2 , … … , x n ) e x p { ∑ k = 1 m w k ( θ ) T k ( x 1 , x 2 , … … , x n ) ) } p(x_1, x_2, ……, x_n; θ) = c(θ)h(x_1, x_2, ……, x_n) exp\{ \sum^m_{k=1} w_k(θ)T_k(x_1, x_2, ……, x_n)) \} p(x1,x2,,xn;θ)=c(θ)h(x1,x2,,xn)exp{k=1mwk(θ)Tk(x1,x2,,xn))}

    如果 w(θ) 值域包含内点,则统计量 T 是完全充分的。

    Lehmann-Scheffe 定理提供了两种寻求可估函数 q(θ) 的一致最小方差无偏估计 T(x) 的方法,前提条件是必须知道完全充分统计量 S(x):

    1. q(θ) 的无偏估计 φ(x) 关于 S(x) 的条件数学期望 T ( x ) = E θ ( φ ( x ) ∣ S ( x ) ) T(x) = E_θ(φ(x) | S(x)) T(x)=Eθ(φ(x)S(x)),即为一致最小方差无偏估计。
    2. 使用 S(x) 的函数 h(S(x)) 将完全充分统计量无偏化,就可以得到一致最小方差无偏估计。

    实际的求解一致最小方差无偏估计的方法:

    1. 求解完全充分统计量,分解后w(θ) 值域包含内点
    2. 求解完全充分统计量是否无偏
    3. 构造函数使其无偏化

    2.3 信息不等式

    无偏估计方差的下界是多少?一致最小方差无偏估计的方差是否可以达到方差的下界?提出Fisher 信息量信息不等式

    Fisher 信息量为

    I ( θ ) = ( E θ [ ∂ ∂ θ l n p ( x ; θ ) ] ) 2 = − E θ [ ∂ 2 ∂ θ 2 l n p ( x ; θ ) ] I(θ) = (E_θ[\frac {\partial} {\partial θ} lnp(x;θ)])^2 = - E_θ[\frac {\partial^2} {\partial θ^2} lnp(x;θ)] I(θ)=(Eθ[θlnp(x;θ)])2=Eθ[θ22lnp(x;θ)]

    n I ( θ ) = I n ( θ ) nI(θ) = I_n(θ) nI(θ)=In(θ),而信息不等式给出了方差的下界

    V a r θ ( q ^ ) ≥ [ q ′ ( θ ) ] 2 n I ( θ ) Var_θ(\hat q) ≥ \frac {[q^{'}(θ)]^2} {nI(θ)} Varθ(q^)nI(θ)[q(θ)]2

    若信息不等式取到等号,则达到了方差的下界,为有效估计,否则可以计算有效率 [ q ′ ( θ ) ] 2 n I ( θ ) / V a r θ ( q ^ ) \frac {[q^{'}(θ)]^2} {nI(θ)} / Var_θ(\hat q) nI(θ)[q(θ)]2/Varθ(q^)

    一致最小方差无偏估计不一定是有效的,但是有效估计一定是一致最小方差无偏估计


    考试题型

    1. 均方误差
    2. 频率替换估计
    3. 矩估计
    4. 极大似然估计
    5. 一致最小方差无偏估计
    6. 凑无偏估计
    7. Fisher 信息量
    8. 判断一致最小方差无偏估计是否有效

    历年考题

    2019

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2016

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2015

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2014

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • R语言中的参数估计

    千次阅读 2020-12-25 11:52:44
    以下我将从点估计、区间估计来介绍区间估计,本文主要介绍R代码,具体的统计知识,详情参考相关数理统计的专业书嗷参数估计R语言中的参数估计点估计距估计极大似然估计区间估计均值μ\muμ的估计两样本方差比的...

    R语言中的参数估计

    一直想要写博客来着,一直没有实现,昨天看室友写了,借着复习R语言考试,来开启我的第一篇博客叭!
    以下我将从点估计、区间估计来介绍区间估计,本文主要介绍R代码,具体的统计知识,详情可参考相关数理统计的专业书嗷

    点估计

    点估计分为距估计和极大似然估计法。
    简而言之,距估计就是用样本的一阶原点矩即样本的均值去估计均值,用样本的二阶中心距即样本方差估计方差。
    极大似然估计就是求似然函数的极大值点啦,口说不如实战,下面让我们一起看看一道习题叭,是薛毅版的统计建模与R语言中第四章的习题。
    在这里插入图片描述

    距估计

    首先求出该函数的期望
    E ( x ) = ∫ 0 1 ( α + 1 ) x α + 1 d x E\left(x\right)=\int_{0}^{1}{(\alpha+1)x^{\alpha+1}dx} E(x)=01(α+1)xα+1dx
    求得 E ( x ) = α + 1 α + 2 E\left(x\right)=\frac{\alpha+1}{\alpha+2} E(x)=α+2α+1,然后用样本期望表示待估参数
    则有 α = 2 E ( x ) − 1 1 − E ( x ) \alpha=\frac{2E\left(x\right)-1}{1-E(x)} α=1E(x)2E(x)1
    接着就上R代码啦

    > x=c(0.1,0.2,0.9,0.8,0.7,0.7)
    > a=(2*mean(x)-1)/(1-mean(x))
    > a
    [1] 0.3076923
    
    

    这样我们就完成了距估计,nice!

    极大似然估计

    L ( α ; x ) = ∏ i = 1 6 ( α + 1 ) x i α = ( α + 1 ) 6 ∏ i = 1 6 x i α L\left(\alpha;x\right)=\prod_{i=1}^{6}{\left(\alpha+1\right){x_i}^\alpha={(\alpha+1)}^6\prod_{i=1}^{6}{x_i}^\alpha} L(α;x)=i=16(α+1)xiα=(α+1)6i=16xiα
    取对数为
    l n L ( α ; x ) = 6 l n ( α + 1 ) + α l n ∑ i = 1 6 x i lnL\left(\alpha;x\right)=6ln\left(\alpha+1\right)+\alpha ln\sum_{i=1}^{6}x_i lnL(α;x)=6ln(α+1)+αlni=16xi
    接着对其求偏导有:
    ∂ l n L ( α ; x ) ∂ α = 6 α + 1 + ∑ i = 1 6 l n x i \frac{\partial lnL\left(\alpha;x\right)}{\partial\alpha}=\frac{6}{\alpha+1}+\sum_{i=1}^{6}{lnx_i} αlnL(α;x)=α+16+i=16lnxi
    接着输入R程序脚本,使用uniroot函数对 α \alpha α估计求解

    > x=c(0.1,0.2,0.9,0.8,0.7,0.7)
    > f=function(a)
    + {
    +     6/(a+1)+sum(log(x))
    + }
    > uniroot(f,c(0,1))
    $root
    [1] 0.211182
    
    $f.root      #极大似然估计得到的数值解根
    
    [1] -3.844668e-05
    
    $iter
    [1] 5
    
    $init.it
    [1] NA
    
    $estim.prec
    [1] 6.103516e-05
    

    这样极大似然估计也做完啦

    区间估计

    均值 μ \mu μ的估计

    分为方差已知和方差未知两种情况

    > interval_estimate1=function(x,sigma=-1,alpha=0.5){
    +   n=length(x);xb=mean(x)
    +   if (sigma>=0){       #sigma已知用正态分布的u检验
    +     tmp=sigma/sqrt(n)*qnorm(1-alpha/2);df=n
    +   }
    +   else{                #sigma未知t检验
    +     tmp=sd(x)/sqrt(n)*qt(1-alpha/2,n-1);df=n-1
    +   }
    +   data.frame(mean=xb,df=df,a=xb-tmp,b=xb+tmp)   #最后以数据框的形式输出
    + }
    > x=c(14.6,15.1,14.9,14.8,15.2,15.1)
    > interval_estimate1(x,0.2)   #已知sigma为0.2
       mean df        a        b
    1 14.95  6 14.89493 15.00507
    > interval_estimate1(x)       #sigma未知
       mean df      a      b
    1 14.95  5 14.883 15.017
    

    通过以上结果可以看出方差已知时的区间更小,更为精确,但是在生活中几乎是都不知道了啦。
    上面的代码是将整个过程都运行了一遍,实际上R中有内置函数
    t.test()
    利用该函数可以得到相同的区间估计,是很方便了。
    接着我们看一下配对数据的均值差如何使用这个函数叭

    > x=c(11.3,15.0,15.0,13.5,12.8,10.0,11.0,12,13,12.3)
    > y=c(14,13.8,14,13.5,13.5,12,14.7,11.4,13.8,12)
    > t.test(x-y)
    
    	One Sample t-test
    
    data:  x - y
    t = -1.3066, df = 9, p-value = 0.2237
    alternative hypothesis: true mean is not equal to 0
    95 percent confidence interval:
     -1.8572881  0.4972881
    sample estimates:
    mean of x 
        -0.68 
    

    是不是很简单啊哈哈哈哈,有内置函数就很香了。
    t.tes()的作用是和均值挂钩的,和方差估计无关嗷,不要搞混了。

    两样本方差比的估计

    那么下一个内置函数var.test()
    该函数可提供双样本方差比的区间估计
    好的来试一下

    > x=c(11.3,15.0,15.0,13.5,12.8,10.0,11.0,12,13,12.3)
    > y=c(14,13.8,14,13.5,13.5,12,14.7,11.4,13.8,12)
    > var.test(x,y)
    
    	F test to compare two variances
    
    data:  x and y
    F = 2.2844, num df = 9, denom df = 9, p-value = 0.2343
    alternative hypothesis: true ratio of variances is not equal to 1
    95 percent confidence interval:
     0.5674248 9.1971787
    sample estimates:
    ratio of variances 
              2.284449 
    
    

    哈哈哈哈差不多就到这里叭…
    新手上路,有很多不懂的地方,希望能给大家带来些许帮助,也欢迎大家批评指正喔!饿了饿了,干饭人冲了!

    展开全文
  • 大体上还是遵循着贝叶斯决策论,主要有两个非参数估计的方向: 从训练样本中估计类条件概率密度:p(x∣ωi)p(\textbf{x}|\omega_i)p(x∣ωi​) 直接估计后验概率:P(ωj∣x)P(\omega_j|\textbf{x

    在之前的学习中,我们总是假设概率密度函数的参数形式已知,并在此条件下处理有监督学习过程。而在现实世界中,我们给出的概率密度函数很少符合实际情况,本节我们讨论非参数化方法(non-parametric method),它可以处理任意的概率分布而不必假设密度的参数形式已知。大体上还是遵循着贝叶斯决策论,主要有两个非参数估计的方向:

    • 从训练样本中估计类条件概率密度: p ( x ∣ ω i ) p(\textbf{x}|\omega_i) p(xωi)
    • 直接估计后验概率: P ( ω j ∣ x ) P(\omega_j|\textbf{x}) P(ωjx)

    一 概率密度的估计

    估计类条件概率密度的最基本的一个条件就是:一个向量x落在区域 R R R中的概率为
    P ( x ∈ R ) = ∫ R p ( x ′ ) d x ′ P(\textbf{x} \in R)=\int_{R}p(\textbf{x}{'})d\textbf{x}' P(xR)=Rp(x)dx
    P ( x ∈ R ) P(\textbf{x} \in R) P(xR)是在区域 R R R p ( x ) p(\textbf{x}) p(x)关于 x x x的导数的积分(相当于区域R内每个点的概率密度函数的积分,概率密度函数的积分就是概率函数),因此概率 P P P是概率密度函数 p ( x ) p(\textbf{x}) p(x)的平滑(或取平均)的版本,因此我们可以通过概率 P P P来估计概率密度函数 p ( x ) p(\textbf{x}) p(x)

    先假设 p ( x ) p(\textbf{x}) p(x)是连续的,并且区域 R R R足够小,以至于在这个区间中条件概率密度 p ( x ) p(\textbf{x}) p(x)几乎没有变化,若其中 V R V_R VR表示区域 R R R所包含的体积(二维面积,三维代表体积)有:
    P R = P ( x ∈ R ) = ∫ R p ( x ′ ) d x ′ ≈ p ( x ) ∫ R d x ′ = p ( x ) V R P_R=P(\textbf{x} \in R)=\int_{R}p(\textbf{x}{'})d\textbf{x}'\approx p(\textbf{x})\int_{R}d\textbf{x}'=p(\textbf{x})V_R PR=P(xR)=Rp(x)dxp(x)Rdx=p(x)VR
    假设n个样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn都是根据概率密度函数 p ( x ) p(\textbf{x}) p(x)独立同分布(i,i,d)的抽取而得到的,其中有k个样本落在 R R R区域中的概率服从二项式定理:
    K ∼ B ( n , P R ) ,    P ( K = k ) = ( n k ) P R k ( 1 − P R ) n − k E [ K ] = n P R K\sim B(n,P_R),\;P(K=k)=\binom{n}{k}P_R^k(1-P_R)^{n-k}\\ E[K]=nP_R KB(n,PR),P(K=k)=(kn)PRk(1PR)nkE[K]=nPR
    当样本足够大时,综合(2)式与(3)式,我们能够得到 p ( x ) p(\textbf{x}) p(x)的估计为:
    p ( x ) ≈ E [ K ] / n V R p(\textbf{x})\approx \frac{E[K]/n}{V_R} p(x)VRE[K]/n
    k R k_R kR代表区域 R R R中样本的确切数量,有:
    p ( x ) ≈ k R / n V R p(\textbf{x})\approx \frac{k_R/n}{V_R} p(x)VRkR/n

    推导过程如下图所示:

    类比利用频率直方图估计概率密度函数,理论上当我们的样本足够多,同时频率分布直方图组距设置的特别小,就是在逼近样本点的真实概率密度函数【2】:

    为了估计点 x \textbf{x} x处的概率密度函数,构造了一系列的包含 x \textbf{x} x的区域 R 1 , R 2 , . . . , R n R_1,R_2,...,R_n R1,R2,...,Rn,其中第一个区域使用一个样本,第二个区域使用2个样本…,记 V n V_n Vn为区域 R n R_n Rn的体积, k n k_n kn为落在 R n R_n Rn中的样本的个数,而 p n ( x ) p_n(\textbf{x}) pn(x)表示对 p ( x ) p(\textbf{x}) p(x)的第n次估计:
    p n ( x ) = k R / n V R p_n(\textbf{x})= \frac{k_R/n}{V_R} pn(x)=VRkR/n
    要求估计的概率密度函数收敛到真实值:
    l i m p n ( x ) n → ∞ = p ( x ) \underset{n\to\infty}{limp_n(\textbf{x})}=p(\textbf{x}) nlimpn(x)=p(x)
    必须满足以下三个条件,以及他们分别代表的意义【3】:

    • 随着样本数量的增加,体积尽可能小,类比频率分布直方图的组距尽可能小
    • 在小区域 R n R_n Rn内有足够多的样本,保证频率之比能够收敛到概率
    • 在小区域 R n R_n Rn内的样本数在总样本中所占的比例是很小的一部分

    有两种经常采用的估计途径:

    • Parzen窗:根据某一个确定的体积函数,比如 V n = 1 n V_n= \frac{1}{\sqrt{n}} Vn=n 1,来逐渐收缩一个给定的初始区间。(要求 k n , k n / n k_n,k_n/n knkn/n能保证 p n ( x ) p_n(\textbf{x}) pn(x)能收敛到 p ( x ) p(\textbf{x}) p(x)
    • K-nearest-neighbor:确定 k n k_n kn为n的某个函数,比如 k n = n k_n=\sqrt{n} kn=n ,这样体积必须逐渐生长,直到最后能包进 x \textbf{x} x k n k_n kn个相邻点。

    这两种方法最终都能收敛到真实概率,但在有限样本下效果不好

    二 Parzen窗方法

    2.1 原理

    假设区间 R n R_n Rn是一个d维的超立方体,如果 h n h_n hn表示超立方体一条边的长度,则体积为: V n = h n d V_n=h_n^d Vn=hnd,通过定义最简单的方型窗函数,得到点 x ’ \textbf{x}’ x是否落在落在窗中:

    φ ( x − x ′ h n ) = { 1 ∣ x j − x j ′ ∣ ≤ h n / 2    j = 1 , . . . d 0 其 他 \varphi(\frac{\textbf{x}-\textbf{x}'}{h_n})=\left\{\begin{matrix} 1 &|x_j-x_j'|\leq h_n/2\;j=1,...d\\ 0& 其他 \end{matrix}\right. φ(hnxx)={10xjxjhn/2j=1,...d
    该窗函数定义了一个d维空间中,中心点在点 x \textbf{x} x的超立方体。因此 k n kn kn代表超立方体中的样本个数是

    代入公式(11)得到Parzen窗概率密度函数

    **窗口函数本质上是出现在该区域 R n R_n Rn内部的采样点的加权频数,可以看做是一种平滑。**更一般的,窗函数 φ \varphi φ并不一定是超立方体定义的函数,它可以是任意形式只要保证: V n = h n d V_n=h_n^d Vn=hnd

    另一个常见的高斯窗口函数如下:

    高斯窗口函数,随着采样点与中心点距离的增大而减小。

    当采用高斯窗口函数时, k n k_n kn是出现在该区域 R n R_n Rn内部的采样点的加权频数,每个采样点的权重取决于它们与中心 x x x的距离。

    回过头来看Parzen窗估计的概率密度函数
    p n ( x ) = 1 n ∑ i = 1 n 1 V n φ ( x − x i h n ) p_n(\textbf{x})=\frac{1}{n} \sum_{i=1}^n \frac{1}{V_n}\varphi(\frac{\textbf{x}-\textbf{x}_i}{h_n}) pn(x)=n1i=1nVn1φ(hnxxi)
    表示我们对 p ( x ) p(\textbf{x}) p(x)的估计是对一系列关于 x \textbf{x} x x i \textbf{x}_i xi的函数做平均,在本质上,是每一个样本依据它离 x \textbf{x} x的远近不同而对结果做出不同贡献。而且在进行估计前要确定一个具体形式的 V n V_n Vn函数

    2.2 窗宽 h n h_n hn的影响

    我们定义 δ ( x ) \delta(\textbf{x}) δ(x)如下,可以重写 p n ( x ) p_n(\textbf{x}) pn(x)

    因为 V n = h n d V_n=h_n^d Vn=hnd,窗宽会显著影响 δ ( x ) \delta(\textbf{x}) δ(x)的振幅与宽度

    • 如果 h n h_n hn非常大,那么 δ ( x ) \delta(\textbf{x}) δ(x)的影响就很低,即使 x \textbf{x} x距离 x i \textbf{x}_i xi很远, δ ( x − x i ) \delta(\textbf{x}-\textbf{x}_i) δ(xxi) δ ( 0 ) \delta(\textbf{0}) δ(0)的差别也不大,这种情况下, p n ( x ) p_n(\textbf{x}) pn(x)是n个宽的、满变的函数的叠加,因此 p n ( x ) p_n(\textbf{x}) pn(x)非常平滑

    • 如果 h n h_n hn很小, δ ( x − x i ) \delta(\textbf{x}-\textbf{x}_i) δ(xxi)的峰值就非常大,这种情况下, p n ( x ) p_n(\textbf{x}) pn(x)是n个以样本为中心的尖脉冲的叠加,也就是一个充满噪声(不确定性)的估计

    p n ( x ) p_n(x) pn(x)的收敛性: p n ( x ) p_n(x) pn(x)是样本点 x 1 , . . . x n x_1,...x_n x1,...xn(随机变量)的函数, 所以我们希望随机变量 p n ( x ) p_n(x) pn(x)的均值 p n ‾ ( x ) \overline{p_n}(x) pn(x)和方差 σ n 2 ( x ) \sigma^2_n(x) σn2(x)满足:

    经过证明需要满足以下条件,证明过程可参考【4】:

    这就告诉我们对于 V n V_n Vn的选择,当n趋向于正无穷时趋近于0,但必须以低于1/n的速率,因此常设定 V n = 1 / n 或 V n = 1 / ln ⁡ n V_n=1/n或V_n=1/\ln n Vn=1/nVn=1/lnn

    总结:对于窗宽 h n h_n hn(或 V n V_n Vn)的选取在很大程度上影响 p n ( x ) p_n(\textbf{x}) pn(x)。如果 V n V_n Vn太大,那么估计结果的分辨率就太低,如果 V n V_n Vn太小,那么估计结果的统计稳定性就不够。当样本有限时,尽可能的取折中的估计,然而当样本个数无限,那么就可以在n增加时,让 V n V_n Vn缓缓趋近于0,这样 p n ( x ) p_n(\textbf{x}) pn(x)就收敛到某个概率密度函数 p ( x ) p(\textbf{x}) p(x)

    下面举一个例子说明窗宽对估计结果的影响:

    在这里插入图片描述

    下图是一个二维Prazen窗的两类分类器,左图是小窗宽,右图为大窗宽

    三 K-Nearest Neighbor方法

    在Parzen窗中,最佳的窗函数的选择总是一个问题。另一种思路是固定 k n k_n kn,让体积进行变化,而不是硬性的规定窗函数为落在区域 R n R_n Rn内的全体样本个数 k n k_n kn的某个函数。比如我们以样本点 x \textbf{x} x为中心,让体积扩张,直到包含 k n k_n kn个样本为止( k n k_n kn是关于n的某个特定函数)。这些样本称为点 x \textbf{x} x k n k_n kn个最近邻,带入(一)中的非参数估计公式:
    p ( x ) ≈ k R / n V R p(\textbf{x})\approx \frac{k_R/n}{V_R} p(x)VRkR/n

    四 后验概率的估计

    假设我们把一个体积放在点 x \textbf{x} x周围,并且能够包含进k个样本,其中 k i k_i ki个属于类别 ω i \omega_i ωi。对于联合概率密度的估计为:
    p n ( x , ω i ) = k i / n V p_n(\textbf{x},\omega_i)=\frac{k_i/n}{V} pn(x,ωi)=Vki/n
    这样对后验概率的估计就是:
    p n ( ω i ∣ x ) = p n ( x , ω i ) ∑ j = 1 c p n ( x , ω j ) = k i k p_n(\omega_i|\textbf{x})=\frac{p_n(\textbf{x},\omega_i)}{\sum_{j=1}^{c}p_n(\textbf{x},\omega_j)}=\frac{k_i}{k} pn(ωix)=j=1cpn(x,ωj)pn(x,ωi)=kki
    这里 V n , k n V_n,k_n Vn,kn的值可以由Parzen窗与K近邻决定。

    • Parzen窗方法中, V n V_n Vn必须是关于n的某个固定形式的函数,比如 V n = 1 / n 或 V n = 1 / ln ⁡ n V_n=1/n或V_n=1/\ln n Vn=1/nVn=1/lnn
    • Kn最近邻方法中, V n V_n Vn必须保证能够包含进足够的样本个数,比如 k n = x k_n=\sqrt{x} kn=x

    如果有足够多的样本点并且体积足够小就可以证明这样处理是比较准确的。

    五 最近邻规则

    最近邻可以看作的k=1情况下的K近邻方法,最近邻规则描述了我们只依赖某个 x \textbf{x} x的单一的最近的邻居来做估计,也能达到足够好的性能:令 D n = { x 1 , x 2 , . . . , x n } D^n=\{\textbf{x}_1,\textbf{x}_2,...,\textbf{x}_n\} Dn={x1,x2,...,xn},每个样本已标记,对于测试样本点 x \textbf{x} x,在集合D中距离它最近的点 x ′ \textbf{x}' x的类别为样本点 x \textbf{x} x的类别。

    最近邻规则是次优的方法,通常的误差率比贝叶斯误差要高,然而在无限训练样本的情况下,这个误差率至多不会超过贝叶斯误差率的两倍。

    通过最近邻规则,我们可以把样本特征空间分为一个个小的单元格(cell),每个单元格中的点到最近邻 x ′ \textbf{x}' x的距离都比到别的样本点的距离要小。这个小单元格中的任意点的类别就与最近邻 x ′ \textbf{x}' x的类别相同。被称为:空间Voronoi网格

    将相同类型的网格的边界相连就可以形成决策边界,最近邻的边界通常是不平滑的,我们可以通过扩大K值来去除噪音,平滑边界。

    参考

    【1】模式识别

    【2】非参数估计_音程的博客-CSDN博客_非参数估计

    【3】非参数估计 - 简书 (jianshu.com)

    【4】经典的非参估计 (二)parzen 窗 - 知乎 (zhihu.com)

    展开全文
  • 文章目录一 参数估计二 最大似然估计2.1 参数分量2.2 基本原理2.3 高斯情况2.3.1 协方差矩阵Σ\SigmaΣ已知,而均值μ\muμ未知2.3.2 协方差矩阵Σ\SigmaΣ和均值μ\muμ都未知三 贝叶斯估计3.1 基本原理3.2 高斯...

    一 参数估计

    在贝叶斯决策论中,我们已经学习了如何根据先验概率 P ( ω i ) P(\omega_i) P(ωi)与类条件概率密度 p ( x ∣ ω i ) p(\textbf{x}|\omega_i) p(xωi)来设计最优分类器。但在实际应用中,通常得不到有关问题的概率结构的全部信息。通常的解决方案是利用这些训练样本来估计问题中所涉及的先验概率和类条件密度函数,并把这些估计的结果当做实际问题的先验概率和类条件概率密度,然后在设计分类器

    在典型的监督学习问题中,有标注的样本估计先验概率不困难,最大的困难在于估计类条件概率密度

    • 已有的训练样本数太少,很难满足所有的特征都存在的情况
    • 当用于表示特征的向量x的维数较大时,就会产生严重的计算复杂度问题(算法的执行时间,系统的资源开销…)

    但如果先验知识允许我们把条件概率密度进行参数化,例如:我们可以假设 p ( x ∣ ω i ) p(\textbf{x}|\omega_i) p(xωi)是一个多元高斯分布,其均值是 μ i \mu_i μi,协方差矩阵为 Σ i \Sigma_i Σi。这样我们就把问题从估计完全未知的类条件概率密度 p ( x ∣ ω i ) p(\textbf{x}|\omega_i) p(xωi)转化为了估计参数 μ i \mu_i μi Σ i \Sigma_i Σi。这样的方法被称为参数估计方法。与之对应的也有非参数估计方法。

    参数估计问题是统计学中的经典问题,主要的解决方案有两种,分别对应统计学中的两大学派:

    • 最大似然估计——频率学派(Frequentist)
    • 贝叶斯估计——贝叶斯学派(Bayesian)

    当然,在参数估计完成后,我们仍然使用后验概率作为分类准则。

    二 最大似然估计

    2.1 参数分量

    根据每个样本所属的类别对样本集 D D D进行分类: D 1 , D 2 . . . , D c D_1,D_2...,D_c D1,D2...,Dc,任意一个分类样本集 D j D_j Dj中的样本都是独立的根据类条件概率密度函数 p ( x ∣ ω j ) p(\textbf{x}|\omega_j) p(xωj)来抽取的。因此获得一个重要假设:每个样本集中的样本都是独立同分布的随机变量(independent and identically distributed:i.i.d),我们还假设每一个类的类条件概率密度 p ( x ∣ ω j ) p(\textbf{x}|\omega_j) p(xωj)的形式都是已知的,未知的是具体的参数向量 θ j \theta_j θj的值。比如:假设 p ( x ∣ ω j ) p(\textbf{x}|\omega_j) p(xωj)服从多维正态分布,这样向量 θ j \theta_j θj就由分量 μ j , Σ j \mu_j,\Sigma_j μj,Σj所组成。

    为了强调类条件概率密度函数 p ( x ∣ ω j ) p(\textbf{x}|\omega_j) p(xωj)依赖于参数向量 θ j \theta_j θj的情况,通常写为形如 p ( x ∣ ω j , θ j ) p(\textbf{x}|\omega_j,\theta_j) p(xωj,θj)的形式。因此**最大似然估计(MLE)**解决的就是正确的估计各个类别的具体的参数向量: θ 1 , θ 2 , . . . θ c \theta_1,\theta_2,...\theta_c θ1,θ2,...θc

    2.2 基本原理

    问题其实就变成了一个条件概率最大的求解,即在已有的训练集的条件下,求使得 p ( θ ∣ D ) p(θ|D) p(θD) 最大的参数 θ \theta θ,形式化表达为求解
    θ ^ = a r g m a x θ    p ( θ ∣ D ) \hat{\theta}=\underset{\theta}{argmax}\;p(θ|D)\\ θ^=θargmaxp(θD)
    而根据条件概率公式有
    p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) p ( D ) p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)} p(θD)=p(D)p(Dθ)p(θ)
    因为我们在极大似然估计中假设 θ \theta θ是确定的,所以 p ( θ ) p(\theta) p(θ)就是一个常数。 p ( D ) p(D) p(D)同样是根据已有的数据得到的,也是确定的,或者我们可以把其看作是对整个概率的一个归一化因子。这时候,求解公式 (1) 就变成了求解
    θ ^ = a r g m a x θ    p ( D ∣ θ ) \hat{\theta}=\underset{\theta}{argmax}\;p(D|\theta)\\ θ^=θargmaxp(Dθ)
    一个有监督的总的样本集分为c类,我们要估计每个类的后验概率,有c个独立的问题,每个问题解决思路相同如下:已知样本集 D D D中有n个样本 x 1 , x 2 . . . , x n x_1,x_2...,x_n x1,x2...,xn。由于这些样本独立同分布,因此由(3)中的似然函数得:【2】
    L ( θ ) = p ( D ∣ θ ) = ∏ k = 1 n p ( x k ∣ θ ) L(\theta)=p(D|\theta)=\prod_{k=1}^np(\textbf{x}_k|\theta) L(θ)=p(Dθ)=k=1np(xkθ)
    因为样本集 D D D已知, p ( D ∣ θ ) p(D|\theta) p(Dθ)可以看作是参数向量 θ \theta θ的函数,参数向量 θ \theta θ的最大似然估计,就是使似然函数: p ( D ∣ θ ) p(D|\theta) p(Dθ)达到最大值的参数向量,记为 θ ^ \hat{\theta} θ^。为了方便分析取对数,定义对数似然函数:

    l ( θ ∣ D ) = l n p ( D ∣ θ ) l(\theta|D)=lnp(D|\theta) l(θD)=lnp(Dθ)
    如果实际的待求参数的个数为p,则参数向量 θ \theta θ可以写成如下的p维向量的形式: θ = ( θ 1 , θ 2 ∗ ∗ , . . . , θ p ) t \theta=(\theta_1,\theta_2**,...,\theta_p)^t θ=(θ1,θ2,...,θp)t。**记 ∇ θ \nabla_\theta θ为梯度算子(构建求偏导数的数学式)**这样用数学语言表示求 θ ^ \hat{\theta} θ^的全过程:
    ∇ θ = [ ∂ ∂ θ 1 . . . ∂ ∂ θ p ] l ( θ ∣ D ) = l n ∑ k = 1 n p ( x k ∣ θ ) 计 算 : θ ^ = a r g m a x θ    l ( θ ∣ D ) 等 价 于 : ∇ θ l = ∑ k = 1 n ∇ θ l n p ( x k ∣ θ ) = 0 \nabla_\theta=\begin{bmatrix} \frac{\partial }{\partial \theta_1}\\ ...\\ \frac{\partial }{\partial \theta_p} \end{bmatrix}\\ l(\theta|D)=ln\sum_{k=1}^np(\textbf{x}_k|\theta)\\ 计算:\hat{\theta}=\underset{\theta}{argmax}\;l(\theta|D)\\ 等价于: \nabla_\theta l=\sum_{k=1}^n\nabla_\theta lnp(\textbf{x}_k|\theta)=0 θ=θ1...θpl(θD)=lnk=1np(xkθ)θ^=θargmaxl(θD)θl=k=1nθlnp(xkθ)=0
    注意:求得的解 θ ^ \hat{\theta} θ^可能是全局最大值点,也可能是局部极值点。

    2.3 高斯情况

    深入讨论当训练样本服从多元正态分布时的情况。

    2.3.1 协方差矩阵 Σ \Sigma Σ已知,而均值 μ \mu μ未知

    我们得到以下结论,对于均值的最大似然估计就是对全体样本取平均

    2.3.2 协方差矩阵 Σ \Sigma Σ和均值 μ \mu μ都未知

    高斯分布的更典型的情况是协方差矩阵 Σ \Sigma Σ和均值 μ \mu μ都未知。这样参数向量 θ \theta θ由两个分量组成。

    • 先考虑单变量的情况

    • 当高斯函数是多元时,最大似然估计的结果是:
      μ ^ = 1 n ∑ k = 1 n x k Σ ^ = 1 n ( x k − μ ^ ) ( x k − μ ^ ) t \hat{\mu}=\frac{1}{n}\sum_{k=1}^{n}\textbf{x}_k\\ \hat{\Sigma}=\frac{1}{n}(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t μ^=n1k=1nxkΣ^=n1(xkμ^)(xkμ^)t

      **均值的最大似然估计就是样本的均值,而协方差的最大似然估计是n个 ( x k − μ ^ ) ( x k − μ ^ ) t (\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t (xkμ^)(xkμ^)t的算术平均。**实际上对方差的最大似然估计是有偏的估计,样本的协方差矩阵 C = 1 n − 1 ( x k − μ ^ ) ( x k − μ ^ ) t C=\frac{1}{n-1}(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t C=n11(xkμ^)(xkμ^)t,而我们估计的方差是 σ ^ = n − 1 n C \hat{\sigma}=\frac{n-1}{n}C σ^=nn1C

      样本协方差矩阵的推导过程【2】:

    三 贝叶斯估计

    3.1 基本原理

    MLP通过最大化似然函数 L ( θ ) L(\theta) L(θ)从而找出参数 θ \theta θ,思想在于找出能最大概率生成这批数据的参数。但是这种做法完全依赖于数据本身,当数据量大的时候,最大似然估计往往能很好的估计出参数 θ \theta θ;但是当数据量小的时候,估计出来的结果并不会很好。就例如丢硬币问题,当我们投掷了5次,得出了正正正正正的结果,极大似然估计会得出投出正面的概率为100%!这显然是不符常理的。

    贝叶斯派的人认为,后验概率中被估计的参数同样服从一种已知的分布,即参数也为一个随机变量。他们在估计参数前会先带来先验知识,例如参数在[0.5,0.6]的区域内出现的概率最大,在引入了先验知识后利用样本估计出参数分布的形式,在数据量小的情况下估计出来的结果往往会更合理。【2】

    我们希望利用现有的全部信息来为测试样本x计算分类的依据:后验概率 P ( ω i ∣ x ) P(\omega_i|\textbf{x}) P(ωix)(现有的全部信息一部分为我们的先验知识,比如未知概率密度函数的形式,未知参数取值范围;另一部分则来自训练集本身),假设已有训练集 D = D 1 , D 2 , . . . , D c D={D_1,D_2,...,D_c} D=D1,D2,...,Dc,改写后验概率为: P ( ω i ∣ x , D ) P(\omega_i|\textbf{x},D) P(ωix,D)表示训练集的重要性,则贝叶斯公式为:
    P ( ω i ∣ x , D ) = p ( x ∣ ω i , D ) P ( ω i ∣ D ) ∑ j = 1 c p ( x ∣ ω i , D ) P ( ω j ∣ D ) P(\omega_i|\textbf{x},D)=\frac{p(\textbf{x}|\omega_i,D)P(\omega_i|D)}{\sum_{j=1}^{c}p(\textbf{x}|\omega_i,D)P(\omega_j|D)} P(ωix,D)=j=1cp(xωi,D)P(ωjD)p(xωi,D)P(ωiD)

    • 这一公式指出我们能够根据训练样本提供的信息来确定类条件概率密度和先验概率。

    • 通常认为先验概率可以事先得到,或简单计算得到, P ( ω i ∣ D ) P(\omega_i|D) P(ωiD)可以简写为 P ( ω i ) P(\omega_i) P(ωi)

    • 有监督学习可以把每个样本都归到它所属的类中,如果 i ≠ j i\not=j i=j,那么样本集 D i D_i Di中的训练样本就对 p ( x ∣ ω j , D ) p(\textbf{x}|\omega_j,D) p(xωj,D)没有任何影响,这样就产生两个简化:

      • 能够对每一个类分别处理:只是用 D i D_i Di中的训练样本就能确定 p ( x ∣ ω j , D ) p(\textbf{x}|\omega_j,D) p(xωj,D)
      • 能够对每个类进行分别处理,公式中说明类别的符号都可以省略

      本质上我们处理的是c个独立的问题,每个问题形式:已知一组训练样本D,根据这些样本估计 p ( x ∣ D ) p(\textbf{x}|D) p(xD)(未简化为 p ( x ∣ ω i , D ) p(\textbf{x}|\omega_i,D) p(xωi,D)


    参数估计法的前提是每个类的类条件概率密度形式已知,参数向量 θ \theta θ未知。对于任意一个测试样本x,去除类符号 ω i \omega_i ωi简化为 p ( x ∣ θ ) p(\textbf{x}|\theta) p(xθ)且形式已知。而贝叶斯估计与最大似然估计的区别体现在,我们不认为 θ \theta θ是一个固定但未知的值,而是服从一个概率分布 p ( θ ) p(\theta) p(θ)根据 p ( x ∣ θ ) p(\textbf{x}|\theta) p(xθ) p ( θ ) p(\theta) p(θ)、与 D D D,我们可以得到未知参数 θ \theta θ的后验概率密度函数 p ( θ ∣ D ) p(\theta|D) p(θD)
    p ( θ ∣ D ) = p ( θ ) p ( D ∣ θ ) ∫ p ( θ ) p ( D ∣ θ ) d θ 其 中 : p ( D ∣ θ ) = ∏ i = 1 n p ( x k ∣ θ ) 【 这 里 x k 是 训 练 样 本 集 的 某 一 个 样 本 】 p(\theta|D)=\frac{p(\theta)p(D|\theta)}{\int p(\theta)p(D|\theta)d\theta}\\ 其中:p(D|\theta)=\prod_{i=1}^{n}p(\textbf{x}_k|\theta)【这里\textbf{x}_k是训练样本集的某一个样本】 p(θD)=p(θ)p(Dθ)dθp(θ)p(Dθ):p(Dθ)=i=1np(xkθ)xk
    接着根据 P ( θ ∣ D ) P(\theta|D) P(θD)积分估算测试样本的后验概率 p ( x ∣ D ) p(\textbf{x}|D) p(xD)
    p ( x ∣ D ) = ∫ p ( x , θ ∣ D ) d θ = ∫ p ( x ∣ θ , D ) p ( θ ∣ D ) d θ p(\textbf{x}|D)=\int p(\textbf{x},\theta|D)d\theta\\=\int p(\textbf{x}|\theta,D)p(\theta|D)d\theta p(xD)=p(x,θD)dθ=p(xθ,D)p(θD)dθ
    由于对测试样本x和训练样本集D的选取是独立进行的 p ( x ∣ θ , D ) = p ( x ∣ θ ) p(\textbf{x}|\theta,D)=p(\textbf{x}|\theta) p(xθ,D)=p(xθ),公式(10)改为:
    p ( x ∣ D ) = ∫ p ( x ∣ θ ) p ( θ ∣ D ) d θ p(\textbf{x}|D)=\int p(\textbf{x}|\theta)p(\theta|D)d\theta p(xD)=p(xθ)p(θD)dθ

    总结整个贝叶斯估计分为三个阶段:

    • 根据样本与先验知识求得参数的后验概率
    • 根据参数的后验概率与类条件概率密度的形式求得每个类的具体的类条件概率密度
    • 最后求出每个类的后验概率

    3.2 高斯情况下的贝叶斯估计

    对高斯正态分布的情况,用贝叶斯估计的方法来计算未知参数 θ \theta θ的后验概率密度函数 p ( θ ∣ D ) p(\theta|D) p(θD)和设计分类器所需的类条件概率密度函数 p ( x ∣ D ) p(\textbf{x}|D) p(xD),其中假设 p ( x ∣ μ ) ∼ N ( μ , Σ ) p(\textbf{x}|\mu)\sim N(\mu,\Sigma) p(xμ)N(μ,Σ)(相当于第一步中的 p ( x ∣ θ ) p(\textbf{x}|\theta) p(xθ)

    3.2.1 单变量情况第一步: p ( μ ∣ D ) p(\mu|D) p(μD)

    先考虑只有均值 μ \mu μ未知的情况,同时假设特征向量是一维的。 p ( x ∣ μ ) ∼ N ( μ , Σ ) p(x|\mu)\sim N(\mu,\Sigma) p(xμ)N(μ,Σ),而且我们认为所有关于均值 μ \mu μ的先验知识都在先验概率密度函数 p ( μ ) p(\mu) p(μ)中,且均值 μ \mu μ服从 p ( μ ) ∼ N ( μ 0 , σ 0 2 ) p(\mu)\sim N(\mu_0,\sigma^2_0) p(μ)N(μ0,σ02) μ 0 , σ 0 2 \mu_0,\sigma_0^2 μ0,σ02已知),根据3.1节总结的贝叶斯估计三步走:

    我们发现 p ( μ ∣ D ) p(\mu|D) p(μD)是一个指数函数,且指数部分是 μ \mu μ的二次型,因此 p ( μ ∣ D ) p(\mu|D) p(μD)实际上任然是正态分布,把 p ( μ ∣ D ) p(\mu|D) p(μD)写成下面的形式:

    利用对应位置系数相等的原则就可以求出 μ n , σ n 2 \mu_n,\sigma_n^2 μn,σn2的值:

    上述方程显示了先验知识和样本观测结果是如何被结合在一起,并且形成 μ \mu μ的后验概率密度函数 p ( μ ∣ D ) p(\mu|D) p(μD)的,总的来说:

    • μ n \mu_n μn代表在观测n个样本后对 μ \mu μ的真实值的最好估计, μ n \mu_n μn μ 0 与 μ ^ n \mu_0与\hat{\mu}_n μ0μ^n的线性组合

    • σ n 2 \sigma_n^2 σn2表示对这种估计的不确定性(取值更离散,不集中)

      • 如果 σ 0 ≠ 0 \sigma_0 \not=0 σ0=0,当n趋近于 ∞ \infty μ n \mu_n μn趋近于样本均值 μ ^ n \hat{\mu}_n μ^n
      • σ 0 = 0 \sigma_0=0 σ0=0时, μ n = μ 0 \mu_n=\mu_0 μn=μ0,这是一种退化的情况:我们对先验估计 μ 0 \mu_0 μ0是如此的确信,以至于任何观测样本都无法改变我们的认知。
      • σ 0 \sigma_0 σ0远大于 σ \sigma σ,表示我们对先验估计 μ 0 \mu_0 μ0如此的不确信以至于直接拿样本均值 μ ^ n \hat{\mu}_n μ^n当做 μ \mu μ

      根据公式(7), σ n 2 \sigma_n^2 σn2是n的单调递减函数,也就是说每观测一个样本,我们对 μ \mu μ的估计的不确定性就会减小,当 μ \mu μ增加时, p ( μ ∣ D ) p(\mu|D) p(μD)的概率密度图就会变得更尖锐,当n趋近于无穷大时,逼近狄拉克函数。

    狄拉克δ函数是一个广义函数,在物理学中常用其表示质点、点电荷等理想模型的密度分布,该函数在除了零以外的点取值都等于零,而其在整个定义域上的积分等于1。

    狄拉克δ函数在概念上,它是这么一个“函数”:在除了零以外的点函数值都等于零,而其在整个定义域上的积分等于1。【4】

    3.2.2 单变量情况第二步: p ( x ∣ D ) p(\textbf{x}|D) p(xD)

    在得到均值的后验概率密度 p ( μ ∣ D ) p(\mu|D) p(μD)后,我们就可以计算类条件概率密度 p ( x ∣ D ) p(\textbf{x}|D) p(xD)(实际上是 p ( x ∣ ω i , D ) p(\textbf{x}|\omega_i,D) p(xωi,D),把c个问题独立,去除类有关变量后)

    求得类条件概率密度后再带入到公式(19)就能求出后验概率了。

    四 最大似然估计与贝叶斯估计比较

    最大似然估计与贝叶斯估计在训练样本趋于无穷时效果是一样的,然而在实际的问题中,训练样本总是有限的,决定我们选择哪个方法的主要因素有

    • 计算复杂度:MLE只涉及一些微分与求极值,而贝叶斯估计计算复杂的积分
    • 可理解性:MLE是基于设计者所提供的训练样本的一个最佳解答,而贝叶斯估计方法得到的结果则是许多可行解的加权平均值,反映出对各种可行解的不确定程度
    • 对初始先验知识的信任程度:MLE得到的类条件概率密度 p ( x ∣ θ ^ ) p(\textbf{x}|\hat{\theta}) p(xθ^)形式与先验的假设是一样的,而贝叶斯估计得到的形式可能与初始假设不相同,贝叶斯方法能比MLE利用更多有用的信息。

    总结贝叶斯方法有很强的理论基础,但在实际应用中最大似然估计更加简便,且性能也相差无几。

    参考

    【1】模式分类(第二版)

    【2】(1条消息) 极大似然估计与贝叶斯估计_Jim_Liu-CSDN博客_极大似然估计和贝叶斯估计

    【3】(20 封私信 / 29 条消息) 为什么样本方差(sample variance)的分母是 n-1? - 知乎 (zhihu.com)

    【4】百度百科:狄拉克δ函数

    展开全文
  • 参数估计1.1 点估计1.2 区间估计 推断统计的工作主要包含两类:参数估计(Parameter Estimation) 和 假设检验(Hypothesis) 。 1.参数估计 参数估计通常有点估计(Point Estimate) 和 区间估计(Interval Estimation) 两...
  • EM算法(expectation maximization algorithm)分为E步和M步,其中E-step主要通过观察数据和现有模型来估计参数,然后用这个估计参数值来计算似然函数的期望值;而 M-Step 是寻找似然函数最大化时对应的参数。由于...
  • 参数估计分为两类: #mermaid-svg-zPEMdt9SCzKFnAf1 .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-zPEMdt9SCzKFnAf1 .label te
  • 描述性统计、参数估计和假设检验

    万次阅读 多人点赞 2021-04-03 01:15:43
    变量分为类别变量和数值变量,类别变量往往被作为维度,数值变量往往被作为指标。类别可以经过特定的转换转换为数值,从而作为指标,数值变量也可以经过特定的分箱或转换转换为文本型变量,从而作为类别或维度。 ...
  • 第六章 参数估计

    2021-08-12 20:13:41
    第六章 参数估计点估计的几种方法:矩估计、最大似然估计、贝叶斯估计矩估计-替换原理最大似然估计点估计的评价标准相合性无偏性有效性综合:均方误差最小方差无偏估计贝叶斯估计引入统计推断的基础贝叶斯公式的密度...
  • # 上证指数的参数估计 import numpy as np import pandas as pd from scipy import stats from matplotlib import pyplot as plt from jqdatasdk import * auth('ID','password') # 出于保密目的,这里不填写自己的...
  • structure from motion,运动恢复结构,1985年由Hartley等人提出,从图像序列中恢复场景或对象的结构信息。开源的sfm可以参考...从投影矩阵到投影过程,参数初始估计、到最后的最小化重投影误差。SfM无需标定的解析
  • .一个未知参数的无偏估计一定唯一

    千次阅读 2021-01-12 10:42:28
    【判断题】施工机械台班定额可分为时间定额和产量定额两种形式,两者之间互为倒数。 【名词解释】心输出量 【名词解释】血压 【单选题】下列关于IsNumeric()函数的描述中,错误的是_______。 【名词解释】肾小球滤出...
  • 基于参数化模型(MANO)的手势姿态估计---全面剖析

    千次阅读 多人点赞 2021-04-09 10:15:40
    目前, 主流的手部姿态估计的技术方案是使用马普所于2017年提出的MANO参数化模型, 在此基础上回归3D坐标, 这是因为MANO有很合理的结构以及定义好的前向动力学树。本文的目的在于为大家介绍,基于MANO的手部姿态估计的...
  • 其中,总体均值μ的区间估计可分为两种:方差^2已知时的均值的区间估计和方差^2未知时的均值的区间估计。(1)方差^2已知是的均值的区间估计在R中没有现成的求已知方差时均值的区间估计的函数,因此我们这里首先就是...
  • 第二章、多元正态分布及参数估计这一讲主要是给出概率论中若干概念向高维的推广2.1随机向量一、随机向量的联合分布、边缘分布和条件分布1、多元数据 维随机向量: ,其中每个 都是随机变量随机矩阵: ,其中每个 都...
  • 理论1.1 极大似然估计一般理论1.2 极大似然估计应用在飞行器参数估计1.3 拟线性化求解带估计参数2. 程序实现2.1 飞行器运动的状态方程 极大似然估计笔记 文章目录极大似然估计笔记1. 理论1.1 极大似然估计一般理论...
  • 第一部分:贝叶斯网基础 1.1 信息论基础 1.2 贝叶斯网基本概念 1.3 变量独立性的图论分析 第二部分:贝叶斯网推理 2.1 概率推理中的变量消元方法 2.2 团树传播算法 ...两种参数估计方法使用不同的思想,前者
  • 近邻估计

    2021-09-20 19:15:20
    前导知识:【非参数估计的基本原理与直方图方法】,【K近邻估计】 1. 前言 小舱内有多少样本不但与小舱体积有关,还与样本的分布有关。在有限数目的样本下,如果所有小舱的体积相同,那么就有可能在样本密度大的地方...
  • 什么是无偏估计和有偏估计

    千次阅读 2020-12-29 11:04:07
    展开全部有偏估计(biased estimate)是指由样本值求得的估计值与待估参数的真值之间有系统误差,其期望值不是待32313133353236313431303231363533e4b893e5b19e31333431376634估参数的真值。无偏估计是用样本统计量来...
  • 经典谱估计法周期图法-直接法平均周期图法-Bartlett法修正的平均周期图法-Welch法间接法--BT法--自相关法现代谱估计方法基于参数建模的功率谱估计AR模型-自回归模型MA模型--移动平均模型ARMA模型--自回归-移动平均...
  • 极大似然估计

    2021-04-21 16:14:36
    在这样的事实下,我觉得似乎硬币的参数不正常。极有可能两面都是“花”! 这种通过事实,反过来猜测硬币的情况,就是似然。 通过事实,推断出最有可能的硬币情况,就是最大似然估计。 1 概率vs似然 让我们先来比较...
  • 理论基础 本节给出牛顿法求分布的极大似然参数估计的一般理论。 如果随机变量 独立同分布于,且已知一组样本​ ,为了估计该分布的参数,可以使用极大似然估计的方法。 首先写出样本的似然函数 对​ 进行对数化处理,...
  • 书接上回,参数估计是为了用各种方法(靠猜也好,靠科学论证也好),主要任务只有一个,对未知结果的、我们感兴趣的参数进行预测。而预测结果可以是一个值,也可以是一个区间,两种结果分别对应了参数估计的两种方法...
  • 估计的分类,通常分为两类,一类是参数法谱估计,一类是非参数法谱估计参数法谱估计通常对数据进行建模,如把数据建模成滑动平均模型(MovingAverage),或者自回归(Autoregressive)模型,而非参数法除了要求信号满...
  • RANSAC迭代估计

    万次阅读 2021-02-25 15:38:33
    RANSAC迭代估计,Python实现直线拟合
  • SPSS-参数检验

    2021-04-21 09:58:39
    假设检验分为参数检验与非参数检验。 (1) 参数检验:已知总体分布, 猜测总体的某参数(原假设H0,null hypothesis),用一组样本来检验这个假设, 是否正确 (即接受还是拒绝假设H0)。 (2) 非参数检验:两总体的...
  • 9.90 积分I噪声估计的算法及MATLAB实现毕业设计目录1绪论111噪声估计算法研究的目的和意义112国内外研究的现状213论文的整体安排32几种经典的噪声估计的算法421几种噪声估计算法的优点422噪声估计算法43基于语音活动...
  • 噪声估计的算法及MATLAB实现毕业设计(论文)要求及原始数据(资料):论文要求:(1) 1-3周查找噪声估计算法的一些相关文献(2) 4-6周找出的几种噪声估计算法的特点(3) 7-8周确定2-3种噪声估计的算法(4) 9-11周确定大纲,...
  • 作者丨镜子@知乎(已授权)来源丨https://zhuanlan.zhihu.com/p/341946291编辑丨极市平台导读本文作者总结了目前自己实验过的一些姿态估计的技巧,分为三个部...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 81,059
精华内容 32,423
关键字:

参数估计可分为