精华内容
下载资源
问答
  • 最大似然估计 原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一给定观察数据来...联系:都是参数估计方法,当服从正态分布时,都的结论相等。 ...

    参数估计方法
    一、最大似然估计
    原理: 最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,也就是概率分布函数或者说是似然函数最大。

    二、最小二乘法
    当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。

    三、两者联系
    一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计是等价的,也就是说估计结果是相同的,但是原理是不同的。最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数。

    四、总结
    最小二乘法的核心是权衡,因为你要在很多条线中间选择,选择出距离所有点之后最短的,而极大似然核心是自恋,要相信自己是天选之子,自己看到的,就是冥冥之中最接近真相的。当服从正态分布时,两都的结论相等。

    展开全文
  • 机器学习中的模型参数估计方法:极大似然估计、贝叶斯估计、最大后验估计。

    机器学习(一):模型的参数估计方法

    前言:

      之前在看李航的《统计学习方法》,思考的同时打算对于其中一些问题做一些总结和记录,希望以后再看的时候能够有更深入的理解。



      我们知道,机器学习方法一般可以概括为三部分:模型(model)、策略(strategy)、算法(algorithm)。
      其中,模型表示我们要从假设空间中所给的函数集合中学习它们的条件概率分布或者是决策函数。对于监督学习而言,其定义就是从有限的给定数据集中学习模型,而这些数据是独立同分布产生的。因此,之所以学习条件概率分布或是决策函数,是在基本假设存在的基础上进行的。
      在构建好模型的基础上,我们需要选择出能够最好的表示所给数据集分布的模型,这就是策略。一般来说,选取最优模型需要考虑损失函数与风险函数。损失函数也叫代价函数,即loss function 或 cost function,是度量一次预测的错误程度;而风险函数则是损失函数的期望。损失函数的形式有很多种,其中就包括似然函数,这就引出了我们所要说的,关于模型的参数估计方法这一问题。
      另外,由于机器学习中的许多问题都可以转化为最优化问题来求解,而这些最优化问题又没有显式的解析解(很难用解析的方法直接求解),故需要用数值计算的方法来求解,这些计算方法就是算法


      以上是题外话,下面来说一说参数估计方法。

      统计学中的参数估计是指根据部分样本来估计总体分布中未知参数的过程:
      按估计形式,可分为点估计和区间估计;
      按构造估计量的方法,可分为矩估计、最小二乘估计、极大似然估计、贝叶斯估计等。

      这里,我们具体讨论两种机器学习中典型的、常用的参数估计方法,即极大似然估计法和贝叶斯估计法。


    1. 极大似然估计法

      Maximum Likelihood Estimation,即MLE,也译作最大似然估计(翻译不重要)。

      首先,要知道什么是“极大似然”。极大似然的基本思想是:一个随机试验如有若干个可能的结果A、B、C、… ,一次试验中若出现结果A,则认为实验条件对A的出现有利,也即该实验条件下A出现的概率P(A)较大。而极大似然估计就是要找到A出现概率最大值所对应的实验条件。

      那么,用数学语言描述一下极大似然估计:
      对于 m m m个样本的数据集 X = { x ( 1 ) , x ( 2 ) , . . . , x ( m ) } X = \left\{ {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right\} X={x(1),x(2),...,x(m)},是独立地由未知的真实数据生成分布 p d a t a ( x ) {p_{data}}\left( x \right) pdata(x)生成的;令 θ \theta θ是一族由 p   m o d   e l ( x ; θ ) {p_{\bmod el}}\left( {x;\theta } \right) pmodel(x;θ)在相同空间上确定的概率分布,那么极大似然估计就是求出最大的 θ \theta θ值,从而近似地估计出真实分布,可以表示为:
    θ M L = arg ⁡ max ⁡ θ p   m o d   e l ( X ; θ ) = arg ⁡ max ⁡ θ ∏ i = 1 m p   m o d   e l ( x ( i ) ; θ ) \begin{array}{l} {\theta _{ML}} = \mathop {\arg \max }\limits_\theta {p_{\bmod el}}\left( {X;\theta } \right)\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \mathop {\arg \max }\limits_\theta \prod\limits_{i = 1}^m {{p_{\bmod el}}\left( {{x^{\left( i \right)}};\theta } \right)} \end{array} θML=θargmaxpmodel(X;θ)=θargmaxi=1mpmodel(x(i);θ)  这样,由于乘积不便计算和可能的数值下溢问题,考虑等价优化为求对数似然,那么上式就转化为:
    θ M L = arg ⁡ max ⁡ θ ∑ i = 1 m log ⁡ p   m o d   e l ( x ( i ) ; θ ) {\theta _{ML}} = \mathop {\arg \max }\limits_\theta \sum\limits_{i = 1}^m {\log {p_{\bmod el}}\left( {{x^{\left( i \right)}};\theta } \right)} θML=θargmaxi=1mlogpmodel(x(i);θ)  进一步,考虑缩放代价函数时 arg ⁡ max ⁡ \arg \max argmax不变,那么可以对上式除以 m m m,从而得到和训练数据经验分布 p ^ d a t a {\hat p_{data}} p^data相关的期望作为准则:
    θ M L = arg ⁡ max ⁡ θ E x ∼ p ^ d a t a log ⁡ p   m o d   e l ( x ; θ ) {\theta _{ML}} = \mathop {\arg \max }\limits_\theta {{\rm E}_{x\sim{{\hat p}_{data}}}}\log {p_{\bmod el}}\left( {x;\theta } \right) θML=θargmaxExp^datalogpmodel(x;θ)
      有一种说法认为极大似然估计可以看做是最小化 K L KL KL散度,或者说是最小化分布间的交叉熵。为什么这么说?先看 K L KL KL散度的定义:
       K L KL KL散度一般用来度量两个分布之间的差异。具体到这里来说,就是最小化训练集上经验分布 p ^ d a t a {\hat p_{data}} p^data和模型分布之间的差异(因为真实分布 p d a t a {p_{data}} pdata未知,所以只能和经验分布来匹配),即:
    D K L ( p ^ d a t a ∥ p   m o d   e l ) = E x ∼ p ^ d a t a [ log ⁡ p ^ d a t a ( x ) − log ⁡ p   m o d   e l ( x ) ] {D_{KL}}\left( {{{\hat p}_{data}}\left\| {{p_{\bmod el}}} \right.} \right) = {{\rm E}_{x \sim {{\hat p}_{data}}}}\left[ {\log {{\hat p}_{data}}\left( x \right) - \log {p_{\bmod el}}\left( x \right)} \right] DKL(p^datapmodel)=Exp^data[logp^data(x)logpmodel(x)]  由于等号右边的前一项只和原始数据生成过程有关,和模型无关,因此意味着在最小化 K L KL KL散度时可以只考虑最小化等号右边的后一项,那么这就和极大似然估计的表示一样了。

      下面简单总结极大似然估计法的求解过程 :
      (1)根据所求目标模型写出似然函数;
      (2)对似然函数取对数并整理;
      (3)对似然对数求导;
      (4)解似然方程,得到估计参数的值;


    2. 贝叶斯估计法

      Bayesian Estimation,即利用贝叶斯定理结合先验概率及新的证据(一般指数据的似然函数),得到新的概率。

      一般来说,极大似然估计归于频率派,认为参数是一个定值;而贝叶斯派则认为参数服从某种概率分布(即考虑所有可能的 θ \theta θ),这也是贝叶斯估计与极大似然估计的区别之一。

      具体的数学描述如下:
      对于 m m m个样本的数据集 X = { x ( 1 ) , x ( 2 ) , . . . , x ( m ) } X = \left\{ {{x^{\left( 1\right)}},{x^{\left( 2\right)}},...,{x^{\left( m \right)}}} \right\} X={x(1),x(2),...,x(m)},通过贝叶斯规则结合数据似然 p ( x ( 1 ) , x ( 2 ) , . . . , x ( m ) ∣ θ ) p\left( {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}\left| \theta \right.} \right) p(x(1),x(2),...,x(m)θ)(似然函数可参照极大似然估计法中对似然函数的介绍)及先验,得到对于 θ \theta θ的后验概率:
    p ( θ ∣ x ( 1 ) , x ( 2 ) , . . . , x ( m ) ) = p ( x ( 1 ) , x ( 2 ) , . . . , x ( m ) ∣ θ ) p ( θ ) p ( X ) p\left( {\left. \theta \right|{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right) = \frac{{p\left( {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}\left| \theta \right.} \right)p\left( \theta \right)}}{{p\left( X \right)}} p(θx(1),x(2),...,x(m))=p(X)p(x(1),x(2),...,x(m)θ)p(θ)  这就是贝叶斯估计法对参数 θ \theta θ的估计结果。

      在贝叶斯估计的常用情景下,先验开始是相对均匀的分布或者是高熵的高斯分布,这样做是因为观测数据通常会使后验的熵下降,并集中在参数的几个可能性很高的值。

      同样地,下面简单梳理一下贝叶斯估计的求解过程:
      (1)确定参数 θ \theta θ的先验分布 p ( θ ) p\left( \theta \right) p(θ)
      (2)由数据集求出其联合概率分布,即似然函数 p ( X ∣ θ ) p\left( {X\left| \theta \right.} \right) p(Xθ)
      (3)由贝叶斯公式求出 θ \theta θ的后验概率分布 p ( θ ∣ X ) p\left( {\theta \left| X \right.} \right) p(θX)
      (4)求出 θ \theta θ的贝叶斯估计值 θ ^ = ∫ Θ θ p ( θ ∣ X ) d θ \hat \theta = \int\limits_\Theta {\theta {\kern 1pt} p\left( {\theta \left| X \right.} \right)d\theta } θ^=Θθp(θX)dθ。( Θ \Theta Θ表示对应的参数空间)


    3. 极大似然估计和贝叶斯估计的区别

      (1) 前面提到过的,这里再说明一下:极大似然估计预测时使用的是 θ \theta θ点估计,而贝叶斯估计使用的是 θ \theta θ全分布估计。比如,在观测到 m m m个样本后,下一个数据样本的预测分布为:
    p ( x ( m + 1 ) ∣ x ( 1 ) , x ( 2 ) , . . . , x ( m ) ) = ∫ p ( x ( m + 1 ) ∣ θ ) p ( θ ∣ x ( 1 ) , x ( 2 ) , . . . , x ( m ) ) d θ p\left( {{x^{\left( {m + 1} \right)}}\left| {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right.} \right) = \int {p\left( {{x^{\left( {m + 1} \right)}}\left| \theta \right.} \right)p\left( {\theta \left| {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right.} \right)d\theta } p(x(m+1)x(1),x(2),...,x(m))=p(x(m+1)θ)p(θx(1),x(2),...,x(m))dθ  这里每个具有正概率密度的 θ \theta θ值都有助于下一个样本的预测,其贡献由相应的后验概率密度加权;同时,对于 m m m个样本预测的不确定性也会包含在之后的预测中。

      (2) 和极大似然估计不同,贝叶斯估计需要“已知”参数 θ \theta θ的先验分布,这是因为先验能够影响概率质量密度朝着参数空间中偏好先验的区域偏移。实践中,先验通常表现为偏好更简单或更光滑的模型。

      (3) 当训练数据很有限时,贝叶斯估计通常泛化性更好;但是当训练样本很大时,贝叶斯方法通常会有很大的计算代价。而极大似然估计会向参数的真实值方向收敛(这要求真实分布 p d a t a {p_{data}} pdata必须在模型分布族 p   m o d   e l ( ⋅ ; θ ) {p_{\bmod el}}\left( { \cdot {\kern 1pt} {\kern 1pt} ;\theta } \right) pmodel(;θ)中,且真实分布 p d a t a {p_{data}} pdata必须刚好对应一个 θ \theta θ值)。


    4. 最大后验估计

      Maximum A Posteriori,即MAP,也称最大后验点估计。

      那么什么是MAP呢?原则上,我们应该用参数 θ \theta θ的完整贝叶斯后验分布进行预测,这就是贝叶斯估计。但是单点估计常常也是需要的,这是因为通常贝叶斯后验的计算对于大多数有意义的模型来说是困难的。这个时候就考虑用点估计求得一个近似解。由此,结合贝叶斯估计的优点,提出了最大后验点估计的方法。

      MAP估计选择后验概率最大的点作为对于参数 θ \theta θ的估计值,即:
    θ M A P = arg ⁡ max ⁡ θ p ( θ ∣ x ) = arg ⁡ max ⁡ θ log ⁡ p ( x ∣ θ ) + log ⁡ p ( θ ) {\theta _{MAP}} = \mathop {\arg \max }\limits_\theta p\left( {\theta \left| x \right.} \right) = \mathop {\arg \max }\limits_\theta \log p\left( {x\left| \theta \right.} \right) + \log p\left( \theta \right) θMAP=θargmaxp(θx)=θargmaxlogp(xθ)+logp(θ)
      MAP的优点是利用了来自先验的信息,这个附加信息有助于减少估计的方差(相比于ML估计),但增大了偏差。
      另外,加入正则化的极大似然估计能够降低样本数目较少时发生过拟合的可能,这可以看做贝叶斯推断的MAP近似,即当正则化项对应于先验 p ( θ ) p\left( \theta \right) p(θ)时。当然,不是所有的正则化项都对应于MAP贝叶斯推断。


    5. 以朴素贝叶斯分类为例说明

      下面,以朴素贝叶斯分类为例,简单说明极大似然估计和贝叶斯估计的计算方法和过程。

      首先,简述朴素贝叶斯法:
      朴素贝叶斯法是一种学习模型和分类的方法。对于给定的训练数据集,基于特征条件独立假设学习输入和输出的联合概率分布,再对给定的输入利用贝叶斯定理求出后验概率最大的输出。
      朴素贝叶斯法对条件概率分布做了如下的条件独立假设:( c k {c_k} ck为类别)
    P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) \begin{array}{l} P\left( {X = x\left| {Y = {c_k}} \right.} \right){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = P\left( {{X^{\left( 1 \right)}} = {x^{\left( 1 \right)}},...,{X^{\left( n \right)}} = {x^{\left( n \right)}}\left| {Y = {c_k}} \right.} \right)\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \prod\limits_{j = 1}^n {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} \end{array} P(X=xY=ck)=P(X(1)=x(1),...,X(n)=x(n)Y=ck)=j=1nP(X(j)=x(j)Y=ck)  朴素贝叶斯法分类时,后验概率为:
    P ( Y = c k ∣ X = x ) = P ( X = x ∣ Y = c k ) P ( Y = c k ) ∑ k P ( X = x ∣ Y = c k ) P ( Y = c k ) P\left( {Y = {c_k}\left| {X = x} \right.} \right) = \frac{{P\left( {X = x\left| {Y = {c_k}} \right.} \right)P\left( {Y = {c_k}} \right)}}{{\sum\nolimits_k {P\left( {X = x\left| {Y = {c_k}} \right.} \right)P\left( {Y = {c_k}} \right)} }} P(Y=ckX=x)=kP(X=xY=ck)P(Y=ck)P(X=xY=ck)P(Y=ck)  由上两式可得朴素贝叶斯分类器
    y = f ( x ) = arg ⁡ max ⁡ c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) ∑ k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) y = f\left( x \right) = \mathop {\arg \max }\limits_{{c_k}} \frac{{P\left( {Y = {c_k}} \right)\prod\nolimits_j {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} }}{{\sum\nolimits_k {P\left( {Y = {c_k}} \right)\prod\nolimits_j {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} } }} y=f(x)=ckargmaxkP(Y=ck)jP(X(j)=x(j)Y=ck)P(Y=ck)jP(X(j)=x(j)Y=ck)  由于分母对所有 c k {c_k} ck都相同,则可以简化为
    y = f ( x ) = arg ⁡ max ⁡ c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) y = f\left( x \right) = \mathop {\arg \max }\limits_{{c_k}} P\left( {Y = {c_k}} \right)\prod\nolimits_j {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} y=f(x)=ckargmaxP(Y=ck)jP(X(j)=x(j)Y=ck)
      以下分别用极大似然估计和贝叶斯估计计算朴素贝叶斯法中的概率。

      (1) 极大似然估计:
      先验概率的极大似然估计:
    P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) N , k = 1 , 2 , . . . , K P\left( {Y = {c_k}} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} }}{N}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} k = 1,2,...,K P(Y=ck)=Ni=1NI(yi=ck),k=1,2,...,K  条件概率的极大似然估计:
    P ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) ∑ i = 1 N I ( y i = c k ) , j = 1.2 , . . . , n ; l = 1 , 2 , . . . , S ; k = 1 , 2 , . . . , K P\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {x_i^{\left( j \right)} = {a_{jl}}{\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {y_i} = {c_k}} \right)} }}{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} }}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} j = 1.2,...,n{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} l = 1,2,...,S{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} k = 1,2,...,K P(X(j)=ajlY=ck)=i=1NI(yi=ck)i=1NI(xi(j)=ajl,yi=ck),j=1.2,...,n;l=1,2,...,S;k=1,2,...,K  其中,设第 j j j个特征 x ( j ) {x^{\left( j \right)}} x(j)可能的取值集合为 { a j 1 , a j 2 , . . . , a j S j } \left\{ {{a_{j1}},{a_{j2}},...,{a_{j{S_j}}}} \right\} {aj1,aj2,...,ajSj}
      式中, x ( j ) {x^{\left( j \right)}} x(j)是第 i i i个样本的第 j j j个特征; a j l {a_{jl}} ajl是第 j j j个特征可能取的第 l l l个值; I I I为指示函数。

      (2) 贝叶斯估计:
      先验概率的贝叶斯估计:
    P λ ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ {P_\lambda }\left( {Y = c{}_k} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} + \lambda }}{{N + K\lambda }} Pλ(Y=ck)=N+Kλi=1NI(yi=ck)+λ  条件概率的贝叶斯估计:
    P λ ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ {P_\lambda }\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {x_i^{\left( j \right)} = {a_{jl}},{y_i} = {c_k}} \right)} + \lambda }}{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} + {S_j}\lambda }} Pλ(X(j)=ajlY=ck)=i=1NI(yi=ck)+Sjλi=1NI(xi(j)=ajl,yi=ck)+λ  式中, λ ≥ 0 \lambda \ge 0 λ0等价于在随机变量的各个取值的频数上赋予一个正数 λ \lambda λ
       λ = 0 \lambda = 0 λ=0时,就是极大似然估计; λ = 1 \lambda = 1 λ=1时,称为拉普拉斯平滑。
      显然,对于任何 l = 1 , 2 , . . . , S j , k = 1 , 2 , . . . , K l = 1,2,...,{S_j}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} k = 1,2,...,K l=1,2,...,Sj,k=1,2,...,K,有:
    P λ ( X ( j ) = a j l ∣ Y = c k ) > 0 {P_\lambda }\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right) > 0 Pλ(X(j)=ajlY=ck)>0 ∑ l = 1 S j P ( X ( j ) = a j l ∣ Y = c k ) = 1 \sum\limits_{l = 1}^{{S_j}} {P\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right)} = 1 l=1SjP(X(j)=ajlY=ck)=1


    6. 小结

      本文简单分析和总结了机器学习中的参数估计方法,包括极大似然估计、贝叶斯估计以及最大后验估计。
      一般来说,极大似然估计是机器学习中的首选估计方法。当样本数目小到会发生过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的极大似然有偏版本。
      另外,如果能够知道参数的先验,那么可以考虑最大后验估计。相比于极大似然估计来说,先验有助于减少MAP的方差,但会增加偏差。因此,如何选择相应的估计方法,还需要具体问题具体分析。

    展开全文
  • 参数估计

    千次阅读 2018-10-10 23:31:28
    一、参数估计内容 1.参数估计的requisites   我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理...

    前言

      学了很久的数理统计,总觉得知识在脑海中没有一个清晰的轮廓,虽然也可以自己通过纸和笔整理,但是,也想要通过新的方式,用文字的方式输出,这一想法已经在我脑海里盘旋了好久了,终于在今天开始落实。

    一、参数估计内容

    1.参数估计的requisites

      我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理有一些了解,最好还要知道三大抽样分布的性质。

    但是还是简单提一下统计量的概念吧:统计量是从样本中得到的,是样本的函数,统计量不含有任何未知参数。

    2.参数估计的目的

      我们在统计中,总是想要通过样本去推断总体的性质,而引进统计量,就是对样本进行描述的过程。实际中,我们感兴趣的问题总是与总体分布中的未知参数有关系,所以,我们要对参数进行估计和检验。
    这里的参数是指:

    • 分布中的未知参数和未知参数的函数
    • 分布的各种特征函数

    3.参数估计的类型和使用

    在此之间,我们必须要明确一点,估计是一个方法,不是一个具体算出来的值;只是,在给定样本以后,用这种估计的方法,可以算出数值。

    3.1 点估计

      点估计,顾名思义是对某个未知参数的值的估计,就像是数轴上的一个点。因此我们的目的也就是找到一个未知参数的好的估计量。
      知道点估计的含义以后,我们先来看看常用的找估计量的方法:

    • 矩估计
    • 最大似然估计
    • 最小方差无偏估计
    • 贝叶斯估计

    3.1.1 矩估计

      矩估计的基本原理就是:替换原理通过样本的矩替换总体的矩,用样本矩的函数替换总体矩的函数。
      这么做的好处是:在总体分布函数未知的情况下,通过样本的特征数可以对各种参数进行估计。
      矩估计的实质是:用样本的经验分布函数去替换总体的分布,理论基础是格里纹科定理。
      具体的操作就是:

    1. 假设已知总体的概率密度函数,但其中的参数未知,通过这个带有未知参数的密度函数去求总体的各阶矩;
    2. 利用样本的数据,求各阶矩;
    3. 通过总体各阶矩和样本各阶矩相等,构造方程组,解出参数。

    3.1.2 最大似然估计(MLE)

      最大似然估计,也可以叫做极大似然估计,从字面理解非常到位就是,找到一个未知参数的估计,使得在这个估计的条件下,由总体概率密度函数推算的分布下,样本发生的可能性最大。即是,最大的像这样的估计。
    具体操作就是:

    1. 将未知参数的估计设为x,带入总体密度函数。
    2. 建立在样本的独立性的条件下,根据样本求出样本取得当下值的概率。
    3. 通过分析计算出使得概率达到最大的x,就是未知参数的极大似然估计。
      最大似然估计具有不变性。

    3.1.3 最小方差无偏估计

      首先引进均方误差(MSE)的概念,均方误差是用于衡量点估计好坏的一种标准,关于衡量点估计好坏的标准在后文还会详细介绍,这里为了需要,先简单提一下。首先明确一点,均方误差是对点估计进行的计算。具体的计算公式是,参数估计值与真实值之差的平方的期望,通过分解,也等于估计值的方差加估计值的期望与真实值之差的平方。
      一致最小均方误差估计,是需要在一个确定的估计类里,找到均方误差相对最小的那个。但由于是在估计类里找,如果不对估计加任何限制,则一致最小均方误差估计是不存在的,所以没有意义。
      最小方差无偏估计,这里是指一致最小方差无偏估计,就是对于一个参数的无偏估计而言,最小的均方误差就意味着最小的方差。对于参数空间中的任何无偏估计,具有最小方差的那个估计就称作是一致最小方差无偏估计(UMVUE)
    实际上,用于判断是否是UMVUE,可以通过一个定理方便地得到:未知参数的UMVUE必然与任一零的无偏估计不相关。也就是说,现在还有一个其他的随机变量X,均值是零,那么这个未知参数的UMVUE与这个随机变量X的相关系数(Cov)为零。

    3.1.4 贝叶斯估计

      前面介绍的三种办法是频率学派的理论,而贝叶斯估计是贝叶斯学派的观点。
      贝叶斯估计是建立在已经有关于参数的分布的信息的基础上,叫做先验信息,然后进行样本观测,推算后验分布。也可以理解为,用总体和样本对先验分布做出调整。
      具体做法是:

    1. 在参数未知的条件下,确定总体的分布
    2. 根据参数的先验信息确定先验分布 π(θ)
    3. 求出在通过先验分布得到的未知参数后,样本的联合分布 p(X|θ)
    4. 确定样本和未知参数的联合分布,也就是2.与3.得到的分布函数之积 h(X,θ)=p(X|θ)π(θ)。
    5. 对参数θ的贝叶斯推断,π(θ|X)= h(X,θ)/m(X),其中m(X) 是从h(X,θ)中对θ整个参数空间积分得到的,X的边际概率函数。

    3.2 点估计好坏的评价标准

      前面已经提到点估计的目的是找到未知参数的好的估计量,那么到底怎么定义“好”,也是我们需要关心的。在点估计中,有如下标准衡量:

    • 无偏性
    • 有效性
    • 相合性
    • 均方误差
    • 充分性原则
    • 有效估计

      我刚学参数估计的时候,脑子里总是记不住这些性质到底在描述什么QAQ
      好吧,其实现在也记不住,我也必须翻一下笔记了…

    • 无偏性
        无偏性是描述经过重复抽样以后,所有对这个未知参数的估计值的平均等于真实的参数值。具体判断也就是计算这个估计的均值,看它是否等于真实值。关于无偏性还有一些性质,最好能够记住:
      1. 样本的k阶中心距通常不是总体k阶中心矩的无偏估计
      2. 无偏性不具有不变性,也就是无偏估计的函数不一定是无偏估计
          无偏估计还有渐近无偏估计,就是当样本量趋近于无穷时,均值的极限趋近于真实值。也是用于衡量一个估计是一个好的估计的准则。
    • 有效性
        有效性是建立在两个无偏估计的基础上,比较两个无偏估计的方差,方差小的更有效。
    • 相合性
        与渐近无偏性从期望的极限角度理解不同,相合性是从概率的角度,即未知参数的估计,在样本量趋近于无穷大的时候,估计量依概率收敛到未知参数。也即是说,当样本量增大的时候,被估计的参数能够被估计到任意指定的精度。判断相合性,我们采用验证它的充分条件:
      1. 渐进无偏性
      2. 方差收敛到0
          由大数定理知道,矩估计一般都是相合的
    • 均方误差
        MSE,是通过计算参数估计值与真实值之差的平方的期望,其大小能够反映估计的好坏,在同一估计类里越小越好。
    • 充分性原则
        首先,要注意充分性原则和充分性是两个不同的东西!充分性是描述统计量不丢失关于样本的任何信息,则称这个统计量为充分统计量。那么,充分性原则和充分性一点关系都没有吗?也不是的。在比较两个无偏估计的好坏的时候,较好的那个无偏估计总是样本的充分统计量;并且,将不是样本充分统计量的统计量,关于充分统计量求期望,得到的估计,一定是充分统计量,并且新的估计的方差也得到了降低。
        换句话说,对于所有的统计推断问题,考虑未知参数的估计问题,只需要在基于充分统计量的函数中进行即可,这就是充分性原则。
        你可能还在想,怎么将不是样本充分统计量的统计量关于一个充分统计量求期望?利用随机过程讲义的第一章的内容,利用条件概率公式,连续函数求积分,离散函数求∑。
    • 有效估计
        有效估计是一个估计,它的方差达到了Cramer-Rao方程的下界,有效估计一定是UMVUE哈。具体计算来判断是否是有效估计的话:
      1. 根据总体密度函数(含参数)检验满足C-R方程的条件;
      2. 求费希尔信息量,找到C-R下界;
      3. 对无偏估计求方差,检验是否等于C-R下界。

    3.3 区间估计

      之前我们讨论的都是点估计,但是关于统计量的精度我们无法定量的回答,必须通过它们的分布来反映。在实际中,度量点估计精度直观方法就是给出未知参数的一个区间,这就是区间估计。
      区间估计是想要找到两个统计量,构成一个区间,这个区间盖住未知参数真值的可能性不确定,但是人们总是希望在尽可能小的区间下,区间盖住真值的可能性越大越好,由此得到置信区间的定义:
      置信区间,是一个有样本值得到的随机区间,未知参数真值落在这个随机区间中的概率大于等于1-a,或者理解为,未知参数真值不落在这个随机区间中的概率小于置信度,满足这个条件的随机区间称作置信区间。首先,置信水平是随机区间盖住真值的概率,置信水平等于置信度,然后,我自己理解置信度是这样的:当大量重复实验,用置信区间的计算方法,得到很多个N个随机区间的时候,有(N* 置信水平)的那么多个区间,包括了均值。
      那具体怎么做区间估计呢?我们通过构造区间估计的方法,使用最基本的枢轴量法:

    1. 什么是枢轴量?
        枢轴量是样本和未知参数的函数,它具有的性质是其分布不依赖与未知参数,或者说,它的概率密度函数与参数无关。
    2. 枢轴量有什么用?
        在参数未知的时候,没有办法直接凭空从置信水平找到随机区间的上下限,所以采用枢轴量的分布函数,以此为媒介,根据置信水平,先算出枢轴量的置信区间,再反解出上下限。
    3. 枢轴量怎么用?
        其实2.已经解答过了,从未知参数的好的点估计(MLE)出发,用它的性质和密度函数构造。根据置信水平,通常采用等尾置信区间保证区间长度最短,先算出枢轴量的置信区间,再反解出上下限。
    4. 有什么特别的检验的构造套路吗?
        老师教过的有:
      • 单个正态总体参数:分为均值、方差是否已知,对均值和方差分别都有不同的枢轴量
      • 大样本置信区间:原理是中心极限定理,在样本方差已知的时候,很ok;在样本方差未知的时候,中心极限定理的分布可以将方差换成它的相合估计。注意哦,大样本运用中心极限定理,最多只有样本的方差的相合估计代替方差,不可以用均值的无偏估计代替总体均值位置上的μ的!
      • 两独立正态总体下均值之差和方差之比的置信区间:类似于单个正态总体,在估计均值的时候,要看方差是否已知,或者方差成比例;在估计方差之比的时候,直接就有枢轴量,不需要讨论均值是否已知。

      除了这些,均匀分布的总体还有一些特别的构造方法,课后题和期中考试卷子也有涉及,供自己参考~
      注:区间估计构造枢轴量的时候,大量用到前面一章节的统计量及其分布、以及三大抽样分布的基础。

    二、整体学习思路

      参数的点估计—>穿插如何评价点估计的好坏—>参数的区间估计
      建议的学习思路:点估计—>评价点估计的好坏—>参数估计,感觉独立开会更清晰一些~

    三、声明

      全文都是我个人的学习笔记,肯定有出现错误欢迎指正。

    展开全文
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...

    “参数估计是以抽样分布为中介,用样本的参数特征对总体的参数进行数值估计的过程。”

    一、点估计
    1.点估计就是用样本统计量来估计总体参数。
    概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,然后用样本统计量的值来估计总体的情况。
    例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计。

    常用的点估计有:用样本均值估计总体均值,用样本方差估计总体方差,用样本的分位数估计总体分位数,用样本的中位数估计总体的中位数。

    2.点估计方法
    矩估计法、顺序统计量法、最大似然法、
    最小二乘法(对于点估计方法,放在另一篇文章中详细介绍)

    3.由于用样本推断总体的过程一定存在估计误差,而点估计的估计误差无法衡量,所以点估计主要用于为定性研究提供数据参考,或者在对于总体参数估计精度要求不高时使用。

    二、区间估计
    1.区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。

    2.关于置信水平(置信度)、置信区间和显著性水平:
    置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
    置信水平用百分数表示,表示成(1-a)100%a指的是显著性水平,表示总体参数不落在置信区间的可能性。

    3.关于置信区间的计算:
    通过部分样本来计算总体参数的一个置信区间有以下步骤:
    a.明确要解决的问题,要估计的指标或参数是什么,
    b.求抽样样本的平均值和标准误差,
    注意区分标准差和标准误差:标准差反映的是整个样本对样本平均数的离散程度,标准差等于方差开根号;标准误差反映的是样本平均数对总体平均数的变异程度,标准误差等于样本标准差除n的开根号。
    c.确定需要的置信水平,
    d.查询z表,得到z值,
    e. 计算置信区间,[a,b],a=样本均值-z标准误差,b=样本均值+z标准误差。

    区间估计分为一个总体参数的估计和两个总体参数的估计

    4.一个总体参数的区间估计:总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;

    4.1总体均值的区间估计:
    均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关;
    Z分布其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布,
    Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30;
    T分布:对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型;
    切比雪夫不等式:对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。
    在这里插入图片描述截图来自《人人都会数据分析:从生活实例学统计》

    4.2 总体方差的区间估计:
    总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。
    卡方统计量的计算公式:
    χ α 2 ( n − 1 ) = ( n − 1 ) s 2 σ z 2 \chi^2_\alpha(n-1)=\frac{(n-1)s ^2}{\sigma ^2_z} χα2(n1)=σz2(n1)s2
    总体方差的双侧置信区间估计公式为:
    ( n − 1 ) s 2 χ α 2 2 ( n − 1 ) ≤ σ z 2 ≤ ( n − 1 ) s 2 χ 1 2 − α 2 ( n − 1 ) \frac{(n-1)s^2}{\chi ^2_\frac{\alpha}{2}(n-1)} \leq \sigma ^2_z \leq \frac{(n-1)s ^2}{\chi ^2_1-\frac{\alpha}{2} (n-1)} χ2α2(n1)(n1)s2σz2χ122α(n1)(n1)s2
    其中带有a/2的为下标;
    如果是单侧置信区间的话,只需要取上面式子的前半部分或者后半部分,并将a/2改成a即可得到单侧置信区间。

    4.3 总体比例的区间估计:
    或者叫总体比率的区间估计,跟二项分布有关,二项分布的理论是:事件发生概率是p,进行n次实验,其中x次实验该事件发生,则发生次数的概率分布服从二项分布;均值、方差为np,npq。
    若将发生的次数转换成比率(x/n),则比率的概率分布也服从二项分布。
    二项分布的特性:当抽取的样本容量n很大,是大 样本,使得np和nq(q为事件不发生的概率,等于1-p)的值都大于 5, 此时二项分布将近似于正态分布。
    由于事件发生比率x/n服从二项分布,所以如果比率的二项分布近似于正态分布,就可以得到不利的区间估计。

    在事件发生概率p已知的情况下,总体比率 p z ˉ \bar{p_z} pzˉ在置信度为1-a时,总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    其中, p y ˉ \bar{p_y} pyˉ为样本比率, p z ˉ \bar{p_z} pzˉ为总体比率,
    当事件发生概率p未知,可用样本中事件发生的概率即样本比率代替。

    5. 两个总体参数的区间估计
    两个总体均值之差的估计,两个总体方差比的区间估计
    两个总体与多个总体参数的区间估计在实际生活中的应用不是很多,更常用的是两个总体和多个总体参数的假设检验。 区间估计虽不常用,但是其与假设检验的应用原理是想通的。

    5.1 两个总体均值之差的区间估计:
    可以将单个总体均值的抽样分布推广到两个总体均值差的抽样分布,然后利用两个总体均值差的抽样分布推导出两个总体均值差的置信区间公式。
    方差齐性/方差不齐:对于配对样本来说其方差可被认为是想等的,即方差齐性。
    在这里插入图片描述
    截图来自《人人都会数据分析:从生活实例学统计》

    独立样本和配对样本:
    独立样本:是指如果从一个总体中选取样本,抽样形式无论怎样改变都不会影响从另一个总体中抽取样本的概率,则这两个随机样本为独立样本;
    配对样本:是指如果从一个总体中抽取样本的行为以某种方式决定了从另一个总体中抽取样本的概率,则这两个样本为成对样本或配对样本。

    均值和方差的特点:
    两个总体合并(相加或相减),那么合并后的总体均值等于原来两个总体的均值之和或均值之差;而合并后的总体方差都等于两个总体方差之和。

    差值抽样分布可以看做单个总体的均值抽样分布,因此可套用“均值抽样分布适用条件表”,将公式修改一下即可:

    截图来自《人人都会数据分析:从生活实例学统计》

    5.2 两个总体方差比的区间估计
    F分布可用于求取两个正态分布总体方差比的置信区间。
    F统计量可被看做是两个卡方统计量的商,F分布也被称为方差比分布。因为卡方分布要求总体服从正态分布,所以F分布也要求F统计量的两个总体都服从正态分布。
    当给定置信水平时,可推出两个正态分布总体方差比的置信区间。

    三、样本量的确定

    1总体均值区间估计的样本量确定
    在总体标准差已知的情况下,如果数据总体服从正态分布,则样本均值的抽样分布适用Z分布,就可以利用总体均值的置信区间公式来计算样本容量,总体均值的置信区间为:
    x ˉ ± Z α 2 σ n \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} xˉ±Z2αn σ x ˉ ± Z α 2 σ n N − n N − 1 \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N-n}{N-1}} xˉ±Z2αn σN1Nn

    则总体均值的区间估计误差为:
    Δ μ = Z α 2 σ n \Delta\mu=Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} Δμ=Z2αn σ
    进而可以求得样本容量的公式:
    n = ( Z α 2 σ Δ μ ) 2 n=(\frac{Z_\frac{\alpha}{2} \sigma}{\Delta\mu})^2 n=(ΔμZ2ασ)2

    以上是总体标准差已知时,当总体标准差未知时,一是可以用样本标准差代替,但是前提条件是样本容量要大于等于30;二是可以用过去试点调查的样本标准差代替;三是,如果知道总体数据中的最大和最小值,可用四分之一的最大与最小值的差值来代替总体标准差。

    2.总体方差区间估计的样本量确定
    总体方差的区间估计适用的抽样分布为卡方分布。卡方统计量为:
    χ 2 = ( n − 1 ) s 2 σ 2 \chi^2=\frac{(n-1)s ^2}{\sigma ^2} χ2=σ2(n1)s2
    由卡方分布的性质可知,当样本量足够大时,卡方分布近似于正态分布。卡方分布的均值为自由度(n-1),卡方分布的方差为两倍的自由度2(n-1),那么在大样本的情况下,总体方差的置信区间为:
    s 2 = ± Z α 2 s 2 2 n s^2=\pm Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} s2=±Z2αs2n2
    则总体方差的估计精度为:
    Δ σ 2 = Z α 2 s 2 2 n \Delta \sigma^2=Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} Δσ2=Z2αs2n2
    由此可得到样本容量公式为:
    n = 2 Z α 2 s 2 Δ σ 2 n=\frac{\sqrt{2} Z_\frac{\alpha}{2} s^2}{\Delta \sigma^2} n=Δσ22 Z2αs2

    3.总体比率区间估计的样本量确定
    在确定总体比率的区间估计时,利用的是二项分布近似于正态分布的性质,即当抽取的样本量n很大时,是大样本,使得np>5且nq>5(p是事件发生的概率,q是事件不发生的概率,q=1-p)时,二项分布近似于正态分布。
    总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    则总体比率的估计误差为:
    Δ p z ˉ = Z α 2 p ( 1 − p ) n \Delta \bar{p_z} =Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} Δpzˉ=Z2αnp(1p)
    由此可得到样本容量为:
    n = Z α 2 2 p ( 1 − p ) Δ p z ˉ 2 n=\frac{Z_\frac{\alpha}{2} ^2 p(1-p)}{\Delta \bar{p_z} ^2} n=Δpzˉ2Z2α2p(1p)

    注:本文主要参考《人人都会数据分析:从生活实例学统计》

    展开全文
  • 回归分析之参数估计

    千次阅读 2019-10-11 16:06:59
    它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含的未知参数或未知参数的函数。 区间估计(置信区间的估计):依据抽取的样本,根据一定...
  • 参数估计:贝叶斯思想和贝叶斯参数估计

    万次阅读 多人点赞 2016-05-23 10:54:29
    各种参数估计方法可以参考Heinrich论文的第二部分。 [[各种参数估计方法的论述:Gregor Heinrich. Parameter estimation for text analysis *] 数理统计学简史》 《统计决策论及贝叶斯分析 James O.Berger著》 [ ...
  • 浅谈参数估计

    千次阅读 2019-09-03 09:38:34
    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数. 估计量 如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,...
  • 很难说这些观测的数据符合什么模型,参数估计方法就失效了,我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。 因此,本文主要讨论 参数估计和非参数估计问题   1. 参数估计 对我们已经知道观测...
  • 参数估计与非参数估计

    万次阅读 2015-05-06 11:38:58
    参数估计(parameter estimation): 根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或...
  • 推断统计:参数估计和假设检验

    千次阅读 多人点赞 2020-03-03 00:35:24
    目录 ...  3、参数估计(点估计和区间估计)    1)参数估计、点估计和区间统计的概念    2)点估计说明    3)区间估计说明   4、中心极限定理    1)中心极限定理的概念    2...
  • 概率论 参数估计与假设检验 区分及例子动机区分概念假设检验基本思想小概率原理原理几常见假设检验假设检验规则和类错误检验规则类错误明确步骤 动机 国内本科教材重计算技巧,轻内在逻辑,大家学完容易忘记。...
  • 我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估...
  •  参数估计是统计学中的经典问题,常用的方法是最大似然估计和贝叶斯估计。为什么机器学习中,也会用到参数估计呢?我们利用训练样本来估计先验概率和条件概率密度,并以此设计分类器。当假设数据符合某种分布时,其...
  • 在现实生活中,由于被试者的能力不能通过可观测的数据进行描述,所以IRT模型用一个潜变量θθ来表示,并考虑与项目相关的一组参数来分析正确回答测试项目的概率。目前常见的IRT模型有2-PL模型和3-PL模型。其具体...
  • 统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。 一、参数估计基础-Z分布 在统计应用中,可以把任何一个均数为,标准差为的正态分布转变为,的标准正态分布,即将...
  • 一、引言 本文以rssi(接收信号强度)滤波为背景,结合卡尔曼的五个公式,设计 ...3、卡尔曼滤波过程及五个基本公式 4、公式中每个参数详细注释 5、结合rssi滤波实例设计滤波器 6、MATLAB实现滤波器 二、模型的...
  • 分类模型中的参数估计

    千次阅读 2016-05-29 19:26:40
    贝叶斯参数估计的一些基本的假设如下: 1)条件概率密度函数 P ( X | θ ) P(X|\theta) 是完全已知的,但参数向量 θ \theta 的具体值未知; 2)参数向量 θ \theta 的先验概率密度函数 P ( θ ) P(\theta) 包含...
  • 参数估计与假设检验的区别和联系

    万次阅读 2019-05-11 18:09:08
    参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计和区间估计两种。 点估计就是直接以样本统计量直接作为相应总体参数的估计值。点估计的缺陷是没法给出估计的可靠性,也没法说出点估计值与总体...
  • 参数估计:核密度估计KDE

    万次阅读 多人点赞 2016-12-14 11:38:46
    http://blog.csdn.net/pipisorry/article/details/53635895核密度估计...解决这一问题的方法包括参数估计和非参数估计参数估计参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布
  • 卡尔曼滤波系列——(二)扩展卡尔曼滤波

    万次阅读 多人点赞 2019-04-06 16:33:48
    更新日志: 2020.02.13:修改了第三节推导中的公式错误 ...EKF的基本思想是利用泰勒级数展开将非线性系统线性化,然后采用卡尔曼滤波框架对信号进行滤波,因此它是一次优滤波。 2 算法介绍 2.1 泰勒级数...
  • 参数估计 统计学有大主要分支,分别是描述性统计学和推断统计学。描述性统计学用于描述和概括数据的特征以及绘制各类统计图表。总体数据,往往因为数据量太大而难以被获取,所以就有了通过较小的样本数据推测总体...
  • 那些参数估计

    千次阅读 2018-05-10 14:33:09
    本文内容写在前面:参数估计是一种统计推断。在统计学的世界中,自古以来一直存在着两种分布:一种存在于现实世界中,比如我们可以把一枚硬币扔上一万次,然后算一下几次正面几次反面,这是样本的分布;另一种只存在...
  • 本实验的目的是学习Parzen窗估计和k最近邻估计方法。在之前的模式识别研究中,...在模式识别中有躲在令人感兴趣的非参数方法,Parzen窗估计和k最近邻估计就是两种经典的估计法。这里使用Matlab实现这两种估计方法
  • 功率谱的两种定义及各自估计方法

    千次阅读 2019-12-20 17:24:14
    4.1.1 间接法 全频域的平均功率: ...4.2 非参数估计方法 4.2.1 Periodogram周期图 可以看出,这是第二定义方法在序列长度N有限,试验次数有限(非期望)条件下的实际值。 4.2.2 Corre...
  • 统计学——参数估计与假设检验

    千次阅读 2019-02-13 17:15:04
    统计学(第六版)贾俊平 读书笔记 第 7 章 参数估计 7.1 参数估计基本原理 参数估计就是用样本统计量去估计总体的参数。比如,用样本均值估计...参数估计方法有点估计和区间估计两种。点估计就是中样本统计量的...
  • 估计参数方法:最大似然估计、贝叶斯推断

    千次阅读 多人点赞 2019-12-13 17:00:47
    我们如何计算高斯分布的参数μ 、σ的最大似然估计? 我们想要计算的是观测到所有数据的全概率,即所有观测到的数据点的联合概率分布。为此我们需要计算一些条件概率,这可能会很困难。所以这里我们将做出我们的第...
  • OFDM完整仿真过程及解释(MATLAB)

    万次阅读 多人点赞 2019-04-19 17:03:45
    因为是复制过来,如果出现图片显示不完整以及需要源程序请点击下面链接查看原文: ... 目录: 一、说明 二、ofdm总体概述 ...三、基本原理 ...五、OFDM基本参数的选择 六、OFDM的MATLAB仿真程序 一、说...
  • 近日,Statsbot 团队邀请数据科学家 Prasoon Goyal 在其博客上分部分发表了一篇有关概率图模型的基础性介绍文章。文章从基础的概念开始谈起,并加入了基础的应用示例来帮助初学者理解概率图模型的实用价值。...
  • 自适应控制基本思想

    万次阅读 多人点赞 2017-09-22 10:18:20
    自适应控制 自适应控制所讨论的对象,一般是指对象的结构已知,仅仅是参数未知,而且采用的控制方法仍是基于数学模型的方法 ...自适应控制与常规的控制与最优控制一样,是一基于数学模型的控制方法

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 118,071
精华内容 47,228
关键字:

参数估计的两种基本方法