精华内容
下载资源
问答
  • 针对混沌系统参数估计研究中由于随机观测噪声影响而导致的参数估计结果不确定性问题,基于贝叶斯定理提出了一种客观评价混沌系统参数估计结果不确定性的统计方法;进而以典型的Lorenz系统为例进行了数值仿真,分析了...
  • 回归分析之参数估计

    千次阅读 2019-10-11 16:06:59
    参数估计 参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含的...

    参数估计

    参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。

    点估计:依据样本估计总体分布中所含的未知参数或未知参数的函数。

    区间估计(置信区间的估计):依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。

    本文主要讲述点估计的矩估计法和极大似然法
    矩估计法:
    矩估计法的理论依据是大数定律。矩估计是基于一种简单的“替换”思想,即用样本矩估计总体矩。
    矩的理解:
    在数理统计学中有一类数字特征称为矩。

    首先要明确的是我们求得是函数 的最大值,因为log是单调递增的,加上log后并不影响 的最大值求解。为何导数为0就是最大值:就是我们目前所知的概率分布函数一般属于指数分布族(exponential family),例如正态分布,泊松分布,伯努利分布等。所以大部分情况下这些条件是满足的。但肯定存在那种不符合的情况,只是我们一般比较少遇到。
    极大似然估计总结
    似然函数直接求导一般不太好求,一般得到似然函数L(θ)之后,都是先求它的对数,即ln L(θ),因为ln函数不会改变L的单调性.然后对ln L(θ)求θ的导数,令这个导数等于0,得到驻点.在这一点,似然函数取到最大值,所以叫最大似然估计法.本质原理嘛,因为似然估计是已知结果去求未知参数,对于已经发生的结果(一般是一系列的样本值),既然他会发生,说明在未知参数θ的条件下,这个结果发生的可能性很大,所以最大似然估计求的就是使这个结果发生的可能性最大的那个θ.这个有点后验的意思
    ————————————————
    版权声明:本文为CSDN博主「六月麦茬」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/liuyuemaicha/article/details/52497512

    展开全文
  • 参数估计方法

    千次阅读 2019-11-07 20:58:21
    参数估计有多种方法,下面简单和大家分享以下两种: 一、最大似然估计 原理: 最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,也就是概率分布函数或者说是似然函数最大。 二、最小二乘法 当从...

    参数估计有多种方法,下面简单和大家分享以下两种:

    一、最大似然估计

    原理: 最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,也就是概率分布函数或者说是似然函数最大。

    二、最小二乘法

    当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。

    三、两者联系

    一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计是等价的,也就是说估计结果是相同的,但是原理是不同的。最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数。

    四、总结

    最小二乘法的核心是权衡,因为你要在很多条线中间选择,选择出距离所有点之后最短的,而极大似然核心是自恋,要相信自己是天选之子,自己看到的,就是冥冥之中最接近真相的。当服从正态分布时,两都的结论相等。

    个人见解,欢迎批评指正!

    ————————————————
    版权声明:本文为CSDN博主「玲[逆流而上]」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/qq_45734454/article/details/102961112

    展开全文
  • 推断统计:参数估计和假设检验

    千次阅读 多人点赞 2020-03-03 00:35:24
    目录 ...  3、参数估计(点估计和区间估计)    1)参数估计、点估计和区间统计的概念    2)点估计说明    3)区间估计说明   4、中心极限定理    1)中心极限定理的概念    2...

    目录

      1、总体、个体、样本和样本容量
       1)总体、个体、样本和样本容量的概念
       2)本文章使用的相关python库
      2、推断统计的概念
       1)推断统计的概念
       2)为什么要进行推断统计?
      3、参数估计(点估计和区间估计)
       1)参数估计、点估计和区间统计的概念
       2)点估计说明
       3)区间估计说明
      4、中心极限定理
       1)中心极限定理的概念
       2)中心极限定理的推导(手写推导)
       3)由中心极限定理得出的几个结论
       4)python实现中心极限定理
      5、参数估计中置信区间的推导
       1)什么是小概率事件?
       2)随机变量的分布的概念
       3)标准正态分布的概率密度函数和和分布函数
       4)随机变量的α分位数的概念
       5)标准正态的分位数表怎么得到的呢?
       6)区间估计的定义
       7)置信水平1-α的解释
       8)枢轴法求置信区间的步骤(手写推导)
      6、假设检验
       1)假设检验的概念
       2)假设检验的理论依据
       3)P-Value值与显著性水平
       4)假设检验的步骤
       5)单边检验和双边检验
       6)常用的假设检验

    1、总体、个体、样本和样本容量

    1)总体、个体、样本和样本容量的概念
    • 总体:我们所要研究的问题的所有数据,称为总体。
    • 个体:总体中的某个数据,就是个体。总体是所有个体构成的集合。
    • 样本:从总体中抽取的部分个体,就构成了一个样本。样本是总体的一个子集。
    • 样本容量:样本中包含的个体数量,称为样本容量。
    2)本文章使用的相关python库
    import numpy as np
    import pandas as pd
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    import seaborn as sns
    import warnings
    from sklearn.datasets import load_iris
    from scipy import stats
    
    sns.set(style="darkgrid")
    mpl.rcParams["font.family"] = "SimHei"
    mpl.rcParams["axes.unicode_minus"] = False
    warnings.filterwarnings("ignore")
    

    2、推断统计的概念

    1)推断统计的概念

      “推断统计”研究的是用样本数据去推断总体数量特征的一种方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。

    2)为什么要进行推断统计?

      在实际研究中,总体数据的获取往往是比较困难的,总体参数一般也是未知的。因此,我们就需要利用总体的某个样本,通过样本统计量去估计总体参数。基于这个需求,我们就需要学习推断统计。
      通过上述叙述,我们给推断统计做一个说明。“推断统计”就是利用样本统计量,去推断总体参数的一种方法。
      

    3、参数估计(点估计和区间估计)

    1)参数估计、点估计和区间统计的概念
    • 参数估计:用样本统计量去估计总体的参数。比如,用样本均值去估计总体均值,用样本方差去估计总体方差。
    • 点估计:用样本统计量的某个取值,直接作为总体参数的估计值。
    • 区间估计:在点估计的基础之上,给出总体参数估计值的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    2)点估计说明
    ① 怎么求鸢尾花的平均花瓣长度?

      事实上,世界上鸢尾花千千万,我们总不能说把所有的鸢尾花的数据信息,都统计出来。因此,这就需要我们用样本均值去估计总体均值。

    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    # 计算鸢尾花花瓣长度的均值
    df["petal length (cm)"].mean()
    

    结果如下:
    在这里插入图片描述
    结果分析:点估计有点简单粗暴,容易受到随机抽样的影响,很难保证结果的准确性。但是,点估计也不是一无是处,样本值是来自总体的一个抽样,在一定程度上还是可以反映出总体的一部分特征。同时,样本容量越接近总体容量,点估计值也会越准确。
      

    3)区间估计说明
    ① 什么是区间估计?

      当你碰到一个陌生人,我让你判断出这个人的年龄是多少?这里有两种方式完成你的推断。第一,这个人25岁。第二,这个人20-25岁之间。哪种结果更让你信服呢?很明显第二种更让人信服。对于第一种说法,相当于上述的点估计。第二种,相当于区间估计,就是给定一个区间,这个区间包含真值。
      统计学中对区间估计的定义:在点估计的基础之上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。

    ② 问题:获取一个抽样样本后,如何确定置信区间和置信度?

    要确定置信区间和置信度,就需要知道样本和总体,在分布上有怎样的联系。中心极限定理给出了这个问题很好的回答。上述疑问将在下面为您一一揭晓。
      

    4、中心极限定理

    1)中心极限定理的概念

      设从均值为μ,方差为σ²的任意一个总体中,抽取样本量为n的样本。当n充分大的时候,样本均值X拔近似服从均值为μ,方差为σ²/n的正态分布。
    在这里插入图片描述
    注意:中心极限定理要求n充分大,但是多大才叫充分大呢?一般在统计学中n>=30称之为大样本(统计学中的一种经验说法)。因此在实际生产中,不用多想,肯定都是大样本。

    2)中心极限定理的推导(手写推导)

      设X1,X1,…,Xn是从总体中抽取出来的样本容量为n的随机样本,假设总体均值为μ,方差为σ²。那么很显然这n个样本是独立同分布的,“独立”指的就是每个个体被抽到的概率是相同的,每个球被抽到也不会影响其它球被抽到,“同分布”指的是每一个个体都和总体分布一样,均值为μ,方差为σ²。
      基于上述叙述,下面我们来推导样本均值X拔的分布。
    在这里插入图片描述

    3)由中心极限定理得出的几个结论
    • 不管进行多少次抽样,每次抽样都会得到一个均值。当每次抽取的样本容量n足够大时,样本均值总会围绕总体均值附近,呈现正态分布。
    • 当样本容量n足够大时,样本均值构成正态分布,样本均值近似等于总体均值μ,而样本方差等于总体方差σ²除以n,即σ²/n。
    • 样本均值分布的标准差,我们称之为标准误差,简称“标准误”。
    4)python实现中心极限定理
    # 设置一个随机种子,保证每次产生的随机数都是一定的
    np.random.seed(3)
    # 产生均值为50,标准差为80,大小为100000的一个总体
    all_ = np.random.normal(loc=50,scale=80,size=100000)
    # 创建一个样本均值数组
    mean_array = np.zeros(10000)
    for i in range(len(mean_array)):
        mean_array[i] = np.random.choice(all_,size=64,replace=True).mean()
    
    display("样本的均值:",mean_array.mean())
    display("样本的标准差:",mean_array.std())
    display("偏度:",pd.Series(mean_array).skew())
    sns.distplot(mean_array)
    

    结果如下:
    在这里插入图片描述
    从图中可以看出:样本均值近似等于总体均值50,而样本方差等于总体方差80除以8,即10。

    5、参数估计中置信区间的推导

      我们要知道什么是α值,什么是置信度,什么是置信区间,以及怎么求置信区间。首先要了解以下几方面的知识,才能有一个比较透彻的了解。

    • 1)什么是小概率事件?
    • 2)随机变量的分布的概念。
    • 3)标准正态分布的概率密度函数和和分布函数
    • 4)随机变量的α分位数的概念。
    • 5)标准正态的分位数表怎么得到的呢?
    • 6)区间估计的概念。
    • 7)置信水平1-α的解释
    • 8)枢轴法求置信区间的步骤。
    1)什么是小概率事件?
    • “小概率事件”指的就是在一次随机试验中,几乎不可能发生。
    • 假定参数是射击靶上10环的位置,随机进行一次射击,打在靶心10环的位置上的可能性很小,但是打中靶子的可能性确很大。然后用打在靶上的这个点画出一个区间,这个区间包含靶心的可能性就很大,这就是区间估计的基本思想。
    2)随机变量的分布的概念

    在这里插入图片描述

    3)标准正态分布的概率密度函数和和分布函数

    在这里插入图片描述

    4)随机变量的α分位数的概念

    在这里插入图片描述

    5)标准正态的分位数表怎么得到的呢?
    ① 标准正态分位数表的公式推导

    在这里插入图片描述
    注意:红色方框中的公式,就是标准正态分布分位数表的由来。

    ② 标准正态分布分位数表

    在这里插入图片描述

    6)区间估计的定义

    在这里插入图片描述

    7)置信水平1-α的解释

      对总体样本进行反复抽样(每次抽取到的样本容量都为n),那么每个样本均值都会确定一个区间(a,b),每个这样的区间要么包含总体参数,要么不包含总体参数,不能说成“以多大的概率包含总体的参数”。其中包含总体参数的区间有1-α个,而只有α个区间不包含总体参数,如下图所示(红色表示该样本构成的区间估计不包含总体参数,白色表示该样本构成的区间估计包含总体参数)。
      用一个详细的案例说明:如果对总体返回抽样10000次,每次抽样的样本量都是n,每个样本都会得到一个区间估计,那么10000次抽样,就会得到10000个区间。当置信水平1-α=95%时,那么就表示10000个区间中包含总体参数的有9500个抽样样本,只有500个样本不包含总体参数,这个不包含总体参数的样本就相当于我们估计错误。这个概率只有5%。这个5%在统计学中,就叫做小概率事件,也就是说在一次随机试验中,这个小概率事件不可能发生。
      即:当我们随机抽取一个样本容量为n的抽样样本,并且利用这个样本构造总体参数的置信区间,当指定了置信水平1-α=95%时,那么这个样本,基本就可以认为是包含了总体参数,也就是说,总体参数就在这个置信区间内。
    在这里插入图片描述

    8)枢轴法求置信区间的步骤(手写推导)
    ① 什么是枢轴量?
    • 枢轴量指的就是包含待估计参数,而不包含其它未知参数,并且分布已知的一个量。
    • 枢轴量设计到三个重要点:1、包含估计参数。2、不包含其它未知参数。3、该枢轴量的分布已知。
    ②以总体μ的置信区间为例(方差σ²已知),讲述枢轴量求置信区间的步骤。

    在这里插入图片描述

    6、假设检验

    1)假设检验的概念

      假设检验,也称为显著性检验,指通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。我们事先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。
      在假设检验中,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1。然后根据样本信息进行分析判断,是选择接受原假设,还是拒绝原假设(接受备择假设)。假设检验基于“反证法”。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时我们选择去接受原假设。

    2)假设检验的理论依据(小概率事件)

      在假设检验中,违反逻辑与常规的结论,就是小概奉事件。我们认为,小概率事件在一次试验中是不会发生的。我们首先认为原假设为真,如果在此基础上,小概率事件发生,则我们就拒绝原假设,否则,我们就选择去接受原假设。
      假设检验遵循“疑罪从无”的原则,接受原假设,并不代表原假设一定是正确的,只是我们没有充分的证据,去证明原假设是错误的,因此只能维持原假设。那么,假设检验中的小概率事件是怎么得出的呢?想想之前讲到的置信区间,是不是一切都验然开朗了?
      “疑罪从无”很形象的说明的假设检验向我们传达的含义。也就是说,当我们没有充分的理由拒绝原假设,就必须接受原假设,即使原假设是错误的,但是你找不到证据证明原假设是错误的,你就只能认为原假设是对的。反之,经过一次随机试验,你如果找到了某个理由拒绝了原假设,那么原假设肯定就是错误的,这个是一定的。

    3)P-Value值与显著性水平

      假设检验,用来检验样本的统计量与总体参数,是否存在显著性差异。那么如何才算显著呢?我们就可以计算一个概率值(P-Value),该概率值可以认为就是支持原假设的概率,因为在假设检验中,通常原假设为等值假设,因此,P-Value也就表示样本统计量与总体参数无差异的概率。然后,我们再设定一个阈值,这个阈值叫做“显著性水平 ” (使用α表示),通常α的取值为0.05(1-α叫做置信度)。当P-Value的值大于α时,接受原假设。当P-Value的值小于α时,拒绝原假设。简单记为:p值越小越拒绝原假设。软件中一般都会展示这个p值,那里的p值,指的就是我们这里所叙述的p值。
      假设检验和参数估计是推断统计的两个组成部分,都是利用样本对总体进行某种推断,但是两者进行推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的一种方法,总体参数在估计前是未知的。而假设检验,则是对总体参数先提出一个假设,然后用样本信息去检验这个假设是否成立。

    4)假设检验的步骤
    • ① 根据实际问题的要求,提出原假设和备择假设。
    • ② 给出显著性水平α以及样本容量n。
    • ③ 确定检验统计量和拒绝域。
    • ④ 计算出检验统计量的值,并作出决策。
    5)单边检验和双边检验

    在这里插入图片描述

    6)常用的假设检验
    ① 单个正态总体均值的假设检验法(Z检验:方差已知)

      Z检验用来判断样本均值是否与总体均值具有显著性差异。Z检验是通过正态分布的理论来推断差异发生的概率,从而比较两个均值的差异是否显著。Z检验适用于:

    • 总体呈正态分布。
    • 总体方差已知。
    • 样本容量较大。
      在这里插入图片描述
    ② 案例如下

    在这里插入图片描述

    ③ 有个人说:鸢尾花的平均花瓣长度为3.5cm,这种说法可靠吗?假设经过长期大量验证,鸢尾花花瓣长度总体的标准差为1.8cm,我们就可以使用Z检验来验证了。
    from scipy import stats
    
    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    
    mean = df["petal length (cm)"].mean()
    n = len(df)
    sigma = 1.8
    
    z = (mean - 3.5) / (sigma / np.sqrt(n))
    display(z)
    

    结果如下:
    在这里插入图片描述

    ④ 单个正态总体均值的假设检验法(t检验:方差未知)

      t检验,与Z检验类似,用来判断样本均值是否与总体均值具有显替性差异。不过,t检验是基于t分布的。检验适用于:

    • 总体呈正态分布。
    • 总体方差未知。
    • 样本容量较小。
      在这里插入图片描述
    ⑤ 案例说明

    在这里插入图片描述

    ⑥ 代码演示
    # 方法一
    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    
    mean = df["petal length (cm)"].mean()
    std = df["petal length (cm)"].std()
    n = len(df)
    display(mean,std)
    t = (mean - 3.5) / (std / np.sqrt(n))
    display(t)
    
    # 方法二
    from scipy import stats
    stats.ttest_1samp(df["petal length (cm)"],3.5)
    

    结果如下:
    在这里插入图片描述

    展开全文
  • 参数估计方法和非参数估计方法

    万次阅读 2018-09-04 14:10:13
    这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要...

    https://wenku.baidu.com/view/1cf9639efab069dc502201fe.html

    以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。

     

    1、最大似然估计MLE

    首先回顾一下贝叶斯公式

     

     

    这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即

     

     

    最大似然估计就是要用似然函数取到最大值时的参数值作为估计值,似然函数可以写做

     

     

    由于有连乘运算,通常对似然函数取对数计算简便,即对数似然函数。最大似然估计问题可以写成

     

     

    这是一个关于的函数,求解这个优化问题通常对求导,得到导数为0的极值点。该函数取得最大值是对应的的取值就是我们估计的模型参数。

    以扔硬币的伯努利实验为例子,N次实验的结果服从二项分布,参数为P,即每次实验事件发生的概率,不妨设为是得到正面的概率。为了估计P,采用最大似然估计,似然函数可以写作

     

     

    其中表示实验结果为i的次数。下面求似然函数的极值点,有

     

     

    得到参数p的最大似然估计值为

     

     

    可以看出二项分布中每次事件发的概率p就等于做N次独立重复随机试验中事件发生的概率。

     

    如果我们做20次实验,出现正面12次,反面8次

    那么根据最大似然估计得到参数值p为12/20 = 0.6。

     

    2、最大后验估计MAP

    最大后验估计与最大似然估计相似,不同点在于估计的函数中允许加入一个先验,也就是说此时不是要求似然函数最大,而是要求由贝叶斯公式计算出的整个后验概率最大,即

     

     

    注意这里P(X)与参数无关,因此等价于要使分子最大。与最大似然估计相比,现在需要多加上一个先验分布概率的对数。在实际应用中,这个先验可以用来描述人们已经知道或者接受的普遍规律。例如在扔硬币的试验中,每次抛出正面发生的概率应该服从一个概率分布,这个概率在0.5处取得最大值,这个分布就是先验分布。先验分布的参数我们称为超参数(hyperparameter)即

     

     

    同样的道理,当上述后验概率取得最大值时,我们就得到根据MAP估计出的参数值。给定观测到的样本数据,一个新的值发生的概率是

     

     

    下面我们仍然以扔硬币的例子来说明,我们期望先验概率分布在0.5处取得最大值,我们可以选用Beta分布即

     

     

    其中Beta函数展开是

     

     

    当x为正整数时

     

    \Gamma(n) = (n-1)!\,

     

    Beta分布的随机变量范围是[0,1],所以可以生成normalised probability values。下图给出了不同参数情况下的Beta分布的概率密度函数

    我们取,这样先验分布在0.5处取得最大值,现在我们来求解MAP估计函数的极值点,同样对p求导数我们有

     

     

    得到参数p的的最大后验估计值为

     

     

    和最大似然估计的结果对比可以发现结果中多了这样的pseudo-counts,这就是先验在起作用。并且超参数越大,为了改变先验分布传递的belief所需要的观察值就越多,此时对应的Beta函数越聚集,紧缩在其最大值两侧。

    如果我们做20次实验,出现正面12次,反面8次,那么

    那么根据MAP估计出来的参数p为16/28 = 0.571,小于最大似然估计得到的值0.6,这也显示了“硬币一般是两面均匀的”这一先验对参数估计的影响。

     

    3 贝叶斯估计

    贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布。回顾一下贝叶斯公式

     

     

    现在不是要求后验概率最大,这样就需要求,即观察到的evidence的概率,由全概率公式展开可得

     

     

    当新的数据被观察到时,后验概率可以自动随之调整。但是通常这个全概率的求法是贝叶斯估计比较有技巧性的地方。

    那么如何用贝叶斯估计来做预测呢?如果我们想求一个新值的概率,可以由

     

     

    来计算。注意此时第二项因子在上的积分不再等于1,这就是和MLE及MAP很大的不同点。

    我们仍然以扔硬币的伯努利实验为例来说明。和MAP中一样,我们假设先验分布为Beta分布,但是构造贝叶斯估计时,不是要求用后验最大时的参数来近似作为参数值,而是求满足Beta分布的参数p的期望,有

     

     

    注意这里用到了公式

     

     

    当T为二维的情形可以对Beta分布来应用;T为多维的情形可以对狄利克雷分布应用

    根据结果可以知道,根据贝叶斯估计,参数p服从一个新的Beta分布。回忆一下,我们为p选取的先验分布是Beta分布,然后以p为参数的二项分布用贝叶斯估计得到的后验概率仍然服从Beta分布,由此我们说二项分布和Beta分布是共轭分布。在概率语言模型中,通常选取共轭分布作为先验,可以带来计算上的方便性。最典型的就是LDA中每个文档中词的Topic分布服从Multinomial分布,其先验选取共轭分布即Dirichlet分布;每个Topic下词的分布服从Multinomial分布,其先验也同样选取共轭分布即Dirichlet分布。

    根据Beta分布的期望和方差计算公式,我们有

     

     

    可以看出此时估计的p的期望和MLE ,MAP中得到的估计值都不同,此时如果仍然是做20次实验,12次正面,8次反面,那么我们根据贝叶斯估计得到的p满足参数为12+5和8+5的Beta分布,其均值和方差分别是17/30=0.567, 17*13/(31*30^2)=0.0079。可以看到此时求出的p的期望比MLE和MAP得到的估计值都小,更加接近0.5。

    综上所述我们可以可视化MLE,MAP和贝叶斯估计对参数的估计结果如下

    个人理解是,从MLE到MAP再到贝叶斯估计,对参数的表示越来越精确,得到的参数估计结果也越来越接近0.5这个先验概率,越来越能够反映基于样本的真实参数情况。

     

     

     

    原文地址:http://blog.csdn.net/yangliuy/article/details/8296481

     

    参考文献

    Gregor Heinrich, Parameter estimation for test analysis, technical report 

    Wikipedia Beta分布词条 ,  http://en.wikipedia.org/wiki/Beta_distribution

    展开全文
  • 参数估计参数估计中,我们会遇到两个主要问题:(1)如何去估计参数的value。(2)估计出参数的value之后,如何去计算新的observation的概率,即进行回归分析和预测。首先定义一些符号:数据集X中
  • 浅谈参数估计

    千次阅读 2019-09-03 09:38:34
    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数. 估计量 如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,...
  • 参数估计:贝叶斯思想和贝叶斯参数估计

    万次阅读 多人点赞 2016-05-23 10:54:29
    进一步,贝叶斯估计中,参数的多个估计值服从一定的先验分布,而后根据实践获得的数据(例如周末不断跑他家),不断修正之前的参数估计,从先验分布慢慢过渡到后验分布。 各种参数估计方法可以参考Heinrich论文的第...
  • R语言中的参数估计

    千次阅读 2020-12-25 11:52:44
    R语言中的参数估计 一直想要写博客来着,一直没有实现,昨天室友写了,借着复习R语言考试,来开启我的第一篇博客叭! 以下我将从点估计、区间估计来介绍区间估计,本文主要介绍R代码,具体的统计知识,详情可参考...
  • 过了参数估计后,我们知道,如果有模型的知识可以利用的话,问题就会变得很简单,但是如果没有关于模型的知识,我们怎么办? 回过头来我们的目标,求出观测数据的概率密度模型。因此我们就会从概率密度这个定义...
  • 我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估...
  • matlab代码---参数估计

    千次阅读 2020-04-16 11:59:37
    Matlab中用fminsearch实现参数估计 发布:Arquine 9Jan 文章的主要思想来源于Matlab|Simulink仿真世界的一篇类似的文章。我这里把这个思想引入到我们的体系来,并以一个新的例子讲解这一用法。 fminsearch用来求解...
  • 参数估计的计算方法

    千次阅读 2020-05-27 19:21:58
    参数估计的计算方法极大后验(MAP)及拉普拉斯逼近基于马尔可夫链的蒙特卡洛参数推断(MCMC)期望极大化(EM) (参数估计所有内容) 极大后验(MAP)及拉普拉斯逼近 极大后验估计: MAP是通过确定后验分布的极大值得到的,...
  • 参数估计方法简介

    千次阅读 2019-07-05 17:02:00
    1.参数估计和非参数估计  前面提到随机变量的分布不是很明确时,我们需要先对随机变量的分布进行估计。有一种情况是我们知道变量分布的模型,但是具体分布的参数未知,我们通过确定这些未知参数就可以实现对变量的...
  • ekf_ukf参数估计

    2013-04-10 16:12:50
    该资源是比较ekf和ukf实现参数估计,从实验结果可知,ukf明显比ekf的效果好。希望该资源对大家有用。
  • 参数估计与非参数估计

    万次阅读 2015-05-06 11:38:58
    参数估计(parameter estimation): 根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或...
  • 概率论 参数估计与假设检验 区分及例子动机区分概念假设检验基本思想小概率原理原理几种常见假设检验假设检验规则和两类错误检验规则两类错误明确步骤 动机 国内本科教材重计算技巧,轻内在逻辑,大家学完容易忘记。...
  • 参数估计方法——OLS、MLE、MAP

    千次阅读 2019-07-31 15:17:22
    文章目录1、前言2、最大似然估计法 MLE3、最大后验估计 MAP4、贝叶斯估计5、其他的参数估计方法 1、前言 我们讨论的是有参的情况,在这种情况中,我们的目标是估计参数值(假设有可能确定真是参数),而不是函数值。...
  • 概率论基础知识(三) 参数估计

    千次阅读 2018-09-23 14:04:33
    概率论基础知识(三) 参数估计 1、矩 矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示。 矩是更具有一般意义的数字特征。 设有随机变量X,若E(∣X∣k)<+∞E(|X|^k)&...
  • 参数估计与假设检验的区别和联系

    万次阅读 2019-05-11 18:09:08
    参数估计与假设检验的区别和联系 统计学方法包括统计描述和统计推断两种方法,其中,推断统计又包括参数估计和假设检验。 参数估计 参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计和区间估计...
  • 状态空间模型中实际参数估计

    千次阅读 2020-05-27 19:23:05
    状态空间模型中实际参数估计状态扩增法线性状态空间模型的参数估计利用高斯滤波与平滑的参数估计(非线性模型)基于粒子滤波与平滑的参数估计参数的 Rao-Blackwell 化 (参数估计所有内容) 状态扩增法 线性状态空间...
  • 机器学习中的模型参数估计方法:极大似然估计、贝叶斯估计、最大后验估计。
  • 那些参数估计

    千次阅读 2018-05-10 14:33:09
    本文内容写在前面:参数估计是一种统计推断。在统计学的世界中,自古以来一直存在着两种分布:一种存在于现实世界中,比如我们可以把一枚硬币扔上一万次,然后算一下几次正面几次反面,这是样本的分布;另一种只存在...
  • 机器学习之参数估计

    千次阅读 2018-11-27 17:09:43
    那么,不论传统机器学习亦或是深度学习,其根本都化作对一个既定模型的参数学习,即参数估计(模型选择和搭建假定为已知)。 如何通过data-driven的方式估计参数呢?策略叫做triall-and-error。即,在一个绵延的...
  • 参数估计:最大似然估计MLE

    万次阅读 多人点赞 2016-05-21 16:57:50
    http://blog.csdn.net/pipisorry/article/details/51461997最大似然...最大似然估计就是要用似然函数取到最大值时的参数值作为估计值,似然函数可以写做相乘因为它们之间是独立同分布的。由于有连乘运算,通常对似然
  • 机器学习中的参数估计方法

    千次阅读 2018-08-24 13:31:31
    概率模型的训练过程就是参数估计(parameter estimation)的过程。对于参数估计,统计学界的两个学派分别提供了不同的解决方案: 频率主义学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,因此,可...
  • 参数估计:点估计和区间估计

    千次阅读 2020-02-28 10:49:49
    参数估计就是根据样本统计量的数值对总体参数进行估计的过程。根据参数估计的性质不同,可以分成两种类型:点估计和区间估计。 点估计 点估计就是用样本统计量的某一具体数值直接推断未知的总体参数。例如,在进行...
  • AR模型的参数估计

    千次阅读 2020-06-20 22:24:47
    AR模型的参数估计 一、AR模型概述 AR模型属于随机信号参数模型的一种。在AR模型中,随机信号x(n)由本身的若干次过去值x(n−k)和当前的激励值w(n)线性组合产生。 x(n)=w(n)−∑k=1pakx(n−k)(1) x(n) = w(n) − \sum_...
  • 最大似然参数估计

    万次阅读 2017-01-12 17:07:47
    最普遍的情况是概率密度函数并不是已知的,在很多的问题中,潜在的概率密度函数必须从可用的数据中估计。例如有时可能知道概率密度函数...这里介绍最大似然参数估计。  考虑一个M类的问题,特征向量服从p(x|wi),i=1,
  • 参数估计概念整理

    千次阅读 2018-05-15 14:29:51
    参数估计:所谓参数估计即根据总体中抽取的样本估计总体分布中的未知参数。分为点估计和区间估计两个部分统计量:可以简单理解为根据样本构造的概率密度函数参数空间:参数估计中,我们假设总体的概率密度函数已知,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 197,917
精华内容 79,166
关键字:

参数估计结果怎么看