精华内容
下载资源
问答
  • 参数估计基本原理与直方图方法 1. 前言 在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。 在此背景下,采用非参数估计,即不对...

    非参数估计的基本原理与直方图方法

    1. 前言

    在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。
    在此背景下,采用非参数估计,即不对概率密度函数的形式作任何假设,而是直接用样本估计出整个函数。当然,这种估计只能用数值方法取得,无法得到完美的封闭函数形式。
    从另一个角度来看,概率密度函数的参数估计实际是在指定的一类函数中选择一个函数作为对未知函数的估计,而非参数估计则可以是看作是从所有可能的函数中进行的一种选择。

    2. 直方图方法

    非参数概率密度估计的最简单方法:

    1. 把样本 x x x的每个分量在其取值范围内分成 k k k个等间隔的小窗。如果 x x x d d d维向量,则这种分割就会得到 k d k^d kd个小体积或者小舱,每个小舱的体积记作 V V V
    2. 统计落入每个小舱内的样本数目 q i q_i qi
    3. 把每个小舱内的概率密度看作是常数,并用 q i N V \frac{q_i}{NV} NVqi作为其估计值,其中 N N N为样本总数。

    3. 非参数估计的基本原理

    已知样本集 X = { x 1 , . . . , x N } X=\{x_1,...,x_N\} X={x1,...,xN}中的样本是从服从密度函数 ρ ( x ) \rho(x) ρ(x)的总体中独立抽取出来的,求 ρ ( x ) \rho(x) ρ(x)得估计 ρ ( x ) ^ \hat{\rho(x)} ρ(x)^。与参数估计相同,这里不考虑类别,即假设样本都是来自同一个类别,对不同类别只需要分别进行估计即可。
    考虑在样本所在空间得某个小区域 R R R,某个随机向量落入这个小区域得概率是:
    P R = ∫ R ρ ( x ) d x (1) P_R=\int_{R} \rho(x) dx \tag 1 PR=Rρ(x)dx(1)
    根据二项分布,在样本集 X X X中恰好有 k k k个落入小区域 R R R得概率是:
    P R = C N k P R k ( 1 − P R ) N − k (2) P_R=C_N^k P_R^k(1-P_R)^{N-k} \tag 2 PR=CNkPRk(1PR)Nk(2)
    其中 C N k C_N^k CNk表示在 N N N个样本中取 k k k个的组合数。 k k k的期望值是:
    E [ k ] = N P R (3) E[k]=NP_R \tag 3 E[k]=NPR(3)
    而且 k k k的众数(概率最大的取值)是:
    m = [ ( N + 1 ) P R ] (4) m=[(N+1)P_R] \tag 4 m=[(N+1)PR](4)
    其中 [   ] [ \ ] [ ]表示取整数。因此,当小区域中实际落入了 k k k个样本时, P R P_R PR的一个很好的估计是:
    P R ^ = k N (5) \hat{P_R} = \frac{k}{N} \tag 5 PR^=Nk(5)
    ρ ( x ) \rho(x) ρ(x)连续、且小区域 R R R的体积 V V V足够小时,可以假定在该小区域范围内 ρ ( x ) \rho(x) ρ(x)是常数,则式 ( 2 ) (2) (2)可近似为:
    P R = ∫ R ρ ( x ) d x = ρ ( x ) V (6) P_R=\int_R \rho(x) dx = \rho(x) V \tag 6 PR=Rρ(x)dx=ρ(x)V(6)
    用式 ( 5 ) (5) (5)代入 ( 6 ) (6) (6),可得在小区域 R R R的范围内:
    ρ ( x ) ^ = k N V (7) \hat{\rho(x)}=\frac{k}{NV} \tag 7 ρ(x)^=NVk(7)
    这就是在上面的直方图中使用的对小舱内概率密度的估计。

    1. 如果小舱选择过大,则假设 ρ ( x ) \rho(x) ρ(x)在小舱内为常数的做法就显得粗糙,导致最终估计出的密度函数也非常粗糙;
    2. 如果小舱过小,则有些小舱内可能就会没有样本或者很少样本,导致估计出的概率密度函数很不连续。

    所以,小舱的选择应该与样本总数相适应。理论上讲,假定样本总数是 n n n,小舱的体积为 V n V_n Vn,在 x x x附近位置上落入小舱的样本个数是 k n k_n kn,那么当样本趋于无穷多时 ρ ( x ) ^ \hat{\rho(x)} ρ(x)^收敛于 ρ ( x ) \rho(x) ρ(x)的条件是:
    ( 1 ) V n = 0 ( n → ∞ ) , ( 2 ) k n = ∞ ( n → ∞ ) , ( 3 ) k n n = 0 ( n → ∞ ) (1) V_n = 0 (n \rightarrow \infty),(2)k_n = \infty(n \rightarrow \infty),(3) \frac{k_n}{n} = 0(n \rightarrow \infty) (1)Vn=0(n)(2)kn=(n)(3)nkn=0(n)
    直观的解释是:随着样本数的增加,小舱体积应该尽可能小(1),同时又必须保证小舱内有充分多的样本(2),但每个小舱内的样本数又必须是总样本数中很小的一部分(3)

    展开全文
  • 参数估计

    千次阅读 2018-10-10 23:31:28
    一、参数估计内容 1.参数估计的requisites   我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理...

    前言

      学了很久的数理统计,总觉得知识在脑海中没有一个清晰的轮廓,虽然也可以自己通过纸和笔整理,但是,也想要通过新的方式,用文字的方式输出,这一想法已经在我脑海里盘旋了好久了,终于在今天开始落实。

    一、参数估计内容

    1.参数估计的requisites

      我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理有一些了解,最好还要知道三大抽样分布的性质。

    但是还是简单提一下统计量的概念吧:统计量是从样本中得到的,是样本的函数,统计量不含有任何未知参数。

    2.参数估计的目的

      我们在统计中,总是想要通过样本去推断总体的性质,而引进统计量,就是对样本进行描述的过程。实际中,我们感兴趣的问题总是与总体分布中的未知参数有关系,所以,我们要对参数进行估计和检验。
    这里的参数是指:

    • 分布中的未知参数和未知参数的函数
    • 分布的各种特征函数

    3.参数估计的类型和使用

    在此之间,我们必须要明确一点,估计是一个方法,不是一个具体算出来的值;只是,在给定样本以后,用这种估计的方法,可以算出数值。

    3.1 点估计

      点估计,顾名思义是对某个未知参数的值的估计,就像是数轴上的一个点。因此我们的目的也就是找到一个未知参数的好的估计量。
      知道点估计的含义以后,我们先来看看常用的找估计量的方法:

    • 矩估计
    • 最大似然估计
    • 最小方差无偏估计
    • 贝叶斯估计

    3.1.1 矩估计

      矩估计的基本原理就是:替换原理通过样本的矩替换总体的矩,用样本矩的函数替换总体矩的函数。
      这么做的好处是:在总体分布函数未知的情况下,通过样本的特征数可以对各种参数进行估计。
      矩估计的实质是:用样本的经验分布函数去替换总体的分布,理论基础是格里纹科定理。
      具体的操作就是:

    1. 假设已知总体的概率密度函数,但其中的参数未知,通过这个带有未知参数的密度函数去求总体的各阶矩;
    2. 利用样本的数据,求各阶矩;
    3. 通过总体各阶矩和样本各阶矩相等,构造方程组,解出参数。

    3.1.2 最大似然估计(MLE)

      最大似然估计,也可以叫做极大似然估计,从字面理解非常到位就是,找到一个未知参数的估计,使得在这个估计的条件下,由总体概率密度函数推算的分布下,样本发生的可能性最大。即是,最大的像这样的估计。
    具体操作就是:

    1. 将未知参数的估计设为x,带入总体密度函数。
    2. 建立在样本的独立性的条件下,根据样本求出样本取得当下值的概率。
    3. 通过分析计算出使得概率达到最大的x,就是未知参数的极大似然估计。
      最大似然估计具有不变性。

    3.1.3 最小方差无偏估计

      首先引进均方误差(MSE)的概念,均方误差是用于衡量点估计好坏的一种标准,关于衡量点估计好坏的标准在后文还会详细介绍,这里为了需要,先简单提一下。首先明确一点,均方误差是对点估计进行的计算。具体的计算公式是,参数估计值与真实值之差的平方的期望,通过分解,也等于估计值的方差加估计值的期望与真实值之差的平方。
      一致最小均方误差估计,是需要在一个确定的估计类里,找到均方误差相对最小的那个。但由于是在估计类里找,如果不对估计加任何限制,则一致最小均方误差估计是不存在的,所以没有意义。
      最小方差无偏估计,这里是指一致最小方差无偏估计,就是对于一个参数的无偏估计而言,最小的均方误差就意味着最小的方差。对于参数空间中的任何无偏估计,具有最小方差的那个估计就称作是一致最小方差无偏估计(UMVUE)
    实际上,用于判断是否是UMVUE,可以通过一个定理方便地得到:未知参数的UMVUE必然与任一零的无偏估计不相关。也就是说,现在还有一个其他的随机变量X,均值是零,那么这个未知参数的UMVUE与这个随机变量X的相关系数(Cov)为零。

    3.1.4 贝叶斯估计

      前面介绍的三种办法是频率学派的理论,而贝叶斯估计是贝叶斯学派的观点。
      贝叶斯估计是建立在已经有关于参数的分布的信息的基础上,叫做先验信息,然后进行样本观测,推算后验分布。也可以理解为,用总体和样本对先验分布做出调整。
      具体做法是:

    1. 在参数未知的条件下,确定总体的分布
    2. 根据参数的先验信息确定先验分布 π(θ)
    3. 求出在通过先验分布得到的未知参数后,样本的联合分布 p(X|θ)
    4. 确定样本和未知参数的联合分布,也就是2.与3.得到的分布函数之积 h(X,θ)=p(X|θ)π(θ)。
    5. 对参数θ的贝叶斯推断,π(θ|X)= h(X,θ)/m(X),其中m(X) 是从h(X,θ)中对θ整个参数空间积分得到的,X的边际概率函数。

    3.2 点估计好坏的评价标准

      前面已经提到点估计的目的是找到未知参数的好的估计量,那么到底怎么定义“好”,也是我们需要关心的。在点估计中,有如下标准衡量:

    • 无偏性
    • 有效性
    • 相合性
    • 均方误差
    • 充分性原则
    • 有效估计

      我刚学参数估计的时候,脑子里总是记不住这些性质到底在描述什么QAQ
      好吧,其实现在也记不住,我也必须翻一下笔记了…

    • 无偏性
        无偏性是描述经过重复抽样以后,所有对这个未知参数的估计值的平均等于真实的参数值。具体判断也就是计算这个估计的均值,看它是否等于真实值。关于无偏性还有一些性质,最好能够记住:
      1. 样本的k阶中心距通常不是总体k阶中心矩的无偏估计
      2. 无偏性不具有不变性,也就是无偏估计的函数不一定是无偏估计
          无偏估计还有渐近无偏估计,就是当样本量趋近于无穷时,均值的极限趋近于真实值。也是用于衡量一个估计是一个好的估计的准则。
    • 有效性
        有效性是建立在两个无偏估计的基础上,比较两个无偏估计的方差,方差小的更有效。
    • 相合性
        与渐近无偏性从期望的极限角度理解不同,相合性是从概率的角度,即未知参数的估计,在样本量趋近于无穷大的时候,估计量依概率收敛到未知参数。也即是说,当样本量增大的时候,被估计的参数能够被估计到任意指定的精度。判断相合性,我们采用验证它的充分条件:
      1. 渐进无偏性
      2. 方差收敛到0
          由大数定理知道,矩估计一般都是相合的
    • 均方误差
        MSE,是通过计算参数估计值与真实值之差的平方的期望,其大小能够反映估计的好坏,在同一估计类里越小越好。
    • 充分性原则
        首先,要注意充分性原则和充分性是两个不同的东西!充分性是描述统计量不丢失关于样本的任何信息,则称这个统计量为充分统计量。那么,充分性原则和充分性一点关系都没有吗?也不是的。在比较两个无偏估计的好坏的时候,较好的那个无偏估计总是样本的充分统计量;并且,将不是样本充分统计量的统计量,关于充分统计量求期望,得到的估计,一定是充分统计量,并且新的估计的方差也得到了降低。
        换句话说,对于所有的统计推断问题,考虑未知参数的估计问题,只需要在基于充分统计量的函数中进行即可,这就是充分性原则。
        你可能还在想,怎么将不是样本充分统计量的统计量关于一个充分统计量求期望?利用随机过程讲义的第一章的内容,利用条件概率公式,连续函数求积分,离散函数求∑。
    • 有效估计
        有效估计是一个估计,它的方差达到了Cramer-Rao方程的下界,有效估计一定是UMVUE哈。具体计算来判断是否是有效估计的话:
      1. 根据总体密度函数(含参数)检验满足C-R方程的条件;
      2. 求费希尔信息量,找到C-R下界;
      3. 对无偏估计求方差,检验是否等于C-R下界。

    3.3 区间估计

      之前我们讨论的都是点估计,但是关于统计量的精度我们无法定量的回答,必须通过它们的分布来反映。在实际中,度量点估计精度直观方法就是给出未知参数的一个区间,这就是区间估计。
      区间估计是想要找到两个统计量,构成一个区间,这个区间盖住未知参数真值的可能性不确定,但是人们总是希望在尽可能小的区间下,区间盖住真值的可能性越大越好,由此得到置信区间的定义:
      置信区间,是一个有样本值得到的随机区间,未知参数真值落在这个随机区间中的概率大于等于1-a,或者理解为,未知参数真值不落在这个随机区间中的概率小于置信度,满足这个条件的随机区间称作置信区间。首先,置信水平是随机区间盖住真值的概率,置信水平等于置信度,然后,我自己理解置信度是这样的:当大量重复实验,用置信区间的计算方法,得到很多个N个随机区间的时候,有(N* 置信水平)的那么多个区间,包括了均值。
      那具体怎么做区间估计呢?我们通过构造区间估计的方法,使用最基本的枢轴量法:

    1. 什么是枢轴量?
        枢轴量是样本和未知参数的函数,它具有的性质是其分布不依赖与未知参数,或者说,它的概率密度函数与参数无关。
    2. 枢轴量有什么用?
        在参数未知的时候,没有办法直接凭空从置信水平找到随机区间的上下限,所以采用枢轴量的分布函数,以此为媒介,根据置信水平,先算出枢轴量的置信区间,再反解出上下限。
    3. 枢轴量怎么用?
        其实2.已经解答过了,从未知参数的好的点估计(MLE)出发,用它的性质和密度函数构造。根据置信水平,通常采用等尾置信区间保证区间长度最短,先算出枢轴量的置信区间,再反解出上下限。
    4. 有什么特别的检验的构造套路吗?
        老师教过的有:
      • 单个正态总体参数:分为均值、方差是否已知,对均值和方差分别都有不同的枢轴量
      • 大样本置信区间:原理是中心极限定理,在样本方差已知的时候,很ok;在样本方差未知的时候,中心极限定理的分布可以将方差换成它的相合估计。注意哦,大样本运用中心极限定理,最多只有样本的方差的相合估计代替方差,不可以用均值的无偏估计代替总体均值位置上的μ的!
      • 两独立正态总体下均值之差和方差之比的置信区间:类似于单个正态总体,在估计均值的时候,要看方差是否已知,或者方差成比例;在估计方差之比的时候,直接就有枢轴量,不需要讨论均值是否已知。

      除了这些,均匀分布的总体还有一些特别的构造方法,课后题和期中考试卷子也有涉及,供自己参考~
      注:区间估计构造枢轴量的时候,大量用到前面一章节的统计量及其分布、以及三大抽样分布的基础。

    二、整体学习思路

      参数的点估计—>穿插如何评价点估计的好坏—>参数的区间估计
      建议的学习思路:点估计—>评价点估计的好坏—>参数估计,感觉独立开会更清晰一些~

    三、声明

      全文都是我个人的学习笔记,肯定有出现错误欢迎指正。

    展开全文
  • 浅谈参数估计

    千次阅读 2019-09-03 09:38:34
    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数. 估计量 如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,...

    贾俊平<统计学>阅读笔记!


    参数估计(parameter estimation)和假设检验(hypothesis testing)是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断.但推断的角度不同。

    参数估计讨论的是用样本统计量估计总体参数的方法.总体参数产在估计前是未知的。

    而在假设检验中,则是先对产的值提出一个假设,然后利用样本信息去检验这个假设是否成立。

    参数估计

    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数.

    如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,总体均值、方差、比例,等。

    但现实情况比较复杂,有些现象的范围比较广,不可能对总体中的每个单位都进行测定。或者,有些总体的个数很多,不可能也没必要一一测定。这就需要从总体中抽取一部分个体进行调查,进而利用样本提供的信息来推断总体的特征。

    参数估计就是用样本统计量去估计总体的参数。比如:

    • 用样本均值 x x x直接作为总体均值 μ \mu μ的估计值,
    • 用样本比例 p p p直接作为总比例 π \pi π的估计值,
    • 用样本方差 s 2 s^2 s2直接作为总体方差 σ 2 \sigma^2 σ2的估计值,等等。

    如果,将总体参数笼统的用一个符号 θ \theta θ来表示,而用于估计总体参数的统计量用统计量 θ \theta θ

    估计量

    在参数估计中,用来估计总体参数的统计量称为估计量,用符号 θ − \theta^- θ表示。样本均值,样本比例、样本方差,等都可以是一个估计量。

    样本估计量是样本的一个函数.(这句话一定要理解!!)

    以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。

    估计值

    而,根据一个具体的样本计算出来的估计量的数值,称为估计值。

    参数估计的方法有两种:点估计和区间估计

    1 点估计

    点估计就是用样本统计量 θ − \theta^- θ的某个取值,直接作为总体参数 θ \theta θ的估计值。

    比如,假定要估计一个班学生考试成绩的平均分,根据抽出的一个随机样本计算的平均分数为80分,用80分作为全班平均考试分数的一个估计值,这就是点估计。

    再比如,若要估计一批产品的合格率,根据抽样结果,合格率为96%,将96%直接作为这批产品合格率的估计值,这也是一个点估计。

    点估计的问题1

    虽然,在重复抽样条件下,点估计的均值可望等于总体均值。 比 如 , E ( x − ) = μ 比如,E(x^-)=\mu E(x)=μ

    ,由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体均值。

    所以,在用点估计值代表总体参数值的同时,还必须给出点估计值的可靠性,也就是说,必须能说出点估计值与总体参数的真实值的接近程度。

    ,一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量,因此,就不能完全依赖于一个点估计值,而是围绕点估计值构造总体参数的一个区间。这就是区间估计。

    2 区间估计

    在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。

    抽样误差:

    由抽样的随机性引起的样本结果与总体真值之间的误差

    标准误差:

    衡量抽样误差大小的尺度,是样本统计量的标准差,反映用样本统计量去估计总体参数时,可能出现的平均“差错”

    标准差VS标准误差:

    标准差:反映样本中的元素对样本均值的离散程度,衡量个体间变异大小
    标准误差:反映样本均值对总体均值的变异程度,从而衡量抽样误差的大小
    随着样本量n的增大,标准差趋向某个稳定值,即样本标准差s越接近总体标准差σ,而标准误则随着样本量n的增大逐渐减小,即样本均值x越接近总体均值μ

    置信区间

    在区间估计中,由样本统计量所构造的总体参数的估计区间,称为置信区间。

    其中,区间的最小值称为置信下限,最大值称为置信上限。

    由于统计学家在某种程度上,确信这个区间会包含真正的总体参数,所以给它取名为置信区间。

    置信水平

    将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。表示为 ( 1 − α ∗ 100 ) (1-\alpha *100) (1α100) α \alpha α是总体参数未在区间内的比例。

    常用的置信水平值有 99%, 95%, 90%,相应的 α \alpha α为0.01,0.05,0.10。

    在这里插入图片描述

    评价估计量的标准

    参数估计,是用样本估计量 θ − \theta^- θ作为总体参数 θ \theta θ的估计。

    实际上,用于估计 θ \theta θ的估计量有很多,比如,可以用样本均值作为总体均值的估计量,也可以用样本中位数作为总体均值的估计量,等等。

    那么,究竟用样本的哪种估计量作为总体参数的估计呢?

    自然要用估计效果最好的那种估计量。

    什么样的估计量才算是一个好的估计量呢?

    这就需要由一定的评价标准,统计学家给出了评价估计量的一些标准,主要有以下几个:

    1 无偏性

    估计量抽样分布的数学期望等于被估计的总体参数。
    在这里插入图片描述

    • 无偏性说明,不同的样本得到的 θ − \theta^- θ不同,可能大于 θ \theta θ,也可能小于 θ \theta θ,多次抽样时, θ − \theta^- θ的平均值与真实值 θ \theta θ一致。
    • 一个好的估计量就某一个具体的估计值而言,可能不等于总体参数值,但平均地看有向估计的参数集中的趋势。

    2 有效性

    一个无偏的估计量并不就意味着它非常接近被估计的参数,它还必须与总体参数的离散程度比较小。

    有效性,是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。
    在这里插入图片描述

    3 一致性

    随着样本量的增大,估计量的值越来越接近被估计的总体参数。换言之,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。
    在这里插入图片描述

    展开全文
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...

    “参数估计是以抽样分布为中介,用样本的参数特征对总体的参数进行数值估计的过程。”

    一、点估计
    1.点估计就是用样本统计量来估计总体参数。
    概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,然后用样本统计量的值来估计总体的情况。
    例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计。

    常用的点估计有:用样本均值估计总体均值,用样本方差估计总体方差,用样本的分位数估计总体分位数,用样本的中位数估计总体的中位数。

    2.点估计方法
    矩估计法、顺序统计量法、最大似然法、
    最小二乘法(对于点估计方法,放在另一篇文章中详细介绍)

    3.由于用样本推断总体的过程一定存在估计误差,而点估计的估计误差无法衡量,所以点估计主要用于为定性研究提供数据参考,或者在对于总体参数估计精度要求不高时使用。

    二、区间估计
    1.区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。

    2.关于置信水平(置信度)、置信区间和显著性水平:
    置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
    置信水平用百分数表示,表示成(1-a)100%a指的是显著性水平,表示总体参数不落在置信区间的可能性。

    3.关于置信区间的计算:
    通过部分样本来计算总体参数的一个置信区间有以下步骤:
    a.明确要解决的问题,要估计的指标或参数是什么,
    b.求抽样样本的平均值和标准误差,
    注意区分标准差和标准误差:标准差反映的是整个样本对样本平均数的离散程度,标准差等于方差开根号;标准误差反映的是样本平均数对总体平均数的变异程度,标准误差等于样本标准差除n的开根号。
    c.确定需要的置信水平,
    d.查询z表,得到z值,
    e. 计算置信区间,[a,b],a=样本均值-z标准误差,b=样本均值+z标准误差。

    区间估计分为一个总体参数的估计和两个总体参数的估计

    4.一个总体参数的区间估计:总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;

    4.1总体均值的区间估计:
    均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关;
    Z分布其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布,
    Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30;
    T分布:对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型;
    切比雪夫不等式:对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。
    在这里插入图片描述截图来自《人人都会数据分析:从生活实例学统计》

    4.2 总体方差的区间估计:
    总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。
    卡方统计量的计算公式:
    χ α 2 ( n − 1 ) = ( n − 1 ) s 2 σ z 2 \chi^2_\alpha(n-1)=\frac{(n-1)s ^2}{\sigma ^2_z} χα2(n1)=σz2(n1)s2
    总体方差的双侧置信区间估计公式为:
    ( n − 1 ) s 2 χ α 2 2 ( n − 1 ) ≤ σ z 2 ≤ ( n − 1 ) s 2 χ 1 2 − α 2 ( n − 1 ) \frac{(n-1)s^2}{\chi ^2_\frac{\alpha}{2}(n-1)} \leq \sigma ^2_z \leq \frac{(n-1)s ^2}{\chi ^2_1-\frac{\alpha}{2} (n-1)} χ2α2(n1)(n1)s2σz2χ122α(n1)(n1)s2
    其中带有a/2的为下标;
    如果是单侧置信区间的话,只需要取上面式子的前半部分或者后半部分,并将a/2改成a即可得到单侧置信区间。

    4.3 总体比例的区间估计:
    或者叫总体比率的区间估计,跟二项分布有关,二项分布的理论是:事件发生概率是p,进行n次实验,其中x次实验该事件发生,则发生次数的概率分布服从二项分布;均值、方差为np,npq。
    若将发生的次数转换成比率(x/n),则比率的概率分布也服从二项分布。
    二项分布的特性:当抽取的样本容量n很大,是大 样本,使得np和nq(q为事件不发生的概率,等于1-p)的值都大于 5, 此时二项分布将近似于正态分布。
    由于事件发生比率x/n服从二项分布,所以如果比率的二项分布近似于正态分布,就可以得到不利的区间估计。

    在事件发生概率p已知的情况下,总体比率 p z ˉ \bar{p_z} pzˉ在置信度为1-a时,总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    其中, p y ˉ \bar{p_y} pyˉ为样本比率, p z ˉ \bar{p_z} pzˉ为总体比率,
    当事件发生概率p未知,可用样本中事件发生的概率即样本比率代替。

    5. 两个总体参数的区间估计
    两个总体均值之差的估计,两个总体方差比的区间估计
    两个总体与多个总体参数的区间估计在实际生活中的应用不是很多,更常用的是两个总体和多个总体参数的假设检验。 区间估计虽不常用,但是其与假设检验的应用原理是想通的。

    5.1 两个总体均值之差的区间估计:
    可以将单个总体均值的抽样分布推广到两个总体均值差的抽样分布,然后利用两个总体均值差的抽样分布推导出两个总体均值差的置信区间公式。
    方差齐性/方差不齐:对于配对样本来说其方差可被认为是想等的,即方差齐性。
    在这里插入图片描述
    截图来自《人人都会数据分析:从生活实例学统计》

    独立样本和配对样本:
    独立样本:是指如果从一个总体中选取样本,抽样形式无论怎样改变都不会影响从另一个总体中抽取样本的概率,则这两个随机样本为独立样本;
    配对样本:是指如果从一个总体中抽取样本的行为以某种方式决定了从另一个总体中抽取样本的概率,则这两个样本为成对样本或配对样本。

    均值和方差的特点:
    两个总体合并(相加或相减),那么合并后的总体均值等于原来两个总体的均值之和或均值之差;而合并后的总体方差都等于两个总体方差之和。

    差值抽样分布可以看做单个总体的均值抽样分布,因此可套用“均值抽样分布适用条件表”,将公式修改一下即可:

    截图来自《人人都会数据分析:从生活实例学统计》

    5.2 两个总体方差比的区间估计
    F分布可用于求取两个正态分布总体方差比的置信区间。
    F统计量可被看做是两个卡方统计量的商,F分布也被称为方差比分布。因为卡方分布要求总体服从正态分布,所以F分布也要求F统计量的两个总体都服从正态分布。
    当给定置信水平时,可推出两个正态分布总体方差比的置信区间。

    三、样本量的确定

    1总体均值区间估计的样本量确定
    在总体标准差已知的情况下,如果数据总体服从正态分布,则样本均值的抽样分布适用Z分布,就可以利用总体均值的置信区间公式来计算样本容量,总体均值的置信区间为:
    x ˉ ± Z α 2 σ n \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} xˉ±Z2αn σ x ˉ ± Z α 2 σ n N − n N − 1 \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N-n}{N-1}} xˉ±Z2αn σN1Nn

    则总体均值的区间估计误差为:
    Δ μ = Z α 2 σ n \Delta\mu=Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} Δμ=Z2αn σ
    进而可以求得样本容量的公式:
    n = ( Z α 2 σ Δ μ ) 2 n=(\frac{Z_\frac{\alpha}{2} \sigma}{\Delta\mu})^2 n=(ΔμZ2ασ)2

    以上是总体标准差已知时,当总体标准差未知时,一是可以用样本标准差代替,但是前提条件是样本容量要大于等于30;二是可以用过去试点调查的样本标准差代替;三是,如果知道总体数据中的最大和最小值,可用四分之一的最大与最小值的差值来代替总体标准差。

    2.总体方差区间估计的样本量确定
    总体方差的区间估计适用的抽样分布为卡方分布。卡方统计量为:
    χ 2 = ( n − 1 ) s 2 σ 2 \chi^2=\frac{(n-1)s ^2}{\sigma ^2} χ2=σ2(n1)s2
    由卡方分布的性质可知,当样本量足够大时,卡方分布近似于正态分布。卡方分布的均值为自由度(n-1),卡方分布的方差为两倍的自由度2(n-1),那么在大样本的情况下,总体方差的置信区间为:
    s 2 = ± Z α 2 s 2 2 n s^2=\pm Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} s2=±Z2αs2n2
    则总体方差的估计精度为:
    Δ σ 2 = Z α 2 s 2 2 n \Delta \sigma^2=Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} Δσ2=Z2αs2n2
    由此可得到样本容量公式为:
    n = 2 Z α 2 s 2 Δ σ 2 n=\frac{\sqrt{2} Z_\frac{\alpha}{2} s^2}{\Delta \sigma^2} n=Δσ22 Z2αs2

    3.总体比率区间估计的样本量确定
    在确定总体比率的区间估计时,利用的是二项分布近似于正态分布的性质,即当抽取的样本量n很大时,是大样本,使得np>5且nq>5(p是事件发生的概率,q是事件不发生的概率,q=1-p)时,二项分布近似于正态分布。
    总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    则总体比率的估计误差为:
    Δ p z ˉ = Z α 2 p ( 1 − p ) n \Delta \bar{p_z} =Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} Δpzˉ=Z2αnp(1p)
    由此可得到样本容量为:
    n = Z α 2 2 p ( 1 − p ) Δ p z ˉ 2 n=\frac{Z_\frac{\alpha}{2} ^2 p(1-p)}{\Delta \bar{p_z} ^2} n=Δpzˉ2Z2α2p(1p)

    注:本文主要参考《人人都会数据分析:从生活实例学统计》

    展开全文
  • 利用最小二乘法进行参数估计

    万次阅读 2019-05-08 11:14:06
    # 参数估计 # residuals误差函数 # par为拟合参数的初始值 # args为需要拟合的实验数据 def get_related_par(x, y, par, residuals):  plsq = leastsq(residuals, par, args=(y, x)) # 调用leastsq进行数据拟合, ...
  • 参数估计与假设检验的通俗理解

    千次阅读 2020-05-19 22:58:09
    文章目录参数估计假设检验 参数估计 For 高手: 参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造...
  • 参数估计:贝叶斯思想和贝叶斯参数估计

    万次阅读 多人点赞 2016-05-23 10:54:29
    进一步,贝叶斯估计中,参数的多个估计值服从一定的先验分布,而后根据实践获得的数据(例如周末不断跑他家),不断修正之前的参数估计,从先验分布慢慢过渡到后验分布。 各种参数估计方法可以参考Heinrich论文的第...
  • 回归分析之参数估计

    千次阅读 2019-10-11 16:06:59
    参数估计 参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含的...
  • 以上资源是一本国外非常受欢迎的著作,在信号处理领域具有重要地位
  • 三、抽样与参数估计

    千次阅读 2021-01-29 22:04:29
    参数估计基本原理: 一、估计量和估计值: 估计值:估计总体参数时计算出来的估计量的具体数值。 估计量:用来估计总体参数的统计量的名称。 二、点估计与区间估计: 点估计:用样本估计量的值作为总体参数的估计...
  • 我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估...
  • 《统计学》学习笔记之参数估计

    千次阅读 2020-03-16 15:05:29
    文章目录参数估计参数估计基本原理评价估计量的标准一个总体参数的区间估计两个总体参数估计 参数估计 参数估计是推断统计的重要内容之一。它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数...
  • 统计学之参数估计

    千次阅读 2019-12-29 22:48:48
    参数估计基本原理 估计量与估计值 如果我们得到总体的全部数据,做统计描述即可得到总体特征,但现实是,难以得到全部数据。因而需要参数估计参数估计:用样本统计量去估计总体的参数。如样本均值估计总体均值。...
  • 概率论 参数估计与假设检验 区分及例子动机区分概念假设检验基本思想小概率原理原理几种常见假设检验假设检验规则和两类错误检验规则两类错误明确步骤 动机 国内本科教材重计算技巧,轻内在逻辑,大家学完容易忘记。...
  • (1)基本原理: 核概率密度估计的原理其实是很简单的。 在我们对某一事物的概率分布的情况下。 如果某一个数在观察中出现了,我们可以认为这个数的概率密度很大,和这个数比较近的数的概率密度也会比较大,而那些离...
  • 什么是MIMO-OFDM技术

    千次阅读 2019-04-08 12:55:47
    什么是MIMO-OFDM技术 摘要 第四代移动通信提供高的数据传输速率,而MIMO和OFDM提高了频谱效率,从而提供高传输速率和系统容量的技术。两者的结合已经成为第四代移动通信技术研究中的热点。通过这两种技术的优势互补...
  • 参数估计与假设检验的区别和联系

    万次阅读 2019-05-11 18:09:08
    参数估计与假设检验的区别和联系 统计学方法包括统计描述和统计推断两种方法,其中,推断统计又包括参数估计和假设检验。 参数估计 参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计和区间估计...
  • matlab代码---参数估计

    千次阅读 2020-04-16 11:59:37
    Matlab中用fminsearch实现参数估计 发布:Arquine 9Jan 文章的主要思想来源于Matlab|Simulink仿真世界的一篇类似的文章。我这里把这个思想引入到我们的体系来,并以一个新的例子讲解这一用法。 fminsearch用来求解...
  • 我们知道了总体的分布,但不知道分布的参数,因此我们就要对未知的参数做出估计。 两个类型的估计: 1.点估计 2.区间估计   1.点估计 包括矩估计和极大似然估计 1)矩估计: 用样本矩去估计总体矩 这里就...
  • 参数估计:核密度估计KDE

    万次阅读 多人点赞 2016-12-14 11:38:46
    http://blog.csdn.net/pipisorry/article/details/53635895核密度估计...解决这一问题的方法包括参数估计和非参数估计参数估计参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布
  • 概率论基础知识(三) 参数估计

    千次阅读 2018-09-23 14:04:33
    概率论基础知识(三) 参数估计 1、矩 矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示。 矩是更具有一般意义的数字特征。 设有随机变量X,若E(∣X∣k)&amp;amp;amp;amp;lt;+∞E(|X|^k)&...
  • AR模型参数估计

    千次阅读 2020-06-21 22:24:55
    为随机信号建立参数模型是研究随机信号的一种基本方法。在对语音信号进行编码时,往往通过分析不同种类语音信号的特点及产生,用数学模型表示信源,而编码器根据输入信号计算模型参数,然后对模型参数进行编码,也...
  • 实验:AR模型参数估计一、实验目的二、实验内容三、实验原理及方法3.1 AR模型3.1.1 AR模型参数估计3.1.2 AR模型参数和自相关函数的关系3.2 Y-W方程的解法——L-D算法3.2.1 AR 模型和预测误差系统3.2.2使用L-D算法...
  • 参数估计
  • 统计学——参数估计与假设检验

    千次阅读 2019-02-13 17:15:04
    7.1 参数估计基本原理 参数估计就是用样本统计量去估计总体的参数。比如,用样本均值估计总体均值,用样本比例估计总体比例。 在参数估计中,用来估计总体参数的统计量称为估计量。样本均值、样本比例、样本方差等...
  • 卡尔曼滤波系列——(二)扩展卡尔曼滤波

    万次阅读 多人点赞 2019-04-06 16:33:48
    更新日志: 2020.02.13:修改了第三节推导中的公式错误 ...EKF的基本思想是利用泰勒级数展开将非线性系统线性化,然后采用卡尔曼滤波框架对信号进行滤波,因此它是一种次优滤波。 2 算法介绍 2.1 泰勒级数...
  • 本实验的目的是学习Parzen窗估计和k最近邻估计方法。在之前的模式识别研究中,...在模式识别中有躲在令人感兴趣的非参数化方法,Parzen窗估计和k最近邻估计就是两种经典的估计法。这里使用Matlab实现这两种估计方法。
  • 极大似然估计原理解析

    万次阅读 2019-06-13 14:10:07
    这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,...
  • AR模型的参数估计

    千次阅读 2020-06-20 22:24:47
    AR模型的参数估计 一、AR模型概述 AR模型属于随机信号参数模型的一种。在AR模型中,随机信号x(n)由本身的若干次过去值x(n−k)和当前的激励值w(n)线性组合产生。 x(n)=w(n)−∑k=1pakx(n−k)(1) x(n) = w(n) − \sum_...
  • 参数估计 参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 59,902
精华内容 23,960
关键字:

参数估计的基本原理是什么