精华内容
下载资源
问答
  • 浅谈参数估计

    千次阅读 2019-09-03 09:38:34
    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数. 估计量 如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,...

    贾俊平<统计学>阅读笔记!


    参数估计(parameter estimation)和假设检验(hypothesis testing)是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断.但推断的角度不同。

    参数估计讨论的是用样本统计量估计总体参数的方法.总体参数产在估计前是未知的。

    而在假设检验中,则是先对产的值提出一个假设,然后利用样本信息去检验这个假设是否成立。

    参数估计

    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数.

    如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,总体均值、方差、比例,等。

    但现实情况比较复杂,有些现象的范围比较广,不可能对总体中的每个单位都进行测定。或者,有些总体的个数很多,不可能也没必要一一测定。这就需要从总体中抽取一部分个体进行调查,进而利用样本提供的信息来推断总体的特征。

    参数估计就是用样本统计量去估计总体的参数。比如:

    • 用样本均值 x x x直接作为总体均值 μ \mu μ的估计值,
    • 用样本比例 p p p直接作为总比例 π \pi π的估计值,
    • 用样本方差 s 2 s^2 s2直接作为总体方差 σ 2 \sigma^2 σ2的估计值,等等。

    如果,将总体参数笼统的用一个符号 θ \theta θ来表示,而用于估计总体参数的统计量用统计量 θ \theta θ

    估计量

    在参数估计中,用来估计总体参数的统计量称为估计量,用符号 θ − \theta^- θ表示。样本均值,样本比例、样本方差,等都可以是一个估计量。

    样本估计量是样本的一个函数.(这句话一定要理解!!)

    以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。

    估计值

    而,根据一个具体的样本计算出来的估计量的数值,称为估计值。

    参数估计的方法有两种:点估计和区间估计

    1 点估计

    点估计就是用样本统计量 θ − \theta^- θ的某个取值,直接作为总体参数 θ \theta θ的估计值。

    比如,假定要估计一个班学生考试成绩的平均分,根据抽出的一个随机样本计算的平均分数为80分,用80分作为全班平均考试分数的一个估计值,这就是点估计。

    再比如,若要估计一批产品的合格率,根据抽样结果,合格率为96%,将96%直接作为这批产品合格率的估计值,这也是一个点估计。

    点估计的问题1

    虽然,在重复抽样条件下,点估计的均值可望等于总体均值。 比 如 , E ( x − ) = μ 比如,E(x^-)=\mu E(x)=μ

    ,由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体均值。

    所以,在用点估计值代表总体参数值的同时,还必须给出点估计值的可靠性,也就是说,必须能说出点估计值与总体参数的真实值的接近程度。

    ,一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量,因此,就不能完全依赖于一个点估计值,而是围绕点估计值构造总体参数的一个区间。这就是区间估计。

    2 区间估计

    在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。

    抽样误差:

    由抽样的随机性引起的样本结果与总体真值之间的误差

    标准误差:

    衡量抽样误差大小的尺度,是样本统计量的标准差,反映用样本统计量去估计总体参数时,可能出现的平均“差错”

    标准差VS标准误差:

    标准差:反映样本中的元素对样本均值的离散程度,衡量个体间变异大小
    标准误差:反映样本均值对总体均值的变异程度,从而衡量抽样误差的大小
    随着样本量n的增大,标准差趋向某个稳定值,即样本标准差s越接近总体标准差σ,而标准误则随着样本量n的增大逐渐减小,即样本均值x越接近总体均值μ

    置信区间

    在区间估计中,由样本统计量所构造的总体参数的估计区间,称为置信区间。

    其中,区间的最小值称为置信下限,最大值称为置信上限。

    由于统计学家在某种程度上,确信这个区间会包含真正的总体参数,所以给它取名为置信区间。

    置信水平

    将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。表示为 ( 1 − α ∗ 100 ) (1-\alpha *100) (1α100) α \alpha α是总体参数未在区间内的比例。

    常用的置信水平值有 99%, 95%, 90%,相应的 α \alpha α为0.01,0.05,0.10。

    在这里插入图片描述

    评价估计量的标准

    参数估计,是用样本估计量 θ − \theta^- θ作为总体参数 θ \theta θ的估计。

    实际上,用于估计 θ \theta θ的估计量有很多,比如,可以用样本均值作为总体均值的估计量,也可以用样本中位数作为总体均值的估计量,等等。

    那么,究竟用样本的哪种估计量作为总体参数的估计呢?

    自然要用估计效果最好的那种估计量。

    什么样的估计量才算是一个好的估计量呢?

    这就需要由一定的评价标准,统计学家给出了评价估计量的一些标准,主要有以下几个:

    1 无偏性

    估计量抽样分布的数学期望等于被估计的总体参数。
    在这里插入图片描述

    • 无偏性说明,不同的样本得到的 θ − \theta^- θ不同,可能大于 θ \theta θ,也可能小于 θ \theta θ,多次抽样时, θ − \theta^- θ的平均值与真实值 θ \theta θ一致。
    • 一个好的估计量就某一个具体的估计值而言,可能不等于总体参数值,但平均地看有向估计的参数集中的趋势。

    2 有效性

    一个无偏的估计量并不就意味着它非常接近被估计的参数,它还必须与总体参数的离散程度比较小。

    有效性,是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。
    在这里插入图片描述

    3 一致性

    随着样本量的增大,估计量的值越来越接近被估计的总体参数。换言之,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。
    在这里插入图片描述

    展开全文
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...

    “参数估计是以抽样分布为中介,用样本的参数特征对总体的参数进行数值估计的过程。”

    一、点估计
    1.点估计就是用样本统计量来估计总体参数。
    概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,然后用样本统计量的值来估计总体的情况。
    例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计。

    常用的点估计有:用样本均值估计总体均值,用样本方差估计总体方差,用样本的分位数估计总体分位数,用样本的中位数估计总体的中位数。

    2.点估计方法
    矩估计法、顺序统计量法、最大似然法、
    最小二乘法(对于点估计方法,放在另一篇文章中详细介绍)

    3.由于用样本推断总体的过程一定存在估计误差,而点估计的估计误差无法衡量,所以点估计主要用于为定性研究提供数据参考,或者在对于总体参数估计精度要求不高时使用。

    二、区间估计
    1.区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。

    2.关于置信水平(置信度)、置信区间和显著性水平:
    置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
    置信水平用百分数表示,表示成(1-a)100%a指的是显著性水平,表示总体参数不落在置信区间的可能性。

    3.关于置信区间的计算:
    通过部分样本来计算总体参数的一个置信区间有以下步骤:
    a.明确要解决的问题,要估计的指标或参数是什么,
    b.求抽样样本的平均值和标准误差,
    注意区分标准差和标准误差:标准差反映的是整个样本对样本平均数的离散程度,标准差等于方差开根号;标准误差反映的是样本平均数对总体平均数的变异程度,标准误差等于样本标准差除n的开根号。
    c.确定需要的置信水平,
    d.查询z表,得到z值,
    e. 计算置信区间,[a,b],a=样本均值-z标准误差,b=样本均值+z标准误差。

    区间估计分为一个总体参数的估计和两个总体参数的估计

    4.一个总体参数的区间估计:总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;

    4.1总体均值的区间估计:
    均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关;
    Z分布其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布,
    Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30;
    T分布:对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型;
    切比雪夫不等式:对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。
    在这里插入图片描述截图来自《人人都会数据分析:从生活实例学统计》

    4.2 总体方差的区间估计:
    总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。
    卡方统计量的计算公式:
    χ α 2 ( n − 1 ) = ( n − 1 ) s 2 σ z 2 \chi^2_\alpha(n-1)=\frac{(n-1)s ^2}{\sigma ^2_z} χα2(n1)=σz2(n1)s2
    总体方差的双侧置信区间估计公式为:
    ( n − 1 ) s 2 χ α 2 2 ( n − 1 ) ≤ σ z 2 ≤ ( n − 1 ) s 2 χ 1 2 − α 2 ( n − 1 ) \frac{(n-1)s^2}{\chi ^2_\frac{\alpha}{2}(n-1)} \leq \sigma ^2_z \leq \frac{(n-1)s ^2}{\chi ^2_1-\frac{\alpha}{2} (n-1)} χ2α2(n1)(n1)s2σz2χ122α(n1)(n1)s2
    其中带有a/2的为下标;
    如果是单侧置信区间的话,只需要取上面式子的前半部分或者后半部分,并将a/2改成a即可得到单侧置信区间。

    4.3 总体比例的区间估计:
    或者叫总体比率的区间估计,跟二项分布有关,二项分布的理论是:事件发生概率是p,进行n次实验,其中x次实验该事件发生,则发生次数的概率分布服从二项分布;均值、方差为np,npq。
    若将发生的次数转换成比率(x/n),则比率的概率分布也服从二项分布。
    二项分布的特性:当抽取的样本容量n很大,是大 样本,使得np和nq(q为事件不发生的概率,等于1-p)的值都大于 5, 此时二项分布将近似于正态分布。
    由于事件发生比率x/n服从二项分布,所以如果比率的二项分布近似于正态分布,就可以得到不利的区间估计。

    在事件发生概率p已知的情况下,总体比率 p z ˉ \bar{p_z} pzˉ在置信度为1-a时,总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    其中, p y ˉ \bar{p_y} pyˉ为样本比率, p z ˉ \bar{p_z} pzˉ为总体比率,
    当事件发生概率p未知,可用样本中事件发生的概率即样本比率代替。

    5. 两个总体参数的区间估计
    两个总体均值之差的估计,两个总体方差比的区间估计
    两个总体与多个总体参数的区间估计在实际生活中的应用不是很多,更常用的是两个总体和多个总体参数的假设检验。 区间估计虽不常用,但是其与假设检验的应用原理是想通的。

    5.1 两个总体均值之差的区间估计:
    可以将单个总体均值的抽样分布推广到两个总体均值差的抽样分布,然后利用两个总体均值差的抽样分布推导出两个总体均值差的置信区间公式。
    方差齐性/方差不齐:对于配对样本来说其方差可被认为是想等的,即方差齐性。
    在这里插入图片描述
    截图来自《人人都会数据分析:从生活实例学统计》

    独立样本和配对样本:
    独立样本:是指如果从一个总体中选取样本,抽样形式无论怎样改变都不会影响从另一个总体中抽取样本的概率,则这两个随机样本为独立样本;
    配对样本:是指如果从一个总体中抽取样本的行为以某种方式决定了从另一个总体中抽取样本的概率,则这两个样本为成对样本或配对样本。

    均值和方差的特点:
    两个总体合并(相加或相减),那么合并后的总体均值等于原来两个总体的均值之和或均值之差;而合并后的总体方差都等于两个总体方差之和。

    差值抽样分布可以看做单个总体的均值抽样分布,因此可套用“均值抽样分布适用条件表”,将公式修改一下即可:

    截图来自《人人都会数据分析:从生活实例学统计》

    5.2 两个总体方差比的区间估计
    F分布可用于求取两个正态分布总体方差比的置信区间。
    F统计量可被看做是两个卡方统计量的商,F分布也被称为方差比分布。因为卡方分布要求总体服从正态分布,所以F分布也要求F统计量的两个总体都服从正态分布。
    当给定置信水平时,可推出两个正态分布总体方差比的置信区间。

    三、样本量的确定

    1总体均值区间估计的样本量确定
    在总体标准差已知的情况下,如果数据总体服从正态分布,则样本均值的抽样分布适用Z分布,就可以利用总体均值的置信区间公式来计算样本容量,总体均值的置信区间为:
    x ˉ ± Z α 2 σ n \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} xˉ±Z2αn σ x ˉ ± Z α 2 σ n N − n N − 1 \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N-n}{N-1}} xˉ±Z2αn σN1Nn

    则总体均值的区间估计误差为:
    Δ μ = Z α 2 σ n \Delta\mu=Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} Δμ=Z2αn σ
    进而可以求得样本容量的公式:
    n = ( Z α 2 σ Δ μ ) 2 n=(\frac{Z_\frac{\alpha}{2} \sigma}{\Delta\mu})^2 n=(ΔμZ2ασ)2

    以上是总体标准差已知时,当总体标准差未知时,一是可以用样本标准差代替,但是前提条件是样本容量要大于等于30;二是可以用过去试点调查的样本标准差代替;三是,如果知道总体数据中的最大和最小值,可用四分之一的最大与最小值的差值来代替总体标准差。

    2.总体方差区间估计的样本量确定
    总体方差的区间估计适用的抽样分布为卡方分布。卡方统计量为:
    χ 2 = ( n − 1 ) s 2 σ 2 \chi^2=\frac{(n-1)s ^2}{\sigma ^2} χ2=σ2(n1)s2
    由卡方分布的性质可知,当样本量足够大时,卡方分布近似于正态分布。卡方分布的均值为自由度(n-1),卡方分布的方差为两倍的自由度2(n-1),那么在大样本的情况下,总体方差的置信区间为:
    s 2 = ± Z α 2 s 2 2 n s^2=\pm Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} s2=±Z2αs2n2
    则总体方差的估计精度为:
    Δ σ 2 = Z α 2 s 2 2 n \Delta \sigma^2=Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} Δσ2=Z2αs2n2
    由此可得到样本容量公式为:
    n = 2 Z α 2 s 2 Δ σ 2 n=\frac{\sqrt{2} Z_\frac{\alpha}{2} s^2}{\Delta \sigma^2} n=Δσ22 Z2αs2

    3.总体比率区间估计的样本量确定
    在确定总体比率的区间估计时,利用的是二项分布近似于正态分布的性质,即当抽取的样本量n很大时,是大样本,使得np>5且nq>5(p是事件发生的概率,q是事件不发生的概率,q=1-p)时,二项分布近似于正态分布。
    总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    则总体比率的估计误差为:
    Δ p z ˉ = Z α 2 p ( 1 − p ) n \Delta \bar{p_z} =Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} Δpzˉ=Z2αnp(1p)
    由此可得到样本容量为:
    n = Z α 2 2 p ( 1 − p ) Δ p z ˉ 2 n=\frac{Z_\frac{\alpha}{2} ^2 p(1-p)}{\Delta \bar{p_z} ^2} n=Δpzˉ2Z2α2p(1p)

    注:本文主要参考《人人都会数据分析:从生活实例学统计》

    展开全文
  • 参数估计

    千次阅读 2018-10-10 23:31:28
    一、参数估计内容 1.参数估计的requisites   我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理...

    前言

      学了很久的数理统计,总觉得知识在脑海中没有一个清晰的轮廓,虽然也可以自己通过纸和笔整理,但是,也想要通过新的方式,用文字的方式输出,这一想法已经在我脑海里盘旋了好久了,终于在今天开始落实。

    一、参数估计内容

    1.参数估计的requisites

      我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理有一些了解,最好还要知道三大抽样分布的性质。

    但是还是简单提一下统计量的概念吧:统计量是从样本中得到的,是样本的函数,统计量不含有任何未知参数。

    2.参数估计的目的

      我们在统计中,总是想要通过样本去推断总体的性质,而引进统计量,就是对样本进行描述的过程。实际中,我们感兴趣的问题总是与总体分布中的未知参数有关系,所以,我们要对参数进行估计和检验。
    这里的参数是指:

    • 分布中的未知参数和未知参数的函数
    • 分布的各种特征函数

    3.参数估计的类型和使用

    在此之间,我们必须要明确一点,估计是一个方法,不是一个具体算出来的值;只是,在给定样本以后,用这种估计的方法,可以算出数值。

    3.1 点估计

      点估计,顾名思义是对某个未知参数的值的估计,就像是数轴上的一个点。因此我们的目的也就是找到一个未知参数的好的估计量。
      知道点估计的含义以后,我们先来看看常用的找估计量的方法:

    • 矩估计
    • 最大似然估计
    • 最小方差无偏估计
    • 贝叶斯估计

    3.1.1 矩估计

      矩估计的基本原理就是:替换原理通过样本的矩替换总体的矩,用样本矩的函数替换总体矩的函数。
      这么做的好处是:在总体分布函数未知的情况下,通过样本的特征数可以对各种参数进行估计。
      矩估计的实质是:用样本的经验分布函数去替换总体的分布,理论基础是格里纹科定理。
      具体的操作就是:

    1. 假设已知总体的概率密度函数,但其中的参数未知,通过这个带有未知参数的密度函数去求总体的各阶矩;
    2. 利用样本的数据,求各阶矩;
    3. 通过总体各阶矩和样本各阶矩相等,构造方程组,解出参数。

    3.1.2 最大似然估计(MLE)

      最大似然估计,也可以叫做极大似然估计,从字面理解非常到位就是,找到一个未知参数的估计,使得在这个估计的条件下,由总体概率密度函数推算的分布下,样本发生的可能性最大。即是,最大的像这样的估计。
    具体操作就是:

    1. 将未知参数的估计设为x,带入总体密度函数。
    2. 建立在样本的独立性的条件下,根据样本求出样本取得当下值的概率。
    3. 通过分析计算出使得概率达到最大的x,就是未知参数的极大似然估计。
      最大似然估计具有不变性。

    3.1.3 最小方差无偏估计

      首先引进均方误差(MSE)的概念,均方误差是用于衡量点估计好坏的一种标准,关于衡量点估计好坏的标准在后文还会详细介绍,这里为了需要,先简单提一下。首先明确一点,均方误差是对点估计进行的计算。具体的计算公式是,参数估计值与真实值之差的平方的期望,通过分解,也等于估计值的方差加估计值的期望与真实值之差的平方。
      一致最小均方误差估计,是需要在一个确定的估计类里,找到均方误差相对最小的那个。但由于是在估计类里找,如果不对估计加任何限制,则一致最小均方误差估计是不存在的,所以没有意义。
      最小方差无偏估计,这里是指一致最小方差无偏估计,就是对于一个参数的无偏估计而言,最小的均方误差就意味着最小的方差。对于参数空间中的任何无偏估计,具有最小方差的那个估计就称作是一致最小方差无偏估计(UMVUE)
    实际上,用于判断是否是UMVUE,可以通过一个定理方便地得到:未知参数的UMVUE必然与任一零的无偏估计不相关。也就是说,现在还有一个其他的随机变量X,均值是零,那么这个未知参数的UMVUE与这个随机变量X的相关系数(Cov)为零。

    3.1.4 贝叶斯估计

      前面介绍的三种办法是频率学派的理论,而贝叶斯估计是贝叶斯学派的观点。
      贝叶斯估计是建立在已经有关于参数的分布的信息的基础上,叫做先验信息,然后进行样本观测,推算后验分布。也可以理解为,用总体和样本对先验分布做出调整。
      具体做法是:

    1. 在参数未知的条件下,确定总体的分布
    2. 根据参数的先验信息确定先验分布 π(θ)
    3. 求出在通过先验分布得到的未知参数后,样本的联合分布 p(X|θ)
    4. 确定样本和未知参数的联合分布,也就是2.与3.得到的分布函数之积 h(X,θ)=p(X|θ)π(θ)。
    5. 对参数θ的贝叶斯推断,π(θ|X)= h(X,θ)/m(X),其中m(X) 是从h(X,θ)中对θ整个参数空间积分得到的,X的边际概率函数。

    3.2 点估计好坏的评价标准

      前面已经提到点估计的目的是找到未知参数的好的估计量,那么到底怎么定义“好”,也是我们需要关心的。在点估计中,有如下标准衡量:

    • 无偏性
    • 有效性
    • 相合性
    • 均方误差
    • 充分性原则
    • 有效估计

      我刚学参数估计的时候,脑子里总是记不住这些性质到底在描述什么QAQ
      好吧,其实现在也记不住,我也必须翻一下笔记了…

    • 无偏性
        无偏性是描述经过重复抽样以后,所有对这个未知参数的估计值的平均等于真实的参数值。具体判断也就是计算这个估计的均值,看它是否等于真实值。关于无偏性还有一些性质,最好能够记住:
      1. 样本的k阶中心距通常不是总体k阶中心矩的无偏估计
      2. 无偏性不具有不变性,也就是无偏估计的函数不一定是无偏估计
          无偏估计还有渐近无偏估计,就是当样本量趋近于无穷时,均值的极限趋近于真实值。也是用于衡量一个估计是一个好的估计的准则。
    • 有效性
        有效性是建立在两个无偏估计的基础上,比较两个无偏估计的方差,方差小的更有效。
    • 相合性
        与渐近无偏性从期望的极限角度理解不同,相合性是从概率的角度,即未知参数的估计,在样本量趋近于无穷大的时候,估计量依概率收敛到未知参数。也即是说,当样本量增大的时候,被估计的参数能够被估计到任意指定的精度。判断相合性,我们采用验证它的充分条件:
      1. 渐进无偏性
      2. 方差收敛到0
          由大数定理知道,矩估计一般都是相合的
    • 均方误差
        MSE,是通过计算参数估计值与真实值之差的平方的期望,其大小能够反映估计的好坏,在同一估计类里越小越好。
    • 充分性原则
        首先,要注意充分性原则和充分性是两个不同的东西!充分性是描述统计量不丢失关于样本的任何信息,则称这个统计量为充分统计量。那么,充分性原则和充分性一点关系都没有吗?也不是的。在比较两个无偏估计的好坏的时候,较好的那个无偏估计总是样本的充分统计量;并且,将不是样本充分统计量的统计量,关于充分统计量求期望,得到的估计,一定是充分统计量,并且新的估计的方差也得到了降低。
        换句话说,对于所有的统计推断问题,考虑未知参数的估计问题,只需要在基于充分统计量的函数中进行即可,这就是充分性原则。
        你可能还在想,怎么将不是样本充分统计量的统计量关于一个充分统计量求期望?利用随机过程讲义的第一章的内容,利用条件概率公式,连续函数求积分,离散函数求∑。
    • 有效估计
        有效估计是一个估计,它的方差达到了Cramer-Rao方程的下界,有效估计一定是UMVUE哈。具体计算来判断是否是有效估计的话:
      1. 根据总体密度函数(含参数)检验满足C-R方程的条件;
      2. 求费希尔信息量,找到C-R下界;
      3. 对无偏估计求方差,检验是否等于C-R下界。

    3.3 区间估计

      之前我们讨论的都是点估计,但是关于统计量的精度我们无法定量的回答,必须通过它们的分布来反映。在实际中,度量点估计精度直观方法就是给出未知参数的一个区间,这就是区间估计。
      区间估计是想要找到两个统计量,构成一个区间,这个区间盖住未知参数真值的可能性不确定,但是人们总是希望在尽可能小的区间下,区间盖住真值的可能性越大越好,由此得到置信区间的定义:
      置信区间,是一个有样本值得到的随机区间,未知参数真值落在这个随机区间中的概率大于等于1-a,或者理解为,未知参数真值不落在这个随机区间中的概率小于置信度,满足这个条件的随机区间称作置信区间。首先,置信水平是随机区间盖住真值的概率,置信水平等于置信度,然后,我自己理解置信度是这样的:当大量重复实验,用置信区间的计算方法,得到很多个N个随机区间的时候,有(N* 置信水平)的那么多个区间,包括了均值。
      那具体怎么做区间估计呢?我们通过构造区间估计的方法,使用最基本的枢轴量法:

    1. 什么是枢轴量?
        枢轴量是样本和未知参数的函数,它具有的性质是其分布不依赖与未知参数,或者说,它的概率密度函数与参数无关。
    2. 枢轴量有什么用?
        在参数未知的时候,没有办法直接凭空从置信水平找到随机区间的上下限,所以采用枢轴量的分布函数,以此为媒介,根据置信水平,先算出枢轴量的置信区间,再反解出上下限。
    3. 枢轴量怎么用?
        其实2.已经解答过了,从未知参数的好的点估计(MLE)出发,用它的性质和密度函数构造。根据置信水平,通常采用等尾置信区间保证区间长度最短,先算出枢轴量的置信区间,再反解出上下限。
    4. 有什么特别的检验的构造套路吗?
        老师教过的有:
      • 单个正态总体参数:分为均值、方差是否已知,对均值和方差分别都有不同的枢轴量
      • 大样本置信区间:原理是中心极限定理,在样本方差已知的时候,很ok;在样本方差未知的时候,中心极限定理的分布可以将方差换成它的相合估计。注意哦,大样本运用中心极限定理,最多只有样本的方差的相合估计代替方差,不可以用均值的无偏估计代替总体均值位置上的μ的!
      • 两独立正态总体下均值之差和方差之比的置信区间:类似于单个正态总体,在估计均值的时候,要看方差是否已知,或者方差成比例;在估计方差之比的时候,直接就有枢轴量,不需要讨论均值是否已知。

      除了这些,均匀分布的总体还有一些特别的构造方法,课后题和期中考试卷子也有涉及,供自己参考~
      注:区间估计构造枢轴量的时候,大量用到前面一章节的统计量及其分布、以及三大抽样分布的基础。

    二、整体学习思路

      参数的点估计—>穿插如何评价点估计的好坏—>参数的区间估计
      建议的学习思路:点估计—>评价点估计的好坏—>参数估计,感觉独立开会更清晰一些~

    三、声明

      全文都是我个人的学习笔记,肯定有出现错误欢迎指正。

    展开全文
  • 数理统计:参数估计

    2020-12-29 22:57:30
    learning why, thinking what, then forgetting how. 随着时间的流逝,知识总会被遗忘和...统计推断主要分为参数估计和假设检验,参数估计又分为点估计和区间估计。 2.1 参数的点估计 首先提出参数和参数的估计量的.

    learning why, thinking what, then forgetting how.

    随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分

    教材为:《数理统计(孙海燕等)》


    第二章 参数估计

    在解决实际问题中,当确定了总体的分布族后,我们要从样本来推断总体的具体分布或感兴趣的总体特征数。例如,总体的数学期望方差等。统计推断主要分为参数估计假设检验,参数估计又分为点估计区间估计


    2.1 参数的点估计

    首先提出参数参数的估计量的概念。

    • 参数:任何与总体有关的待估计量都看成参数。它可以是决定总体分布的参数θ本身,也可以是θ的实函数。不局限于参数统计范围,总体数学期望和方差等特征数也看成参数。
    • 参数的估计量:用于估计参数或其实函数的实值统计量。其值称为估计值。

    参数估计的实质:构造合适的统计量,作为参数的实函数的估计

    常见的参数估计方法:

    • 替换原理法:
      1. 频率替换法
      2. 矩估计法
    • 极大似然估计法
    • EM 算法

    2.1.1 频率替换估计

    1. 根据样本已知的频率确定一个使用的概率
    2. 将概率表示成待估计量的函数。
    3. 将待估计量反解成概率的函数。
    4. 使用已知样本频率替换总体概率。

    频率替换法所获得的估计可能不是唯一的。需要评估那个较优。

    2.1.2 矩估计

    大数定律可知,若总体矩存在,则样本矩依概率几乎必然收敛于相应的总体矩。只要总体矩存在,就可以用相应的样本矩作为总体矩的合理估计

    1. 使用待求的参数的函数表示总体原点矩总体中心矩
    2. 将待求的参数反解为总体原点矩或总体中心距的函数。
    3. 使用已知的样本原点矩或样本中心距替换总体原点矩或总体中心距。

    无论总体服从何种分布,只要总体的二阶矩存在,则样本平均值和二阶中心距就分别是总体均值和方差的矩估计

    只有总体矩存在,且总体原点绝对矩存在的阶数大于待估计参数的维数时,才能使用矩估计法来求参数的估计。

    根据不同总体矩的选择,矩估计有不唯一性,尽量选择低阶矩来估计参数。

    因为样本矩与总体分布的具体表达式无关,因此当总体的分布形式已知时,矩估计法并没有充分利用总体分布形式所提供的有关参数的信息。建立在已知总体分布形式上的估计方法就是极大似然估计法

    2.1.3 极大似然估计

    极大似然估计的直观思想:若在一次试验中,某个试验结果发生,则一般认为试验条件对这个结果的发生有利,也就是说这个结果发生的机会最大

    极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的。

    1. 写出联合概率分布函数作为似然函数
    2. 对似然函数取对数,并整理;
    3. 求导数,令导数为 0,得到似然方程
    4. 解似然方程,得到的参数即为参数的极大似然估计

    若考虑的参数空间不同,则极大似然估计的值会有所不同。求极大似然估计时一定要顾及参数所属的范围

    如果似然函数的偏导数不存在,或者似然方程组不存在,就只能根据原始定义采用别的方法求极大似然估计。例如穷举法求极大似然估计。

    由因子分解定理得,极大似然估计值一定是充分统计量的函数,这是极大似然估计的优点。而矩估计则不具有这样的性质。

    扩展:EM 算法(Expectation-Maximization)

    求解似然方程组可以获得极大似然估计的显式解,但是在实际中常常会遇到似然方程组难以求解的情况,此时可以求似然估计的近似解数值解。常用的求解方法有(1)Newton 法;(2)Fisher 法;(3)EM 算法等。

    前提:EM 算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用 EM 算法的。

    问题描述:有些问题中的参数分为隐含参数模型参数,且参数之间相互依赖,单个参数易求得,而直接求出所有参数十分困难。因此可以采用迭代的方法,随机初始化一个参数,之后每次迭代求出一个参数,最终会收敛到一个解。

    算法流程

    1. 随机初始化模型参数的初始值
    2. 迭代:
      • E 步:计算隐含参数的条件概率期望
      • M 步:计算模型参数的极大似然解
    3. 迭代 E-M 步骤直到算法收敛

    算法理解:EM 算法可以理解为坐标上升法,类似梯度下降法。梯度下降法的目的是最小化代价函数,坐标上升法的目的是最优化似然函数。如下图所示,为迭代优化的路径,因为优化的函数不能直接求导,因此无法直接使用梯度下降法(或许两部的梯度下降法会有效),E-M 算法每次固定一个变量对另外的变量求极值,逐步逼近极值。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAiY6g0v-1609253314429)(./img_statistics/em.jpg)]

    算法分析:E-M 算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法。当然,如果我们的优化目标是凸的,则 E-M 算法可以保证收敛到全局极大值,这点和梯度下降法这样的迭代算法相同。

    更详细的步骤参见EM 算法详解:人人都懂 EM 算法


    2.2 估计量的评优准则

    对同一参数用不同估计方法可能得到不同的估计,即使使用相同的估计方法也可能得到不同的估计,甚至任何统计量都可以作为参数的估计。需要讨论估计量的优良性,以下主要讨论均方误差准则无偏性准则,以及满足最小均方误差和无偏的一致最小方差无偏估计

    2.2.1 均方误差准则

    评估估计好坏的一个直观标准就是绝对误差 ∣ T ( x ) − q ( θ ) ∣ | T(x) - q(θ)| T(x)q(θ。使用数学期望消除随机因素产生的影响,使用平方以获得良好的数学性质,使用均方误差(MSE)作为评估估计好坏的标准:

    M S E θ ( T ( X ) ) = E θ [ T ( x ) − q ( θ ) ] 2 = V a r θ ( T ( X ) ) + ( E θ [ T ( x ) − q ( θ ) ] ) 2 MSE_θ( T(X) ) = E_θ [ T(x) - q(θ) ]^2 = Var_θ( T(X) ) + (E_θ [ T(x) - q(θ) ])^2 MSEθ(T(X))=Eθ[T(x)q(θ)]2=Varθ(T(X))+(Eθ[T(x)q(θ)])2

    均方误差等于方差加偏差

    总体方差的两个估计量:样本方差和样本二阶中心距。样本方差无偏,但是均方误差较大;样本二阶中心距均方误差较小,但是有偏。

    对于待估计参数,均方误差最小的估计是不存在的,因为均方误差最小总是无限趋向于完全准确估计。即所考虑的估计类的范围太大了,因此可以提出额外的合理要求,在缩小的估计类范围内寻求最优估计。最常见的合理要求就是无偏性准则

    2.2.2 无偏估计

    无偏估计即偏差为零,其均方误差等于方差

    E θ [ T ( x ) ] = q ( θ ) E_θ [ T(x) ] = q(θ) Eθ[T(x)]=q(θ)

    E θ ( T ( X ) ) = V a r θ ( T ( X ) ) E_θ( T(X) ) = Var_θ( T(X) ) Eθ(T(X))=Varθ(T(X))

    无偏估计的性质

    1. 无偏估计要求对于所有的参数 θ,估计都是无偏的。
    2. 无偏估计可能不存在
    3. 若无偏估计存在,则一般是不唯一的。
    4. 在均方误差准则下,无偏估计不一定是好的估计。无偏但是方差很大
    5. 函数变换下,无偏性可能消失。

    2.2.3 一致最小方差无偏估计

    一致最小方差无偏估计(UMVUE):在无偏估计中,方差最小的估计。

    建立在充分统计量基础上,寻找一致最小方差无偏估计的方法:利用无偏估计量对充分统计量取条件期望,可以降低无偏估计量的方差

    提出完全统计量的概念, E θ ( g ( T ) ) = 0 E_θ(g(T)) = 0 Eθ(g(T))=0,则 T 为完全统计量。

    完全充分统计量

    p ( x 1 , x 2 , … … , x n ; θ ) = c ( θ ) h ( x 1 , x 2 , … … , x n ) e x p { ∑ k = 1 m w k ( θ ) T k ( x 1 , x 2 , … … , x n ) ) } p(x_1, x_2, ……, x_n; θ) = c(θ)h(x_1, x_2, ……, x_n) exp\{ \sum^m_{k=1} w_k(θ)T_k(x_1, x_2, ……, x_n)) \} p(x1,x2,,xn;θ)=c(θ)h(x1,x2,,xn)exp{k=1mwk(θ)Tk(x1,x2,,xn))}

    如果 w(θ) 值域包含内点,则统计量 T 是完全充分的。

    Lehmann-Scheffe 定理提供了两种寻求可估函数 q(θ) 的一致最小方差无偏估计 T(x) 的方法,前提条件是必须知道完全充分统计量 S(x):

    1. q(θ) 的无偏估计 φ(x) 关于 S(x) 的条件数学期望 T ( x ) = E θ ( φ ( x ) ∣ S ( x ) ) T(x) = E_θ(φ(x) | S(x)) T(x)=Eθ(φ(x)S(x)),即为一致最小方差无偏估计。
    2. 使用 S(x) 的函数 h(S(x)) 将完全充分统计量无偏化,就可以得到一致最小方差无偏估计。

    实际的求解一致最小方差无偏估计的方法:

    1. 求解完全充分统计量,分解后w(θ) 值域包含内点
    2. 求解完全充分统计量是否无偏
    3. 构造函数使其无偏化

    2.3 信息不等式

    无偏估计方差的下界是多少?一致最小方差无偏估计的方差是否可以达到方差的下界?提出Fisher 信息量信息不等式

    Fisher 信息量为

    I ( θ ) = ( E θ [ ∂ ∂ θ l n p ( x ; θ ) ] ) 2 = − E θ [ ∂ 2 ∂ θ 2 l n p ( x ; θ ) ] I(θ) = (E_θ[\frac {\partial} {\partial θ} lnp(x;θ)])^2 = - E_θ[\frac {\partial^2} {\partial θ^2} lnp(x;θ)] I(θ)=(Eθ[θlnp(x;θ)])2=Eθ[θ22lnp(x;θ)]

    n I ( θ ) = I n ( θ ) nI(θ) = I_n(θ) nI(θ)=In(θ),而信息不等式给出了方差的下界

    V a r θ ( q ^ ) ≥ [ q ′ ( θ ) ] 2 n I ( θ ) Var_θ(\hat q) ≥ \frac {[q^{'}(θ)]^2} {nI(θ)} Varθ(q^)nI(θ)[q(θ)]2

    若信息不等式取到等号,则达到了方差的下界,为有效估计,否则可以计算有效率 [ q ′ ( θ ) ] 2 n I ( θ ) / V a r θ ( q ^ ) \frac {[q^{'}(θ)]^2} {nI(θ)} / Var_θ(\hat q) nI(θ)[q(θ)]2/Varθ(q^)

    一致最小方差无偏估计不一定是有效的,但是有效估计一定是一致最小方差无偏估计


    考试题型

    1. 均方误差
    2. 频率替换估计
    3. 矩估计
    4. 极大似然估计
    5. 一致最小方差无偏估计
    6. 凑无偏估计
    7. Fisher 信息量
    8. 判断一致最小方差无偏估计是否有效

    历年考题

    2019

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2016

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2015

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2014

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 集中趋势和离散趋势的度量: 众数、中位数和平均数: 方差和标准差: 相对离散程度:离散系数的作用: 怎样理解置信区间 影响区间宽度的因素 解释95%的置信区间 ...参数估计和假设检验的区别和联系 假设检验的步骤
  • 极大似然估计值标准差

    千次阅读 2017-01-09 19:28:40
    极大似然估计有很好的渐进性质,在一定正则条件下具有强相合性和渐进正态性。 预备知识 设X1,X2,...,XnX_1,X_2,...,X_n为独立同分布样本,X1∼f(x1,θ),l(θ,x1)=logf(x1,θ)X_1\sim f(x_1,\theta), \quad l(\...
  • 《统计学》学习笔记之参数估计

    千次阅读 2020-03-16 15:05:29
    文章目录参数估计参数估计的基本原理评价估计量的标准一个总体参数的区间估计两个总体参数估计 参数估计 参数估计是推断统计的重要内容之一。它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数...
  • 关于参数估计(点估计和参数估计)的详细笔记。
  • 推断统计:参数估计和假设检验

    千次阅读 多人点赞 2020-03-03 00:35:24
    目录 ...  3、参数估计(点估计和区间估计)    1)参数估计、点估计和区间统计的概念    2)点估计说明    3)区间估计说明   4、中心极限定理    1)中心极限定理的概念    2...
  • 关于参数估计

    千次阅读 2018-01-25 18:11:08
    虽然非计算机专业,但因为一些原因打算学习西瓜书,可由于长时间没有碰过概率统计的知识,有所遗忘。所以特意重新复习了一遍类似的知识,写在这里权当...参数估计的方法有多种,各种估计方法得出的结果不一定相同,...
  • 《统计学(第六版)》贾俊平 第7章 参数估计 参数估计 parameter estimation 参数估计就是用样本统计量去估计总体的参数。 估计量 estimator 在参数估计中,用来估计总体参数的统计量称为估计量。样本均值、样本比例、...
  • 参数估计、方差估计、MSE、MAE、SE、MLE
  • 三、抽样与参数估计

    千次阅读 2021-01-29 22:04:29
    参数估计的基本原理: 一、估计量和估计值估计值:估计总体参数时计算出来的估计量的具体数值。 估计量:用来估计总体参数的统计量的名称。 二、点估计与区间估计: 点估计:用样本估计量的值作为总体参数的估计...
  • 统计学之参数估计

    千次阅读 2019-12-29 22:48:48
    参数估计的基本原理 估计量与估计值 如果我们得到总体的全部数据,做统计描述即可得到总体特征,但现实是,难以得到全部数据。因而需要参数估计参数估计:用样本统计量去估计总体的参数。如样本均值估计总体均值。...
  • 统计学——参数估计与假设检验

    千次阅读 2019-02-13 17:15:04
    统计学(第六版)贾俊平 读书笔记 第 7 章 参数估计 7.1 参数估计的基本原理 ...而根据一个具体的样本计算出来的估计量的数值称为估计值参数估计的方法有点估计和区间估计两种。点估计就是中样本统计量的...
  • 用 Bootstrap 进行参数估计

    千次阅读 2020-04-05 23:18:23
    然后把这mmm组抽样分别求出其平均,这些平均的分布接近正态分布。 举个例子: 现在我们要统计全国的人的体重,看看我国平均体重是多少。当然,我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一共...
  • 之前已经推送了关于标准差(SD)、平均值的标准误差(SEM)的介绍文章,今天将重点介绍一下标准差(SD)和平均值的标准误差(SEM)之间...标准偏差(SD)与平均值标准误差(SEM)之间很容易混淆。主要区别在于: ...
  • 参数估计:贝叶斯思想和贝叶斯参数估计

    万次阅读 多人点赞 2016-05-23 10:54:29
    http://blog.csdn.net/pipisorry/article/details/51471222贝叶斯与频率派思想频率派思想 ...而且事情发生或不发生的概率虽然未知,但最起码是一个确定的。比如如果问那时的人们一个问题:“有一个袋子,里面装着
  • SPSS——连续变量的参数估计

    千次阅读 2018-09-05 17:26:11
    连续变量的描述统计与参数估计 根据样本数据对总体的客观规律性做出合理的估计就是统计推断,其中又分为参数估计和假设检验两大类。 正态分布特征: 是一条对称曲线,关于均数对称。均数被称为正态分布的位置参数...
  • 参数估计:点估计和区间估计

    千次阅读 2020-02-28 10:49:49
    参数估计就是根据样本统计量的数值对总体参数进行估计的过程。根据参数估计的性质不同,可以分成两种类型:点估计和区间估计。 点估计 点估计就是用样本统计量的某一具体数值直接推断未知的总体参数。例如,在进行...
  • AR模型的参数估计

    千次阅读 2020-06-20 22:24:47
    AR模型的参数估计 一、AR模型概述 AR模型属于随机信号参数模型的一种。在AR模型中,随机信号x(n)由本身的若干次过去x(n−k)和当前的激励w(n)线性组合产生。 x(n)=w(n)−∑k=1pakx(n−k)(1) x(n) = w(n) − \sum_...
  • 概率论 参数估计与假设检验 区分及例子动机区分概念假设检验基本思想小概率原理原理几种常见假设检验假设检验规则和两类错误检验规则两类错误明确步骤 动机 国内本科教材重计算技巧,轻内在逻辑,大家学完容易忘记。...
  • 如果我们选择一个高斯核,带宽(标准差)为0.1(每一个高斯核曲线下方的面积为1/12,因为有12个高斯曲线,为了保证所有的概率密度曲线的面积为1),那么这个核密度估计是欠平滑的因为带宽太小的原因。看下面的图中左边...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 54,209
精华内容 21,683
关键字:

参数估计值的标准误差