精华内容
下载资源
问答
  • 参数估计(点估计和区间估计

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...

    “参数估计是以抽样分布为中介,用样本的参数特征对总体的参数进行数值估计的过程。”

    一、点估计
    1.点估计就是用样本统计量来估计总体参数。
    概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,然后用样本统计量的值来估计总体的情况。
    例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计。

    常用的点估计有:用样本均值估计总体均值,用样本方差估计总体方差,用样本的分位数估计总体分位数,用样本的中位数估计总体的中位数。

    2.点估计方法
    矩估计法、顺序统计量法、最大似然法、
    最小二乘法(对于点估计方法,放在另一篇文章中详细介绍)

    3.由于用样本推断总体的过程一定存在估计误差,而点估计的估计误差无法衡量,所以点估计主要用于为定性研究提供数据参考,或者在对于总体参数估计精度要求不高时使用。

    二、区间估计
    1.区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。

    2.关于置信水平(置信度)、置信区间和显著性水平:
    置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
    置信水平用百分数表示,表示成(1-a)100%a指的是显著性水平,表示总体参数不落在置信区间的可能性。

    3.关于置信区间的计算:
    通过部分样本来计算总体参数的一个置信区间有以下步骤:
    a.明确要解决的问题,要估计的指标或参数是什么,
    b.求抽样样本的平均值和标准误差,
    注意区分标准差和标准误差:标准差反映的是整个样本对样本平均数的离散程度,标准差等于方差开根号;标准误差反映的是样本平均数对总体平均数的变异程度,标准误差等于样本标准差除n的开根号。
    c.确定需要的置信水平,
    d.查询z表,得到z值,
    e. 计算置信区间,[a,b],a=样本均值-z标准误差,b=样本均值+z标准误差。

    区间估计分为一个总体参数的估计和两个总体参数的估计

    4.一个总体参数的区间估计:总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;

    4.1总体均值的区间估计:
    均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关;
    Z分布其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布,
    Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30;
    T分布:对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型;
    切比雪夫不等式:对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。
    在这里插入图片描述截图来自《人人都会数据分析:从生活实例学统计》

    4.2 总体方差的区间估计:
    总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。
    卡方统计量的计算公式:
    χ α 2 ( n − 1 ) = ( n − 1 ) s 2 σ z 2 \chi^2_\alpha(n-1)=\frac{(n-1)s ^2}{\sigma ^2_z} χα2(n1)=σz2(n1)s2
    总体方差的双侧置信区间估计公式为:
    ( n − 1 ) s 2 χ α 2 2 ( n − 1 ) ≤ σ z 2 ≤ ( n − 1 ) s 2 χ 1 2 − α 2 ( n − 1 ) \frac{(n-1)s^2}{\chi ^2_\frac{\alpha}{2}(n-1)} \leq \sigma ^2_z \leq \frac{(n-1)s ^2}{\chi ^2_1-\frac{\alpha}{2} (n-1)} χ2α2(n1)(n1)s2σz2χ122α(n1)(n1)s2
    其中带有a/2的为下标;
    如果是单侧置信区间的话,只需要取上面式子的前半部分或者后半部分,并将a/2改成a即可得到单侧置信区间。

    4.3 总体比例的区间估计:
    或者叫总体比率的区间估计,跟二项分布有关,二项分布的理论是:事件发生概率是p,进行n次实验,其中x次实验该事件发生,则发生次数的概率分布服从二项分布;均值、方差为np,npq。
    若将发生的次数转换成比率(x/n),则比率的概率分布也服从二项分布。
    二项分布的特性:当抽取的样本容量n很大,是大 样本,使得np和nq(q为事件不发生的概率,等于1-p)的值都大于 5, 此时二项分布将近似于正态分布。
    由于事件发生比率x/n服从二项分布,所以如果比率的二项分布近似于正态分布,就可以得到不利的区间估计。

    在事件发生概率p已知的情况下,总体比率 p z ˉ \bar{p_z} pzˉ在置信度为1-a时,总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    其中, p y ˉ \bar{p_y} pyˉ为样本比率, p z ˉ \bar{p_z} pzˉ为总体比率,
    当事件发生概率p未知,可用样本中事件发生的概率即样本比率代替。

    5. 两个总体参数的区间估计
    两个总体均值之差的估计,两个总体方差比的区间估计
    两个总体与多个总体参数的区间估计在实际生活中的应用不是很多,更常用的是两个总体和多个总体参数的假设检验。 区间估计虽不常用,但是其与假设检验的应用原理是想通的。

    5.1 两个总体均值之差的区间估计:
    可以将单个总体均值的抽样分布推广到两个总体均值差的抽样分布,然后利用两个总体均值差的抽样分布推导出两个总体均值差的置信区间公式。
    方差齐性/方差不齐:对于配对样本来说其方差可被认为是想等的,即方差齐性。
    在这里插入图片描述
    截图来自《人人都会数据分析:从生活实例学统计》

    独立样本和配对样本:
    独立样本:是指如果从一个总体中选取样本,抽样形式无论怎样改变都不会影响从另一个总体中抽取样本的概率,则这两个随机样本为独立样本;
    配对样本:是指如果从一个总体中抽取样本的行为以某种方式决定了从另一个总体中抽取样本的概率,则这两个样本为成对样本或配对样本。

    均值和方差的特点:
    两个总体合并(相加或相减),那么合并后的总体均值等于原来两个总体的均值之和或均值之差;而合并后的总体方差都等于两个总体方差之和。

    差值抽样分布可以看做单个总体的均值抽样分布,因此可套用“均值抽样分布适用条件表”,将公式修改一下即可:

    截图来自《人人都会数据分析:从生活实例学统计》

    5.2 两个总体方差比的区间估计
    F分布可用于求取两个正态分布总体方差比的置信区间。
    F统计量可被看做是两个卡方统计量的商,F分布也被称为方差比分布。因为卡方分布要求总体服从正态分布,所以F分布也要求F统计量的两个总体都服从正态分布。
    当给定置信水平时,可推出两个正态分布总体方差比的置信区间。

    三、样本量的确定

    1总体均值区间估计的样本量确定
    在总体标准差已知的情况下,如果数据总体服从正态分布,则样本均值的抽样分布适用Z分布,就可以利用总体均值的置信区间公式来计算样本容量,总体均值的置信区间为:
    x ˉ ± Z α 2 σ n \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} xˉ±Z2αn σ x ˉ ± Z α 2 σ n N − n N − 1 \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N-n}{N-1}} xˉ±Z2αn σN1Nn

    则总体均值的区间估计误差为:
    Δ μ = Z α 2 σ n \Delta\mu=Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} Δμ=Z2αn σ
    进而可以求得样本容量的公式:
    n = ( Z α 2 σ Δ μ ) 2 n=(\frac{Z_\frac{\alpha}{2} \sigma}{\Delta\mu})^2 n=(ΔμZ2ασ)2

    以上是总体标准差已知时,当总体标准差未知时,一是可以用样本标准差代替,但是前提条件是样本容量要大于等于30;二是可以用过去试点调查的样本标准差代替;三是,如果知道总体数据中的最大和最小值,可用四分之一的最大与最小值的差值来代替总体标准差。

    2.总体方差区间估计的样本量确定
    总体方差的区间估计适用的抽样分布为卡方分布。卡方统计量为:
    χ 2 = ( n − 1 ) s 2 σ 2 \chi^2=\frac{(n-1)s ^2}{\sigma ^2} χ2=σ2(n1)s2
    由卡方分布的性质可知,当样本量足够大时,卡方分布近似于正态分布。卡方分布的均值为自由度(n-1),卡方分布的方差为两倍的自由度2(n-1),那么在大样本的情况下,总体方差的置信区间为:
    s 2 = ± Z α 2 s 2 2 n s^2=\pm Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} s2=±Z2αs2n2
    则总体方差的估计精度为:
    Δ σ 2 = Z α 2 s 2 2 n \Delta \sigma^2=Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} Δσ2=Z2αs2n2
    由此可得到样本容量公式为:
    n = 2 Z α 2 s 2 Δ σ 2 n=\frac{\sqrt{2} Z_\frac{\alpha}{2} s^2}{\Delta \sigma^2} n=Δσ22 Z2αs2

    3.总体比率区间估计的样本量确定
    在确定总体比率的区间估计时,利用的是二项分布近似于正态分布的性质,即当抽取的样本量n很大时,是大样本,使得np>5且nq>5(p是事件发生的概率,q是事件不发生的概率,q=1-p)时,二项分布近似于正态分布。
    总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    则总体比率的估计误差为:
    Δ p z ˉ = Z α 2 p ( 1 − p ) n \Delta \bar{p_z} =Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} Δpzˉ=Z2αnp(1p)
    由此可得到样本容量为:
    n = Z α 2 2 p ( 1 − p ) Δ p z ˉ 2 n=\frac{Z_\frac{\alpha}{2} ^2 p(1-p)}{\Delta \bar{p_z} ^2} n=Δpzˉ2Z2α2p(1p)

    注:本文主要参考《人人都会数据分析:从生活实例学统计》

    展开全文
  • 统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。 一、参数估计基础-Z分布 在统计应用中,可以把任何一个均数为,标准差为的正态分布转变为,的标准正态分布,即将...

    统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。 

    一、参数估计基础-Z分布

    在统计应用中,可以把任何一个均数为\mu,标准差为\sigma的正态分布N(\mu ,\sigma ^{2})转变为\mu =0,\sigma =1的标准正态分布,即将正态变量值XZ=\frac{X-\mu }{\sigma }来代替,由于\overline{X}服从正态分布,故Z=\frac{\overline{X}-\mu }{\sigma _{\overline{X}}}服从标准正态分布N(0,1),其中\sigma _{\overline{X}}表示总体的标准差。

    特点:总体的标准差\sigma _{\overline{X}}是一定的。

    二、参数估计基础-t分布

    实际资料的分析中,由于\sigma往往未知,故标准化转换演变为:\frac{\overline{X}-\mu }{S _{\overline{X}}}=\frac{\overline{X}-\mu }{S/\sqrt{n}},服从\nu =n-1t分布,即:t=\frac{\overline{X}-\mu }{S _{\overline{X}}}。其中S表示样本的标准差,S/\sqrt{n}表示标准误。

    统计学家发现,t分布的分布性状是与和样本量息息相关的自由度相对应的。

    t 分布曲线特点:

    1.  t分布曲线是单峰分布,它以0为中心,左右对称。
    2.  t分布的形状与样本例数 n(自由度\nu=n-1)有关。自由度越小,则S_{\overline{X}}越大,t值越分散,曲线的峰部越矮,尾部则偏高。
    3. n\rightarrow +\infty时,则 S 逼近 \sigmat分布逼近标准正态分布。
    4. t分布不是一条曲线,而是一簇曲线。

    三、参数估计基础-t转换和Z转换的不同

    1. Z=\frac{\overline{X}-\mu }{\sigma _{\overline{X}}}转换标准误在一个固定的\sigma _{\overline{X}}上实现的转换。

    2. t=\frac{\overline{X}-\mu }{S _{\overline{X}}}=\frac{\overline{X}-\mu }{S/\sqrt{n}}转换是基于和每次抽样结果(S为样本的标准差)有相关关系的标准差,所有相对于基于总体标准差来说,有一定的不确定性。

    四、参数估计-点估计

    样本统计量直接作为总体参数的估计值。 

    于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。

    \overline{X}\rightarrow \mu,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L 。

    缺陷:用样本均值测算总体均值完全相等几乎是不可能的,所以我们用一个范围去估计总体参数所在的位置(区间估计)。

    五、参数估计-区间估计

    按预先给定的概率(1-\alpha )估计总体参数的可能范围,该范围就称为总体参数的(1-\alpha )置信区间(confidence interval, CI) 。

    预先给定的概率(1-\alpha )称为置信度,常取95%或99%。如无特别说明,一般取双侧95%。

    置信区间由两个数值即置信限(下限和上限)构成。

    置信水平是指总体参数值落在样本统计值某一区内的概率(成功率);而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。

    1、总体均数\left ( \mu \right )的区间估计

    以下是正态总体抽样得到的均数的分布规律,通过抽样得到的样本均数\overline{X}\mu并不能原丝合缝的相等。

    (1)\sigma 已知

    按标准正态分布原理计算,由Z分布,标准正态曲线下有 95%的Z值在±1.96之间。

    -1.96<\frac{\overline{X}-\mu }{\sigma _{\overline{X}}}<1.96 简单运算之后转换为:  \overline{X}-1.96\sigma _{\overline{X}}<\mu <\overline{X}+1.96\sigma _{\overline{X}} 
            95%的双侧置信区间: (\overline{X}-1.96\sigma _{\overline{X}},\overline{X}+ 1.96\sigma _{\overline{X}})

    99%的双侧置信区间: (\overline{X}-2.58\sigma _{\overline{X}},\overline{X}+2.58\sigma _{\overline{X}}),99%的双侧置信区间

    通式:\overline{X}-Z_{\alpha/2}\sigma _{\overline{X}}(双侧)

    (2)\sigma 未知,样本例数n足够大(n>50

    t分布可知,自由度越大,t分布越逼近标准正态分布,此时t曲线下有 95%的t值在±1.96之间,即:

    -1.96<\frac{\overline{X}-\mu }{S_{\overline{X}}}<1.96 简单运算之后转换为:  \overline{X}-1.96S _{\overline{X}}<\mu <\overline{X}+1.96S_{\overline{X}}
            95%的双侧置信区间: (\overline{X}-1.96S_{\overline{X}},\overline{X}+ 1.96S _{\overline{X}})

    99%的双侧置信区间: (\overline{X}-2.58S_{\overline{X}},\overline{X}+2.58S_{\overline{X}})

    通式:\overline{X}-Z_{\alpha/2}S _{\overline{X}}(其中S_{\overline{X}}=S/\sqrt{n}S表示样本标准差,n表示样本含量,S_{\overline{X}}是基于样本标准差S的标准误)(双侧)

    某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高的95%置信区间。

    \overline{X}\pm Z_{\alpha/2}S _{\overline{X}}Z_{0.05/2}=1.96

    \overline{X}\pm 1.96S _{\overline{X}}=172.2\pm 1.96\frac{4.5}{\sqrt{90}}=(171.3,173.1))

    该市19岁健康男大学生的身高的95%置信区间(171.3,173.1) cm。 

    注意:

    并不能说该市19岁健康男大学生的平均身高有95%的概率落在区间 (171.3,173.1)里!即不能说这个区间有95%的概率覆盖总体均数。

    这是由于平均身高作为总体均值,它是一个常数(客观存在),因此当区间估计完成以后,区间(171.3,173.1)要么覆盖总体均数,要么不覆盖。也就是说,概率为0或1,不会出现其它的概率值。

    在一次具体的估计完成之前,一定样本量下的区间估计方法,假如能够重复很多次的话,将有较多的次数,例如95%的次数会成功,有5%的次数会失败,因为在我们完成具体的计算之前,实际上(\overline{X}-1.96\sigma _{\overline{X}},\overline{X}+ 1.96\sigma _{\overline{X}})这个区间估计的上边界和下边界都还是随机变化的。

    用大量来自同一总体的独立样本对总体均数做估计时,关于95%的置信区间(CI),正确的说法是:A

    A.大约有95%的样本的CI覆盖总体均值

    B.各个样本估计的CI是相同的

    C.对于同一个CI而言,有95%的可能性覆盖总体均数————>>要么覆盖(100%),要么不覆盖(0%)

    (3)\sigma 未知,且样本例数n较小(n< 50

    t分布可知,此时某自由度的t曲线下约有 95%的t值在\pm t_{0.05/2(\nu)}之间,即:

    -t_{0.05/2(\nu)}<t<t_{0.05/2(\nu)}

      -t_{0.05/2(\nu)}<\frac{\overline{X}-\mu }{S_{\overline{X}}}<t_{0.05/2(\nu)} 
            \overline{X}-t_{0.05/2(\nu)}S_{\overline{X}}<\mu <\overline{X}+t_{0.05/2(\nu)}S_{\overline{X}}

    95%的双侧置信区间: (\overline{X}-t_{0.05/2(\nu)}S_{\overline{X}},\overline{X}+t_{0.05/2(\nu)}S_{\overline{X}})

    99%的双侧置信区间: (\overline{X}-t_{0.01/2(\nu)}S_{\overline{X}},\overline{X}+t_{0.01/2(\nu)}S_{\overline{X}})

    通式:\overline{X}-t_{\alpha /2(\nu)}S _{\overline{X}}(其中S_{\overline{X}}=S/\sqrt{n}S表示样本标准差,n表示样本含量,S_{\overline{X}}是基于样本标准差S的标准误)(双侧)

    已知某地27例健康成年男性血红蛋白量的均数为 \overline{X}=125g/L,标准差S=15g/L ,试问该地健康成年男性血红蛋白量的95%和99%置信区间。

    95%CI:\overline{X}\pm t_{0.05/2(\nu)}S_{\overline{X}}=\overline{X}\pm t_{0.05/2(26)}\frac{15}{\sqrt{27}}=125\pm 2.056\times 2.38 = (119.06,130.94)g/L

    99%CI:\overline{X}\pm t_{0.01/2(\nu)}S_{\overline{X}}=\overline{X}\pm t_{0.01/2(26)}\frac{15}{\sqrt{27}}=125\pm 2.779\times 2.38 = (116.98,133.02)g/L

    2、总体概率\left ( \pi \right )(\pi )的区间估计

    总体概率的置信区间与样本含量n、阳性频率P(二项分布)的大小有关,可根据nP的大小选择以下两种方法。

    1、正态近似法

    当样本含量足够大,且 P1-P不太小(通常 \large n\pi\large n(1-\pi )大于或等于5),则样本率的分布近似正态分布。 

    公式为:(P-Z_{\alpha /2}S_{P},P+Z_{\alpha /2}S_{P})

    P为样本率, S_{P}为基于样本率的标准误,S _{p}=\sqrt{\frac{P(1-P)}{n-1}}\approx \sqrt{\frac{P(1-P)}{n }}

    例:用某种仪器检查已确诊的乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。

    分析:本例样本例数较大,且样本率P 不太小,可用正态近似法:

    \large \begin{align} P\pm Z_{\alpha /2}S_{P} &=P\pm Z_{\alpha /2}\sqrt{\frac{P(1-P)}{n }} \\ &=0.783\pm 1.96\times \sqrt{\frac{0.783(1-0.783)}{120}} \\ &=(0.709,0.857) \end{align}

    2、 查表法

    n 较小,如n≤50,特别是P 和1-P 接近0或1时,应按照二项分布的原理估计总体率的可信区间。

    某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。

     

    通过查表,该手术合并症发生概率的95%置信区间为[1%,17%]

    展开全文
  • 用MATLAB进行区间估计

    2020-12-01 14:55:43
    数据正态总体分布normfit()命令来完成对参数的点估计和区间估计。此命令以alpha为显著性水平,在数据X下,对参数进行估计(alpha缺省时设定为0.05) [muhat,sigmahat,muci,sigmaci]= normfit(X,alpha) muhat是正态...

    数据正态总体分布normfit()命令来完成对参数的点估计和区间估计。此命令以alpha为显著性水平,在数据X下,对参数进行估计(alpha缺省时设定为0.05)

    [muhat,sigmahat,muci,sigmaci]= normfit(X,alpha)
    muhat是正态分布的均值的点估计值 
    sigmahat是标准差的点估计 
    muci是均值的区间估计
    sigmaci是标准差的区间估计

    y=[1050,1100,1080,1120,1200,1250,1040,1130,1300,1200];
    [muhat,sigmahat,muci,sigmaci]= normfit(y,0.05)
    %输出
    muhat =
    
            1147
    
    
    sigmahat =
    
       87.0568
    
    
    muci =
    
       1.0e+03 *
    
        1.0847
        1.2093
    
    
    sigmaci =
    
       59.8807
      158.9318

    % muhat是正态分布的均值的点估计值 1147
    % sigmahat是标准差的点估计 87.0568
    % muci是均值的区间估计[1084.7 1209.3]
    % sigmaci是标准差的区间估计[59.8807,158.9318] 

    [muhat,muci]=expfit(X,alpha)

    %在显著性水平alpha下,指数分布的数据X的均值的点估计及其区间估计。

    [lamhat,lamaci]=poissfit(X,alpha)

    %在显著性水平alpha下,泊松分布的数据X的参数的点估计及其区间估计。

    [phat,pci]=weibfit(X,alpha)

    %在显著性水平alpha下,求Weibull分布的数据X的参数的点估计及其区间估计。

    [ahat,bhat,aci,bci]=unifit(X,alpha)

    %在显著性水平alpha下,求均匀分布的数据X的参数a和b的点估计及其区间估计。

    %标准差已知的正态均值区间估计
    x=[14.6,14.7,15.1,19.9,14.8,15.0,15.1,15.2,14.8];
    a=0.05;%给定显著水平
    sigma=0.15;%已知标准差
    n=length(x);%样本容量
    mu=mean(x);%均值
    u=norminv(1-a/2,0,1);%正态分布临界值
    muci=[mu-u*sqrt(sigma^2/n),mu+u*sqrt(sigma^2/n)]%输出置信区间
    [muhat,sigmahat,muci,sigmaci]= normfit(x,0.05)


    muci =

       15.3687   15.5647


    muhat =

       15.4667


    sigmahat =

        1.6748


    muci =

       14.1793
       16.7540


    sigmaci =

        1.1313
        3.2086
    可以在这种情况下看出直接计算和用公式计算误差较大

    %均值已知时正态总体标准差的区间估计
    x=[14.6,14.7,15.1,19.9,14.8,15.0,15.1,15.2,14.8];
    a=0.05;%给定显著水平
    n=length(x);%样本容量
    mu=14.5;%已知均值
    chi2=sum((x-mu).^2);
    lambda1=chi2inv(1-a/2,n);
    lambda2=chi2inv(a/2,n);
    sigma=[sqrt(chi2/lambda1),sqrt(chi2/lambda2)]
    
    y=[1050,1100,1080,1120,1200,1250,1040,1130,1300,1200];
    %p139 22
    z=[2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.10,2.15,2.12,2.14];
    mu=mean(z);
    [muhat,sigmahat,muci,sigmaci]= normfit(z,0.1)
    % 数据正态总体分布normfit()命令来完成对参数的点估计和区间估计。此命令以alpha为显著性水平,在数据X下,对参数进行估计(alpha缺省时设定为0.05)
    % muhat是正态分布的均值的点估计值 1147
    % sigmahat是标准差的点估计 87.0568
    % muci是均值的区间估计[1084.7 1209.3]
    % sigmaci是标准差的区间估计[59.8807,158.9318]
    %%
    [muhat,muci]=expfit(X,alpha)
    
    %在显著性水平alpha下,指数分布的数据X的均值的点估计及其区间估计。
    
    [lamhat,lamaci]=poissfit(X,alpha)
    
    %在显著性水平alpha下,泊松分布的数据X的参数的点估计及其区间估计。
    
    [phat,pci]=weibfit(X,alpha)
    
    %在显著性水平alpha下,求Weibull分布的数据X的参数的点估计及其区间估计。
    
    [ahat,bhat,aci,bci]=unifit(X,alpha)
    
    %在显著性水平alpha下,求均匀分布的数据X的参数a和b的点估计及其区间估计。
    
    %%
    %标准差已知的正态均值区间估计
    x=[14.6,14.7,15.1,19.9,14.8,15.0,15.1,15.2,14.8];
    a=0.05;%给定显著水平
    sigma=0.15;%已知标准差
    n=length(x);%样本容量
    mu=mean(x);%均值
    u=norminv(1-a/2,0,1);%正态分布临界值
    muci=[mu-u*sqrt(sigma^2/n),mu+u*sqrt(sigma^2/n)]%输出置信区间
    [muhat,sigmahat,muci,sigmaci]= normfit(x,0.05)
    %%
    %均值已知时正态总体标准差的区间估计
    x=[14.6,14.7,15.1,19.9,14.8,15.0,15.1,15.2,14.8];
    a=0.05;%给定显著水平
    n=length(x);%样本容量
    mu=14.5;%已知均值
    chi2=sum((x-mu).^2);
    lambda1=chi2inv(1-a/2,n);
    lambda2=chi2inv(a/2,n);
    sigma=[sqrt(chi2/lambda1),sqrt(chi2/lambda2)]
    展开全文
  • 因为我们不可能期望点估计量能给出总体参数的精确值,所以经常在点估计上加减一个被称为边际误差( marginal of error)的值来计算区间估计( interval estimate)。区间估计的一般形式如下: 总体均值的区间估计:...

    我们发现点估计量是用于估计总体参数的样本统计量。例如,样本均值是总体均值的点估计量,样本比率是总体比率的点估计量。因为我们不可能期望点估计量能给出总体参数的精确值,所以经常在点估计上加减一个被称为边际误差( marginal of error)的值来计算区间估计( interval estimate)。区间估计的一般形式如下:
    在这里插入图片描述

    总体均值的区间估计:总体标准差已知情形
    计算样本的标准差
    在这里插入图片描述

    需要95%
    在这里插入图片描述

    构造置信区间
    在这里插入图片描述

    95%是置信水平(confidence level),0.95是置信系数(confidence coefficient),得到的区间是95%置信区间(confidence interval)

    总公式:
    在这里插入图片描述

    总体均值的区间估计:总体标准差未知情形
    在建立总体均值的区间估计时,我们通常并没有关于总体标准差的一个好的估计。在这种情形下,我们必须利用同一样本估计总体均值和总体标准差两个未知参数。当利用样本标准差估计总体标准差时,边际误差和总体均值的区间估计都以t分布( t distribution)的概率分布为依据进行的。虽然t分布的数学推导以假设抽样总体服从正态分布为依据,但是研究表明在许多总体分布显著偏离正态分布的情形下,利用t分布的效果还是相当不错的。当总体分布不是正态分布时,在本节稍后我们给出应用t分布的建议。
    t分布是由一类相似的概率分布组成的分布族,某个特定的t分布依赖于称为自由度( degrees of freedom)的参数。当自由度分别为1,2,3,…时,有且仅有唯一的t分布与之相对应。随着自由度的增大,t分布与标准正态分布之间的差别变得越来越小。图8-4给出了自由度分别为10和20时的t分布与标准正态概率分布的关系。我们注意,随着自由度的增大,t分布的变异幅度减小,与标准正态分布也越来越相似。还注意到,t分布的均值为0。
    在这里插入图片描述在这里插入图片描述

    当自由度超过100时,自由度为无穷的那一行可以用于近似实际的t值。
    在这里插入图片描述

    由于用样本标准差作为总体标准差的估计值,所以在式(8-2)中与t值对应的自由度为n-1。

    样本标准差的公式为:
    在这里插入图片描述

    自由度的详细解释
    在这里插入图片描述

    应用中的建议
    如果总体服从正态分布,式(8-2)所给出的置信区间是精确的,并且适用于任何样本容量。如果总体不服从正态分布,则式(8-2)所给出的置信区间是近似的。在这种情形下,近似的程度依赖于总体分布和样本容量。在绝大部分应用中,当利用式(8-2)建立总体均值的区间估计时,样本容量n≥30已经足够大。然而,如果总体分布严重偏斜或者包含异常点,绝大部分统计学家建议将样本容量增加到50或者更大。如果总体的分布不是正态分布但是大致对称,则在样本容量为15时便能得到置信区间的一个好的近似。仅当分析人员坚信或者愿意假设总体分布至少近似正态时,才可以在更小的样本容量下使用式(8-2)。

    样本容量的确定
    希望达到的边际误差
    在这里插入图片描述
    总体均值区间估计中的样本容量
    在这里插入图片描述

    但如果总体标准差是未知的怎么办呢
    可以给出初始值或计划值来作为总体标准差
    1.根据以前研究中的数据计算总体标准差的估计值作为总体标准差的计划值。
    2.利用实验性研究,选取一个初始样本,以初始样本的标准差作为总体标准差的计划值。
    3.对总体标准差值进行判断或最优猜测。例如,我们可以分别估计总体的最大值和最小值,两者之差是对数据极差的估计。一般建议将极差除以4作为总体标准差的粗略估计,从而最终得到一个可以接受的总体标准差的计划值。

    总体比率

    样本比率的抽样分布
    在这里插入图片描述

    边际误差
    在这里插入图片描述
    总体比率的区间估计
    在这里插入图片描述

    样本容量的确定
    在这里插入图片描述在这里插入图片描述

    因为样本比率是未知的,因此需要一个计划值
    在这里插入图片描述

    可通过如下方法来确定计划值
    (1)用以前相同或类似样本的样本比率来代替。
    (2)利用实验性的研究,选取一个初始样本,以该样本的样本比率作为计划值
    (3)使用判断或最优猜测作为计划值。
    (4)如果上述方法均不适用,则取计划值=0.5

    展开全文
  • 点估计和区间估计——统计学概念

    千次阅读 2021-01-24 15:33:15
    点估计和区间估计是通过样本统计量估计总体参数的两种方法。点估计是在抽样推断中不考虑抽样误差,直接以抽样指标代替全体指标的一种推断方法。因为个别样本的抽样指标不等于全体指标,所以,用抽样指标直接代替...
  • 数理统计的基本知识 1.首先看看四种典型的分布图 正态分布 T分布 卡方分布 F分布: 2.分布图的典型指标 3.点估计与区间估计 那么什么是点估计?什么是区间估计呢?...之前看到过这样一个例子,简直可以很...· 区间估计
  • 参数估计

    千次阅读 2018-10-10 23:31:28
    一、参数估计内容 1.参数估计的requisites   我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理...
  • R语言与正态总体均值的区间估计

    千次阅读 2020-04-16 17:05:16
    学习笔记 参考书籍:《统计学》-贾俊平;...一个正态总体均值的区间估计 产品重量数据: 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73....
  • 《统计学》学习笔记之参数估计

    千次阅读 2020-03-16 15:05:29
    文章目录参数估计参数估计的基本原理评价估计量的标准一个总体参数区间估计两个总体参数估计 参数估计 参数估计是推断统计的重要内容之一。它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数...
  • 什么是参数估计

    千次阅读 2020-10-20 20:06:51
    参数估计分为:点估计、区间估计 点估计(point estimation) 点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造...
  • MATLAB学习笔记:区间估计

    千次阅读 2018-01-27 16:23:01
    这时可以利用normfit()命令来完成对参数的点估计和区间估计。 调用格式: [muhat,sigmahat,muci,sigmaci]=normfit(X,alpla) 此命令以alpha为显著性水平,在数据X下,对参数进行估计(alpha缺省时设定为0.05). ...
  • 参数估计与假设检验的区别和联系

    万次阅读 2019-05-11 18:09:08
    参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计和区间估计两种。 点估计就是直接以样本统计量直接作为相应总体参数的估计值。点估计的缺陷是没法给出估计的可靠性,也没法说出点估计值与总体...
  • 因为估计样本的均值就等于估计出了总体的均值,而随着样本数的增加,代表估计误差的均值方差也是逐渐降低,通俗地说就是样本越多,参数估计的就越准确 。 2)样本方差和二阶中心矩的统计性质 上式表明样本方差...
  • 我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估...
  • 三、抽样与参数估计

    千次阅读 2021-01-29 22:04:29
    2、参数估计的方法有点估计和区间估计 区间估计是在点估计的基础上,给出总体参数的一个置信区间,并给出总体参数在这一区间的概率,实际应用区间估计 3、总体均值的区间由样本均值x-bar和估计误差两部分组成 ①当...
  • 应用stata学习计量经济学原理 第三章 区间估计和假设检验本章代码局部绘图解析 第三章 区间估计和假设检验 本章代码 cd "F:\stata与计量经济学\data" use food, clear * estimate regression reg food_exp income ...
  • 回归分析之参数估计

    千次阅读 2019-10-11 16:06:59
    参数估计 ...区间估计(置信区间的估计):依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数参数的函数的真值所在范围的估计。例如人们常说的有百分...
  • 基本思想是“小概率事件”原理,也就是小概率事件在一次试验中基本上不会发生。所以基础,就是找出拒绝域(小概率事件)。显然,“小概率事件”的概率越小,否定原假设H0就越有说服力,常记这个概率值为α(0<α&...
  • 文章目录参数估计的基本原理估计量与估计值点估计和区间估计点估计区间估计评价估计量的标准一个总体参数区间估计总体均值的区间估计总体比例的区间估计总体方差的区间估计两个总体参数区间估计两个总体均值之差...
  • 浅谈参数估计

    千次阅读 2019-09-03 09:38:34
    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数. 估计量 如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,...
  • 参数估计-矩估计和极大似然估计概述

    万次阅读 多人点赞 2018-08-18 17:11:52
    它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含的未知参数或未知参数的函数。 区间估计(置信区间的估计):依据抽...
  • 参数估计:核密度估计KDE

    万次阅读 多人点赞 2016-12-14 11:38:46
    http://blog.csdn.net/pipisorry/article/details/53635895核密度估计Kernel Density Estimation(KDE)概述密度估计的问题...参数估计参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布
  • 参数估计与假设检验的通俗理解

    千次阅读 2020-05-19 22:58:09
    从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知参数的估计量;(2)在一定信度(可靠程度)下指出所求的估计量的...
  • 卡尔曼滤波系列——(二)扩展卡尔曼滤波

    万次阅读 多人点赞 2019-04-06 16:33:48
    5 参数估计参数学习) 利用EM算法和极大后验概率估计(MAP),对未知的噪声参数做出估计,再利用估计出的参数去递推卡尔曼滤波的解。本文对EM算法在卡尔曼滤波框架中的推导暂时先不给出,之后可能会补充,这里就...
  • 实验——参数估计与非参数估计

    千次阅读 2021-11-20 17:40:59
    目录1 最大似然估计1.1 实验要求1.2 实验思路1.3 代码实现1.4 实验结果2 Parzen窗2.1 实验要求2.2 实验思路2.3 代码实现2.4 实验结果3 K近邻3.1 实验要求3.2 实验思路3.3 代码实现及结果3.3.1 一维情况3.3.2 二维...
  • 本实验的目的是学习Parzen窗估计和k最近邻估计方法。在之前的模式识别研究中,...在模式识别中有躲在令人感兴趣的非参数化方法,Parzen窗估计和k最近邻估计就是两种经典的估计法。这里使用Matlab实现这两种估计方法。
  • 把非参数估计的方法讲的很浅显易懂,主要是原理上的处理,对缺少先验知识的情况下,估计概率密度函数很有用,同样对高斯混合模型,有的地方可以看到,说一个分部可以通过多个高斯分布混合来拟合出来,看起来好像没有...
  • 参数估计 -核密度估计(KDE)

    千次阅读 2019-01-15 19:39:56
    元学习论文总结||小样本学习论文总结 ...核密度估计其实是对直方图的一个自然拓展。 首先考虑一下密度函数的概念,很自然的可以想到,密度函数就是分布函数的一阶导数。那么当我们拿到一些数据...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,908
精华内容 4,363
关键字:

参数区间估计原理