精华内容
下载资源
问答
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...

    “参数估计是以抽样分布为中介,用样本的参数特征对总体的参数进行数值估计的过程。”

    一、点估计
    1.点估计就是用样本统计量来估计总体参数。
    概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,然后用样本统计量的值来估计总体的情况。
    例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计。

    常用的点估计有:用样本均值估计总体均值,用样本方差估计总体方差,用样本的分位数估计总体分位数,用样本的中位数估计总体的中位数。

    2.点估计方法
    矩估计法、顺序统计量法、最大似然法、
    最小二乘法(对于点估计方法,放在另一篇文章中详细介绍)

    3.由于用样本推断总体的过程一定存在估计误差,而点估计的估计误差无法衡量,所以点估计主要用于为定性研究提供数据参考,或者在对于总体参数估计精度要求不高时使用。

    二、区间估计
    1.区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。

    2.关于置信水平(置信度)、置信区间和显著性水平:
    置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
    置信水平用百分数表示,表示成(1-a)100%a指的是显著性水平,表示总体参数不落在置信区间的可能性。

    3.关于置信区间的计算:
    通过部分样本来计算总体参数的一个置信区间有以下步骤:
    a.明确要解决的问题,要估计的指标或参数是什么,
    b.求抽样样本的平均值和标准误差,
    注意区分标准差和标准误差:标准差反映的是整个样本对样本平均数的离散程度,标准差等于方差开根号;标准误差反映的是样本平均数对总体平均数的变异程度,标准误差等于样本标准差除n的开根号。
    c.确定需要的置信水平,
    d.查询z表,得到z值,
    e. 计算置信区间,[a,b],a=样本均值-z标准误差,b=样本均值+z标准误差。

    区间估计分为一个总体参数的估计和两个总体参数的估计

    4.一个总体参数的区间估计:总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;

    4.1总体均值的区间估计:
    均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关;
    Z分布其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布,
    Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30;
    T分布:对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型;
    切比雪夫不等式:对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。
    在这里插入图片描述截图来自《人人都会数据分析:从生活实例学统计》

    4.2 总体方差的区间估计:
    总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。
    卡方统计量的计算公式:
    χ α 2 ( n − 1 ) = ( n − 1 ) s 2 σ z 2 \chi^2_\alpha(n-1)=\frac{(n-1)s ^2}{\sigma ^2_z} χα2(n1)=σz2(n1)s2
    总体方差的双侧置信区间估计公式为:
    ( n − 1 ) s 2 χ α 2 2 ( n − 1 ) ≤ σ z 2 ≤ ( n − 1 ) s 2 χ 1 2 − α 2 ( n − 1 ) \frac{(n-1)s^2}{\chi ^2_\frac{\alpha}{2}(n-1)} \leq \sigma ^2_z \leq \frac{(n-1)s ^2}{\chi ^2_1-\frac{\alpha}{2} (n-1)} χ2α2(n1)(n1)s2σz2χ122α(n1)(n1)s2
    其中带有a/2的为下标;
    如果是单侧置信区间的话,只需要取上面式子的前半部分或者后半部分,并将a/2改成a即可得到单侧置信区间。

    4.3 总体比例的区间估计:
    或者叫总体比率的区间估计,跟二项分布有关,二项分布的理论是:事件发生概率是p,进行n次实验,其中x次实验该事件发生,则发生次数的概率分布服从二项分布;均值、方差为np,npq。
    若将发生的次数转换成比率(x/n),则比率的概率分布也服从二项分布。
    二项分布的特性:当抽取的样本容量n很大,是大 样本,使得np和nq(q为事件不发生的概率,等于1-p)的值都大于 5, 此时二项分布将近似于正态分布。
    由于事件发生比率x/n服从二项分布,所以如果比率的二项分布近似于正态分布,就可以得到不利的区间估计。

    在事件发生概率p已知的情况下,总体比率 p z ˉ \bar{p_z} pzˉ在置信度为1-a时,总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    其中, p y ˉ \bar{p_y} pyˉ为样本比率, p z ˉ \bar{p_z} pzˉ为总体比率,
    当事件发生概率p未知,可用样本中事件发生的概率即样本比率代替。

    5. 两个总体参数的区间估计
    两个总体均值之差的估计,两个总体方差比的区间估计
    两个总体与多个总体参数的区间估计在实际生活中的应用不是很多,更常用的是两个总体和多个总体参数的假设检验。 区间估计虽不常用,但是其与假设检验的应用原理是想通的。

    5.1 两个总体均值之差的区间估计:
    可以将单个总体均值的抽样分布推广到两个总体均值差的抽样分布,然后利用两个总体均值差的抽样分布推导出两个总体均值差的置信区间公式。
    方差齐性/方差不齐:对于配对样本来说其方差可被认为是想等的,即方差齐性。
    在这里插入图片描述
    截图来自《人人都会数据分析:从生活实例学统计》

    独立样本和配对样本:
    独立样本:是指如果从一个总体中选取样本,抽样形式无论怎样改变都不会影响从另一个总体中抽取样本的概率,则这两个随机样本为独立样本;
    配对样本:是指如果从一个总体中抽取样本的行为以某种方式决定了从另一个总体中抽取样本的概率,则这两个样本为成对样本或配对样本。

    均值和方差的特点:
    两个总体合并(相加或相减),那么合并后的总体均值等于原来两个总体的均值之和或均值之差;而合并后的总体方差都等于两个总体方差之和。

    差值抽样分布可以看做单个总体的均值抽样分布,因此可套用“均值抽样分布适用条件表”,将公式修改一下即可:

    截图来自《人人都会数据分析:从生活实例学统计》

    5.2 两个总体方差比的区间估计
    F分布可用于求取两个正态分布总体方差比的置信区间。
    F统计量可被看做是两个卡方统计量的商,F分布也被称为方差比分布。因为卡方分布要求总体服从正态分布,所以F分布也要求F统计量的两个总体都服从正态分布。
    当给定置信水平时,可推出两个正态分布总体方差比的置信区间。

    三、样本量的确定

    1总体均值区间估计的样本量确定
    在总体标准差已知的情况下,如果数据总体服从正态分布,则样本均值的抽样分布适用Z分布,就可以利用总体均值的置信区间公式来计算样本容量,总体均值的置信区间为:
    x ˉ ± Z α 2 σ n \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} xˉ±Z2αn σ x ˉ ± Z α 2 σ n N − n N − 1 \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N-n}{N-1}} xˉ±Z2αn σN1Nn

    则总体均值的区间估计误差为:
    Δ μ = Z α 2 σ n \Delta\mu=Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} Δμ=Z2αn σ
    进而可以求得样本容量的公式:
    n = ( Z α 2 σ Δ μ ) 2 n=(\frac{Z_\frac{\alpha}{2} \sigma}{\Delta\mu})^2 n=(ΔμZ2ασ)2

    以上是总体标准差已知时,当总体标准差未知时,一是可以用样本标准差代替,但是前提条件是样本容量要大于等于30;二是可以用过去试点调查的样本标准差代替;三是,如果知道总体数据中的最大和最小值,可用四分之一的最大与最小值的差值来代替总体标准差。

    2.总体方差区间估计的样本量确定
    总体方差的区间估计适用的抽样分布为卡方分布。卡方统计量为:
    χ 2 = ( n − 1 ) s 2 σ 2 \chi^2=\frac{(n-1)s ^2}{\sigma ^2} χ2=σ2(n1)s2
    由卡方分布的性质可知,当样本量足够大时,卡方分布近似于正态分布。卡方分布的均值为自由度(n-1),卡方分布的方差为两倍的自由度2(n-1),那么在大样本的情况下,总体方差的置信区间为:
    s 2 = ± Z α 2 s 2 2 n s^2=\pm Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} s2=±Z2αs2n2
    则总体方差的估计精度为:
    Δ σ 2 = Z α 2 s 2 2 n \Delta \sigma^2=Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} Δσ2=Z2αs2n2
    由此可得到样本容量公式为:
    n = 2 Z α 2 s 2 Δ σ 2 n=\frac{\sqrt{2} Z_\frac{\alpha}{2} s^2}{\Delta \sigma^2} n=Δσ22 Z2αs2

    3.总体比率区间估计的样本量确定
    在确定总体比率的区间估计时,利用的是二项分布近似于正态分布的性质,即当抽取的样本量n很大时,是大样本,使得np>5且nq>5(p是事件发生的概率,q是事件不发生的概率,q=1-p)时,二项分布近似于正态分布。
    总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    则总体比率的估计误差为:
    Δ p z ˉ = Z α 2 p ( 1 − p ) n \Delta \bar{p_z} =Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} Δpzˉ=Z2αnp(1p)
    由此可得到样本容量为:
    n = Z α 2 2 p ( 1 − p ) Δ p z ˉ 2 n=\frac{Z_\frac{\alpha}{2} ^2 p(1-p)}{\Delta \bar{p_z} ^2} n=Δpzˉ2Z2α2p(1p)

    注:本文主要参考《人人都会数据分析:从生活实例学统计》

    展开全文
  • 参数估计 已经知道观测数据符合某些模型的概率下,我们可以利用参数估计的方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些模型这个事实。在这个事实上进行加工。 ...

    参数估计

    已经知道观测数据符合某些模型的概率下,我们可以利用参数估计的方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些模型这个事实。在这个事实上进行加工。

    (https://www.cnblogs.com/wt869054461/p/5935981.html)

    个人理解:概率密度函数形式已知,求出形式中的参数。

    非参数估计(无参密度估计)

    实际中,概率密度形式往往未知,往往有多个局部最大;对于高纬度样本,一些高纬度的概率密度函数可以用低纬度密函数的乘积表示的假设通常也不成立。所以概率密度函数形式未知,只能用别的方法求概率密度。

    概率密度估计--参数估计与非参数估计

    我们观测世界,得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤

    1. 观测样本的存在

    2. 每个样本之间是独立的

    3. 所有样本符合一个概率模型

    我们最终想要得到的是一个概率密度的模型,有了概率密度模型以后,我们就可以统计预测等非常有用的地方,因此,首要任务是找出一些概率分布的概率密度模型。

    我们来分析一下上面的三个步骤,第一第二都很好解决,关于第三点,我们可以有不同的处理方式

    如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解了,只是需要确定其中的参数而已,这种情况就是属于参数估计问题。

    如果我们研究观测的对象,也很难说这些观测的数据符合什么模型,参数估计的方法就失效了,我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。

    因此,本文主要讨论 参数估计和非参数估计问题

    1. 参数估计

    对我们已经知道观测数据符合某些模型的情况下,我们可以利用参数估计的方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些模型这个事实。在这个事实上进行加工。

    一般来说,参数估计中,最大似然方法是最重要和最常用的,我们重点介绍参数估计方法

    我们在《无基础理解贝叶斯》中已经讲过似然性,那么我们就可以先写出似然函数。

    假设有N个观测数据,并且概率模型是一个一维的高斯模型,用f(x)表示高斯模型,参数待定,因此我们可以写出似然函数

    L(x1,x2,...xn) = f(x1,x2,...xn) = f(x1)*f(x2)*......*f(xn),第二个等式用到了样本之间是独立性这个假设(上面提到的一般步骤的第二条)

    然后把对似然函数取对数

    logL(x1,x2,...xn) = log(f(x1)*f(x2)*......*f(xn)) = log(f(x1)) + log(f(x2))+......+log(f(xn))

    我们既然提到了极大释然方法,那就是要求出使得logL(x1,x2,...xn) 取最大值得参数。

    因此对 logL(x1,x2,...xn) 求导等于0的参数就是符合要求的参数。

    注意,如果似然函数求导有困难,通常我们会用迭代方法去求得这些参数,后面我们讲EM算法就是属于此类型

    2. 贝叶斯方法

    在我们谈到参数估计方法中,我们假定了参数是固定值,但是贝叶斯观点会人文,模型的参数值不是固定的,也是属于某种分布的状态。

    因此我们做参数估计的时候其实是不准确的,因此贝叶斯方法会把参数的也作为一个概率考虑进来,然后再去观测。

    我个人理解,这种方式也只能算是参数估计里面的一个变种而已

    后验概率 ∝ 似然性 * 先验概率

    先验概率,我们可以看成是待估计模型的参数的概率分布,后验模型是在我们观测到新的数据以后,结合先验概率再得出的修正的参数的分布

    注意,如果似然函数的形式和先验概率的乘积有同样的分布形式的话,得到的后验分布也会有同样的分布模型

    因此,人为的规定,如果先验概率与似然函数的乘积在归一化以后,与先验分布的形式上是一致的话,似然函数与先验概率就是共轭的,注意共轭不是指先验与后验的共轭

    至于满足这个条件的共轭分布有很多种,二项分布与贝塔分布,多项式分布于狄利克雷分布等

    后面有时间再更新一些贝叶斯方法相关的内容

    3. 非参数估计

    看过了参数估计后,我们知道,如果有模型的知识可以利用的话,问题就会变得很简单,但是如果没有关于模型的知识,我们怎么办?

    回过头来看我们的目标,求出观测数据的概率密度模型。因此我们就会从概率密度这个定义开始分析,看有没有可以入手的地方。

    概率密度,直观的理解就是在某一个区间内,事件发生的次数的多少的问题,比如N(0,1)高斯分布,就是取值在0的很小的区间的概率很高,至少比其他等宽的小区间要高。

    我们把所有可能取值的范围分成间隔相等的区间,然后看每个区间内有多少个数据?这样我们就定义出了直方图,因此直方图就是概率密度估计的最原始的模型。

    直方图我们用的是矩形来表示纵轴,当样本在某个小区间被观测到,纵轴就加上一个小矩形。

    这样用矩形代表的模型非常粗糙,因此可以用其他的形状来表示,进一步就是核密度估计方法,这个后面会有一个翻译文章来具体讲解

    基本上,参数估计和非参数估计是概率模型里面用的非常多的基本概念,希望自己在后面忘记的时候还能想起来曾经写过的东西

    展开全文
  • 数理统计:参数估计

    2020-12-29 22:57:30
    learning why, thinking what, then forgetting how. 随着时间的流逝,知识总会被遗忘和...统计推断主要分为参数估计和假设检验,参数估计又分为点估计和区间估计。 2.1 参数的点估计 首先提出参数和参数的估计量的.

    learning why, thinking what, then forgetting how.

    随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分

    教材为:《数理统计(孙海燕等)》


    第二章 参数估计

    在解决实际问题中,当确定了总体的分布族后,我们要从样本来推断总体的具体分布或感兴趣的总体特征数。例如,总体的数学期望方差等。统计推断主要分为参数估计假设检验,参数估计又分为点估计区间估计


    2.1 参数的点估计

    首先提出参数参数的估计量的概念。

    • 参数:任何与总体有关的待估计量都看成参数。它可以是决定总体分布的参数θ本身,也可以是θ的实函数。不局限于参数统计范围,总体数学期望和方差等特征数也看成参数。
    • 参数的估计量:用于估计参数或其实函数的实值统计量。其值称为估计值。

    参数估计的实质:构造合适的统计量,作为参数的实函数的估计

    常见的参数估计方法:

    • 替换原理法:
      1. 频率替换法
      2. 矩估计法
    • 极大似然估计法
    • EM 算法

    2.1.1 频率替换估计

    1. 根据样本已知的频率确定一个使用的概率
    2. 将概率表示成待估计量的函数。
    3. 将待估计量反解成概率的函数。
    4. 使用已知样本频率替换总体概率。

    频率替换法所获得的估计可能不是唯一的。需要评估那个较优。

    2.1.2 矩估计

    大数定律可知,若总体矩存在,则样本矩依概率几乎必然收敛于相应的总体矩。只要总体矩存在,就可以用相应的样本矩作为总体矩的合理估计

    1. 使用待求的参数的函数表示总体原点矩总体中心矩
    2. 将待求的参数反解为总体原点矩或总体中心距的函数。
    3. 使用已知的样本原点矩或样本中心距替换总体原点矩或总体中心距。

    无论总体服从何种分布,只要总体的二阶矩存在,则样本平均值和二阶中心距就分别是总体均值和方差的矩估计

    只有总体矩存在,且总体原点绝对矩存在的阶数大于待估计参数的维数时,才能使用矩估计法来求参数的估计。

    根据不同总体矩的选择,矩估计有不唯一性,尽量选择低阶矩来估计参数。

    因为样本矩与总体分布的具体表达式无关,因此当总体的分布形式已知时,矩估计法并没有充分利用总体分布形式所提供的有关参数的信息。建立在已知总体分布形式上的估计方法就是极大似然估计法

    2.1.3 极大似然估计

    极大似然估计的直观思想:若在一次试验中,某个试验结果发生,则一般认为试验条件对这个结果的发生有利,也就是说这个结果发生的机会最大

    极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的。

    1. 写出联合概率分布函数作为似然函数
    2. 对似然函数取对数,并整理;
    3. 求导数,令导数为 0,得到似然方程
    4. 解似然方程,得到的参数即为参数的极大似然估计

    若考虑的参数空间不同,则极大似然估计的值会有所不同。求极大似然估计时一定要顾及参数所属的范围

    如果似然函数的偏导数不存在,或者似然方程组不存在,就只能根据原始定义采用别的方法求极大似然估计。例如穷举法求极大似然估计。

    由因子分解定理得,极大似然估计值一定是充分统计量的函数,这是极大似然估计的优点。而矩估计则不具有这样的性质。

    扩展:EM 算法(Expectation-Maximization)

    求解似然方程组可以获得极大似然估计的显式解,但是在实际中常常会遇到似然方程组难以求解的情况,此时可以求似然估计的近似解数值解。常用的求解方法有(1)Newton 法;(2)Fisher 法;(3)EM 算法等。

    前提:EM 算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用 EM 算法的。

    问题描述:有些问题中的参数分为隐含参数模型参数,且参数之间相互依赖,单个参数易求得,而直接求出所有参数十分困难。因此可以采用迭代的方法,随机初始化一个参数,之后每次迭代求出一个参数,最终会收敛到一个解。

    算法流程

    1. 随机初始化模型参数的初始值
    2. 迭代:
      • E 步:计算隐含参数的条件概率期望
      • M 步:计算模型参数的极大似然解
    3. 迭代 E-M 步骤直到算法收敛

    算法理解:EM 算法可以理解为坐标上升法,类似梯度下降法。梯度下降法的目的是最小化代价函数,坐标上升法的目的是最优化似然函数。如下图所示,为迭代优化的路径,因为优化的函数不能直接求导,因此无法直接使用梯度下降法(或许两部的梯度下降法会有效),E-M 算法每次固定一个变量对另外的变量求极值,逐步逼近极值。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAiY6g0v-1609253314429)(./img_statistics/em.jpg)]

    算法分析:E-M 算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法。当然,如果我们的优化目标是凸的,则 E-M 算法可以保证收敛到全局极大值,这点和梯度下降法这样的迭代算法相同。

    更详细的步骤参见EM 算法详解:人人都懂 EM 算法


    2.2 估计量的评优准则

    对同一参数用不同估计方法可能得到不同的估计,即使使用相同的估计方法也可能得到不同的估计,甚至任何统计量都可以作为参数的估计。需要讨论估计量的优良性,以下主要讨论均方误差准则无偏性准则,以及满足最小均方误差和无偏的一致最小方差无偏估计

    2.2.1 均方误差准则

    评估估计好坏的一个直观标准就是绝对误差 ∣ T ( x ) − q ( θ ) ∣ | T(x) - q(θ)| T(x)q(θ。使用数学期望消除随机因素产生的影响,使用平方以获得良好的数学性质,使用均方误差(MSE)作为评估估计好坏的标准:

    M S E θ ( T ( X ) ) = E θ [ T ( x ) − q ( θ ) ] 2 = V a r θ ( T ( X ) ) + ( E θ [ T ( x ) − q ( θ ) ] ) 2 MSE_θ( T(X) ) = E_θ [ T(x) - q(θ) ]^2 = Var_θ( T(X) ) + (E_θ [ T(x) - q(θ) ])^2 MSEθ(T(X))=Eθ[T(x)q(θ)]2=Varθ(T(X))+(Eθ[T(x)q(θ)])2

    均方误差等于方差加偏差

    总体方差的两个估计量:样本方差和样本二阶中心距。样本方差无偏,但是均方误差较大;样本二阶中心距均方误差较小,但是有偏。

    对于待估计参数,均方误差最小的估计是不存在的,因为均方误差最小总是无限趋向于完全准确估计。即所考虑的估计类的范围太大了,因此可以提出额外的合理要求,在缩小的估计类范围内寻求最优估计。最常见的合理要求就是无偏性准则

    2.2.2 无偏估计

    无偏估计即偏差为零,其均方误差等于方差

    E θ [ T ( x ) ] = q ( θ ) E_θ [ T(x) ] = q(θ) Eθ[T(x)]=q(θ)

    E θ ( T ( X ) ) = V a r θ ( T ( X ) ) E_θ( T(X) ) = Var_θ( T(X) ) Eθ(T(X))=Varθ(T(X))

    无偏估计的性质

    1. 无偏估计要求对于所有的参数 θ,估计都是无偏的。
    2. 无偏估计可能不存在
    3. 若无偏估计存在,则一般是不唯一的。
    4. 在均方误差准则下,无偏估计不一定是好的估计。无偏但是方差很大
    5. 函数变换下,无偏性可能消失。

    2.2.3 一致最小方差无偏估计

    一致最小方差无偏估计(UMVUE):在无偏估计中,方差最小的估计。

    建立在充分统计量基础上,寻找一致最小方差无偏估计的方法:利用无偏估计量对充分统计量取条件期望,可以降低无偏估计量的方差

    提出完全统计量的概念, E θ ( g ( T ) ) = 0 E_θ(g(T)) = 0 Eθ(g(T))=0,则 T 为完全统计量。

    完全充分统计量

    p ( x 1 , x 2 , … … , x n ; θ ) = c ( θ ) h ( x 1 , x 2 , … … , x n ) e x p { ∑ k = 1 m w k ( θ ) T k ( x 1 , x 2 , … … , x n ) ) } p(x_1, x_2, ……, x_n; θ) = c(θ)h(x_1, x_2, ……, x_n) exp\{ \sum^m_{k=1} w_k(θ)T_k(x_1, x_2, ……, x_n)) \} p(x1,x2,,xn;θ)=c(θ)h(x1,x2,,xn)exp{k=1mwk(θ)Tk(x1,x2,,xn))}

    如果 w(θ) 值域包含内点,则统计量 T 是完全充分的。

    Lehmann-Scheffe 定理提供了两种寻求可估函数 q(θ) 的一致最小方差无偏估计 T(x) 的方法,前提条件是必须知道完全充分统计量 S(x):

    1. q(θ) 的无偏估计 φ(x) 关于 S(x) 的条件数学期望 T ( x ) = E θ ( φ ( x ) ∣ S ( x ) ) T(x) = E_θ(φ(x) | S(x)) T(x)=Eθ(φ(x)S(x)),即为一致最小方差无偏估计。
    2. 使用 S(x) 的函数 h(S(x)) 将完全充分统计量无偏化,就可以得到一致最小方差无偏估计。

    实际的求解一致最小方差无偏估计的方法:

    1. 求解完全充分统计量,分解后w(θ) 值域包含内点
    2. 求解完全充分统计量是否无偏
    3. 构造函数使其无偏化

    2.3 信息不等式

    无偏估计方差的下界是多少?一致最小方差无偏估计的方差是否可以达到方差的下界?提出Fisher 信息量信息不等式

    Fisher 信息量为

    I ( θ ) = ( E θ [ ∂ ∂ θ l n p ( x ; θ ) ] ) 2 = − E θ [ ∂ 2 ∂ θ 2 l n p ( x ; θ ) ] I(θ) = (E_θ[\frac {\partial} {\partial θ} lnp(x;θ)])^2 = - E_θ[\frac {\partial^2} {\partial θ^2} lnp(x;θ)] I(θ)=(Eθ[θlnp(x;θ)])2=Eθ[θ22lnp(x;θ)]

    n I ( θ ) = I n ( θ ) nI(θ) = I_n(θ) nI(θ)=In(θ),而信息不等式给出了方差的下界

    V a r θ ( q ^ ) ≥ [ q ′ ( θ ) ] 2 n I ( θ ) Var_θ(\hat q) ≥ \frac {[q^{'}(θ)]^2} {nI(θ)} Varθ(q^)nI(θ)[q(θ)]2

    若信息不等式取到等号,则达到了方差的下界,为有效估计,否则可以计算有效率 [ q ′ ( θ ) ] 2 n I ( θ ) / V a r θ ( q ^ ) \frac {[q^{'}(θ)]^2} {nI(θ)} / Var_θ(\hat q) nI(θ)[q(θ)]2/Varθ(q^)

    一致最小方差无偏估计不一定是有效的,但是有效估计一定是一致最小方差无偏估计


    考试题型

    1. 均方误差
    2. 频率替换估计
    3. 矩估计
    4. 极大似然估计
    5. 一致最小方差无偏估计
    6. 凑无偏估计
    7. Fisher 信息量
    8. 判断一致最小方差无偏估计是否有效

    历年考题

    2019

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2016

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2015

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2014

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 推断统计:参数估计和假设检验

    千次阅读 多人点赞 2020-03-03 00:35:24
    目录 ...  3、参数估计(点估计和区间估计)    1)参数估计、点估计和区间统计的概念    2)点估计说明    3)区间估计说明   4、中心极限定理    1)中心极限定理的概念    2...

    目录

      1、总体、个体、样本和样本容量
       1)总体、个体、样本和样本容量的概念
       2)本文章使用的相关python库
      2、推断统计的概念
       1)推断统计的概念
       2)为什么要进行推断统计?
      3、参数估计(点估计和区间估计)
       1)参数估计、点估计和区间统计的概念
       2)点估计说明
       3)区间估计说明
      4、中心极限定理
       1)中心极限定理的概念
       2)中心极限定理的推导(手写推导)
       3)由中心极限定理得出的几个结论
       4)python实现中心极限定理
      5、参数估计中置信区间的推导
       1)什么是小概率事件?
       2)随机变量的分布的概念
       3)标准正态分布的概率密度函数和和分布函数
       4)随机变量的α分位数的概念
       5)标准正态的分位数表怎么得到的呢?
       6)区间估计的定义
       7)置信水平1-α的解释
       8)枢轴法求置信区间的步骤(手写推导)
      6、假设检验
       1)假设检验的概念
       2)假设检验的理论依据
       3)P-Value值与显著性水平
       4)假设检验的步骤
       5)单边检验和双边检验
       6)常用的假设检验

    1、总体、个体、样本和样本容量

    1)总体、个体、样本和样本容量的概念
    • 总体:我们所要研究的问题的所有数据,称为总体。
    • 个体:总体中的某个数据,就是个体。总体是所有个体构成的集合。
    • 样本:从总体中抽取的部分个体,就构成了一个样本。样本是总体的一个子集。
    • 样本容量:样本中包含的个体数量,称为样本容量。
    2)本文章使用的相关python库
    import numpy as np
    import pandas as pd
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    import seaborn as sns
    import warnings
    from sklearn.datasets import load_iris
    from scipy import stats
    
    sns.set(style="darkgrid")
    mpl.rcParams["font.family"] = "SimHei"
    mpl.rcParams["axes.unicode_minus"] = False
    warnings.filterwarnings("ignore")
    

    2、推断统计的概念

    1)推断统计的概念

      “推断统计”研究的是用样本数据去推断总体数量特征的一种方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。

    2)为什么要进行推断统计?

      在实际研究中,总体数据的获取往往是比较困难的,总体参数一般也是未知的。因此,我们就需要利用总体的某个样本,通过样本统计量去估计总体参数。基于这个需求,我们就需要学习推断统计。
      通过上述叙述,我们给推断统计做一个说明。“推断统计”就是利用样本统计量,去推断总体参数的一种方法。
      

    3、参数估计(点估计和区间估计)

    1)参数估计、点估计和区间统计的概念
    • 参数估计:用样本统计量去估计总体的参数。比如,用样本均值去估计总体均值,用样本方差去估计总体方差。
    • 点估计:用样本统计量的某个取值,直接作为总体参数的估计值。
    • 区间估计:在点估计的基础之上,给出总体参数估计值的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    2)点估计说明
    ① 怎么求鸢尾花的平均花瓣长度?

      事实上,世界上鸢尾花千千万,我们总不能说把所有的鸢尾花的数据信息,都统计出来。因此,这就需要我们用样本均值去估计总体均值。

    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    # 计算鸢尾花花瓣长度的均值
    df["petal length (cm)"].mean()
    

    结果如下:
    在这里插入图片描述
    结果分析:点估计有点简单粗暴,容易受到随机抽样的影响,很难保证结果的准确性。但是,点估计也不是一无是处,样本值是来自总体的一个抽样,在一定程度上还是可以反映出总体的一部分特征。同时,样本容量越接近总体容量,点估计值也会越准确。
      

    3)区间估计说明
    ① 什么是区间估计?

      当你碰到一个陌生人,我让你判断出这个人的年龄是多少?这里有两种方式完成你的推断。第一,这个人25岁。第二,这个人20-25岁之间。哪种结果更让你信服呢?很明显第二种更让人信服。对于第一种说法,相当于上述的点估计。第二种,相当于区间估计,就是给定一个区间,这个区间包含真值。
      统计学中对区间估计的定义:在点估计的基础之上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。

    ② 问题:获取一个抽样样本后,如何确定置信区间和置信度?

    要确定置信区间和置信度,就需要知道样本和总体,在分布上有怎样的联系。中心极限定理给出了这个问题很好的回答。上述疑问将在下面为您一一揭晓。
      

    4、中心极限定理

    1)中心极限定理的概念

      设从均值为μ,方差为σ²的任意一个总体中,抽取样本量为n的样本。当n充分大的时候,样本均值X拔近似服从均值为μ,方差为σ²/n的正态分布。
    在这里插入图片描述
    注意:中心极限定理要求n充分大,但是多大才叫充分大呢?一般在统计学中n>=30称之为大样本(统计学中的一种经验说法)。因此在实际生产中,不用多想,肯定都是大样本。

    2)中心极限定理的推导(手写推导)

      设X1,X1,…,Xn是从总体中抽取出来的样本容量为n的随机样本,假设总体均值为μ,方差为σ²。那么很显然这n个样本是独立同分布的,“独立”指的就是每个个体被抽到的概率是相同的,每个球被抽到也不会影响其它球被抽到,“同分布”指的是每一个个体都和总体分布一样,均值为μ,方差为σ²。
      基于上述叙述,下面我们来推导样本均值X拔的分布。
    在这里插入图片描述

    3)由中心极限定理得出的几个结论
    • 不管进行多少次抽样,每次抽样都会得到一个均值。当每次抽取的样本容量n足够大时,样本均值总会围绕总体均值附近,呈现正态分布。
    • 当样本容量n足够大时,样本均值构成正态分布,样本均值近似等于总体均值μ,而样本方差等于总体方差σ²除以n,即σ²/n。
    • 样本均值分布的标准差,我们称之为标准误差,简称“标准误”。
    4)python实现中心极限定理
    # 设置一个随机种子,保证每次产生的随机数都是一定的
    np.random.seed(3)
    # 产生均值为50,标准差为80,大小为100000的一个总体
    all_ = np.random.normal(loc=50,scale=80,size=100000)
    # 创建一个样本均值数组
    mean_array = np.zeros(10000)
    for i in range(len(mean_array)):
        mean_array[i] = np.random.choice(all_,size=64,replace=True).mean()
    
    display("样本的均值:",mean_array.mean())
    display("样本的标准差:",mean_array.std())
    display("偏度:",pd.Series(mean_array).skew())
    sns.distplot(mean_array)
    

    结果如下:
    在这里插入图片描述
    从图中可以看出:样本均值近似等于总体均值50,而样本方差等于总体方差80除以8,即10。

    5、参数估计中置信区间的推导

      我们要知道什么是α值,什么是置信度,什么是置信区间,以及怎么求置信区间。首先要了解以下几方面的知识,才能有一个比较透彻的了解。

    • 1)什么是小概率事件?
    • 2)随机变量的分布的概念。
    • 3)标准正态分布的概率密度函数和和分布函数
    • 4)随机变量的α分位数的概念。
    • 5)标准正态的分位数表怎么得到的呢?
    • 6)区间估计的概念。
    • 7)置信水平1-α的解释
    • 8)枢轴法求置信区间的步骤。
    1)什么是小概率事件?
    • “小概率事件”指的就是在一次随机试验中,几乎不可能发生。
    • 假定参数是射击靶上10环的位置,随机进行一次射击,打在靶心10环的位置上的可能性很小,但是打中靶子的可能性确很大。然后用打在靶上的这个点画出一个区间,这个区间包含靶心的可能性就很大,这就是区间估计的基本思想。
    2)随机变量的分布的概念

    在这里插入图片描述

    3)标准正态分布的概率密度函数和和分布函数

    在这里插入图片描述

    4)随机变量的α分位数的概念

    在这里插入图片描述

    5)标准正态的分位数表怎么得到的呢?
    ① 标准正态分位数表的公式推导

    在这里插入图片描述
    注意:红色方框中的公式,就是标准正态分布分位数表的由来。

    ② 标准正态分布分位数表

    在这里插入图片描述

    6)区间估计的定义

    在这里插入图片描述

    7)置信水平1-α的解释

      对总体样本进行反复抽样(每次抽取到的样本容量都为n),那么每个样本均值都会确定一个区间(a,b),每个这样的区间要么包含总体参数,要么不包含总体参数,不能说成“以多大的概率包含总体的参数”。其中包含总体参数的区间有1-α个,而只有α个区间不包含总体参数,如下图所示(红色表示该样本构成的区间估计不包含总体参数,白色表示该样本构成的区间估计包含总体参数)。
      用一个详细的案例说明:如果对总体返回抽样10000次,每次抽样的样本量都是n,每个样本都会得到一个区间估计,那么10000次抽样,就会得到10000个区间。当置信水平1-α=95%时,那么就表示10000个区间中包含总体参数的有9500个抽样样本,只有500个样本不包含总体参数,这个不包含总体参数的样本就相当于我们估计错误。这个概率只有5%。这个5%在统计学中,就叫做小概率事件,也就是说在一次随机试验中,这个小概率事件不可能发生。
      即:当我们随机抽取一个样本容量为n的抽样样本,并且利用这个样本构造总体参数的置信区间,当指定了置信水平1-α=95%时,那么这个样本,基本就可以认为是包含了总体参数,也就是说,总体参数就在这个置信区间内。
    在这里插入图片描述

    8)枢轴法求置信区间的步骤(手写推导)
    ① 什么是枢轴量?
    • 枢轴量指的就是包含待估计参数,而不包含其它未知参数,并且分布已知的一个量。
    • 枢轴量设计到三个重要点:1、包含估计参数。2、不包含其它未知参数。3、该枢轴量的分布已知。
    ②以总体μ的置信区间为例(方差σ²已知),讲述枢轴量求置信区间的步骤。

    在这里插入图片描述

    6、假设检验

    1)假设检验的概念

      假设检验,也称为显著性检验,指通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。我们事先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。
      在假设检验中,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1。然后根据样本信息进行分析判断,是选择接受原假设,还是拒绝原假设(接受备择假设)。假设检验基于“反证法”。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时我们选择去接受原假设。

    2)假设检验的理论依据(小概率事件)

      在假设检验中,违反逻辑与常规的结论,就是小概奉事件。我们认为,小概率事件在一次试验中是不会发生的。我们首先认为原假设为真,如果在此基础上,小概率事件发生,则我们就拒绝原假设,否则,我们就选择去接受原假设。
      假设检验遵循“疑罪从无”的原则,接受原假设,并不代表原假设一定是正确的,只是我们没有充分的证据,去证明原假设是错误的,因此只能维持原假设。那么,假设检验中的小概率事件是怎么得出的呢?想想之前讲到的置信区间,是不是一切都验然开朗了?
      “疑罪从无”很形象的说明的假设检验向我们传达的含义。也就是说,当我们没有充分的理由拒绝原假设,就必须接受原假设,即使原假设是错误的,但是你找不到证据证明原假设是错误的,你就只能认为原假设是对的。反之,经过一次随机试验,你如果找到了某个理由拒绝了原假设,那么原假设肯定就是错误的,这个是一定的。

    3)P-Value值与显著性水平

      假设检验,用来检验样本的统计量与总体参数,是否存在显著性差异。那么如何才算显著呢?我们就可以计算一个概率值(P-Value),该概率值可以认为就是支持原假设的概率,因为在假设检验中,通常原假设为等值假设,因此,P-Value也就表示样本统计量与总体参数无差异的概率。然后,我们再设定一个阈值,这个阈值叫做“显著性水平 ” (使用α表示),通常α的取值为0.05(1-α叫做置信度)。当P-Value的值大于α时,接受原假设。当P-Value的值小于α时,拒绝原假设。简单记为:p值越小越拒绝原假设。软件中一般都会展示这个p值,那里的p值,指的就是我们这里所叙述的p值。
      假设检验和参数估计是推断统计的两个组成部分,都是利用样本对总体进行某种推断,但是两者进行推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的一种方法,总体参数在估计前是未知的。而假设检验,则是对总体参数先提出一个假设,然后用样本信息去检验这个假设是否成立。

    4)假设检验的步骤
    • ① 根据实际问题的要求,提出原假设和备择假设。
    • ② 给出显著性水平α以及样本容量n。
    • ③ 确定检验统计量和拒绝域。
    • ④ 计算出检验统计量的值,并作出决策。
    5)单边检验和双边检验

    在这里插入图片描述

    6)常用的假设检验
    ① 单个正态总体均值的假设检验法(Z检验:方差已知)

      Z检验用来判断样本均值是否与总体均值具有显著性差异。Z检验是通过正态分布的理论来推断差异发生的概率,从而比较两个均值的差异是否显著。Z检验适用于:

    • 总体呈正态分布。
    • 总体方差已知。
    • 样本容量较大。
      在这里插入图片描述
    ② 案例如下

    在这里插入图片描述

    ③ 有个人说:鸢尾花的平均花瓣长度为3.5cm,这种说法可靠吗?假设经过长期大量验证,鸢尾花花瓣长度总体的标准差为1.8cm,我们就可以使用Z检验来验证了。
    from scipy import stats
    
    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    
    mean = df["petal length (cm)"].mean()
    n = len(df)
    sigma = 1.8
    
    z = (mean - 3.5) / (sigma / np.sqrt(n))
    display(z)
    

    结果如下:
    在这里插入图片描述

    ④ 单个正态总体均值的假设检验法(t检验:方差未知)

      t检验,与Z检验类似,用来判断样本均值是否与总体均值具有显替性差异。不过,t检验是基于t分布的。检验适用于:

    • 总体呈正态分布。
    • 总体方差未知。
    • 样本容量较小。
      在这里插入图片描述
    ⑤ 案例说明

    在这里插入图片描述

    ⑥ 代码演示
    # 方法一
    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    
    mean = df["petal length (cm)"].mean()
    std = df["petal length (cm)"].std()
    n = len(df)
    display(mean,std)
    t = (mean - 3.5) / (std / np.sqrt(n))
    display(t)
    
    # 方法二
    from scipy import stats
    stats.ttest_1samp(df["petal length (cm)"],3.5)
    

    结果如下:
    在这里插入图片描述

    展开全文
  • 参数估计与假设检验的通俗理解

    千次阅读 2020-05-19 22:58:09
    文章目录参数估计假设检验 参数估计 For 高手: 参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造...
  • 最大似然参数估计的基本原理 前导知识:【概率密度函数估计的引入】 在最大似然估计中,我们做以下基本假设: 我们把要估计的参数记作θ\thetaθ,它是确定但未知的量(多个参数时向量)。 每类的样本集记作Xi,i=1,...
  • 参数估计

    千次阅读 2017-10-01 10:30:32
    关于参数估计 在很多的机器学习或数据挖掘的问题中,我们所面对的只有数据,但数据中潜在的概率密度函数是不知道的,其概率密度分布需要我们从数据中估计出来。想要确定数据对应的概率密度分布,就需要确定两个...
  • 机器学习中的模型参数估计方法:极大似然估计、贝叶斯估计、最大后验估计。
  • 是最重要和最常用的,我们重点介绍参数估计方法 我们在《无基础理解贝叶斯》中已经讲过似然性,那么我们就可以先写出似然函数。   假设有N个观测数据,并且概率模型是一个一维的高斯模型,用f(x)表示高斯模型,参数...
  • 我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估...
  • 参数估计与非参数估计

    万次阅读 2015-05-06 11:38:58
    参数估计(parameter estimation): 根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或...
  • 参数估计与假设检验的区别和联系

    万次阅读 2019-05-11 18:09:08
    参数估计与假设检验的区别和联系 统计学方法包括统计描述和统计推断两种方法,其中,推断统计又包括参数估计和假设检验。 参数估计 参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计和区间估计...
  • 1、概率密度函数 在分类器设计过程中(尤其是贝叶斯分类器),需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面。但是,在实际应用中,类条件...这种估计方法,通常称之为
  • 参数估计 1、什么是参数估计 简单来说是:参数估计是指使用样本统计量估计总体的参数的 【百度百科的解释如下】 参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中...
  • 参数估计和最大似然估计

    千次阅读 2018-05-12 19:37:52
    设总体XXX的分布函数的形式已知,但它的一个或多个参数未知,借助于总体XXX的一个样本来估计总体未知参数的值得问题称为参数的点估计问题。 举例: 某炸药厂,一天中发生着火现象的次数XXX是一个随机变量,...
  • AR模型参数估计

    千次阅读 2020-06-21 22:24:55
    在对语音信号进行编码时,往往通过分析不同种类语音信号的特点及产生,用数学模型表示信源,而编码器根据输入信号计算模型参数,然后对模型参数进行编码,也就是说,只需要对编码后的参数进行传送(而不需要传送语音...
  • 参数估计 参数估计 :用样本统计量去估计总体的参数。 估计量 :用来估计总体参数的统计量。 如样本均值,样本比例, 样本方差等 例如: 样本均值就是总体均值 μ \mu μ 的一个估计量 参数用 θ \theta θ ...
  • 几种常见的参数估计

    千次阅读 2015-04-29 09:29:15
    参数估计有点估计(point estimation)和区间估计(interval estimation)两种。 点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点...
  • 参数估计和假设检验

    2019-10-22 11:00:53
    统计学方法包括统计描述和统计推断两种方法,其中,推断统计又包括参数估计和假设检验。 1.参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计和区间估计两种。 点估计就是直接以样本统计量直接...
  • 参数估计:核密度估计KDE

    万次阅读 多人点赞 2016-12-14 11:38:46
    http://blog.csdn.net/pipisorry/article/details/53635895核密度估计...解决这一问题的方法包括参数估计和非参数估计参数估计参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布
  • 参数估计之点估计和区间估计

    千次阅读 2020-02-07 15:00:29
    参数估计(parameter estimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字...
  • 来源:首席数据科学家今天分享一下关于参数估计的基本概念。尤其是极大似然估计,有着重要的应用。01—参数估计的定义首先,什么是参数估计呢?之前我们其实已经了解到很多种分布类型了,比如正态分布...
  • 给定模型与参数,我们就能对样本空间进行描述。大家很自然地会问,这个描述是不是最... 常用参数估计方法有:最小二乘估计,最大似然估计和最大后验估计,其中最小二乘估计用于函数模型的参数估计,最大似然估计和...
  • 模型参数估计-->假设检验 类别 名称 核心函数 求解目标 点估计 最小二乘法 模型参数的误差平方和函数 求偏导数,使误差平方和最小 点估计 最大似然法 似然函数→平均对数似然函数 ...
  • 参数估计问题 中,假定总体分 布形式已知,未 知的仅仅是一个 或几个参数. 参数估计问题的一般提法 设有一个统计总体 , 总体的分布函数为,其中为未知参数 (可以是向量) 。现从该总体抽样,得样本要依据该样本对...
  • 根据以上分析可见,虽然 Andrew NG 和 李航 分别定义了不同形式的逻辑斯谛回归模型,并且采用了不同的思路进行进行参数估计,但是最终二者的目标函数却完全等价。导致这个结果的根本原因在于二者都采用了极大似然...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 49,044
精华内容 19,617
关键字:

参数估计的常用形式