精华内容
下载资源
问答
  • 常用的点估计有
    万次阅读
    2022-02-19 17:00:28

    分类目录:《机器学习中的数学》总目录
    相关文章:
    · 点估计(一):基础知识
    · 点估计(二):矩估计
    · 点估计(三):极大似然估计/最大似然估计(Maximum Likelihood Estimate,MLE)
    · 点估计(四):最大后验估计(Maximum Posteriori Probability,MAP)


    前面的文章我们已经讨论了频率派统计方法和基于估计单一值 θ \theta θ的方法,然后基于该估计作所有的预测。另一种方法是在做预测时会考虑所有可能的 θ \theta θ。后者属于贝叶斯统计的范畴。频率派的视角是真实参数 θ \theta θ是未知的定值,而点估计 θ ^ \hat{\theta} θ^是考虑数据集上函数(可以看作随机的)的随机变量。

    贝叶斯统计的视角完全不同。贝叶斯统计用概率反映知识状态的确定性程度。数据集能够被直接观测到,因此不是随机的。另一方面,真实参数 θ \theta θ是未知或不确定的,因此可以表示成随机变量。

    在观察到数据前,我们将 θ \theta θ的已知知识表示成先验概率分布 p ( θ ) p(\theta) p(θ)。一般而言,机器学习实践者会选择一个相当宽泛的(即高熵的)先验分布,以反映在观测到任何数据前参数 θ \theta θ的高度不确定性。例如,我们可能会假设先验 θ \theta θ在有限区间中均匀分布。许多先验偏好于“更简单”的解。

    现在假设我们有一组数据样本 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,通过贝叶斯规则结合数据似然 p ( x 1 , x 2 , … , x n ∣ θ p(x_1, x_2, \dots, x_n|\theta p(x1,x2,,xnθ和先验,可以恢复数据对我们关于 θ \theta θ信念的影响:
    p ( x 1 , x 2 , … , x n ∣ θ ) = p ( x 1 , x 2 , … , x n ∣ θ ) p ( θ ) p ( x 1 , x 2 , … , x n ) p(x_1, x_2, \dots, x_n|\theta)=\frac{p(x_1, x_2, \dots, x_n|\theta)p(\theta)}{p(x_1, x_2, \dots, x_n)} p(x1,x2,,xnθ)=p(x1,x2,,xn)p(x1,x2,,xnθ)p(θ)

    在贝叶斯估计常用的情景下,先验开始是相对均匀的分布或高熵的高斯分布,观测数据通常会使后验的熵下降,并集中在参数的几个可能性很高的值。相对于最大似然估计,贝叶斯估计有两个重要区别:

    • 不像最大似然方法预测时使用 θ \theta θ的点估计,贝叶斯方法使用 θ \theta θ的全分布。例如,在观测到 n n n个样本后,下一个数据样本 x n + 1 x_{n+1} xn+1的预测分布如下: p ( x n + 1 ∣ x 1 , x 2 , … , x n ) = ∫ p ( x n + 1 ∣ θ ) p ( θ ∣ x 1 , x 2 , … , x n ) d θ p(x_{n+1}|x_1, x_2, \dots, x_n)=\int p(x_{n+1}|\theta)p(\theta|x_1, x_2, \dots, x_n)\text{d}\theta p(xn+1x1,x2,,xn)=p(xn+1θ)p(θx1,x2,,xn)dθ每个具有正概率密度的 θ \theta θ的值有助于下一个样本的预测,其中贡献由后验密度本身加权。在观测到数据集 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn之后,如果我们仍然非常不确定 θ \theta θ的值,那么这个不确定性会直接包含在我们所做的任何预测中。在前面的文章中,我们已经探讨频率派方法解决给定点估计 θ \theta θ的不确定性的方法是评估方差,估计的方差评估了观测数据重新从观测数据中采样后,估计可能如何变化。对于如何处理估计不确定性的这个问题,贝叶斯派的答案是积分,这往往会防止过拟合。当然,积分仅仅是概率法则的应用,使贝叶斯方法容易验证,而频率派机器学习基于相当特别的决定构建了一个估计,将数据集里的所有信息归纳到一个单独的点估计。
    • 先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。实践中,先验通常表现为偏好更简单或更光滑的模型。对贝叶斯方法的批判认为,先验是人为主观判断影响预测的来源。

    当训练数据很有限时,贝叶斯方法通常泛化得更好,但是当训练样本数目很大时,通常会有很大的计算代价。

    原则上,我们应该使用参数 θ \theta θ的完整贝叶斯后验分布进行预测,但单点估计常常也是需要的。希望使用点估计的一个常见原因是,对于大多数有意义的模型而言,大多数涉及贝叶斯后验的计算是非常棘手的,点估计提供了一个可行的近似解。我们仍然可以让先验影响点估计的选择来利用贝叶斯方法的优点,而不是简单地回到极大似然估计。一种能够做到这一点的合理方式是选择最大后验点估计。最大后验估计选择后验概率最大的点:
    θ M A P = arg ⁡ max ⁡ θ log ⁡ p ( θ ∣ x ) = arg ⁡ max ⁡ θ log ⁡ p ( x ∣ θ ) p ( θ ) \theta_{MAP}=\arg\max_{\theta}\log p(\theta|x)=\arg\max_{\theta}\log \frac{p(x|\theta)}{p(\theta)} θMAP=argθmaxlogp(θx)=argθmaxlogp(θ)p(xθ)

    右边的 log ⁡ p ( x ∣ θ ) \log p(x|\theta) logp(xθ)对应着标准的对数似然项, log ⁡ p ( θ ) \log p(\theta) logp(θ)对应着先验分布。MAP贝叶斯推断的优势是能够利用来自先验的信息,这些信息无法从训练数据中获得。相对于极大似然估计,该附加信息有助于减少最大后验点估计的方差。然而,这个优点的代价是增加了偏差。许多正规化估计方法,例如权重衰减正则化的最大似然学习,可以被解释为贝叶斯推断的MAP近似。这个适应于正则化时加到目标函数的附加项对应着 log ⁡ p ( θ ) \log p(\theta) logp(θ)。并非所有的正则化惩罚都对应着MAP贝叶斯推断。例如,有些正则化可能不是一个概率分布的对数。还有些正则化依赖于数据,当然也不会是一个先验概率分布。MAP贝叶斯推断提供了一个直观的方法来设计复杂但可解释的正则化。例如,更复杂的惩罚项可以通过混合高斯分布作为先验得到,而不是一个单独的高斯分布。

    更多相关内容
  • 浅谈点估计

    2018-04-01 17:54:30
    在统计推断中,极大似然估计和贝叶斯估计是点估计常用方法,二者在机器学习中的应用也十分广泛,该PPT对两种估计方法做了一个详解。
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    一、点估计 1.点估计就是用样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出...

    “参数估计是以抽样分布为中介,用样本的参数特征对总体的参数进行数值估计的过程。”

    一、点估计
    1.点估计就是用样本统计量来估计总体参数。
    概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,然后用样本统计量的值来估计总体的情况。
    例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计。

    常用的点估计有:用样本均值估计总体均值,用样本方差估计总体方差,用样本的分位数估计总体分位数,用样本的中位数估计总体的中位数。

    2.点估计方法
    矩估计法、顺序统计量法、最大似然法、
    最小二乘法(对于点估计方法,放在另一篇文章中详细介绍)

    3.由于用样本推断总体的过程一定存在估计误差,而点估计的估计误差无法衡量,所以点估计主要用于为定性研究提供数据参考,或者在对于总体参数估计精度要求不高时使用。

    二、区间估计
    1.区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。

    2.关于置信水平(置信度)、置信区间和显著性水平:
    置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
    置信水平用百分数表示,表示成(1-a)100%a指的是显著性水平,表示总体参数不落在置信区间的可能性。

    3.关于置信区间的计算:
    通过部分样本来计算总体参数的一个置信区间有以下步骤:
    a.明确要解决的问题,要估计的指标或参数是什么,
    b.求抽样样本的平均值和标准误差,
    注意区分标准差和标准误差:标准差反映的是整个样本对样本平均数的离散程度,标准差等于方差开根号;标准误差反映的是样本平均数对总体平均数的变异程度,标准误差等于样本标准差除n的开根号。
    c.确定需要的置信水平,
    d.查询z表,得到z值,
    e. 计算置信区间,[a,b],a=样本均值-z标准误差,b=样本均值+z标准误差。

    区间估计分为一个总体参数的估计和两个总体参数的估计

    4.一个总体参数的区间估计:总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;

    4.1总体均值的区间估计:
    均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关;
    Z分布其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布,
    Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30;
    T分布:对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型;
    切比雪夫不等式:对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。
    在这里插入图片描述截图来自《人人都会数据分析:从生活实例学统计》

    4.2 总体方差的区间估计:
    总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。
    卡方统计量的计算公式:
    χ α 2 ( n − 1 ) = ( n − 1 ) s 2 σ z 2 \chi^2_\alpha(n-1)=\frac{(n-1)s ^2}{\sigma ^2_z} χα2(n1)=σz2(n1)s2
    总体方差的双侧置信区间估计公式为:
    ( n − 1 ) s 2 χ α 2 2 ( n − 1 ) ≤ σ z 2 ≤ ( n − 1 ) s 2 χ 1 2 − α 2 ( n − 1 ) \frac{(n-1)s^2}{\chi ^2_\frac{\alpha}{2}(n-1)} \leq \sigma ^2_z \leq \frac{(n-1)s ^2}{\chi ^2_1-\frac{\alpha}{2} (n-1)} χ2α2(n1)(n1)s2σz2χ122α(n1)(n1)s2
    其中带有a/2的为下标;
    如果是单侧置信区间的话,只需要取上面式子的前半部分或者后半部分,并将a/2改成a即可得到单侧置信区间。

    4.3 总体比例的区间估计:
    或者叫总体比率的区间估计,跟二项分布有关,二项分布的理论是:事件发生概率是p,进行n次实验,其中x次实验该事件发生,则发生次数的概率分布服从二项分布;均值、方差为np,npq。
    若将发生的次数转换成比率(x/n),则比率的概率分布也服从二项分布。
    二项分布的特性:当抽取的样本容量n很大,是大 样本,使得np和nq(q为事件不发生的概率,等于1-p)的值都大于 5, 此时二项分布将近似于正态分布。
    由于事件发生比率x/n服从二项分布,所以如果比率的二项分布近似于正态分布,就可以得到不利的区间估计。

    在事件发生概率p已知的情况下,总体比率 p z ˉ \bar{p_z} pzˉ在置信度为1-a时,总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    其中, p y ˉ \bar{p_y} pyˉ为样本比率, p z ˉ \bar{p_z} pzˉ为总体比率,
    当事件发生概率p未知,可用样本中事件发生的概率即样本比率代替。

    5. 两个总体参数的区间估计
    两个总体均值之差的估计,两个总体方差比的区间估计
    两个总体与多个总体参数的区间估计在实际生活中的应用不是很多,更常用的是两个总体和多个总体参数的假设检验。 区间估计虽不常用,但是其与假设检验的应用原理是想通的。

    5.1 两个总体均值之差的区间估计:
    可以将单个总体均值的抽样分布推广到两个总体均值差的抽样分布,然后利用两个总体均值差的抽样分布推导出两个总体均值差的置信区间公式。
    方差齐性/方差不齐:对于配对样本来说其方差可被认为是想等的,即方差齐性。
    在这里插入图片描述
    截图来自《人人都会数据分析:从生活实例学统计》

    独立样本和配对样本:
    独立样本:是指如果从一个总体中选取样本,抽样形式无论怎样改变都不会影响从另一个总体中抽取样本的概率,则这两个随机样本为独立样本;
    配对样本:是指如果从一个总体中抽取样本的行为以某种方式决定了从另一个总体中抽取样本的概率,则这两个样本为成对样本或配对样本。

    均值和方差的特点:
    两个总体合并(相加或相减),那么合并后的总体均值等于原来两个总体的均值之和或均值之差;而合并后的总体方差都等于两个总体方差之和。

    差值抽样分布可以看做单个总体的均值抽样分布,因此可套用“均值抽样分布适用条件表”,将公式修改一下即可:

    截图来自《人人都会数据分析:从生活实例学统计》

    5.2 两个总体方差比的区间估计
    F分布可用于求取两个正态分布总体方差比的置信区间。
    F统计量可被看做是两个卡方统计量的商,F分布也被称为方差比分布。因为卡方分布要求总体服从正态分布,所以F分布也要求F统计量的两个总体都服从正态分布。
    当给定置信水平时,可推出两个正态分布总体方差比的置信区间。

    三、样本量的确定

    1总体均值区间估计的样本量确定
    在总体标准差已知的情况下,如果数据总体服从正态分布,则样本均值的抽样分布适用Z分布,就可以利用总体均值的置信区间公式来计算样本容量,总体均值的置信区间为:
    x ˉ ± Z α 2 σ n \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} xˉ±Z2αn σ x ˉ ± Z α 2 σ n N − n N − 1 \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N-n}{N-1}} xˉ±Z2αn σN1Nn

    则总体均值的区间估计误差为:
    Δ μ = Z α 2 σ n \Delta\mu=Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} Δμ=Z2αn σ
    进而可以求得样本容量的公式:
    n = ( Z α 2 σ Δ μ ) 2 n=(\frac{Z_\frac{\alpha}{2} \sigma}{\Delta\mu})^2 n=(ΔμZ2ασ)2

    以上是总体标准差已知时,当总体标准差未知时,一是可以用样本标准差代替,但是前提条件是样本容量要大于等于30;二是可以用过去试点调查的样本标准差代替;三是,如果知道总体数据中的最大和最小值,可用四分之一的最大与最小值的差值来代替总体标准差。

    2.总体方差区间估计的样本量确定
    总体方差的区间估计适用的抽样分布为卡方分布。卡方统计量为:
    χ 2 = ( n − 1 ) s 2 σ 2 \chi^2=\frac{(n-1)s ^2}{\sigma ^2} χ2=σ2(n1)s2
    由卡方分布的性质可知,当样本量足够大时,卡方分布近似于正态分布。卡方分布的均值为自由度(n-1),卡方分布的方差为两倍的自由度2(n-1),那么在大样本的情况下,总体方差的置信区间为:
    s 2 = ± Z α 2 s 2 2 n s^2=\pm Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} s2=±Z2αs2n2
    则总体方差的估计精度为:
    Δ σ 2 = Z α 2 s 2 2 n \Delta \sigma^2=Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} Δσ2=Z2αs2n2
    由此可得到样本容量公式为:
    n = 2 Z α 2 s 2 Δ σ 2 n=\frac{\sqrt{2} Z_\frac{\alpha}{2} s^2}{\Delta \sigma^2} n=Δσ22 Z2αs2

    3.总体比率区间估计的样本量确定
    在确定总体比率的区间估计时,利用的是二项分布近似于正态分布的性质,即当抽取的样本量n很大时,是大样本,使得np>5且nq>5(p是事件发生的概率,q是事件不发生的概率,q=1-p)时,二项分布近似于正态分布。
    总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    则总体比率的估计误差为:
    Δ p z ˉ = Z α 2 p ( 1 − p ) n \Delta \bar{p_z} =Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} Δpzˉ=Z2αnp(1p)
    由此可得到样本容量为:
    n = Z α 2 2 p ( 1 − p ) Δ p z ˉ 2 n=\frac{Z_\frac{\alpha}{2} ^2 p(1-p)}{\Delta \bar{p_z} ^2} n=Δpzˉ2Z2α2p(1p)

    注:本文主要参考《人人都会数据分析:从生活实例学统计》

    展开全文
  • 参数估计之点估计和区间估计

    千次阅读 2020-02-07 15:00:29
    参数估计(parameter estimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字...

    作者 | CDA数据分析师

    参数估计(parameter estimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字特征等。统计推断是数理统计研究的核心问题。所谓统计推断是指根据样本对总体分布或分布的数字特征等作出合理的推断。它是统计推断的一种基本形式,分为点估计和区间估计两部分。

    一、点估计

    点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。简单的来说,指直接以样本指标来估计总体指标,也叫定值估计。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。构造点估计常用的方法是:

    ①矩估计法,用样本矩估计总体矩

    ②最大似然估计法。利用样本分布密度构造似然函数来求出参数的最大似然估计。

    ③最小二乘法。主要用于线性统计模型中的参数估计问题。

    ④贝叶斯估计法。

    可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计,其次有容许性准则,最小化最大准则,最优同变准则等。大样本优良性准则有相合性、最优渐近正态估计和渐近有效估计等。下面介绍一下最常用的矩估计法和最大似然估计法。

    1、矩估计法

    矩估计法, 也称“矩法估计”,就是利用样本矩来估计总体中相应的参数。它是由英国统计学家皮尔逊Pearson于1894年提出的,也是最古老的一种估计法之一。对于随机变量来说,矩是其最广泛,最常用的数字特征,主要有中心矩和原点矩。 由辛钦大数定律知,简单随机样本的原点矩依概率收敛到相应的总体原点矩,这就启发我们想到用样本矩替换总体矩,进而找出未知参数的估计,基于这种思想求估计量的方法称为矩法。用矩法求得的估计称为矩法估计,简称矩估计。最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体的方差。

    2、最大似然估计法

    此法作为一种重要而普遍的点估计法,由英国统计学家R.A.费希尔在1912年提出。后来在他1921年和1925年的工作中又加以发展。设样本X=(X1,X2,…,Xn)的分布密度为L(X,θ),若固定X而将L视为θ的函数,则称为似然函数,当X是简单随机样本时,它等于ƒ(X1,θ)ƒ(X2,θ)…ƒ(Xn,θ),其中,ƒ(X,θ)是总体分布的密度函数或概率函数(见概率分布)。一经得到样本值x,就确定x,然后使用估计g(θ),这就是g(θ)的最大似然估计。

    二、区间估计

    通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。用数轴上的一段经历或一个数据区间,表示总体参数的可能范围。这一段距离或数据区间称为区间估计的置信区间。下面分别介绍一个总体参数的区间估计和两个总体参数的区间估计。

    1、一个总体参数的区间估计

    总体均值适用的统计量及其置信区间:

    总体比例适用的统计量及其置信区间:

    2、两个总体参数的区间估计


    在这里插入图片描述

    展开全文
  • 参数估计是数理统计中重要的统计推断问题之一。


    Preliminaries

    了解参数估计,需要知道以下先导知识:

    数学期望、方差与协方差

    参见:[数理知识]机器学习入门: 概率论与信息论基础 - 数学期望、方差与协方差

    常用概率分布及其期望、方差

    参见:[数理知识]机器学习入门: 概率论与信息论基础 - 常用概率分布及其期望、方差


    参数估计问题

    参数估计是数理统计中重要的统计推断问题之一。
    给定 x ∼ P ( x ; θ ) x \sim P(x;\theta) xP(x;θ),参数 θ \theta θ 控制了 x x x 的分布“范围”:

    • 我们在已知其概率分布模型和一系列随机变量 x x x 的值之后,试图推测出 θ \theta θ 的值;(点估计)
    • 在点估计的基础上,从抽样数据的统计计算中可以对其与总体样本的真实参数的接近程度求出一个概率度量,在此概率下给出总体参数估计的一个可信的区间范围。(区间估计)

    这类问题就被统称为参数估计问题。

    一、大数定律及中心极限定理

    在正式开始参数估计之前,需要了解一下其先导知识——大数定律及中心极限定理。

    1 切比雪夫不等式(Chebyshev)

    x x x 是随机变量,如果其期望 E \mathbb E E 和方差 V a r ( x ) Var(x) Var(x) 存在,则 ∀ ε > 0 \forall \varepsilon>0 ε>0 有:
    V a r ( x ) ε 2 ≥ P ( ∣ x − E ∣ ≥ ε ) \frac{Var(x)}{\varepsilon^2} \ge P(\vert x-\mathbb E \vert \ge \varepsilon) ε2Var(x)P(xEε)

    证明:因为 ∣ x − E ∣ ≥ ε \vert x-\mathbb E \vert \ge \varepsilon xEε ε ≥ 0 \varepsilon \ge 0 ε0 所以有 ( ∣ x − E ∣ ε ) 2 ≥ 1 (\frac{\vert x-\mathbb E \vert}{\varepsilon})^2 \ge 1 (εxE)21
    x x x 的概率密度函数为 p ( x ) p(x) p(x),则有:
    P ( ∣ x − E ∣ ≥ ε ) = ∫ ∣ x − E ∣ ≥ ε p ( x ) d x ≤ ∫ ∣ x − E ∣ ≥ ε ( ∣ x − E ∣ ε ) 2 p ( x ) d x ≤ ε − 2 ∫ − ∞ + ∞ ( ∣ x − E ∣ ) 2 p ( x ) d x P ( ∣ x − E ∣ ≥ ε ) ≤ V a r ( x ) ε 2 \begin{aligned} P(\vert x-\mathbb E \vert \ge \varepsilon) &= \int_{\vert x-\mathbb E \vert \ge \varepsilon}p(x)dx\\ &\le \int_{\vert x-\mathbb E \vert \ge \varepsilon}(\frac{\vert x-\mathbb E \vert}{\varepsilon})^2p(x)dx\\ &\le {\varepsilon}^{-2} \int_{-\infin}^{+\infin}(\vert x-\mathbb E \vert)^2 p(x)dx \\ P(\vert x-\mathbb E \vert \ge \varepsilon) &\le \frac{Var(x)}{\varepsilon^2} \end{aligned} P(xEε)P(xEε)=xEεp(x)dxxEε(εxE)2p(x)dxε2+(xE)2p(x)dxε2Var(x)∴ 原命题得证。

    • 显然, 1 − V a r ( x ) ε 2 ≤ P ( ∣ x − E ∣ &lt; ε ) 1-\frac{Var(x)}{\varepsilon^2} \le P(\vert x-\mathbb E \vert &lt; \varepsilon) 1ε2Var(x)P(xE<ε)
    • 切比雪夫不等式给出了如何在随机变量的分布未知而期望和方差已知的情况下估计 P ( ∣ x − E ∣ ≥ ε ) P(\vert x-\mathbb E \vert \ge \varepsilon) P(xEε)的极限。
    • 下文中的切比雪夫大数定律等几个大数定律变形均可由切比雪夫不等式证明得到。

    2 大数定律(Law of Large Numbers)

    依概率收敛 : 设有随机变量序列 x 1 , x 2 , ⋯ &ThinSpace; , x n , ⋯ x_1,x_2,\cdots ,x_n,\cdots x1,x2,,xn, 对 随机变量 x x x 使得 ∀ ε &gt; 0 \forall \varepsilon&gt;0 ε>0 有: lim ⁡ n → ∞ P ( ∣ x − x n ∣ ≥ ε ) = 0 \lim_{n \rightarrow \infin}P\left( \vert x-x_n \vert \ge \varepsilon \right)=0 nlimP(xxnε)=0则称序列 x i x_i xi依概率收敛于 x x x, 记为 x i ⟶ P x x_i \stackrel{P}{\longrightarrow}x xiPx

    大数定律:设有随机变量序列 x 1 , x 2 , ⋯ &ThinSpace; , x n , ⋯ x_1,x_2,\cdots ,x_n,\cdots x1,x2,,xn, ,其任意划分的互斥组合的期望值从小到大排列为 a 1 , a 2 , ⋯ &ThinSpace; , a n a_1,a_2,\cdots ,a_n a1,a2,,an 使得 ∀ ε &gt; 0 \forall \varepsilon&gt;0 ε>0 有:
    lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n x i − a n ∣ ≥ ε ) = 0 \lim_{n \rightarrow \infin}P \left( \vert \frac{1}{n}\sum_{i=1}^{n}x_i-a_n \vert \ge \varepsilon \right)=0 nlimP(n1i=1nxianε)=0或记作:
    1 n ∑ i = 1 n x i ⟶ P a n ,   n → ∞ \frac{1}{n}\sum_{i=1}^nx_i \stackrel{P}{\longrightarrow }a_n,~n \rightarrow \infin n1i=1nxiPan, n

    Tip:大数定律说明了随机变量序列前若干项的算术平均值在某种条件下收敛到这些项的数学期望。(注意:数学期望 E \mathbb E E在概念上不等于算术平均值 1 n ∑ i n x i \frac{1}{n}\sum_i^n x_i n1inxi,只有在 x i x_i xi等概率分布时二者等值。)

    • 大数定律以严格的数学形式表现了随机事件在足够的广度上的频率稳定性。利用这一性质,我们可以基于抽样样本中的均值来估计整体的均值。

    它具有以下几个变形:

    • 切比雪夫大数定律 设相互独立的随机变量序列(集合) x 1 , x 2 , ⋯ &ThinSpace; , x n , ⋯ x_1,x_2,\cdots ,x_n,\cdots x1,x2,,xn, 具有相同的数学期望 μ i = μ \mu_i=\mu μi=μ ,若其也具有相同的方差或方差 σ i 2 &lt; C \sigma_i^2&lt;C σi2<C C C C为一个大于零的常数,则对于 ∀ ε &gt; 0 \forall \varepsilon&gt;0 ε>0 有:
      lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n x i − μ ∣ ≥ ε ) = 0 1 n ∑ i = 1 n x i ⟶ P μ \begin{aligned} \lim_{n \rightarrow \infin}P&amp;\left( \vert \frac{1}{n}\sum_{i=1}^{n}x_i-\mu \vert \ge \varepsilon \right)=0\\ &amp;\frac{1}{n}\sum_{i=1}^nx_i \stackrel{P}{\longrightarrow }\mu \end{aligned} nlimP(n1i=1nxiμε)=0n1i=1nxiPμ该定律说明了在方差满足一定条件时,序列服从大数定律。

    • khintchine大数定律 设相互独立的随机变量序列(集合) x 1 , x 2 , ⋯ &ThinSpace; , x n , ⋯ x_1,x_2,\cdots ,x_n,\cdots x1,x2,,xn, 满足同分布且具有有限的数学期望时,序列服从大数定律。该定理在切比雪夫大数定律的基础上,补充了当方差未知或不存在时,序列是否满足大数定律的问题。

    3 中心极限定理(central limit theorems)

    Lindeberg-Levy中心极限定理:设随机变量序列 x 1 , x 2 , ⋯ &ThinSpace; , x n , ⋯ x_1,x_2,\cdots ,x_n,\cdots x1,x2,,xn, 满足独立同分布假设 ,记 ∑ i n x i = X \sum_i^n x_i = X inxi=X ,若 μ i = μ \mu_i=\mu μi=μ σ i 2 = σ 2 \sigma_i^2=\sigma^2 σi2=σ2,当 n n n 足够大时, X X X 近似满足 X ∼ N ( n μ , n σ 2 ) X \sim N(n\mu,n\sigma^2) XN(nμ,nσ2) 或者说 1 n ∑ i n x i ∼ N ( μ , σ 2 n ) \frac{1}{n}\sum_i^n x_i \sim N(\mu,\frac{\sigma^2}{n}) n1inxiN(μ,nσ2)

    Lyapunov中心极限定理:(一般化推广) 设随机变量序列 x 1 , x 2 , ⋯ &ThinSpace; , x n , ⋯ x_1,x_2,\cdots ,x_n,\cdots x1,x2,,xn, 满足独立同分布假设,记 ∑ i n x i = X \sum_i^n x_i = X inxi=X,当 n n n 足够大时, X X X 近似满足 X ∼ N ( ∑ i n μ i , ∑ i n σ i 2 ) X \sim N(\sum_i^n \mu_i,\sum_i^n \sigma_i^2) XN(inμi,inσi2) 或者说 1 n ∑ i n x i ∼ N ( ∑ i n μ i n , ∑ i n σ i 2 n ) \frac{1}{n}\sum_i^n x_i \sim N(\frac{\sum_i^n \mu_i}{n},\frac{\sum_i^n \sigma_i^2}{n}) n1inxiN(ninμi,ninσi2)

    4 大数定理和中心极限定理的理解

    1. 大数定理告诉我们:当抽样样本的量逐渐增大,其均值将依概率收敛到总体样本的均值。此时我们不必关心真实的分布究竟是怎样的。
    2. 中心极限定理告诉我们:当抽样样本的量逐渐增大,这些抽样样本的均值将会满足 N ( ∑ i n μ i n , ∑ i n σ i 2 n ) N(\frac{\sum_i^n \mu_i}{n},\frac{\sum_i^n \sigma_i^2}{n}) N(ninμi,ninσi2)。显然,当 n n n 逐渐变大,该正态分布的方差越小最终将塌缩为 Dirac delta function

    带图的直观体验:怎样理解和区分中心极限定理与大数定律?

    >返回目录

    二、 点估计(point estimator)

    事实上,对 θ \theta θ 的计就是点估计问题,我们一般把其点估计值记为 θ ^ \hat \theta θ^ ,称为点估计值。

    1 矩估计

    矩估计法用一阶样本的原点矩来估计总体的期望,而用二阶样本的中心矩来估计总体的方差。

    由Khintchine大数定理可知,若样本总体的数学期望有限,则样本均值依概率收敛于其数学期望。因此在估计时可以使用样本的矩来作为总体矩的估计量。

    我们使用矩估计来估计时,有:
    { μ 1 ( θ 1 , θ 2 , ⋯ &ThinSpace; , θ k ) = 1 n ∑ i = 1 n X i μ 2 ( θ 1 , θ 2 , ⋯ &ThinSpace; , θ k ) = 1 n ∑ i = 1 n X i 2 ⋮ μ k ( θ 1 , θ 2 , ⋯ &ThinSpace; , θ k ) = 1 n ∑ i = 1 n X i k \begin{cases} \mu_1(\theta_1,\theta_2,\cdots,\theta_k) &amp;= \frac{1}{n}\sum_{i=1}^{n}X_i \\ \mu_2(\theta_1,\theta_2,\cdots,\theta_k) &amp;= \frac{1}{n}\sum_{i=1}^{n}X_i^2 \\ &amp; \vdots\\ \mu_k(\theta_1,\theta_2,\cdots,\theta_k) &amp;= \frac{1}{n}\sum_{i=1}^{n}X_i^k \end{cases} μ1(θ1,θ2,,θk)μ2(θ1,θ2,,θk)μk(θ1,θ2,,θk)=n1i=1nXi=n1i=1nXi2=n1i=1nXik

    原点矩:对于自然数 k k k ∀ a ∈ R \forall a \in \R aR,随机变量 x x x 的期望值 E [ ( x − a ) k ] \mathbb E[(x-a)^k] E[(xa)k] 叫做随机变量 x x x a a a k k k 阶矩(若 a = 0 a=0 a=0 则称为 k k k 阶原点矩)。当 a = 0 , k = 1 a=0,k=1 a=0,k=1 时即为 x x x 的数学期望。

    中心矩:若对于随机变量 x x x 存在 E [ x − E [ x ] ] k \mathbb E[x-\mathbb E[x]]^k E[xE[x]]k,则称其为 x x x k k k 阶中心矩。

    示例:对于均匀分布 x   U ( a , b ) x~U(a,b) x U(a,b),欲对 a , b a,b a,b 进行估计,已知均匀分布的期望为 E [ x ] = a + b 2 \mathbb E[x]=\frac{a+b}{2} E[x]=2a+b,方差 V a r ( x ) = ( b − a ) 2 12 Var(x)=\frac{(b-a)^2}{12} Var(x)=12(ba)2,则 E [ x 2 ] = V a r ( x ) + E [ x ] 2 \mathbb E[x^2]=Var(x)+\mathbb E[x]^2 E[x2]=Var(x)+E[x]2,利用矩估计则有:
    { E [ x ] = a + b 2 = 1 n ∑ i = 1 n X i E [ x 2 ] = ( b − a ) 2 12 + ( a + b 2 ) 2 = 1 n ∑ i = 1 n X i 2 \begin{cases} \mathbb E[x]&amp;=\frac{a+b}{2}=\frac{1}{n}\sum_{i=1}^{n}X_i\\ \mathbb E[x^2]&amp;=\frac{(b-a)^2}{12}+(\frac{a+b}{2})^2=\frac{1}{n}\sum_{i=1}^{n}X_i^2 \end{cases} {E[x]E[x2]=2a+b=n1i=1nXi=12(ba)2+(2a+b)2=n1i=1nXi2解得:
    { μ x = 1 n ∑ i = 1 n X i a ^ = μ x − 3 n ∑ i = 1 n ( x i − μ x ) 2 b ^ = μ x + 3 n ∑ i = 1 n ( x i − μ x ) 2 \begin{cases} \mu_x &amp;= \frac{1}{n}\sum_{i=1}^{n}X_i\\ \hat a &amp;= \mu_x - \sqrt{\frac{3}{n}\sum_{i=1}^n(x_i-\mu_x)^2}\\ \hat b &amp;= \mu_x + \sqrt{\frac{3}{n}\sum_{i=1}^n(x_i-\mu_x)^2} \end{cases} μxa^b^=n1i=1nXi=μxn3i=1n(xiμx)2 =μx+n3i=1n(xiμx)2

    2 最大似然估计(maximum Likelihood)

    最大似然估计的参考:[数理知识]贝叶斯公式和最大似然估计笔记

    示例:对于伯努利分布(即重复次数为1的二项分布) x ∼ B ( 1 , p ) x \sim B(1,p) xB(1,p),欲对 p p p 进行估计:
    L ( p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p ∑ i = 1 n x i ( 1 − p ) n − ∑ i = 1 n x i \begin{aligned} L(p)&amp;=\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}\\ &amp;=p^{\sum_{i=1}^nx_i} (1-p)^{n-\sum_{i=1}^nx_i}\\ \end{aligned} L(p)=i=1npxi(1p)1xi=pi=1nxi(1p)ni=1nxi取自然对数:
    ln ⁡ L ( p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = ( ∑ i = 1 n x i ) ln ⁡ p + ( n − ∑ i = 1 n x i ) ln ⁡ ( 1 − p ) \begin{aligned} \ln L(p)&amp;=\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}\\ &amp;=\left(\sum_{i=1}^nx_i \right)\ln p + \left(n-\sum_{i=1}^n x_i \right) \ln \left(1-p \right) \end{aligned} lnL(p)=i=1npxi(1p)1xi=(i=1nxi)lnp+(ni=1nxi)ln(1p) ∂ ln ⁡ L ( p ) ∂ p = 0 \frac{\partial \ln L(p)}{\partial p}=0 plnL(p)=0 解得:
    p ^ = 1 n ∑ i = 1 n x i \hat p = \frac{1}{n}\sum_{i=1}^{n}x_i p^=n1i=1nxi

    >返回目录

    三、 区间估计(interval estimate)

    在点估计的基础上,根据样本统计量的抽样分布可以对样本统计量与总体样本的真实参数的接近程度求出一个概率度量,在此概率下给出总体参数估计的一个可信的区间范围。与区间估计常常一同出现的,还有置信区间的概念。

    对于区别点估计和区间估计,有个很通俗的解释:

    • 我对待定参数只估计一个值(点估计),只笃定了这个值是最精确的;
    • 我给出待定参数的一个估计范围(区间估计),猜测这个区间内至少有一个值使得待定参数最接近于真实值;
    • 对于这个区间,给出一个概率(置信度)来说明这个区间内有多大的把握存在至少有一个值使得待定参数最接近于真实值;给出置信度的区间估计就是置信区间。
    • 显然,区间估计的精确度更高,但其“成本”也提升了,即获得精确值所需要进行尝试的次数变多。

    置信区间(confidence interval)

    补充理解: 如何理解 95% 置信区间?- 知乎

    置信区间 设总体样本集 X X X 的分布函数 F ( x ; θ ) F(x;\theta) F(x;θ) 已知,先准备对 θ \theta θ 进行估计,如果对 ∀   0 &lt; a &lt; 1 \forall ~ 0&lt;a&lt;1  0<a<1 可以得知子样本集 X ′ ∈ X X&#x27; \in X XX 可以得到待定参数的下界(置信下限)与下界(置信上限 θ ˉ , θ ‾ \bar \theta,\underline \theta θˉθ,使得:
    P ( θ ‾ ( X ′ ) ) &lt; θ &lt; P ( θ ˉ ( X ′ ) ) = 1 − a P(\underline \theta(X&#x27;))&lt;\theta&lt;P(\bar \theta(X&#x27;))=1-a P(θ(X))<θ<P(θˉ(X))=1a则称随即区间 ( θ ˉ , θ ‾ ) (\bar \theta,\underline \theta) (θˉ,θ) 为参数 θ \theta θ 1 − a 1-a 1a置信水平(或置信度)的置信区间,或称双侧置信区间。

    例题:(脱敏数据裁剪于我们的一次爬虫实验) 已知某大学某组织的学生在总计3613场的某游戏对局中,每局时间服从正态分布 N ( μ , 25. 6 2 ) N(\mu,25.6^2) N(μ,25.62)。现从中抽取100场的数据,根据矩估计求得点估计 μ ^ = 1 100 ∑ i = 1 100 x i = 43.2 \hat \mu=\frac{1}{100}\sum_{i=1}^{100}x_i=43.2 μ^=1001i=1100xi=43.2(分钟),给定95%置信区间,试求得其平均游戏时长(分钟)的范围。
    解:根据大数定律所得到的中心极限定理,可以得知100场游戏的抽样集点估计均值 μ ^ \hat \mu μ^ 的分布满足 μ ^ ∼ N ( μ , 25. 6 2 100 ) \hat \mu\sim N(\mu, \frac{25.6^2}{100}) μ^N(μ,10025.62)
    a = 0.05 a=0.05 a=0.05 ,查标准正态分布( x − μ σ ∼ N ( 0 , 1 ) \frac{x-\mu}{\sigma}\sim N(0,1) σxμN(0,1))表可知 z a 2 = 1.96 z_{\frac{a}{2}}=1.96 z2a=1.96,即:
    P ( − z 0.05 2 &lt; μ ^ − μ σ n &lt; z 0.05 2 ) = 1 − 0.05 = 0.95 − 1.96 &lt; μ ^ − μ σ n &lt; 1.96 \begin{aligned} P(-z_{\frac{0.05}{2}}&lt;\frac{\hat \mu - \mu}{\frac{\sigma}{ \sqrt n}}&lt;z_{\frac{0.05}{2}})&amp;=1-0.05=0.95 \\ -1.96&lt;\frac{\hat \mu - \mu}{\frac{\sigma}{ \sqrt n}}&amp;&lt;1.96\end{aligned} P(z20.05<n σμ^μ<z20.05)1.96<n σμ^μ=10.05=0.95<1.96∴在置信度为95%的置信区间中,有:
    μ ^ − 1.96 σ n &lt; μ &lt; μ ^ + 1.96 σ n \hat \mu - 1.96 \frac{\sigma}{\sqrt n}&lt; \mu &lt;\hat \mu + 1.96 \frac{\sigma}{\sqrt n} μ^1.96n σ<μ<μ^+1.96n σ代入 μ ^ = 43.2 \hat \mu =43.2 μ^=43.2 n = 100 n=100 n=100 σ = 25.6 \sigma = 25.6 σ=25.6 得:
    38.1824 &lt; μ &lt; 48.2176 38.1824&lt; \mu &lt; 48.2176 38.1824<μ<48.2176也就是说,我们有95%的把握认为,总计3613场的游戏平均每局时间落在这个范围内(实际上的真实值为40.2分钟),在区间估计的情况下,我们修正点估计值 μ ^ \hat \mu μ^ ,用区间估计 ( 43.2 ± 1.96 25.6 1 00 ) ∣ 0.95 (43.2 \pm 1.96 \frac{25.6}{\sqrt 100})\vert_{0.95} (43.2±1.961 0025.6)0.95 来替代对 μ \mu μ 的估计。

    >返回目录

    四、 估计的评价标准

    1 无偏性(unbias)

    估计的偏差被定义为: b i a s ( θ ^ ) = E ( θ ^ ) − θ bias(\hat \theta)=\mathbb E(\hat \theta)-\theta bias(θ^)=E(θ^)θ其中 θ \theta θ 为真实值, E \mathbb E E 是数学期望。

    伯努利分布 P ( x = k ) = p k ( 1 − p ) ( 1 − k ) P(x=k)=p^k(1−p)^{(1−k)} P(x=k)=pk(1p)(1k) 为例,我们给出参数估计 p ^ = 1 n ∑ i = 1 n x i \hat p=\frac{1}{n}\sum_{i=1}^{n}x_i p^=n1i=1nxi,则其偏差为:
    b i a s ( p ^ ) = E [ 1 n ∑ i = 1 n x i ] − p = 1 n ∑ i = 1 n E [ x i ] − p = p − p = 0 \begin{aligned} bias(\hat p)&amp;=\mathbb E[\frac{1}{n}\sum_{i=1}^{n}x_i]-p\\ &amp;=\frac{1}{n}\sum_{i=1}^{n}\mathbb E[x_i]-p\\ &amp;=p-p=0 \end{aligned} bias(p^)=E[n1i=1nxi]p=n1i=1nE[xi]p=pp=0

    Tip:伯努利分布的期望是 p p p,参见: >离散型概率分布或范畴分布(categorical distribution)

    b i a s ( θ ^ ) = 0 bias(\hat \theta)=0 bias(θ^)=0,我们称其为无偏(unbiased)的或无偏估计。当其为无偏估计时,则意味着我们对 n n n 个分布值 x i x_i xi 所得到的参数估计值的均值(期望)与真实值相等。

    • 无偏性的意义在于,在多次重复下,估计值产生的偏差虽会在真实值周围波动,但在大范围实验中它仍旧最接近真实值。
    • 若某个估计值当且仅当样本量趋近于无穷时才具有无偏性,我们称其为渐进无偏(asymptotically unbiased)。

    2 有效性

    对于一个参数来说,其可能具有多个无偏估计,因此我们需要有更进一步的衡量标准。

    • 如果一种估计的方差比另一种估计的方差小,则称方差较小的估计值更有效。

    从上文的例题中,我们不难得知参数估计 p ^ = 1 n ∑ i = 1 n x i \hat p=\frac{1}{n}\sum_{i=1}^{n}x_i p^=n1i=1nxi的方差为: p n ( 1 − p ) \frac{p}{n}(1-p) np(1p)

    3 一致性(相合性)

    无偏性和有效性在统计意义上给出了估计值地性能,但其并不能保证保证每一次具体估计时的性能,因此我们引入了参数估计的一致性。给定任意正实数 ε \varepsilon ε 都有:
    lim ⁡ n → ∞ P ( ∣ θ ^ − θ ∣ &gt; ε ) = 0 \lim_{n \rightarrow \infin}P(\vert \hat \theta - \theta \vert&gt;\varepsilon)=0 nlimP(θ^θ>ε)=0或者:
    lim ⁡ n → ∞ θ ^ = θ \lim_{n \rightarrow \infin}\hat \theta = \theta nlimθ^=θ

    • 一致性保证了当样本数量非常大时,每一次的估计量总能在概率意义上任意地接近真实值;
    • 一致性保证了估计量的偏差会随着样本量的增多而减少;
    • 要注意的是,渐进无偏并不等于一致性。

    >返回目录

    展开全文
  • 点估计和区间估计——统计学概念

    千次阅读 2021-01-24 15:33:15
    概念简介: 点估计和区间估计是通过样本统计量估计总体参数的两种方法。点估计是在抽样推断中不考虑抽样误差,直接以抽样指标... 点估计是使用抽样数据得到总体样本参数。比如,针对某市房租平均价格的统计,全...
  • 极大似然估计是求总体未知参数的另一种常用点估计方法。对离散总体XXX,其分布律为P(X=x;θ)P(X=x; \theta)P(X=x;θ),设(x1,x2,⋯ ,xn)(x_1, x_2, \cdots, x_n)(x1​,x2​,⋯,xn​)为取自该离散总体XXX的一个...
  • 参数估计:点估计和区间估计

    千次阅读 2020-02-28 10:49:49
    参数估计就是根据样本统计量的数值对总体参数进行估计的过程。根据参数估计的性质不同,可以分成两种类型:点估计和区间估计。 点估计 点估计就是用样本统计量的某一具体...对总体参数进行点估计常用的方法两种...
  • 关键点定位︱四款人体姿势关键点估计论文笔记

    万次阅读 多人点赞 2018-03-26 22:23:15
    一、三款模型 几款模型目前来看的精度:CPM &lt; DeeperCut &lt; CMU OpenPose &lt; AlphaPose ... center map,为一个高斯响应,因为cpm处理的是单人pose的问题,如果图片中多人,那么...
  • 点估计
  • 设总体XXX的分布形式已知,但它的一个或多个参数未知,借助于总体XXX的一个样本来估计总体未知参数值的问题称为参数的点估计。设总体X∼f(x;θ)X\sim f(x;\theta)X∼f(x;θ),其中fff的形式已知,θ\thetaθ是未知...
  • 浅谈几种基本的点估计方法及实例

    万次阅读 2018-06-19 12:37:11
    参数估计有两种形式:点估计与区间估计。本文选择几种常用点估计方法作一些讨论。 用于估计未知参数的统计量称为点估计(量)。参数 θθ\theta 的估计量常用 θ^=θ^(x1,x2,…,xn)θ^=θ^(x1,x2,…,xn)\hat{\...
  • 数理统计中的点估计

    万次阅读 2015-06-03 18:46:33
    • 本章讨论总体参数的点估计和区间估计.理解这两种估计的思想,掌握求参数估计量的方法和评判估计量好坏的标准.点估计问题的提出设灯泡寿命T~N(μ,σ2)T~ N (\mu,\sigma^2),但参数μ\mu和σ2\sigma^2未知. 现在...
  • 点估计

    万次阅读 多人点赞 2019-05-25 20:04:36
    设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知, 借助于总体 X 的一个样本来估计总体未知参数的值的问题称为点估计问题. 在统计问题中往往先使用最大似然估计法, 在最大似然估计法使用不方便时, 再用矩...
  • R语言-点估计与极大似然估计

    千次阅读 2020-09-22 22:15:59
    这里写自定义目录标题前言一、点估计二、极大似然估计 提示:文章写完后,目录可以自动...对于随机变量来说,矩是其最广泛,最常用的数字特征,母体的各阶矩一般与的分布中所含的未知参数有关,的甚至就等于未知参数
  • 参数估计.doc 通过本章的学习, 我们应该知道: 1. 统计抽样推断的常用术语 2. 抽样推断基于什么样的原理 3. 点估计与区间估计的具体操作 4. 抽样组织方式及其相应的误差计算 5. 每次抽样需要多大的样本容量
  • 姿态估计常用损失函数

    千次阅读 2021-01-04 16:27:55
    最近在研究手部姿态估计,被问到常用的损失函数哪些的时候只能回答上来L2损失函数,所以在此整理一下姿态估计(回归)常用的损失函数。 以下内容均来自网络。 L1损失函数 L1范数损失函数,也被称为最小绝对值偏差...
  • 目录 1、人体姿态估计简介 2、人体姿态估计数据集 3、OpenPose库 4、实现原理 5、实现神经网络 ...人体关键通常对应人体上一定自由度的关节,比如颈、肩、肘、腕、腰、膝、踝等,如下图。 ...
  • 常用概率分布的最大似然估计与矩估计及优良性比较
  • 贝叶斯估计

    千次阅读 2021-09-20 15:47:57
    贝叶斯估计 1. 前言 最大似然估计是把待估计的参数当作未知但固定的量,要做的是根据观测数据估计这个量的取值;而贝叶斯估计则把待估计的参数本身也看作是随机变量,要做的是根据观测数据对参数的分布进行估计,...
  • 几种常用的噪声估计算法(一)

    千次阅读 2021-09-08 10:54:39
    噪声估计算法就是用来估计噪声,根据估计出的噪声完成VAD和降噪。噪声估计主要是根据含噪语音的一些特点或者现象实现的。 二、噪声估计的依据 1、闭塞音闭合段(两个词之间)频段能量趋近于噪声水平;正常语音之中...
  • (常用算法2)矩估计与最大似然估计

    千次阅读 2018-03-11 13:29:29
    一、矩估计矩的概念设自然数k,常数a,随机变量x,则E(x−a)kE(x-a)^k称之为随机变量x基于常数a的k阶矩;当常数a = 0时,则称之为原点矩;矩估计方法即通过上述k阶矩的方法估计整体的范围。例:通过一阶矩与二阶矩...
  • 参数估计的MATLAB实现

    千次阅读 2021-04-22 06:25:43
    1、1,参数估计MATLAB实现,点估计,区间估计,2,点估计,区间估计,矩估计,最大似然估计,参数估计,点估计,参数估计主要内容,3,点估计,Matlab统计工具箱给出了常用概率分布中参数的点估计(采用最大似然估计法)与区间估计,...
  • 运动估计之光流估计LK

    千次阅读 2019-05-26 11:49:25
    目的:完成图像的跟踪 概念:如下面两帧图像I和J,存在像素的移动,即上一帧I中蓝色像素d在下一帧J中,其位置会有些轻微的变动,则该变动即为位移向量,也就是像素的光流。 而要计算光流,需满足以下三...
  • 在信号的谱分析中,由于经典的谱分析方法物理意义比较明确,能够处理的信号信噪比可以很低(相对于现代的谱估计来说),而且处理算法简单稳定;因此在大多数的情况下都是使用经典的谱分析方法对信号进行谱分析
  • 参数的点估计问题与矩估计法

    千次阅读 2018-03-27 15:13:06
    机器学习的许多公式推导都涉及了数理统计的内容,特别是参数...参数的点估计问题 设一个统计总体,以f(x;θ1,⋯,θk)f(x;θ1,⋯,θk)f(x;\theta_1,\cdots,\theta_k)记其概率密度函数(若总体分布为连续型的)或其...
  • 来源:首席数据科学家今天分享一下关于参数估计的基本概念。尤其是极大似然估计,有着重要的应用。01—参数估计的定义首先,什么是参数估计呢?之前我们其实已经了解到很多种分布类型了,比如正态分布...
  • 人体姿态估计综述

    千次阅读 2021-05-31 10:02:07
    人体姿态估计的目标是从给定的图像或视频中确定人的身体关键(部位/关节)的位置或空间位置,如图一所示,因此,姿态估计使用基于图像的观察获得关节人体的姿态,关节人体由关节和刚性部分组成。 在估计给定图像...
  • 参数估计方法整理

    万次阅读 多人点赞 2018-08-06 10:33:27
    参数估计包括点估计和区间估计。 常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计 区间估计:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论 一、点估计 1、矩估计 矩...
  • 刚体6D位姿估计方法综述

    万次阅读 多人点赞 2019-07-31 20:40:49
    方法分类 (Correspondences-based method)(Template-based method)...姿态估计方法 已知信息 核心思路 代表方法 适用场景 基于2D-3D对应的方法 3D模型3D与以及投影后的带纹理图像 将3D模型投影得到RG...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 123,529
精华内容 49,411
热门标签
关键字:

常用的点估计有