精华内容
下载资源
问答
  • 抽样的无偏性
    千次阅读
    2019-08-24 16:48:45

    关键字:统计量,估计量,无偏性,有效性,一致性

    1.估计量

        参数的点估计就是根据样本构造一个统计量,作为总体未知参数的估计。设总体的X未知参数为seta,样本根据样本构造一个统计量(只依赖于样本,不含总体分布的任何参数。常用的统计量有样本矩,次序统计量:将样本按从小到大或者从大到小顺序排列,)作为未知参数的估计,则称这个统计量为未知参数的估计量。

    2.无偏性

        估计量抽样分布的数学期望等于总体参数的真值。如果总体参数为seta,seta1为估计量,如果E(seta1)=seta,那么seta1为seta的无偏估计量。seta1也是一个随机变量,它取决于样本,根据所选样本的不同而变化。

    3.有效性

          指估计量与总体参数的离散程度,如果两个估计量都是无偏的,那么离散程度较小的估计量相对来说是有效的,离散程度用方差来衡量。

    4.一致性(相合性)

           样本数目越大,估计量就越来越接近总体参数的真实值。如果seta1在seta周围震荡,那么满足无偏性却不满足一致性

    更多相关内容
  • 点估计是参数估计的重要组成部分,点估计的常见方法有矩估计和极大似然估计,衡量一个点估计量的好坏的标准有很多,比较常见的有:无偏性(Unbiasedness)、有效性(Efficiency)和一致性(Consistency)。...

    假设检验是非常重要的内容,而抽样和估计又是做假设检验的基础。

    点估计是参数估计的重要组成部分,点估计的常见方法有矩估计和极大似然估计,衡量一个点估计量的好坏的标准有很多,比较常见的有:无偏性(Unbiasedness)、有效性(Efficiency)和一致性(Consistency)。

    由于抽样具有随机性。每次抽出的样本一般都不会相同,根据样本值得到的点估计的值也不尽相同。那么,如何来确定一个点估计的好坏呢?单凭某一次抽样的样本是不具有说服力的,必须要通过很多次抽样的样本来衡量。因此,我们最容易能想到的就是,经过多次抽样后,将所有的点估计值平均起来,也就是取期望值,这个期望值应该和总体参数一样。这就是所谓的无偏性(Unbiasedness)。

    有效性(Efficiency)是指,对同一总体参数,如果有多个无偏估计量,那么标准差最小的估计量更有效。因为一个无偏的估计量并不意味着它就非常接近被估计的参数,它还必须和总体参数的离散程度比较小。

    一致性(Consistency)是指随着样本量的增大,点估计的值越来越接近被估计的总体的参数。

    因为随着样本量增大,样本无限接近总体,那么,点估计的值也就随之无限接近总体参数的值。

    备注:充分性和必要性

    令:A是命题,B是结论
    必要性:A→B
    充分性:B→A
    A→B:A是B的充分条件
    A成立B一定成立,A不成立B不一定不成立
    B→A:A是B的必要条件
    A成立B不一定成立,A不成立B一定不成立
    A↔B:AB互为充要条件(充分必要),即B成立当且仅当A成立

    展开全文
  • 提出一种基于交叉熵(CE)的重要抽样与极限学习机(ELM)相结合的可靠评估算法,一方面通过在系统抽样环节引入CE构建元件的最优概率分布,减小方差变化,加快指标收敛速度;另一方面,采用ELM对重要抽样的状态样本进行...
  • 抽样充分基于相关性和相关性预测数据是否可能很好地分解。 它用于评估从模型中删除哪些变量,因为它们过于多重共线。 有人建议,为了成功拟合因子分析模型,inv(R) 应该是一个近对角矩阵。 为了评估 inv(R) 与...
  • 首先基于Kriging模型和重要性抽样去计算失效概率,然后通过记分函数(score function)方法求出失效概率对各个参数的导数.在计算失效概率时采用反问题(inversion problems)中的不确定逐步减少(stepwise ...
  • 近红外(NIR)光谱分析中的异常样品严重影响所建立模型的分析精度和稳定,将随机抽样一致(RANSAC)算法引入到近红外光谱分析中,以建立稳健的近红外定量分析模型。在RANSAC算法的基础上,结合近红外光谱分析的...
  • 比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。 比较分层抽样、系统抽样和整群抽样 直方图和条形图有何区别? 比较三种不同性质的分布 重复抽样和不重复抽样...
  • 最大似然估计及估计量的无偏性

    千次阅读 2020-07-15 20:59:28
    最大似然估计及估计量的无偏性 1 数理统计基本概念 1.1 总体 XXX 1.2 简单随机样本 1.3 统计量 1.4 样本均值与总体均值、样本方差与总体方差 2 最大似然估计 2.1 分布率与概率密度函数 2.2 似然函数 2.3 最大似然的...

    1 数理统计基本概念

    1.1 总体 X X X

      在数理统计中,我们往往研究有关对象的某一项数量指标(例如,研究某种灯泡的寿命这一数量指标)。为此,考虑与这一数量指标相联系的随机试验,对这一数量指标进行实验或观察。我们将实验全部可能的观察值称为 总体,即所研究对象的全部个体(数据)的集合。这些数值不一定都不相同,数目上也不一定是有限的,每一个可能观察值称为 个体。总体中所包含的个体的数量称为总体的 容量。容量为有限的称为 有限总体,容量为无限的称为 无限总体
      例如,考察某大学,一年级男生的身。,若一年级男生人数为2000人,每个男生的身高是一个可能观察值,所形成的总体中共含2000个可能观察值,是一个有限总体。又例如考察一湖泊任意地点的深度(平面上有无数多的点),所得总体为无限总体。
      因为总体中的每一个个体都是随机实验的一个观察值,因此可以看作某一随机变量 X X X的值,这样,一个总体对应于一个随机变量 X X X。我们对一个总体的研究就是对一个随机变量 X X X的研究, X X X的分布函数与数字特征就称为总体的分布函数和数字特征。笼统的称为总体 X X X
      例如,检验零件的好坏,以0代表正品,1代表次品。设出现次品的概率为 p p p(常数),那么总体就由一些"0"和"1"组成,这个总体对应(0-1)分布 P { X = x } = p x ( 1 − p ) 1 − x ,    x = 0 , 1 P\{X=x\}=p^x(1-p)^{1-x},\ \ x=0,1 P{X=x}=px(1p)1x,  x=0,1的随机变量。

    1.2 简单随机样本

      在实际中,总体分布一般是未知的。在数理统计中,都是通过从总体中抽取一部分个体,根据获取的数据来对总体分布做出推断,被抽取的这部分个体叫做样本。样本 是按照一定的规则从总体中抽样出来的一部分个体,所谓 “按照一定的规则” 是指总体中的每一个个体均有同等被抽出的机会。即相同条件下,对总体 X X X进行相同的,独立的观察并记录结果。将 N N N次观察的结果按实验的次序记为 x 1 , x 2 , ⋯   , x N x_1,x_2,\cdots,x_N x1,x2,,xN,无特别说明样本都指简单随机样本。也可以说 N N N个独立且与总体 X X X同分布的随机变量 X 1 , X 2 , ⋯   , X N X_1,X_2,\cdots,X_N X1,X2,,XN,他们对应的观察值 x 1 , x 2 , ⋯   , x N x_1,x_2,\cdots,x_N x1,x2,,xN称为样本值。将样本看成一个随机变量,写成 ( X 1 , X 2 , ⋯   , X N ) (X_1,X_2,\cdots,X_N) (X1,X2,,XN),此时样本观察值写成 ( x 1 , x 2 , ⋯   , x N ) (x_1,x_2,\cdots,x_N) (x1,x2,,xN)

    【注】样本的性质与维度问题:

    • 样本是独立同分布的,分布函数表示为 F ( x 1 , x 2 , ⋯   , x N ) = F ( x 1 ) F ( x 2 ) ⋯ F ( x N ) = ∏ i = 1 N F ( x i ) F(x_1,x_2,\cdots,x_N )=F(x_1)F(x_2)\cdots F(x_N)=\prod_{i=1}^{N}F(x_i) F(x1,x2,,xN)=F(x1)F(x2)F(xN)=i=1NF(xi);概率密度为 f ( x 1 , x 2 , ⋯   , x N ) = f ( x 1 ) f ( x 2 ) ⋯ f ( x N ) = ∏ i = 1 N f ( x i ) f(x_1,x_2,\cdots,x_N )=f(x_1)f(x_2)\cdots f(x_N)=\prod_{i=1}^{N}f(x_i) f(x1,x2,,xN)=f(x1)f(x2)f(xN)=i=1Nf(xi)
    • 根据研究对象的不同,样本 ( X 1 , X 2 , ⋯   , X N ) (X_1,X_2,\cdots,X_N) (X1,X2,,XN)中的一个样本 X i X_i Xi可以为任意维度的随机变量。在具体的一次观测或实验中,得到一组对应相同维度的具体数值 x 1 , x 2 , ⋯   , x N x_1,x_2,\cdots,x_N x1,x2,,xN,称为样本的观察值或样本值。例如,考察某学校男生身高,则每次观察只需要记录男生身高就行,此时样本为一维数据;再例如考察某地方的环境指标,每次观测会记录该地点的水文,气象等多个值,此时样本为多维数据。有时为便于区分,将样本的观察值记为 ( x 1 , x 2 , ⋯   , x N ) (x_1,x_2,\cdots,x_N) (x1,x2,,xN),即可以理解为在抽样之前或理论研究时, ( X 1 , X 2 , ⋯   , X N ) (X_1,X_2,\cdots,X_N) (X1,X2,,XN)为随机变量;在抽样之后或实际应用时, ( x 1 , x 2 , ⋯   , x N ) (x_1,x_2,\cdots,x_N) (x1,x2,,xN)为观察值,本质上说的是一回事。

    1.3 统计量

      样本 X 1 , X 2 , ⋯   , X N X_1,X_2,\cdots,X_N X1,X2,,XN,不含任何(与总体有关的)未知参数的函数 g ( X 1 , X 2 , ⋯   , X N ) g(X_1,X_2,\cdots,X_N) g(X1,X2,,XN)称为统计量。
    常见的统计量:
    样 本 均 值 : X ‾ = 1 N ∑ i = 1 N X i 样本均值:\overline{X}=\frac{1}{N}\sum_{i=1}^{N}X_i X=N1i=1NXi 样 本 方 差 : S 2 = 1 N − 1 ∑ i = 1 N ( X i − X ‾ ) 2 = 1 N − 1 ∑ i = 1 N ( X i 2 − N X ‾ ) 样本方差:S^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\overline{X})^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i^2-N\overline{X}) S2=N11i=1N(XiX)2=N11i=1N(Xi2NX)

    1.4 样本均值与总体均值、样本方差与总体方差

      样本为从总体中抽样出来的个体,一般都是可数的,所以求样本均值时,直接用所有样本观察值之和除以样本个数即可。求样本均值也就是求平均值( N N N为样本个数),即: X ‾ = 1 N ∑ i = 1 N x i \overline{X}=\frac{1}{N}\sum_{i=1}^{N}x_i X=N1i=1Nxi而总体的个数不一定是可数的,用上述的方式求总体的均值显然是不合适的。
      举个栗子,射击手进行打靶练习,规定射入区域 e 2 e_2 e2 2 2 2 分,射入区域 e 1 e_1 e1 1 1 1 分,射入区域 e 0 e_0 e0 0 0 0 分,射击手一次射击得分数 X X X 是一个随机变量。
    在这里插入图片描述

    X X X 的分布率为 P { X = k } = p k ,    k = 0 , 1 , 2 P\{ X=k\}=p_k,\ \ k=0,1,2 P{X=k}=pk,  k=0,1,2现在射击 N N N 次,其中得 0 0 0 分的有 a 0 a_0 a0 次,其中得 1 1 1 分的有 a 1 a_1 a1 次,其中得 2 2 2 分的有 a 2 a_2 a2 次, a 0 + a 1 + a 2 = N a_0+a_1+a_2=N a0+a1+a2=N。他射击 N N N次得分的总和为 a 0 ∗ 0 + a 1 ∗ 1 + a 2 ∗ 2 a_0*0+a_1*1+a_2*2 a00+a11+a22。于是平均一次射击的得分为: a 0 ∗ 0 + a 1 ∗ 1 + a 2 ∗ 2 N = ∑ k = 0 2 k a k N \frac{a_0*0+a_1*1+a_2*2}{N}=\sum_{k=0}^{2}k\frac{a_k}{N} Na00+a11+a22=k=02kNak这里, a k N \frac{a_k}{N} Nak是事件 { X = k } \{X=k\} {X=k},当 N N N很大时, a k N \frac{a_k}{N} Nak在一定意义下接近于事件 { X = k } \{X=k\} {X=k}的概率 p k p_k pk。就是说,在实验次数很大时,随机变量 X X X的观察值的平均数 ∑ k = 0 2 k a k N \sum_{k=0}^{2}k\frac{a_k}{N} k=02kNak接近于 ∑ k = 0 2 k p k \sum_{k=0}^{2}kp_k k=02kpk,这一条就是大数定律的内容。我们称 ∑ k = 0 2 k p k \sum_{k=0}^{2}kp_k k=02kpk为随机变量 X X X的数学期望。一般,有以下定义。

      定义   设离散随机变量 X X X的分布律为 P { X = x k } = p k ,    k = 1 , 2 , ⋯   . P\{X=x_k\}=p_k,\ \ k=1,2,\cdots. P{X=xk}=pk,  k=1,2,.若级数 ∑ k = 1 ∞ x k p k \sum_{k=1}^{\infty}x_kp_k k=1xkpk绝对收敛,则称级数 ∑ k = 1 ∞ x k p k \sum_{k=1}^{\infty}x_kp_k k=1xkpk的和为随机变量 X X X数学期望,记为 E ( X ) E(X) E(X)。即 E ( X ) = ∑ k = 1 ∞ x k p k E(X)=\sum_{k=1}^{\infty}x_kp_k E(X)=k=1xkpk  设连续型随机变量 X X X的概率密度为 f ( x ) f(x) f(x),若积分 ∫ − ∞ ∞ f ( x ) d x \int_{-\infty}^{\infty}f(x)dx f(x)dx绝对收敛,则称积分 ∫ − ∞ ∞ f ( x ) d x \int_{-\infty}^{\infty}f(x)dx f(x)dx的值为随机变量 X X X的数学期望,记为 E ( X ) E(X) E(X)。即 E ( X ) = ∫ − ∞ ∞ f ( x ) d x E(X)=\int_{-\infty}^{\infty}f(x)dx E(X)=f(x)dx  数学期望简称期望,又称均值
      数学期望 E ( X ) E(X) E(X)完全由随机变量 X X X的概率分布所决定。若 X X X服从某一分布,也称 E ( X ) E(X) E(X)是这一分布的数学期望。

    样本均值与总体均值差异:
    在这里插入图片描述
    (1)样本均值的计算依据是样本个数,总体均值的计算依据是总体的个数。一般情况下样本个数小于等于总体个数。
    (2)样本均值代表着所抽取的样本的集中趋势,而总体均值代表着全体个体的集中趋势。样本来自总体,但是样本只是总体的一部分,一般有差异。
    (3)选取样本的个数非常接近以至于等于总体的个数,那么样本均值与总体均值描述的就是一个对象了,这样二者自然就相等了,这一条就是大数定律的内容。

      下面是方差,方差是用来计算变量与均值之间的差异。如果这个均值采用的是总体均值 μ \mu μ(数学期望),则结果为总体方差 σ 2 = 1 N ∑ i = 1 N ( X i − μ ) 2 \sigma^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2 σ2=N1i=1N(Xiμ)2;但是,如果这个均值采用的是样本均值 X ‾ \overline{X} X,样本方差 S 2 = 1 N ∑ i = 1 N ( X i − X ‾ ) 2 S^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2 S2=N1i=1N(XiX)2,样本方差定义成这样是有偏差的,这不是真正的样本方差。为了纠正这个偏量,将 样本方差 定义为: S 2 = 1 N − 1 ∑ i = 1 N ( X i − X ‾ ) 2 S^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\overline{X})^2 S2=N11i=1N(XiX)2,具体为什么样本方差除以 N − 1 N-1 N1而不是 N N N,下面最大似然求高斯分布估计量的时候会说明。在这里也可以看出,是跟均值有关系,由于样本均值与总体均值的不一致导致的偏差。

    2 最大似然估计

      极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的另一种方法,最大概似是1821年首先由德国数学家高斯(C. F. Gauss)提出。

    2.1 分布率与概率密度函数

      概率分布,是指用于表述随机变量取值的概率规律,即随机变量的可能取值及取得对应值的概率。对于离散性的随机变量的分布率记为 p ( x ) p(x) p(x);连续型随机变量的概率密度函数记为 f ( x ) f(x) f(x),本质上是一个东西,只是一个是离散的一个是连续的。以含有参数 θ \theta θ 的分布率为例,形式上表示为: p ( x ; θ ) = p ( x , θ ) = p ( x ∣ θ ) p(x;\theta)=p(x,\theta)=p(x|\theta) p(x;θ)=p(x,θ)=p(xθ),在机器学习中,这些表示都是一个意思,都表示在含有参数 θ \theta θ 的情况下, x x x 的概率。

    2.2 似然函数

      样本 X 1 , X 2 , … , X N X_1,X_2,\dots,X_N X1,X2,,XN 取到观察值 x 1 , x 2 , … , x N x_1,x_2,\dots,x_N x1,x2,,xN 的概率 L ( θ ) L(\theta) L(θ),称为似然函数。

    • 若总体 X X X 为离散型,且分布律 P ( X = x ) = p ( x ; θ ) P(X=x)=p(x;\theta) P(X=x)=p(x;θ),则似然函数 L ( θ ) = P ( X 1 = x 1 , X 2 = x 2 , … , X N = x N , ) = ∏ i = 1 N p ( X i = x i ) = ∏ i = 1 N p ( x i ; θ ) L(\theta)=P(X_1=x_1,X_2=x_2,\dots, X_N=x_N,)=\prod_{i=1}^{N}p(X_i=x_i)=\prod_{i=1}^{N}p(x_i;\theta) L(θ)=P(X1=x1,X2=x2,,XN=xN,)=i=1Np(Xi=xi)=i=1Np(xi;θ)
    • 若总体 X X X 为连续型,且概率密度函数为 f ( x ) = f ( x ; θ ) f(x)=f(x;\theta) f(x)=f(x;θ),由于 P ( x = x i ) = 0 P(x=x_i)=0 P(x=xi)=0,则考虑 X X X 落在点 x i x_i xi 的某一领域 U ( x i ) U(x_i) U(xi) 内的概率, P ( X 1 ∈ U ( x 1 ) , X 2 ∈ U ( x 1 2 ) , … , X N ∈ U ( x N ) ) = f ( x 1 ; θ ) d x 1   f ( x 2 ; θ ) d x 2   … f ( x N ; θ ) d x N = ∏ i = 1 N f ( x i ; θ ) P(X_1 \in U(x_1),X_2 \in U(x_12),\dots,X_N \in U(x_N))=f(x_1;\theta)dx_1 \ f(x_2;\theta)dx_2 \ \dots f(x_N;\theta)dx_N=\prod_{i=1}^{N}f(x_i;\theta) P(X1U(x1)X2U(x12)XNU(xN))=f(x1;θ)dx1 f(x2;θ)dx2 f(xN;θ)dxN=i=1Nf(xi;θ),取似然函数 L ( θ ) = ∏ i = 1 N f ( x i ; θ ) L(\theta)=\prod_{i=1}^{N}f(x_i;\theta) L(θ)=i=1Nf(xi;θ)

    2.3 最大似然的目的

      在位置参数 θ \theta θ 的取值范围内求 θ ^ \hat{\theta} θ^,使 L ( θ ^ ) = m a x L ( θ ) L(\hat{\theta})=maxL(\theta) L(θ^)=maxL(θ),即 θ \theta θ 的最大似然估计 θ ^ \hat{\theta} θ^ 为似然估计 L ( θ ) L(\theta) L(θ) 的最大值点。

    2.4 最大似然求解步骤

    第一步:写出似然函数 L ( θ ) L(\theta) L(θ),并取对数 l o g log log,对数可以以 2 2 2 为底也可以以 e e e为 底;
    第二步:令 d l o g L ( θ ) d θ = 0 \frac{dlogL(\theta)}{d\theta}=0 dθdlogL(θ)=0 ∂ l o g L ( θ 1 , θ 2 ) ∂ θ i = 0 ( i = 1 , 2 ) \frac{\partial logL(\theta_1,\theta_2)}{\partial \theta_i}=0(i=1,2) θilogL(θ1,θ2)=0(i=1,2),建立方程(组)。若从中解的唯一驻点 θ ^ = θ ^ ( X 1 , X 2 , … , X N ) \hat{\theta}=\hat{\theta}(X_1,X_2,\dots,X_N) θ^=θ^(X1,X2,,XN) θ ^ = ( θ ^ 1 , θ ^ 2 ) = ( θ ^ 1 ( X 1 , X 2 , … , X N ) , θ ^ 2 ( X 1 , X 2 , … , X N ) ) \hat{\theta}=(\hat{\theta}_1,\hat{\theta}_2)=(\hat{\theta}_1(X_1,X_2,\dots,X_N),\hat{\theta}_2(X_1,X_2,\dots,X_N)) θ^=(θ^1,θ^2)=(θ^1(X1,X2,,XN),θ^2(X1,X2,,XN)),则 θ ^ \hat{\theta} θ^ θ \theta θ 的最大似然估计;
    第三步:若上述方程无解,则 L ( θ ) L(\theta) L(θ) θ \theta θ θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2 的单调函数, θ ^ \hat{\theta} θ^ 在端点或边界上取得,需要根据具体情况具体分析。

    2.5 最大似然估计的不变性

      设 θ ^ \hat{\theta} θ^ 是未知参数 θ \theta θ 的最大似然估计量,对于 θ \theta θ 的函数 g ( θ ) g(\theta) g(θ),如果 g ( θ ) g(\theta) g(θ) 具有单值反函数,则 g ( θ ^ ) g(\hat{\theta}) g(θ^) g ( θ ) g(\theta) g(θ) 的最大似然估计量。例如,均值位置的正太总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 的方差 σ 2 \sigma^2 σ2 的最大似然估计量为 σ ^ 2 = 1 N ∑ i = 1 N ( X i − X ‾ ) 2 \hat{\sigma}^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2 σ^2=N1i=1N(XiX)2,则总体标准差 σ \sigma σ 的最大似然估计为 σ = 1 N ∑ i = 1 N ( X i − X ‾ ) 2 \sigma=\sqrt{\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2} σ=N1i=1N(XiX)2

    2.6 最大似然估计量的评选标准

    2.6.1 无偏性

      设 θ ^ \hat{\theta} θ^ θ \theta θ 的估计量,若 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ,就称 θ ^ \hat{\theta} θ^ θ \theta θ的无偏估计,否则称为有偏估计。若 lim ⁡ N → ∞ E ( θ ^ ) = θ \mathop{\lim}_{N \to \infty }E(\hat{\theta})=\theta limNE(θ^)=θ,就称 θ ^ \hat{\theta} θ^ θ \theta θ的渐近无偏估计。
      常用结论

    • X ‾ \overline{X} X E ( X ) = μ E(X)=\mu E(X)=μ的无偏估计,即 E ( X ‾ ) = E ( X ) = μ E(\overline{X})=E(X)=\mu E(X)=E(X)=μ
    • S 2 S^2 S2 D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2的无偏估计,即 E ( S 2 ) = D ( X ) = σ 2 E(S^2)=D(X)=\sigma^2 E(S2)=D(X)=σ2
    • 设估计量 θ ^ 1 , θ ^ 2 , ⋯   , θ ^ N , \hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_N, θ^1,θ^2,,θ^N,均为 θ \theta θ的无偏估计量, c 1 , c 2 , ⋯   , c N c_1,c_2,\cdots,c_N c1,c2,,cN为常数,且 ∑ i = 1 N c i = 1 \sum_{i=1}^{N}c_i=1 i=1Nci=1,则 c 1 θ ^ 1 , c 2 θ ^ 2 , ⋯   , c N θ ^ N c_1\hat{\theta}_1,c_2\hat{\theta}_2,\cdots,c_N\hat{\theta}_N c1θ^1,c2θ^2,,cNθ^N仍为 θ \theta θ的无偏估计。

    【注】若 θ ^ \hat{\theta} θ^ θ \theta θ的无偏估计,则 g ( θ ^ ) g(\hat{\theta}) g(θ^)未必是 g ( θ ) g(\theta) g(θ)的无偏估计。

    2.6.2 有效性

      设 θ ^ 1 , θ ^ 2 \hat{\theta}_1,\hat{\theta}_2 θ^1,θ^2均为 θ \theta θ的无偏估计,若 D ( θ ^ 1 ) < D ( θ ^ 2 ) D(\hat{\theta}_1)<D(\hat{\theta}_2) D(θ^1)<D(θ^2),就称 θ ^ 1 \hat{\theta}_1 θ^1 θ ^ 2 \hat{\theta}_2 θ^2更有效。总之,期望相同比方差。

    2.6.3 一致性(相合性)

      若对 ∀ ε > 0 \forall\varepsilon>0 ε>0,有 lim ⁡ N → ∞ P { ∣ θ ^ − θ ∣ < ε } = 1 \mathop{\lim}_{N \to \infty }P\left\{|\hat{\theta}-\theta|<\varepsilon \right \}=1 limNP{θ^θ<ε}=1,就称 θ ^ \hat{\theta} θ^ θ \theta θ的一致估计量或相合估计量。

    3 一维高斯分布

    3.1 一维高斯分布概率密度函数

    一维高斯分布(正态分布)函数: f ( x ∣   μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x| \ \mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x μ,σ)=2π σ1e2σ2(xμ)2 或者这种写法 f ( x ∣   μ , σ ) = 1 2 π σ e x p { − ( x − μ ) 2 2 σ 2 } f(x | \ \mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\} f(x μ,σ)=2π σ1exp{2σ2(xμ)2}
    高斯分布图像,以 μ = 4 , σ = 1 \mu=4,\sigma=1 μ=4,σ=1 为例:在这里插入图片描述

    3.1 一维高斯分布最大似然估计以及检测估计量的无偏性

    题目 :设总体 X ∼ N ( μ , σ 2 ) ,   ( X 1 , X 2 , ⋯   , X N ) X\sim N(\mu,\sigma^2), \ (X_1,X_2,\cdots,X_N) XN(μ,σ2), (X1,X2,,XN)为来自总体 X X X的样本。
    (1)如果 σ 2 \sigma^2 σ2已知, μ \mu μ未知,求 μ \mu μ的最大似然估计量 μ ^ \hat{\mu} μ^
    (2)如果 μ \mu μ已知, σ 2 \sigma^2 σ2未知,求 σ 2 \sigma^2 σ2的最大似然估计量 σ ^ 2 \hat{\sigma}^2 σ^2
    (3)如果 μ \mu μ σ 2 \sigma^2 σ2均未知,求 μ \mu μ σ 2 \sigma^2 σ2的最f大似然估计量 μ ^ \hat{\mu} μ^ σ ^ 2 \hat{\sigma}^2 σ^2

    分析
    样本数据 D a t a : Data: Data: X = ( x 1 , x 2 , ⋯   , x N ) = ( x 1 p x 2 p ⋮ x N p ) N × p ,     x i ∈ R p ,     x i ∼ i i d N ( μ , σ 2 ) X = \begin{pmatrix} x_1,x_2,\cdots,x_N \end{pmatrix} =\begin{pmatrix} x_1^p \\x_2^p \\ \vdots \\ x_N^p \end{pmatrix}_{N\times p}, \ \ \ x_i \in \mathbb{R}^p, \ \ \ x_i \overset{iid}{\sim}N(\mu,\sigma^2) X=(x1,x2,,xN)=x1px2pxNpN×p,   xiRp,   xiiidN(μ,σ2) 目标函数 G o a l : Goal: Goal: 求最大似然估计。为了方便表示函数,用参数 θ \theta θ 表示参数 ( μ , σ ) (\mu,\sigma) (μ,σ) M L E : θ ^ = a r g   m a x θ   l n L ( X ∣   μ , σ ) MLE:\hat{\theta}=arg \ \underset{\theta}{max} \ lnL(X| \ \mu,\sigma) MLE:θ^=arg θmax lnL(X μ,σ) 【注】因为高斯分布的概率密度中有以 e e e 为底的指数函数,为了方便计算。所以这里的对数似然函数选取以 e e e 为底的 l n ln ln


    (1)设 x 1 , x 2 , ⋯   , x N x_1,x_2,\cdots,x_N x1,x2,,xN为样本的观测值,由于 σ 2 \sigma^2 σ2已知, μ \mu μ未知,似然函数为: L ( X ∣ μ ) = ∏ i = 1 N p ( x i ∣ μ ) = ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } \begin{aligned} L(X|\mu) &= \prod_{i=1}^{N}p(x_i|\mu) \\ &= \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2} \right\} \end{aligned} L(Xμ)=i=1Np(xiμ)=i=1N2π σ1exp{2σ2(xiμ)2} 似然函数取对数: l n L ( X ∣ μ ) = l n ∏ i = 1 N p ( x i ∣ μ ) = l n ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } = − N 2 l n ( 2 π ) − N l n σ − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2 \begin{aligned} lnL(X|\mu) &= ln\prod_{i=1}^{N}p(x_i|\mu) \\ &= ln\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\&=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 \end{aligned} lnL(Xμ)=lni=1Np(xiμ)=lni=1N2π σ1exp{2σ2(xiμ)2}=2Nln(2π)Nlnσ2σ21i=1N(xiμ)2 对数似然取导数: d l n L ( X ∣ μ ) d μ = ∑ i = 1 N 1 σ 2 ( x i − μ ) = 0 \frac{dlnL(X|\mu)}{d\mu}=\sum_{i=1}^{N}\frac{1}{\sigma^2}(x_i-\mu)=0 dμdlnL(Xμ)=i=1Nσ21(xiμ)=0 ∑ i = 1 N ( x i − μ ) = 0 \sum_{i=1}^{N}(x_i-\mu)=0 i=1N(xiμ)=0 ∑ i = 1 N x i − N μ = 0 \sum_{i=1}^{N}x_i-N\mu=0 i=1NxiNμ=0 μ ^ = 1 N ∑ i = 1 N X i = X ‾ ( 发 现 结 果 为 样 本 均 值 ) \hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}X_i=\overline{X}(发现结果为样本均值) μ^=N1i=1NXi=X() 从结果中可以看出, μ \mu μ的最大似然估计量,只受样本值的影响。从定义的角度证明: E [ μ ^ ] = E [ 1 N ∑ i = 1 N X i ] = 1 N ∑ i = 1 N E [ X i ] = 1 N N μ = μ E[\hat{\mu}]=E[\frac{1}{N}\sum_{i=1}^{N}X_i]=\frac{1}{N}\sum_{i=1}^{N}E[X_i]=\frac{1}{N}N\mu=\mu E[μ^]=E[N1i=1NXi]=N1i=1NE[Xi]=N1Nμ=μ即, μ ^ \hat{\mu} μ^ μ \mu μ的无偏估计量。

    (2)设 x 1 , x 2 , ⋯   , x N x_1,x_2,\cdots,x_N x1,x2,,xN为样本的观测值,由于 μ \mu μ已知, σ 2 \sigma^2 σ2未知,似然函数为: L ( X ∣ σ 2 ) = ∏ i = 1 N p ( x i ∣ σ 2 ) = ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } \begin{aligned} L(X|\sigma^2) &= \prod_{i=1}^{N}p(x_i|\sigma^2) \\ &= \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\}\end{aligned} L(Xσ2)=i=1Np(xiσ2)=i=1N2π σ1exp{2σ2(xiμ)2} 似然函数取对数: l n L ( X ∣ σ 2 ) = l n ∏ i = 1 N p ( x i ∣ σ 2 ) = l n ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } = − N 2 l n ( 2 π ) − N 2 l n ( σ 2 ) − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2 \begin{aligned} lnL(X|\sigma^2) &= ln\prod_{i=1}^{N}p(x_i|\sigma^2) \\ &= ln\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\&=-\frac{N}{2}ln(2\pi)-\frac{N}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 \end{aligned} lnL(Xσ2)=lni=1Np(xiσ2)=lni=1N2π σ1exp{2σ2(xiμ)2}=2Nln(2π)2Nln(σ2)2σ21i=1N(xiμ)2 对数似然取导数: d l n L ( X ∣ σ 2 ) d σ 2 = ∑ i = 1 N 1 σ 2 ( x i − μ ) = 0 \frac{dlnL(X|\sigma^2)}{d\sigma^2}= \sum_{i=1}^{N}\frac{1}{\sigma^2}(x_i-\mu)=0 dσ2dlnL(Xσ2)=i=1Nσ21(xiμ)=0 − N 2 σ 2 + 1 2 σ 4 ∑ i = 1 N ( x i − μ ) 2 = 0 -\frac{N}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^{N}(x_i-\mu)^2 =0 2σ2N+2σ41i=1N(xiμ)2=0 σ ^ 2 = 1 N ∑ i = 1 N ( X i − μ ) 2 \hat{\sigma}^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2 σ^2=N1i=1N(Xiμ)2 从结果中可以看出, σ ^ 2 \hat{\sigma}^2 σ^2受到样本值以及均值 μ \mu μ的影响,但是题目中已经说明, μ \mu μ是已知条件,所以这里的 μ \mu μ就是已知的总体均值,所以本质上 σ ^ 2 \hat{\sigma}^2 σ^2也仅受样本值的影响。从定义的角度证明: E [ σ ^ 2 ] = E [ 1 N ∑ i = 1 N ( X i − μ ) 2 ] = E [ 1 N ∑ i = 1 N X i 2 − 1 N ∑ i = 1 N 2 X i μ + 1 N ∑ i = 1 N μ 2 ] = E [ 1 N ∑ i = 1 N X i 2 − 2 μ 2 + μ 2 ] = E [ ( 1 N ∑ i = 1 N X i 2 − μ 2 ) ] = 1 N ∑ i = 1 N ( E ( X i 2 ) − E 2 ( X i ) ) = D ( X i ) = σ 2 \begin{aligned} E[\hat{\sigma}^2] &=E[\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-\frac{1}{N}\sum_{i=1}^{N}2X_i\mu+\frac{1}{N}\sum_{i=1}^{N}\mu^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-2\mu^2+\mu^2]\\&=E[(\frac{1}{N}\sum_{i=1}^{N}X_i^2-\mu^2)]\\&=\frac{1}{N}\sum_{i=1}^{N}(E(X_i^2)-E^2(X_i))\\&= D(X_i)\\&=\sigma^2\\ \end{aligned} E[σ^2]=E[N1i=1N(Xiμ)2]=E[N1i=1NXi2N1i=1N2Xiμ+N1i=1Nμ2]=E[N1i=1NXi22μ2+μ2]=E[(N1i=1NXi2μ2)]=N1i=1N(E(Xi2)E2(Xi))=D(Xi)=σ2 σ ^ 2 \hat{\sigma}^2 σ^2 σ 2 \sigma^2 σ2的无偏估计。

    (3)设 x 1 , x 2 , ⋯   , x N x_1,x_2,\cdots,x_N x1,x2,,xN为样本的观值, μ \mu μ σ 2 \sigma^2 σ2均未知,似然函数为: L ( X ∣ μ , σ 2 ) = ∏ i = 1 N p ( x i ∣ μ , σ 2 ) = ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } \begin{aligned} L(X|\mu,\sigma^2) &= \prod_{i=1}^{N}p(x_i| \mu,\sigma^2) \\ &= \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\}\end{aligned} L(Xμ,σ2)=i=1Np(xiμ,σ2)=i=1N2π σ1exp{2σ2(xiμ)2} 似然函数取对数: l n L ( X ∣ μ , σ 2 ) = l n ∏ i = 1 N p ( x i ∣ σ 2 ) = l n ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } = − N 2 l n ( 2 π ) − N 2 l n ( σ 2 ) − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2 \begin{aligned} lnL(X|\mu,\sigma^2) &= ln\prod_{i=1}^{N}p(x_i|\sigma^2) \\ &= ln\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\&=-\frac{N}{2}ln(2\pi)-\frac{N}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 \end{aligned} lnL(Xμ,σ2)=lni=1Np(xiσ2)=lni=1N2π σ1exp{2σ2(xiμ)2}=2Nln(2π)2Nln(σ2)2σ21i=1N(xiμ)2 分别对 μ \mu μ σ 2 \sigma^2 σ2取偏导: ∂ l n L ( X ∣ μ , σ 2 ) ∂ μ = ∑ i = 1 N 1 σ 2 ( x i − μ ) = 0 \frac{\partial lnL(X|\mu,\sigma^2)}{\partial \mu}=\sum_{i=1}^{N}\frac{1}{\sigma^2}(x_i-\mu)=0 μlnL(Xμ,σ2)=i=1Nσ21(xiμ)=0 ∑ i = 1 N ( x i − μ ) = 0 \sum_{i=1}^{N}(x_i-\mu)=0 i=1N(xiμ)=0 μ ^ = 1 N ∑ i = 1 N X i = X ‾ \hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}X_i=\overline{X} μ^=N1i=1NXi=X ∂ l n L ( X ∣ μ , σ 2 ) ∂ σ 2 = − N 2 σ 2 + 1 2 σ 4 ∑ i = 1 N ( x i − μ ) 2 = 0 \frac{\partial lnL(X|\mu,\sigma^2)}{\partial \sigma^2}=-\frac{N}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^{N}(x_i-\mu)^2 =0 σ2lnL(Xμ,σ2)=2σ2N+2σ41i=1N(xiμ)2=0 − N + 1 σ 2 ∑ i = 1 N ( x i − μ ) 2 = 0 -N+\frac{1}{\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 =0 N+σ21i=1N(xiμ)2=0 σ ^ 2 = 1 N ∑ i = 1 N ( X i − μ ^ ) 2 = 1 N ∑ i = 1 N ( X i − X ‾ ) 2 \hat{\sigma}^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\hat{\mu})^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2 σ^2=N1i=1N(Xiμ^)2=N1i=1N(XiX)2
    在下面的无偏性检验中,可以发现 μ ^ \hat{\mu} μ^为无偏性估计,而 σ ^ 2 \hat{\sigma}^2 σ^2为有偏性估计。因为求高斯分布时,参数 μ , σ 2 \mu,\sigma^2 μ,σ2都是未知的,而求 μ ^ \hat{\mu} μ^时,不需要依赖未知参数 σ 2 \sigma^2 σ2(计算时被约去了);而计算 σ ^ 2 \hat{\sigma}^2 σ^2时,需要依赖 μ \mu μ,但是 μ \mu μ也未知,所以只能用已计算出来的 μ ^ \hat{\mu} μ^代替,而不是真正的总体均值 μ \mu μ,这就是有偏的原因。根据定义证明:
    (a)检测估计量 μ ^ \hat{\mu} μ^的无偏性 E [ μ ^ ] = E [ X ‾ ] = E [ 1 N ∑ i = 1 N X i ] = 1 N ∑ i = 1 N E [ X i ] = 1 N N μ = μ E[\hat{\mu}]=E[\overline{X}]=E[\frac{1}{N}\sum_{i=1}^{N}X_i]=\frac{1}{N}\sum_{i=1}^{N}E[X_i]=\frac{1}{N}N\mu=\mu E[μ^]=E[X]=E[N1i=1NXi]=N1i=1NE[Xi]=N1Nμ=μ μ ^ \hat{\mu} μ^ μ \mu μ的无偏估计。
    (b)检测估计量 σ 2 ^ \hat{\sigma^2} σ2^的无偏估计,且需要明确一些条件: 估 计 量 μ ^ 的 方 差 : D ( μ ^ ) = D ( X ‾ ) = D ( 1 N ∑ i = 1 N X i ) = 1 N 2 ∑ i = 1 N D ( X i ) = 1 N 2 N σ 2 = σ 2 N 估计量\hat{\mu}的方差: D(\hat{\mu})=D(\overline{X})=D(\frac{1}{N}\sum_{i=1}^{N}X_i)=\frac{1}{N^2}\sum_{i=1}^{N}D(X_i)=\frac{1}{N^2}N\sigma^2=\frac{\sigma^2}{N} μ^D(μ^)=D(X)=D(N1i=1NXi)=N21i=1ND(Xi)=N21Nσ2=Nσ2 总 体 方 差 : D ( X i ) = σ 2 = 1 N ∑ i = 1 N ( X i − μ ) 2 总体方差:D(X_i)=\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2 D(Xi)=σ2=N1i=1N(Xiμ)2 E [ σ ^ 2 ] = E [ 1 N ∑ i = 1 N ( X i − X ‾ ) 2 ] = E [ 1 N ∑ i = 1 N X i 2 − 1 N ∑ i = 1 N 2 X i X ‾ + 1 N ∑ i = 1 N X ‾ 2 ] = E [ 1 N ∑ i = 1 N X i 2 − 2 X ‾ 2 + X ‾ 2 ] = E [ ( 1 N ∑ i = 1 N X i 2 − μ 2 ) − ( X ‾ 2 − μ 2 ) ] = E [ 1 N ∑ i = 1 N ( X i 2 − μ 2 ) ] − E ( X ‾ 2 − μ 2 ) = 1 N ∑ i = 1 N ( E ( X i 2 ) − E 2 ( X i ) ) − ( E ( X ‾ 2 ) − E 2 ( X ‾ ) ) = D ( X i ) − D ( X ‾ ) = σ 2 − σ 2 N = N − 1 N σ 2 \begin{aligned} E[\hat{\sigma}^2] &=E[\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-\frac{1}{N}\sum_{i=1}^{N}2X_i\overline{X}+\frac{1}{N}\sum_{i=1}^{N}\overline{X}^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-2\overline{X}^2+\overline{X}^2]\\&=E[(\frac{1}{N}\sum_{i=1}^{N}X_i^2-\mu^2)-(\overline{X}^2-\mu^2)]\\&=E[\frac{1}{N}\sum_{i=1}^{N}(X_i^2-\mu^2)] -E(\overline{X}^2-\mu^2)\\&=\frac{1}{N}\sum_{i=1}^{N}(E(X_i^2)-E^2(X_i))-(E(\overline{X}^2)-E^2(\overline{X}))\\&= D(X_i)-D(\overline{X}) \\&=\sigma^2-\frac{\sigma^2}{N}\\&=\frac{N-1}{N}\sigma^2 \end{aligned} E[σ^2]=E[N1i=1N(XiX)2]=E[N1i=1NXi2N1i=1N2XiX+N1i=1NX2]=E[N1i=1NXi22X2+X2]=E[(N1i=1NXi2μ2)(X2μ2)]=E[N1i=1N(Xi2μ2)]E(X2μ2)=N1i=1N(E(Xi2)E2(Xi))(E(X2)E2(X))=D(Xi)D(X)=σ2Nσ2=NN1σ2 显然,所求结果 E ( σ ^ 2 ) E(\hat{\sigma}^2) E(σ^2)不等于 σ 2 \sigma^2 σ2 σ ^ 2 \hat{\sigma}^2 σ^2为有偏估计,既然有偏就需要纠偏,样本的方差该如何表示呢?根据结果,看出偏移的部分是系数 N − 1 N \frac{N-1}{N} NN1,那就在原方程的基础上乘以系数的倒数 N N − 1 \frac{N}{N-1} N1N,将系数部分抵消掉,这样结果就只剩 σ 2 \sigma^2 σ2了,就是无偏估计了。则无偏的样本方差 S 2 S^2 S2定义为: S 2 = N N − 1 1 N ∑ i = 1 N ( X i − X ‾ ) 2 = 1 N − 1 ∑ i = 1 N ( X i − X ‾ ) 2 = 1 N − 1 ∑ i = 1 N ( X i 2 − N X ‾ ) S^2=\frac{N}{N-1}\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\overline{X})^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i^2-N\overline{X}) S2=N1NN1i=1N(XiX)2=N11i=1N(XiX)2=N11i=1N(Xi2NX)

    参考浙大版概率论与数理统计

    展开全文
  • 什么是无偏估计和有估计

    千次阅读 2020-12-29 11:04:07
    展开全部有偏估计(biased estimate)是指由样本值求得的估计值与待估参数的真值之间有系统误差,其期望值不是...估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的偏估计,即具有无偏性,是一种...

    展开全部

    有偏估计(biased estimate)是指由样本值求得的估计值与待估参数的真值之间有系统误差,其期望值不是待32313133353236313431303231363533e4b893e5b19e31333431376634估参数的真值。

    无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。

    假设A市有10000名小学六年级的学生,他们进行一次考试,成绩服从1~100的均匀分布。1号学生考1分,2号学生考1.01分......10000号学生考100分。

    那么,他们的平均分为(1+1.01+1.02+...+100)/10000=50.5,这个值是总体期望,但实际上我们并不能知道这个值,只能通过样本估计。

    可以给A市88所小学打电话,让学校老师随机选取一名学生成绩报上来,这样就可以得到88名学生的成绩,这88名学生就是我们第一个随机选取的样本,我们算出平均值,记作。

    然后再重新给A市88所小学打电话,重新随机选取88名学生的成绩,这是第二个随机样本。算出样本2的平均值,记作。

    然后重复n遍,获得n个样本均值,你会发现样本均值的分布符合正态分布。我们就可以用最大似然估计或距估计求得这个正态分布的期望。

    而样本平均数的期望(在这里就是均值),极其接近总体的期望。我们称之为无偏估计,一次抽样计算的平均值就说是总体均值的做法就是有偏估计(biased estimator)

    扩展资料

    (1)无偏估计有时并不一定存在。

    (2)可估参数的无偏估计往往不唯一。统计学中,将存在无偏估计的参数称为可估参数,可估参数的无偏估计往往不唯一,而且只要不唯一,则即有无穷多个。一个参数往往有不止一个无偏估计。

    (3)无偏估计不一定是好估计。

    展开全文
  • 理解无偏估计量

    千次阅读 2020-08-25 19:23:32
    理解偏估计量 ...无偏性 比如我们抽样到的女性身高为: x1,x2,…,xn{x_{1},x_{2},\dots,x_{n}}x1​,x2​,…,xn​,那么: X‾=x1+x2+⋯+xnn \overline{X}=\frac{x_{1}+x_{2}+\dots+x_{n}}{n} X=nx1​+x
  • 数学概念-无偏估计

    千次阅读 2019-10-01 17:36:08
    所谓总体参数估计量的无偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值。 在某些场合下,无偏性的要求是有实际意义的。例如,假设在某厂商与某销售商之间存在长期...
  • 如何理解无偏估计量?

    万次阅读 多人点赞 2018-09-15 16:49:04
    1 无偏性 比如说我们采样到的女性身高分别为: 那么: 是对 不错的一个估计,为什么?因为它是偏估计。 首先,真正的全体女性的身高均值 ,我们是不知道,只有上帝才知道,在图中就画...
  • 过程质量控制技术与抽样检验
  • 在之前的学习中,主要基于充分统计量给出点估计,并且注重于点估计的无偏性与相合性。然而,仅有这两个性质是不足的,无偏性只能保证统计量的均值与待估参数一致,却无法控制统计量可能偏离待估参数的程度;相合性...
  • 1. 抽样 1.1简单随机样本 从容量为N的总体中,抽取一个容量为n的样本,如果容量为n的样本中,每一个可能的样本都以相等的概率被抽取,那么该样本为简单随机样本。 1.2随机样本 从一个无限总体中抽取一个容量为n...
  • 抽样调查系统抽样培训课程.pptx
  • 抽样技术笔记

    2022-04-11 20:33:52
    即随机抽样,按照概率原则,根据“单元是否按照一定的概率入样”划分,总体中每个单位都有一定的概率被选入样本,使得样本对总体具有充分代表,避免人为因素干扰。 1.2.2 非概率抽样 即非随机抽样,以
  • 抽样技术习题答案

    2014-09-27 20:15:20
    抽样技术习题答案!人大抽样技术教材的答案,杜子芳老师讲的这门课!
  • 无偏估计和有估计的理解

    千次阅读 2021-08-31 10:55:34
    在某些场合下,无偏性的要求是有实际意义的。例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平。这是因为从长期来看,这种估计...
  • 什么是无偏估计?

    千次阅读 2018-01-09 10:44:00
    所谓总体参数估计量的无偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值。 在某些场合下,无偏性的要求是有实际意义的。例如,假设在某厂商与某销售商之间存在长期...
  • 无偏估计量

    千次阅读 2019-08-14 11:34:28
    目录 1 定义 2 实际意义 ...5.1 无偏性 5.2有效性 5.3一致性 5.4 总结 参考百度百科:https://baike.baidu.com/item/%E6%97%A0%E5%81%8F%E4%BC%B0%E8%AE%A1%E9%87%8F/303853?fr=aladdin ...
  •   在概率论模拟和抽样调查时我们经常要面临从一大堆数据中抽样,在估计均值或方差时我们经常要随机有放回或放回抽样,而在验证一些估计是有还是无偏时我们又经常用到抽样的所有可能,所以几种常见抽样的...
  • 无偏估计实例证明

    万次阅读 2014-03-31 15:06:25
    无偏估计 在概率论和数量统计中,学习过无偏估计,最近在学习论文时候,也经常论文中提到无偏估计。虽然对无偏估计有所了解,但是还是有些问题: 1)总体期望的无偏估计量是样本均值x-,总体方差的无偏估计是...
  • 目录 前言 相关证明 无偏估计 系数的标准差 高斯-马尔可夫定理的优点同局限 前言 最小二乘法(least squares)是我们很早就就接触过的一类方法,是广义线性回归的特殊情形——即一元线性回归。本文将假设误差遵从...
  • 贝叶斯网基础[1.1 信息论基础](https://blog.csdn.net/deepbodhi/article/details/119823055)[1.2 贝叶斯网基本概念](https://blog.csdn.net/deepbodhi/article/details/119823243)[1.3 变量独立的图论分析]...
  • 0 引言 正交频分复用(Orthogonal Frequency DivisionMultiplexing,OFDM)具有高速传输数据、高效的频谱利用率和抗多径的能力。最近几年,OFDM技术已经成功地应用在移动以及固定数据传输中,例如非对称数字用户线路...
  • 抽样技术系列03】分层随机抽样ST

    千次阅读 2020-11-06 12:31:41
    符号3.1.1 分层抽样的定义3.1.2 分层抽样的作用3.1.3 分层抽样的原则3.1.4 符号说明3.2 简单估计量3.2.1 对总体均值的估计3.2.2 对总体总量的估计3.2.3 对总体比例的估计3.2.4 特定特征总数的估计3.3 比率估计量及其...
  • 抽样调查习题集参照.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,353
精华内容 4,141
关键字:

抽样的无偏性