精华内容
下载资源
问答
  • 衡量参数估计的指标2.1 无偏性2.2 一致性2.3 有效性3. 一些引理3.1 期望运算的线性性3.2 期望运算的线性性4. *β*^~OLS~ 的性质4.1 *β*^~OLS~ 服从的分布4.2 *β*^~OLS~ 与误差项之间的关系4.3 *β*^~OLS~ 的无偏...

    【更新日志】
    4/5/2020 对文章中公式与排版的部分错误进行修正


    1. 前文回顾

    在前面的文章中,我们介绍了多元线性回归模型的两种参数估计。对于模型:
    yi=β0+j=1pxijβj+ϵi, i=1,...,N y_i= \beta_0 + \sum_{j=1}^{p} x_{ij} \beta_j + \epsilon_i , \ i=1,...,N ϵ=(ϵi)N×1N(0,Inσ2) \bm{\epsilon} = (\epsilon_i)_{N \times 1} \thicksim N(0,\bm{I_n}\sigma^2)
    利用最小二乘估计法(OLS)得到的参数估计量为:
    β^OLS=(XTX)1XTy \bm{\hat\beta}_{OLS} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} σ^OLS=1Np1(yXβ^OLS)T(yXβ^OLS) \bm{\hat \sigma} _{OLS} = \sqrt{ \frac {1 } {N-p-1} ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{OLS} )^T ( \bm{y} -\bm{X} \bm{\hat{\beta}}_{OLS} ) }
    而利用极大似然估计法(ML)得到的参数估计量为:
    β^ML=(XTX)1XTy \bm{\hat\beta}_{ML} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} σ^ML=1N(yXβ^ML)T(yXβ^ML) \bm{\hat \sigma} _{ML} = \sqrt{ \frac { 1 } {N} ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{ML} )^T ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{ML} ) } 其中:
    β=[β0β1βp](p+1)×1,     y=[y0y1yN]N×1,     X=[ 1  x11    x1p 1  x21    x2p               1  xN1    xNp]N×(p+1) \bm{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots\\ \beta_p \end{bmatrix}_{(p+1) \times1}, \space \space \space \space \space \bm{y} = \begin{bmatrix} y_0 \\ y_1 \\ \vdots\\ y_N \end{bmatrix}_{N \times1}, \space \space \space \space \space \bm{X} = \begin{bmatrix} \space 1 \space\space x_{11} \space\space \dots \space\space x_{1p} \\ \space 1 \space\space x_{21} \space\space \dots \space\space x_{2p} \\ \vdots \space \space\space \space \space \vdots \space \space \space \space \space ⋱ \space \space \space \space \vdots\\ \space 1 \space\space x_{N1} \space\space \dots \space\space x_{Np} \end{bmatrix}_{N \times (p+1)}
    在这两种方法中,最小二乘估计法是我们最为常用的参数估计方法,原因有二:其一,以残差平方和作为评判超平面拟合好坏的指标比较直观,也易于理解;其二,最小二乘估计参数具有良好的估计量性质。此外,以残差平方和构建代价函数(Cost Function)的方法在机器学习领域十分常见,我们会在后面的Lasso回归和Ridge回归之中继续体会其中的奥妙。

    在本章中,我们来继续探索利用最小二乘估计量在性质上究竟具有什么样的优势吧~


    2. 衡量参数估计量好坏的指标

    由于参数估计量是总体参数的估计值,因此估计量必然与总体参数之间存在一定的“误差”。如果,我们如何衡量一个参数的估计量是好是坏呢?我们可以从以下这几个性质入手:

    这里想编一个射击小游戏来说明,但是有点费脑筋,等编好了再补充上来吧。

    2.1 无偏性

    参数估计量的 无偏性(unbiasedness) 是指,在多次试验中,用总体的某参数估计值的平均值与该总体参数的真实值“没有偏差”。用数学语言来描述则可以表达为:若一个总体参数 β 的估计量 β^ 是无偏估计量,则该估计量应满足:
    E[β^]=β E[\bm{\hat\beta}] = \bm\beta

    2.2 一致性

    参数估计量的 一致性(Consistency) 是指,当样本数量足够大的时候,总体参数的估计值以某种意义收敛到该参数真值,即:
    β^nβ \bm{\hat\beta} \xrightarrow[n\rarr\infin]{在某种意义下} \bm\beta
    (1)若 β^ 依概率收敛β ,则称 β^β弱一致估计
    (2)若 β^ 以概率1收敛β ,则称 β^β强一致估计

    注1无偏性是一种小样本性质,而一致性则是一种大样本性质
    注2一致估计又称为相合估计相容估计

    2.3 有效性

    参数估计量的 有效性(Validness) 是指,在参数的任意一无偏估计量中,该无偏估计量的方差最小,即:


    E[β^]=β E[\bm{\hat\beta}]= \bm\beta β~{β~:E[β~]=β}var[β^]var[β~] \forall \bm{\tilde\beta} \in \{ \bm{\tilde\beta}: E[\bm{\tilde\beta}]= \bm\beta \} \\ \text{var}[\bm{\hat\beta}] \le \text{var}[\bm{\tilde\beta}]

    则称 β^β有效估计量(Valid Estimator)


    3. 一些引理(可略)

    为了保证后续证明的严谨性,本文列出一些比较重要的引理。在实际应用过程中可以忽略这些引理的证明过程而直接使用其结论。

    3.1 期望运算的线性性

    【引理1 期望线性性】 对于任一 n 阶随机向量 ym × n 线性变换矩阵 Am 阶随机向量 Ay 有:
    E[Ay]=AE[y] E[\bm{A}\bm{y}]=\bm{A}E[\bm{y}]
    Proof:
    由于随机变量(向量)的期望由Riemann-Stieltjes积分定义:
    E[y]=y dF(y) E[\bm{y}]=\int\bm{y}\ d\bm{F}( \bm{y} )

    其中,F(·)为随机变量(向量)的分布集函数。

    由Riemann-Stieltjes积分的线性性,可以证明:
    E[Ay]=Ay dF(y)=Ay dF(y)=AE[y] E[\bm{Ay}]=\int\bm{Ay}\ d\bm{F}( \bm{y} )= \bm{A}\int\bm{y}\ d\bm{F}( \bm{y} ) = \bm{A}E[\bm{y}]
    Q.E.D.

    注:有关Riemann-Stieltjes积分的定义与运算性质可以参考相关文献

    3.2 协方差运算的半线性性

    【引理2 协方差半线性性】 对于任一 n 阶随机向量 xy,与两 m × n 线性变换矩阵 AB ,有:
    cov(Ax,By)=Acov(x,y)BT \text{cov} (\bm{Ax},\bm{By})= \bm{A}\text{cov} (\bm{x},\bm{y})\bm{B}^T
    Proof:
    cov(Ax,By)=E[(AxE[Ax])(ByE[By])T]=E[(AxAE[x])(ByBE[y])T]=AE[(xE[x])(yE[y])T]BT=Acov(x,y)BT \text{cov} (\bm{Ax},\bm{By}) \\ =E[(\bm{Ax}-E[\bm{Ax}])(\bm{By}-E[\bm{By}])^T] \\ =E[(\bm{Ax}-\bm{A}E[\bm{x}])(\bm{By}-\bm{B}E[\bm{y}])^T] \\ =\bm{A}E[(\bm{x}-E[\bm{x}])(\bm{y}-E[\bm{y}])^T]\bm{B}^T \\ =\bm{A}\text{cov} (\bm{x},\bm{y})\bm{B}^T
    Q.E.D.

    3.3 矩阵迹运算的性质

    【引理3 矩阵迹运算的性质】 对于任意 m × nn × m 阶实矩阵 AB ,其迹运算(trace)满足:
    tr(AB)=tr(BA) tr(AB)=tr(BA)
    Proof:
    根据矩阵乘法与迹运算的定义:
    tr(AB)=i=1mj=1nai,jbj,i tr(AB) = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{i,j} b_{j,i} tr(BA)=j=1ni=1mbj,iai,j tr(BA) = \sum_{j=1}^{n} \sum_{i=1}^{m} b_{j,i} a_{i,j}
    由乘法交换律和加法分配律易得:
    tr(AB)=i=1mj=1nai,jbj,i=j=1ni=1mbj,iai,j=tr(BA) tr(AB) = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{i,j} b_{j,i} = \sum_{j=1}^{n} \sum_{i=1}^{m} b_{j,i} a_{i,j} = tr(BA)
    Q.E.D.


    4. β^OLS 的性质

    4.1 β^OLS 服从的分布

    若模型的正态性假设成立,即:

    ϵN(0,Inσ2) \bm{\epsilon} \thicksim N(0,\bm{I_n}\sigma^2)

    则有:
    y=Xβ+ϵN(Xβ,Inσ2) \bm{y} = \bm{X} \bm\beta + \bm\epsilon \thicksim N( \bm{X} \bm\beta, \bm{I_n}\sigma^2)
    因此,在给定自变量的条件下,y 服从于均值为 ,协方差矩阵为 Inσ2 的条件正态分布。

    又因为 β^OLS 满足:
    β^OLS=(XTX)1XTy \bm{\hat\beta}_{OLS} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}
    β^OLS 关于因变量 y线性变换(Linear Transformation)。由正态分布的性质可知, β^OLS 服从正态分布,且其均值有:
    E[β^OLS]=E[(XTX)1XTy]=(XTX)1XTE[y]=(XTX)1XTXβ=β E[\bm{\hat\beta}_{OLS} ] = E[ ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} ] \\ \hspace{4em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T E[\bm{y} ] \\ \hspace{3.75em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{X} \bm\beta \\ \hspace{-3.5em} = \bm\beta
    其方差有:
    var[β^OLS]=var[(XTX)1XTy]=cov[(XTX)1XTy,(XTX)1XTy]=(XTX)1XTcov[y,y]X(XTX)1=σ2(XTX)1XTInX(XTX)1=σ2(XTX)1 \text{var} [\bm{\hat\beta}_{OLS}] \\ \hspace{3.25em} = \text{var} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ \hspace{7em} = \text{cov} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}, ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ \hspace{7.25em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \text{cov} [\bm{y}, \bm{y}] \bm{X} ( \bm{X}^T \bm{X} )^{-1} \\ \hspace{7.25em} = \sigma^2 ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{I}_n \bm{X} ( \bm{X}^T \bm{X} )^{-1} \\ \hspace{-0.25em} = \sigma^2 ( \bm{X}^T \bm{X} )^{-1}
    至此,可以说明:在方差正态性满足的前提下,β^OLS 满足:
    β^OLSN(β,σ2(XTX)1) \bm{\hat\beta}_{OLS} \thicksim N(\bm\beta, \sigma^2 ( \bm{X}^T \bm{X} )^{-1} )

    4.2 β^OLS 与误差项之间的关系

    由4.1中的论述,我们知道 β^OLS 是因变量 y 的线性表示,而 y 又是误差项 ϵ 的线性表示。实际上:
    cov(y,ϵ)=cov(Xβ+ϵ,ϵ)=Inσ2 \text{cov} (\bm{y}, \bm\epsilon) = \text{cov} (\bm{X}\bm\beta + \bm\epsilon, \bm\epsilon) =\bm{I}_n\sigma^2
    因此,β^OLS 与误差项 ϵ 存在相关关系,其协防矩阵有:
    cov(β^,ϵ)=cov[(XTX)1XTy,ϵ]=(XTX)1XTcov(y,ϵ)=σ2(XTX)1XT \text{cov} (\bm{\hat\beta},\bm\epsilon) = \text{cov} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}, \epsilon] \\ = (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \text{cov} (\bm{y}, \bm\epsilon) \\ = \sigma ^ 2( \bm{X}^T \bm{X} )^{-1} \bm{X}^T

    4.3 β^OLS 的无偏性

    首先,我们来证明,β^OLSβ的无偏估计量。
    实际上,由4.1中的证明,我们已经得到:
    E[β^OLS]=β E[\bm{\hat\beta}_{OLS} ] = \bm\beta
    因此,最小二乘估计量 β^OLSβ无偏估计量

    :由于 β 的最小二乘法估计量与极大似然估计量在表达形式上相等,因此极大似然估计量 β^ML 也是 β 的无偏估计量

    4.4 β^OLS 的一致性

    下面,让我们继续证明, β^OLSβ弱一致估计量,在某些特定条件下,β^OLSβ强一致估计量。由于估计量的一致性证明过程较为艰深冗长,详细的证明过程与结论可以参考文献[1]:线性回归估计相合性问题的新进展.

    4.5 β^OLS 的有效性

    βOLS 的有效性可以由 高斯-马尔科夫定理(Gauss-Markov Theorm) 证得。

    【Gauss-Markov定理】β 的所有线性无偏估计量中, β^OLS方差最小的线性无偏估计量

    Proof:

    假设 cTyβ 的一个线性无偏估计量,其中, cT = (XTX)-1XT + DD 为一常矩阵。则有:
    E[cTy]=[(XTX)1XT+D]Xβ=(I+DX)β=β E[\bm{c}^T\bm{y}] = [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}] \bm{X \beta} \\ =(\bm{I+DX} )\bm\beta =\bm\beta

    因此可知:
    DX=0 \bm{DX} =\bm{0}

    而:
    var(cTy)=cTvar(y)c=σ2cTc=σ2[(XTX)1XT+D][(XTX)1XT+D]T=σ2[(XTX)1+DDT]σ2(XTX)1=var(β^) \text{var}(\bm{c}^T\bm{y}) =\bm{c}^T \text{var}(\bm{y}) \bm{c} =\sigma^2 \bm{c}^T \bm{c} \\ \\ \hspace{5em} = \sigma^2 [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}] [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}]^T \\ =\sigma^2 [(\bm{X^TX})^{-1} +\bm{D}\bm{D}^T] \\ \ge \sigma^2 (\bm{X^TX})^{-1} = \text{var}(\hat{\bm{\beta}})
    Q.E.D.


    5. σ^OLS 的性质

    5.1 σ^2OLS 的无偏性

    我们先将σ^2OLS的表达式进行变型:
    (Np1)σ^OLS2=(yXβ^OLS)T(yXβ^OLS)=[yX(XTX)1XTy]T[yX(XTX)1XTy]=yT[INX(XTX)1XT]T[INX(XTX)1XT]y=yT[INX(XTX)1XT]y=(Xβ+ϵ)T[INX(XTX)1XT](Xβ+ϵ)=βTXT[INX(XTX)1XT]Xβ(1)+ϵT[INX(XTX)1XT]Xβ(2)+βTXT[INX(XTX)1XT]ϵ(3)+ϵT[INX(XTX)1XT]ϵ(4) (N-p-1)\hat \sigma _{OLS}^2 \\ = ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{OLS} )^T ( \bm{y} -\bm{X} \bm{\hat{\beta}}_{OLS} ) \\ = [\bm{y} - \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}]^T [\bm{y} - \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ = \bm{y}^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ]^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{y} \\ =\bm{y}^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{y} \\ =(\bm{\bm{X}\bm{\beta} + \bm{\epsilon}} )^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] (\bm{\bm{X}\bm{\beta} + \bm{\epsilon}} ) \\ = \bm{\beta}^T\bm{X}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{X}\bm{\beta} \hspace{3em}(1) \\ + \bm{\epsilon}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{X}\bm{\beta} \hspace{3em}(2) \\ + \bm{\beta}^T\bm{X}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{\epsilon}\hspace{3em}(3) \\ +\bm{\epsilon}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{\epsilon}\hspace{3em}(4)
    至此,我们将的表达式分成了四个部分。容易计算:第(1)项、第(2)项和第(3)项均 恒为0 。因此:

    σ^OLS2=1(Np1)ϵT(INX(XTX)1XT)ϵ \hat \sigma _{OLS}^2 = \frac{1}{(N-p-1)} \bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon}

    根据引理3关于迹运算的性质,以及迹运算与期望运算的相容性:

    E[ϵT(INX(XTX)1XT)ϵ]=E[tr{(INX(XTX)1XT)ϵϵT}]=tr{(INX(XTX)1XT)E[ϵϵT]}=tr{(INX(XTX)1XT)INσ2}=σ2[tr{IN}tr{X(XTX)1XT}]=σ2[tr{IN}tr{XTX(XTX)1}]=σ2[tr{IN}tr{I(p+1)}]=(Np1)σ2 E[\bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon}] \\ = E[tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon} \bm{\epsilon}^T \}] \\ = tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) E[ \bm{\epsilon} \bm{\epsilon}^T ] \} \\ = tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{I}_N \sigma^2 \} \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \} ] \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{X}^T\bm{X} (\bm{X}^T \bm{X} )^{-1} \} ] \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{I}_{(p+1)} \} ] \\ = (N-p-1)\sigma^2
    因此:
    E[σ^OLS2]=σ2 E[\hat \sigma _{OLS}^2] =\sigma^2

    至此,我们证得:σ^2OLSσ2无偏估计量

    注1:显然,σ^2ML 不是 σ2 的无偏估计 ;
    注2:需要特别注意的是,σ^OLS 不是 σ 的无偏估计量(这里的平方号不能少)。


    5.2 σ^2OLS 所服从的分布

    σ^2OLS 的表达式:
    σ^OLS2=1(Np1)ϵT(INX(XTX)1XT)ϵ \hat \sigma _{OLS}^2 = \frac{1}{(N-p-1)} \bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon}
    可以看出,σ^2OLS 是关于误差项 ϵ 的二次型。因此,容易证明: σ^2OLS/ σ2 服从自由度为 N - p - 1的卡方分布,即:
    (Np1)σ^OLS2σ2χNp12 \frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2_{N-p-1}


    6. 结论

    至此,通过一系列冗长但富有启发性的证明,我们从 无偏性一致性有效性 这三个角度,对多元线性回归模型的最小二乘估计量 β^OLSσ^2OLS 的质量进行了评判,得到的结论如下:

    (1)β^OLSβ最优线性无偏估计量 (Best Linear Unbiased Estimator,BLUE),即其具有 无偏性、一致性与有效性

    (2)σ^2OLSσ2无偏估计量(Unbiased Estimator)。

    同时,在误差项满足正态性假设的条件下,我们推导出了 β^OLSσ^2OLS 所服从的分布:
    β^OLSN(β,σ2(XTX)1) \bm{\hat\beta}_{OLS} \thicksim N(\bm\beta, \sigma^2 ( \bm{X}^T \bm{X} )^{-1} ) (Np1)σ^OLS2σ2χ2(Np1) \frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2(N-p-1)
    但是,得到这两个分布有啥用啊?那就且听我们下回分解。


    7. 新问题的提出

    至此,我们解决了模型的参数估计,以及所估计参数的相关性质,并给出了参数估计量的分布。但是,我们还有一堆问题还没有解决:

    (1)估计出来的模型好不好?有没有效呢?
    (2)估计出来的模型是否满足模型的基本假设条件呢?不满足可咋办呢?
    (3)如何利用估计出来的模型进行预测呢?预测的准确性有多高呢?
    (4)下次更新是不是又得一年后啊?

    在下一篇文章中,就让我们利用参数的区间估计与假设检验,来看看我们拟合出来的模型到底有没有用。


    参考文献

    [1] 线性回归估计相合性问题的新进展 .


    写在最后

    欢迎感兴趣的小伙伴来跟作者一起挑刺儿~ 包括但不限于语言上的、排版上的和内容上的不足和疏漏~ 一起进步呀!
    有任何问题,欢迎在本文下方留言,或者将问题发送至勘误邮箱: mikeysun_bugfix@163.com
    谢谢大家!

    展开全文
  • 假设[1]中引入的通用马尔可夫流体模型(GMFM)用于对网络中的源进行建模,因为它可以通用地描述流量波动。 为了估计资源分配或换句话说... 用模拟数据对拟议估计量的说明性计算和性能进行了测试,并获得了理想的结果。
  • 在学习概率论的"参数估计"一章时有一些概念没能理解清楚,尤其是参数估计量的性质。在反复翻书的过程中总算搞清楚了一些,在这里记录一下我的理解 无偏性 一般书上讲到的第一个性质就是这个,初看很让人头大,如果不...

    在学习概率论的"参数估计"一章时有一些概念没能理解清楚,尤其是参数估计量的性质。在反复翻书的过程中总算搞清楚了一些,在这里记录一下我的理解

    无偏性

    一般书上讲到的第一个性质就是这个,初看很让人头大,如果不弄清楚的话对于后续内容的理解是很大的阻碍


    按照书上(浙大概率论)的定义,无偏性是指:

    X1,X2,...,XnX_1, X_2, ..., X_n 是总体XX的一个样本,θΘ\theta\in\Theta是包含在总体XX的分布中的待估参数,其中 Θ\Thetaθ\theta的取值范围
    若估计量θ^=θ^(X1,X2,...,Xn)\hat{\theta}=\hat{\theta}(X_1, X_2, ..., X_n)的数学期望E(θ^)E(\hat\theta)存在,且对于任意θΘ\theta\in\Theta
    E(θ^)=θE(\hat\theta)=\theta

    则称θ^\hat\thetaθ\theta的一个无偏估计量


    这个定义初看的话是很难理解的(至少对我来说),因为很难理解这个θ^\hat\theta到底指的是什么,θ^=θ^(X1,X2,...,Xn)\hat{\theta}=\hat{\theta}(X_1, X_2, ..., X_n) 这个等式也是有点捉摸不透

    其实定义里已经提到, θ^\hat{\theta}是一个估计量,更为具体的,是对样本的估计量。参数估计目的就是利用样本的估计量去估计真值,一个典型的例子就是用样本的均值去估计真正的均值。
    所以参数的点估计(与之对应的还有区间估计)指的就是,取nn个样本,对这nn个样本进行某种运算(比如: 取均值,这个运算就是θ^\hat\theta)可以得到一个估计值,用这个估计值去估算真值(这个真值就是θ\theta)。但是我们知道,只取nn个样本存在随机性,估计出来的真值很可能是不准确的,所以我们再进行多次取样,如果这多次取样运算的均值与真值θ\theta相等,那么这个运算θ^\hat\theta就是无偏的

    那么按照这样的理解去解释估计量的其他性质:

    • 有效性: 对于按不同的估算量θ^1,θ^2\hat\theta_1, \hat\theta_2进行多次取样运算,可以得到两组值,方差较小者对应的θ^\hat\theta称为更有效
    • 相合性: 相合性指的是随着样本容量增大(nn趋于正无穷时),估计量θ^\hat\theta稳定于真值θ\theta, 也即θ^(X1,X2,...,Xn)\hat\theta(X_1, X_2, ..., X_n)依概率收敛于θ\theta

    以上只是我的个人理解,如有错误,欢迎指出

    展开全文
  • 参数估计 在统计方法中地位参数估计 是为了判定总体数据特征性质,而从中抽取部分样本数据,通过样本参数进而估计总体数据特征目录1.估计量与估计值概念2.点估计与区间估计区别3.评价估计量优良性标准4....

    8721ac52dd6abfeb36e42d5f42b9dfba.png

    参数估计 在统计方法中的地位

    0c0107486b702cc8be223d05e6f1bd06.png

    参数估计 是为了判定总体数据特征性质,而从中抽取部分样本数据,通过样本的参数进而估计总体数据的特征

    目录

    1.估计量与估计值的概念

    2.点估计与区间估计的区别

    3.评价估计量优良性的标准

    4.点估计:矩估计法

    5.区间估计

    6.样本容量的确定 

    一、估计量与估计值的概念

    估计量:用于估计总体参数的随机变量(如:样本均值就是总体均值的一个估计量)

    估计值:估计量的值

    二、点估计与区间估计的区别

    787bf5648505d9818d42faca95fcfae5.png

    点估计用样本的估计量直接作为总体参数的估计值(不能很好的说明估计出来的值与总体数据值之间的差距情况)

    区间估计在点估计的估计的基础之上,给出总体参数估计一个区间范围,该区间由样本统计量加减抽样误差而得到的

    置信水平重复抽取样本很多次,并每次构造置信区间,其中置信区间包含总体参数真值的次数所占的比值称为置信水平。(常用的置信水平99%,95%,90%)

    置信区间由样本统计量所构造的总体参数的估计区间称为置信区间,统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间

    均值的抽样分布:(1-a)%区间包含了u,a%的区间未包含u

    a45d3abadfaf662b90dc358d1a3fae35.png

    三、评价估计量优良性的标准

    无偏性:估计量抽样分布的数学期望等于被估计的总体参数

    有效性:对一总体参数的两个无偏点估计量,有更小标准差的估计量更有效

    一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数 

    四、点估计法:矩估计法

    b81e8e590951fde7a5cfcf30e5467464.png

    最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体的方差。

    五、区间估计

    1.总体均值的区间估计

    假定条件:总体服从正态分布,且方差(δ²)未知;小样本(n<30)

    使用 t分布统计量

    c2cfe7e4ae186bbb0c9e01cd000350b0.png

    总体均值u在1-a置信水平下的置信区间为

    1f1a353309a9a0a1cfe878fe362158b5.png

    2.总体比例的区间估计

    假定条件:总体服从二项分布;可以由正态分布来近似

    使用正态分布统计量Z

    7969823ef4a5ca435243068b3567d129.png

    总体比例π在1-a置信水平的置信区间为:

    c3d57916e9f1a62068487abee6697e65.png

    六、样本容量的确定

    1.估计总体均值时样本容量的确定

    估计总体均值时样本容量n为

    da5bb043eee537ab94847f127ab50d50.png

    样本容量n与总体方差σ²、边际误差E、可靠性系数Z或t之间的关系为与总体方差成正比;与边际误差成反比;与可靠性系数成正比

    2.估计总体比例时样本容量的确定

    根据比例区间估计公式可得样本容量n为

    9a1a1dc387701d4a3f0bbf4866403eb7.png

    其中:

    a2e8fdc98ed24b3890e44fac965969fa.png

    E的取值一般小于0.1,π未知时,可取最大值0.5

    往期精选

    机器学习|梯度下降法

    机器学习|逻辑回归

    机器学习|决策树

    机器学习|随机森林

    机器学习|Adaboost

    数据分析|数据的整理&展示

    数据分析|数据分布特征的描述

    数据分析|概率分布

    数据分析|抽样分布

    58124967175a68b8f2af00f1cc45b9f1.png

    关注公众号,加小编微信即可拉入线上交流群

    展开全文
  • 传送门:数理统计|笔记整理(3)——充分统计量——————————————...我们会给大家介绍参数估计的方法和通过相关方法得到的统计量的一些理论性质。为什么说我们会喜欢用这些方法来做统计推断?其背后均有...

    2a36f30c7231cf414c42461c34699c2c.png

    传送门:数理统计|笔记整理(3)——充分统计量

    ——————————————————————————————————————

    大家好!

    我们在上一节中给大家介绍了充分统计量,从信息论的角度出发,我们无法不承认充分统计量是一个利器。那么在这一节中,我们算是正式进入到了参数统计的部分。我们会给大家介绍参数估计的方法和通过相关方法得到的统计量的一些理论性质。为什么说我们会喜欢用这些方法来做统计推断?其背后均有良好的理论支撑。因此在这一部分,信息论的相关内容还会再次出现,并辅助支撑我们这一节的内容。

    需要提一嘴的是,我们在《工科数理统计》中已经介绍过基本的参数统计的方法,但是我们更多强调的是直观性,而忽视了它的计算和理论(当然工科生可能也不需要知道它背后的理论是什么……)。因此相关内容我们会直接引用之前的笔记,而不会再一次在这里说明。

    那么我们开始吧。

    目录

    • 估计量的三大性质
      • 相合性
    • 矩估计
    • 极大似然估计
      • 基本计算
      • 不变原理
      • 子集参数的似然

    估计量的三大性质

    考虑到这一篇笔记可能我需要多次引用我之前的《工科数理统计》,我先把它放在这里,到时候需要引用的时候我直接提一下就好了。

    学弱猹:统计学笔记|数理统计知识点概要(2)zhuanlan.zhihu.com
    8b01b48a9f2aef77256685d9679b8907.png

    我们介绍了很多种统计量,包括次序统计量,包括辅助统计量等等。它们本质上都是为了估计参数。不过我发现,我们在之前没有给大家介绍一些常规的统计量(比如样本均值样本方差),所以在这里我们把之前笔记的链接贴在这里供大家参考。

    学弱猹:统计学笔记|数理统计知识点概要(1)zhuanlan.zhihu.com
    cae21a172b9f803e65b2f09d88bfb9a3.png

    既然我们要考虑做参数估计,那么自然逃不开估计量这个概念。

    Definition 1: Estimator
    为来自总体的一个样本,那么用于估计未知参数
    的统计量
    即为
    的估计量,也被称为
    的点估计。

    至于估计量的三大性质可以在那篇笔记中找到。但我们需要强调的是,在无偏性的部分,严谨的来写的话,应该写成

    。因为我们可能只希望研究一个
    ,但是实际上我们可能有很多未知量。而这样的话,如果我们只希望考察部分参数的期望,那么实际上,求的就是
    边缘期望

    在之前的笔记中我们没有给出相关的计算题,这里我们给一个和有效性与无偏性相关的计算题作为补充。

    Example 1:
    为来自均匀分布总体
    的样本,证明
    不是无偏估计,而
    是,但是
    更有效。

    那么很明显我们关注的重点就在于

    的密度函数。我希望你没有忘记公式,很容易得到
    的密度函数为

    所以很容易得到它的期望为

    ,所以并不是一个无偏估计,而你也可以轻松的看出来
    才是无偏估计。那么有效性呢?其实也没有啥可比较的,因为
    是一个大于1的因子,所以算方差肯定比
    大,这就证完了。

    相合性

    这里单独说一下相合性的原因是,相合性的判断有自己的一个依据。这一点我们在之前的笔记中没有涉及到,所以在这里做一个补充。

    Theorem 1:
    是关于参数
    的一个估计量,如果有
    ,那么
    就是
    的相合估计。

    这里要注意的是,我们的

    是指观测到
    个样本之后,得到的估计量。一般我们的估计其实也会与样本的个数
    产生关联。

    这个证明不是特别容易,我们通过相合性的定义来看我们应该怎么说明这一件事。首先我们知道,它的定义为

    ,显然,如果你需要根据已有的条件证明这个不等式,常见的思路我们是考虑
    构造一座桥,让它作为中介,去联接两个部分。

    不知道大家知不知道切比雪夫不等式的相关内容,它大概就是这个意思

    Lemma 1: Chebyshev Inequality

    具体的证明大家可以参考一下《数理统计概要》的第一节。诸如这样的概率不等式这些都是高等概率论的内容,我们不在这里多说。

    回到我们的原定理,显然我们希望了解的是

    的差距能够有多大,那么我们既然有了切比雪夫不等式,我们就可以考虑用
    去代替那个
    ,看看有没有什么大的变化。所以我们需要的第一个式子就是

    为什么说叫“搭桥”呢?因为,如果我们在

    充分大的时候,能够确定一个事情是
    ,那么根据三角不等式,就可以确定
    ,也就是说,其实
    发生的概率,会比
    要大(想想为什么)。那么反过来呢?也就是下面这个意思。

    所以我们实际上就把问题转移到了估计

    上。这个是很容易得,因为我们有了切比雪夫不等式和条件,这就足够证明结论了。

    所以!还有一个问题就是

    的关系,我们究竟能不能够实现上面这个证明所需要的那个“如果”。这个其实很简单,直接走极限的定义就好。因为我们有
    ,这句话的意思就是
    充分大。

    所以两座桥其实都搭好了,我们也就完成了证明。

    其实在这里,我们主要还是希望关注

    这一件事,它发生的概率会有多少。如果它发生的概率会随着样本增加而趋近于0,那就再好不过了。而如果我们能够把它“推往”已知的不等式,自然可以少一点麻烦。在这里,切比雪夫不等式就是实现这一个功能的。

    考虑到相合性的相关例题会与后面说的矩估计,极大似然估计相联系起来,我们之后再介绍相关的计算题。

    矩估计 (Moment Estimation)

    主要的矩估计的思想我们在之前的笔记中简单的给大家提过,比方说你希望对分布

    的两个参数用样本进行估计,那么
    因为它有两个未知参数,所以你就需要两个方程。而这两个方程就需要通过矩和替换原则来得到。所以实际上矩估计就是一个非常好的“样本推断总体”的例子,再具体一点说,就是用经验分布函数替代总体分布函数,而基础就是格里文科 (glivenko) 定理。举个例子,对于两个总体相关系数的估计
    ,如果我们有了样本
    ,那么我们也知道实际的相关系数表达式为
    ,那么对应的它的估计就是
    ,学过时间序列的话,这个式子你不会感到陌生。

    如何用矩来估计,其实不是一个难题。这一方面难点在于替换原则的理解。这里用一个题目来简单阐述一下对于替换原则,应该如何应用。

    Example 2:
    甲乙二人彼此独立的对同一本书的样稿校对,结果甲发现了
    个错字,乙发现了
    个,共同发现了
    个错字。考虑用矩估计给出“样稿的总错字个数”未知参数的估计。

    这个题第一眼看可能会一脸迷茫。首先我们考虑第一问,既然我们希望估计它,那么不妨设这个参数是

    。注意我们替换原则,是矩估计的本质,也就是所谓的“用频率去替代概率”。这样的话,我们自然希望找到“频率”,找到“概率”,然后去
    联立

    这里频率是不难找的,事实上,

    就是甲找到错字的频率,而
    就是乙找到错字的频率,那么
    就是甲乙共同发现错字的频率。那么它们分别对应什么概率呢?好像不知道,那就假设甲找到错字的概率为
    ,乙找到错字的概率为
    ,那么甲乙因为是彼此独立找的,所以它们俩共同发现错字的概率就是
    。那么好的,最后联立,使用替换原则,就可以得到

    这就可以解得

    。所以这个题其实也算是一个纸老虎,看明白就可以了。

    极大似然估计 (Maximum Likelihood Estimation)

    基本计算

    极大似然估计的重要性不言而喻,事实上在之前的回归分析中大家已经基本上可以感受到,似然估计几乎无孔不入。我们在《工科数理统计》那一篇笔记中简单提过它的思想,也给出过简单的例题,这里还需要强调一个问题。就是和我们上一节(充分统计量那一节)一样,我们的密度函数需要使用示性函数组合成一个式子。比方说考虑下面这个简单的例题。

    Example 3:
    独立同分布,且
    ,给出
    的极大似然估计。

    根据上一节的Example 3我们可以知道,密度函数要写成

    所以这个是一个单调函数,所以不需要求导,而且事实上如果你忽略示性函数,你就会以为这个东西不存在极大似然估计了,这很明显不是一个你想要的结论。

    要让它尽可能地大,自然需要让

    尽可能小,而这个尽可能小并不是无条件的。最小也得是
    (不然更小一点,这个密度值就变为0了),所以极大似然估计就是
    。当然你应该也能看出来,如果
    这个式子就不存在极大似然估计了,但是你觉得
    可能嘛?你看一下参数的取值范围就知道答案了……

    当然了,有一说一,确实会有可能极大似然估计是不存在的,也有可能极大似然估计是不唯一的(多峰)。针对前一种,实际情况下,只需要通过观察未知参数在似然函数中的位置,然后考虑取一些特殊的观测值,判断它是否有可能趋近于正无穷就可以了。而后一种情况其实很少出现,如果真的计算出现了这个情况,也不要太大惊小怪就好。

    说完这个题,其实不知道大家有没有发现一个有趣的现象,就是下面这个小的性质。

    Proposition 1:
    极大似然估计是充分统计量的函数。

    比方说针对上面那个题,如果你算一下它的充分统计量,你会发现答案完全相同。而原因就在于,我们在上一节有一个因子分解定理。也就是说

    你可以看出来,无论

    怎么蹦跶,它都只会和
    有关,那么把函数的自变量换一个顺序你就不难看出这个结论是成立的了。

    不变原理

    不变原理来源于这么一个问题:参数的函数所对应的极大似然估计会是什么样?如果你事先看了《工科数理统计》,你应该知道,样本方差是具有无偏性的,也就是说在正态分布

    下,有
    。但是你有听说过
    嘛?好像没有,因为它本来就是错的。但是在极大似然估计中,我们的性质没有这么差,当然也不是十全十美。这一部分就是用来探讨这个问题的。

    首先我们考虑导出似然的定义。

    Definition 2: Induced Likelihood
    考虑设似然函数
    ,且
    ,并且
    时,有
    ,那么定义导出似然为
    。并且有

    要理解这个定义,首先要明确集合

    是什么样的含义。你可以看出来,可能一个
    会对应多个
    ,所以我肯定最先希望在这些
    中,找到一个可以使得
    最大的那个,然后把
    处理好了,就可以在这些“最大的”中间,再挑一个更好的,也就是使得
    能够达到最大,这样的话,
    在空间
    中得到的极大似然估计,对应的
    在空间
    中也会是极大似然估计,这
    极大似然估计意义的一致性保持住了,我们当然就能期待我们之前的问题能够有一个很好的解决。

    有了这个说法,那就不难再说明下面这个定理了。

    Theorem 2:
    ,若
    极大似然估计为
    ,那么
    关于导出似然的极大似然估计为

    既然要说明

    本身确实是一个极大似然估计,那么就要说明
    对于任意的
    都成立。那么根据定义,我们有
    ,另外,显然
    ,这样的话,就会有
    ,要注意到这个可是
    在全空间下的极大似然估计,说明什么?说明无论它怎么取最大值得到的
    ,都不可能比
    要大了,那这就是我们的结论了。

    最后我们给一个与这个有关的习题。

    Example 4:
    独立同分布,
    ,那么

    (1)
    已知,考虑求
    的极大似然估计。

    (2)
    已知,考虑求
    的极大似然估计。

    对于第一问,首先,我们根据标准化的思想,可以得到

    ,所以就可以得到
    ,化简一下就可以得到
    ,现在怎么办呢?

    我们这里可以仔细看一下,首先如果

    已知,那么
    就已知(因为这是标准正态的分位数),所以还差
    。你可以看到,式子中其实只有这两个未知数,也就是说它们
    需要被估计。那么你可以看出来,根据不变原理,我们只需要知道它们的估计就可以了。而这个是很容易的,因为我们容易得到的
    分别对应
    的极大似然估计,所以
    就会对应
    的极大似然估计,这样的话就可以得到我们就可以得到我们最终的估计

    反过来,如果说

    是已知的,那么反过来变一下式子就可以了,不难得到我们的结果为

    好的,看到这里,希望你多警觉一点。我们之前说过,就极大似然估计而言,性质并不是十全十美。但是我们这里似乎理所当然的认为,极大似然估计的函数就是极大似然估计了。真的可以这样吗?重新回头看一下那个例子,从

    ,这相当于是一个根号函数,这里要注意的是我们统计学意义上,
    是不被接受的,因此从
    实际上是一个一一映射,也就实际上避免了导出似然中,可能导致得到的参数空间会比这个参数本身需要验证极大似然估计的空间要小的问题。

    这里实际上就是要强调,我们在Theorem 1中提到的极大似然的函数的极大似然估计(这是绕口令吗?),其实是关于导出似然的估计,因此如果参数空间发生了变化,那么可能它的似然函数最大的性质就不一定能够被很好的迁移过来了。

    子集参数的似然

    概括一下,其实就是说,在遇到存在很多参数要求极大似然估计的时候,我们的一个备选方案:一个一个来,先求一个的极大似然估计,然后我再把结果代回去,再求一个,然后再代回去。下面这个定理其实就是告诉你:这个方法被采用了

    Theorem 3:
    上的极大似然估计
    存在唯一,考虑若
    的极大似然估计为
    (这个的意思是你求出来的估计会与
    有关)。代回得到
    ,并考虑设
    中的极大似然估计为
    ,设
    ,那么有

    (1)

    (2)

    我们证明一下这个结论。既然你要说明,我们通过这种方案得到的估计就是极大似然估计,那么你自然需要证明它代回去,得到的那个似然函数值也是最大的。不知道你还记得不,如果要证明一个结论

    。我们常见的一种思路就是先证明式子
    ,然后再证明式子
    。那么这里你也看到了,其实我们就是要证明
    (因为根据定义,反过来的方向是显然的)

    首先我们已经有了一个估计,那么根据这个估计可以得到

    把这个式子展开一下,就可以得到

    那么既然

    是极大似然估计,那么很明显还有个结论就是
    ,跟上面的那个拼在一起,就可以得到,无论怎么给定
    ,我们都能够得到,两个参数
    拼起来得到的
    就是我们要的极大似然估计,这就足够证明结论了。

    比方说考虑求

    的两个未知参数的极大似然估计,那么实际上你可以考虑先求
    的,然后再代回去,再求导把
    的结果求出来代回到
    中,你会发现结果是相同的。

    好的,我们用两个例题来结束这一部分。有一个是与相合估计相关的。

    Example 5:
    为独立同分布的样本,
    ,如果仅仅观测到
    的值,且知道
    ,求
    的极大似然估计。

    这个题目比较特殊的地方在于,它的观测值不再是完全已知的。所以我们的密度函数就需要多考虑一点。这里实际上样本的联合密度函数就是

    这里

    就是题目中那个分布的分布函数,简单做一个积分不难得到
    ,所以实际上我们得到的似然函数就是

    求导,判断极值点,不难得到最后我们的极大似然估计为

    。相信你也能看出来,这个题告诉了我们,即使我们拿到的数据
    不完整,也不影响我们去做极大似然估计。当然了,你提供多少信息,极大似然估计也就只能给你返回多少信息。
    Example 6:
    为来自密度函数
    的样本,求
    的极大似然估计
    ,并判断它是否是相合估计,是否是无偏估计?

    它的极大似然估计不难判断,我们之前已经用例题说明过求解方法,这里实际上就是

    。而根据次序统计量的式子,我们可以得到
    。现在既然要判断是否无偏和是否相合,其实核心问题就是求解一阶矩和二阶矩。这就涉及到了我们最开始提到的一些积分技巧了。

    首先是一阶矩,也就是期望。

    这个式子有两个部分,但是每一个部分其实都是我们在第一节就提到过的积分技巧。也就是说。

    所以,这个式子我们拆开写就可以得到

    也就是说它不是一个无偏估计。

    现在要考察相合估计,所以我们需要方差,而这就需要计算二阶矩,那么注意到

    条件够了吗?事实上是OK的,因为在

    的时候,有
    (注意,与它不是无偏估计
    并不矛盾,多的那一项是一个小量,但不是0)。这就说明了它是一个相合估计。

    考虑到下面的内容自成体系,我们就到此为止了。

    小结

    这一节主要给大家介绍了点估计的基本方法和估计量的几大性质。在数理统计的框架下,我们对于三大性质,极大似然估计的求解方法等关注更多了一些。在下一节中,我们会继续研究估计量的性质,并由此看到“信息”这个概念在数理统计中的广泛应用。

    下一节笔记传送门:数理统计|笔记整理(5)——估计量的进阶性质(1):统计判决函数,UMRUE,Fisher信息量

    ——————————————————————————————————————

    8c11bb05e947b775e641e02967fac647.png

    本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃

    个人微信公众号:cha-diary,你可以通过它来获得最新文章更新的通知。

    《一个大学生的日常笔记》专栏目录:笔记专栏|目录

    《GetDataWet》专栏目录:GetDataWet|目录

    想要更多方面的知识分享吗?可以关注专栏:一个大学生的日常笔记。你既可以在那里找到通俗易懂的数学,也可以找到一些杂谈和闲聊。也可以关注专栏:GetDataWet,看看在大数据的世界中,一个人的心路历程。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~

    展开全文
  • 参数估计:点估计和区间估计

    千次阅读 2020-02-28 10:49:49
    根据参数估计的性质不同,可以分成两种类型:点估计和区间估计。 点估计 点估计就是用样本统计量的某一具体数值直接推断未知的总体参数。例如,在进行有关小学生身高的研究中,随机抽取1000名小学生并计算出他们的...
  • 基于统计Mn(α)(k),提出了重尾分布二阶参数参数估计,在极值理论二阶正则条件下,得到二阶参数半参数估计的相合性,在三阶正则条件下得到其渐近正态性.通过Monte-Carlo模拟,从大样本性质与小样本性质这两...
  • 在一些正则性条件下,本文证明了所提出的半参数估计量的相合性和渐近正态性.其渐近性质的成立不依赖于扰动项的具体分布.数值模拟实验的结果表明,本文的半参数估计量具有优越的有限样本性质,且当扰动项服从非正态...
  • 参数估计的性质不同,分成点估计:用样本统计量的某一具体数值直接推断未知的总体参数,常用方法包括极大似然估计、贝叶斯估计、矩估计、最小二乘法等; 区间估计:在点估计的基础上,由样本统计量所构造的总体...
  • 数据分析|参数估计

    2019-12-21 13:03:37
    参数估计 在统计方法中地位参数估计 是为了判定总体数据特征性质,而从中抽取部分样本数据,通过样本参数进而估计总体数据特征目录1.估计量与估计值概念2.点估计与区间估计区别3.评...
  • 本文主要目的是利用归约技术研究参数估计方法行为和性质。 我们将重点介绍一种使用修正得分函数来减少最大似然估计值偏差方法。 我们还通过不同样本和结果变量概率百分比模拟数据提供了有趣新示例。
  • 之后利用核密度估计的相关知识构造了一个渐近无偏的U统计量来估计参数, 该检验统计量的值过大时接受随机变量是DRE 的假设. 在一定条件下证明了检验统计量的渐近正态性, 从而得到检验的渐近临界值. 最后确定了核...
  • 在回顾层级数据空间滞后(HSLAG)模型和层级数据空间误差自回归(HSEAR)模型的基础上...通过蒙特卡洛仿真实验对比HSEMA模型、HSLAG模型和HSEAR模型各估计量的估计残差分布,以衡量各估计量的估计精度,并比较其有限样本性质.
  • 对于存在所有正整数矩的任何参数族分布,SMHD方法的渐近性质表明,SMHD估计量的方差达到基于模拟的估计量的下限,该估计量基于Fisher信息矩阵的逆,通过一个常数进行调整,该常数反映了模拟导致的效率损失。...
  • 无偏估计量

    千次阅读 2017-10-22 23:09:01
    无偏估计量是指待估计参数估计量的期望值等于参数本身。 内容:  无偏估计量是样本平均数这一随机变量,其数学期望等于总体的被估计参数,即等于总体平均数,所以称其为无偏估计量。例如,虽然各个可能样本的样本...
  • 平稳序列均值、自协方差函数的估计量及其性质,以及白噪声检验。
  • 第二,针对应用普通对称核拟合分布于[0,1] 区间内回收率会产生的估计量偏差在边界有增大趋势问题,我们通过引入边界核来改善这一现象:首先对两种核统计性质进行理论推导,随后使用蒙特卡罗模拟(Monte Carlo ...
  • 总结统计量的某个性质(比如无偏性)是否具有变换不变性(该性质在变换后保持不变),如果某一个统计量T(x)T(x)T(x)是某个参数θ\thetaθ的无偏估计,将统计量经过hhh变换之后为h(T(x))h(T(x))h(T(x)),它是否也是...
  • 在上一篇文章中,我们分别研究了最小二乘估计量 β^OLS 和 σ^OLS 相关性质,证明了 β^OLS 是 β 一个最优线性无偏估计量(BLUE), σ^2OLS 是 σ2 一个无偏估计量,并得到了其在正态性误差假设下所对应...
  • 特征估计和模型检验1、均值估计[1]估计量 ̂= ̅_n[2]性质 无偏性: ̂是 无偏估计 相合性:若 _ → 0,则 ̂是 相合估计;如果{ }严遍历则是强相合估计收敛性:若若{ _ }正态/独立同分布白噪声,则2、自协方差 ...
  • 期望的性质 ​ 方差 协方差 协方差的意义 协方差和独立、不相关 协方差的上界 相关系数 N维协方差阵 矩 统计参数的总结 偏度 切比雪夫不等式 大数定理 伯努利定理 中心极限定理 样本的统计 样本...
  • 背景:研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质 统计推断的基本问题 (1)参数估计问题:总体X的分布函数的形式已知,但它的一个或多个参数为未知,需要借助于X的样本来估计...
  • (Maximum Likelihood Estimation) 对于一组数据,我们常用某种模型对其进行...根据参数估计的性质不同,可以将参数估计的方法分为点估计和区间估计。 点估计是通过样本统计来推断未知总体的参数,如调查一个地区...
  • 部分线性测量误差模型的Liu估计,张婷婷,刘朝林,本文介绍了多重共线性下的部分线性测量误差模型中参数部分的Liu估计,研究了Liu估计的渐近性质,并在均方误差准则下讨论了估计量的
  • 此外,已经做出了一些努力来评估LRD过程的Hurst估计量的准确性和有效性。 但是,实际上,许多测量的信号会因各种类型的噪声而损坏,有时甚至相关的信号本身也具有无限的方差。 在这种情况下,哪个估计器对信号的LRD...
  • 上一节笔记传送门:数理统计|笔记整理(6)——常见分布族,估计量的进阶性质(2):UMVUE,UMRUE相关计算下一节笔记传送门:数理统计|笔记整理(8)——估计量的高级性质:C-R不等式,Slutsky定理,渐近正态性初步...
  • 概率统计 概率统计与机器学习关系 统计 期望 方差与协方差 重要定理和不等式 ...概念 性质 方差与协方差方差 协方差 协方差与独立/不相关 协方差意义 重要定理和不等式Jensen不等式从概率角度看Jensen
  • 该估计量既具有函数型最小二乘法的优势——在扰动项服从厚尾分布时也能够稳健估计参数,又具有非参数核估计的特点——估计量的相合性不依赖于参数模型的正确设定.同时,本文探讨了该估计量的大样本性质,证明了其相...
  • 估计

    2019-12-08 11:15:34
    距估计: 矩估计,即矩估计法,也称“矩法估计”,就是利用样本矩来估计总体中相应的参数。首先推导涉及感兴趣的参数的总体矩(即所考虑的随机变量的幂的期望值)的...相合估计亦称为一致估计、相容估计,估计量的...

空空如也

空空如也

1 2 3 4 5 ... 10
收藏数 183
精华内容 73
关键字:

参数估计量的性质