精华内容
下载资源
问答
  • 衡量参数估计的指标2.1 无偏性2.2 一致性2.3 有效性3. 一些引理3.1 期望运算的线性性3.2 期望运算的线性性4. *β*^~OLS~ 的性质4.1 *β*^~OLS~ 服从的分布4.2 *β*^~OLS~ 与误差项之间的关系4.3 *β*^~OLS~ 的无偏...

    【更新日志】
    4/5/2020 对文章中公式与排版的部分错误进行修正


    1. 前文回顾

    在前面的文章中,我们介绍了多元线性回归模型的两种参数估计。对于模型:
    y i = β 0 + ∑ j = 1 p x i j β j + ϵ i ,   i = 1 , . . . , N y_i= \beta_0 + \sum_{j=1}^{p} x_{ij} \beta_j + \epsilon_i , \ i=1,...,N yi=β0+j=1pxijβj+ϵi, i=1,...,N ϵ = ( ϵ i ) N × 1 ∼ N ( 0 , I n σ 2 ) \bm{\epsilon} = (\epsilon_i)_{N \times 1} \thicksim N(0,\bm{I_n}\sigma^2) ϵ=(ϵi)N×1N(0,Inσ2)
    利用最小二乘估计法(OLS)得到的参数估计量为:
    β ^ O L S = ( X T X ) − 1 X T y \bm{\hat\beta}_{OLS} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^OLS=(XTX)1XTy σ ^ O L S = 1 N − p − 1 ( y − X β ^ O L S ) T ( y − X β ^ O L S ) \bm{\hat \sigma} _{OLS} = \sqrt{ \frac {1 } {N-p-1} ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{OLS} )^T ( \bm{y} -\bm{X} \bm{\hat{\beta}}_{OLS} ) } σ^OLS=Np11(yXβ^OLS)T(yXβ^OLS)
    而利用极大似然估计法(ML)得到的参数估计量为:
    β ^ M L = ( X T X ) − 1 X T y \bm{\hat\beta}_{ML} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^ML=(XTX)1XTy σ ^ M L = 1 N ( y − X β ^ M L ) T ( y − X β ^ M L ) \bm{\hat \sigma} _{ML} = \sqrt{ \frac { 1 } {N} ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{ML} )^T ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{ML} ) } σ^ML=N1(yXβ^ML)T(yXβ^ML) 其中:
    β = [ β 0 β 1 ⋮ β p ] ( p + 1 ) × 1 ,       y = [ y 0 y 1 ⋮ y N ] N × 1 ,       X = [   1    x 11    …    x 1 p   1    x 21    …    x 2 p ⋮       ⋮       ⋱      ⋮   1    x N 1    …    x N p ] N × ( p + 1 ) \bm{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots\\ \beta_p \end{bmatrix}_{(p+1) \times1}, \space \space \space \space \space \bm{y} = \begin{bmatrix} y_0 \\ y_1 \\ \vdots\\ y_N \end{bmatrix}_{N \times1}, \space \space \space \space \space \bm{X} = \begin{bmatrix} \space 1 \space\space x_{11} \space\space \dots \space\space x_{1p} \\ \space 1 \space\space x_{21} \space\space \dots \space\space x_{2p} \\ \vdots \space \space\space \space \space \vdots \space \space \space \space \space ⋱ \space \space \space \space \vdots\\ \space 1 \space\space x_{N1} \space\space \dots \space\space x_{Np} \end{bmatrix}_{N \times (p+1)} β=β0β1βp(p+1)×1,     y=y0y1yNN×1,     X= 1  x11    x1p 1  x21    x2p               1  xN1    xNpN×(p+1)
    在这两种方法中,最小二乘估计法是我们最为常用的参数估计方法,原因有二:其一,以残差平方和作为评判超平面拟合好坏的指标比较直观,也易于理解;其二,最小二乘估计参数具有良好的估计量性质。此外,以残差平方和构建代价函数(Cost Function)的方法在机器学习领域十分常见,我们会在后面的Lasso回归和Ridge回归之中继续体会其中的奥妙。

    在本章中,我们来继续探索利用最小二乘估计量在性质上究竟具有什么样的优势吧~


    2. 衡量参数估计量好坏的指标

    由于参数估计量是总体参数的估计值,因此估计量必然与总体参数之间存在一定的“误差”。如果,我们如何衡量一个参数的估计量是好是坏呢?我们可以从以下这几个性质入手:

    这里想编一个射击小游戏来说明,但是有点费脑筋,等编好了再补充上来吧。

    2.1 无偏性

    参数估计量的 无偏性(unbiasedness) 是指,在多次试验中,用总体的某参数估计值的平均值与该总体参数的真实值“没有偏差”。用数学语言来描述则可以表达为:若一个总体参数 β 的估计量 β^ 是无偏估计量,则该估计量应满足:
    E [ β ^ ] = β E[\bm{\hat\beta}] = \bm\beta E[β^]=β

    2.2 一致性

    参数估计量的 一致性(Consistency) 是指,当样本数量足够大的时候,总体参数的估计值以某种意义收敛到该参数真值,即:
    β ^ → n → ∞ 在 某 种 意 义 下 β \bm{\hat\beta} \xrightarrow[n\rarr\infin]{在某种意义下} \bm\beta β^ nβ
    (1)若 β^ 依概率收敛β ,则称 β^β弱一致估计
    (2)若 β^ 以概率1收敛β ,则称 β^β强一致估计

    注1无偏性是一种小样本性质,而一致性则是一种大样本性质
    注2一致估计又称为相合估计相容估计

    2.3 有效性

    参数估计量的 有效性(Validness) 是指,在参数的任意一无偏估计量中,该无偏估计量的方差最小,即:


    E [ β ^ ] = β E[\bm{\hat\beta}]= \bm\beta E[β^]=β ∀ β ~ ∈ { β ~ : E [ β ~ ] = β } var [ β ^ ] ≤ var [ β ~ ] \forall \bm{\tilde\beta} \in \{ \bm{\tilde\beta}: E[\bm{\tilde\beta}]= \bm\beta \} \\ \text{var}[\bm{\hat\beta}] \le \text{var}[\bm{\tilde\beta}] β~{β~:E[β~]=β}var[β^]var[β~]

    则称 β^β有效估计量(Valid Estimator)


    3. 一些引理(可略)

    为了保证后续证明的严谨性,本文列出一些比较重要的引理。在实际应用过程中可以忽略这些引理的证明过程而直接使用其结论。

    3.1 期望运算的线性性

    【引理1 期望线性性】 对于任一 n 阶随机向量 ym × n 线性变换矩阵 Am 阶随机向量 Ay 有:
    E [ A y ] = A E [ y ] E[\bm{A}\bm{y}]=\bm{A}E[\bm{y}] E[Ay]=AE[y]
    Proof:
    由于随机变量(向量)的期望由Riemann-Stieltjes积分定义:
    E [ y ] = ∫ y   d F ( y ) E[\bm{y}]=\int\bm{y}\ d\bm{F}( \bm{y} ) E[y]=y dF(y)

    其中,F(·)为随机变量(向量)的分布集函数。

    由Riemann-Stieltjes积分的线性性,可以证明:
    E [ A y ] = ∫ A y   d F ( y ) = A ∫ y   d F ( y ) = A E [ y ] E[\bm{Ay}]=\int\bm{Ay}\ d\bm{F}( \bm{y} )= \bm{A}\int\bm{y}\ d\bm{F}( \bm{y} ) = \bm{A}E[\bm{y}] E[Ay]=Ay dF(y)=Ay dF(y)=AE[y]
    Q.E.D.

    注:有关Riemann-Stieltjes积分的定义与运算性质可以参考相关文献

    3.2 协方差运算的半线性性

    【引理2 协方差半线性性】 对于任一 n 阶随机向量 xy,与两 m × n 线性变换矩阵 AB ,有:
    cov ( A x , B y ) = A cov ( x , y ) B T \text{cov} (\bm{Ax},\bm{By})= \bm{A}\text{cov} (\bm{x},\bm{y})\bm{B}^T cov(Ax,By)=Acov(x,y)BT
    Proof:
    cov ( A x , B y ) = E [ ( A x − E [ A x ] ) ( B y − E [ B y ] ) T ] = E [ ( A x − A E [ x ] ) ( B y − B E [ y ] ) T ] = A E [ ( x − E [ x ] ) ( y − E [ y ] ) T ] B T = A cov ( x , y ) B T \text{cov} (\bm{Ax},\bm{By}) \\ =E[(\bm{Ax}-E[\bm{Ax}])(\bm{By}-E[\bm{By}])^T] \\ =E[(\bm{Ax}-\bm{A}E[\bm{x}])(\bm{By}-\bm{B}E[\bm{y}])^T] \\ =\bm{A}E[(\bm{x}-E[\bm{x}])(\bm{y}-E[\bm{y}])^T]\bm{B}^T \\ =\bm{A}\text{cov} (\bm{x},\bm{y})\bm{B}^T cov(Ax,By)=E[(AxE[Ax])(ByE[By])T]=E[(AxAE[x])(ByBE[y])T]=AE[(xE[x])(yE[y])T]BT=Acov(x,y)BT
    Q.E.D.

    3.3 矩阵迹运算的性质

    【引理3 矩阵迹运算的性质】 对于任意 m × nn × m 阶实矩阵 AB ,其迹运算(trace)满足:
    t r ( A B ) = t r ( B A ) tr(AB)=tr(BA) tr(AB)=tr(BA)
    Proof:
    根据矩阵乘法与迹运算的定义:
    t r ( A B ) = ∑ i = 1 m ∑ j = 1 n a i , j b j , i tr(AB) = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{i,j} b_{j,i} tr(AB)=i=1mj=1nai,jbj,i t r ( B A ) = ∑ j = 1 n ∑ i = 1 m b j , i a i , j tr(BA) = \sum_{j=1}^{n} \sum_{i=1}^{m} b_{j,i} a_{i,j} tr(BA)=j=1ni=1mbj,iai,j
    由乘法交换律和加法分配律易得:
    t r ( A B ) = ∑ i = 1 m ∑ j = 1 n a i , j b j , i = ∑ j = 1 n ∑ i = 1 m b j , i a i , j = t r ( B A ) tr(AB) = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{i,j} b_{j,i} = \sum_{j=1}^{n} \sum_{i=1}^{m} b_{j,i} a_{i,j} = tr(BA) tr(AB)=i=1mj=1nai,jbj,i=j=1ni=1mbj,iai,j=tr(BA)
    Q.E.D.


    4. β^OLS 的性质

    4.1 β^OLS 服从的分布

    若模型的正态性假设成立,即:

    ϵ ∼ N ( 0 , I n σ 2 ) \bm{\epsilon} \thicksim N(0,\bm{I_n}\sigma^2) ϵN(0,Inσ2)

    则有:
    y = X β + ϵ ∼ N ( X β , I n σ 2 ) \bm{y} = \bm{X} \bm\beta + \bm\epsilon \thicksim N( \bm{X} \bm\beta, \bm{I_n}\sigma^2) y=Xβ+ϵN(Xβ,Inσ2)
    因此,在给定自变量的条件下,y 服从于均值为 ,协方差矩阵为 Inσ2 的条件正态分布。

    又因为 β^OLS 满足:
    β ^ O L S = ( X T X ) − 1 X T y \bm{\hat\beta}_{OLS} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^OLS=(XTX)1XTy
    β^OLS 关于因变量 y线性变换(Linear Transformation)。由正态分布的性质可知, β^OLS 服从正态分布,且其均值有:
    E [ β ^ O L S ] = E [ ( X T X ) − 1 X T y ] = ( X T X ) − 1 X T E [ y ] = ( X T X ) − 1 X T X β = β E[\bm{\hat\beta}_{OLS} ] = E[ ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} ] \\ \hspace{4em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T E[\bm{y} ] \\ \hspace{3.75em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{X} \bm\beta \\ \hspace{-3.5em} = \bm\beta E[β^OLS]=E[(XTX)1XTy]=(XTX)1XTE[y]=(XTX)1XTXβ=β
    其方差有:
    var [ β ^ O L S ] = var [ ( X T X ) − 1 X T y ] = cov [ ( X T X ) − 1 X T y , ( X T X ) − 1 X T y ] = ( X T X ) − 1 X T cov [ y , y ] X ( X T X ) − 1 = σ 2 ( X T X ) − 1 X T I n X ( X T X ) − 1 = σ 2 ( X T X ) − 1 \text{var} [\bm{\hat\beta}_{OLS}] \\ \hspace{3.25em} = \text{var} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ \hspace{7em} = \text{cov} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}, ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ \hspace{7.25em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \text{cov} [\bm{y}, \bm{y}] \bm{X} ( \bm{X}^T \bm{X} )^{-1} \\ \hspace{7.25em} = \sigma^2 ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{I}_n \bm{X} ( \bm{X}^T \bm{X} )^{-1} \\ \hspace{-0.25em} = \sigma^2 ( \bm{X}^T \bm{X} )^{-1} var[β^OLS]=var[(XTX)1XTy]=cov[(XTX)1XTy,(XTX)1XTy]=(XTX)1XTcov[y,y]X(XTX)1=σ2(XTX)1XTInX(XTX)1=σ2(XTX)1
    至此,可以说明:在方差正态性满足的前提下,β^OLS 满足:
    β ^ O L S ∼ N ( β , σ 2 ( X T X ) − 1 ) \bm{\hat\beta}_{OLS} \thicksim N(\bm\beta, \sigma^2 ( \bm{X}^T \bm{X} )^{-1} ) β^OLSN(β,σ2(XTX)1)

    4.2 β^OLS 与误差项之间的关系

    由4.1中的论述,我们知道 β^OLS 是因变量 y 的线性表示,而 y 又是误差项 ϵ 的线性表示。实际上:
    cov ( y , ϵ ) = cov ( X β + ϵ , ϵ ) = I n σ 2 \text{cov} (\bm{y}, \bm\epsilon) = \text{cov} (\bm{X}\bm\beta + \bm\epsilon, \bm\epsilon) =\bm{I}_n\sigma^2 cov(y,ϵ)=cov(Xβ+ϵ,ϵ)=Inσ2
    因此,β^OLS 与误差项 ϵ 存在相关关系,其协防矩阵有:
    cov ( β ^ , ϵ ) = cov [ ( X T X ) − 1 X T y , ϵ ] = ( X T X ) − 1 X T cov ( y , ϵ ) = σ 2 ( X T X ) − 1 X T \text{cov} (\bm{\hat\beta},\bm\epsilon) = \text{cov} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}, \epsilon] \\ = (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \text{cov} (\bm{y}, \bm\epsilon) \\ = \sigma ^ 2( \bm{X}^T \bm{X} )^{-1} \bm{X}^T cov(β^,ϵ)=cov[(XTX)1XTy,ϵ]=(XTX)1XTcov(y,ϵ)=σ2(XTX)1XT

    4.3 β^OLS 的无偏性

    首先,我们来证明,β^OLSβ的无偏估计量。
    实际上,由4.1中的证明,我们已经得到:
    E [ β ^ O L S ] = β E[\bm{\hat\beta}_{OLS} ] = \bm\beta E[β^OLS]=β
    因此,最小二乘估计量 β^OLSβ无偏估计量

    :由于 β 的最小二乘法估计量与极大似然估计量在表达形式上相等,因此极大似然估计量 β^ML 也是 β 的无偏估计量

    4.4 β^OLS 的一致性

    下面,让我们继续证明, β^OLSβ弱一致估计量,在某些特定条件下,β^OLSβ强一致估计量。由于估计量的一致性证明过程较为艰深冗长,详细的证明过程与结论可以参考文献[1]:线性回归估计相合性问题的新进展.

    4.5 β^OLS 的有效性

    βOLS 的有效性可以由 高斯-马尔科夫定理(Gauss-Markov Theorm) 证得。

    【Gauss-Markov定理】β 的所有线性无偏估计量中, β^OLS方差最小的线性无偏估计量

    Proof:

    假设 cTyβ 的一个线性无偏估计量,其中, cT = (XTX)-1XT + DD 为一常矩阵。则有:
    E [ c T y ] = [ ( X T X ) − 1 X T + D ] X β = ( I + D X ) β = β E[\bm{c}^T\bm{y}] = [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}] \bm{X \beta} \\ =(\bm{I+DX} )\bm\beta =\bm\beta E[cTy]=[(XTX)1XT+D]Xβ=(I+DX)β=β

    因此可知:
    D X = 0 \bm{DX} =\bm{0} DX=0

    而:
    var ( c T y ) = c T var ( y ) c = σ 2 c T c = σ 2 [ ( X T X ) − 1 X T + D ] [ ( X T X ) − 1 X T + D ] T = σ 2 [ ( X T X ) − 1 + D D T ] ≥ σ 2 ( X T X ) − 1 = var ( β ^ ) \text{var}(\bm{c}^T\bm{y}) =\bm{c}^T \text{var}(\bm{y}) \bm{c} =\sigma^2 \bm{c}^T \bm{c} \\ \\ \hspace{5em} = \sigma^2 [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}] [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}]^T \\ =\sigma^2 [(\bm{X^TX})^{-1} +\bm{D}\bm{D}^T] \\ \ge \sigma^2 (\bm{X^TX})^{-1} = \text{var}(\hat{\bm{\beta}}) var(cTy)=cTvar(y)c=σ2cTc=σ2[(XTX)1XT+D][(XTX)1XT+D]T=σ2[(XTX)1+DDT]σ2(XTX)1=var(β^)
    Q.E.D.


    5. σ^OLS 的性质

    5.1 σ^2OLS 的无偏性

    我们先将σ^2OLS的表达式进行变型:
    ( N − p − 1 ) σ ^ O L S 2 = ( y − X β ^ O L S ) T ( y − X β ^ O L S ) = [ y − X ( X T X ) − 1 X T y ] T [ y − X ( X T X ) − 1 X T y ] = y T [ I N − X ( X T X ) − 1 X T ] T [ I N − X ( X T X ) − 1 X T ] y = y T [ I N − X ( X T X ) − 1 X T ] y = ( X β + ϵ ) T [ I N − X ( X T X ) − 1 X T ] ( X β + ϵ ) = β T X T [ I N − X ( X T X ) − 1 X T ] X β ( 1 ) + ϵ T [ I N − X ( X T X ) − 1 X T ] X β ( 2 ) + β T X T [ I N − X ( X T X ) − 1 X T ] ϵ ( 3 ) + ϵ T [ I N − X ( X T X ) − 1 X T ] ϵ ( 4 ) (N-p-1)\hat \sigma _{OLS}^2 \\ = ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{OLS} )^T ( \bm{y} -\bm{X} \bm{\hat{\beta}}_{OLS} ) \\ = [\bm{y} - \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}]^T [\bm{y} - \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ = \bm{y}^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ]^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{y} \\ =\bm{y}^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{y} \\ =(\bm{\bm{X}\bm{\beta} + \bm{\epsilon}} )^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] (\bm{\bm{X}\bm{\beta} + \bm{\epsilon}} ) \\ = \bm{\beta}^T\bm{X}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{X}\bm{\beta} \hspace{3em}(1) \\ + \bm{\epsilon}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{X}\bm{\beta} \hspace{3em}(2) \\ + \bm{\beta}^T\bm{X}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{\epsilon}\hspace{3em}(3) \\ +\bm{\epsilon}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{\epsilon}\hspace{3em}(4) (Np1)σ^OLS2=(yXβ^OLS)T(yXβ^OLS)=[yX(XTX)1XTy]T[yX(XTX)1XTy]=yT[INX(XTX)1XT]T[INX(XTX)1XT]y=yT[INX(XTX)1XT]y=(Xβ+ϵ)T[INX(XTX)1XT](Xβ+ϵ)=βTXT[INX(XTX)1XT]Xβ(1)+ϵT[INX(XTX)1XT]Xβ(2)+βTXT[INX(XTX)1XT]ϵ(3)+ϵT[INX(XTX)1XT]ϵ(4)
    至此,我们将的表达式分成了四个部分。容易计算:第(1)项、第(2)项和第(3)项均 恒为0 。因此:

    σ ^ O L S 2 = 1 ( N − p − 1 ) ϵ T ( I N − X ( X T X ) − 1 X T ) ϵ \hat \sigma _{OLS}^2 = \frac{1}{(N-p-1)} \bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon} σ^OLS2=(Np1)1ϵT(INX(XTX)1XT)ϵ

    根据引理3关于迹运算的性质,以及迹运算与期望运算的相容性:

    E [ ϵ T ( I N − X ( X T X ) − 1 X T ) ϵ ] = E [ t r { ( I N − X ( X T X ) − 1 X T ) ϵ ϵ T } ] = t r { ( I N − X ( X T X ) − 1 X T ) E [ ϵ ϵ T ] } = t r { ( I N − X ( X T X ) − 1 X T ) I N σ 2 } = σ 2 [ t r { I N } − t r { X ( X T X ) − 1 X T } ] = σ 2 [ t r { I N } − t r { X T X ( X T X ) − 1 } ] = σ 2 [ t r { I N } − t r { I ( p + 1 ) } ] = ( N − p − 1 ) σ 2 E[\bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon}] \\ = E[tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon} \bm{\epsilon}^T \}] \\ = tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) E[ \bm{\epsilon} \bm{\epsilon}^T ] \} \\ = tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{I}_N \sigma^2 \} \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \} ] \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{X}^T\bm{X} (\bm{X}^T \bm{X} )^{-1} \} ] \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{I}_{(p+1)} \} ] \\ = (N-p-1)\sigma^2 E[ϵT(INX(XTX)1XT)ϵ]=E[tr{(INX(XTX)1XT)ϵϵT}]=tr{(INX(XTX)1XT)E[ϵϵT]}=tr{(INX(XTX)1XT)INσ2}=σ2[tr{IN}tr{X(XTX)1XT}]=σ2[tr{IN}tr{XTX(XTX)1}]=σ2[tr{IN}tr{I(p+1)}]=(Np1)σ2
    因此:
    E [ σ ^ O L S 2 ] = σ 2 E[\hat \sigma _{OLS}^2] =\sigma^2 E[σ^OLS2]=σ2

    至此,我们证得:σ^2OLSσ2无偏估计量

    注1:显然,σ^2ML 不是 σ2 的无偏估计 ;
    注2:需要特别注意的是,σ^OLS 不是 σ 的无偏估计量(这里的平方号不能少)。


    5.2 σ^2OLS 所服从的分布

    σ^2OLS 的表达式:
    σ ^ O L S 2 = 1 ( N − p − 1 ) ϵ T ( I N − X ( X T X ) − 1 X T ) ϵ \hat \sigma _{OLS}^2 = \frac{1}{(N-p-1)} \bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon} σ^OLS2=(Np1)1ϵT(INX(XTX)1XT)ϵ
    可以看出,σ^2OLS 是关于误差项 ϵ 的二次型。因此,容易证明: σ^2OLS/ σ2 服从自由度为 N - p - 1的卡方分布,即:
    ( N − p − 1 ) σ ^ O L S 2 σ 2 ∼ χ N − p − 1 2 \frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2_{N-p-1} σ2(Np1)σ^OLS2χNp12


    6. 结论

    至此,通过一系列冗长但富有启发性的证明,我们从 无偏性一致性有效性 这三个角度,对多元线性回归模型的最小二乘估计量 β^OLSσ^2OLS 的质量进行了评判,得到的结论如下:

    (1)β^OLSβ最优线性无偏估计量 (Best Linear Unbiased Estimator,BLUE),即其具有 无偏性、一致性与有效性

    (2)σ^2OLSσ2无偏估计量(Unbiased Estimator)。

    同时,在误差项满足正态性假设的条件下,我们推导出了 β^OLSσ^2OLS 所服从的分布:
    β ^ O L S ∼ N ( β , σ 2 ( X T X ) − 1 ) \bm{\hat\beta}_{OLS} \thicksim N(\bm\beta, \sigma^2 ( \bm{X}^T \bm{X} )^{-1} ) β^OLSN(β,σ2(XTX)1) ( N − p − 1 ) σ ^ O L S 2 σ 2 ∼ χ 2 ( N − p − 1 ) \frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2(N-p-1) σ2(Np1)σ^OLS2χ2(Np1)
    但是,得到这两个分布有啥用啊?那就且听我们下回分解。


    7. 新问题的提出

    至此,我们解决了模型的参数估计,以及所估计参数的相关性质,并给出了参数估计量的分布。但是,我们还有一堆问题还没有解决:

    (1)估计出来的模型好不好?有没有效呢?
    (2)估计出来的模型是否满足模型的基本假设条件呢?不满足可咋办呢?
    (3)如何利用估计出来的模型进行预测呢?预测的准确性有多高呢?
    (4)下次更新是不是又得一年后啊?

    在下一篇文章中,就让我们利用参数的区间估计与假设检验,来看看我们拟合出来的模型到底有没有用。


    参考文献

    [1] 线性回归估计相合性问题的新进展 .


    写在最后

    欢迎感兴趣的小伙伴来跟作者一起挑刺儿~ 包括但不限于语言上的、排版上的和内容上的不足和疏漏~ 一起进步呀!
    有任何问题,欢迎在本文下方留言,或者将问题发送至勘误邮箱: mikeysun_bugfix@163.com
    谢谢大家!

    展开全文
  • 在龚金国和史代敏提出时变Copula非参数模型的基础上,利用时间序列的极限理论研究了时变参数估计量的大样本性质,并给出了时变Copula模型的非参数估计算法。研究结果表明,时变Copula非参数模型的时变参数估计量具有...
  • 参数估计

    千次阅读 2018-10-10 23:31:28
    一、参数估计内容 1.参数估计的requisites   我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理...

    前言

      学了很久的数理统计,总觉得知识在脑海中没有一个清晰的轮廓,虽然也可以自己通过纸和笔整理,但是,也想要通过新的方式,用文字的方式输出,这一想法已经在我脑海里盘旋了好久了,终于在今天开始落实。

    一、参数估计内容

    1.参数估计的requisites

      我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理有一些了解,最好还要知道三大抽样分布的性质。

    但是还是简单提一下统计量的概念吧:统计量是从样本中得到的,是样本的函数,统计量不含有任何未知参数。

    2.参数估计的目的

      我们在统计中,总是想要通过样本去推断总体的性质,而引进统计量,就是对样本进行描述的过程。实际中,我们感兴趣的问题总是与总体分布中的未知参数有关系,所以,我们要对参数进行估计和检验。
    这里的参数是指:

    • 分布中的未知参数和未知参数的函数
    • 分布的各种特征函数

    3.参数估计的类型和使用

    在此之间,我们必须要明确一点,估计是一个方法,不是一个具体算出来的值;只是,在给定样本以后,用这种估计的方法,可以算出数值。

    3.1 点估计

      点估计,顾名思义是对某个未知参数的值的估计,就像是数轴上的一个点。因此我们的目的也就是找到一个未知参数的好的估计量。
      知道点估计的含义以后,我们先来看看常用的找估计量的方法:

    • 矩估计
    • 最大似然估计
    • 最小方差无偏估计
    • 贝叶斯估计

    3.1.1 矩估计

      矩估计的基本原理就是:替换原理通过样本的矩替换总体的矩,用样本矩的函数替换总体矩的函数。
      这么做的好处是:在总体分布函数未知的情况下,通过样本的特征数可以对各种参数进行估计。
      矩估计的实质是:用样本的经验分布函数去替换总体的分布,理论基础是格里纹科定理。
      具体的操作就是:

    1. 假设已知总体的概率密度函数,但其中的参数未知,通过这个带有未知参数的密度函数去求总体的各阶矩;
    2. 利用样本的数据,求各阶矩;
    3. 通过总体各阶矩和样本各阶矩相等,构造方程组,解出参数。

    3.1.2 最大似然估计(MLE)

      最大似然估计,也可以叫做极大似然估计,从字面理解非常到位就是,找到一个未知参数的估计,使得在这个估计的条件下,由总体概率密度函数推算的分布下,样本发生的可能性最大。即是,最大的像这样的估计。
    具体操作就是:

    1. 将未知参数的估计设为x,带入总体密度函数。
    2. 建立在样本的独立性的条件下,根据样本求出样本取得当下值的概率。
    3. 通过分析计算出使得概率达到最大的x,就是未知参数的极大似然估计。
      最大似然估计具有不变性。

    3.1.3 最小方差无偏估计

      首先引进均方误差(MSE)的概念,均方误差是用于衡量点估计好坏的一种标准,关于衡量点估计好坏的标准在后文还会详细介绍,这里为了需要,先简单提一下。首先明确一点,均方误差是对点估计进行的计算。具体的计算公式是,参数估计值与真实值之差的平方的期望,通过分解,也等于估计值的方差加估计值的期望与真实值之差的平方。
      一致最小均方误差估计,是需要在一个确定的估计类里,找到均方误差相对最小的那个。但由于是在估计类里找,如果不对估计加任何限制,则一致最小均方误差估计是不存在的,所以没有意义。
      最小方差无偏估计,这里是指一致最小方差无偏估计,就是对于一个参数的无偏估计而言,最小的均方误差就意味着最小的方差。对于参数空间中的任何无偏估计,具有最小方差的那个估计就称作是一致最小方差无偏估计(UMVUE)
    实际上,用于判断是否是UMVUE,可以通过一个定理方便地得到:未知参数的UMVUE必然与任一零的无偏估计不相关。也就是说,现在还有一个其他的随机变量X,均值是零,那么这个未知参数的UMVUE与这个随机变量X的相关系数(Cov)为零。

    3.1.4 贝叶斯估计

      前面介绍的三种办法是频率学派的理论,而贝叶斯估计是贝叶斯学派的观点。
      贝叶斯估计是建立在已经有关于参数的分布的信息的基础上,叫做先验信息,然后进行样本观测,推算后验分布。也可以理解为,用总体和样本对先验分布做出调整。
      具体做法是:

    1. 在参数未知的条件下,确定总体的分布
    2. 根据参数的先验信息确定先验分布 π(θ)
    3. 求出在通过先验分布得到的未知参数后,样本的联合分布 p(X|θ)
    4. 确定样本和未知参数的联合分布,也就是2.与3.得到的分布函数之积 h(X,θ)=p(X|θ)π(θ)。
    5. 对参数θ的贝叶斯推断,π(θ|X)= h(X,θ)/m(X),其中m(X) 是从h(X,θ)中对θ整个参数空间积分得到的,X的边际概率函数。

    3.2 点估计好坏的评价标准

      前面已经提到点估计的目的是找到未知参数的好的估计量,那么到底怎么定义“好”,也是我们需要关心的。在点估计中,有如下标准衡量:

    • 无偏性
    • 有效性
    • 相合性
    • 均方误差
    • 充分性原则
    • 有效估计

      我刚学参数估计的时候,脑子里总是记不住这些性质到底在描述什么QAQ
      好吧,其实现在也记不住,我也必须翻一下笔记了…

    • 无偏性
        无偏性是描述经过重复抽样以后,所有对这个未知参数的估计值的平均等于真实的参数值。具体判断也就是计算这个估计的均值,看它是否等于真实值。关于无偏性还有一些性质,最好能够记住:
      1. 样本的k阶中心距通常不是总体k阶中心矩的无偏估计
      2. 无偏性不具有不变性,也就是无偏估计的函数不一定是无偏估计
          无偏估计还有渐近无偏估计,就是当样本量趋近于无穷时,均值的极限趋近于真实值。也是用于衡量一个估计是一个好的估计的准则。
    • 有效性
        有效性是建立在两个无偏估计的基础上,比较两个无偏估计的方差,方差小的更有效。
    • 相合性
        与渐近无偏性从期望的极限角度理解不同,相合性是从概率的角度,即未知参数的估计,在样本量趋近于无穷大的时候,估计量依概率收敛到未知参数。也即是说,当样本量增大的时候,被估计的参数能够被估计到任意指定的精度。判断相合性,我们采用验证它的充分条件:
      1. 渐进无偏性
      2. 方差收敛到0
          由大数定理知道,矩估计一般都是相合的
    • 均方误差
        MSE,是通过计算参数估计值与真实值之差的平方的期望,其大小能够反映估计的好坏,在同一估计类里越小越好。
    • 充分性原则
        首先,要注意充分性原则和充分性是两个不同的东西!充分性是描述统计量不丢失关于样本的任何信息,则称这个统计量为充分统计量。那么,充分性原则和充分性一点关系都没有吗?也不是的。在比较两个无偏估计的好坏的时候,较好的那个无偏估计总是样本的充分统计量;并且,将不是样本充分统计量的统计量,关于充分统计量求期望,得到的估计,一定是充分统计量,并且新的估计的方差也得到了降低。
        换句话说,对于所有的统计推断问题,考虑未知参数的估计问题,只需要在基于充分统计量的函数中进行即可,这就是充分性原则。
        你可能还在想,怎么将不是样本充分统计量的统计量关于一个充分统计量求期望?利用随机过程讲义的第一章的内容,利用条件概率公式,连续函数求积分,离散函数求∑。
    • 有效估计
        有效估计是一个估计,它的方差达到了Cramer-Rao方程的下界,有效估计一定是UMVUE哈。具体计算来判断是否是有效估计的话:
      1. 根据总体密度函数(含参数)检验满足C-R方程的条件;
      2. 求费希尔信息量,找到C-R下界;
      3. 对无偏估计求方差,检验是否等于C-R下界。

    3.3 区间估计

      之前我们讨论的都是点估计,但是关于统计量的精度我们无法定量的回答,必须通过它们的分布来反映。在实际中,度量点估计精度直观方法就是给出未知参数的一个区间,这就是区间估计。
      区间估计是想要找到两个统计量,构成一个区间,这个区间盖住未知参数真值的可能性不确定,但是人们总是希望在尽可能小的区间下,区间盖住真值的可能性越大越好,由此得到置信区间的定义:
      置信区间,是一个有样本值得到的随机区间,未知参数真值落在这个随机区间中的概率大于等于1-a,或者理解为,未知参数真值不落在这个随机区间中的概率小于置信度,满足这个条件的随机区间称作置信区间。首先,置信水平是随机区间盖住真值的概率,置信水平等于置信度,然后,我自己理解置信度是这样的:当大量重复实验,用置信区间的计算方法,得到很多个N个随机区间的时候,有(N* 置信水平)的那么多个区间,包括了均值。
      那具体怎么做区间估计呢?我们通过构造区间估计的方法,使用最基本的枢轴量法:

    1. 什么是枢轴量?
        枢轴量是样本和未知参数的函数,它具有的性质是其分布不依赖与未知参数,或者说,它的概率密度函数与参数无关。
    2. 枢轴量有什么用?
        在参数未知的时候,没有办法直接凭空从置信水平找到随机区间的上下限,所以采用枢轴量的分布函数,以此为媒介,根据置信水平,先算出枢轴量的置信区间,再反解出上下限。
    3. 枢轴量怎么用?
        其实2.已经解答过了,从未知参数的好的点估计(MLE)出发,用它的性质和密度函数构造。根据置信水平,通常采用等尾置信区间保证区间长度最短,先算出枢轴量的置信区间,再反解出上下限。
    4. 有什么特别的检验的构造套路吗?
        老师教过的有:
      • 单个正态总体参数:分为均值、方差是否已知,对均值和方差分别都有不同的枢轴量
      • 大样本置信区间:原理是中心极限定理,在样本方差已知的时候,很ok;在样本方差未知的时候,中心极限定理的分布可以将方差换成它的相合估计。注意哦,大样本运用中心极限定理,最多只有样本的方差的相合估计代替方差,不可以用均值的无偏估计代替总体均值位置上的μ的!
      • 两独立正态总体下均值之差和方差之比的置信区间:类似于单个正态总体,在估计均值的时候,要看方差是否已知,或者方差成比例;在估计方差之比的时候,直接就有枢轴量,不需要讨论均值是否已知。

      除了这些,均匀分布的总体还有一些特别的构造方法,课后题和期中考试卷子也有涉及,供自己参考~
      注:区间估计构造枢轴量的时候,大量用到前面一章节的统计量及其分布、以及三大抽样分布的基础。

    二、整体学习思路

      参数的点估计—>穿插如何评价点估计的好坏—>参数的区间估计
      建议的学习思路:点估计—>评价点估计的好坏—>参数估计,感觉独立开会更清晰一些~

    三、声明

      全文都是我个人的学习笔记,肯定有出现错误欢迎指正。

    展开全文
  • 计量笔记(二) | OLS估计量性质

    千次阅读 2021-03-28 16:49:46
    上文中《计量笔记(一) | OLS估计量推导》我们通过基本公式和矩阵形式两种方式推导出了OLS估计量的表达式,那么OLS估计量有什么优良性质呢? 在线性模型的经典假设的前提下,OLS估计量有优良的性质,即高斯-马尔可夫...

    上文中《计量笔记(一) | OLS估计量推导》我们通过基本公式和矩阵形式两种方式推导出了OLS估计量的表达式,那么OLS估计量有什么优良性质呢?

    在线性模型的经典假设的前提下,OLS估计量有优良的性质,即高斯-马尔可夫定理

    经典假设

    1、零均值假定

    假定随机干扰项 ε \pmb{\varepsilon} εεε期望向量或均值向量为零
    E ( ε ) = E [ ε 1 ε 2 ⋮ ε n ] = [ E ( ε 1 ) E ( ε 2 ) ⋮ E ( ε n ) ] = [ 0 0 ⋮ 0 ] = 0 E(\pmb{\varepsilon})= E \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix} =\begin{bmatrix} E(\varepsilon_1) \\ E(\varepsilon_2) \\ \vdots \\ E(\varepsilon_n) \end{bmatrix} =\begin{bmatrix} 0 \\ 0 \\ \vdots\\ 0 \end{bmatrix} =\pmb{0} E(εεε)=Eε1ε2εn=E(ε1)E(ε2)E(εn)=000=000
    2、同方差和无序列相关假定

    假定随机干扰项 ε \pmb{\varepsilon} εεε不存在序列相关且方差相同

    这里推导过程中使用了零均值假定
    V a r ( ε ) = E [ ( ε − E ( ε ) ( ε − E ( ε ) τ ] = E ( ε ε τ ) = E [ ( ε 1 ε 2 ⋮ ε n ) ( ε 1 ε 2 ⋯ ε n ) ] = [ E ( ε 1 , ε 1 ) E ( ε 1 , ε 2 ) ⋯ E ( ε 1 , ε n ) E ( ε 2 , ε 1 ) E ( ε 2 , ε 2 ) ⋯ E ( ε 2 , ε n ) ⋮ ⋮ ⋮ ⋮ E ( ε n , ε 1 ) E ( ε n , ε 2 ) ⋯ E ( ε n , ε n ) ] = [ σ 2 0 ⋯ 0 0 σ 2 ⋯ 0 ⋮ ⋮ ⋮ ⋮ 0 0 ⋯ σ 2 ] = σ 2 I n \begin{aligned} Var(\pmb{\varepsilon}) & = E[(\pmb{\varepsilon}-E(\pmb{\varepsilon})(\pmb{\varepsilon}-E(\pmb{\varepsilon})^{\tau}] \\ & = E(\pmb{\varepsilon}\pmb{\varepsilon}^{\tau}) \\ & = E\begin{bmatrix} \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix} \begin{pmatrix} \varepsilon_1 & \varepsilon_2 & \cdots & \varepsilon_n \end{pmatrix} \end{bmatrix} \\ & = \begin{bmatrix} E(\varepsilon_1,\varepsilon_1) & E(\varepsilon_1,\varepsilon_2) & \cdots & E(\varepsilon_1,\varepsilon_n) \\ E(\varepsilon_2,\varepsilon_1) & E(\varepsilon_2,\varepsilon_2) & \cdots & E(\varepsilon_2,\varepsilon_n) \\ \vdots & \vdots & \vdots & \vdots \\ E(\varepsilon_n,\varepsilon_1) & E(\varepsilon_n,\varepsilon_2) & \cdots & E(\varepsilon_n,\varepsilon_n) \end{bmatrix} \\ & = \begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix} \\ & = \sigma^2\pmb{I}_n \end{aligned} Var(εεε)=E[(εεεE(εεε)(εεεE(εεε)τ]=E(εεεεεετ)=Eε1ε2εn(ε1ε2εn)=E(ε1,ε1)E(ε2,ε1)E(εn,ε1)E(ε1,ε2)E(ε2,ε2)E(εn,ε2)E(ε1,εn)E(ε2,εn)E(εn,εn)=σ2000σ2000σ2=σ2IIIn

    3、随机干扰项与解释变量相互独立假定

    直观理解是干扰项中不包含解释变量的信息

    通常假定 X X X中的元素 X 2 , i , X 3 , i , ⋯   , X k , i X_{2,i},X_{3,i},\cdots,X_{k,i} X2,i,X3,i,,Xk,i为非随机变量,这个假设自动成立
    E ( X τ ε ) = 0 E(X^{\tau}\pmb{\varepsilon})=\pmb{0} E(Xτεεε)=000
    4、无多重共线性假定

    各解释变量之间不存在线性关系

    即数据矩阵 X X X列满秩
    R a n k ( X ) = k Rank(X)=k Rank(X)=k
    5、正态性假定

    假定随机干扰项服从正态分布

    以下方式表示包括了假定1、假定2、假定5
    ε − N ( 0 , σ 2 I n ) \pmb{\varepsilon} - N(\pmb{0},\sigma^2\pmb{I}_n) εεεN(000,σ2IIIn)
    OLS估计量性质

    高斯-马尔可夫定理:在线性模型的经典假设下,参数的最小二乘估计量是线性无偏估计量中方差最小的估计量(BLUE估计量)

    1、线性特性

    参数估计量 β ^ \pmb{\hat{\beta}} β^β^β^既是因变量观测值 Y Y Y的线性组合,也是随机误差项 ε \pmb{\varepsilon} εεε的线性组合
    β ^ = ( X τ X ) − 1 X τ Y = ( X τ X ) − 1 X τ ( X β + ε ) = ( X τ X ) − 1 X τ X β + ( X τ X ) − 1 X τ ε = β + ( X τ X ) − 1 X τ ε \begin{aligned} \pmb{\hat\beta} & = (X^{\tau}X)^{-1}X^{\tau}Y \\ & = (X^{\tau}X)^{-1}X^{\tau}(X \pmb{\beta} + \pmb{\varepsilon}) \\ & = (X^{\tau}X)^{-1}X^{\tau}X \pmb{\beta} + (X^{\tau}X)^{-1}X^{\tau}\pmb{\varepsilon} \\ & = \pmb{\beta} + (X^{\tau}X)^{-1}X^{\tau}\pmb{\varepsilon} \end{aligned} β^β^β^=(XτX)1XτY=(XτX)1Xτ(Xβββ+εεε)=(XτX)1XτXβββ+(XτX)1Xτεεε=βββ+(XτX)1Xτεεε
    这里推导未使用任何假定,令 A = ( X τ X ) − 1 X τ A=(X^{\tau}X)^{-1}X^{\tau} A=(XτX)1Xτ,则 β ^ = A Y = β + A ε \pmb{\hat\beta} =AY=\pmb{\beta} + A\pmb{\varepsilon} β^β^β^=AY=βββ+Aεεε

    其中,矩阵 A A A k k k n n n列元素构成, k k k指解释变量个数包括截距项, n n n是指观测值个数

    对于某个参数 β ^ k \hat\beta_k β^k是矩阵 A A A k k k行元素构成的行向量与因变量观测值 Y Y Y的向量积

    线性特性是确定参数估计量的分布性质和进行统计推断的重要基础

    2、无偏性

    参数估计量 β ^ \pmb{\hat{\beta}} β^β^β^的期望等于总体参数
    E ( β ^ ) = E ( β + A ε ) = E ( β ) + A E ( ε ) = β \begin{aligned} E(\pmb{\hat\beta}) & = E(\pmb{\beta} + A\pmb{\varepsilon}) \\ & = E(\pmb{\beta}) + AE(\pmb{\varepsilon}) \\ & = \pmb{\beta} \end{aligned} E(β^β^β^)=E(βββ+Aεεε)=E(βββ)+AE(εεε)=βββ
    这里用到了线性特性、假定1、假定3

    3、方差最小性

    OLS估计量的有效性,也称为“最小方差性”,即在模型参数的所有线性无偏估计量中OLS估计的方差最小

    先求OLS估计量的协方差矩阵
    V a r ( β ^ ) = E [ ( β ^ − E ( β ^ ) ) ( β ^ − E ( β ^ ) ) τ ] = E [ ( β ^ − β ) ( β ^ − β ) τ ] = E [ ( A ε ) ( A ε ) τ ] = E [ A ε ε τ A τ ] = A E ( ε ε τ ) A τ = A σ 2 I n A τ = σ 2 A A τ = σ 2 ( X τ X ) − 1 X τ X ( X τ X ) − 1 = σ 2 ( X τ X ) − 1 \begin{aligned} Var(\pmb{\hat\beta}) & = E[(\pmb{\hat\beta}-E(\pmb{\hat\beta}))(\pmb{\hat\beta}-E(\pmb{\hat\beta}))^{\tau}] \\ & = E[(\pmb{\hat\beta}-\pmb{\beta})(\pmb{\hat\beta}-\pmb{\beta})^{\tau}] \\ & = E[(A\pmb{\varepsilon})(A\pmb{\varepsilon})^{\tau}] \\ & = E[A\pmb{\varepsilon}\pmb{\varepsilon}^{\tau}A^{\tau}] \\ & = AE(\pmb{\varepsilon}\pmb{\varepsilon}^{\tau})A^{\tau} \\ & = A\sigma^2\pmb{I}_nA^{\tau} \\ & = \sigma^2AA^{\tau} \\ & = \sigma^2(X^{\tau}X)^{-1}X^{\tau}X(X^{\tau}X)^{-1} \\ & = \sigma^2(X^{\tau}X)^{-1} \end{aligned} Var(β^β^β^)=E[(β^β^β^E(β^β^β^))(β^β^β^E(β^β^β^))τ]=E[(β^β^β^βββ)(β^β^β^βββ)τ]=E[(Aεεε)(Aεεε)τ]=E[AεεεεεετAτ]=AE(εεεεεετ)Aτ=Aσ2IIInAτ=σ2AAτ=σ2(XτX)1XτX(XτX)1=σ2(XτX)1
    这里因为 ( X τ X ) − 1 (X^{\tau}X)^{-1} (XτX)1是对称矩阵,所以它的转置还是它本身,所以 A τ = X ( X τ X ) − 1 A^{\tau}=X(X^{\tau}X)^{-1} Aτ=X(XτX)1

    这里用到无偏性、线性特性、假定3、假定2

    接下来就要证明上述OLS估计量的协方差矩阵是所有线性无偏估计量的协方差矩阵中是最小的(省略)

    参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^的分布形式

    我们在证明OLS估计量具有最佳线性无偏估计量性质的过程中仅使用了假定1、假定2、假定3,未使用到假定4和假定5,并且在证明过程中,我们也知道了OLS估计量的均值和方差,如果我们进一步知道OLS估计量分布形式,就可以进行统计推断了

    根据假定5,可以推导出参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^也是服从正态分布的

    根据线性特性 β ^ = A Y = β + A ε \pmb{\hat\beta} =AY=\pmb{\beta} + A\pmb{\varepsilon} β^β^β^=AY=βββ+Aεεε,说明参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^是随机误差项 ε \pmb{\varepsilon} εεε的线性组合,而根据假定5随机误差项 ε \pmb{\varepsilon} εεε服从正态分布,所以参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^也服从正态分布

    因为 E ( β ^ ) = β E(\pmb{\hat\beta})=\pmb{\beta} E(β^β^β^)=βββ V a r ( β ^ ) = σ 2 ( X τ X ) − 1 Var(\pmb{\hat\beta}) =\sigma^2(X^{\tau}X)^{-1} Var(β^β^β^)=σ2(XτX)1,所以参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^正态分布形式为
    β ^ − N ( β , σ 2 ( X τ X ) − 1 ) \pmb{\hat\beta}-N(\pmb{\beta},\sigma^2(X^{\tau}X)^{-1}) β^β^β^N(βββ,σ2(XτX)1)
    对于具体的某个估计量 b j ^ \hat{b_j} bj^的分布形式为 b j ^ − N ( b j , σ 2 ( ( X τ X ) − 1 ) j j ) \hat{b_j}-N(b_j,\sigma^2((X^{\tau}X)^{-1})_{jj}) bj^N(bj,σ2((XτX)1)jj)

    随机误差项方差的估计

    前文推导过程中,我们求出了参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^的具体数值, β ^ = ( X τ X ) − 1 X τ Y \pmb{\hat\beta} = (X^{\tau}X)^{-1}X^{\tau}Y β^β^β^=(XτX)1XτY,我们求出了参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^的期望和方差, E ( β ^ ) = β E(\pmb{\hat\beta})=\pmb{\beta} E(β^β^β^)=βββ V a r ( β ^ ) = σ 2 ( X τ X ) − 1 Var(\pmb{\hat\beta}) =\sigma^2(X^{\tau}X)^{-1} Var(β^β^β^)=σ2(XτX)1,我们甚至求出了参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^的分布形式, β ^ − N ( β , σ 2 ( X τ X ) − 1 ) \pmb{\hat\beta}-N(\pmb{\beta},\sigma^2(X^{\tau}X)^{-1}) β^β^β^N(βββ,σ2(XτX)1)

    但是,不难发现,上述表达式中,始终有个随机误差项的方差 σ 2 \sigma^2 σ2的取值我们不得而知,事实上我们也无法计算,因为我们不知道总体回归模型和总体样本是如何

    但是,我们可以对 σ 2 \sigma^2 σ2进行估计,若计
    σ ^ 2 = ∑ e i 2 n − k \hat{\sigma}^2= \frac{\sum{e_i^2}}{n-k} σ^2=nkei2
    可以证明, E ( σ ^ 2 ) = σ 2 E(\hat{\sigma}^2)=\sigma^2 E(σ^2)=σ2,证明省略

    那么,对于具体的某个估计量 b j ^ \hat{b_j} bj^的分布形式为 b j ^ − N ( b j , σ ^ 2 ( ( X τ X ) − 1 ) j j ) \hat{b_j}-N(b_j,\hat\sigma^2((X^{\tau}X)^{-1})_{jj}) bj^N(bj,σ^2((XτX)1)jj)

    知乎与公号:财会程序猿的笔记(ID:wylcfy2014)
    不定期推送:Python+Stata | 文本分析+机器学习 | 财务+会计

    在这里插入图片描述

    参考资料
    [1]朱建平等,高级计量经济学导论
    [2]孙敬水,中级计量经济学

    展开全文
  • 论文研究-Heckman-Tobit模型的半参数估计.pdf, ...数值模拟实验的结果表明,本文的半参数估计量具有优越的有限样本性质,且当扰动项服从非正态分布时优于最大似然估计量.
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...

    “参数估计是以抽样分布为中介,用样本的参数特征对总体的参数进行数值估计的过程。”

    一、点估计
    1.点估计就是用样本统计量来估计总体参数。
    概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,然后用样本统计量的值来估计总体的情况。
    例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计。

    常用的点估计有:用样本均值估计总体均值,用样本方差估计总体方差,用样本的分位数估计总体分位数,用样本的中位数估计总体的中位数。

    2.点估计方法
    矩估计法、顺序统计量法、最大似然法、
    最小二乘法(对于点估计方法,放在另一篇文章中详细介绍)

    3.由于用样本推断总体的过程一定存在估计误差,而点估计的估计误差无法衡量,所以点估计主要用于为定性研究提供数据参考,或者在对于总体参数估计精度要求不高时使用。

    二、区间估计
    1.区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。

    2.关于置信水平(置信度)、置信区间和显著性水平:
    置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
    置信水平用百分数表示,表示成(1-a)100%a指的是显著性水平,表示总体参数不落在置信区间的可能性。

    3.关于置信区间的计算:
    通过部分样本来计算总体参数的一个置信区间有以下步骤:
    a.明确要解决的问题,要估计的指标或参数是什么,
    b.求抽样样本的平均值和标准误差,
    注意区分标准差和标准误差:标准差反映的是整个样本对样本平均数的离散程度,标准差等于方差开根号;标准误差反映的是样本平均数对总体平均数的变异程度,标准误差等于样本标准差除n的开根号。
    c.确定需要的置信水平,
    d.查询z表,得到z值,
    e. 计算置信区间,[a,b],a=样本均值-z标准误差,b=样本均值+z标准误差。

    区间估计分为一个总体参数的估计和两个总体参数的估计

    4.一个总体参数的区间估计:总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;

    4.1总体均值的区间估计:
    均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关;
    Z分布其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布,
    Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30;
    T分布:对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型;
    切比雪夫不等式:对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。
    在这里插入图片描述截图来自《人人都会数据分析:从生活实例学统计》

    4.2 总体方差的区间估计:
    总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。
    卡方统计量的计算公式:
    χ α 2 ( n − 1 ) = ( n − 1 ) s 2 σ z 2 \chi^2_\alpha(n-1)=\frac{(n-1)s ^2}{\sigma ^2_z} χα2(n1)=σz2(n1)s2
    总体方差的双侧置信区间估计公式为:
    ( n − 1 ) s 2 χ α 2 2 ( n − 1 ) ≤ σ z 2 ≤ ( n − 1 ) s 2 χ 1 2 − α 2 ( n − 1 ) \frac{(n-1)s^2}{\chi ^2_\frac{\alpha}{2}(n-1)} \leq \sigma ^2_z \leq \frac{(n-1)s ^2}{\chi ^2_1-\frac{\alpha}{2} (n-1)} χ2α2(n1)(n1)s2σz2χ122α(n1)(n1)s2
    其中带有a/2的为下标;
    如果是单侧置信区间的话,只需要取上面式子的前半部分或者后半部分,并将a/2改成a即可得到单侧置信区间。

    4.3 总体比例的区间估计:
    或者叫总体比率的区间估计,跟二项分布有关,二项分布的理论是:事件发生概率是p,进行n次实验,其中x次实验该事件发生,则发生次数的概率分布服从二项分布;均值、方差为np,npq。
    若将发生的次数转换成比率(x/n),则比率的概率分布也服从二项分布。
    二项分布的特性:当抽取的样本容量n很大,是大 样本,使得np和nq(q为事件不发生的概率,等于1-p)的值都大于 5, 此时二项分布将近似于正态分布。
    由于事件发生比率x/n服从二项分布,所以如果比率的二项分布近似于正态分布,就可以得到不利的区间估计。

    在事件发生概率p已知的情况下,总体比率 p z ˉ \bar{p_z} pzˉ在置信度为1-a时,总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    其中, p y ˉ \bar{p_y} pyˉ为样本比率, p z ˉ \bar{p_z} pzˉ为总体比率,
    当事件发生概率p未知,可用样本中事件发生的概率即样本比率代替。

    5. 两个总体参数的区间估计
    两个总体均值之差的估计,两个总体方差比的区间估计
    两个总体与多个总体参数的区间估计在实际生活中的应用不是很多,更常用的是两个总体和多个总体参数的假设检验。 区间估计虽不常用,但是其与假设检验的应用原理是想通的。

    5.1 两个总体均值之差的区间估计:
    可以将单个总体均值的抽样分布推广到两个总体均值差的抽样分布,然后利用两个总体均值差的抽样分布推导出两个总体均值差的置信区间公式。
    方差齐性/方差不齐:对于配对样本来说其方差可被认为是想等的,即方差齐性。
    在这里插入图片描述
    截图来自《人人都会数据分析:从生活实例学统计》

    独立样本和配对样本:
    独立样本:是指如果从一个总体中选取样本,抽样形式无论怎样改变都不会影响从另一个总体中抽取样本的概率,则这两个随机样本为独立样本;
    配对样本:是指如果从一个总体中抽取样本的行为以某种方式决定了从另一个总体中抽取样本的概率,则这两个样本为成对样本或配对样本。

    均值和方差的特点:
    两个总体合并(相加或相减),那么合并后的总体均值等于原来两个总体的均值之和或均值之差;而合并后的总体方差都等于两个总体方差之和。

    差值抽样分布可以看做单个总体的均值抽样分布,因此可套用“均值抽样分布适用条件表”,将公式修改一下即可:

    截图来自《人人都会数据分析:从生活实例学统计》

    5.2 两个总体方差比的区间估计
    F分布可用于求取两个正态分布总体方差比的置信区间。
    F统计量可被看做是两个卡方统计量的商,F分布也被称为方差比分布。因为卡方分布要求总体服从正态分布,所以F分布也要求F统计量的两个总体都服从正态分布。
    当给定置信水平时,可推出两个正态分布总体方差比的置信区间。

    三、样本量的确定

    1总体均值区间估计的样本量确定
    在总体标准差已知的情况下,如果数据总体服从正态分布,则样本均值的抽样分布适用Z分布,就可以利用总体均值的置信区间公式来计算样本容量,总体均值的置信区间为:
    x ˉ ± Z α 2 σ n \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} xˉ±Z2αn σ x ˉ ± Z α 2 σ n N − n N − 1 \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N-n}{N-1}} xˉ±Z2αn σN1Nn

    则总体均值的区间估计误差为:
    Δ μ = Z α 2 σ n \Delta\mu=Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} Δμ=Z2αn σ
    进而可以求得样本容量的公式:
    n = ( Z α 2 σ Δ μ ) 2 n=(\frac{Z_\frac{\alpha}{2} \sigma}{\Delta\mu})^2 n=(ΔμZ2ασ)2

    以上是总体标准差已知时,当总体标准差未知时,一是可以用样本标准差代替,但是前提条件是样本容量要大于等于30;二是可以用过去试点调查的样本标准差代替;三是,如果知道总体数据中的最大和最小值,可用四分之一的最大与最小值的差值来代替总体标准差。

    2.总体方差区间估计的样本量确定
    总体方差的区间估计适用的抽样分布为卡方分布。卡方统计量为:
    χ 2 = ( n − 1 ) s 2 σ 2 \chi^2=\frac{(n-1)s ^2}{\sigma ^2} χ2=σ2(n1)s2
    由卡方分布的性质可知,当样本量足够大时,卡方分布近似于正态分布。卡方分布的均值为自由度(n-1),卡方分布的方差为两倍的自由度2(n-1),那么在大样本的情况下,总体方差的置信区间为:
    s 2 = ± Z α 2 s 2 2 n s^2=\pm Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} s2=±Z2αs2n2
    则总体方差的估计精度为:
    Δ σ 2 = Z α 2 s 2 2 n \Delta \sigma^2=Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} Δσ2=Z2αs2n2
    由此可得到样本容量公式为:
    n = 2 Z α 2 s 2 Δ σ 2 n=\frac{\sqrt{2} Z_\frac{\alpha}{2} s^2}{\Delta \sigma^2} n=Δσ22 Z2αs2

    3.总体比率区间估计的样本量确定
    在确定总体比率的区间估计时,利用的是二项分布近似于正态分布的性质,即当抽取的样本量n很大时,是大样本,使得np>5且nq>5(p是事件发生的概率,q是事件不发生的概率,q=1-p)时,二项分布近似于正态分布。
    总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    则总体比率的估计误差为:
    Δ p z ˉ = Z α 2 p ( 1 − p ) n \Delta \bar{p_z} =Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} Δpzˉ=Z2αnp(1p)
    由此可得到样本容量为:
    n = Z α 2 2 p ( 1 − p ) Δ p z ˉ 2 n=\frac{Z_\frac{\alpha}{2} ^2 p(1-p)}{\Delta \bar{p_z} ^2} n=Δpzˉ2Z2α2p(1p)

    注:本文主要参考《人人都会数据分析:从生活实例学统计》

    展开全文
  • 数理统计:参数估计

    千次阅读 2020-12-29 22:57:30
    learning why, thinking what, then forgetting how. 随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分。...首先提出参数参数估计量的.
  • 参数估计之矩估计

    2021-01-15 09:12:07
    介绍参数估计中点估计的常用方法:矩估计法。并通过例题加深理解
  • 第七章 参数估计 7.1 参数估计的基本原理 7.1.1 估计量与估计值 7.1.2 点估计和区间估计 点估计 区间估计 7.1.3 评价估计量的标准 无偏性 有效性 一致性 7.2 一个总体参数的区间估计 7.2.1 总体均值的区间估计...
  • 参数估计:贝叶斯思想和贝叶斯参数估计

    万次阅读 多人点赞 2016-05-23 10:54:29
    另外还定义了参数的一个方差,来评估参数估计的准确程度或者置信度。 贝叶斯公式 现在不是要求后验概率最大,这样就需要求 ,即观察到的evidence的概率,由全概率公式展开可得 当新的数据被观察到时,后验概率可以...
  • 参数估计:对无偏性的理解

    千次阅读 2020-05-26 11:45:39
    在学习概率论的"参数估计"一章时有一些概念没能理解清楚,尤其是参数估计量性质。在反复翻书的过程中总算搞清楚了一些,在这里记录一下我的理解 无偏性 一般书上讲到的第一个性质就是这个,初看很让人头大,如果不...
  • 参数估计与假设验证

    千次阅读 2021-01-14 11:07:50
    1、性质不同:参数估计根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。假设检验是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。 2、推断的角度不同:在参数...
  • 参数估计:点估计和区间估计

    千次阅读 2020-02-28 10:49:49
    根据参数估计性质不同,可以分成两种类型:点估计和区间估计。 点估计 点估计就是用样本统计的某一具体数值直接推断未知的总体参数。例如,在进行有关小学生身高的研究中,随机抽取1000名小学生并计算出他们的...
  • 参数估计是数理统计中重要的统计推断问题之一。
  • 很难说这些观测的数据符合什么模型,参数估计的方法就失效了,我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。 因此,本文主要讨论 参数估计和非参数估计问题   1. 参数估计 对我们已经知道观测...
  • 我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估...
  • 估计(随机变量分布的统计推断) 置信区间推断 样本空间:随机变量X构成的空间 参数空间:一个随机变量X的概率密度分布是已知的某种函数形式,该函数与未知参数 有关, 可能是Ω 集中的任意值。称 集为参数空间...
  • 参数估计
  • 楼主,我发现你最近发了很多这...无偏性是指,比如我们要估计某个参数theta,然后得到一个估计量theta_hat,如果theta_hat的数学期望等于未知参数theta,那么我们说theta_hat是theta的无偏估计。引用版主的例子:样本方...
  • [统计学笔记] (六) 参数估计

    千次阅读 2020-04-11 22:44:51
    参数估计 (Parameter Estimation) 人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计去推断总体的分布或数字特征等。统计推断是数理统计研究的核心问题。所谓统计推断是...
  • 基于统计Mn(α)(k),提出了重尾分布二阶参数的半参数估计,在极值理论的二阶正则条件下,得到二阶参数半参数估计的相合性,在三阶正则条件下得到其渐近正态性.通过Monte-Carlo模拟,从大样本性质与小样本性质这两...
  • 【数学基础】参数估计之极大似然估计

    千次阅读 多人点赞 2018-08-07 00:05:20
    ,有了这两个性质,使得极大似然估计的成为了非常简单而且实用的参数估计方法。这里假设 是密度函数 中未知参数的准确值。 渐进无偏 极大似然估计是渐进无偏的,即: 也就是说,这里认为估计值   本身...
  • 稀疏数据分析:马蹄估计量及其理论性质基本框架half-Cauchy分布为什么它叫马蹄估计量后验均值、shrinkage与κ\kappaκθ\thetaθ的边缘先验分布的阶马蹄估计的一致性收敛速率Clarke-Barron(1990)引理马蹄估计的最优...
  • 参数估计与矩阵运算基础ps: 个人笔记 根据视频和PDF学习1 期望离散型:连续型:即:概率加权下的“平均值”期望的性质无条件成立 若X和Y相互独立 反之不成立。事实上,若E(XY)=E(X)E(Y),只能说明X和Y不相关。 ...
  • 通常是未知的,需由样本来估计,而参数的估计方法很多,这里用最常见的最大似然估计法给出其估计量,并借助一元统计中学过的估计量性质指出这里给出的估计量也满足通常要求的性质。 多元样本的概念及表示法  多元...
  • 估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。无偏估计...
  • 时间序列分析 - ARMA/ARIMA参数估计及模型预测

    万次阅读 多人点赞 2019-03-13 20:00:12
    【模型参数估计】 可以使用最小二乘或者极大似然估计法进行参数拟合。   【模型检验】 残差分析 残差是指实际观察值与估计值(拟合值)之间的差。如果模型足够准确,残差应该为白噪声,关于白噪声的...
  • 无偏估计量

    千次阅读 2019-08-14 11:34:28
    目录 ...5如何理解无偏估计量? 5.1 无偏性 5.2有效性 5.3一致性 5.4 总结 参考百度百科:https://baike.baidu.com/item/%E6%97%A0%E5%81%8F%E4%BC%B0%E8%AE%A1%E9%87%8F/303853?fr=aladdin ...
  • 参数估计: 在很多实际问题中,为了进行某些统计推断,需要确定总体服从的分布,通常根据问题的实际背景或适当的统计方法可以判断总体分布的类型,但是总体分布中往往含有未知参数,需要用样本观测数据进行估计。即...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,591
精华内容 10,636
关键字:

参数估计量的性质