精华内容
下载资源
问答
  • 什么是参数估计

    千次阅读 2020-10-20 20:06:51
    参数估计属于统计推断的范畴,是根据从总体抽取的样本估计总体分布包含的未知参数的方法。 统计推断是数理统计研究的核心问题,是根据样本对总体分布或分布的数字特征等作出合理的推断。 参数估计分为:点估计...

    参数估计(parameter estimation)

    目录

    参数估计(parameter estimation)

    点估计(point estimation)

    矩估计法(method  of  moments),

    区间估计(interval estimation)

    参数估计属于统计推断的范畴,是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。
    统计推断是数理统计研究的核心问题,是指根据样本对总体分布或分布的数字特征等作出合理的推断。
    参数估计分为:点估计、区间估计

    点估计(point estimation)

    点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。例如,设一批产品的废品率为θ。为估计θ,从这批产品中随机地抽出n 个作检查,以X记其中的废品个数,用X/n估计θ,这就是一个点估计。

    构造点估计常用方法:

    • 矩估计法:用样本矩估计总体矩,比如:用样本均值估计总体均值。
    • 最大似然估计法:于1912年由英国统计学家R.A.费希尔提出,利用样本分布密度构造似然函数来求出参数的最大似然估计。
    • 最小二乘法:主要用于线性统计模型中的参数估计问题。比如:Y=a0+a1X的参数估计就可以用最小乘法。
    • 贝叶斯估计法:基于贝叶斯学派的观点而提出的估计法。可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计,其次有容许性准则, 最小化最大准则,最优同变准则等。大样本优良性准则有相合性、最优渐近正态估计和渐近有效估计等。

    点估计能够明确告知人们“未知参数是多少”,但不能反映估计的可信程度。

    矩估计法(method  of  moments),

    矩估计法也称"矩法估计",原理是用样本矩作为相应的总体矩估计来求出估计量的方法,其思想是如果总体中有 K个未知参数,可以用前 K阶样本矩估计相应的前k阶总体矩,然后利用未知参数与总体矩的函数关系,求出参数的估计量。
    矩法估计一般求的是一阶原点矩二阶中心矩

    假设总体X的k阶原点矩:

    令总体的k阶原点矩等于它样本的k阶原点矩
     


    注:矩法相比于极大似然法、最小二乘法,效率很低。目前很少使用。

     

     

    区间估计(interval estimation)

    区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。

    例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。

    求置信区间常用的三种方法:

    • 利用已知的抽样分布。
    • 利用区间估计与假设检验的联系。
    • 利用大样本理论。

    区间估计可以告知置信区间范围,但不能直接告知人们“未知参数是多少”。

    置信区间

    区间估计(interval estimation)是从点估计值和抽样标准误出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平(confidence level),这个建立起来的包含待估计参数的区间称为置信区间(confidence interval),指总体参数值落在样本统计值某一区内的概率。

    所谓置信水平就是给出一个区间的信心,这个信心以概率来表示,绝大多数情况下取 0.95,表示你对所估计的总体参数有95%的信心落在你所给的区间内。通常置信水平以1-α表 示,α称为显著性水平

    置信区间的建立就与中心极限定理和抽样分布有关了,在给定置信度的条件下,置信区间的宽度决定于抽样分布。 建立置信区间的意思是在设定的置信水平(如取0.95)下,总体参数落在这个区间的概率为 0.95,大致的理解是如果抽100次样,建立100个置信区间,大约95个区间包含总体参数,约5个区间不包含总体参数(注意不是一定有5个,可能会多,也可能会少)。

    划定置信区间的两个数值分别称为置信下限(lower confidence limit,lcl)和置信上限(upper confidence limit,ucl)

    置信区间最主要的应用是用于假设检验

    展开全文
  • 参数估计 评价估计量的标准

    千次阅读 2020-11-02 16:34:27
    我们希望估计量θ^\hat \thetaθ^的取值不要偏高也不要偏低,即θ^\hat \thetaθ^的平均取值与θ\thetaθ的真值一致,于是导出了无偏性标准: 定义 设θ^=θ^(X1,X2,...,Xn)\hat \theta = \hat \theta ({X_1},{X_2},...

    目录

    https://blog.csdn.net/weixin_45792450/article/details/109314584


    无偏性

    我们希望估计量 θ ^ \hat \theta θ^的取值不要偏高也不要偏低,即 θ ^ \hat \theta θ^的平均取值与 θ \theta θ的真值一致,于是导出了无偏性标准:

    定义 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat \theta = \hat \theta ({X_1},{X_2},...,{X_n}) θ^=θ^(X1,X2,...,Xn)为参数 θ \theta θ的估计量,若 E θ ^ = θ E\hat \theta = \theta Eθ^=θ,则称 θ ^ \hat \theta θ^ θ \theta θ无偏估计量,否则称之为有偏估计量。若 lim ⁡ n → ∞ E θ ^ = θ \mathop {\lim }\limits_{n \to \infty } E\hat \theta = \theta nlimEθ^=θ,则称 θ ^ \hat \theta θ^ θ \theta θ渐进无偏估计量

    具体例子:

    有效性

    有时一个参数存在许多无偏估计量,选用哪一个好呢?显然应该看它们中间哪一个取值更集中,即方差更小.也就是说,一个好的估计量应具有尽量小的方差.由此引出了第二个标准——有效性.

    定义 θ ^ 1 {\hat \theta _1} θ^1 θ ^ 2 {\hat \theta _2} θ^2为参数 θ \theta θ的两个无偏估计量,若 D θ ^ 1 < D θ ^ 2 D{\hat \theta _1} < D{\hat \theta _2} Dθ^1<Dθ^2,则称 θ ^ 1 {\hat \theta _1} θ^1 θ ^ 2 {\hat \theta _2} θ^2更有效

    具体的例子:

    一致性

    所谓一致性就是当样本容量无限增大时,估计量 θ ^ \hat \theta θ^ θ \theta θ的真值任意接近的概率趋于1,它反映了估计量的一种大样本性质。

    定义 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat \theta = \hat \theta ({X_1},{X_2},...,{X_n}) θ^=θ^(X1,X2,...,Xn)为参数 θ \theta θ的估计量,若 θ ^ \hat \theta θ^以依概率收敛于 θ \theta θ,则称 θ ^ \hat \theta θ^ θ \theta θ的一致估计量,即存在关系:

    lim ⁡ n → ∞ P ( ∣ θ ^ − θ ∣ > ε ) = 0 \mathop {\lim }\limits_{n \to \infty } P(\left| {\hat \theta - \theta } \right| > \varepsilon ) = 0 nlimP(θ^θ>ε)=0

    展开全文
  • 衡量参数估计的指标2.1 无偏性2.2 一致性2.3 有效性3. 一些引理3.1 期望运算的线性性3.2 期望运算的线性性4. *β*^~OLS~ 的性质4.1 *β*^~OLS~ 服从的分布4.2 *β*^~OLS~ 与误差项之间的关系4.3 *β*^~OLS~ 的无偏...

    【更新日志】
    4/5/2020 对文章中公式与排版的部分错误进行修正


    1. 前文回顾

    在前面的文章中,我们介绍了多元线性回归模型的两种参数估计。对于模型:
    y i = β 0 + ∑ j = 1 p x i j β j + ϵ i ,   i = 1 , . . . , N y_i= \beta_0 + \sum_{j=1}^{p} x_{ij} \beta_j + \epsilon_i , \ i=1,...,N yi=β0+j=1pxijβj+ϵi, i=1,...,N ϵ = ( ϵ i ) N × 1 ∼ N ( 0 , I n σ 2 ) \bm{\epsilon} = (\epsilon_i)_{N \times 1} \thicksim N(0,\bm{I_n}\sigma^2) ϵ=(ϵi)N×1N(0,Inσ2)
    利用最小二乘估计法(OLS)得到的参数估计量为:
    β ^ O L S = ( X T X ) − 1 X T y \bm{\hat\beta}_{OLS} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^OLS=(XTX)1XTy σ ^ O L S = 1 N − p − 1 ( y − X β ^ O L S ) T ( y − X β ^ O L S ) \bm{\hat \sigma} _{OLS} = \sqrt{ \frac {1 } {N-p-1} ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{OLS} )^T ( \bm{y} -\bm{X} \bm{\hat{\beta}}_{OLS} ) } σ^OLS=Np11(yXβ^OLS)T(yXβ^OLS)
    而利用极大似然估计法(ML)得到的参数估计量为:
    β ^ M L = ( X T X ) − 1 X T y \bm{\hat\beta}_{ML} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^ML=(XTX)1XTy σ ^ M L = 1 N ( y − X β ^ M L ) T ( y − X β ^ M L ) \bm{\hat \sigma} _{ML} = \sqrt{ \frac { 1 } {N} ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{ML} )^T ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{ML} ) } σ^ML=N1(yXβ^ML)T(yXβ^ML) 其中:
    β = [ β 0 β 1 ⋮ β p ] ( p + 1 ) × 1 ,       y = [ y 0 y 1 ⋮ y N ] N × 1 ,       X = [   1    x 11    …    x 1 p   1    x 21    …    x 2 p ⋮       ⋮       ⋱      ⋮   1    x N 1    …    x N p ] N × ( p + 1 ) \bm{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots\\ \beta_p \end{bmatrix}_{(p+1) \times1}, \space \space \space \space \space \bm{y} = \begin{bmatrix} y_0 \\ y_1 \\ \vdots\\ y_N \end{bmatrix}_{N \times1}, \space \space \space \space \space \bm{X} = \begin{bmatrix} \space 1 \space\space x_{11} \space\space \dots \space\space x_{1p} \\ \space 1 \space\space x_{21} \space\space \dots \space\space x_{2p} \\ \vdots \space \space\space \space \space \vdots \space \space \space \space \space ⋱ \space \space \space \space \vdots\\ \space 1 \space\space x_{N1} \space\space \dots \space\space x_{Np} \end{bmatrix}_{N \times (p+1)} β=β0β1βp(p+1)×1,     y=y0y1yNN×1,     X= 1  x11    x1p 1  x21    x2p               1  xN1    xNpN×(p+1)
    在这两种方法中,最小二乘估计法是我们最为常用的参数估计方法,原因有二:其一,以残差平方和作为评判超平面拟合好坏的指标比较直观,也易于理解;其二,最小二乘估计参数具有良好的估计量性质。此外,以残差平方和构建代价函数(Cost Function)的方法在机器学习领域十分常见,我们会在后面的Lasso回归和Ridge回归之中继续体会其中的奥妙。

    在本章中,我们来继续探索利用最小二乘估计量在性质上究竟具有什么样的优势吧~


    2. 衡量参数估计量好坏的指标

    由于参数估计量是总体参数的估计值,因此估计量必然与总体参数之间存在一定的“误差”。如果,我们如何衡量一个参数的估计量是好是坏呢?我们可以从以下这几个性质入手:

    这里想编一个射击小游戏来说明,但是有点费脑筋,等编好了再补充上来吧。

    2.1 无偏性

    参数估计量的 无偏性(unbiasedness) 是指,在多次试验中,用总体的某参数估计值的平均值与该总体参数的真实值“没有偏差”。用数学语言来描述则可以表达为:若一个总体参数 β 的估计量 β^ 是无偏估计量,则该估计量应满足:
    E [ β ^ ] = β E[\bm{\hat\beta}] = \bm\beta E[β^]=β

    2.2 一致性

    参数估计量的 一致性(Consistency) 是指,当样本数量足够大的时候,总体参数的估计值以某种意义收敛到该参数真值,即:
    β ^ → n → ∞ 在 某 种 意 义 下 β \bm{\hat\beta} \xrightarrow[n\rarr\infin]{在某种意义下} \bm\beta β^ nβ
    (1)若 β^ 依概率收敛β ,则称 β^β弱一致估计
    (2)若 β^ 以概率1收敛β ,则称 β^β强一致估计

    注1无偏性是一种小样本性质,而一致性则是一种大样本性质
    注2一致估计又称为相合估计相容估计

    2.3 有效性

    参数估计量的 有效性(Validness) 是指,在参数的任意一无偏估计量中,该无偏估计量的方差最小,即:


    E [ β ^ ] = β E[\bm{\hat\beta}]= \bm\beta E[β^]=β ∀ β ~ ∈ { β ~ : E [ β ~ ] = β } var [ β ^ ] ≤ var [ β ~ ] \forall \bm{\tilde\beta} \in \{ \bm{\tilde\beta}: E[\bm{\tilde\beta}]= \bm\beta \} \\ \text{var}[\bm{\hat\beta}] \le \text{var}[\bm{\tilde\beta}] β~{β~:E[β~]=β}var[β^]var[β~]

    则称 β^β有效估计量(Valid Estimator)


    3. 一些引理(可略)

    为了保证后续证明的严谨性,本文列出一些比较重要的引理。在实际应用过程中可以忽略这些引理的证明过程而直接使用其结论。

    3.1 期望运算的线性性

    【引理1 期望线性性】 对于任一 n 阶随机向量 ym × n 线性变换矩阵 Am 阶随机向量 Ay 有:
    E [ A y ] = A E [ y ] E[\bm{A}\bm{y}]=\bm{A}E[\bm{y}] E[Ay]=AE[y]
    Proof:
    由于随机变量(向量)的期望由Riemann-Stieltjes积分定义:
    E [ y ] = ∫ y   d F ( y ) E[\bm{y}]=\int\bm{y}\ d\bm{F}( \bm{y} ) E[y]=y dF(y)

    其中,F(·)为随机变量(向量)的分布集函数。

    由Riemann-Stieltjes积分的线性性,可以证明:
    E [ A y ] = ∫ A y   d F ( y ) = A ∫ y   d F ( y ) = A E [ y ] E[\bm{Ay}]=\int\bm{Ay}\ d\bm{F}( \bm{y} )= \bm{A}\int\bm{y}\ d\bm{F}( \bm{y} ) = \bm{A}E[\bm{y}] E[Ay]=Ay dF(y)=Ay dF(y)=AE[y]
    Q.E.D.

    注:有关Riemann-Stieltjes积分的定义与运算性质可以参考相关文献

    3.2 协方差运算的半线性性

    【引理2 协方差半线性性】 对于任一 n 阶随机向量 xy,与两 m × n 线性变换矩阵 AB ,有:
    cov ( A x , B y ) = A cov ( x , y ) B T \text{cov} (\bm{Ax},\bm{By})= \bm{A}\text{cov} (\bm{x},\bm{y})\bm{B}^T cov(Ax,By)=Acov(x,y)BT
    Proof:
    cov ( A x , B y ) = E [ ( A x − E [ A x ] ) ( B y − E [ B y ] ) T ] = E [ ( A x − A E [ x ] ) ( B y − B E [ y ] ) T ] = A E [ ( x − E [ x ] ) ( y − E [ y ] ) T ] B T = A cov ( x , y ) B T \text{cov} (\bm{Ax},\bm{By}) \\ =E[(\bm{Ax}-E[\bm{Ax}])(\bm{By}-E[\bm{By}])^T] \\ =E[(\bm{Ax}-\bm{A}E[\bm{x}])(\bm{By}-\bm{B}E[\bm{y}])^T] \\ =\bm{A}E[(\bm{x}-E[\bm{x}])(\bm{y}-E[\bm{y}])^T]\bm{B}^T \\ =\bm{A}\text{cov} (\bm{x},\bm{y})\bm{B}^T cov(Ax,By)=E[(AxE[Ax])(ByE[By])T]=E[(AxAE[x])(ByBE[y])T]=AE[(xE[x])(yE[y])T]BT=Acov(x,y)BT
    Q.E.D.

    3.3 矩阵迹运算的性质

    【引理3 矩阵迹运算的性质】 对于任意 m × nn × m 阶实矩阵 AB ,其迹运算(trace)满足:
    t r ( A B ) = t r ( B A ) tr(AB)=tr(BA) tr(AB)=tr(BA)
    Proof:
    根据矩阵乘法与迹运算的定义:
    t r ( A B ) = ∑ i = 1 m ∑ j = 1 n a i , j b j , i tr(AB) = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{i,j} b_{j,i} tr(AB)=i=1mj=1nai,jbj,i t r ( B A ) = ∑ j = 1 n ∑ i = 1 m b j , i a i , j tr(BA) = \sum_{j=1}^{n} \sum_{i=1}^{m} b_{j,i} a_{i,j} tr(BA)=j=1ni=1mbj,iai,j
    由乘法交换律和加法分配律易得:
    t r ( A B ) = ∑ i = 1 m ∑ j = 1 n a i , j b j , i = ∑ j = 1 n ∑ i = 1 m b j , i a i , j = t r ( B A ) tr(AB) = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{i,j} b_{j,i} = \sum_{j=1}^{n} \sum_{i=1}^{m} b_{j,i} a_{i,j} = tr(BA) tr(AB)=i=1mj=1nai,jbj,i=j=1ni=1mbj,iai,j=tr(BA)
    Q.E.D.


    4. β^OLS 的性质

    4.1 β^OLS 服从的分布

    若模型的正态性假设成立,即:

    ϵ ∼ N ( 0 , I n σ 2 ) \bm{\epsilon} \thicksim N(0,\bm{I_n}\sigma^2) ϵN(0,Inσ2)

    则有:
    y = X β + ϵ ∼ N ( X β , I n σ 2 ) \bm{y} = \bm{X} \bm\beta + \bm\epsilon \thicksim N( \bm{X} \bm\beta, \bm{I_n}\sigma^2) y=Xβ+ϵN(Xβ,Inσ2)
    因此,在给定自变量的条件下,y 服从于均值为 ,协方差矩阵为 Inσ2 的条件正态分布。

    又因为 β^OLS 满足:
    β ^ O L S = ( X T X ) − 1 X T y \bm{\hat\beta}_{OLS} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^OLS=(XTX)1XTy
    β^OLS 关于因变量 y线性变换(Linear Transformation)。由正态分布的性质可知, β^OLS 服从正态分布,且其均值有:
    E [ β ^ O L S ] = E [ ( X T X ) − 1 X T y ] = ( X T X ) − 1 X T E [ y ] = ( X T X ) − 1 X T X β = β E[\bm{\hat\beta}_{OLS} ] = E[ ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} ] \\ \hspace{4em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T E[\bm{y} ] \\ \hspace{3.75em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{X} \bm\beta \\ \hspace{-3.5em} = \bm\beta E[β^OLS]=E[(XTX)1XTy]=(XTX)1XTE[y]=(XTX)1XTXβ=β
    其方差有:
    var [ β ^ O L S ] = var [ ( X T X ) − 1 X T y ] = cov [ ( X T X ) − 1 X T y , ( X T X ) − 1 X T y ] = ( X T X ) − 1 X T cov [ y , y ] X ( X T X ) − 1 = σ 2 ( X T X ) − 1 X T I n X ( X T X ) − 1 = σ 2 ( X T X ) − 1 \text{var} [\bm{\hat\beta}_{OLS}] \\ \hspace{3.25em} = \text{var} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ \hspace{7em} = \text{cov} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}, ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ \hspace{7.25em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \text{cov} [\bm{y}, \bm{y}] \bm{X} ( \bm{X}^T \bm{X} )^{-1} \\ \hspace{7.25em} = \sigma^2 ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{I}_n \bm{X} ( \bm{X}^T \bm{X} )^{-1} \\ \hspace{-0.25em} = \sigma^2 ( \bm{X}^T \bm{X} )^{-1} var[β^OLS]=var[(XTX)1XTy]=cov[(XTX)1XTy,(XTX)1XTy]=(XTX)1XTcov[y,y]X(XTX)1=σ2(XTX)1XTInX(XTX)1=σ2(XTX)1
    至此,可以说明:在方差正态性满足的前提下,β^OLS 满足:
    β ^ O L S ∼ N ( β , σ 2 ( X T X ) − 1 ) \bm{\hat\beta}_{OLS} \thicksim N(\bm\beta, \sigma^2 ( \bm{X}^T \bm{X} )^{-1} ) β^OLSN(β,σ2(XTX)1)

    4.2 β^OLS 与误差项之间的关系

    由4.1中的论述,我们知道 β^OLS 是因变量 y 的线性表示,而 y 又是误差项 ϵ 的线性表示。实际上:
    cov ( y , ϵ ) = cov ( X β + ϵ , ϵ ) = I n σ 2 \text{cov} (\bm{y}, \bm\epsilon) = \text{cov} (\bm{X}\bm\beta + \bm\epsilon, \bm\epsilon) =\bm{I}_n\sigma^2 cov(y,ϵ)=cov(Xβ+ϵ,ϵ)=Inσ2
    因此,β^OLS 与误差项 ϵ 存在相关关系,其协防矩阵有:
    cov ( β ^ , ϵ ) = cov [ ( X T X ) − 1 X T y , ϵ ] = ( X T X ) − 1 X T cov ( y , ϵ ) = σ 2 ( X T X ) − 1 X T \text{cov} (\bm{\hat\beta},\bm\epsilon) = \text{cov} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}, \epsilon] \\ = (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \text{cov} (\bm{y}, \bm\epsilon) \\ = \sigma ^ 2( \bm{X}^T \bm{X} )^{-1} \bm{X}^T cov(β^,ϵ)=cov[(XTX)1XTy,ϵ]=(XTX)1XTcov(y,ϵ)=σ2(XTX)1XT

    4.3 β^OLS 的无偏性

    首先,我们来证明,β^OLSβ的无偏估计量。
    实际上,由4.1中的证明,我们已经得到:
    E [ β ^ O L S ] = β E[\bm{\hat\beta}_{OLS} ] = \bm\beta E[β^OLS]=β
    因此,最小二乘估计量 β^OLSβ无偏估计量

    :由于 β 的最小二乘法估计量与极大似然估计量在表达形式上相等,因此极大似然估计量 β^ML 也是 β 的无偏估计量

    4.4 β^OLS 的一致性

    下面,让我们继续证明, β^OLSβ弱一致估计量,在某些特定条件下,β^OLSβ强一致估计量。由于估计量的一致性证明过程较为艰深冗长,详细的证明过程与结论可以参考文献[1]:线性回归估计相合性问题的新进展.

    4.5 β^OLS 的有效性

    βOLS 的有效性可以由 高斯-马尔科夫定理(Gauss-Markov Theorm) 证得。

    【Gauss-Markov定理】β 的所有线性无偏估计量中, β^OLS方差最小的线性无偏估计量

    Proof:

    假设 cTyβ 的一个线性无偏估计量,其中, cT = (XTX)-1XT + DD 为一常矩阵。则有:
    E [ c T y ] = [ ( X T X ) − 1 X T + D ] X β = ( I + D X ) β = β E[\bm{c}^T\bm{y}] = [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}] \bm{X \beta} \\ =(\bm{I+DX} )\bm\beta =\bm\beta E[cTy]=[(XTX)1XT+D]Xβ=(I+DX)β=β

    因此可知:
    D X = 0 \bm{DX} =\bm{0} DX=0

    而:
    var ( c T y ) = c T var ( y ) c = σ 2 c T c = σ 2 [ ( X T X ) − 1 X T + D ] [ ( X T X ) − 1 X T + D ] T = σ 2 [ ( X T X ) − 1 + D D T ] ≥ σ 2 ( X T X ) − 1 = var ( β ^ ) \text{var}(\bm{c}^T\bm{y}) =\bm{c}^T \text{var}(\bm{y}) \bm{c} =\sigma^2 \bm{c}^T \bm{c} \\ \\ \hspace{5em} = \sigma^2 [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}] [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}]^T \\ =\sigma^2 [(\bm{X^TX})^{-1} +\bm{D}\bm{D}^T] \\ \ge \sigma^2 (\bm{X^TX})^{-1} = \text{var}(\hat{\bm{\beta}}) var(cTy)=cTvar(y)c=σ2cTc=σ2[(XTX)1XT+D][(XTX)1XT+D]T=σ2[(XTX)1+DDT]σ2(XTX)1=var(β^)
    Q.E.D.


    5. σ^OLS 的性质

    5.1 σ^2OLS 的无偏性

    我们先将σ^2OLS的表达式进行变型:
    ( N − p − 1 ) σ ^ O L S 2 = ( y − X β ^ O L S ) T ( y − X β ^ O L S ) = [ y − X ( X T X ) − 1 X T y ] T [ y − X ( X T X ) − 1 X T y ] = y T [ I N − X ( X T X ) − 1 X T ] T [ I N − X ( X T X ) − 1 X T ] y = y T [ I N − X ( X T X ) − 1 X T ] y = ( X β + ϵ ) T [ I N − X ( X T X ) − 1 X T ] ( X β + ϵ ) = β T X T [ I N − X ( X T X ) − 1 X T ] X β ( 1 ) + ϵ T [ I N − X ( X T X ) − 1 X T ] X β ( 2 ) + β T X T [ I N − X ( X T X ) − 1 X T ] ϵ ( 3 ) + ϵ T [ I N − X ( X T X ) − 1 X T ] ϵ ( 4 ) (N-p-1)\hat \sigma _{OLS}^2 \\ = ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{OLS} )^T ( \bm{y} -\bm{X} \bm{\hat{\beta}}_{OLS} ) \\ = [\bm{y} - \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}]^T [\bm{y} - \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ = \bm{y}^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ]^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{y} \\ =\bm{y}^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{y} \\ =(\bm{\bm{X}\bm{\beta} + \bm{\epsilon}} )^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] (\bm{\bm{X}\bm{\beta} + \bm{\epsilon}} ) \\ = \bm{\beta}^T\bm{X}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{X}\bm{\beta} \hspace{3em}(1) \\ + \bm{\epsilon}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{X}\bm{\beta} \hspace{3em}(2) \\ + \bm{\beta}^T\bm{X}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{\epsilon}\hspace{3em}(3) \\ +\bm{\epsilon}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{\epsilon}\hspace{3em}(4) (Np1)σ^OLS2=(yXβ^OLS)T(yXβ^OLS)=[yX(XTX)1XTy]T[yX(XTX)1XTy]=yT[INX(XTX)1XT]T[INX(XTX)1XT]y=yT[INX(XTX)1XT]y=(Xβ+ϵ)T[INX(XTX)1XT](Xβ+ϵ)=βTXT[INX(XTX)1XT]Xβ(1)+ϵT[INX(XTX)1XT]Xβ(2)+βTXT[INX(XTX)1XT]ϵ(3)+ϵT[INX(XTX)1XT]ϵ(4)
    至此,我们将的表达式分成了四个部分。容易计算:第(1)项、第(2)项和第(3)项均 恒为0 。因此:

    σ ^ O L S 2 = 1 ( N − p − 1 ) ϵ T ( I N − X ( X T X ) − 1 X T ) ϵ \hat \sigma _{OLS}^2 = \frac{1}{(N-p-1)} \bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon} σ^OLS2=(Np1)1ϵT(INX(XTX)1XT)ϵ

    根据引理3关于迹运算的性质,以及迹运算与期望运算的相容性:

    E [ ϵ T ( I N − X ( X T X ) − 1 X T ) ϵ ] = E [ t r { ( I N − X ( X T X ) − 1 X T ) ϵ ϵ T } ] = t r { ( I N − X ( X T X ) − 1 X T ) E [ ϵ ϵ T ] } = t r { ( I N − X ( X T X ) − 1 X T ) I N σ 2 } = σ 2 [ t r { I N } − t r { X ( X T X ) − 1 X T } ] = σ 2 [ t r { I N } − t r { X T X ( X T X ) − 1 } ] = σ 2 [ t r { I N } − t r { I ( p + 1 ) } ] = ( N − p − 1 ) σ 2 E[\bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon}] \\ = E[tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon} \bm{\epsilon}^T \}] \\ = tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) E[ \bm{\epsilon} \bm{\epsilon}^T ] \} \\ = tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{I}_N \sigma^2 \} \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \} ] \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{X}^T\bm{X} (\bm{X}^T \bm{X} )^{-1} \} ] \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{I}_{(p+1)} \} ] \\ = (N-p-1)\sigma^2 E[ϵT(INX(XTX)1XT)ϵ]=E[tr{(INX(XTX)1XT)ϵϵT}]=tr{(INX(XTX)1XT)E[ϵϵT]}=tr{(INX(XTX)1XT)INσ2}=σ2[tr{IN}tr{X(XTX)1XT}]=σ2[tr{IN}tr{XTX(XTX)1}]=σ2[tr{IN}tr{I(p+1)}]=(Np1)σ2
    因此:
    E [ σ ^ O L S 2 ] = σ 2 E[\hat \sigma _{OLS}^2] =\sigma^2 E[σ^OLS2]=σ2

    至此,我们证得:σ^2OLSσ2无偏估计量

    注1:显然,σ^2ML 不是 σ2 的无偏估计 ;
    注2:需要特别注意的是,σ^OLS 不是 σ 的无偏估计量(这里的平方号不能少)。


    5.2 σ^2OLS 所服从的分布

    σ^2OLS 的表达式:
    σ ^ O L S 2 = 1 ( N − p − 1 ) ϵ T ( I N − X ( X T X ) − 1 X T ) ϵ \hat \sigma _{OLS}^2 = \frac{1}{(N-p-1)} \bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon} σ^OLS2=(Np1)1ϵT(INX(XTX)1XT)ϵ
    可以看出,σ^2OLS 是关于误差项 ϵ 的二次型。因此,容易证明: σ^2OLS/ σ2 服从自由度为 N - p - 1的卡方分布,即:
    ( N − p − 1 ) σ ^ O L S 2 σ 2 ∼ χ N − p − 1 2 \frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2_{N-p-1} σ2(Np1)σ^OLS2χNp12


    6. 结论

    至此,通过一系列冗长但富有启发性的证明,我们从 无偏性一致性有效性 这三个角度,对多元线性回归模型的最小二乘估计量 β^OLSσ^2OLS 的质量进行了评判,得到的结论如下:

    (1)β^OLSβ最优线性无偏估计量 (Best Linear Unbiased Estimator,BLUE),即其具有 无偏性、一致性与有效性

    (2)σ^2OLSσ2无偏估计量(Unbiased Estimator)。

    同时,在误差项满足正态性假设的条件下,我们推导出了 β^OLSσ^2OLS 所服从的分布:
    β ^ O L S ∼ N ( β , σ 2 ( X T X ) − 1 ) \bm{\hat\beta}_{OLS} \thicksim N(\bm\beta, \sigma^2 ( \bm{X}^T \bm{X} )^{-1} ) β^OLSN(β,σ2(XTX)1) ( N − p − 1 ) σ ^ O L S 2 σ 2 ∼ χ 2 ( N − p − 1 ) \frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2(N-p-1) σ2(Np1)σ^OLS2χ2(Np1)
    但是,得到这两个分布有啥用啊?那就且听我们下回分解。


    7. 新问题的提出

    至此,我们解决了模型的参数估计,以及所估计参数的相关性质,并给出了参数估计量的分布。但是,我们还有一堆问题还没有解决:

    (1)估计出来的模型好不好?有没有效呢?
    (2)估计出来的模型是否满足模型的基本假设条件呢?不满足可咋办呢?
    (3)如何利用估计出来的模型进行预测呢?预测的准确性有多高呢?
    (4)下次更新是不是又得一年后啊?

    在下一篇文章中,就让我们利用参数的区间估计与假设检验,来看看我们拟合出来的模型到底有没有用。


    参考文献

    [1] 线性回归估计相合性问题的新进展 .


    写在最后

    欢迎感兴趣的小伙伴来跟作者一起挑刺儿~ 包括但不限于语言上的、排版上的和内容上的不足和疏漏~ 一起进步呀!
    有任何问题,欢迎在本文下方留言,或者将问题发送至勘误邮箱: mikeysun_bugfix@163.com
    谢谢大家!

    展开全文
  • 参数估计

    千次阅读 2018-10-10 23:31:28
    一、参数估计内容 1.参数估计的requisites   我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理...

    前言

      学了很久的数理统计,总觉得知识在脑海中没有一个清晰的轮廓,虽然也可以自己通过纸和笔整理,但是,也想要通过新的方式,用文字的方式输出,这一想法已经在我脑海里盘旋了好久了,终于在今天开始落实。

    一、参数估计内容

    1.参数估计的requisites

      我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理有一些了解,最好还要知道三大抽样分布的性质。

    但是还是简单提一下统计量的概念吧:统计量是从样本中得到的,是样本的函数,统计量不含有任何未知参数。

    2.参数估计的目的

      我们在统计中,总是想要通过样本去推断总体的性质,而引进统计量,就是对样本进行描述的过程。实际中,我们感兴趣的问题总是与总体分布中的未知参数有关系,所以,我们要对参数进行估计和检验。
    这里的参数是指:

    • 分布中的未知参数和未知参数的函数
    • 分布的各种特征函数

    3.参数估计的类型和使用

    在此之间,我们必须要明确一点,估计是一个方法,不是一个具体算出来的值;只是,在给定样本以后,用这种估计的方法,可以算出数值。

    3.1 点估计

      点估计,顾名思义是对某个未知参数的值的估计,就像是数轴上的一个点。因此我们的目的也就是找到一个未知参数的好的估计量。
      知道点估计的含义以后,我们先来看看常用的找估计量的方法:

    • 矩估计
    • 最大似然估计
    • 最小方差无偏估计
    • 贝叶斯估计

    3.1.1 矩估计

      矩估计的基本原理就是:替换原理通过样本的矩替换总体的矩,用样本矩的函数替换总体矩的函数。
      这么做的好处是:在总体分布函数未知的情况下,通过样本的特征数可以对各种参数进行估计。
      矩估计的实质是:用样本的经验分布函数去替换总体的分布,理论基础是格里纹科定理。
      具体的操作就是:

    1. 假设已知总体的概率密度函数,但其中的参数未知,通过这个带有未知参数的密度函数去求总体的各阶矩;
    2. 利用样本的数据,求各阶矩;
    3. 通过总体各阶矩和样本各阶矩相等,构造方程组,解出参数。

    3.1.2 最大似然估计(MLE)

      最大似然估计,也可以叫做极大似然估计,从字面理解非常到位就是,找到一个未知参数的估计,使得在这个估计的条件下,由总体概率密度函数推算的分布下,样本发生的可能性最大。即是,最大的像这样的估计。
    具体操作就是:

    1. 将未知参数的估计设为x,带入总体密度函数。
    2. 建立在样本的独立性的条件下,根据样本求出样本取得当下值的概率。
    3. 通过分析计算出使得概率达到最大的x,就是未知参数的极大似然估计。
      最大似然估计具有不变性。

    3.1.3 最小方差无偏估计

      首先引进均方误差(MSE)的概念,均方误差是用于衡量点估计好坏的一种标准,关于衡量点估计好坏的标准在后文还会详细介绍,这里为了需要,先简单提一下。首先明确一点,均方误差是对点估计进行的计算。具体的计算公式是,参数估计值与真实值之差的平方的期望,通过分解,也等于估计值的方差加估计值的期望与真实值之差的平方。
      一致最小均方误差估计,是需要在一个确定的估计类里,找到均方误差相对最小的那个。但由于是在估计类里找,如果不对估计加任何限制,则一致最小均方误差估计是不存在的,所以没有意义。
      最小方差无偏估计,这里是指一致最小方差无偏估计,就是对于一个参数的无偏估计而言,最小的均方误差就意味着最小的方差。对于参数空间中的任何无偏估计,具有最小方差的那个估计就称作是一致最小方差无偏估计(UMVUE)
    实际上,用于判断是否是UMVUE,可以通过一个定理方便地得到:未知参数的UMVUE必然与任一零的无偏估计不相关。也就是说,现在还有一个其他的随机变量X,均值是零,那么这个未知参数的UMVUE与这个随机变量X的相关系数(Cov)为零。

    3.1.4 贝叶斯估计

      前面介绍的三种办法是频率学派的理论,而贝叶斯估计是贝叶斯学派的观点。
      贝叶斯估计是建立在已经有关于参数的分布的信息的基础上,叫做先验信息,然后进行样本观测,推算后验分布。也可以理解为,用总体和样本对先验分布做出调整。
      具体做法是:

    1. 在参数未知的条件下,确定总体的分布
    2. 根据参数的先验信息确定先验分布 π(θ)
    3. 求出在通过先验分布得到的未知参数后,样本的联合分布 p(X|θ)
    4. 确定样本和未知参数的联合分布,也就是2.与3.得到的分布函数之积 h(X,θ)=p(X|θ)π(θ)。
    5. 对参数θ的贝叶斯推断,π(θ|X)= h(X,θ)/m(X),其中m(X) 是从h(X,θ)中对θ整个参数空间积分得到的,X的边际概率函数。

    3.2 点估计好坏的评价标准

      前面已经提到点估计的目的是找到未知参数的好的估计量,那么到底怎么定义“好”,也是我们需要关心的。在点估计中,有如下标准衡量:

    • 无偏性
    • 有效性
    • 相合性
    • 均方误差
    • 充分性原则
    • 有效估计

      我刚学参数估计的时候,脑子里总是记不住这些性质到底在描述什么QAQ
      好吧,其实现在也记不住,我也必须翻一下笔记了…

    • 无偏性
        无偏性是描述经过重复抽样以后,所有对这个未知参数的估计值的平均等于真实的参数值。具体判断也就是计算这个估计的均值,看它是否等于真实值。关于无偏性还有一些性质,最好能够记住:
      1. 样本的k阶中心距通常不是总体k阶中心矩的无偏估计
      2. 无偏性不具有不变性,也就是无偏估计的函数不一定是无偏估计
          无偏估计还有渐近无偏估计,就是当样本量趋近于无穷时,均值的极限趋近于真实值。也是用于衡量一个估计是一个好的估计的准则。
    • 有效性
        有效性是建立在两个无偏估计的基础上,比较两个无偏估计的方差,方差小的更有效。
    • 相合性
        与渐近无偏性从期望的极限角度理解不同,相合性是从概率的角度,即未知参数的估计,在样本量趋近于无穷大的时候,估计量依概率收敛到未知参数。也即是说,当样本量增大的时候,被估计的参数能够被估计到任意指定的精度。判断相合性,我们采用验证它的充分条件:
      1. 渐进无偏性
      2. 方差收敛到0
          由大数定理知道,矩估计一般都是相合的
    • 均方误差
        MSE,是通过计算参数估计值与真实值之差的平方的期望,其大小能够反映估计的好坏,在同一估计类里越小越好。
    • 充分性原则
        首先,要注意充分性原则和充分性是两个不同的东西!充分性是描述统计量不丢失关于样本的任何信息,则称这个统计量为充分统计量。那么,充分性原则和充分性一点关系都没有吗?也不是的。在比较两个无偏估计的好坏的时候,较好的那个无偏估计总是样本的充分统计量;并且,将不是样本充分统计量的统计量,关于充分统计量求期望,得到的估计,一定是充分统计量,并且新的估计的方差也得到了降低。
        换句话说,对于所有的统计推断问题,考虑未知参数的估计问题,只需要在基于充分统计量的函数中进行即可,这就是充分性原则。
        你可能还在想,怎么将不是样本充分统计量的统计量关于一个充分统计量求期望?利用随机过程讲义的第一章的内容,利用条件概率公式,连续函数求积分,离散函数求∑。
    • 有效估计
        有效估计是一个估计,它的方差达到了Cramer-Rao方程的下界,有效估计一定是UMVUE哈。具体计算来判断是否是有效估计的话:
      1. 根据总体密度函数(含参数)检验满足C-R方程的条件;
      2. 求费希尔信息量,找到C-R下界;
      3. 对无偏估计求方差,检验是否等于C-R下界。

    3.3 区间估计

      之前我们讨论的都是点估计,但是关于统计量的精度我们无法定量的回答,必须通过它们的分布来反映。在实际中,度量点估计精度直观方法就是给出未知参数的一个区间,这就是区间估计。
      区间估计是想要找到两个统计量,构成一个区间,这个区间盖住未知参数真值的可能性不确定,但是人们总是希望在尽可能小的区间下,区间盖住真值的可能性越大越好,由此得到置信区间的定义:
      置信区间,是一个有样本值得到的随机区间,未知参数真值落在这个随机区间中的概率大于等于1-a,或者理解为,未知参数真值不落在这个随机区间中的概率小于置信度,满足这个条件的随机区间称作置信区间。首先,置信水平是随机区间盖住真值的概率,置信水平等于置信度,然后,我自己理解置信度是这样的:当大量重复实验,用置信区间的计算方法,得到很多个N个随机区间的时候,有(N* 置信水平)的那么多个区间,包括了均值。
      那具体怎么做区间估计呢?我们通过构造区间估计的方法,使用最基本的枢轴量法:

    1. 什么是枢轴量?
        枢轴量是样本和未知参数的函数,它具有的性质是其分布不依赖与未知参数,或者说,它的概率密度函数与参数无关。
    2. 枢轴量有什么用?
        在参数未知的时候,没有办法直接凭空从置信水平找到随机区间的上下限,所以采用枢轴量的分布函数,以此为媒介,根据置信水平,先算出枢轴量的置信区间,再反解出上下限。
    3. 枢轴量怎么用?
        其实2.已经解答过了,从未知参数的好的点估计(MLE)出发,用它的性质和密度函数构造。根据置信水平,通常采用等尾置信区间保证区间长度最短,先算出枢轴量的置信区间,再反解出上下限。
    4. 有什么特别的检验的构造套路吗?
        老师教过的有:
      • 单个正态总体参数:分为均值、方差是否已知,对均值和方差分别都有不同的枢轴量
      • 大样本置信区间:原理是中心极限定理,在样本方差已知的时候,很ok;在样本方差未知的时候,中心极限定理的分布可以将方差换成它的相合估计。注意哦,大样本运用中心极限定理,最多只有样本的方差的相合估计代替方差,不可以用均值的无偏估计代替总体均值位置上的μ的!
      • 两独立正态总体下均值之差和方差之比的置信区间:类似于单个正态总体,在估计均值的时候,要看方差是否已知,或者方差成比例;在估计方差之比的时候,直接就有枢轴量,不需要讨论均值是否已知。

      除了这些,均匀分布的总体还有一些特别的构造方法,课后题和期中考试卷子也有涉及,供自己参考~
      注:区间估计构造枢轴量的时候,大量用到前面一章节的统计量及其分布、以及三大抽样分布的基础。

    二、整体学习思路

      参数的点估计—>穿插如何评价点估计的好坏—>参数的区间估计
      建议的学习思路:点估计—>评价点估计的好坏—>参数估计,感觉独立开会更清晰一些~

    三、声明

      全文都是我个人的学习笔记,肯定有出现错误欢迎指正。

    展开全文
  • 《统计学》学习笔记之参数估计

    千次阅读 2020-03-16 15:05:29
    鄙人学习笔记 文章目录参数估计参数估计的基本原理评价估计量的标准一个总体参数的区间估计两个总体参数估计 ...在参数估计中,用来估计总体参数的统计量为估计量。 而根据一个具体的样本计算出来的估计量的数值称...
  • 回归分析之参数估计

    千次阅读 2019-10-11 16:06:59
    参数估计:是根据从总体抽取的样本估计总体分布包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布所含的未知参数...
  • 参数估计、点估计、极大似然估计

    千次阅读 2019-04-19 09:01:28
    1.参数估计 随机变量XXX的分布函数已知,但它的一个或多个参数未知,我们需要根据已有样本,估计XXX分布函数的参数。 2. 点估计 随机变量XXX的分布函数已知,但它的一个或多个参数未知,根据XXX的一个样本估计...
  • 推断统计:参数估计和假设检验

    千次阅读 多人点赞 2020-03-03 00:35:24
    目录 ...  3、参数估计(点估计和区间估计)    1)参数估计、点估计和区间统计的概念    2)点估计说明    3)区间估计说明   4、中心极限定理    1)中心极限定理的概念    2...
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...
  • 浅谈参数估计

    千次阅读 2019-09-03 09:38:34
    估计量 如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,总体均值、方差、比例,等。 但现实情况比较复杂,有些现象的范围比较广,不可能对总体的每个单位都进行测...
  • 统计学之参数估计

    千次阅读 2019-12-29 22:48:48
    参数估计中,用来估计总体参数的统计量称为估计量,用符号θ^表示,如样本均值、样本方差。根据一个具体的样本计算出来的估计量的数值称为估计值。 点估计与区间估计 点估计:用样本统计量θ^的某个取值直接...
  • 简述:参数估计中的最小二乘法

    千次阅读 2020-03-28 23:44:59
    在工程物理、 化学工程、 生物医学、 统计学、 经济学、 信号处理、 自动化、测绘学等领域, 许多问题都可归结为求解矩阵方程 Ax=b的问题,其中最常见的是线性参数估计问题,而最小二乘法是最常用的线性参数估计...
  • R语言参数估计

    千次阅读 2020-12-25 11:52:44
    R语言参数估计 一直想要写博客来着,一直没有实现,昨天看室友写了,借着复习R语言考试,来开启我的第一篇博客叭! 以下我将从点估计、区间估计来介绍区间估计,本文主要介绍R代码,具体的统计知识,详情可参考...
  • 参数估计方法

    千次阅读 2019-11-07 20:58:21
    原理: 最合理的参数估计量应该使得从模型抽取该n组样本观测值的概率最大,也就是概率分布函数或者说是似然函数最大。 二、最小二乘法 当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能...
  • 参数估计方法整理

    万次阅读 多人点赞 2018-08-06 10:33:27
    参数估计:是根据从总体抽取的样本估计总体分布包含的未知参数的方法。 参数估计包括点估计和区间估计。 常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计 区间估计:利用已知的抽样分布、...
  • 参数估计与假设检验的通俗理解

    千次阅读 2020-05-19 22:58:09
    文章目录参数估计假设检验 参数估计 For 高手: 参数估计(parameter estimation),统计推断的一种。根据从总体抽取的随机样本来估计总体分布未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造...
  • 分类模型参数估计

    千次阅读 2016-05-29 19:26:40
    在分类模型,我们常常以联合概率P(X,ω)P(X,\omega)或者后验概率P(ω|X)P(\omega|X)建模,X={x1,x2,…,xd}表示一个d维向量,ω=ω1,ω2,…,ωk表示类别。X=\lbrace x^1,x^2,\ldots ,x^d\rbrace表示一个d维向量,\...
  • 从总体抽取一个样本(batchsize=n),得到样本均值u’,样本标准差σ‘,(推荐系统)样本点击率ctr等,这些样本参数都是对总体的一个点估计。 标注误差SE 抽取n个样本,分别计算其均值u’1,u’2,… 这些值的...
  • 参数估计中,用来估计总体参数的统计量称为估计量。样本均值、样本比例、样本方差等都可以是一个估计量。 估计值 estimated value 根据一个具体的样本计算出来的估计量称为估计值。例如估计一个班学生考试的平均...
  • 参数估计的计算方法

    千次阅读 2020-05-27 19:21:58
    参数估计的计算方法极大后验(MAP)及拉普拉斯逼近基于马尔可夫链的蒙特卡洛参数推断(MCMC)期望极大化(EM) (参数估计所有内容) 极大后验(MAP)及拉普拉斯逼近 极大后验估计: MAP是通过确定后验分布的极大值得到的,...
  • 三、抽样与参数估计

    千次阅读 2021-01-29 22:04:29
    随机抽样:从含有N个元素的总体,抽取n个元素作为样本,使得每一个客为n的样本都有相同的机会被抽。 重复抽样:从总体抽取一个元素后,把这个元素放回到总体再抽取第二个元素,直至抽取n个元素为止 不...
  • 参数估计就是用样本指标(统计)来估计总体指标(参数)。 一、参数估计基础-Z分布 在统计应用,可以把任何一个均数为,标准差为的正态分布转变为,的标准正态分布,即将正态变量值用来代替,由于服从正态...
  • 参数量:这个比较好理解,例如卷积层的卷积核c_i*k*k*n_o,其参数量就是相乘的结果。而且,无论输入图像的尺寸怎么变(YOLO实现的multi scale训练策略),只要模型结构确定,参数量就固定。还需要注意,参数都是...
  • 参数估计:贝叶斯思想和贝叶斯参数估计

    万次阅读 多人点赞 2016-05-23 10:54:29
    参数估计中可以写成下面这样: 这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即 在贝叶斯定理,每个名词都有约定俗成的名称: P(A)是A的先验概率或 边缘概率 。之所以...
  • 参数估计方法——OLS、MLE、MAP

    千次阅读 2019-07-31 15:17:22
    文章目录1、前言2、最大似然估计法 MLE3、最大后验估计 MAP4...在概率论参数估计有点估计(point estimation)和区间估计(interval estimation)两种。而 ML 主要是构造点估计的方法常用的有:①最大似然估计法,...
  • 关于参数估计

    千次阅读 2018-01-25 18:11:08
    虽然非计算机专业,但因为一些原因打算学习西瓜书,可由于长时间没有碰过概率统计的知识,有所遗忘。所以特意重新复习了一遍类似的知识,写在这里权当...参数估计的方法有多种,各种估计方法得出的结果不一定相同,...
  • 关于参数估计(点估计和参数估计)的详细笔记。
  • 概率论 参数估计与假设检验 区分及例子动机区分概念假设检验基本思想小概率原理...假设检验和参数估计解决的是不同的问题,参数估计是对用样本统计去估计总体的参数的真值,而假设检验则是根据样本统计来检验...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 166,971
精华内容 66,788
关键字:

参数估计中的估计量是指