为您推荐:
精华内容
最热下载
问答
  • 5星
    8.82MB weixin_44573410 2021-03-02 23:35:55
  • 5星
    3.43MB weixin_44573410 2021-03-15 21:59:42
  • 5星
    967KB weixin_44573410 2021-03-10 21:50:37
  • 5星
    2.52MB weixin_44573410 2021-03-30 23:24:46
  • 5星
    5.48MB weixin_44573410 2021-04-04 23:43:24
  • 5星
    365KB weixin_44573410 2021-01-26 18:45:00
  • 5星
    490KB weixin_44573410 2021-03-08 21:58:01
  • 5星
    105KB weixin_42696333 2021-09-10 17:50:39
  • 5星
    267KB qq_42729362 2021-03-23 15:26:28
  • 5星
    249KB weixin_43959833 2021-03-27 20:56:43
  • 167KB weixin_38708223 2021-05-23 00:22:00
  • weixin_41235609 2017-12-13 10:35:45
  • 一共两个部分,第一,线性模型和最小二乘估计方法的概括。第二, 基于最小二乘估计方法,实现线性回归方程中回归参数的估计。并且和statsmodels中的方法进行对比。 1.线性模型和最小二乘方法 线性模型是指预测值是...

    概述

    一共两个部分,第一,线性模型和最小二乘估计方法的概括。第二,
    基于最小二乘估计方法,实现线性回归方程中回归参数的估计。并且和statsmodels中的方法进行对比。

    1.线性模型和最小二乘方法

    线性模型是指预测值是特征(feature)的线性组合(liner combination),数学表达式如下:
    y i ^ = β 0 + β 1 x i 1 + . . . + β p x i p (1) \hat {y_i}= \beta_0 + \beta_1 x_{i1} + ... + \beta_p x_{ip} \tag{1} yi^=β0+β1xi1+...+βpxip(1)
    y i = y ^ i + ϵ i (2) y_i = \hat y_i + \epsilon_i \tag{2} yi=y^i+ϵi(2)
    i = 1 , 2 , . . . , n i=1,2,...,n i=1,2,...,n
    其中:
    y ^ \hat {y} y^是预测值(也叫因变量);
    y y y是真实值;
    β = ( β 1 , . . . , β p ) \beta = (\beta_1,..., \beta_p) β=(β1,...,βp)是系数coef_;
    β 0 \beta_0 β0是截距intercept_;
    x i 1 , . . . , x i p x_{i1},..., x_{ip} xi1,...,xip是第 i i i个样本点, 是 x x x的行向量;
    ϵ i \epsilon_i ϵi是第 i i i个样本点估计的误差项。

    普通最小二乘法拟合线性模型,本质上解决的是:
    min ⁡ β ∣ ∣ x β − y ∣ ∣ 2 2 \min_ {\beta} || x\beta-y || _2 ^ 2 βminxβy22
    其中:
    β = ( β 1 , . . . , β p ) \beta = (\beta_1,..., \beta_p) β=(β1,...,βp)是回归系数coef_;
    x = ( x 1 , . . . , x p ) x = (x_1,..., x_p) x=(x1,...,xp) x x x的列向量,也叫自变量;
    y = ( y 1 , y 2 , . . . , y p ) y = (y_1,y_2,...,y_p) y=(y1,y2,...,yp)是样本观测值(也叫自变量);

    线性回归模型基本假设

    • 自变量 x 1 , x 2 , . . , x p x_1,x_2,..,x_p x1,x2,..,xp是确定的观测值,且互不影响。
    • 因变量与自变量之间是近似线性的关系,即公式(1)所示;
    • 误差项 ϵ i \epsilon_i ϵi的均值为0,方差形同,且两两不相关。

    { E ( ϵ i ) = 0 v a r ( ϵ i ) = σ 2 c o v ( ϵ i , ϵ j ) = 0 \left\{ \begin{aligned} E(\epsilon_i) & = &0 \\ var(\epsilon_i) & = & \sigma^2 \\ cov(\epsilon_i, \epsilon_j)& = & 0 \end{aligned} \right. E(ϵi)var(ϵi)cov(ϵi,ϵj)===0σ20
    其中, i ≠ j , i = 1 , 2 , . . . , n ; j = 1 , 2 , . . . , n i\neq j,i=1,2,...,n;j=1,2,...,n i=j,i=1,2,...,n;j=1,2,...,n

    也就是说如果自变量 x i x_i xi x j x_j xj的相关时,最小二乘法的估计值会对自变量X中的随机误差极其敏感,会产生很大的方差。在没有实验设计就进行数据收集,很容易在自变量之间产生多重共线问题。

    2. 最小二乘方法估计回归参数

    经验回归系数 β ^ \hat\beta β^的最小二乘估计
    β ^ = ( X T X ) − 1 X T y \hat\beta = (X^TX)^{-1}X^Ty β^=(XTX)1XTy
    X ∈ R 1 × n , β ∈ R n × 1 , y ∈ R n × 1 X \in R^{1\times n},\beta \in R^{n\times 1},y \in R^{n\times 1} XR1×n,βRn×1,yRn×1
    标准回归系数 β j ∗ \beta_j^* βj(对自变量因变量进行过标准化)和经验回归系数 β ^ j \hat\beta_j β^j(对自变量因变量没有进行过标准化)之间的关系:
    β j ∗ = s t d ( X ) s t d ( y ) β ^ j ,   j = 1 , 2 , . . . , p \beta_j^* = \frac{std(X)}{std(y)}\hat\beta_j ,\space j = 1,2,...,p βj=std(y)std(X)β^j, j=1,2,...,p
    有了标准回归系数之后,各个自变量之间的相对重要性就可以比较了。

    2.1 代码实现最小二乘估计回归参数

    下面是代码实现最小二乘方法估计回归参数:标准回归系数 β j ∗ \beta_j^* βj和经验回归系数 β ^ j \hat\beta_j β^j

    def Beta_linear_model(X,y):
        """最小二乘方法估计线性回归方程的回归参数
        输入:X,没有标准化后的(自变量+常数项,且第一列是常数项)。
              y, 没有标准化后的因变量。
        返回:标准回归系数和经验回归系数。
        """
        # 转化成numpy数组
        X = np.array(X)
        y = np.array(y)
        # 标准化X,y
        X_std = (X - X.mean())/X.std()
        y_std = (y - y.mean())/y.std()
        # 计算标准回归系数
        a = np.linalg.inv(np.dot(X_std.T, X_std))
        b = np.dot(X_std.T, y_std)
        beta_std = np.dot(a,b)
        # 计算经验回归系数
        beta = beta_std*y.std()/X.std()   
        beta[0] = (y - np.dot(X[:,1:],beta[1:])).mean()
        return beta_std,beta
    

    下面通过人工生成一组数据来看看上面代码的回归参数估计情况:

    import numpy as np
    nsample = 100
    #  人工生成数据一组二元不共线的数据,并且带有一组常数项。
    x = np.linspace(0, 10, nsample)
    X = np.column_stack((x, x**2))
    beta = np.array([1, 0.1, 10])
    e = np.random.normal(size=nsample)
    X = sm.add_constant(X)
    y = np.dot(X, beta) + e
    # 估计回归参数
    print(Beta_linear_model(X, y))
    

    结果是:
    (array([1.25358906, 0.00597212, 0.75249024]),
    array([1.24744675, 0.07934234, 9.99717462]))
    第一组数组是标准回归系数,第二组是经验回归系数,比较接近设置的beta参数[1, 0.1, 10], 这里值得注意的地方,回归方程的预测值是预测结果的平均值,而不是真实结果的确切值。回归一词指的就是平均值,又称为数学期望。

    下面通过statsmodels中的简单最小二乘来验证上述结果。

    #  最小二乘拟合线性回归方程,y,X也没有进行标准化
    model = sm.OLS(y, X)
    results = model.fit()
    print(results.summary())
    

    结果见下图:
    在这里插入图片描述
    对比statsmodels中回归系数[1.2474,0.0793, 9.9972]和[1.24744675, 0.07934234, 9.99717462]一样,所以,Beta_linear_model()函数成功实现了最小二乘方法估计回归参数。

    参考文献

    [1]何晓群,刘文卿.应用回归分析(第三版)[M].中国人民大学出版社

    展开全文
    weixin_38292570 2020-02-29 21:55:10
  • 14 最小二乘估计原理推导和线性回归的外推等 标签:机器学习与数据挖掘 1.简单最小二乘估计的推导   先说个历史:最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的...

    14 最小二乘估计原理推导和线性回归的外推等

    标签:机器学习与数据挖掘
    (此篇R代码对应本博客系列《12 R语言手册(第五站 多元回归》)

    1.简单最小二乘估计的推导

      先说个历史:最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的主要思想就是求解未知参数,使得理论值与观测值之差(即误差,或者说残差)的平方和达到最小。
      首先我们有基本的线性回归模型: y ^ = β 0 + β 1 x + ε \hat{y}=\beta_{0}+\beta_{1} x+\varepsilon y^=β0+β1x+ε。其中, y ^ \hat{y} y^是估计变量, β 0 \beta_{0} β0 β 1 \beta_{1} β1是实际回归线的截距和斜率,表示所有谷物营养等级与含糖量之间的线性关系,不仅针对样本。 ε = ( y − y ^ ) \varepsilon=(y-\hat{y}) ε=(yy^)是误差项的估计值。
      最小二乘线是使总体误差平方和最小的线,假定我们的模型有n个观察值:首先我们有 S S E p = ∑ i = 1 n ε i 2 S S E_{p}=\sum_{i=1}^{n} \varepsilon_{i}^{2} SSEp=i=1nεi2,这是误差的平方和。再表示总体 S S E s SSE_s SSEs为:
    S S E p = ∑ i = 1 n ε i 2 = ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 S S E_{p}=\sum_{i=1}^{n} \varepsilon_{i}^{2}=\sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)^{2} SSEp=i=1nεi2=i=1n(yiβ0β1xi)2
       明白我们的目标是使得SSE最小,这里,我们对其求偏导:
    ∂ S S E P ∂ β 0 = − 2 ∑ i = 1 n ( y i − β 0 − β i x i ) ∂ S S E p ∂ β 1 = − 2 ∑ i = 1 n x i ( y i − β 0 − β 1 x i ) \begin{aligned} \frac{\partial S S E_{P}}{\partial \beta_{0}} &=-2 \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{\mathrm{i}} x_{i}\right) \\ \frac{\partial S S E_{p}}{\partial \beta_{1}} &=-2 \sum_{i=1}^{n} x_{i}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right) \end{aligned} β0SSEPβ1SSEp=2i=1n(yiβ0βixi)=2i=1nxi(yiβ0β1xi)
    我们对 β 0 \beta_0 β0 β 1 \beta_1 β1感兴趣,所以我们令上面两个公式等于0,有:
    ∑ i = 1 n ( y i − b 0 − b 1 x i ) = 0 ∑ i = 1 n x i ( y i − b 0 − b 1 x i ) = 0 \begin{array}{l}{\sum_{i=1}^{n}\left(y_{i}-b_{0}-b_{1} x_{i}\right)=0} \\ {\sum_{i=1}^{n} x_{i}\left(y_{i}-b_{0}-b_{1} x_{i}\right)=0}\end{array} i=1n(yib0b1xi)=0i=1nxi(yib0b1xi)=0
    进一步处理得:
    ∑ i = 1 n y i − n b 0 − b 1 ∑ i = 1 n x i = 0 ∑ i = 1 n x i y i − b 0 ∑ i = 1 n x i − b 1 ∑ i = 1 n x i 2 = 0 \begin{array}{l}{\sum_{i=1}^{n} y_{i}-n b_{0}-b_{1} \sum_{i=1}^{n} x_{i}=0} \\ {\sum_{i=1}^{n} x_{i} y_{i}-b_{0} \sum_{i=1}^{n} x_{i}-b_{1} \sum_{i=1}^{n} x_{i}^{2}=0}\end{array} i=1nyinb0b1i=1nxi=0i=1nxiyib0i=1nxib1i=1nxi2=0
    再平移变换得:
    b 0 n + b 1 ∑ i = 1 n x i = ∑ i = 1 n y i b 0 ∑ i = 1 n x i + b 1 ∑ i = 1 n x i 2 = ∑ i = 1 n x i y i \begin{array}{l}{b_{0} n+b_{1} \sum_{i=1}^{n} x_{i}=\sum_{i=1}^{n} y_{i}} \\ {b_{0} \sum_{i=1}^{n} x_{i}+b_{1} \sum_{i=1}^{n} x_{i}^{2}=\sum_{i=1}^{n} x_{i} y_{i}}\end{array} b0n+b1i=1nxi=i=1nyib0i=1nxi+b1i=1nxi2=i=1nxiyi
    整理得到 β 0 \beta_0 β0 β 1 \beta_1 β1的表达式:
    b 1 = ∑ x i y i − [ ( ∑ x i ) ( ∑ y i ) ] / n ∑ x i 2 − ( ∑ x i ) 2 / n b 0 = y ‾ − b 1 x ‾ \begin{aligned} b_{1} &=\frac{\sum x_{i} y_{i}-\left[\left(\sum x_{i}\right)\left(\sum y_{i}\right)\right] / n}{\sum x_{i}^{2}-\left(\sum x_{i}\right)^{2} / n} \\ b_{0} &=\overline{y}-b_{1} \overline{x} \end{aligned} b1b0=xi2(xi)2/nxiyi[(xi)(yi)]/n=yb1x
      再理解这些符号的含义:其中 n n n是观察对象的数量, x ‾ \overline{x} x是预测变量均值, y ‾ \overline{y} y是响应变量均值。求和范围为 i = 1 i=1 i=1 n n n。上面的两个式子
    β 0 \beta_0 β0 β 1 \beta_1 β1的最小二乘估计结果,其值为最小 S S E s SSE_s SSEs
    (最后,最小二乘法有多重延伸,也不仅仅只是用在线性回归上面。)
    对多元的情况的话,可以参考这个个人博客:

    https://endlesslethe.com/category/数学/统计学与数理分析
    这人讲的挺好呀。

    2.线性回归模型的外推

      许多时候我们的自变量必须设定一定范围,否则会出现问题。比如,假设我们期望预测小学生的体重(y),基于其身高(x),则身高=0没有任何意义,因此截距的外延含义在该例中没有可解释的实际意义。然而,对谷物数据集来说,含糖量x为0的确具有实际意义,可以发现数据集中有多条记录含糖量均为0克。
      分析人员应当在利用回归方程开展估计和预测工作时,限制其预测变量的取值,使其又值在数据集的取值范围内。例如,在谷物数据集中,含糖量从最低的0克到最高的15克,因此在进行营养等级预测时,对任意的含糖量x值应该在0-15克之间。然而,外推,每可能导致x值超出这一范围,这样做是存在危险的,因为我们不知道在要求范围之外的向应变量和预测变量之间的关系属性。
      应尽量避免外推。如果预测变量超出给定x值的范围,应该告知进行预测的终端用户,其x值数据无法支持该预测。危险在于,当数据集中的x处于正常范围时,预测变量x和响应变量y之间的关系可能是线性的;而当x处于正常范围之外时,这种线性关系可能不存在。在这里插入图片描述

    3.平方和汇总SST

      这节不懂可以结合本系列的《02 线性回归(二)》。
      假设我们为整个数据集中的每个记录计算 ( y − y ‾ ) (y-\overline{y}) (yy),然后获得这些结果的平方和,类似于计算 ( y − y ‾ ) (y-\overline{y}) (yy)以获得SSE那样。将获得SST,平方和。
      SST,也称为平方和汇总,是一种仅度量响应变量总体变化值,而不考虑预测变量的方法。注意SST是y的样例方差的函数,其方差是y的标准偏差的平方:
    S S T = ∑ i = 1 n ( y − y ‾ ) 2 = ( n − 1 ) s y 2 = ( n − 1 ) ( s y ) 2 \begin{aligned} \mathrm{SST} &=\sum_{i=1}^{n}(y-\overline{y})^{2} \\ &=(n-1) s_{y}^{2} \\ &=(n-1)\left(s_{y}\right)^{2} \end{aligned} SST=i=1n(yy)2=(n1)sy2=(n1)(sy)2
    下面是一个示例:
    在这里插入图片描述
    通过各自的定义式,我们可以轻易的知道他们的关系:
    S S T = S S R + S S E \mathrm{SST}=\mathrm{SSR}+\mathrm{SSE} SST=SSR+SSE
    ∑ ( y i − y ‾ ) 2 = ∑ ( y ^ i − y ‾ ) 2 + ∑ ( y i − y ^ i ) 2 \sum\left(y_{i}-\overline{y}\right)^{2}=\sum\left(\hat{y}_{i}-\overline{y}\right)^{2}+\sum\left(y_{i}-\hat{y}_{i}\right)^{2} (yiy)2=(y^iy)2+(yiy^i)2

    4.R方

    清楚了这些变量的含义之后,现在可以介绍系数确定方法了:
    R 2 = 1 − S S E S S T R^{2}=1-\frac{S S E}{S S T} R2=1SSTSSE
    r 2 = S S R S S T r^{2}=\frac{\mathrm{SSR}}{\mathrm{SST}} r2=SSTSSR
      由于 r 2 r^2 r2的形式为SSR与SST的比率,因此可以认为, r 2 r^2 r2表示回归所解释的y变量的变异性;也就是说,预测变量与响应变量之间的线性关系。
       r 2 r^2 r2的最大值可以取何值呢?当回归与数据集完全拟合时,即每个数据点都处于估计回归线上, r 2 r^2 r2取最大值。当 r 2 r^2 r2取最大值时,使用回归没有产生估计误差,意味着所有残差都为0,反过来也意味着SSE等于0。从方程式(8.11)可以看出,我们有SST=SSR+SSE。如果SSE=0,则SST=SSR,因此, r 2 r^2 r2等于SSR/SST=1。因此,当回归完全拟合时, r 2 r^2 r2取最大值为1。

    5.估计标准误差

      通过以上的分析我们知道了 r 2 r^2 r2适用于度量回归与数据集的拟合度的。然后,我们介绍用于估计标准误差的 s s s 统计量。
      定义MSE 误差平方均值:
    M S E = S S E ( n − m − 1 ) \mathrm{MSE}=\frac{\mathrm{SSE}}{(n-m-1)} MSE=(nm1)SSE
    (其中,m表示预测变量的个数,对简单线性回归,该值为1,对多元线性回归(第9章),该值大于1。类似SSE,MSE表示一种度量回归为能解释的响应变量的变异性。)
    然后,就有:
    s = M S E = S S E ( n − m − 1 ) s=\sqrt{\mathrm{MSE}}=\sqrt{\frac{\mathrm{SSE}}{(n-m-1)}} s=MSE =(nm1)SSE
      s的值提供了一种估计“典型”残差大小的方法,类似于单因素分析中用到的标准偏差,标准偏差用于估计典型偏差的大小。换句话说,s是在估计中一种度量典型误差的方法,预测响应值与实际响应值之间的典型差异。采用该方法,估计s的标准误差表示由估计回归方程所产生预测的精度。s值越小越好,当s用响应变量y的单位来表示时效果更好。
      在没有软件工具的情况下,我们可以利用以下计算公式计算得到SST和SSR的值:
    S S T = ∑ y 2 − ( ∑ y ) 2 n S S R = [ ∑ x y − ( ∑ x ) ( ∑ y ) / n ] 2 ∑ x 2 − ( ∑ x ) 2 / n r 2 = S S R S S T \begin{aligned} \mathrm{SST} &=\sum y^{2}-\frac{\left(\sum y\right)^{2}}{n} \\ \mathrm{SSR} &=\frac{\left[\sum x y-\left(\sum x\right)\left(\sum y\right) / n\right]^{2}}{\sum x^{2}-\left(\sum x\right)^{2} / n} \\ r^{2} &=\frac{\mathrm{SSR}}{\mathrm{SST}} \end{aligned} SSTSSRr2=y2n(y)2=x2(x)2/n[xy(x)(y)/n]2=SSTSSR

    6.简单线性回归的方差分析表

    回归统计可能简洁地表示为对方差表的分析(ANOVA)。其中,m表示预测变量的数目,对简单线性回归来说,m=1。
    在这里插入图片描述

    展开全文
    qq_40891541 2019-05-23 09:58:47
  • 1 什么是多重共线性1.1 多重共线性含义1.2 多重共线性产生原因2 多重共线性后果2.1 完全型2.2 ...多重共线性补救4.1 经验法4.2 逐步回归法4.3 岭回归法4.31岭回归含义4.32 岭回归估计量的性质4 .33 岭回归参数kkk的选择...

    多重共线性

    1 什么是多重共线性

    1.1 多重共线性含义

    利用普通最小二乘法(OLS)估计多元线性回归模型,一个假设是解释变量之间不存在线性相关,即对于解释变量 X i ( i = 2 , 3 … K ) X_i(i=2,3\dots K) Xi(i=2,3K),如果不存在全为0的数 λ j ( j = 1 , 2 … K ) \lambda_j(j = 1,2\dots K) λj(j=1,2K),使得
    λ 1 + λ 2 X 2 i + λ 3 X 3 i + ⋯ + λ k X k i = 0 \lambda_{1}+\lambda_{2} X_{2 i}+\lambda_{3} X_{3 i}+\cdots+\lambda_{k} X_{k i}=0 λ1+λ2X2i+λ3X3i++λkXki=0
    则称解释变量 X i ( i = 2 , 3 … K ) X_i(i=2,3\dots K) Xi(i=2,3K)之间存在多重共线性。用矩阵表示为,解释变量数据矩阵
    X = [ 1 X 21 X 31 ⋯ X k 1 1 X 22 X 32 ⋯ X k 2 ⋯ ⋯ ⋯ ⋯ ⋯ 1 X 2 n X 3 n ⋯ X k n ] \mathbf{X}=\left[\begin{array}{ccccc} 1 & X_{21} & X_{31} & \cdots & X_{k 1} \\ 1 & X_{22} & X_{32} & \cdots & X_{k 2} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ 1 & X_{2 n} & X_{3 n} & \cdots & X_{k n} \end{array}\right] X=111X21X22X2nX31X32X3nXk1Xk2Xkn
    的秩 Rank ⁡ ( X ) < k \operatorname{Rank}(\mathbf{X})<\mathrm{k} Rank(X)<k,即在数据矩阵 X \boldsymbol X X中,至少有一个变量可以由其他变量线性表出。在实际经济数据中多以不完全多重共线性表现。所谓不完全多重共线性是指存在随机变量 μ i \mu_i μi使得
    λ 1 + λ 2 X 2 i + λ 3 X 3 i + ⋯ + λ k X k i + μ i = 0 \lambda_{1}+\lambda_{2} X_{2 i}+\lambda_{3} X_{3 i}+\cdots+\lambda_{k} X_{k i}+\mu_i=0 λ1+λ2X2i+λ3X3i++λkXki+μi=0
    或者
    λ 1 + λ 2 X 2 i + λ 3 X 3 i + ⋯ + λ k X k i ≈ 0 \lambda_{1}+\lambda_{2} X_{2 i}+\lambda_{3} X_{3 i}+\cdots+\lambda_{k} X_{k i}\approx0 λ1+λ2X2i+λ3X3i++λkXki0
    这表明数据矩阵 X \boldsymbol X X间的变量近似满足线性相关。不完全多重共线性依然满足 Rank ⁡ ( X ) = k \operatorname{Rank}(\mathbf{X})= \mathrm{k} Rank(X)=k,但需要注意,不存在完全多重共线性不代表不存在完全多重非线性,存在完全多重非线性依然满足经典多元线性回归模型假定。为了弄清多重共线性的原理,先引入解释变量间的关系,共包含三种情况

    • 解释变量间正交

    r x i x j = 0 r_{x_{i} x_{j}}=0 rxixj=0

    • 解释变量间完全共线性

    ∣ r x i x j ∣ = 1 |r_{x_{i} x_{j}}|=1 rxixj=1

    • 解释间不完全共线性

    0 < ∣ r x i x j ∣ < 1 0 < |r_{x_{i} x_{j}}|<1 0<rxixj<1


    1.2 多重共线性产生原因

    • 经济变量之间具有共同变化趋势,例如气温与雪糕销量
    • 模型中含有滞后解释变量 X i , X i − 1 … X i − n X_i,X_{i-1}\dots X_{i-n} Xi,Xi1Xin
    • 截面数据模型也可能出现多重共线性
    • 样本数据问题

    2 多重共线性后果

    2.1 完全型

    • 参数的估计值不确定

    当出现完全多重共线性时,数据矩阵 Rank ⁡ ( X ) < k \operatorname{Rank}(\mathbf{X})<\mathrm{k} Rank(X)<k,从而有 ∣ X ′ X ∣ = 0 \left|X^{\prime} X\right|=0 XX=0,正规方程组的解不唯一,故 ( X ′ X ) − 1 (X^{\prime} X)^{-1} (XX)1不存在,OLS估计量不存在。这里以模型 Y i = β 1 + β 2 X 2 i + β 3 X 3 i + u i Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} Yi=β1+β2X2i+β3X3i+ui为例,将该模型离差化
    y ^ i = β ^ 2 x 2 i + β ^ 3 x 3 i \hat{y}_{i}=\hat{\beta}_{2} x_{2 i}+\hat{\beta}_{3} x_{3 i} y^i=β^2x2i+β^3x3i
    根据多元线性回归OLS估计量公式得到
    β ^ 2 = ( ∑ y i x 2 i ) ( ∑ x 3 i 2 ) − ( ∑ y i x 3 i ) ( ∑ x 2 i x 3 i ) ( ∑ x 2 i 2 ) ( ∑ x 3 i 2 ) − ( ∑ x 2 i x 3 i ) 2 β ^ 3 = ( ∑ y i x 3 i ) ( ∑ x 2 i 2 ) − ( ∑ y i x 2 i ) ( ∑ x 2 i x 3 i ) ( ∑ x 2 i 2 ) ( ∑ x 3 i 2 ) − ( ∑ x 2 i x 3 i ) 2 \begin{array}{l} \hat{\beta}_{2}=\frac{\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \\ \\ \hat{\beta}_{3}=\frac{\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i}^{2}\right)-\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \end{array} β^2=(x2i2)(x3i2)(x2ix3i)2(yix2i)(x3i2)(yix3i)(x2ix3i)β^3=(x2i2)(x3i2)(x2ix3i)2(yix3i)(x2i2)(yix2i)(x2ix3i)
    由于存在完全多重共线性,假定 X 2 i = λ X 3 i X_{2 i}=\lambda X_{3 i} X2i=λX3i,代入上式
    β ^ 2 = ( λ ∑ y i x 3 i ) ( ∑ x 3 i 2 ) − ( ∑ y i x 3 i ) ( λ ∑ x 3 i x 3 i ) ( λ 2 ∑ x 3 i 2 ) ( ∑ x 3 i 2 ) − λ 2 ( ∑ x 3 i x 3 i ) 2 = 0 0 β ^ 3 = ( ∑ y i x 3 i ) ( λ 2 ∑ x 3 i 2 ) − ( λ ∑ y i x 3 i ) ( λ ∑ x 3 i 2 ) ( λ 2 ∑ x 3 i 2 ) ( ∑ x 3 i 2 ) − λ 2 ( ∑ x 3 i 2 ) 2 = 0 0 \begin{array}{l} \hat{\beta}_{2}=\frac{\left(\lambda \sum y_{i} x_{3 i}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum y_{i} x_{3 i}\right)\left(\lambda \sum x_{3 i} x_{3 i}\right)}{\left(\lambda^{2} \sum x_{3 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\lambda^{2}\left(\sum x_{3 i} x_{3 i}\right)^{2}}=\frac{0}{0} \\ \\ \hat{\beta}_{3}=\frac{\left(\sum y_{i} x_{3 i}\right)\left(\lambda^{2} \sum x_{3 i}^{2}\right)-\left(\lambda \sum y_{i} x_{3 i}\right)\left(\lambda \sum x_{3 i}^{2}\right)}{\left(\lambda^{2} \sum x_{3 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\lambda^{2}\left(\sum x_{3 i}^{2}\right)^{2}}=\frac{0}{0} \end{array} β^2=(λ2x3i2)(x3i2)λ2(x3ix3i)2(λyix3i)(x3i2)(yix3i)(λx3ix3i)=00β^3=(λ2x3i2)(x3i2)λ2(x3i2)2(yix3i)(λ2x3i2)(λyix3i)(λx3i2)=00
    此时估计量的分子分母皆为0,即未定式。也就是说,当解释变量间存在完全共线性时,利用OLS得到的估计量是不定的。

    • 参数方差无限大

    Y i = β 1 + β 2 X 2 i + β 3 X 3 i + u i Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} Yi=β1+β2X2i+β3X3i+ui为例,方差协方差公式
    Var ⁡ − Cov ⁡ ( β ^ ) = σ 2 ( X ′ X ) − 1 \operatorname{Var}-\operatorname{Cov}(\hat{\boldsymbol{\beta}})=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} VarCov(β^)=σ2(XX)1
    代入展开提取主对角线元素得
    Var ⁡ ( β ^ 2 ) = ∑ x 3 2 ( ∑ x 2 2 ) ( ∑ x 3 2 ) − ( ∑ x 2 x 3 ) 2 σ 2 Var ⁡ ( β ^ 3 ) = ∑ x 2 2 ( ∑ x 2 2 ) ( ∑ x 3 2 ) − ( ∑ x 2 x 3 ) 2 σ 2 \begin{array}{l} \operatorname{Var}\left(\hat{\beta}_{2}\right)=\frac{\sum x_{3}^{2}}{\left(\sum x_{2}^{2}\right)\left(\sum x_{3}^{2}\right)-\left(\sum x_{2} x_{3}\right)^{2}} \sigma^{2} \\ \\ \operatorname{Var}\left(\hat{\beta}_{3}\right)=\frac{\sum x_{2}^{2}}{\left(\sum x_{2}^{2}\right)\left(\sum x_{3}^{2}\right)-\left(\sum x_{2} x_{3}\right)^{2}} \sigma^{2} \end{array} Var(β^2)=(x22)(x32)(x2x3)2x32σ2Var(β^3)=(x22)(x32)(x2x3)2x22σ2
    X 2 i = λ X 3 i X_{2 i}=\lambda X_{3 i} X2i=λX3i,代入上式
    Var ⁡ ( β ^ 2 ) = ∑ x 3 2 ( λ 2 ∑ x 3 2 ) ( ∑ x 3 2 ) − ( λ ∑ x 3 x 3 ) 2 σ 2 = ∑ x 3 2 0 σ 2 = ∞ Var ⁡ ( β ^ 3 ) = λ 2 ∑ x 3 2 ( λ 2 ∑ x 3 2 ) ( ∑ x 3 2 ) − ( λ ∑ x 3 x 3 ) 2 σ 2 = ∑ x 2 2 0 σ 2 = ∞ \begin{array}{l} \operatorname{Var}\left(\hat{\beta}_{2}\right)=\frac{\sum x_{3}^{2}}{\left(\lambda^{2} \sum x_{3}^{2}\right)\left(\sum x_{3}^{2}\right)-\left(\lambda \sum x_{3} x_{3}\right)^{2}} \sigma^{2}=\frac{\sum x_{3}^{2}}{0} \sigma^{2}=\infty \\ \\ \operatorname{Var}\left(\hat{\beta}_{3}\right)=\frac{\lambda^{2} \sum x_{3}^{2}}{\left(\lambda^{2} \sum x_{3}^{2}\right)\left(\sum x_{3}^{2}\right)-\left(\lambda \sum x_{3} x_{3}\right)^{2}} \sigma^{2}=\frac{\sum x_{2}^{2}}{0} \sigma^{2}=\infty \end{array} Var(β^2)=(λ2x32)(x32)(λx3x3)2x32σ2=0x32σ2=Var(β^3)=(λ2x32)(x32)(λx3x3)2λ2x32σ2=0x22σ2=
    这表明,在解释变量之间存在完全的共线性时,参数估计量的方差将变成无穷大。


    2.2 不完全型

    当解释变量间为不完全多重共线性时, ∣ X ′ X ∣ \left|X^{\prime} X\right| XX接近0,但参数的估计量依然存在。

    • 估计量方差增大

    给定模型 Y i = β 1 + β 2 X 2 i + β 3 X 3 i + u i Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} Yi=β1+β2X2i+β3X3i+ui,假定解释变量 X 2 X_2 X2, X 3 X_3 X3的离差形式满足
    x 2 i = λ x 3 i + v i x_{2 i}=\lambda x_{3 i}+v_{i} x2i=λx3i+vi
    其中 λ ≠ 0 \lambda\ne 0 λ=0, v i v_i vi是满足严格外生性的随机变量,即 ∑ x 2 i v i = 0 \sum x_{2 i} v_{i}=0 x2ivi=0。将离差形式代入OLS估计量中并展开
    β ^ 3 = ( ∑ y i x 3 i ) ( λ 2 ∑ x 3 i 2 + ∑ v i 2 ) − ( λ ∑ y i x 3 i + ∑ y i v i ) ( λ ∑ x 3 i 2 ) ( λ 2 ∑ x 3 i 2 + ∑ v i 2 ) ( ∑ x 3 i 2 ) − λ 2 ( ∑ x 3 i 2 ) 2 \hat{\beta}_{3}=\frac{\left(\sum y_{i} x_{3 i}\right)\left(\lambda^{2} \sum x_{3 i}^{2}+\sum v_{i}^{2}\right)-\left(\lambda \sum y_{i} x_{3 i}+\sum y_{i} v_{i}\right)\left(\lambda \sum x_{3 i}^{2}\right)}{\left(\lambda^{2} \sum x_{3 i}^{2}+\sum v_{i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\lambda^{2}\left(\sum x_{3 i}^{2}\right)^{2}} β^3=(λ2x3i2+vi2)(x3i2)λ2(x3i2)2(yix3i)(λ2x3i2+vi2)(λyix3i+yivi)(λx3i2)
    可见估计量 β ^ 3 \hat{\beta}_3 β^3还是可以估计的。但当 v i → 0 v_i\to 0 vi0,此时估计量分子分母趋向0,不确定性增加。 β ^ 2 \hat{\beta}_2 β^2情况类似。当 X 2 X_2 X2, X 3 X_3 X3为不完全共线性时,其相关系数平方和的离差形式可表示为
    r 23 2 = ( ∑ x 2 x 3 ) 2 ∑ x 2 2 ∑ x 3 2 r_{23}^{2}=\frac{\left(\sum x_{2} x_{3}\right)^{2}}{\sum x_{2}^{2} \sum x_{3}^{2}} r232=x22x32(x2x3)2
    将上式代入方差协方差计算公式得到
    Var ⁡ ( β ^ 2 ) = ∑ x 3 2 ( ∑ x 2 2 ) ( ∑ x 3 2 ) − ( ∑ x 2 x 3 ) 2 σ 2 = σ 2 1 ∑ x 2 2 [ 1 − ( ∑ x 2 x 3 ) 2 ∑ x 2 2 ∑ x 3 2 ] = σ 2 ∑ x 2 i 2 ( 1 − r 23 2 ) \begin{aligned} \operatorname{Var}\left(\hat{\beta}_{2}\right) &=\frac{\sum x_{3}^{2}}{\left(\sum x_{2}^{2}\right)\left(\sum x_{3}^{2}\right)-\left(\sum x_{2} x_{3}\right)^{2}} \sigma^{2} \\ &=\sigma^{2} \frac{1}{\sum x_{2}^{2}\left[1-\frac{\left(\sum x_{2} x_{3}\right)^{2}}{\sum x_{2}^{2} \sum x_{3}^{2}}\right]} \\ &=\frac{\sigma^{2}}{\sum x_{2 i}^{2}\left(1-r_{23}^{2}\right)} \end{aligned} Var(β^2)=(x22)(x32)(x2x3)2x32σ2=σ2x22[1x22x32(x2x3)2]1=x2i2(1r232)σ2
    同理
    var ⁡ ( β ^ 3 ) = σ 2 ∑ x 3 i 2 ( 1 − r 23 2 ) \operatorname{var}\left(\hat{\beta}_{3}\right)=\frac{\sigma^{2}}{\sum x_{3 i}^{2}\left(1-r_{23}^{2}\right)} var(β^3)=x3i2(1r232)σ2

    cov ⁡ ( β ^ 2 , β ^ 3 ) = − r 23 σ 2 ( 1 − r 23 2 ) ∑ x 2 i 2 ∑ x 3 i 2 \operatorname{cov}\left(\hat{\beta}_{2}, \hat{\beta}_{3}\right)=\frac{-r_{23} \sigma^{2}}{\left(1-r_{23}^{2}\right) \sqrt{\sum x_{2 i}^{2} \sum x_{3 i}^{2}}} cov(β^2,β^3)=(1r232)x2i2x3i2 r23σ2

    由上三式可看出,随着共线性增加,方差、协方差绝对值都增大。方差协方差都取决于方差膨胀因子VIF,定义VIF
    V I F = 1 ( 1 − r 23 2 ) V I F=\frac{1}{\left(1-r_{23}^{2}\right)} VIF=(1r232)1
    VIF表明,参数估计量的方差是由于多重共线性的出现而膨胀起来的。随着共线性的增加,参数估计量的方差也增大。将方差协方差用VIF表示,即
    var ⁡ ( β ^ 2 ) = σ 2 ∑ x 2 i 2 ⋅ V I F \operatorname{var}\left(\hat{\beta}_{2}\right)=\frac{\sigma^{2}}{\sum x_{2 i}^{2}} \cdot V I F var(β^2)=x2i2σ2VIF

    var ⁡ ( β ^ 3 ) = σ 2 ∑ x 3 i 2 ⋅ V I F \operatorname{var}\left(\hat{\beta}_{3}\right)=\frac{\sigma^{2}}{\sum x_{3 i}^{2}} \cdot V I F var(β^3)=x3i2σ2VIF

    这表明了 β ^ 2 , β ^ 3 \hat{\beta}_{2},\hat{\beta}_{3} β^2,β^3的方差同VIF成正比关系。

    • 对参数区间估计时,置信区间趋于变大

    存在多重共线性时,参数估计值的方差增大,其标准误差也增大,导致总体参数的置信区间也随之变大。考虑参数估计量 β ^ 2 \hat{\beta}_{2} β^2,其置信区间为
    β ^ 2 ± t α / 2 ( n − k − 1 ) V I F σ 2 / ∑ x 3 i 2 \hat{\beta}_{2} \pm t_{\alpha/2}(n-k-1)\sqrt{VIF} \sqrt{\sigma^{2} / \sum x_{3 i}^{2}} β^2±tα/2(nk1)VIF σ2/x3i2
    随着共线性增加, β ^ 2 \hat{\beta}_{2} β^2的置信区间的边界扩大,但这与我们希望置信区间越小越好相违背。

    • 严重多重共线时,假设检验容易作出错误的判断

    首先是参数的置信区间扩大,会使得接受一个本应拒绝的假设的概率增大;其次,统计量 t = β ^ 3 / Var ⁡ ( β ^ 3 ) t=\hat{\beta}_{3} / \sqrt{\operatorname{Var}\left(\hat{\beta}_{3}\right)} t=β^3/Var(β^3) 变小,在高度共线性时,参数估计值的方差增加较快,会使得t值变小,而使
    本应否定的“系数为0”的原假设被错误的接受。

    • 严重多重共线可能造成可决系数 R 2 R^2 R2提高, F F F值过高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论

    3 多重共线性检验

    3.1 简单相关系数检验

    简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。但要注意,较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。


    3.2 方差膨胀因子法

    分别以每个解释变量为被解释变量,作与其他解释变量的回归,这称为辅助回归。以为 X j X_j Xj被解释变量作对其他解释变量辅助线性回归的可决系数用 R j 2 R_j^2 Rj2表示。经证明,解释变量 X j X_j Xj参数估计值 β ^ j \hat{\beta}_j β^j的方差可表示为
    Var ⁡ ( β ^ j ) = σ 2 ∑ x j 2 ⋅ 1 1 − R j 2 = σ 2 ∑ x j 2 ⋅ V I F j \operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{\sum x_{j}^{2}} \cdot \frac{1}{1-R_{j}^{2}}=\frac{\sigma^{2}}{\sum x_{j}^{2}} \cdot V I F_{j} Var(β^j)=xj2σ21Rj21=xj2σ2VIFj
    其中 V I F j VIF_j VIFj是变量 X j X_j Xj的方差扩大因子,即
    V I F j = 1 ( 1 − R j 2 ) V I F_{j}=\frac{1}{\left(1-R_{j}^{2}\right)} VIFj=(1Rj2)1
    经验表明, V I F j ≥ 10 VIF_j\ge 10 VIFj10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。


    3.3 经验法

    • 当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化,回归方程可能存在严重的多重共线性
    • 一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性。
    • 有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存在多重共线性。
    • 解释变量的相关矩阵中,自变量之间的相关系数较大时,可能会存在多重共线性问题。

    3.4 逐步回归检测

    逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后,都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,以保证最后所得到的解释变量集是最优的。如果变量个数较少,可以手动实现;但变量较多,需要通过算法实现。


    3.5 特征值与病态指数

    • 特征根分析

    根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积,因而当行列式 ∣ X ′ X ∣ ≈ 0 \left|X^{\prime} X\right|\approx0 XX0,,矩阵 X ′ X X^{\prime} X XX至少有一个特征根近似于零;反之,当矩阵 X ′ X X^{\prime} X XX至少有一个特征根近似为零时,X的列向量之间必存在多重共线性。特征根近似为零的标准可以用下面的病态指数来确定,记 X ′ X X^{\prime} X XX最大的特征根为 λ m \lambda_m λm,称
    C I i = λ m λ i , i = 0 , 1 , 2 , ⋯   , k C I_{i}=\sqrt{\frac{\lambda_{m}}{\lambda_{i}}}, \quad \mathrm{i}=0,1,2, \cdots, \mathrm{k} CIi=λiλm ,i=0,1,2,,k
    为特征根的病态指数。特征根个数与病态指数都包含了常数项在内。病态指数度量了矩阵 X ′ X X^{\prime} X XX的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。

    • 0 < C I < 10 0<CI<10 0CI10时,设计矩阵没有多重共线性;
    • 10 ≤ C I < 100 10≤CI<100 10CI100时,认为X存在较强的多重共线性;
    • C I ≥ 100 CI≥100 CI100时,则认为存在严重多重共线性。

    4 多重共线性补救

    4.1 经验法

    • 剔除变量法。当回归方程中存在严重的多重共线性,可以删除引起多重共线性的不重要的解释变量。但删除变量可能引发遗漏变量问题,甚至严重的内生性问题,需要谨慎考虑。
    • 增大样本容量。如果样本容量增加,则 ∑ x i 2 \sum x_i^2 xi2 也会增加,结果会减小回归参数的方差,标准误差也同样会减小。因此尽可能地收集足够多的数据可以改进模型参数的估计.
    • 变换模型形式。例如,可采用差分法,这是指将原模型变形为差分模型形式进而减低多重共线性的一个方法。将元模型

    Y i = β 0 + β 1 X 1 i + β 2 X 2 i + β 3 X 3 i + ⋯ + β k X k i + u i Y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}+u_{i} Yi=β0+β1X1i+β2X2i+β3X3i++βkXki+ui

    作差分
    Δ Y i = β 1 Δ X 1 i + β 2 Δ X 2 i + ⋯ + β k Δ X k i + Δ u i \Delta Y_{i}=\beta_{1} \Delta X_{1 i}+\beta_{2} \Delta X_{2 i}+\cdots+\beta_{k} \Delta X_{k i}+\Delta u_{i} ΔYi=β1ΔX1i+β2ΔX2i++βkΔXki+Δui
    因为差分常常会丢失一些信息,差分模型的误差项可能是序列相关的,可能会违背经典线性回归模型的相关假设,在具体运用时要慎重。

    • 变量变换。计算相对指标、将名义数据转换为实际数据、将小类指标合并成大类指标等

    4.2 逐步回归法

    具体步骤如下:

    • 用被解释变量对每一个所考虑的解释变量做简单回归。、

    • 以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。这个过程会出现3种情形。

      • 若新变量的引入改进了 R 2 R^2 R2和F检验,且回归参数的 t t t检验在统计上也是显著的,则在模型中保留该变量。
      • 若新变量的引入未能明显改进 R 2 R^2 R2和F检验,且对其他回归参数估计值的 t t t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。
      • 若新变量的引入未能明显改进 R 2 R^2 R2和F检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过 t t t检验,则说明出现了严重的多重共线性,应剔除该变量。

    4.3 岭回归法

    计量经济学家们还致力于改进古典的最小二乘法,提出以采用有偏的估计为代价来提高估计量的稳定性的方法,如岭回归法、主成分法、偏最小二乘法等。

    4.31岭回归含义

    思想:岭回归(Ridge Regression)是A.E.Hoerl(霍尔)提出的一种改进最小二乘估计的方法,也叫岭估计(Ridge Estimate)。当解释变量之间存在多重共线性时 ∣ X ′ X ∣ ≈ 0 |X^{\prime}X |\approx 0 XX0,则方差协方差矩阵 E [ ( β − β ) ( β ^ − β ) ′ ] = σ 2 ( X ′ X ) − 1 E\left[(\boldsymbol{\beta}-\boldsymbol{\beta})(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta})^{\prime}\right]=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} E[(ββ)(β^β)]=σ2(XX)1的元素变大。如果将 X ′ X X^{\prime}X XX加上一个对角矩阵 k I k\boldsymbol I kI(k>0, I \boldsymbol I I为单位矩阵),即 X ′ X + k I \mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I} XX+kI,使得 ∣ X ′ X + k I ∣ ≈ 0 \left|\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right| \approx 0 XX+kI0的可能性比 ∣ X ′ X ∣ ≈ 0 |X^{\prime}X |\approx 0 XX0小得多,那么通过这样改进的估计量称为岭估计量
    β ~ ( k ) = ( X ′ X + k I ) − 1 X ′ Y \widetilde{\boldsymbol{\beta}}(k)=\left(\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} β (k)=(XX+kI)1XY
    β ~ ( k ) \widetilde{\boldsymbol{\beta}}(k) β (k) β \beta β的岭估计量, k k k为岭估计参数。

    • 当解释变量之间存在多重共线性时,以作为 β \beta β的估计 β ~ ( k ) \widetilde{\boldsymbol{\beta}}(k) β (k)应比普通最小二乘估计稳定
    • k k k较小时,回归系数很不稳定,而当 k k k逐渐增大时,回归系数可能呈现稳定状态
    • k = 0 k =0 k=0时,岭回归估计 β ~ ( k ) = β ^ \widetilde{\boldsymbol{\beta}}(k)=\hat{\boldsymbol{\beta}} β (k)=β^,实际就是普通最小二乘估计

    4.32 岭回归估计量的性质

    • 有偏性。因为

    E ( β ~ ( k ) ) = E ( X ′ X + k I ) − 1 X ′ Y = ( X ′ X + k I ) − 1 X ′ E ( Y ) = ( X ′ X + k I ) − 1 X ′ X β \begin{aligned} E(\tilde{\boldsymbol{\beta}}(k)) &=E\left(\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} \\ &=\left(\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right)^{-1} \mathbf{X}^{\prime} E(\mathbf{Y}) \\ &=\left(\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right)^{-1} \mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta} \end{aligned} E(β~(k))=E(XX+kI)1XY=(XX+kI)1XE(Y)=(XX+kI)1XXβ

    • 线性性。因为

    E ( β ~ ( k ) ) = E ( X ′ X + k I ) − 1 X ′ Y = w Y \begin{aligned} E(\tilde{\boldsymbol{\beta}}(k)) &=E\left(\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} \\ &=w \mathbf{Y} \\ \end{aligned} E(β~(k))=E(XX+kI)1XY=wY

    其中 w = ( X ′ X + k I ) − 1 X ′ w =\left(\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right)^{-1} \mathbf{X}^{\prime} w=(XX+kI)1X

    • V a r ( β ~ ( k ) ) ≤ V a r ( β ^ ) Var(\widetilde{\boldsymbol{\beta}}(k))\le Var(\hat{\beta}) Var(β (k))Var(β^)

    岭回归估计的方差和偏倚与岭回归参数 k k k有关,岭回归参数 k k k的值越大, β ~ ( k ) \widetilde{\boldsymbol{\beta}}(k) β (k)的偏倚越大,其方差就越小。要得到方差较小的估计结果,又不得不牺牲无偏性。为此可以用兼顾方差和偏倚的最小均方误差MSE原则


    4.33 岭回归参数 k k k的选择

    原则上是要选择使均方误差 MSE ⁡ [ β ^ ( k ) ] \operatorname{MSE}[\hat{\beta}(k)] MSE[β^(k)]达到最小的 k k k,而最优值 k k k依赖于未知参数 β \boldsymbol \beta β σ 2 \sigma^2 σ2,因而在实际应用中必须通过样本来确定。目前还没有形成公认的选择岭回归参数的最优方法,常用的方法主要有岭迹法、方差扩大因子法、残差平方和方法。


    -END-

    参考文献

    庞皓. 计量经济学[M].科学出版社

    更多内容,关注公众号“那由他的学习笔记”

    展开全文
    weixin_46649908 2021-06-14 19:52:24
  • qq_41228218 2019-07-22 14:45:42
  • 2KB qq_34834429 2016-04-29 15:48:16
  • Netceor 2020-01-16 16:05:51
  • weixin_44070747 2019-07-31 09:38:10
  • 5星
    28.88MB xia0sheng 2012-11-04 19:25:45
  • TOMOCAT 2018-07-23 20:19:43
  • weixin_31774171 2021-04-19 04:38:36
  • weixin_39916681 2020-11-21 22:05:25
  • weixin_42408467 2019-12-12 18:33:26
  • weixin_46704989 2021-11-14 17:13:35
  • 44KB qq_41521272 2018-12-29 23:49:05
  • weixin_39655085 2020-11-22 22:24:40
  • weixin_29474431 2021-04-21 10:26:49
  • weixin_39614675 2020-11-20 22:33:45
  • weixin_45449414 2020-10-29 20:22:29
  • 3KB weixin_38678255 2021-06-01 20:09:14