-
2020-11-04 08:56:01
十一、回归方程与回归系数的显著性检验
回归方程的显著性检验,检验的是我们建立线性回归方程的合理性,因为我们不能肯定模型是正确的,也就是说我们需要检验 Y Y Y与 x 1 , ⋯ , x m x_1,\cdots,x_m x1,⋯,xm之间是否存在着线性关系,或者只跟其中的一部分变量存在线性关系。事实上,如果 Y Y Y与 x 1 , ⋯ , x m x_1,\cdots,x_m x1,⋯,xm之间均无线性相关关系,则 β i \beta_i βi应均为0,所以我们要检验的假设是
H 0 : β 1 = β 2 = ⋯ = β m = 0. H_0:\beta_1=\beta_2=\cdots =\beta_m=0. H0:β1=β2=⋯=βm=0.1.平方和分解
为了检验这个假设,我们需要找到一个检验统计量,平方和分解公式就提供了一种求检验统计量的方式。平方和分解公式指的是
∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 , \sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n(y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2, i=1∑n(yi−yˉ)2=i=1∑n(yi−y^i)2+i=1∑n(y^i−yˉ)2,
这里 y ˉ = 1 n ∑ i = 1 n y i \bar y=\frac 1n\sum_{i=1}^n y_i yˉ=n1∑i=1nyi, y ^ i = β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ m x i m \hat y_i=\hat \beta_0+\hat\beta_1x_{i1}+\cdots+\hat\beta_mx_{im} y^i=β^0+β^1xi1+⋯+β^mxim, β ^ \hat\beta β^是 β \beta β的最小二乘估计即 β ^ = ( C ′ C ) − 1 C ′ Y \hat\beta=(C'C)^{-1}C'Y β^=(C′C)−1C′Y。先进行普通的分解,即
∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n [ ( y i − y ^ i ) + ( y ^ i − y ˉ ) ] 2 = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n ( y i − y ^ i ) ( y ^ i − y ˉ ) = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n e i ( y ^ i − y ˉ ) . \begin{aligned} \sum_{i=1}^n(y_i-\bar y)^2=&\sum_{i=1}^n[(y_i-\hat y_i)+(\hat y_i-\bar y)]^2 \\ =&\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2+2\sum_{i=1}^n (y_i-\hat y_i)(\hat y_i-\bar y)\\ =&\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2+2\sum_{i=1}^ne_i(\hat y_i-\bar y). \end{aligned} i=1∑n(yi−yˉ)2===i=1∑n[(yi−y^i)+(y^i−yˉ)]2i=1∑n(yi−y^i)2+i=1∑n(y^i−yˉ)2+2i=1∑n(yi−y^i)(y^i−yˉ)i=1∑n(yi−y^i)2+i=1∑n(y^i−yˉ)2+2i=1∑nei(y^i−yˉ).
接下来只需要证明交叉项为0,有
∑ i = 1 n e i ( y ^ i − y ˉ ) = ∑ i = 1 n e i ( β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ m x i m − y ˉ ) = ( β ^ 0 − y ˉ ) ∑ i = 1 n e i + β ^ 1 ∑ i = 1 n e i x i 1 + ⋯ + β ^ m ∑ i = 1 n e i x i m \begin{aligned} &\sum_{i=1}^ne_i(\hat y_i-\bar y) \\ =&\sum_{i=1}^ne_i(\hat\beta_0+\hat\beta_1x_{i1}+\cdots+\hat\beta_mx_{im}-\bar y)\\ =&(\hat\beta_0-\bar y)\sum_{i=1}^n e_i+\hat\beta_1\sum_{i=1}^ne_ix_{i1}+\cdots+\hat\beta_m\sum_{i=1}^n e_ix_{im} \end{aligned} ==i=1∑nei(y^i−yˉ)i=1∑nei(β^0+β^1xi1+⋯+β^mxim−yˉ)(β^0−yˉ)i=1∑nei+β^1i=1∑neixi1+⋯+β^mi=1∑neixim
接下来回到最小二乘法的原理上,由于我们在前面的推导中,得到了 C ′ C β ^ = C ′ Y C'C\hat\beta=C'Y C′Cβ^=C′Y的结果,观察其第 t + 1 t+1 t+1行,有
∑ j = 0 m β ^ j ∑ i = 1 n x i t x i j = ∑ i = 1 n x i t y i ∑ j = 0 m ∑ i = 1 n β ^ j x i t x i j = ∑ i = 1 n x i t ( ∑ j = 0 m β ^ j x i j + e i ) = ∑ i = 1 n ∑ j = 0 m β ^ j x i t x i j + ∑ i = 1 n e i x i t \sum_{j=0}^m\hat\beta_j\sum_{i=1}^nx_{it}x_{ij}=\sum_{i=1}^n x_{it}y_i\\ \sum_{j=0}^m\sum_{i=1}^n \hat\beta_jx_{it}x_{ij}=\sum_{i=1}^nx_{it}(\sum_{j=0}^m\hat\beta_jx_{ij}+e_i)=\sum_{i=1}^n\sum_{j=0}^m\hat\beta_jx_{it}x_{ij}+\sum_{i=1}^ne_ix_{it} j=0∑mβ^ji=1∑nxitxij=i=1∑nxityij=0∑mi=1∑nβ^jxitxij=i=1∑nxit(j=0∑mβ^jxij+ei)=i=1∑nj=0∑mβ^jxitxij+i=1∑neixit
也就是
∑ i = 1 n e i x i t = 0. \sum_{i=1}^ne_ix_{it}=0. i=1∑neixit=0.
代入 t = 0 , 1 , ⋯ , m t=0,1,\cdots,m t=0,1,⋯,m就得到了交叉项为0的结果,所以平方和分解公式成立。再观察平方和分解式子,左边的 ∑ i = 1 n ( y i − y ˉ ) 2 \sum_{i=1}^n(y_i-\bar y)^2 ∑i=1n(yi−yˉ)2是样本观测值对样本均值的波动大小,记作总偏差平方和 T S S {\rm TSS} TSS或 l y y l_{yy} lyy;右边的第一项 ∑ i = 1 n ( y i − y ^ i ) 2 \sum_{i=1}^n(y_i-\hat y_i)^2 ∑i=1n(yi−y^i)2是残差平方和 R S S {\rm RSS} RSS或 Q Q Q,第二项 ∑ i = 1 n ( y ^ i − y ˉ ) 2 \sum_{i=1}^n(\hat y_i-\bar y)^2 ∑i=1n(y^i−yˉ)2是由回归曲线决定的,称为回归平方和 E S S , M S S {\rm ESS,MSS} ESS,MSS或 U U U。这样,式子又可以写成
T S S = E S S + R S S , l y y = U + Q . {\rm TSS}={\rm ESS}+{\rm RSS},\\ l_{yy}=U+Q. TSS=ESS+RSS,lyy=U+Q.2.回归方程的假设检验
对于假设检验问题 H 0 : β 1 = β 2 = ⋯ = β m = 0 H_0:\beta_1=\beta_2=\cdots =\beta_m=0 H0:β1=β2=⋯=βm=0,如果回归曲线表现得好,残差平方和应该尽可能小,也就是 R S S , Q {\rm RSS},Q RSS,Q会尽可能小;所以回归曲线表现的好也体现在 E S S {\rm ESS} ESS在 T S S {\rm TSS} TSS中占据较大的比例,相应的 R S S {\rm RSS} RSS占据比例就会比较小,因此我们构造检验统计量为 E S S / R S S {\rm ESS/RSS} ESS/RSS。并且有定理指出,在 H 0 H_0 H0成立时,
Q σ 2 ∼ χ n − m − 1 2 , U σ 2 ∼ χ m 2 , U / m Q / ( n − m − 1 ) = E S S / m R S S / ( n − m − 1 ) ∼ H 0 F ( m , n − m − 1 ) . \frac{Q}{\sigma^2}\sim \chi^2_{n-m-1},\quad\frac{U}{\sigma^2}\sim \chi^2_m,\\ \frac{U/m}{Q/(n-m-1)}=\frac{{\rm ESS}/m}{{\rm RSS}/(n-m-1)}\stackrel {H_0}\sim F(m,n-m-1). σ2Q∼χn−m−12,σ2U∼χm2,Q/(n−m−1)U/m=RSS/(n−m−1)ESS/m∼H0F(m,n−m−1).
如果检验统计量很大,检验的p-value很小,则应该否定 H 0 H_0 H0,就认为回归关系是存在的。3.中心化的等价形式
在计量经济学中,我们常常用小写字母表示中心化后的数据,所以我们现在尝试将数据中心化。将回归模型 Y = C β + ε Y=C\beta +\varepsilon Y=Cβ+ε中心化,得到的新回归模型可以写成如下的等价形式:
y i − y ˉ = β 0 ∗ + β 1 ( x i 1 − x ˉ i ) + ⋯ + β m ( x i m − x ˉ m ) + ε i , ( i = 1 , 2 , ⋯ , n ) ε ∼ N n ( 0 , σ 2 I n ) . y_i-\bar y=\beta_0^*+\beta_1(x_{i1}-\bar x_i)+\cdots+\beta_m(x_{im}-\bar x_m)+\varepsilon_i,\quad (i=1,2,\cdots,n) \\ \varepsilon\sim N_n(0,\sigma^2I_n). yi−yˉ=β0∗+β1(xi1−xˉi)+⋯+βm(xim−xˉm)+εi,(i=1,2,⋯,n)ε∼Nn(0,σ2In).
这里 β 0 ∗ = β 0 − y ˉ + ∑ i = 1 n β i x ˉ i \beta_0^* =\beta_0-\bar y+\sum_{i=1}^n \beta_i\bar x_i β0∗=β0−yˉ+∑i=1nβixˉi,但事实上,中心化式子的好处是我们可以证明 β ^ 0 ∗ = 0 \hat \beta_0^*=0 β^0∗=0。接下来我们在矩阵形式中予以证明,试写出矩阵形式,作以下标记
β ~ = [ β 0 ∗ β 1 ⋮ β m ] = [ β 0 ∗ B ] , Y ~ = [ y 1 − y ˉ y 2 − y ˉ ⋮ y n − y ˉ ] , X ~ = [ x 11 − x ˉ 1 x 12 − x ˉ 2 ⋯ x 1 m − x ˉ m x 21 − x ˉ 1 x 22 − x ˉ 2 ⋯ x 2 m − x ˉ m ⋮ ⋮ ⋮ x n 1 − x ˉ 1 x n 2 − x ˉ 2 ⋯ x n m − x ˉ m ] , C ~ = ( 1 ∣ X ~ ) . \tilde \beta=\begin{bmatrix} \beta_0^* \\ \beta_1 \\ \vdots \\ \beta_m \end{bmatrix}=\begin{bmatrix} \beta_0^* \\ B \end{bmatrix},\quad \tilde Y=\begin{bmatrix} y_1 - \bar y \\ y_2 - \bar y \\ \vdots \\ y_n-\bar y \end{bmatrix}, \\ \tilde X=\begin{bmatrix} x_{11}-\bar x_1 & x_{12}-\bar x_2 & \cdots & x_{1m}-\bar x_m \\ x_{21}-\bar x_1 & x_{22}-\bar x_2 & \cdots & x_{2m}-\bar x_m \\ \vdots & \vdots & & \vdots \\ x_{n1}-\bar x_1 & x_{n2}-\bar x_2 & \cdots & x_{nm}-\bar x_m \end{bmatrix},\tilde C=(\boldsymbol 1|\tilde X). β~=⎣⎢⎢⎢⎡β0∗β1⋮βm⎦⎥⎥⎥⎤=[β0∗B],Y~=⎣⎢⎢⎢⎡y1−yˉy2−yˉ⋮yn−yˉ⎦⎥⎥⎥⎤,X~=⎣⎢⎢⎢⎡x11−xˉ1x21−xˉ1⋮xn1−xˉ1x12−xˉ2x22−xˉ2⋮xn2−xˉ2⋯⋯⋯x1m−xˉmx2m−xˉm⋮xnm−xˉm⎦⎥⎥⎥⎤,C~=(1∣X~).这样就可以把模型写成 Y ~ = C ~ β ~ + ε , ε ∼ N n ( 0 , σ 2 I n ) \tilde Y=\tilde C\tilde \beta +\varepsilon,\varepsilon\sim N_n(0,\sigma^2I_n) Y~=C~β~+ε,ε∼Nn(0,σ2In),类似地得到 C ~ ′ C ~ β ~ = C ~ ′ Y ~ \tilde C'\tilde C\tilde \beta=\tilde C'\tilde Y C~′C~β~=C~′Y~,而
C ~ ′ C ~ = ( 1 ∣ X ~ ) ′ ( 1 ∣ X ~ ) = [ 1 n ′ 1 n 1 n ′ X ~ X ~ ′ 1 n X ~ ′ X ~ ] = d [ n O 1 × m O m × 1 L ] , {\tilde C}'\tilde C=(\boldsymbol 1|\tilde X)'(\boldsymbol 1|\tilde X)= \begin{bmatrix} \boldsymbol 1_n'\boldsymbol 1_n & \boldsymbol 1_n'\tilde X \\ \tilde X'\boldsymbol 1_n & \tilde X'\tilde X \end{bmatrix}\stackrel{\rm d}=\begin{bmatrix} n & O_{1\times m} \\ O_{m\times 1} & L \end{bmatrix}, C~′C~=(1∣X~)′(1∣X~)=[1n′1nX~′1n1n′X~X~′X~]=d[nOm×1O1×mL],
这里 L = X ~ ′ X ~ = ( l i j ) m × m , l i j = ∑ t = 1 n ( x t i − x ˉ i ) ( x t j − x ˉ j ) L=\tilde X'\tilde X=(l_{ij})_{m\times m},l_{ij}=\sum_{t=1}^n(x_{ti}-\bar x_i)(x_{tj}-\bar x_j) L=X~′X~=(lij)m×m,lij=∑t=1n(xti−xˉi)(xtj−xˉj),而
C ~ ′ Y ~ = ( 1 n ∣ X ~ ) ′ Y ~ = [ 1 n ′ Y ~ X ~ ′ Y ~ ] = d [ 0 l ] , \tilde C'\tilde Y=(\boldsymbol 1_n |\tilde X)'\tilde Y= \begin{bmatrix} \boldsymbol 1_n'\tilde Y \\ \tilde X'\tilde Y \end{bmatrix}\stackrel {\rm d}= \begin{bmatrix} 0 \\ l \end{bmatrix}, C~′Y~=(1n∣X~)′Y~=[1n′Y~X~′Y~]=d[0l],
这里 l = ( l 1 y , ⋯ , l m y ) ′ , l i y = ∑ t = 1 n ( x t i − x ˉ i ) ( y t − y ˉ ) l=(l_{1y},\cdots,l_{my})',l_{iy}=\sum_{t=1}^n(x_{ti}-\bar x_i)(y_t-\bar y) l=(l1y,⋯,lmy)′,liy=∑t=1n(xti−xˉi)(yt−yˉ),这样正规方程就可以写成
[ n O O L ] [ β ^ 0 ∗ B ] = [ 0 l ] ⇒ β ^ 0 ∗ = β ^ 0 − y ˉ + ∑ i = 1 n β ^ i x ˉ i = 0. \begin{bmatrix} n & O \\ O & L \end{bmatrix}\begin{bmatrix} \hat \beta_0^* \\ B \end{bmatrix}=\begin{bmatrix} 0 \\ l \end{bmatrix}\Rightarrow \hat \beta_0^*=\hat\beta_0-\bar y+\sum_{i=1}^n\hat\beta_i\bar x_i=0. [nOOL][β^0∗B]=[0l]⇒β^0∗=β^0−yˉ+i=1∑nβ^ixˉi=0.
这也解释了为什么回归直线总会经过样本中心点,同时还可以得到正规方程的等价形式 L B = l LB=l LB=l,即
X ~ ′ X ~ B = X ~ ′ Y ~ ⇒ B ^ = ( X ~ ′ X ~ ) − 1 X ~ ′ Y ~ = L − 1 l , B ^ ∼ N m ( B , σ 2 L − 1 ) . \tilde X'\tilde XB=\tilde X'\tilde Y\Rightarrow \hat B=(\tilde X'\tilde X)^{-1}\tilde X'\tilde Y=L^{-1}l,\hat B\sim N_m(B,\sigma^2L^{-1}). X~′X~B=X~′Y~⇒B^=(X~′X~)−1X~′Y~=L−1l,B^∼Nm(B,σ2L−1).
在给定 X X X时预测 Y ^ \hat Y Y^应采用如此形式: Y ^ − y ˉ 1 n = X ~ B ^ \hat Y-\bar y\boldsymbol 1_n=\tilde X\hat B Y^−yˉ1n=X~B^。并且,在此形式下回归平方和很容易表示。因为 Y ^ − y ˉ 1 n = X ~ B ^ \hat Y-\bar y\boldsymbol 1_n=\tilde X\hat B Y^−yˉ1n=X~B^,所以
U = ∑ i = 1 n ( y ^ i − y ˉ ) 2 = ( Y ^ − y ˉ 1 n ) ′ ( Y ^ − y ˉ 1 n ) = B ^ ′ X ~ ′ X ~ B ^ = B ^ ′ L B ^ = B ^ ′ l . Q = l y y − U . U=\sum_{i=1}^n(\hat y_i-\bar y)^2=(\hat Y-\bar y\boldsymbol 1_n)'(\hat Y-\bar y\boldsymbol 1_n)=\hat B'\tilde X'\tilde X\hat B=\hat B'L\hat B=\hat B'l. \\ Q = l_{yy}-U. U=i=1∑n(y^i−yˉ)2=(Y^−yˉ1n)′(Y^−yˉ1n)=B^′X~′X~B^=B^′LB^=B^′l.Q=lyy−U.4.回归系数的假设检验
回归关系存在并不意味着每一个自变量对于随机变量 y y y的影响都是显著的,有的自变量可能跟 y y y毫不相关,把它纳入回归的范围就可能导致过拟合、模型不适用于预测新数据的问题。如果 x i x_i xi对 y y y没有影响,则在回归方程中应该有 β i = 0 \beta_i=0 βi=0,所以我们还需要对每个偏回归系数进行逐个检验,即检验如下的假设: H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0。
为了构造检验此假设的检验统计量,定义 x i x_i xi的偏回归平方和如下:
偏回归平方和:设 U U U是 x 1 , ⋯ , x m x_1,\cdots,x_m x1,⋯,xm对 Y Y Y的回归平方和, U ( i ) U(i) U(i)为去掉 x i x_i xi后,剩下 m − 1 m-1 m−1个自变量对 Y Y Y的平方和,则称变量 x i x_i xi的回归平方和是 P i = U − U ( i ) = Q ( i ) − Q P_i=U-U(i)=Q(i)-Q Pi=U−U(i)=Q(i)−Q。
其计算公式为 P i = β ^ i 2 / l i i P_i=\hat \beta_i^2/l^{ii} Pi=β^i2/lii,这里 l i i l^{ii} lii是 L − 1 = ( X ~ ′ X ~ ) − 1 L^{-1}=(\tilde X'\tilde X)^{-1} L−1=(X~′X~)−1的第 i i i个对角元素,同时可以证明
t i = P i Q / ( n − m − 1 ) ∼ H 0 t ( n − m − 1 ) , F i = P i Q / ( n − m − 1 ) ∼ H 0 F ( 1 , n − m − 1 ) . t_i=\frac{\sqrt{P_i}}{\sqrt{Q/(n-m-1)}}\stackrel {H_0}\sim t(n-m-1), \\ F_i=\frac{P_i}{Q/(n-m-1)}\stackrel {H_0}\sim F(1,n-m-1). ti=Q/(n−m−1)Pi∼H0t(n−m−1),Fi=Q/(n−m−1)Pi∼H0F(1,n−m−1).
当偏回归平方和 P i P_i Pi过大时, t i t_i ti也会很大,p-value很小,就越应该否定原假设 H 0 H_0 H0,认为 β i ≠ 0 \beta_i\ne 0 βi=0。直观上理解,如果偏回归平方和很大,就说明变量 x i x_i xi的删除与否对于回归平方和的影响很大,等价于对残差平方和的影响也很大,这就说明 x i x_i xi是显著的;反之,如果偏回归平方和很小,就可以认为 x i x_i xi在回归模型中无足轻重,不影响回归模型。在实际应用中,要建立最优的回归方程,就是要选择合适的预报变量来决定回归方程,这指的是包含所有在显著性水平 α \alpha α下,对 Y Y Y作用显著的变量。当建立回归模型后,对所有回归系数进行假设检验,如果所有回归系数的p-value都小于 α \alpha α,就认为方程是最优的;否则,就应该剔除显著性最小的那一个(注意只能剔除一个,一般是p-value最大的),重新建立回归模型,并重复以上步骤。
5.回归方程的预报精度
最后,简要地介绍一下回归方程预报精度的问题。我们已经知道,通过样本 C C C,回归系数的最小方差线性无偏估计是 β ^ = ( C ′ C ) − 1 C ′ Y \hat \beta=(C'C)^{-1}C'Y β^=(C′C)−1C′Y,给定一组 x 0 = ( 1 , x 01 , ⋯ , x 0 m ′ ) x_0=(1,x_{01},\cdots,x_{0m}') x0=(1,x01,⋯,x0m′)后, y 0 y_0 y0的最佳点估计是
y ^ 0 = x 0 ′ β ^ . \hat y_0=x_0'\hat\beta. y^0=x0′β^.
但是这个点估计的精度如何,有赖于 y 0 − y ^ 0 y_0-\hat y_0 y0−y^0的分布。显然有如下的结论:
y ^ 0 ∼ N ( x 0 ′ β , σ 2 x 0 ′ ( C ′ C ) − 1 x 0 ) , y 0 − y ^ 0 ∼ N ( 0 , σ 2 [ 1 + x 0 ′ ( C ′ C ) − 1 x 0 ] ) . \hat y_0\sim N(x_0'\beta,\sigma^2x_0'(C'C)^{-1}x_0), \\ y_0-\hat y_0\sim N(0,\sigma^2[1+x_0'(C'C)^{-1}x_0]). y^0∼N(x0′β,σ2x0′(C′C)−1x0),y0−y^0∼N(0,σ2[1+x0′(C′C)−1x0]).
因此,统计量为
t = y 0 − y ^ 0 σ ^ 1 + x 0 ′ ( C ′ C ) − 1 x 0 ∼ t ( n − m − 1 ) , σ ^ 2 = Q n − m − 1 . t=\frac{y_0-\hat y_0}{\hat \sigma\sqrt{1+x_0'(C'C)^{-1}x_0}}\sim t(n-m-1),\quad \hat\sigma^2=\frac{Q}{n-m-1}. t=σ^1+x0′(C′C)−1x0y0−y^0∼t(n−m−1),σ^2=n−m−1Q.
基于此,可以在给定 α \alpha α的情况下得到 y 0 y_0 y0的置信区间。回顾总结
-
为了检验模型的有效度,需要检验假设 H 0 : β 1 = ⋯ = β m = 0 H_0:\beta_1=\cdots =\beta_m=0 H0:β1=⋯=βm=0,检验统计量为
F = U / m Q / ( n − m − 1 ) = E S S / m R S S / ( n − m − 1 ) ∼ H 0 F ( m , n − m − 1 ) . F=\frac{U/m}{Q/(n-m-1)}=\frac{{\rm ESS}/m}{{\rm RSS}/(n-m-1)}\stackrel {H_0}\sim F(m,n-m-1). F=Q/(n−m−1)U/m=RSS/(n−m−1)ESS/m∼H0F(m,n−m−1).
如果 F F F很大,p-value很小,就否定原假设,认为回归模型有效。 -
平方和分解公式: T S S = R S S + E S S , l y y = Q + U {\rm TSS=RSS+ESS},l_{yy}=Q+U TSS=RSS+ESS,lyy=Q+U。在给定预测值后, T S S {\rm TSS} TSS就是定值,不同回归曲线有不同的回归平方和 R S S {\rm RSS} RSS,最小二乘法得出的直线有最大的 R S S {\rm RSS} RSS。拟合优度就是 R 2 = E S S / T S S R^2={\rm ESS/TSS} R2=ESS/TSS,代表回归平方和在总偏差平方和中的占比,越大代表拟合优度越高。
-
将数据中心化,可以得到正规方程的等价形式: X ~ ′ X ~ B = X ~ ′ Y ~ \tilde X'\tilde XB=\tilde X'\tilde Y X~′X~B=X~′Y~,也即 L B = l LB=l LB=l,从而 B = L − 1 l B=L^{-1}l B=L−1l。这里 X ~ , Y ~ \tilde X,\tilde Y X~,Y~都表示中心化后的数据矩阵。中心化的好处是去除了截距项 β ^ 0 ∗ \hat \beta_0^* β^0∗,这也说明
β ^ 0 = y ˉ − ∑ i = 1 m β i x ˉ i . \hat \beta_0=\bar y-\sum_{i=1}^m \beta_i\bar x_i. β^0=yˉ−i=1∑mβixˉi. -
为了检验变量的显著性,需要逐个检验假设 H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0,检验统计量为偏回归平方和的变换,即
t i = P i Q / ( n − m − 1 ) = β ^ i / l i i Q / ( n − m − 1 ) ∼ H 0 t ( n − m − 1 ) , F i = P i Q / ( n − m − 1 ) = β ^ i 2 / l i i Q / ( n − m − 1 ) ∼ H 0 F ( 1 , n − m − 1 ) . t_i=\frac{\sqrt{P_i}}{\sqrt{Q/(n-m-1)}}=\frac{\hat\beta_i/\sqrt {l^{ii}}}{Q/(n-m-1)}\stackrel {H_0}\sim t(n-m-1), \\ F_i=\frac{P_i}{Q/(n-m-1)}=\frac{\hat\beta_i^2/l^{ii}}{Q/(n-m-1)}\stackrel {H_0}\sim F(1,n-m-1). ti=Q/(n−m−1)Pi=Q/(n−m−1)β^i/lii∼H0t(n−m−1),Fi=Q/(n−m−1)Pi=Q/(n−m−1)β^i2/lii∼H0F(1,n−m−1).
这里 l i i l^{ii} lii指的是 L − 1 L^{-1} L−1的第 i i i个对角元素, P i P_i Pi指的是偏回归平方和 U − U ( i ) U-U(i) U−U(i)。如果 t i t_i ti或者 F i F_i Fi很大,p-value很小,就否定原假设,认为 x i x_i xi显著。 -
如果有一些自变量 x i x_i xi的显著性很差,则需要删除,每一步只能删除一个显著性最差、p-value最大的自变量,然后重新建立模型并计算。
-
在获得 β ^ \hat \beta β^后,预报误差服从以下正态分布: y 0 − y ^ 0 ∼ N ( 0 , σ 2 ( 1 + x 0 ′ ( C ′ C ) − 1 x 0 ) ) y_0-\hat y_0\sim N(0,\sigma^2(1+x_0'(C'C)^{-1}x_0)) y0−y^0∼N(0,σ2(1+x0′(C′C)−1x0)),所以构造以下枢轴量:
y 0 − y ^ 0 σ ^ 2 ( 1 + x 0 ′ ( C ′ C ) − 1 x 0 ) ∼ t ( n − m − 1 ) , σ ^ 2 = Q n − m − 1 . \frac{y_0-\hat y_0}{\sqrt{\hat \sigma^2(1+x_0'(C'C)^{-1}x_0)}}\sim t(n-m-1),\quad \hat \sigma^2=\frac{Q}{n-m-1}. σ^2(1+x0′(C′C)−1x0)y0−y^0∼t(n−m−1),σ^2=n−m−1Q.
可以构造 y 0 y_0 y0的置信水平为 α \alpha α的置信区间为 [ y 0 − d , y 0 + d ] [y_0-d,y_0+d] [y0−d,y0+d],这里
d = t α σ ^ 1 + x 0 ′ ( C ′ C ) − 1 x 0 . d=t_\alpha\hat \sigma\sqrt{1+x_0'(C'C)^{-1}x_0}. d=tασ^1+x0′(C′C)−1x0.
更多相关内容 -
-
模拟验证一阶自回归模型中自回归系数,对一元回归模型,如何检验回归系数是否显著?,Python
2021-09-10 20:01:10运用Python的数组和矩阵操作模拟验证一阶自回归模型中,自回归系数OLS估计量的有限样本偏差问题。 -
逻辑斯蒂回归打印回归系数
2021-07-25 10:00:31机器学习之逻辑斯蒂回归;参考书籍李航《统计学习方法》 -
模拟验证一阶自回归模型中自回归系数_自回归系数_一阶自回归
2021-09-10 20:01:10运用Python的数组和矩阵操作模拟验证一阶自回归模型中,自回归系数OLS估计量的有限样本偏差问题。 -
自回归系数.rar_自回归系数
2022-07-14 05:56:54计算了时间序列的自相关函数,并在平面坐标系下画出其图像! 可用于金融或生理时间序列分析。 -
c#一元线性回归系数计算
2016-11-08 15:51:27利用c#语言实现多元统计分析一元线性回归方程系数计算,可执行。 -
线性回归系数的标准误_回归模型中的标准化回归系数是什么,该如何计算得到?...
2020-11-21 22:05:25在前期内容中,我们介绍了如何对数据进行标准化处理,将...那么,提到不同变量的效应大小,大家一定会联想到在多因素回归模型中所得到的回归系数。例如,我们假设自变量分别为身高和体重,根据回归系数很容易就知...在前期内容中,我们介绍了如何对数据进行标准化处理,将原始的连续型变量转化为一个无量纲的标准化数值,消除不同变量之间因性质、量纲、数量级等属性的差异而带来的影响,从而使不同变量的效应大小具有可比性,因此数据的标准化处理在实际的统计分析中也得到了较为广泛的应用。
那么,提到不同变量的效应大小,大家一定会联想到在多因素回归模型中所得到的回归系数。例如,我们假设自变量分别为身高和体重,根据回归系数很容易就知道每增加1cm的身高或每增加1kg的体重,引起的对因变量Y的影响大小,但是两者相比之下,到底谁的作用大谁的作用小呢?
原始的回归系数已经无法回答这样的问题,我们需要借助标准化回归系数来进行判断,今天我们就来向大家介绍一下,在回归模型中这个标准化回归系数到底是个什么鬼?
标准化回归系数
VS
未标准化回归系数
1、未标准化回归系数
通常我们在构建多因素回归模型时,方程中呈现的是未标准化回归系数,它是方程中不同自变量对应的原始的回归系数。它反映了在其他因素不变的情况下,该自变量每变化一个单位对因变量的作用大小。通过未标准化回归系数和常数项构建的方程,便可以对因变量进行预测,并得出结论。
2、标准化回归系数
而对于标准化回归系数,它是在对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,使得不同变量之间具有可比性,因此可以用标准化回归系数来比较不同自变量对因变量的作用大小。
通常我们主要关注的是标准化回归系数的绝对值大小,绝对值越大,可认为它对因变量的影响就越大。
3、两者的区别
未标准化回归系数体现的是自变量变化对因变量的绝对作用大小,而标准化回归系数反映的是不同自变量对因变量的相对作用大小,可以显示出不同自变量对因变量影响的重要性。
如果用标准化回归系数构建方程,得到的结论是有偏差的,因为此时自变量和因变量的数据都发生了转化,成为了标准化数据,因此标准化回归系数不能用于构建回归方程。
标准化回归系数
VS
每变化1个标准差的回归系数
我们在前期文章《回归模型中引入连续变量,还有哪些玩法?》中,介绍到对于连续型变量,在纳入多因素回归模型中时,可以将其转变为每变化1个标准差的形式,具体的操作方法是对原始的自变量进行标准化处理,然后再带入到回归模型中,所得到的回归系数即为该自变量每变化1个标准差对应的回归系数。
那么,我们假设此时有两个自变量,一个自变量的标准差为1,另一个自变量的标准差为100,两者对因变量都具有一定的影响。如果用上述每增加1个标准差对应的回归系数,来判断哪个自变量对因变量的影响更大的话,当同样变化1个标准差时,第一个自变量只需要改变1个单位,而第二个自变量则需要改变100个单位,因此标准差大的自变量改变起来就显得比较困难。此时,我们就需要用标准化回归系数来救场。
每增加1个标准差对应的回归系数,反映的是自变量每变化1个标准差时对因变量原始值变化产生的影响。而标准化回归系数,它反映的是自变量每变化1个标准差时,对因变量变化1个标准差产生的影响。
在计算每增加1个标准差对应的回归系数时,我们只需要对原始自变量进行标准化处理;而如果要计算标准化回归系数,则需要对原始的自变量和因变量同时进行标准化处理,标准化为标准正态分布对应的值后再构建回归模型。
SPSS操作
一、研究实例
某研究人员收集了100名研究对象的最大摄氧量(VO2 max),并记录了他们的年龄、体重、心率等信息,拟探讨年龄、体重、心率对VO2 max的作用大小,同时评价上述哪一个因素对VO2 max的影响作用更大。
二、操作步骤
1、多重线性回归
(操作步骤参考文章《SPSS实例教程:多重线性回归,你用对了么?》)
根据多重线性回归分析的结果,回归方程可写为:
VO2 max = 72.581 – 0.188 * age – 0.184 * weight – 0.059 * heart_rate
其实不难发现,在SPSS的回归结果中,不仅展示了未标准化回归系数(Unstandardized Coefficients),同时也得出了标准化回归系数(Standardized Coefficients)。
注意,未标准化回归系数更大的自变量,其标准化回归系数不一定更大。例如本例中,age的未标准化回归系数绝对值为0.188,大于weight的绝对值0.184,但是weight的标准化回归系数绝对值为0.325,却大于age的标准化回归系数绝对值0.200,说明weight对于VO2 max的影响较age更大。
2、数据标准化处理
(操作步骤参考前期推送文章《你听说过数据标准化处理吗?》)
虽然SPSS在回归结果中可以直接输出标准化回归系数,但为了加深对它的理解,我们可以亲自对数据进行一遍标准化处理,对上述结果进行一下验证。
Analyze → Descriptive Statistics → Descriptives → Save standardized values as variables
通过上述步骤分别生成4个标准化处理后的新变量。
3、标准化回归系数
在进行多重线性回归时,以VO2 max的标准化形式作为因变量,以age、 weight、 heart_rate的标准化形式作为自变量构建模型。结果发现,所得的结果与上述结果一致。
相互转换关系
今天我们介绍了未标准化回归系数、每变化1个标准差的回归系数、以及标准化回归系数,最后再跟大家补充一下三者之间的相互转换关系。
每变化1个标准差的回归系数= 未标准化回归系数 * 该自变量的标准差
标准化回归系数= 未标准化回归系数 * 该自变量的标准差 / 因变量的标准差
大家可以根据上述转换关系自行进行验证哈。
哦,对了,细心的同学会发现,在SPSS中多重线性回归可以直接输出标准化回归系数,但是在logistic回归中,SPSS只能输出原始的未标准化的回归系数,如果我们想要计算logistic回归的标准化回归系数,比较不同自变量对因变量的相对作用大小,应该怎么办呢?
根据上述标准化回归系数的转换关系,在logistic回归中随机变量分布函数的标准差为π / √3 = 1.8138[1],故标准化回归系数 = 未标准化回归系数 * 该自变量的标准差 / 1.8138,即可计算logistic回归的标准化回归系数。
参考文献
[1] 宋娜. 多元Logistic分布及其参数估计[D]. 北京工业大学, 2007.
医咖会微信:medieco-ykh
关注医咖会,及时获取最新统计教程
-
数据回归-线性回归模型回归系数的平衡LS估计及预测.pdf
2022-06-26 05:44:36数据回归-线性回归模型回归系数的平衡LS估计及预测.pdf -
回归方程及回归系数的显著性检验.docx
2022-06-23 05:05:24回归方程及回归系数的显著性检验.docx回归方程及回归系数的显著性检验.docx回归方程及回归系数的显著性检验.docx回归方程及回归系数的显著性检验.docx回归方程及回归系数的显著性检验.docx回归方程及回归系数的显著... -
回归方程及回归系数的显著性检验.pdf
2022-06-23 04:46:16回归方程及回归系数的显著性检验.pdf回归方程及回归系数的显著性检验.pdf回归方程及回归系数的显著性检验.pdf回归方程及回归系数的显著性检验.pdf回归方程及回归系数的显著性检验.pdf回归方程及回归系数的显著性检验... -
多元回归系数:我们都解释错了?
2020-12-29 16:26:052.2 多元线性回归系数的图形解释 我们运用 Stata 自带的 1978 汽车数据集 auto.dta 中的进口汽车 (foreign) 数据来解释多元回归系数估计值的含义。 首先,我们把汽车的百英里油耗 (100/mpg) 当作被响应变量,汽车的...作者:金钊 (中山大学)
E-Mail:
Note: 助教招聘信息请进入「课程主页」查看。因果推断-内生性 专题 ⌚ 2020.11.12-15
主讲:王存同 (中央财经大学);司继春(上海对外经贸大学)
空间计量 专题 ⌚ 2020.12.10-13
主讲:杨海生 (中山大学);范巧 (兰州大学)
目录编者按: 在 Stata Journal (吵架」论文。其中,首篇为 David Hoaglin 撰写的长文 (p.5-22),题为「Regressions are Commonly Misinterpreted」。从标题上来看,这无异于「挑战」我们的常识。三位知名的计量经济学家 (James Hardin, Scott Long, David Drukker) 撰写了两篇短文对此进行评论/批评。而同期第四篇论文刊登的就是 David Hoaglin 的「反驳 (Rejoinder)」。显然,这四篇文章是 Stata Journal 的编辑们蓄意之作,同时,也凸显出此问题的重要性。本文对其中的一些核心观点进行梳理,感兴趣的读者可以阅读原文以便品尝原味红茶。Hoaglin David C., 2016, Regressions are Commonly Misinterpreted, Stata Journal, 16(1): 5–22.
Hardin James W. , 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 23–24.
Long J. Scott, David M. Drukker, 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 25–29.
Hoaglin David C., 2016, Regressions are Commonly Misinterpreted: A Rejoinder, Stata Journal, 16(1): 30–36.同主题阅读:
1. 引言
多元回归模型一直被广泛运用,也是最常见和最基础的计量模型。多元回归模型中各个变量间关系相对复杂,其回归系数惯常解释为:当其他变量保持不变或控制其他变量不变时,
每改变一个单位时因变量
的平均变化量。
然而,Hoaglin (2016) 指出,这种常见的解读存在错误。这些问题常常出现在 OLS 回归、logistic 回归和其他广义线性模型以及生存分析、纵向分析和层次分析回归中。
Hoaglin (2016) 认为,这些解释既没有体现多元回归的基本原理,也不符合现实情况。他从图形、多元正态分布和最小二乘几何特征等角度解释「控制」和「保持不变」的不适性。为此,他们提出一直全新的解释「调整
和其他预测因子对
的共同线性影响后,
每改变一个单位时因变量
的平均变化量」。
2. 多元线性回归系数的常见误解
2.1 多元线性回归计量模型
我们常见的多元回归的总体 (population) 模型为:
其中,
为解释变量或预测因子;
为被解释变量或响应变量。我们通常令第一个解释变量为单位向量,即
。
为待估参数,称为「回归系数」(regression coefficients)。
在多元回归中,预测因子间不可能是完全独立的,每个回归系数的下标应该包含方程中的其他预测因子。为此,预测因子
的回归系数可以写为:
,第一个下标表示响应变量,第二个下标表示系数所附的预测因子,而在「·」之后的下标表示其他预测因子。则回归模型可以变为:
运用数据可以对回归系数
进行估计,可以得到估计值
。则 (2) 的拟合方程为:
为残差,
为
的观测值。在多元回归中,每个预测因子的系数都说明了其他预测因子的贡献,也就是说,它反映了对这些预测因子的调整。
2.2 多元线性回归系数的图形解释
我们运用 Stata 自带的 1978 汽车数据集 auto.dta 中的进口汽车 (foreign) 数据来解释多元回归系数估计值的含义。
首先,我们把汽车的百英里油耗 (100/mpg) 当作被响应变量,汽车的重量 (weight) 和排量 (displacement) 为预测因子。通过散点图 (图 1),我们可以看到汽车油耗与重量和排量的相关性很高,汽车的重量和排量的相关性也很强。
. sysuse auto, clear
(1978 Automobile Data)
. generate gp100m = 100/mpg
. label var gp100m "Gallons per 100 miles"
*-相关系数
. pwcorr gp100m weight displacement if foreign==1
| gp100m weight displa~t
-------------+---------------------------
gp100m | 1.0000
weight | 0.8172 1.0000
displacement | 0.8444 0.9507 1.0000
*-散点图矩阵
. graph matrix gp100m weight displacement if foreign==1
图 1 汽车油耗、重量和排量的散点图矩阵
首先,我们看二元回归的估计结果如下,可以发现汽车重量回归系数的估计值为 0.396,而汽车排量回归系数的估计值为 0.032。
. regress gp100m weight displacement if foreign == 1
Source | SS df MS Number of obs = 22
----------+------------------------------ F(2, 19) = 23.86
Model | 19.6704568 2 9.83522842 Prob > F = 0.0000
Residual | 7.83165119 19 .412192168 R-squared = 0.7152
----------+------------------------------ Adj R-squared = 0.6853
Total | 27.502108 21 1.30962419 Root MSE = .64202
-----------------------------------------------------------------------
gp100m | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+---------------------------------------------------------
weight | 0.396 1.044 0.38 0.708 -1.788 2.580
displacement | 0.032 0.018 1.78 0.091 -0.006 0.070
_cons | -0.196 0.811 -0.24 0.812 -1.893 1.501
-----------------------------------------------------------------------
其次,我们单独对汽车重量进行回归,可以发现,在第 (1) 列中,汽车重量回归系数的估计值为 2.160,比第二列所呈现的二元回归的系数估计值高 (0.396):
. regress gp100m weight if foreign == 1
. est store m1
. regress gp100m weight displacement if foreign == 1
. est store m2
. esttab m1 m2, nogap b(%6.3f) s(N r2_a)
--------------------------------------------
(1) (2)
gp100m gp100m
--------------------------------------------
weight 2.160*** 0.396
(6.34) (0.38)
displacement 0.032
(1.78)
_cons -0.689 -0.196
(-0.86) (-0.24)
--------------------------------------------
N 22.000 22.000
r2_a 0.651 0.685
--------------------------------------------
t statistics in parentheses
* p<0.05, ** p<0.01, *** p<0.001
接着,我们用图示显示在一元回归后加入汽车重量的估计结果。
图 2 显示了,汽车油耗 (gp100m) 对排量 (displacement) 回归后的残差,与汽车重量 (weight) 对排量 (displacement) 回归后的残差之间的关系。可以发现,两类残差的相关性与二元回归中汽车重量 (weight) 的系数估计值和
值完全一致。命令如下:
*-部分回归图
. ssc install reganat, replace //下载外部命令
. reganat gp100m weight displacement if foreign == 1, dis(weight) biline
. graph export "图2-reganat部分回归图.png", replace //保存图片
我们也可以手动计算上述残差,并进而用这两个残差做回归,得到与二元回归中一样的系数估计值
。在这段命令中,第 [1]-[2] 行的目的在于从 gp100m 中「滤掉」displacement 的影响 (也就是前文反复提及的「调整」);第 [3]-[4] 行的目的相似:从 weight 中「调整掉」displacement 的影响。调整后的的两个残差 e_y_x2 和 e_x1_x2 中已经不再包含 displacement 变量的信息了,因此,我们执行 reg e_y_x2 e_x1_x2 时,产生的效果与 regress gp100m weight displacement 是完全一致的。
*-手动计算二元回归的系数
. keep if foreign==1
. reg gp100m displacement // [1]
. predict e_y_x2, res // [2]
. reg weight displacement // [3]
. predict e_x1_x2, res // [4]
. reg e_y_x2 e_x1_x2
Source | SS df MS Number of obs = 22
----------+---------------------------------- F(1, 20) = 0.15
Model | .059470475 1 .059470475 Prob > F = 0.7009
Residual | 7.83165211 20 .391582605 R-squared = 0.0075
----------+---------------------------------- Adj R-squared = -0.0421
Total | 7.89112258 21 .375767742 Root MSE = .62577
---------------------------------------------------------------------------
e_y_x2 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
e_x1_x2 | 0.396 1.017 0.39 0.701 -1.725 2.518
_cons | 0.000 0.133 0.00 1.000 -0.278 0.278
---------------------------------------------------------------------------编者注:有关这部分内容的详情,参见reganat 命令绘制的图形是编者自行添加的。
由此,我们可以清晰的知道,二元回归中汽车重量 (
) 的系数估计值
是指汽车油耗 (
) 和重量 (
) 同时调整了汽车排量 (
) 对其的线性变化后的关系。从一元和二元回归结果中汽车重量的系数来看(分别为 2.160 和 0.396),这个调整的影响是很大的。
图 2 增加变量后的散点图
已上线:可随时购买学习+全套课件,
2.3 多元线性回归系数的代数和矩阵解释
我们从简单的二元回归模型来看系数的代数解释。首先,我们假设回归计量模型为:
通过最小二乘估计,我们可以得到系数的代数表达式如下。可以发现,系数
正是
对
回归的斜率。也就是说,
对
的回归系数
是
和
对
回归后的残差再回归的结果。可以理解为是调整了
和
对
的共同线性变化后,
变动一单位对
的平均变化。_
对于多元回归系数,可以写成矩阵的形式,
。令
的预测值为
,则
,其中
被称为「投影矩阵」,也就是说
是
在
超平面上的投影。
2.4 常见的错误解读
在拟合方程中,预测因子的系数估计值
不仅仅代表斜率,其包含更复杂的关系。
常见的对
的解释为:控制其他解释变量不变,
变化一单位,
的平均变化。
然而,这样的解释只有当
为虚拟变量,即其值由 0 变 1 时才成立。这样运用「控制」来描述
与其他预测因子之间的关系显然存在问题
(1) 「控制」的描述可能意味着在数据收集中对预测因子运用了随机化原则 (randomization rules),即总体或样本中每个个体发生的概率均等。
(2) 「控制」的描述并不能反映多元回归的工作原理,即忽视了其它预测因子对回归系数的影响。「控制」的解释通常是从偏导数的定义来的。简单说,
为
对
的偏导数,即
。然而,运用偏导数的概念来解释
存在两方面缺陷,一方面,实际数据是无法观测的,
对
的偏导只是形式上的;另一方面,在微积分中的「保持不变」是偏导的假设,而这里是把假设当作结论。偏导数并不能解释系数在多大程度上反映其他预测因子的贡献。
(3) 在很多模型中,我们没法保证
的变动不会引起其它预测因子的变动。可以从两个例子来进一步理解「保持不变」的说法是不合理的。第一个例子,在模型 (6) 中,我们不可能要求在
不变的情况下仅让
变动。第二个例子,在模型 (7) 中,在改变
时,若想保持
不变,就必须让
能够变动。
(4) 允许一个预测因子变化而其他预测因子固定在其平均值所获得的预测值可能没有意义。一方面,某些预测因子的均值可能缺乏实际经济意义;另一方面,在数据中预测时使用的任何特定预测因子模式都可能没法显示。
2.5 正确的解释
为此,Hoaglin (2016) 提出对于多元回归系数的「正确解释」应该为:
表示,调整了
和其他预测因子对
的共同线性影响后,
变化一单位,
的平均变化。
他们运用「调整」来代替「控制」,同时突出预测因子间对响应变量的共同线性影响。 Long and Drukker(2016)
3. Stata 命令:margins 运用问题
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。
对多元回归系数估计值的重新解读会对 margins 命令的运用带来重要影响。下面是 margins 命令官方说明文档中的一个例子,所使用的数据为虚构的网络数据 margex.dta:
. webuse margex, clear
(Artificial data for margins)
. tab group sex,column
+-------------------+
| Key |
| ----------------- |
| frequency |
| column percentage |
+-------------------+
| sex
group | male female | Total
-----------+----------------------+----------
1 | 215 984 | 1,199
| 14.35 65.51 | 39.97
-----------+----------------------+----------
2 | 666 452 | 1,118
| 44.46 30.09 | 37.27
-----------+----------------------+----------
3 | 617 66 | 683
| 41.19 4.39 | 22.77
-----------+----------------------+----------
Total | 1,498 1,502 | 3,000
| 100.00 100.00 | 100.00
可以看到样本在不同组别中的性别分布是截然不同的,接下来我们做因变量
对性别
和组别
的简单回归,数据中并未说明
的具体含义,不妨假设其代表小时工资.
. reg y i.sex i.group
Source | SS df MS Number of obs = 3,000
-------------+---------------------------------- F(3, 2996) = 152.06
Model | 183866.077 3 61288.6923 Prob > F = 0.0000
Residual | 1207566.93 2,996 403.059723 R-squared = 0.1321
-------------+---------------------------------- Adj R-squared = 0.1313
Total | 1391433.01 2,999 463.965657 Root MSE = 20.076
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
sex |
female | 18.322 0.893 20.52 0.000 16.571 20.073
|
group |
2 | 8.038 0.914 8.80 0.000 6.246 9.829
3 | 18.639 1.160 16.08 0.000 16.366 20.913
|
_cons | 53.321 0.935 57.06 0.000 51.489 55.154
------------------------------------------------------------------------------
在不加任何选项的情况下, margins 命令默认计算的是平均调整过的预测值 (Average adjusted predictions, AAPs) ,将样本视为每个人都是男性 (或是女性) , margins 命令的结果如下:
. margins sex
Predictive margins Number of obs = 3,000
Model VCE : OLS
Expression : Linear prediction, predict()
------------------------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
sex |
male | 60.560 0.578 104.74 0.000 59.427 61.694
female | 78.882 0.577 136.65 0.000 77.751 80.014
------------------------------------------------------------------------------
从结果可以看出,两个 AAPs 之差刚好等于性别的估计系数 (78.88−60.56 = 18.32) 。然而,如果让 AAPs 有意义,就必须假定每个个体刚好以 39.97%,37.27% 和 22.77% 的概率分布在 group1、group2 和 group3。
并且,在这三个群体中,男性和女性都应该具有相同的分布。然而,样本的「预测空间」为六个点,分别对应为
。在交叉表中可以看出,三个组中的男性和女性的分布有显著差异。
以上分析属于线性回归,接着,我们运用 nhanes2f.dta 数据集,讨论 logistic 回归的情况。
. webuse nhanes2f, clear
. logit diabetes black female age
Iteration 0: log likelihood = -1999.0668
Iteration 1: log likelihood = -1841.3525
Iteration 2: log likelihood = -1812.3671
Iteration 3: log likelihood = -1811.9834
Iteration 4: log likelihood = -1811.9828
Iteration 5: log likelihood = -1811.9828
Logistic regression Number of obs = 10,335
LR chi2(3) = 374.17
Prob > chi2 = 0.0000
Log likelihood = -1811.9828 Pseudo R2 = 0.0936
------------------------------------------------------------------------------
diabetes | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | 0.718 0.127 5.66 0.000 0.469 0.966
female | 0.155 0.094 1.64 0.101 -0.030 0.339
age | 0.059 0.004 15.93 0.000 0.052 0.067
_cons | -6.405 0.237 -27.00 0.000 -6.870 -5.940
------------------------------------------------------------------------------
我们知道,logit 回归的系数并不代表边际效应。对于非线性模型,边际效应不是常数,而是随着解释变量而变化。
我们接下来看年龄 (age) 在 20、30、40、50、60 和 70 处,性别 (female) 和种族 (black) 在样本均值处的边际效应。
可以发现,当性别和种族处于均值时 (0.525 和 0.105) ,70 年龄组的边际效应是 20 年龄组的 18 倍 (11% 和 0.6%) 。样本的「预测空间」为四个点:
。要使这个结果有解释意义,我们必须假定 20 岁年龄组和 70 岁年龄组的女性占比为 0.525,黑人占比为 0.105。然而,实际上,在nhanes2f.dta 数据集中,20 岁年龄组的女性占比为 0.578,而黑人占比 0.123;70 岁年龄组的女性占比 0.5,而黑人占比 0.064。
. margins, at(age=(20 30 40 50 60 70)) atmeans
Adjusted predictions Number of obs = 10,335
Model VCE : OIM
Expression : Pr(diabetes), predict()
1._at : black = .1050798 (mean)
female = .5250121 (mean)
age = 20
2._at : black = .1050798 (mean)
female = .5250121 (mean)
age = 30
3._at : black = .1050798 (mean)
female = .5250121 (mean)
age = 40
4._at : black = .1050798 (mean)
female = .5250121 (mean)
age = 50
5._at : black = .1050798 (mean)
female = .5250121 (mean)
age = 60
6._at : black = .1050798 (mean)
female = .5250121 (mean)
age = 70
------------------------------------------------------------------------------
| Delta-method
| Margin Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_at |
1 | 0.006 0.001 6.38 0.000 0.004 0.008
2 | 0.011 0.001 8.25 0.000 0.009 0.014
3 | 0.020 0.002 11.42 0.000 0.017 0.024
4 | 0.036 0.002 16.99 0.000 0.032 0.041
5 | 0.064 0.003 22.50 0.000 0.059 0.070
6 | 0.110 0.006 18.82 0.000 0.099 0.122
------------------------------------------------------------------------------
样本取不同值的边际效应差别会很大。然而,一般文献里常计算样本均值处的边际效应。从下图我们可以发现,当性别和人种取不同值时,20 岁年龄组和 70 岁年龄组的边际效应差别非常大。尽管 margins 可以为很多模型的预测提供更大的灵活性,然而,在分析时不能一味的选择「样本均值处边际效应」,而是应该详细分析样本的预测区间,谨慎选取样本代表值。
. margins, at(age=(20 70) black=(0 1) female=(0 1))
Adjusted predictions Number of obs = 10,335
Model VCE : OIM
Expression : Pr(diabetes), predict()
1._at : black = 0
female = 0
age = 20
2._at : black = 0
female = 0
age = 70
3._at : black = 0
female = 1
age = 20
4._at : black = 0
female = 1
age = 70
5._at : black = 1
female = 0
age = 20
6._at : black = 1
female = 0
age = 70
7._at : black = 1
female = 1
age = 20
8._at : black = 1
female = 1
age = 70
------------------------------------------------------------------------------
| Delta-method
| Margin Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_at |
1 | 0.005 0.001 5.99 0.000 0.004 0.007
2 | 0.096 0.007 13.51 0.000 0.082 0.110
3 | 0.006 0.001 6.10 0.000 0.004 0.008
4 | 0.110 0.007 15.05 0.000 0.096 0.125
5 | 0.011 0.002 5.24 0.000 0.007 0.015
6 | 0.179 0.020 9.08 0.000 0.140 0.217
7 | 0.013 0.002 5.32 0.000 0.008 0.018
8 | 0.203 0.021 9.66 0.000 0.161 0.244
------------------------------------------------------------------------------
4. 小结
总的来说,Hoaglin (2016) 认为在解释多元回归系数时,文献和教科书中常用的「保持不变」,「控制」和「固定」等词语均不能很好的反应多元回归的基本原理,也不符合现实情况。
他认为,「调整共同线性影响」的表述会更适合。此外,在运用 margins 命令时应该谨慎选择「样本均值处」的边际效应。需要根据实际情况,弄清楚「样本预测空间」,并据此在合适的「点位」上求取边际效应,才能保证我们所着力解释的系数有真正的经济含义。
参考文献Hoaglin David C., 2016, Regressions are Commonly Misinterpreted, Stata Journal, 16(1): 5–22.
Hardin James W. , 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 23–24.
Long J. Scott, David M. Drukker, 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 25–29.
Hoaglin David C., 2016, Regressions are Commonly Misinterpreted: A Rejoinder, Stata Journal, 16(1): 30–36.
附:文中所用代码
. sysuse auto, clear
. generate gp100m = 100/mpg
. label var gp100m "Gallons per 100 miles"
. replace weight = weight/1000
*-相关系数
. pwcorr gp100m weight displacement if foreign==1
*-散点图矩阵
. graph matrix gp100m weight displacement if foreign==1
*-多元回归分析
regress gp100m weight displacement if foreign == 1
*-一元和多元回归结果对比
. regress gp100m weight if foreign==1
. est store m1
. regress gp100m weight displacement if foreign==1
. est store m2
. esttab m1 m2, nogap b(%6.3f) s(N r2_a)
*-部分回归图
. ssc install reganat, replace
. reganat gp100m weight displacement if foreign == 1, dis(weight) biline
. graph export "图2-reganat部分回归图.png", replace
*-手动计算二元回归的系数
. keep if foreign==1
. reg gp100m displacement
. predict e_y_x2, res
. reg weight displacement
. predict e_x1_x2, res
. reg e_y_x2 e_x1_x2
*-3. Stata 命令:margins 运用问题
. webuse margex, clear
. tab group sex,column
. reg y i.sex i.group
. margins sex
. webuse nhanes2f, clear
. logit diabetes black female age
. margins, at(age=(20 30 40 50 60 70)) atmeans
. margins, at(age=(20 70) black=(0 1) female=(0 1))
相关课程部分直播课
课程一览
支持回看,所有课程可以随时购买观看。
Note: 部分课程的资料,PPT 等可以前往
关于我们Stata 连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
公众号推文分类:计量专题 | 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
-
线性回归的方差分析和回归系数的t检验.docx
2022-06-26 00:05:54线性回归的方差分析和回归系数的t检验.docx线性回归的方差分析和回归系数的t检验.docx线性回归的方差分析和回归系数的t检验.docx线性回归的方差分析和回归系数的t检验.docx线性回归的方差分析和回归系数的t检验.docx... -
线性回归的方差分析和回归系数的t检验.pdf
2022-06-24 22:53:49线性回归的方差分析和回归系数的t检验.pdf线性回归的方差分析和回归系数的t检验.pdf线性回归的方差分析和回归系数的t检验.pdf线性回归的方差分析和回归系数的t检验.pdf线性回归的方差分析和回归系数的t检验.pdf线性... -
数据回归-线性回归系数的Stein估计.pdf
2022-06-26 05:53:40数据回归-线性回归系数的Stein估计.pdf -
齐次等式约束线性回归模型回归系数的综合条件岭估计 (2012年)
2021-05-13 05:29:34提出了齐次等式约束线性回归模型回归系数的一个新的有偏估计,即综合条件岭估计.讨论了综合条件岭估计的可容许性等优良性质.给出了其迭代解和极小化均方误差的无偏估计解.在一定的条件下,综合条件岭估计的样本总... -
回归系数t检验公式_如何用分组回归检验调节作用?
2020-11-09 16:51:45线性回归是使用最为广泛的一种研究方法,其可用于研究X对于Y的研究。分组回归是线性回归的拓展,其实质就是线性回归。比如研究X对于Y的影响,研究查看且对比不同组别时,X对于Y的影响是否有着不一致等。当调节变量为...线性回归是使用最为广泛的一种研究方法,其可用于研究X对于Y的研究。分组回归是线性回归的拓展,其实质就是线性回归。比如研究X对于Y的影响,研究查看且对比不同组别时,X对于Y的影响是否有着不一致等。
当调节变量为定类数据,自变量为定量数据,就选择用分组回归的方法进行分析。与分层回归相比,分组回归的结果含义更明确,也更容易解释。
调节作用 一、研究背景
当前有一项研究,收集了200份调查问卷,用于研究工作忠诚度(Y)影响。自变量分别为薪水X1、福利X2、同事关系X3。现希望以学历作为分组,研究薪水、福利、同事关系对于工作忠诚度的影响。
二、操作步骤
登录SPSSAU,选择【计量经济研究】--【分组回归】。
分组回归 分别将薪水、福利、同事关系三项放入X框;学历放入分组项,工作忠诚度放入Y框。点击开始分析。
分组回归 三、结果分析
(1)分组回归模型
表1:分组回归模型 表1:分组回归模型 上表展示的是,分组回归结果以及不同模型的比较情况。图中共有四个模型分别是:整体回归模型,以及学历分别为本科以下,本科和本科以上时3个组别单独得到的回归结果。
从每个模型的样本量中,也可以看出第一个模型为整体模型(样本量200),另外3个模型样本量总和为200。相当于分别筛选出对应学历的样本进行线性回归分析,其中本科以下样本为64人,本科为115人,本科以上21人。由于分组回归会分散每个回归的有效样本量,建议每个组别样本量较多时使用。
如何判断组间系数的差异(即是否有调节作用):
分组回归可分为两步,第一步先针对整体模型进行分析,第二步针对不同组别时的回归模型结果进行分析。分析时可能出现以下情况:
①情况1:当出现整体模型中X对于Y没有影响。即说明X对Y没有影响(不显著,p 值大于0.05),那么第二步基本无意义。
②情况2:当整体模型通过F检验,X对Y有影响。第二步出现一部分组别显著一部分不显著,那么可以直接以某组别时X对Y有影响,某组别时X对Y无影响,作为研究结论(即有调节作用)。
③情况3:当整体模型通过F检验,X对Y有影响。第二步检验中每个组别下都有显著的影响,需要进一步针对回归系数的差异进行检验,如果回归系数具有显著性差异,则有调节效应,反着无调节效应。
根据上表结果,对整体回归模型进行分析:模型通过F检验,说明模型具有统计学意义,薪水和同事关系对工作忠诚度有正向影响关系。
对各分组回归模型进行分析:
当样本学历为本科以下时,薪水和同事关系会正向影响工作忠诚度;
当样本学历为本科水平时,薪水和同事关系会正向影响工作忠诚度;
当学历本科以上水平时,薪水、福利、同事关系均不会对工作忠诚度产生影响,即说明本科以上水平的样本,对于薪水、福利、同事关系的态度,并不会对他们的工作忠诚度产生影响。
(2)回归系数差异检验
表2:回归系数差异检验 回归系数差异检验结果是对上表结果的补充。如果在上一步回归模型结果中,显示在每个组别下X对于Y均有影响(显著,p 值小于0.05),那么可以通过检验对比回归系数,查看影响幅度是否存在的差异。
如果回归系数的差异显著,则在不同学历情况下,X对Y的影响幅度有显著性差异。即说明学历在X对Y的影响中起到了调节作用。
上表格展示‘薪水’,‘福利’和‘同事关系’分别对于工作忠诚度的影响,以及区分不同学历情况下时的回归系数差异情况。表格中红色部分表示在表1回归模型中有显著影响的结果。
- 薪水对于工作忠诚度的影响,本科以下和本科时,薪水对忠诚度都有显著的正向影响,此时可对比此2个回归系数(0.459和0.312)的差异幅度(t =1.268,p =0.207>0.05),说明本科以下,本科时,薪水对于忠诚都有正向影响,影响幅度并没有明显的差异。
- 同事关系对于工作忠诚度的影响,本科以下或本科时,同事关系对忠诚度都有着正向影响(回归系数分别是0.290和0.649),而且影响幅度有着显著的差异(t =4.323,p =0.000< 0.01),说明同事关系对忠诚度有着正向影响,而且本科学历(相对本科以下时)的影响幅度明显更大。
总结:综上所述,学历在薪水、同事关系对工作忠诚度的影响关系中起到了调节作用。
薪水对于工作忠诚度的影响,在学历为本科以上或本科时,薪水对忠诚度都有显著的正向影响,学历为本科时以上并没有影响。
同事关系对于工作忠诚度的影响,在学历为本科以下或本科时,同事关系都会对忠诚度有着正向影响,且本科学历时同事关系的影响幅度明显更大;但是本科以上学历样本时,同事关系对忠诚度不会产生影响。
四、其他说明
分组回归可用于研究调节作用,同时SPSSAU也提供分层回归分析(进阶方法->分层回归)或直接使用SPSSAU调节作用(问卷研究->调节作用)。
以上就是本次分享的内容,登录SPSSAU官网了解更多。
SPSSAU:如何分析调节作用?zhuanlan.zhihu.com -
数据回归-回归系数和协方差阵的稳健估计.pdf
2022-06-25 08:23:38数据回归-回归系数和协方差阵的稳健估计.pdf -
数据回归-基于分组数据回归系数的估计.pdf
2022-06-25 14:05:59数据回归-基于分组数据回归系数的估计.pdf -
数据回归-多元线性模型回归系数的主成分估计.pdf
2022-06-25 02:46:47数据回归-多元线性模型回归系数的主成分估计.pdf -
【统计】回归系数与相关系数的联系与区别
2020-03-29 16:27:15目录一、基础知识二、回归系数与相关系数1.定义2.二者的联系3.二者的区别 假设有两个随机变量(x,y)(x,y)(x,y),其NNN个样本组合为(x1,x2,…,xN)(x_1,x_2,\dots,x_N)(x1,x2,…,xN)和(y1,y2,…,yN)(y_1,y_... -
数据回归-生长曲线模型中回归系数的参数估计.pdf
2022-06-26 03:05:22数据回归-生长曲线模型中回归系数的参数估计.pdf -
标准回归系数引用
2020-12-20 01:53:155# sungmoo总结两位老师的解答,问题得以解决,举例如下(附do文件及结果):reg y x1-x6 与 reg y x1-x6,beta结果回归系数一样,但前者没有显示标准回归系数,并且后者的标准系数也没有办法贮存在变量或matrix中,这... -
Logistic回归结果的回归系数和OR值解读
2020-12-29 16:26:10Logistic回归结果的回归系数和OR值解读。Logistic回归虽然名字叫”回归”,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。一 从线性回归到Logistic回归线性回归和Logistic... -
机器学习——回归系数的计算(2)
2020-01-12 12:09:051、最小二乘法(min square)求解回归系数 将训练特征表示为 X 矩阵,结果表示成 y 向量,仍然是线性回归模型,误差函数不变。那么 θ 可以直接由下面公式得出 用矩阵可表示为 因为要求函数的极小值,对θ求导... -
回归方程及回归系数的显著性检验.doc
2021-12-15 15:45:21回归方程及回归系数的显著性检验.doc -
数据回归-带有趋势项自回归系数的有效估计.pdf
2022-06-25 01:22:55数据回归-带有趋势项自回归系数的有效估计.pdf -
回归系数的部分岭估计
2020-07-09 13:40:13为了改进存在复共线性的回归模型中回归系数的最小二乘估计的不足,利用构造岭估计的思想,只修正非常接近于零的那部分特征值,从而给出了回归系数的部分岭估计.在均方误差意义下,存在岭参数,使得回归系数的部分岭估计... -
数据回归-回归系数的混合估计和最小二乘估计的相对效率.pdf
2022-06-25 08:22:24数据回归-回归系数的混合估计和最小二乘估计的相对效率.pdf -
数据回归-平衡损失下线性回归模型回归系数的估计理论.pdf
2022-06-26 01:20:36数据回归-平衡损失下线性回归模型回归系数的估计理论.pdf