精华内容
下载资源
问答
  • python进行回归方程显著性检验

    千次阅读 2021-03-22 20:59:25
      回归分析就是具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动的数学表达式,以便因变量进行估计或预测的统计分析方法。回归分析的数学描述如下:   ...

    本篇博客的重点不在于回归模型的建立,而在于模型建立后的显著性检验。

    1.回归分析

    1.1 定义

      回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动的数学表达式,以便对因变量进行估计或预测的统计分析方法。回归分析的数学描述如下:
      假设变量 x 1 , x 2 , x 3 , … , x k x_{1},x_{2},x_{3},\dots,x_{k} x1,x2,x3,,xk与随机变量 y y y之间存在较显著的相关关系,则就有以下的回归模型: y = f ( x 1 , x 2 , x 3 , … , x k ) + ϵ y=f(x_{1},x_{2},x_{3},\dots,x_{k})+\epsilon y=f(x1,x2,x3,,xk)+ϵ其中 ϵ \epsilon ϵ为随机变量。而常用的回归模型是以下的线性形式: y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k + ϵ y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+\cdots+\beta_{k}x_{k}+\epsilon y=β0+β1x1+β2x2++βkxk+ϵ

    1.2 步骤

    (1)根据研究目的和现象之间的内在联系,确定自变量和因变量。
      做回归分析时,应该首先从理论出发进行定性分析,根据现象的内在联系确定变量之间的因果关系,从而确定哪个为自变量,哪个为因变量。
    (2)确定回归分析模型的类型及数学表达式。
      根据现象之间的内在影响机制或通过对具体变量数据描点分析,找出最适合的回归分析模型,再通过计算求出模型的待估参数,得到回归方程。常用的估计方法有普通最小平方法、岭回归、偏最小平方法回归、约束最小平方法回归,主成分回归。
    (3)对回归分析模型进行评价和诊断。
      得到具体的回归方程以后,要对其进行统计检验,来对回归方程的代表性及拟合程度进行拟合。

    2.回归方程的统计检验

      对于所拟合的回归模型,需要检验其合理性。检验的内容包括:模型的参数取值含义是否符合经济意义,模型的参数在统计意义上是否显著,模型整体的拟合效果是否理想,模型的假设条件是否满足。

    2.1 模型整体拟合效果的显著性检验

      记实际观察值为 y i y_{i} yi,回归方程拟合的理论值(预测值)为 y c i y_{c_{i}} yci,观察值的平均值为 y ‾ \overline{y} y,则在最小平方法之下 y c ‾ \overline{y_{c}} yc y ‾ \overline{y} y是相等的。根据方差分析原理,则有 ∑ ( y − y ‾ ) 2 = ∑ ( y c − y ‾ ) 2 + ∑ ( y − y c ) 2 \sum(y-\overline{y})^{2}=\sum(y_{c}-\overline{y})^{2}+\sum(y-y_{c})^{2} (yy)2=(ycy)2+(yyc)2 S S T = S S R + S S E SST=SSR+SSE SST=SSR+SSE在误差项服从正太分布的情况下,应该有 S S R ∼ χ 2 ( k ) , S S E ∼ χ 2 ( n − k − 1 ) SSR\sim\chi^{2}(k),SSE\sim\chi^{2}(n-k-1) SSRχ2(k),SSEχ2(nk1)所以有 F F F统计量 F = S S R / k S S E / ( n − k − 1 ) ∼ F ( 1 , n − k − 1 ) F=\frac{SSR/k}{SSE/(n-k-1)}\sim F(1,n-k-1) F=SSE/(nk1)SSR/kF(1,nk1)显然,回归方程拟合效果越好,表明方程解释部分所占比重越大, S S R SSR SSR S S E SSE SSE相比的值也越大, F F F统计量也越大。因此,方程整体显著性检验的假设为: H 0 : β 0 = β 1 = β 2 = ⋯ = β k = 0 H_{0}:\beta_{0}=\beta_{1}=\beta_{2}=\dots=\beta_{k}=0 H0:β0=β1=β2==βk=0 H 1 : β 0 ≠ 0 或 β 1 ≠ 0 或 … 或 β k ≠ 0 H_{1}:\beta_{0}\neq0或\beta_{1}\neq0或\dots或\beta_{k}\neq0 H1:β0=0β1=0βk=0再给定显著性水平 α \alpha α下,若 F > F α ( 1 , n − 2 ) F>F_{\alpha}(1,n-2) F>Fα(1,n2)则拒绝原假设,认为回归方程整体是显著的。

    2.2 模型参数显著性检验

      模型参数显著性检验主要是判断每一个自变量对于回归模型是否必要。对于回归方程的单个参数进行 t t t检验,对于回归方程中的每个参数 β i \beta_{i} βi,其假设如下: H 0 i : β i = 0 , i = 0 , 1 , … , k H_{0i}:\beta_{i}=0,i=0,1,\dots,k H0i:βi=0,i=0,1,,k H 1 i : β i ≠ 0 , i = 0 , 1 , … , k H_{1i}:\beta_{i}\neq0,i=0,1,\dots,k H1i:βi=0,i=0,1,,k t t t检验统计量为: t = β i σ ^ y x c i i ∼ t ( n − k − 1 ) t=\frac{\beta_{i}}{ \widehat \sigma_{yx}\sqrt{c_{ii}}}\sim t(n-k-1) t=σ yxcii βit(nk1)其中 c i i c_{ii} cii为矩阵 ( X T X ) − 1 (X^{T}X)^{-1} (XTX)1对角线上第 i i i个元素, σ ^ y x \widehat \sigma_{yx} σ yx的计算公式如下: σ ^ y x = ∑ ( y − y c ) 2 n − k − 1 \widehat \sigma_{yx}=\sqrt{\frac{\sum(y-y_{c})^{2}}{n-k-1}} σ yx=nk1(yyc)2
      python中的statsmodel包中已经集成了完整的回归方程显著性检验。具体示例如下:

    import pandas as pd
    from sklearn.datasets import load_boston
    from scipy import stats
    import statsmodels.api as sm
    import numpy as np
    
    boston=load_boston()
    X=pd.DataFrame(boston.data,columns=boston.feature_names)
    y=pd.DataFrame(boston.target,columns=['target'])
    
    X=sm.add_constant(X) #添加常数项
    model=sm.OLS(y,X)
    results=model.fit()
    y_pred=pd.DataFrame(model.predict(results.params,X),
                        columns=['pred'])
    print(results.summary())
    
    """
    自写代码计算过程
    SSR=np.dot(y_pred['pred']-y['target'].mean(),y_pred['pred']-y['target'].mean())
    SSE=np.dot(y_pred['pred']-y['target'],y_pred['pred']-y['target'])
    
    (1)回归方程显著性检验
    f_val=(SSR/13)/(SSE/492)
    f_pval=stats.f.sf(f_val,13,492)
    
    (2)单个参数的显著性检验
    ttest_result=pd.DataFrame(None,index=X.columns,columns=['tval','pval'])
    error=np.dot(y['target']-y_pred['pred'],y['target']-y_pred['pred'])
    S = np.array(np.linalg.inv(np.dot(np.mat(X).T,X)))
    for i,col in enumerate(X.columns):
        tval=results.params[col]/np.sqrt((error/492)*S[i][i])
        ttest_result.loc[col,'tval']=tval
        pval=stats.t.sf(np.abs(tval),df=492)*2
        ttest_result.loc[col,'pval']=pval
    """
    

    其结果如下:
    在这里插入图片描述
      从上述试验结果中可以发现,变量INDUS和AGE对回归方程是不显著的,可以从回归方程中剔除这两个变量。

    参考资料

    1. https://www.cnblogs.com/tangxianwei/p/8323495.html
    2. https://blog.csdn.net/u011517132/article/details/105286113
    展开全文
  • 回归方程有效性的检查

    千次阅读 2020-04-13 12:35:26
    y进行正态分布的检验,如果y不服从正态分布,则需要进行变换。 2 通过相关性分析,判断x与y的相关性,如果不相关,则不需要纳入此x到方程中。 3 通过相关性分析,判断x与x之间的相关性,相关的x不能...

    我梳理了一下,整理成下表给大家参考,也比较好记忆,回归之前六条,回归之后六条:

    检查回归方程的有效性
    回归分析之前1对y进行正态分布的检验,如果y不服从正态分布,则需要进行变换。
    2通过相关性分析,判断x与y的相关性,如果不相关,则不需要纳入此x到方程中。
    3通过相关性分析,判断x与x之间的相关性,相关的x不能出现在同一个方程中。
    4通过散点图,观察是否是直线关系。如果非直线相关,则进行变换。
    5通过箱线图识别x或y的离群点,这些离群点的发生是小概率事件,没有代表性应该删除。
    6通过散点图,识别趋势的离群点,这些离群点显著影响了总体趋势,可以删除,并非必须,具体情况具体分析。
    回归分析之后7F检验:确保整体方程有效。P<=0.05说明模型中至少有一个X对Y有显著的影响关系。
    8t检验:确保每个系数都有效。P<=0.05说明这个x对y有显著性影响关系。
    9残差分析:残差独立,残差服从正态分布,残差均值为0,等方差。
    10R-sq代表y的波动有多少比例能被x的波动描述。当x个数较多时,调整后的R-sq比R更为准确,调整后R-sq>=0.5拟和效果较好, 有实际使用价值。否则,没有实际使用价值,预测区间太宽。
    11离群点识别:有个别值对整个方程的趋势有显著影响,可以修正。这是对上边第6条的补充。
    12多重共线性检测:如果方差膨胀因子VIF>5,则认为存在多重共线性。这是对上边第3条的补充。

     

    展开全文
  • 转载于:回归方程的显著性检验(F检验)是单侧还是双侧检验,为什么?
    展开全文
  • 多元线性回归及显著性检验Matlab程序完美版 一说明 1本程序是硕士教材数理统计杨虎刘琼钟波 编著 例4.4.1P133Matlab编程解答程序教材上例题只做了回归方程显著性分析和一次回归系数显著性分析剔除x1后没有再检验x2和...
  • 回归方程的预报精度 回顾总结 十一、回归方程与回归系数的显著性检验 回归方程的显著性检验检验的是我们建立线性回归方程的合理性,因为我们不能肯定模型是正确的,也就是说我们需要检验 YYY与 x1,⋯ ,xmx_1,\...

    十一、回归方程与回归系数的显著性检验

    回归方程的显著性检验,检验的是我们建立线性回归方程的合理性,因为我们不能肯定模型是正确的,也就是说我们需要检验 Y Y Y x 1 , ⋯   , x m x_1,\cdots,x_m x1,,xm之间是否存在着线性关系,或者只跟其中的一部分变量存在线性关系。事实上,如果 Y Y Y x 1 , ⋯   , x m x_1,\cdots,x_m x1,,xm之间均无线性相关关系,则 β i \beta_i βi应均为0,所以我们要检验的假设是
    H 0 : β 1 = β 2 = ⋯ = β m = 0. H_0:\beta_1=\beta_2=\cdots =\beta_m=0. H0:β1=β2==βm=0.

    1.平方和分解

    为了检验这个假设,我们需要找到一个检验统计量,平方和分解公式就提供了一种求检验统计量的方式。平方和分解公式指的是
    ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 , \sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n(y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2, i=1n(yiyˉ)2=i=1n(yiy^i)2+i=1n(y^iyˉ)2,
    这里 y ˉ = 1 n ∑ i = 1 n y i \bar y=\frac 1n\sum_{i=1}^n y_i yˉ=n1i=1nyi y ^ i = β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ m x i m \hat y_i=\hat \beta_0+\hat\beta_1x_{i1}+\cdots+\hat\beta_mx_{im} y^i=β^0+β^1xi1++β^mxim β ^ \hat\beta β^ β \beta β的最小二乘估计即 β ^ = ( C ′ C ) − 1 C ′ Y \hat\beta=(C'C)^{-1}C'Y β^=(CC)1CY

    先进行普通的分解,即
    ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n [ ( y i − y ^ i ) + ( y ^ i − y ˉ ) ] 2 = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n ( y i − y ^ i ) ( y ^ i − y ˉ ) = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n e i ( y ^ i − y ˉ ) . \begin{aligned} \sum_{i=1}^n(y_i-\bar y)^2=&\sum_{i=1}^n[(y_i-\hat y_i)+(\hat y_i-\bar y)]^2 \\ =&\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2+2\sum_{i=1}^n (y_i-\hat y_i)(\hat y_i-\bar y)\\ =&\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2+2\sum_{i=1}^ne_i(\hat y_i-\bar y). \end{aligned} i=1n(yiyˉ)2===i=1n[(yiy^i)+(y^iyˉ)]2i=1n(yiy^i)2+i=1n(y^iyˉ)2+2i=1n(yiy^i)(y^iyˉ)i=1n(yiy^i)2+i=1n(y^iyˉ)2+2i=1nei(y^iyˉ).
    接下来只需要证明交叉项为0,有
    ∑ i = 1 n e i ( y ^ i − y ˉ ) = ∑ i = 1 n e i ( β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ m x i m − y ˉ ) = ( β ^ 0 − y ˉ ) ∑ i = 1 n e i + β ^ 1 ∑ i = 1 n e i x i 1 + ⋯ + β ^ m ∑ i = 1 n e i x i m \begin{aligned} &\sum_{i=1}^ne_i(\hat y_i-\bar y) \\ =&\sum_{i=1}^ne_i(\hat\beta_0+\hat\beta_1x_{i1}+\cdots+\hat\beta_mx_{im}-\bar y)\\ =&(\hat\beta_0-\bar y)\sum_{i=1}^n e_i+\hat\beta_1\sum_{i=1}^ne_ix_{i1}+\cdots+\hat\beta_m\sum_{i=1}^n e_ix_{im} \end{aligned} ==i=1nei(y^iyˉ)i=1nei(β^0+β^1xi1++β^mximyˉ)(β^0yˉ)i=1nei+β^1i=1neixi1++β^mi=1neixim
    接下来回到最小二乘法的原理上,由于我们在前面的推导中,得到了 C ′ C β ^ = C ′ Y C'C\hat\beta=C'Y CCβ^=CY的结果,观察其第 t + 1 t+1 t+1行,有
    ∑ j = 0 m β ^ j ∑ i = 1 n x i t x i j = ∑ i = 1 n x i t y i ∑ j = 0 m ∑ i = 1 n β ^ j x i t x i j = ∑ i = 1 n x i t ( ∑ j = 0 m β ^ j x i j + e i ) = ∑ i = 1 n ∑ j = 0 m β ^ j x i t x i j + ∑ i = 1 n e i x i t \sum_{j=0}^m\hat\beta_j\sum_{i=1}^nx_{it}x_{ij}=\sum_{i=1}^n x_{it}y_i\\ \sum_{j=0}^m\sum_{i=1}^n \hat\beta_jx_{it}x_{ij}=\sum_{i=1}^nx_{it}(\sum_{j=0}^m\hat\beta_jx_{ij}+e_i)=\sum_{i=1}^n\sum_{j=0}^m\hat\beta_jx_{it}x_{ij}+\sum_{i=1}^ne_ix_{it} j=0mβ^ji=1nxitxij=i=1nxityij=0mi=1nβ^jxitxij=i=1nxit(j=0mβ^jxij+ei)=i=1nj=0mβ^jxitxij+i=1neixit
    也就是
    ∑ i = 1 n e i x i t = 0. \sum_{i=1}^ne_ix_{it}=0. i=1neixit=0.
    代入 t = 0 , 1 , ⋯   , m t=0,1,\cdots,m t=0,1,,m就得到了交叉项为0的结果,所以平方和分解公式成立。

    再观察平方和分解式子,左边的 ∑ i = 1 n ( y i − y ˉ ) 2 \sum_{i=1}^n(y_i-\bar y)^2 i=1n(yiyˉ)2是样本观测值对样本均值的波动大小,记作总偏差平方和 T S S {\rm TSS} TSS l y y l_{yy} lyy;右边的第一项 ∑ i = 1 n ( y i − y ^ i ) 2 \sum_{i=1}^n(y_i-\hat y_i)^2 i=1n(yiy^i)2是残差平方和 R S S {\rm RSS} RSS Q Q Q,第二项 ∑ i = 1 n ( y ^ i − y ˉ ) 2 \sum_{i=1}^n(\hat y_i-\bar y)^2 i=1n(y^iyˉ)2是由回归曲线决定的,称为回归平方和 E S S , M S S {\rm ESS,MSS} ESS,MSS U U U。这样,式子又可以写成
    T S S = E S S + R S S , l y y = U + Q . {\rm TSS}={\rm ESS}+{\rm RSS},\\ l_{yy}=U+Q. TSS=ESS+RSS,lyy=U+Q.

    2.回归方程的假设检验

    对于假设检验问题 H 0 : β 1 = β 2 = ⋯ = β m = 0 H_0:\beta_1=\beta_2=\cdots =\beta_m=0 H0:β1=β2==βm=0,如果回归曲线表现得好,残差平方和应该尽可能小,也就是 R S S , Q {\rm RSS},Q RSS,Q会尽可能小;所以回归曲线表现的好也体现在 E S S {\rm ESS} ESS T S S {\rm TSS} TSS占据较大的比例,相应的 R S S {\rm RSS} RSS占据比例就会比较小,因此我们构造检验统计量为 E S S / R S S {\rm ESS/RSS} ESS/RSS。并且有定理指出,在 H 0 H_0 H0成立时,
    Q σ 2 ∼ χ n − m − 1 2 , U σ 2 ∼ χ m 2 , U / m Q / ( n − m − 1 ) = E S S / m R S S / ( n − m − 1 ) ∼ H 0 F ( m , n − m − 1 ) . \frac{Q}{\sigma^2}\sim \chi^2_{n-m-1},\quad\frac{U}{\sigma^2}\sim \chi^2_m,\\ \frac{U/m}{Q/(n-m-1)}=\frac{{\rm ESS}/m}{{\rm RSS}/(n-m-1)}\stackrel {H_0}\sim F(m,n-m-1). σ2Qχnm12,σ2Uχm2,Q/(nm1)U/m=RSS/(nm1)ESS/mH0F(m,nm1).
    如果检验统计量很大,检验的p-value很小,则应该否定 H 0 H_0 H0,就认为回归关系是存在的

    3.中心化的等价形式

    在计量经济学中,我们常常用小写字母表示中心化后的数据,所以我们现在尝试将数据中心化。将回归模型 Y = C β + ε Y=C\beta +\varepsilon Y=Cβ+ε中心化,得到的新回归模型可以写成如下的等价形式:
    y i − y ˉ = β 0 ∗ + β 1 ( x i 1 − x ˉ i ) + ⋯ + β m ( x i m − x ˉ m ) + ε i , ( i = 1 , 2 , ⋯   , n ) ε ∼ N n ( 0 , σ 2 I n ) . y_i-\bar y=\beta_0^*+\beta_1(x_{i1}-\bar x_i)+\cdots+\beta_m(x_{im}-\bar x_m)+\varepsilon_i,\quad (i=1,2,\cdots,n) \\ \varepsilon\sim N_n(0,\sigma^2I_n). yiyˉ=β0+β1(xi1xˉi)++βm(ximxˉm)+εi,(i=1,2,,n)εNn(0,σ2In).
    这里 β 0 ∗ = β 0 − y ˉ + ∑ i = 1 n β i x ˉ i \beta_0^* =\beta_0-\bar y+\sum_{i=1}^n \beta_i\bar x_i β0=β0yˉ+i=1nβixˉi,但事实上,中心化式子的好处是我们可以证明 β ^ 0 ∗ = 0 \hat \beta_0^*=0 β^0=0。接下来我们在矩阵形式中予以证明,试写出矩阵形式,作以下标记
    β ~ = [ β 0 ∗ β 1 ⋮ β m ] = [ β 0 ∗ B ] , Y ~ = [ y 1 − y ˉ y 2 − y ˉ ⋮ y n − y ˉ ] , X ~ = [ x 11 − x ˉ 1 x 12 − x ˉ 2 ⋯ x 1 m − x ˉ m x 21 − x ˉ 1 x 22 − x ˉ 2 ⋯ x 2 m − x ˉ m ⋮ ⋮ ⋮ x n 1 − x ˉ 1 x n 2 − x ˉ 2 ⋯ x n m − x ˉ m ] , C ~ = ( 1 ∣ X ~ ) . \tilde \beta=\begin{bmatrix} \beta_0^* \\ \beta_1 \\ \vdots \\ \beta_m \end{bmatrix}=\begin{bmatrix} \beta_0^* \\ B \end{bmatrix},\quad \tilde Y=\begin{bmatrix} y_1 - \bar y \\ y_2 - \bar y \\ \vdots \\ y_n-\bar y \end{bmatrix}, \\ \tilde X=\begin{bmatrix} x_{11}-\bar x_1 & x_{12}-\bar x_2 & \cdots & x_{1m}-\bar x_m \\ x_{21}-\bar x_1 & x_{22}-\bar x_2 & \cdots & x_{2m}-\bar x_m \\ \vdots & \vdots & & \vdots \\ x_{n1}-\bar x_1 & x_{n2}-\bar x_2 & \cdots & x_{nm}-\bar x_m \end{bmatrix},\tilde C=(\boldsymbol 1|\tilde X). β~=β0β1βm=[β0B],Y~=y1yˉy2yˉynyˉ,X~=x11xˉ1x21xˉ1xn1xˉ1x12xˉ2x22xˉ2xn2xˉ2x1mxˉmx2mxˉmxnmxˉm,C~=(1X~).

    这样就可以把模型写成 Y ~ = C ~ β ~ + ε , ε ∼ N n ( 0 , σ 2 I n ) \tilde Y=\tilde C\tilde \beta +\varepsilon,\varepsilon\sim N_n(0,\sigma^2I_n) Y~=C~β~+ε,εNn(0,σ2In),类似地得到 C ~ ′ C ~ β ~ = C ~ ′ Y ~ \tilde C'\tilde C\tilde \beta=\tilde C'\tilde Y C~C~β~=C~Y~,而
    C ~ ′ C ~ = ( 1 ∣ X ~ ) ′ ( 1 ∣ X ~ ) = [ 1 n ′ 1 n 1 n ′ X ~ X ~ ′ 1 n X ~ ′ X ~ ] = d [ n O 1 × m O m × 1 L ] , {\tilde C}'\tilde C=(\boldsymbol 1|\tilde X)'(\boldsymbol 1|\tilde X)= \begin{bmatrix} \boldsymbol 1_n'\boldsymbol 1_n & \boldsymbol 1_n'\tilde X \\ \tilde X'\boldsymbol 1_n & \tilde X'\tilde X \end{bmatrix}\stackrel{\rm d}=\begin{bmatrix} n & O_{1\times m} \\ O_{m\times 1} & L \end{bmatrix}, C~C~=(1X~)(1X~)=[1n1nX~1n1nX~X~X~]=d[nOm×1O1×mL],
    这里 L = X ~ ′ X ~ = ( l i j ) m × m , l i j = ∑ t = 1 n ( x t i − x ˉ i ) ( x t j − x ˉ j ) L=\tilde X'\tilde X=(l_{ij})_{m\times m},l_{ij}=\sum_{t=1}^n(x_{ti}-\bar x_i)(x_{tj}-\bar x_j) L=X~X~=(lij)m×m,lij=t=1n(xtixˉi)(xtjxˉj),而
    C ~ ′ Y ~ = ( 1 n ∣ X ~ ) ′ Y ~ = [ 1 n ′ Y ~ X ~ ′ Y ~ ] = d [ 0 l ] , \tilde C'\tilde Y=(\boldsymbol 1_n |\tilde X)'\tilde Y= \begin{bmatrix} \boldsymbol 1_n'\tilde Y \\ \tilde X'\tilde Y \end{bmatrix}\stackrel {\rm d}= \begin{bmatrix} 0 \\ l \end{bmatrix}, C~Y~=(1nX~)Y~=[1nY~X~Y~]=d[0l],
    这里 l = ( l 1 y , ⋯   , l m y ) ′ , l i y = ∑ t = 1 n ( x t i − x ˉ i ) ( y t − y ˉ ) l=(l_{1y},\cdots,l_{my})',l_{iy}=\sum_{t=1}^n(x_{ti}-\bar x_i)(y_t-\bar y) l=(l1y,,lmy),liy=t=1n(xtixˉi)(ytyˉ),这样正规方程就可以写成
    [ n O O L ] [ β ^ 0 ∗ B ] = [ 0 l ] ⇒ β ^ 0 ∗ = β ^ 0 − y ˉ + ∑ i = 1 n β ^ i x ˉ i = 0. \begin{bmatrix} n & O \\ O & L \end{bmatrix}\begin{bmatrix} \hat \beta_0^* \\ B \end{bmatrix}=\begin{bmatrix} 0 \\ l \end{bmatrix}\Rightarrow \hat \beta_0^*=\hat\beta_0-\bar y+\sum_{i=1}^n\hat\beta_i\bar x_i=0. [nOOL][β^0B]=[0l]β^0=β^0yˉ+i=1nβ^ixˉi=0.
    这也解释了为什么回归直线总会经过样本中心点,同时还可以得到正规方程的等价形式 L B = l LB=l LB=l,即
    X ~ ′ X ~ B = X ~ ′ Y ~ ⇒ B ^ = ( X ~ ′ X ~ ) − 1 X ~ ′ Y ~ = L − 1 l , B ^ ∼ N m ( B , σ 2 L − 1 ) . \tilde X'\tilde XB=\tilde X'\tilde Y\Rightarrow \hat B=(\tilde X'\tilde X)^{-1}\tilde X'\tilde Y=L^{-1}l,\hat B\sim N_m(B,\sigma^2L^{-1}). X~X~B=X~Y~B^=(X~X~)1X~Y~=L1l,B^Nm(B,σ2L1).
    在给定 X X X时预测 Y ^ \hat Y Y^应采用如此形式: Y ^ − y ˉ 1 n = X ~ B ^ \hat Y-\bar y\boldsymbol 1_n=\tilde X\hat B Y^yˉ1n=X~B^。并且,在此形式下回归平方和很容易表示。因为 Y ^ − y ˉ 1 n = X ~ B ^ \hat Y-\bar y\boldsymbol 1_n=\tilde X\hat B Y^yˉ1n=X~B^,所以
    U = ∑ i = 1 n ( y ^ i − y ˉ ) 2 = ( Y ^ − y ˉ 1 n ) ′ ( Y ^ − y ˉ 1 n ) = B ^ ′ X ~ ′ X ~ B ^ = B ^ ′ L B ^ = B ^ ′ l . Q = l y y − U . U=\sum_{i=1}^n(\hat y_i-\bar y)^2=(\hat Y-\bar y\boldsymbol 1_n)'(\hat Y-\bar y\boldsymbol 1_n)=\hat B'\tilde X'\tilde X\hat B=\hat B'L\hat B=\hat B'l. \\ Q = l_{yy}-U. U=i=1n(y^iyˉ)2=(Y^yˉ1n)(Y^yˉ1n)=B^X~X~B^=B^LB^=B^l.Q=lyyU.

    4.回归系数的假设检验

    回归关系存在并不意味着每一个自变量对于随机变量 y y y的影响都是显著的,有的自变量可能跟 y y y毫不相关,把它纳入回归的范围就可能导致过拟合、模型不适用于预测新数据的问题。如果 x i x_i xi y y y没有影响,则在回归方程中应该有 β i = 0 \beta_i=0 βi=0,所以我们还需要对每个偏回归系数进行逐个检验,即检验如下的假设: H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0

    为了构造检验此假设的检验统计量,定义 x i x_i xi偏回归平方和如下:

    偏回归平方和:设 U U U x 1 , ⋯   , x m x_1,\cdots,x_m x1,,xm Y Y Y的回归平方和, U ( i ) U(i) U(i)为去掉 x i x_i xi后,剩下 m − 1 m-1 m1个自变量对 Y Y Y的平方和,则称变量 x i x_i xi的回归平方和是 P i = U − U ( i ) = Q ( i ) − Q P_i=U-U(i)=Q(i)-Q Pi=UU(i)=Q(i)Q

    其计算公式为 P i = β ^ i 2 / l i i P_i=\hat \beta_i^2/l^{ii} Pi=β^i2/lii,这里 l i i l^{ii} lii L − 1 = ( X ~ ′ X ~ ) − 1 L^{-1}=(\tilde X'\tilde X)^{-1} L1=(X~X~)1的第 i i i个对角元素,同时可以证明
    t i = P i Q / ( n − m − 1 ) ∼ H 0 t ( n − m − 1 ) , F i = P i Q / ( n − m − 1 ) ∼ H 0 F ( 1 , n − m − 1 ) . t_i=\frac{\sqrt{P_i}}{\sqrt{Q/(n-m-1)}}\stackrel {H_0}\sim t(n-m-1), \\ F_i=\frac{P_i}{Q/(n-m-1)}\stackrel {H_0}\sim F(1,n-m-1). ti=Q/(nm1) Pi H0t(nm1),Fi=Q/(nm1)PiH0F(1,nm1).
    当偏回归平方和 P i P_i Pi过大时, t i t_i ti也会很大,p-value很小,就越应该否定原假设 H 0 H_0 H0,认为 β i ≠ 0 \beta_i\ne 0 βi=0。直观上理解,如果偏回归平方和很大,就说明变量 x i x_i xi的删除与否对于回归平方和的影响很大,等价于对残差平方和的影响也很大,这就说明 x i x_i xi是显著的;反之,如果偏回归平方和很小,就可以认为 x i x_i xi在回归模型中无足轻重,不影响回归模型。

    在实际应用中,要建立最优的回归方程,就是要选择合适的预报变量来决定回归方程,这指的是包含所有在显著性水平 α \alpha α下,对 Y Y Y作用显著的变量。当建立回归模型后,对所有回归系数进行假设检验,如果所有回归系数的p-value都小于 α \alpha α,就认为方程是最优的;否则,就应该剔除显著性最小的那一个(注意只能剔除一个,一般是p-value最大的),重新建立回归模型,并重复以上步骤。

    5.回归方程的预报精度

    最后,简要地介绍一下回归方程预报精度的问题。我们已经知道,通过样本 C C C,回归系数的最小方差线性无偏估计是 β ^ = ( C ′ C ) − 1 C ′ Y \hat \beta=(C'C)^{-1}C'Y β^=(CC)1CY,给定一组 x 0 = ( 1 , x 01 , ⋯   , x 0 m ′ ) x_0=(1,x_{01},\cdots,x_{0m}') x0=(1,x01,,x0m)后, y 0 y_0 y0的最佳点估计是
    y ^ 0 = x 0 ′ β ^ . \hat y_0=x_0'\hat\beta. y^0=x0β^.
    但是这个点估计的精度如何,有赖于 y 0 − y ^ 0 y_0-\hat y_0 y0y^0的分布。显然有如下的结论:
    y ^ 0 ∼ N ( x 0 ′ β , σ 2 x 0 ′ ( C ′ C ) − 1 x 0 ) , y 0 − y ^ 0 ∼ N ( 0 , σ 2 [ 1 + x 0 ′ ( C ′ C ) − 1 x 0 ] ) . \hat y_0\sim N(x_0'\beta,\sigma^2x_0'(C'C)^{-1}x_0), \\ y_0-\hat y_0\sim N(0,\sigma^2[1+x_0'(C'C)^{-1}x_0]). y^0N(x0β,σ2x0(CC)1x0),y0y^0N(0,σ2[1+x0(CC)1x0]).
    因此,统计量为
    t = y 0 − y ^ 0 σ ^ 1 + x 0 ′ ( C ′ C ) − 1 x 0 ∼ t ( n − m − 1 ) , σ ^ 2 = Q n − m − 1 . t=\frac{y_0-\hat y_0}{\hat \sigma\sqrt{1+x_0'(C'C)^{-1}x_0}}\sim t(n-m-1),\quad \hat\sigma^2=\frac{Q}{n-m-1}. t=σ^1+x0(CC)1x0 y0y^0t(nm1),σ^2=nm1Q.
    基于此,可以在给定 α \alpha α的情况下得到 y 0 y_0 y0的置信区间。

    回顾总结

    1. 为了检验模型的有效度,需要检验假设 H 0 : β 1 = ⋯ = β m = 0 H_0:\beta_1=\cdots =\beta_m=0 H0:β1==βm=0,检验统计量为
      F = U / m Q / ( n − m − 1 ) = E S S / m R S S / ( n − m − 1 ) ∼ H 0 F ( m , n − m − 1 ) . F=\frac{U/m}{Q/(n-m-1)}=\frac{{\rm ESS}/m}{{\rm RSS}/(n-m-1)}\stackrel {H_0}\sim F(m,n-m-1). F=Q/(nm1)U/m=RSS/(nm1)ESS/mH0F(m,nm1).
      如果 F F F很大,p-value很小,就否定原假设,认为回归模型有效。

    2. 平方和分解公式: T S S = R S S + E S S , l y y = Q + U {\rm TSS=RSS+ESS},l_{yy}=Q+U TSS=RSS+ESS,lyy=Q+U。在给定预测值后, T S S {\rm TSS} TSS就是定值,不同回归曲线有不同的回归平方和 R S S {\rm RSS} RSS,最小二乘法得出的直线有最大的 R S S {\rm RSS} RSS。拟合优度就是 R 2 = E S S / T S S R^2={\rm ESS/TSS} R2=ESS/TSS,代表回归平方和在总偏差平方和中的占比,越大代表拟合优度越高。

    3. 将数据中心化,可以得到正规方程的等价形式: X ~ ′ X ~ B = X ~ ′ Y ~ \tilde X'\tilde XB=\tilde X'\tilde Y X~X~B=X~Y~,也即 L B = l LB=l LB=l,从而 B = L − 1 l B=L^{-1}l B=L1l。这里 X ~ , Y ~ \tilde X,\tilde Y X~,Y~都表示中心化后的数据矩阵。中心化的好处是去除了截距项 β ^ 0 ∗ \hat \beta_0^* β^0,这也说明
      β ^ 0 = y ˉ − ∑ i = 1 m β i x ˉ i . \hat \beta_0=\bar y-\sum_{i=1}^m \beta_i\bar x_i. β^0=yˉi=1mβixˉi.

    4. 为了检验变量的显著性,需要逐个检验假设 H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0,检验统计量为偏回归平方和的变换,即
      t i = P i Q / ( n − m − 1 ) = β ^ i / l i i Q / ( n − m − 1 ) ∼ H 0 t ( n − m − 1 ) , F i = P i Q / ( n − m − 1 ) = β ^ i 2 / l i i Q / ( n − m − 1 ) ∼ H 0 F ( 1 , n − m − 1 ) . t_i=\frac{\sqrt{P_i}}{\sqrt{Q/(n-m-1)}}=\frac{\hat\beta_i/\sqrt {l^{ii}}}{Q/(n-m-1)}\stackrel {H_0}\sim t(n-m-1), \\ F_i=\frac{P_i}{Q/(n-m-1)}=\frac{\hat\beta_i^2/l^{ii}}{Q/(n-m-1)}\stackrel {H_0}\sim F(1,n-m-1). ti=Q/(nm1) Pi =Q/(nm1)β^i/lii H0t(nm1),Fi=Q/(nm1)Pi=Q/(nm1)β^i2/liiH0F(1,nm1).
      这里 l i i l^{ii} lii指的是 L − 1 L^{-1} L1的第 i i i个对角元素, P i P_i Pi指的是偏回归平方和 U − U ( i ) U-U(i) UU(i)。如果 t i t_i ti或者 F i F_i Fi很大,p-value很小,就否定原假设,认为 x i x_i xi显著。

    5. 如果有一些自变量 x i x_i xi的显著性很差,则需要删除,每一步只能删除一个显著性最差、p-value最大的自变量,然后重新建立模型并计算。

    6. 在获得 β ^ \hat \beta β^后,预报误差服从以下正态分布: y 0 − y ^ 0 ∼ N ( 0 , σ 2 ( 1 + x 0 ′ ( C ′ C ) − 1 x 0 ) ) y_0-\hat y_0\sim N(0,\sigma^2(1+x_0'(C'C)^{-1}x_0)) y0y^0N(0,σ2(1+x0(CC)1x0)),所以构造以下枢轴量:
      y 0 − y ^ 0 σ ^ 2 ( 1 + x 0 ′ ( C ′ C ) − 1 x 0 ) ∼ t ( n − m − 1 ) , σ ^ 2 = Q n − m − 1 . \frac{y_0-\hat y_0}{\sqrt{\hat \sigma^2(1+x_0'(C'C)^{-1}x_0)}}\sim t(n-m-1),\quad \hat \sigma^2=\frac{Q}{n-m-1}. σ^2(1+x0(CC)1x0) y0y^0t(nm1),σ^2=nm1Q.
      可以构造 y 0 y_0 y0的置信水平为 α \alpha α的置信区间为 [ y 0 − d , y 0 + d ] [y_0-d,y_0+d] [y0d,y0+d],这里
      d = t α σ ^ 1 + x 0 ′ ( C ′ C ) − 1 x 0 . d=t_\alpha\hat \sigma\sqrt{1+x_0'(C'C)^{-1}x_0}. d=tασ^1+x0(CC)1x0 .

    展开全文
  • 关于一元回归检验中的F检验问题

    千次阅读 2019-09-18 23:42:29
    今天上多元回归的时候,学到经验回归方程进行检验的时候,到了FFF检验这里的时候,一直想不出来F=SSR/1SSE/(N−2)F=\frac{SSR/1}{SSE/(N-2)}F=SSE/(N−2)SSR/1​这个东西是怎么出来的。回寝室之后,想了许久并在...
  •  F 检验回归方程检验)  相关系数的显著性检验  样本决定系数  三种检验的关系 一、σ2 的估计  因为假设检验以及构造与回归模型有关的区间估计都需要σ2的估计量,所以先σ2作估计。  通过残差...
  • 多元线性回归模型的F检验

    万次阅读 2017-02-13 14:03:08
    F检验 对于多元线性回归模型,在每个回归系数进行显著性检验之前,应该对回归模型的整体做显著性检验。这就是F检验。当检验被解释变量yt与一组解释变量x1, x2 , ... , xk -1是否存在回归关系时,给出的零假设...
  • 【回归分析】[3]--回归方程的显著性检验 这篇文章准备使用一个例子来说明。 例子的数据: data2 = {{391.95, 488.51}, {516.98, 798.30}, {355.63, 235.08}, {238.55, 299.45}, {537.78, 559.09}, {733.78, ...
  • 回归分析】[5]--多元线性回归对参数的F检验  目标:为了检验  (a).多个系数同时为0  (b).系数相等  (c).系数存在线性关系  思想:  利用条件得到简化模型,用简化模型与原模型比较,若两
  • 多元线性回归分析理论详解及SPSS结果分析

    万次阅读 多人点赞 2017-05-17 16:23:23
    当影响因变量的因素是多个时候,这种一个变量同时与多个变量的回归问题就是多元回归,分为:多元线性回归和多元非线性回归。这里直说多元线性回归。对比一元线性回归: 1.1多元回归模型: y=β0+β1x1+β2x2+…+β...
  • spss进行多元线性回归并分析表格

    万次阅读 多人点赞 2019-04-01 00:50:26
    本博客主要包含以下内容: 1.如何使用spss进行多元线性回归。 2.分析生成结果,并判断回归是否可行。 一、使用spss进行多元线性回归: 1.输入数据 ...F的值是F检验的结果,他对应的P就是表格...
  • stata 线性回归分析基本操作

    万次阅读 多人点赞 2019-09-18 09:55:53
    一、线性回归基本命令 regress y x1 x2 (红色... 表上半部分为方差分析表,包括回归平方和,残差平方和,均方,F检验等。上半部分右侧给出拟合优度R2和调整的R2。root MSE 表示方程的标准误差。 表下半部分为...
  • 数学建模-多元线性回归(Stata实现)

    万次阅读 多人点赞 2019-09-24 17:31:53
    回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是, 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y...
  • 回归假设检验

    2021-07-20 21:05:24
    F检验回归系数的显著性检验: 回归系数的显著性检验是为了说明单个自变量在模型中是否有效,即自变量因变量是否具有重要意义。这种检验则是出于单个变量的肯定与否。 (t检验) 模型的显著性检验——F检验 ...
  • 线性回归中的假设检验及Python编程0 引言1 一元线性回归模型2 对于回归方程的检验F检验T检验一元线性回归的Python编程实现与 `statsmodels` 包的对比关于多元线性回归 0 引言 本文介绍一元线性回归的基本假设,推导...
  • 通常对于一组特征数据和其标记值:(x1,y1),(x2,y2)......(xn,yn)在使用特征值对进行预测时,根据习惯,如果是连续的,则称这种操作或者技术为回归;如果是离散的,则通常称为分类。 线性回归模型可以描述为:。 ....
  • 线性回归标准化 R^2, T检验, F检验

    万次阅读 2018-05-13 16:29:46
    标准化方法:即将原始数据减去相应变量的均数后再除以该变量的标准差,而标准化得到的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数。2、T检验T检验各个回归系数的检验,绝对值越大,sig就越小,...
  • 一、力学公式1、 胡克定律: F = Kx (x为伸长量或压缩量,K为倔强系数,只与弹簧的原长、粗细和材料有关) 2、 重力: G = mg (g随高度、纬度、地质结构而变化)3 、求F、的合力的公式:αF2F F1θ = 合力的方向与F1...
  • 回归方程显著性检验——F检验3. 拟合优度评价指标I——R方/改进R方4. 拟合优度评价指标AIC/BIC/SIC写在最后 1. 单参数显著性检验——t检验 2. 回归方程显著性检验——F检验 3. 拟合优度评价指标I——R方/改进R方 4....
  • 现在用 Python 写线性回归的博客都快烂大街了,为什么还要用 SPSS 做线性回归呢?这就来说说 SPSS 存在的原因吧。 SPSS 是一个很强大的软件,不用编程,不用调参,点巴两下就出结果了,而且出来的大多是你想要的。...
  • SPSS(五)SPSS之相关分析与线性回归模型(图文+数据集) 在讲解线性回归模型之前,先来学习相关分析的知识点,因为相关分析与回归有着密切的联系 相关分析 任意多个变量都可以考虑相关问题,不单单局限于两个...
  • 多元线性回归模型检验方法

    万次阅读 2019-08-10 22:07:21
    终于找到一篇全面而又简洁的讲多元线性回归模型检验方法的文章 PDF下载地址 链接:https://pan.baidu.com/s/1UbyZcMC1VRTmlCEaX4Vybg 提取码:g481 具体内容 一、经济意义检验 经济意义检验主要检验模型参数估计量在...
  • codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6842 on 8 degrees of freedom Multiple R-squared: 0.9631, Adjusted R-squared: 0.9585 F-statistic: 209 on 1 ...
  • 多元线性回归检验

    千次阅读 2020-07-13 10:43:33
    F检验整体回归方程显著性的检验,即所有变量被解释变量的显著性检验 F检验其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。 3.P值 P值...
  • 2.线性方程的相关计算 x=[1,2,3,4,5]';%参数矩阵 X=[ones(5,1),x];%产生一个5行一列的矩阵,后接x矩阵 Y=[3.95,5.23,7.6,9.48,11.89]'; [b,bint,r,rint,stats]=regress(Y,X) %b为方程相关系数 %r表示...
  • 之前上学时计量经济学的模型实现总是用Eviews等...多元线性回归和显著性检验(参数估计、T检验、F检验、拟合优度) 多重共线性(导致结果、检验——方差膨胀因子、补救措施——岭回归) 异方差(导致结果、检验——W...
  • VB开发,可计算多元线性回归方程,并进行方程F检验和偏回归显著性检验

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,194
精华内容 1,677
关键字:

对回归方程进行f检验