精华内容
下载资源
问答
  • 回归方程及回归系数的显著性检验
    千次阅读
    2020-12-11 09:53:34

    .

    3

    回归方程及回归系数的显著性检验

    §

    1、回归方程的显著性检验

    回归平方和与剩余平方和

    (1)

    与自变量

    ,

    是否确实存在线性关系呢?这回归效果如何呢?因变量

    建立回归方程以后

    我们要进一步研究因变

    ,

    为此

    ,

    取值的变化规律。

    的每次是需要进行统计检验才能加以肯定或否定

    常用该次观

    侧值

    ,

    每次观测值是有波动的

    ,

    这种波动常称为变差

    ,

    的变差大小取值

    而全部次观测

    值的总变差可由总的来表示

    ,

    的差

    (

    称为离差与次观测值的平均值

    )

    离差平方和

    ,

    :

    其中

    与均值之差的平方和

    , ,

    是回归值

    它反映了自变量

    称为回归平方和

    (

    其自由度为自变量的个数

    )

    的变化所引起的的波动

    ,

    与回归值之差的平方和是实测值

    ,

    称为剩余平方和

    (

    或称残差平方和

    ),

    的自由度

    为其自由度。是由试验误差及其它因素引起的

    ,

    。总的离差平方和

    ,

    反之因此

    ,

    即小大则是确定的

    , ,

    如果观测值给定

    ,

    是确定的则总的离差平方和

    且回归平方和越

    大则线性回归效果越显著

    ,

    小则大

    ,

    所以与

    ,

    或者说剩都可用来衡量回归效果

    如果

    ;

    =如果

    0,

    越小回归

    效果越显著则线性回归效果大

    ,

    余平方和

    ,

    则回归超平面过所有观测点

    不好。

    复相关系数

    (2)

    人们也常引用无量纲指标为检验总的回归效果

    ,

    , (3.1)

    1 / 6

    .

    , (3.2)

    称为复相关系数。因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”

    ,

    因此就

    此。是这种贡献在总回归平方和中所占的比例显然

    ,

    表示全部自变量与因变量的相关程度。

    , ,

    因此它可以作为检

    验总的回归效果的一个指标。但应注意与复相关系数越接近1

    ,

    回归效果就越好

    因此实际值相对

    于并不很大时

    ,

    及观测组数回归方程中自变量的个数有关

    , ,

    当常有较大的

    一般认为应取的5到计

    算中应注意的适当比例倍为宜。

    ,

    10

    至少为

    检验

    (3)

    要检验与是否存在线性关系

    ,

    就是要检验假设

    , (3.3)

    应用统计量当假设无线性关系

    ,

    成立时

    ,

    否则认为线性关系显著。检验假设则与

    , (3.4)

    它服从自由度为及这是两个方差之比的分布

    ,

    ,

    , (3.5)

    应有统计量下

    ,

    用此统计量

    ,

    成立则当给定检验水平可检验回归的总体效果。如果假设α

    , (3.6)

    由α

    ,

    值为的值分布表可查得

    ,

    如果根据统计量算得的对于给定的置信度

    ,

    ,

    即不能认为全部

    ,

    则拒绝假设个自变量的总体回归效果是显著的为

    O,

    更多相关内容
  • python进行回归方程显著性检验

    千次阅读 热门讨论 2021-03-22 20:59:25
    回归分析就是具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动的数学表达式,以便因变量进行估计或预测的统计分析方法。

    本篇博客的重点不在于回归模型的建立,而在于模型建立后的显著性检验。

    1.回归分析

    1.1 定义

      回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动的数学表达式,以便对因变量进行估计或预测的统计分析方法。回归分析的数学描述如下:
      假设变量 x 1 , x 2 , x 3 , … , x k x_{1},x_{2},x_{3},\dots,x_{k} x1,x2,x3,,xk与随机变量 y y y之间存在较显著的相关关系,则就有以下的回归模型: y = f ( x 1 , x 2 , x 3 , … , x k ) + ϵ y=f(x_{1},x_{2},x_{3},\dots,x_{k})+\epsilon y=f(x1,x2,x3,,xk)+ϵ其中 ϵ \epsilon ϵ为随机变量。而常用的回归模型是以下的线性形式: y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k + ϵ y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+\cdots+\beta_{k}x_{k}+\epsilon y=β0+β1x1+β2x2++βkxk+ϵ

    1.2 步骤

    (1)根据研究目的和现象之间的内在联系,确定自变量和因变量。
      做回归分析时,应该首先从理论出发进行定性分析,根据现象的内在联系确定变量之间的因果关系,从而确定哪个为自变量,哪个为因变量。
    (2)确定回归分析模型的类型及数学表达式。
      根据现象之间的内在影响机制或通过对具体变量数据描点分析,找出最适合的回归分析模型,再通过计算求出模型的待估参数,得到回归方程。常用的估计方法有普通最小平方法、岭回归、偏最小平方法回归、约束最小平方法回归,主成分回归。
    (3)对回归分析模型进行评价和诊断。
      得到具体的回归方程以后,要对其进行统计检验,来对回归方程的代表性及拟合程度进行拟合。

    2.回归方程的统计检验

      对于所拟合的回归模型,需要检验其合理性。检验的内容包括:模型的参数取值含义是否符合经济意义,模型的参数在统计意义上是否显著,模型整体的拟合效果是否理想,模型的假设条件是否满足。

    2.1 模型整体拟合效果的显著性检验

      记实际观察值为 y i y_{i} yi,回归方程拟合的理论值(预测值)为 y c i y_{c_{i}} yci,观察值的平均值为 y ‾ \overline{y} y,则在最小平方法之下 y c ‾ \overline{y_{c}} yc y ‾ \overline{y} y是相等的。根据方差分析原理,则有 ∑ ( y − y ‾ ) 2 = ∑ ( y c − y ‾ ) 2 + ∑ ( y − y c ) 2 \sum(y-\overline{y})^{2}=\sum(y_{c}-\overline{y})^{2}+\sum(y-y_{c})^{2} (yy)2=(ycy)2+(yyc)2 S S T = S S R + S S E SST=SSR+SSE SST=SSR+SSE在误差项服从正太分布的情况下,应该有 S S R ∼ χ 2 ( k ) , S S E ∼ χ 2 ( n − k − 1 ) SSR\sim\chi^{2}(k),SSE\sim\chi^{2}(n-k-1) SSRχ2(k),SSEχ2(nk1)所以有 F F F统计量 F = S S R / k S S E / ( n − k − 1 ) ∼ F ( k , n − k − 1 ) F=\frac{SSR/k}{SSE/(n-k-1)}\sim F(k,n-k-1) F=SSE/(nk1)SSR/kF(k,nk1)显然,回归方程拟合效果越好,表明方程解释部分所占比重越大, S S R SSR SSR S S E SSE SSE相比的值也越大, F F F统计量也越大。因此,方程整体显著性检验的假设为: H 0 : β 0 = β 1 = β 2 = ⋯ = β k = 0 H_{0}:\beta_{0}=\beta_{1}=\beta_{2}=\dots=\beta_{k}=0 H0:β0=β1=β2==βk=0 H 1 : β 0 ≠ 0 或 β 1 ≠ 0 或 … 或 β k ≠ 0 H_{1}:\beta_{0}\neq0或\beta_{1}\neq0或\dots或\beta_{k}\neq0 H1:β0=0β1=0βk=0再给定显著性水平 α \alpha α下,若 F > F α ( 1 , n − 2 ) F>F_{\alpha}(1,n-2) F>Fα(1,n2)则拒绝原假设,认为回归方程整体是显著的。

    2.2 模型参数显著性检验

      模型参数显著性检验主要是判断每一个自变量对于回归模型是否必要。对于回归方程的单个参数进行 t t t检验,对于回归方程中的每个参数 β i \beta_{i} βi,其假设如下: H 0 i : β i = 0 , i = 0 , 1 , … , k H_{0i}:\beta_{i}=0,i=0,1,\dots,k H0i:βi=0,i=0,1,,k H 1 i : β i ≠ 0 , i = 0 , 1 , … , k H_{1i}:\beta_{i}\neq0,i=0,1,\dots,k H1i:βi=0,i=0,1,,k t t t检验统计量为: t = β i σ ^ y x c i i ∼ t ( n − k − 1 ) t=\frac{\beta_{i}}{ \widehat \sigma_{yx}\sqrt{c_{ii}}}\sim t(n-k-1) t=σ yxcii βit(nk1)其中 c i i c_{ii} cii为矩阵 ( X T X ) − 1 (X^{T}X)^{-1} (XTX)1对角线上第 i i i个元素, σ ^ y x \widehat \sigma_{yx} σ yx的计算公式如下: σ ^ y x = ∑ ( y − y c ) 2 n − k − 1 \widehat \sigma_{yx}=\sqrt{\frac{\sum(y-y_{c})^{2}}{n-k-1}} σ yx=nk1(yyc)2
      python中的statsmodel包中已经集成了完整的回归方程显著性检验。具体示例如下:

    import pandas as pd
    from sklearn.datasets import load_boston
    from scipy import stats
    import statsmodels.api as sm
    import numpy as np
    
    boston=load_boston()
    X=pd.DataFrame(boston.data,columns=boston.feature_names)
    y=pd.DataFrame(boston.target,columns=['target'])
    
    X=sm.add_constant(X) #添加常数项
    model=sm.OLS(y,X)
    results=model.fit()
    y_pred=pd.DataFrame(model.predict(results.params,X),
                        columns=['pred'])
    print(results.summary())
    
    """
    自写代码计算过程
    SSR=np.dot(y_pred['pred']-y['target'].mean(),y_pred['pred']-y['target'].mean())
    SSE=np.dot(y_pred['pred']-y['target'],y_pred['pred']-y['target'])
    
    (1)回归方程显著性检验
    f_val=(SSR/13)/(SSE/492)
    f_pval=stats.f.sf(f_val,13,492)
    
    (2)单个参数的显著性检验
    ttest_result=pd.DataFrame(None,index=X.columns,columns=['tval','pval'])
    error=np.dot(y['target']-y_pred['pred'],y['target']-y_pred['pred'])
    S = np.array(np.linalg.inv(np.dot(np.mat(X).T,X)))
    for i,col in enumerate(X.columns):
        tval=results.params[col]/np.sqrt((error/492)*S[i][i])
        ttest_result.loc[col,'tval']=tval
        pval=stats.t.sf(np.abs(tval),df=492)*2
        ttest_result.loc[col,'pval']=pval
    """
    

    其结果如下:
    在这里插入图片描述
      从上述试验结果中可以发现,变量INDUS和AGE对回归方程是不显著的,可以从回归方程中剔除这两个变量。

    参考资料

    1. https://www.cnblogs.com/tangxianwei/p/8323495.html
    2. https://blog.csdn.net/u011517132/article/details/105286113
    展开全文
  • 1、回归方程显著性检验(1) 回归平方和与剩余平方和建立回归方程以后, 回归效果如何呢?因变量与自变量是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值的变化...

    1、回归方程的显著性检验

    (1) 回归平方和与剩余平方和

    建立回归方程以后, 回归效果如何呢?因变量

    image1669.gif与自变量

    image1671.gif是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量

    image1672.gif取值的变化规律。

    image1673.gif的每次取值

    image1675.gif是有波动的, 这种波动常称为变差, 每次观测值

    image1677.gif的变差大小, 常用该次观侧值

    image1679.gif9774ee2de1f1488e7a00b8860581cac0.gif次观测值的平均值0f5f7a1c3d4a222490a3f453b3d3af62.gif的差

    image1685.gif(称为离差)来表示, 而全部

    image1687.gif次观测值的总变差可由总的离差平方和

    2729b79745f57155b895518ec108fbe7.gif,

    其中:

    7d3c28ec56fa9209a956879507a06160.gif称为回归平方和, 是回归值

    image1693.gif与均值

    image1695.gif之差的平方和, 它反映了自变量

    image1697.gif的变化所引起的

    image1698.gif的波动, 其自由度

    image1700.gif(6cd341c19f752279b7a1d98944289527.gif为自变量的个数)。

    9e4c3709062f6101bb91e947d4248a63.gif称为剩余平方和(或称残差平方和), 是实测值

    image1706.gif与回归值

    image1708.gif之差的平方和, 它是由试验误差及其它因素引起的, 其自由度

    image1710.gif。总的离差平方和a1ab40d8645ce1b2f11189e99a0d832e.gif的自由度为

    image1714.gif

    如果观测值给定, 则总的离差平方和

    image1716.gif是确定的, 即

    image1718.gif是确定的, 因此

    image1720.gif大则

    image1722.gif小, 反之,

    image1724.gif小则

    image1726.gif大, 所以

    image1728.gif

    image1730.gif都可用来衡量回归效果, 且回归平方和

    image1732.gif越大则线性回归效果越显著, 或者说剩余平方和

    image1734.gif越小回归效果越显著, 如果

    image1736.gif=0, 则回归超平面过所有观测点; 如果

    image1738.gif大, 则线性回归效果不好。

    (2) 复相关系数

    为检验总的回归效果, 人们也常引用无量纲指标

    4e076bb4dd3742313ef2d74e52618a04.gif, (3.1)

    5053505d2d7b38e12556c3dbdc208c44.gif, (3.2)

    image1744.gif称为复相关系数。因为回归平方和

    image1746.gif实际上是反映回归方程中全部自变量的“方差贡献”, 因此

    image1748.gif就是这种贡献在总回归平方和中所占的比例, 因此

    image1750.gif表示全部自变量与因变量

    image1752.gif的相关程度。显然

    image1754.gif。复相关系数越接近1, 回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。但应注意,

    image1756.gif与回归方程中自变量的个数

    image1758.gif及观测组数

    image1760.gif有关, 当

    image1762.gif相对于

    image1764.gif并不很大时, 常有较大的

    image1766.gif值, 因此实际计算中应注意

    image1768.gif

    image1770.gif的适当比例, 一般认为应取

    image1772.gif至少为

    image1774.gif的5到10倍为宜。

    (3)

    image1776.gif检验

    要检验

    image1778.gif

    image1780.gif是否存在线性关系, 就是要检验假设

    image1782.gif, (3.3)

    当假设

    image1784.gif成立时, 则075572fde2909b0a1e04a3982e6bb83e.gif

    image1788.gif无线性关系, 否则认为线性关系显著。检验假设

    image1790.gif应用统计量

    6d133ffc7f972dbe704c37f71c735d6c.gif, (3.4)

    这是两个方差之比, 它服从自由度为

    image1794.gif

    image1796.gif

    image1798.gif分布, 即

    1d97cad29e73f5e7f81467cff633a3a1.gif, (3.5)

    用此统计量

    image1802.gif可检验回归的总体效果。如果假设

    image1804.gif成立, 则当给定检验水平α下, 统计量

    image1806.gif应有

    image1808.gif

    image1810.gif, (3.6)

    对于给定的置信度α, 由

    image1812.gif分布表可查得

    image1814.gif的值, 如果根据统计量算得的

    image1816.gif值为

    image1818.gif, 则拒绝假设

    image1820.gif, 即不能认为全部

    image1822.gif为O, 即

    image1824.gif个自变量的总体回归效果是显著的, 否则认为回归效果不显著。

    利用

    image1826.gif检验对回归方程进行显著性检验的方法称为方差分析。上面对回归效果的讨论可归结于一个方差分析表中, 如表3.1。

    表3.1 方差分析表

    来 源

    平方和

    自由度

    方 差

    方差比

    回 归

    2d4a9c2b1ce2bd4d6eba0baff8641cdf.gif

    image1830.gif

    image1832.gif

    b063cd2891664fe3d09364caf645d6fa.gif

    剩 余

    191e6ce7e8713f4cdb8220a9c4ec0f1a.gif

    image1838.gif

    image1840.gif

    总 计

    33ecac2e7978063b87750d70c4d63ba9.gif

    image1844.gif

    根据

    image1846.gif

    image1847.gif的定义, 可以导出

    image1849.gif

    image1851.gif的以下关系:

    2c9bf3ba69731dbd7a1b82f9a0b86843.gif,

    beb1e2266ac13533624adcb1c5a08d35.gif

    利用这两个关系式可以解决

    image1857.gif值多大时回归效果才算是显著的问题。因为对给定的检验水平α, 由

    image1859.gif分布表可查出

    image1861.gif的临界值

    image1863.gif, 然后由

    image1865.gif即可求出

    image1867.gif的临界值

    image1869.gif:

    e3008adf876edd8de3d6c2dc07572ab0.gif, (3.7)

    image1873.gif时, 则认为回归效果显著。

    例3.1 利用方差分析对例2.1的回归方程进行显著性检验。

    方差分析结果见表3.2。

    表3.2

    来 源

    平方和

    自由度

    方 差

    方差比

    回 归

    image1875.gif

    image1877.gif

    image1879.gif

    image1881.gif

    剩 余

    image1883.gif

    image1885.gif

    image1887.gif

    总 计

    image1889.gif

    image1891.gif

    取检验水平α=0.05, 查

    image1893.gif分布表得

    image1895.gif, 而

    image1897.gif, 所以例2.1的回归方程回归效果是显著的。

    前面讨论了回归方程中全部自变量的总体回归效果, 但总体回归效果显著并不说明每个自变量

    image1899.gif对因变量

    image1901.gif都是重要的, 即可能有某个自变量

    image1903.gif

    image1905.gif并不起作用或者能被其它的

    image1907.gif的作用所代替, 因此对这种自变量我们希望从回归方程中剔除, 这样可以建立更简单的回归方程。显然某个自变量如果对

    image1908.gif作用不显著, 则它的系数

    image1910.gif就应取值为0, 因此检验每个自变量

    image1912.gif是否显著, 就要检验假设:

    image1914.gif,

    image1916.gif, (3.8)

    (1)

    image1918.gif检验:

    image1920.gif假设下, 可应用

    image1922.gif检验:

    8fb866f631703652291a83e806db1909.gif,

    image1925.gif, (3.9)

    其中

    image1927.gif为矩阵

    image1929.gif的对角线上第

    image1931.gif个元素。

    对给定的检验水平α, 从

    image1933.gif分布表中可查出与α对应的临界值

    image1935.gif, 如果有

    image1937.gif, 则拒绝假设

    image1939.gif, 即认为

    image1941.gif与0有显著差异, 这说明

    image1943.gif

    image1945.gif有重要作用不应剔除; 如果有

    image1947.gif则接受假设

    image1949.gif, 即认为

    image1951.gif成立, 这说明

    image1953.gif

    image1955.gif不起作用, 应予剔除。

    (2)

    image1957.gif检验:

    检验假设

    image1959.gif, 亦可用服从自由度分别为1与

    image1961.gif

    image1963.gif分布的统计量

    e4b3fee3188c859279da5d71df0ac633.gif, (3.10)

    其中

    image1967.gif为矩阵

    image1969.gif的主对角线上第

    image1971.gif个元素。对于给定的检验水平α, 从

    image1972.gif分布表中可查得临界

    image1974.gif, 如果有

    image1976.gif, 则拒绝假设

    image1978.gif, 认为

    image1980.gif

    image1982.gif有重要作用。如果

    image1984.gif, 则接受假设

    image1986.gif, 即认为自变量

    image1988.gif

    image1990.gif不起重要作用, 可以剔除。一般一次

    image1992.gif检验只剔除一个自变量, 且这个自变量是所有不显著自变量中

    image1993.gif值最小者, 然后再建立回归方程, 并继续进行检验, 直到建立的回归方程及各个自变量均显著为止。

    最后指出, 上述对各自变量进行显著性检验采用的两种统计量

    image1995.gif

    image1997.gif实际上是等价的, 因为由(3.9)式及(3.10)式知, 有

    image1999.gif (3.11)

    例3.2 对例2.1的回归方程各系数进行显著性检验。

    经计算:

    8f0fdbcb926e951ceb75a24692d1617c.gif,

    于是

    1c85e285d1272104081f61d99991b7bd.gif,

    其中

    image2005.gif=0.002223,

    image2007.gif=0.004577。由(3.7)式知

    6cfd462483fc729364fed492700de69d.gif,

    8b15760b406fb02e198b5ad77ae06336.gif,

    image2013.gif分布表得,

    image2015.gif, 因为

    image2017.gif,

    image2019.gif, 所以两个自变量

    image2021.gif

    image2023.gif都是显著的。又由

    image2025.gif, 说明体长

    image2027.gif比胸围

    image2029.gif对体重

    image2031.gif的影响更大。

    如果应用

    image2033.gif检验, 查

    image2035.gif分布表有

    image2037.gif, 又由

    4c1a377badc04199d1b4e737f8650ce5.gif,

    906b5c7a545817d923e6d3b4496be6bd.gif,

    因为

    image2043.gif,

    image2045.gif, 因此

    image2047.gif

    image2049.gif都是显著的, 均为重要变量, 应保留在回归方程中。

    (3) 偏回归平方和

    检验某一自变量是否显著, 还可应用偏回归平方和进行检验。

    image2051.gif个自变量

    image2053.gif的回归平方和为

    image2055.gif,

    如果自

    image2057.gif个自变量中去掉

    image2059.gif, 则剩下的

    image2061.gif个自变量的回归平方和设为

    image2063.gif, 并设

    image2065.gif,

    image2067.gif就表示变量

    image2069.gif在回归平方和

    image2071.gif中的贡献,

    image2073.gif称为

    image2075.gif的偏回归平方和或贡献。可以证明

    ede5feaef677cd002e3ae9ddc5a92d83.gif, (3.12)

    偏回归平方和

    image2079.gif越大, 说明

    image2081.gif在回归方程中越重要, 对

    image2083.gif的作用和影响越大, 或者说

    image2085.gif对回归方程的贡献越大。因此偏回归平方和也是用来衡量每个自变量在回归方程中作用大小(贡献大小)的一个指标。

    例如在例2.1中,

    image2086.gif

    image2088.gif的偏回归平方和分别为

    f847e18401abbfd4d2742d350e842606.gif,

    26808617312214cc5d7708c432b9d492.gif,

    image2094.gif, 说明在回归方程中

    image2095.gif的作用比

    image2096.gif大。

    又如在例2.2中

    image2098.gif

    image2100.gif的偏回归平方和分别为:

    1951aa8ae4dbc76e7d9dac3ff2e403e6.gif,

    c98a8be1db4ec3f3cf813e98f4f28e39.gif,

    f2c6c0cd618cc253784b98119b841534.gif,

    1a43c4c6d5673d608d240fde6ff387f8.gif,

    image2110.gif的值最小, 即

    image2112.gif在回归方程中所起的作用最小,

    image2114.gif最大, 说明

    image2116.gif在回归方程中所起的作用最大。

    喜欢 (5)or分享 (0)

    展开全文
  • 回归方程的预报精度 回顾总结 十一、回归方程与回归系数的显著性检验 回归方程显著性检验,检验的是我们建立线性回归方程的合理性,因为我们不能肯定模型是正确的,也就是说我们需要检验 YYY与 x1,⋯ ,xmx_1,\...

    十一、回归方程与回归系数的显著性检验

    回归方程的显著性检验,检验的是我们建立线性回归方程的合理性,因为我们不能肯定模型是正确的,也就是说我们需要检验 Y Y Y x 1 , ⋯   , x m x_1,\cdots,x_m x1,,xm之间是否存在着线性关系,或者只跟其中的一部分变量存在线性关系。事实上,如果 Y Y Y x 1 , ⋯   , x m x_1,\cdots,x_m x1,,xm之间均无线性相关关系,则 β i \beta_i βi应均为0,所以我们要检验的假设是
    H 0 : β 1 = β 2 = ⋯ = β m = 0. H_0:\beta_1=\beta_2=\cdots =\beta_m=0. H0:β1=β2==βm=0.

    1.平方和分解

    为了检验这个假设,我们需要找到一个检验统计量,平方和分解公式就提供了一种求检验统计量的方式。平方和分解公式指的是
    ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 , \sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n(y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2, i=1n(yiyˉ)2=i=1n(yiy^i)2+i=1n(y^iyˉ)2,
    这里 y ˉ = 1 n ∑ i = 1 n y i \bar y=\frac 1n\sum_{i=1}^n y_i yˉ=n1i=1nyi y ^ i = β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ m x i m \hat y_i=\hat \beta_0+\hat\beta_1x_{i1}+\cdots+\hat\beta_mx_{im} y^i=β^0+β^1xi1++β^mxim β ^ \hat\beta β^ β \beta β的最小二乘估计即 β ^ = ( C ′ C ) − 1 C ′ Y \hat\beta=(C'C)^{-1}C'Y β^=(CC)1CY

    先进行普通的分解,即
    ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n [ ( y i − y ^ i ) + ( y ^ i − y ˉ ) ] 2 = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n ( y i − y ^ i ) ( y ^ i − y ˉ ) = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n e i ( y ^ i − y ˉ ) . \begin{aligned} \sum_{i=1}^n(y_i-\bar y)^2=&\sum_{i=1}^n[(y_i-\hat y_i)+(\hat y_i-\bar y)]^2 \\ =&\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2+2\sum_{i=1}^n (y_i-\hat y_i)(\hat y_i-\bar y)\\ =&\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2+2\sum_{i=1}^ne_i(\hat y_i-\bar y). \end{aligned} i=1n(yiyˉ)2===i=1n[(yiy^i)+(y^iyˉ)]2i=1n(yiy^i)2+i=1n(y^iyˉ)2+2i=1n(yiy^i)(y^iyˉ)i=1n(yiy^i)2+i=1n(y^iyˉ)2+2i=1nei(y^iyˉ).
    接下来只需要证明交叉项为0,有
    ∑ i = 1 n e i ( y ^ i − y ˉ ) = ∑ i = 1 n e i ( β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ m x i m − y ˉ ) = ( β ^ 0 − y ˉ ) ∑ i = 1 n e i + β ^ 1 ∑ i = 1 n e i x i 1 + ⋯ + β ^ m ∑ i = 1 n e i x i m \begin{aligned} &\sum_{i=1}^ne_i(\hat y_i-\bar y) \\ =&\sum_{i=1}^ne_i(\hat\beta_0+\hat\beta_1x_{i1}+\cdots+\hat\beta_mx_{im}-\bar y)\\ =&(\hat\beta_0-\bar y)\sum_{i=1}^n e_i+\hat\beta_1\sum_{i=1}^ne_ix_{i1}+\cdots+\hat\beta_m\sum_{i=1}^n e_ix_{im} \end{aligned} ==i=1nei(y^iyˉ)i=1nei(β^0+β^1xi1++β^mximyˉ)(β^0yˉ)i=1nei+β^1i=1neixi1++β^mi=1neixim
    接下来回到最小二乘法的原理上,由于我们在前面的推导中,得到了 C ′ C β ^ = C ′ Y C'C\hat\beta=C'Y CCβ^=CY的结果,观察其第 t + 1 t+1 t+1行,有
    ∑ j = 0 m β ^ j ∑ i = 1 n x i t x i j = ∑ i = 1 n x i t y i ∑ j = 0 m ∑ i = 1 n β ^ j x i t x i j = ∑ i = 1 n x i t ( ∑ j = 0 m β ^ j x i j + e i ) = ∑ i = 1 n ∑ j = 0 m β ^ j x i t x i j + ∑ i = 1 n e i x i t \sum_{j=0}^m\hat\beta_j\sum_{i=1}^nx_{it}x_{ij}=\sum_{i=1}^n x_{it}y_i\\ \sum_{j=0}^m\sum_{i=1}^n \hat\beta_jx_{it}x_{ij}=\sum_{i=1}^nx_{it}(\sum_{j=0}^m\hat\beta_jx_{ij}+e_i)=\sum_{i=1}^n\sum_{j=0}^m\hat\beta_jx_{it}x_{ij}+\sum_{i=1}^ne_ix_{it} j=0mβ^ji=1nxitxij=i=1nxityij=0mi=1nβ^jxitxij=i=1nxit(j=0mβ^jxij+ei)=i=1nj=0mβ^jxitxij+i=1neixit
    也就是
    ∑ i = 1 n e i x i t = 0. \sum_{i=1}^ne_ix_{it}=0. i=1neixit=0.
    代入 t = 0 , 1 , ⋯   , m t=0,1,\cdots,m t=0,1,,m就得到了交叉项为0的结果,所以平方和分解公式成立。

    再观察平方和分解式子,左边的 ∑ i = 1 n ( y i − y ˉ ) 2 \sum_{i=1}^n(y_i-\bar y)^2 i=1n(yiyˉ)2是样本观测值对样本均值的波动大小,记作总偏差平方和 T S S {\rm TSS} TSS l y y l_{yy} lyy;右边的第一项 ∑ i = 1 n ( y i − y ^ i ) 2 \sum_{i=1}^n(y_i-\hat y_i)^2 i=1n(yiy^i)2是残差平方和 R S S {\rm RSS} RSS Q Q Q,第二项 ∑ i = 1 n ( y ^ i − y ˉ ) 2 \sum_{i=1}^n(\hat y_i-\bar y)^2 i=1n(y^iyˉ)2是由回归曲线决定的,称为回归平方和 E S S , M S S {\rm ESS,MSS} ESS,MSS U U U。这样,式子又可以写成
    T S S = E S S + R S S , l y y = U + Q . {\rm TSS}={\rm ESS}+{\rm RSS},\\ l_{yy}=U+Q. TSS=ESS+RSS,lyy=U+Q.

    2.回归方程的假设检验

    对于假设检验问题 H 0 : β 1 = β 2 = ⋯ = β m = 0 H_0:\beta_1=\beta_2=\cdots =\beta_m=0 H0:β1=β2==βm=0,如果回归曲线表现得好,残差平方和应该尽可能小,也就是 R S S , Q {\rm RSS},Q RSS,Q会尽可能小;所以回归曲线表现的好也体现在 E S S {\rm ESS} ESS T S S {\rm TSS} TSS占据较大的比例,相应的 R S S {\rm RSS} RSS占据比例就会比较小,因此我们构造检验统计量为 E S S / R S S {\rm ESS/RSS} ESS/RSS。并且有定理指出,在 H 0 H_0 H0成立时,
    Q σ 2 ∼ χ n − m − 1 2 , U σ 2 ∼ χ m 2 , U / m Q / ( n − m − 1 ) = E S S / m R S S / ( n − m − 1 ) ∼ H 0 F ( m , n − m − 1 ) . \frac{Q}{\sigma^2}\sim \chi^2_{n-m-1},\quad\frac{U}{\sigma^2}\sim \chi^2_m,\\ \frac{U/m}{Q/(n-m-1)}=\frac{{\rm ESS}/m}{{\rm RSS}/(n-m-1)}\stackrel {H_0}\sim F(m,n-m-1). σ2Qχnm12,σ2Uχm2,Q/(nm1)U/m=RSS/(nm1)ESS/mH0F(m,nm1).
    如果检验统计量很大,检验的p-value很小,则应该否定 H 0 H_0 H0,就认为回归关系是存在的

    3.中心化的等价形式

    在计量经济学中,我们常常用小写字母表示中心化后的数据,所以我们现在尝试将数据中心化。将回归模型 Y = C β + ε Y=C\beta +\varepsilon Y=Cβ+ε中心化,得到的新回归模型可以写成如下的等价形式:
    y i − y ˉ = β 0 ∗ + β 1 ( x i 1 − x ˉ i ) + ⋯ + β m ( x i m − x ˉ m ) + ε i , ( i = 1 , 2 , ⋯   , n ) ε ∼ N n ( 0 , σ 2 I n ) . y_i-\bar y=\beta_0^*+\beta_1(x_{i1}-\bar x_i)+\cdots+\beta_m(x_{im}-\bar x_m)+\varepsilon_i,\quad (i=1,2,\cdots,n) \\ \varepsilon\sim N_n(0,\sigma^2I_n). yiyˉ=β0+β1(xi1xˉi)++βm(ximxˉm)+εi,(i=1,2,,n)εNn(0,σ2In).
    这里 β 0 ∗ = β 0 − y ˉ + ∑ i = 1 n β i x ˉ i \beta_0^* =\beta_0-\bar y+\sum_{i=1}^n \beta_i\bar x_i β0=β0yˉ+i=1nβixˉi,但事实上,中心化式子的好处是我们可以证明 β ^ 0 ∗ = 0 \hat \beta_0^*=0 β^0=0。接下来我们在矩阵形式中予以证明,试写出矩阵形式,作以下标记
    β ~ = [ β 0 ∗ β 1 ⋮ β m ] = [ β 0 ∗ B ] , Y ~ = [ y 1 − y ˉ y 2 − y ˉ ⋮ y n − y ˉ ] , X ~ = [ x 11 − x ˉ 1 x 12 − x ˉ 2 ⋯ x 1 m − x ˉ m x 21 − x ˉ 1 x 22 − x ˉ 2 ⋯ x 2 m − x ˉ m ⋮ ⋮ ⋮ x n 1 − x ˉ 1 x n 2 − x ˉ 2 ⋯ x n m − x ˉ m ] , C ~ = ( 1 ∣ X ~ ) . \tilde \beta=\begin{bmatrix} \beta_0^* \\ \beta_1 \\ \vdots \\ \beta_m \end{bmatrix}=\begin{bmatrix} \beta_0^* \\ B \end{bmatrix},\quad \tilde Y=\begin{bmatrix} y_1 - \bar y \\ y_2 - \bar y \\ \vdots \\ y_n-\bar y \end{bmatrix}, \\ \tilde X=\begin{bmatrix} x_{11}-\bar x_1 & x_{12}-\bar x_2 & \cdots & x_{1m}-\bar x_m \\ x_{21}-\bar x_1 & x_{22}-\bar x_2 & \cdots & x_{2m}-\bar x_m \\ \vdots & \vdots & & \vdots \\ x_{n1}-\bar x_1 & x_{n2}-\bar x_2 & \cdots & x_{nm}-\bar x_m \end{bmatrix},\tilde C=(\boldsymbol 1|\tilde X). β~=β0β1βm=[β0B],Y~=y1yˉy2yˉynyˉ,X~=x11xˉ1x21xˉ1xn1xˉ1x12xˉ2x22xˉ2xn2xˉ2x1mxˉmx2mxˉmxnmxˉm,C~=(1X~).

    这样就可以把模型写成 Y ~ = C ~ β ~ + ε , ε ∼ N n ( 0 , σ 2 I n ) \tilde Y=\tilde C\tilde \beta +\varepsilon,\varepsilon\sim N_n(0,\sigma^2I_n) Y~=C~β~+ε,εNn(0,σ2In),类似地得到 C ~ ′ C ~ β ~ = C ~ ′ Y ~ \tilde C'\tilde C\tilde \beta=\tilde C'\tilde Y C~C~β~=C~Y~,而
    C ~ ′ C ~ = ( 1 ∣ X ~ ) ′ ( 1 ∣ X ~ ) = [ 1 n ′ 1 n 1 n ′ X ~ X ~ ′ 1 n X ~ ′ X ~ ] = d [ n O 1 × m O m × 1 L ] , {\tilde C}'\tilde C=(\boldsymbol 1|\tilde X)'(\boldsymbol 1|\tilde X)= \begin{bmatrix} \boldsymbol 1_n'\boldsymbol 1_n & \boldsymbol 1_n'\tilde X \\ \tilde X'\boldsymbol 1_n & \tilde X'\tilde X \end{bmatrix}\stackrel{\rm d}=\begin{bmatrix} n & O_{1\times m} \\ O_{m\times 1} & L \end{bmatrix}, C~C~=(1X~)(1X~)=[1n1nX~1n1nX~X~X~]=d[nOm×1O1×mL],
    这里 L = X ~ ′ X ~ = ( l i j ) m × m , l i j = ∑ t = 1 n ( x t i − x ˉ i ) ( x t j − x ˉ j ) L=\tilde X'\tilde X=(l_{ij})_{m\times m},l_{ij}=\sum_{t=1}^n(x_{ti}-\bar x_i)(x_{tj}-\bar x_j) L=X~X~=(lij)m×m,lij=t=1n(xtixˉi)(xtjxˉj),而
    C ~ ′ Y ~ = ( 1 n ∣ X ~ ) ′ Y ~ = [ 1 n ′ Y ~ X ~ ′ Y ~ ] = d [ 0 l ] , \tilde C'\tilde Y=(\boldsymbol 1_n |\tilde X)'\tilde Y= \begin{bmatrix} \boldsymbol 1_n'\tilde Y \\ \tilde X'\tilde Y \end{bmatrix}\stackrel {\rm d}= \begin{bmatrix} 0 \\ l \end{bmatrix}, C~Y~=(1nX~)Y~=[1nY~X~Y~]=d[0l],
    这里 l = ( l 1 y , ⋯   , l m y ) ′ , l i y = ∑ t = 1 n ( x t i − x ˉ i ) ( y t − y ˉ ) l=(l_{1y},\cdots,l_{my})',l_{iy}=\sum_{t=1}^n(x_{ti}-\bar x_i)(y_t-\bar y) l=(l1y,,lmy),liy=t=1n(xtixˉi)(ytyˉ),这样正规方程就可以写成
    [ n O O L ] [ β ^ 0 ∗ B ] = [ 0 l ] ⇒ β ^ 0 ∗ = β ^ 0 − y ˉ + ∑ i = 1 n β ^ i x ˉ i = 0. \begin{bmatrix} n & O \\ O & L \end{bmatrix}\begin{bmatrix} \hat \beta_0^* \\ B \end{bmatrix}=\begin{bmatrix} 0 \\ l \end{bmatrix}\Rightarrow \hat \beta_0^*=\hat\beta_0-\bar y+\sum_{i=1}^n\hat\beta_i\bar x_i=0. [nOOL][β^0B]=[0l]β^0=β^0yˉ+i=1nβ^ixˉi=0.
    这也解释了为什么回归直线总会经过样本中心点,同时还可以得到正规方程的等价形式 L B = l LB=l LB=l,即
    X ~ ′ X ~ B = X ~ ′ Y ~ ⇒ B ^ = ( X ~ ′ X ~ ) − 1 X ~ ′ Y ~ = L − 1 l , B ^ ∼ N m ( B , σ 2 L − 1 ) . \tilde X'\tilde XB=\tilde X'\tilde Y\Rightarrow \hat B=(\tilde X'\tilde X)^{-1}\tilde X'\tilde Y=L^{-1}l,\hat B\sim N_m(B,\sigma^2L^{-1}). X~X~B=X~Y~B^=(X~X~)1X~Y~=L1l,B^Nm(B,σ2L1).
    在给定 X X X时预测 Y ^ \hat Y Y^应采用如此形式: Y ^ − y ˉ 1 n = X ~ B ^ \hat Y-\bar y\boldsymbol 1_n=\tilde X\hat B Y^yˉ1n=X~B^。并且,在此形式下回归平方和很容易表示。因为 Y ^ − y ˉ 1 n = X ~ B ^ \hat Y-\bar y\boldsymbol 1_n=\tilde X\hat B Y^yˉ1n=X~B^,所以
    U = ∑ i = 1 n ( y ^ i − y ˉ ) 2 = ( Y ^ − y ˉ 1 n ) ′ ( Y ^ − y ˉ 1 n ) = B ^ ′ X ~ ′ X ~ B ^ = B ^ ′ L B ^ = B ^ ′ l . Q = l y y − U . U=\sum_{i=1}^n(\hat y_i-\bar y)^2=(\hat Y-\bar y\boldsymbol 1_n)'(\hat Y-\bar y\boldsymbol 1_n)=\hat B'\tilde X'\tilde X\hat B=\hat B'L\hat B=\hat B'l. \\ Q = l_{yy}-U. U=i=1n(y^iyˉ)2=(Y^yˉ1n)(Y^yˉ1n)=B^X~X~B^=B^LB^=B^l.Q=lyyU.

    4.回归系数的假设检验

    回归关系存在并不意味着每一个自变量对于随机变量 y y y的影响都是显著的,有的自变量可能跟 y y y毫不相关,把它纳入回归的范围就可能导致过拟合、模型不适用于预测新数据的问题。如果 x i x_i xi y y y没有影响,则在回归方程中应该有 β i = 0 \beta_i=0 βi=0,所以我们还需要对每个偏回归系数进行逐个检验,即检验如下的假设: H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0

    为了构造检验此假设的检验统计量,定义 x i x_i xi偏回归平方和如下:

    偏回归平方和:设 U U U x 1 , ⋯   , x m x_1,\cdots,x_m x1,,xm Y Y Y的回归平方和, U ( i ) U(i) U(i)为去掉 x i x_i xi后,剩下 m − 1 m-1 m1个自变量对 Y Y Y的平方和,则称变量 x i x_i xi的回归平方和是 P i = U − U ( i ) = Q ( i ) − Q P_i=U-U(i)=Q(i)-Q Pi=UU(i)=Q(i)Q

    其计算公式为 P i = β ^ i 2 / l i i P_i=\hat \beta_i^2/l^{ii} Pi=β^i2/lii,这里 l i i l^{ii} lii L − 1 = ( X ~ ′ X ~ ) − 1 L^{-1}=(\tilde X'\tilde X)^{-1} L1=(X~X~)1的第 i i i个对角元素,同时可以证明
    t i = P i Q / ( n − m − 1 ) ∼ H 0 t ( n − m − 1 ) , F i = P i Q / ( n − m − 1 ) ∼ H 0 F ( 1 , n − m − 1 ) . t_i=\frac{\sqrt{P_i}}{\sqrt{Q/(n-m-1)}}\stackrel {H_0}\sim t(n-m-1), \\ F_i=\frac{P_i}{Q/(n-m-1)}\stackrel {H_0}\sim F(1,n-m-1). ti=Q/(nm1) Pi H0t(nm1),Fi=Q/(nm1)PiH0F(1,nm1).
    当偏回归平方和 P i P_i Pi过大时, t i t_i ti也会很大,p-value很小,就越应该否定原假设 H 0 H_0 H0,认为 β i ≠ 0 \beta_i\ne 0 βi=0。直观上理解,如果偏回归平方和很大,就说明变量 x i x_i xi的删除与否对于回归平方和的影响很大,等价于对残差平方和的影响也很大,这就说明 x i x_i xi是显著的;反之,如果偏回归平方和很小,就可以认为 x i x_i xi在回归模型中无足轻重,不影响回归模型。

    在实际应用中,要建立最优的回归方程,就是要选择合适的预报变量来决定回归方程,这指的是包含所有在显著性水平 α \alpha α下,对 Y Y Y作用显著的变量。当建立回归模型后,对所有回归系数进行假设检验,如果所有回归系数的p-value都小于 α \alpha α,就认为方程是最优的;否则,就应该剔除显著性最小的那一个(注意只能剔除一个,一般是p-value最大的),重新建立回归模型,并重复以上步骤。

    5.回归方程的预报精度

    最后,简要地介绍一下回归方程预报精度的问题。我们已经知道,通过样本 C C C,回归系数的最小方差线性无偏估计是 β ^ = ( C ′ C ) − 1 C ′ Y \hat \beta=(C'C)^{-1}C'Y β^=(CC)1CY,给定一组 x 0 = ( 1 , x 01 , ⋯   , x 0 m ′ ) x_0=(1,x_{01},\cdots,x_{0m}') x0=(1,x01,,x0m)后, y 0 y_0 y0的最佳点估计是
    y ^ 0 = x 0 ′ β ^ . \hat y_0=x_0'\hat\beta. y^0=x0β^.
    但是这个点估计的精度如何,有赖于 y 0 − y ^ 0 y_0-\hat y_0 y0y^0的分布。显然有如下的结论:
    y ^ 0 ∼ N ( x 0 ′ β , σ 2 x 0 ′ ( C ′ C ) − 1 x 0 ) , y 0 − y ^ 0 ∼ N ( 0 , σ 2 [ 1 + x 0 ′ ( C ′ C ) − 1 x 0 ] ) . \hat y_0\sim N(x_0'\beta,\sigma^2x_0'(C'C)^{-1}x_0), \\ y_0-\hat y_0\sim N(0,\sigma^2[1+x_0'(C'C)^{-1}x_0]). y^0N(x0β,σ2x0(CC)1x0),y0y^0N(0,σ2[1+x0(CC)1x0]).
    因此,统计量为
    t = y 0 − y ^ 0 σ ^ 1 + x 0 ′ ( C ′ C ) − 1 x 0 ∼ t ( n − m − 1 ) , σ ^ 2 = Q n − m − 1 . t=\frac{y_0-\hat y_0}{\hat \sigma\sqrt{1+x_0'(C'C)^{-1}x_0}}\sim t(n-m-1),\quad \hat\sigma^2=\frac{Q}{n-m-1}. t=σ^1+x0(CC)1x0 y0y^0t(nm1),σ^2=nm1Q.
    基于此,可以在给定 α \alpha α的情况下得到 y 0 y_0 y0的置信区间。

    回顾总结

    1. 为了检验模型的有效度,需要检验假设 H 0 : β 1 = ⋯ = β m = 0 H_0:\beta_1=\cdots =\beta_m=0 H0:β1==βm=0,检验统计量为
      F = U / m Q / ( n − m − 1 ) = E S S / m R S S / ( n − m − 1 ) ∼ H 0 F ( m , n − m − 1 ) . F=\frac{U/m}{Q/(n-m-1)}=\frac{{\rm ESS}/m}{{\rm RSS}/(n-m-1)}\stackrel {H_0}\sim F(m,n-m-1). F=Q/(nm1)U/m=RSS/(nm1)ESS/mH0F(m,nm1).
      如果 F F F很大,p-value很小,就否定原假设,认为回归模型有效。

    2. 平方和分解公式: T S S = R S S + E S S , l y y = Q + U {\rm TSS=RSS+ESS},l_{yy}=Q+U TSS=RSS+ESS,lyy=Q+U。在给定预测值后, T S S {\rm TSS} TSS就是定值,不同回归曲线有不同的回归平方和 R S S {\rm RSS} RSS,最小二乘法得出的直线有最大的 R S S {\rm RSS} RSS。拟合优度就是 R 2 = E S S / T S S R^2={\rm ESS/TSS} R2=ESS/TSS,代表回归平方和在总偏差平方和中的占比,越大代表拟合优度越高。

    3. 将数据中心化,可以得到正规方程的等价形式: X ~ ′ X ~ B = X ~ ′ Y ~ \tilde X'\tilde XB=\tilde X'\tilde Y X~X~B=X~Y~,也即 L B = l LB=l LB=l,从而 B = L − 1 l B=L^{-1}l B=L1l。这里 X ~ , Y ~ \tilde X,\tilde Y X~,Y~都表示中心化后的数据矩阵。中心化的好处是去除了截距项 β ^ 0 ∗ \hat \beta_0^* β^0,这也说明
      β ^ 0 = y ˉ − ∑ i = 1 m β i x ˉ i . \hat \beta_0=\bar y-\sum_{i=1}^m \beta_i\bar x_i. β^0=yˉi=1mβixˉi.

    4. 为了检验变量的显著性,需要逐个检验假设 H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0,检验统计量为偏回归平方和的变换,即
      t i = P i Q / ( n − m − 1 ) = β ^ i / l i i Q / ( n − m − 1 ) ∼ H 0 t ( n − m − 1 ) , F i = P i Q / ( n − m − 1 ) = β ^ i 2 / l i i Q / ( n − m − 1 ) ∼ H 0 F ( 1 , n − m − 1 ) . t_i=\frac{\sqrt{P_i}}{\sqrt{Q/(n-m-1)}}=\frac{\hat\beta_i/\sqrt {l^{ii}}}{Q/(n-m-1)}\stackrel {H_0}\sim t(n-m-1), \\ F_i=\frac{P_i}{Q/(n-m-1)}=\frac{\hat\beta_i^2/l^{ii}}{Q/(n-m-1)}\stackrel {H_0}\sim F(1,n-m-1). ti=Q/(nm1) Pi =Q/(nm1)β^i/lii H0t(nm1),Fi=Q/(nm1)Pi=Q/(nm1)β^i2/liiH0F(1,nm1).
      这里 l i i l^{ii} lii指的是 L − 1 L^{-1} L1的第 i i i个对角元素, P i P_i Pi指的是偏回归平方和 U − U ( i ) U-U(i) UU(i)。如果 t i t_i ti或者 F i F_i Fi很大,p-value很小,就否定原假设,认为 x i x_i xi显著。

    5. 如果有一些自变量 x i x_i xi的显著性很差,则需要删除,每一步只能删除一个显著性最差、p-value最大的自变量,然后重新建立模型并计算。

    6. 在获得 β ^ \hat \beta β^后,预报误差服从以下正态分布: y 0 − y ^ 0 ∼ N ( 0 , σ 2 ( 1 + x 0 ′ ( C ′ C ) − 1 x 0 ) ) y_0-\hat y_0\sim N(0,\sigma^2(1+x_0'(C'C)^{-1}x_0)) y0y^0N(0,σ2(1+x0(CC)1x0)),所以构造以下枢轴量:
      y 0 − y ^ 0 σ ^ 2 ( 1 + x 0 ′ ( C ′ C ) − 1 x 0 ) ∼ t ( n − m − 1 ) , σ ^ 2 = Q n − m − 1 . \frac{y_0-\hat y_0}{\sqrt{\hat \sigma^2(1+x_0'(C'C)^{-1}x_0)}}\sim t(n-m-1),\quad \hat \sigma^2=\frac{Q}{n-m-1}. σ^2(1+x0(CC)1x0) y0y^0t(nm1),σ^2=nm1Q.
      可以构造 y 0 y_0 y0的置信水平为 α \alpha α的置信区间为 [ y 0 − d , y 0 + d ] [y_0-d,y_0+d] [y0d,y0+d],这里
      d = t α σ ^ 1 + x 0 ′ ( C ′ C ) − 1 x 0 . d=t_\alpha\hat \sigma\sqrt{1+x_0'(C'C)^{-1}x_0}. d=tασ^1+x0(CC)1x0 .

    展开全文
  • 线性回归方程编码,包括线性回归关系显著性检验,参数估计,预测等过程。
  • 回归方程显著性检验t 检验(回归系数的检验)F 检验(回归方程的检验)相关系数的显著性检验样本决定系数三种检验的关系一、σ2的估计因为假设检验以及构造与回归模型有关的区间估计都需要σ2的估计量,所以先σ2作...
  • if ~k fprintf('\r\r警告:通过一一所有变量做显著性检验,已剔除所有变量!'); break; end beta_mao=beta_mao-beta_mao(beta_index)/cii(beta_index)*cij(beta_index,:); beta_mao(beta_index)=[]; % 这样更改...
  • 多元线性回归及显著性检验Matlab程序完美版 一说明 1本程序是硕士教材数理统计杨虎刘琼钟波 编著 例4.4.1P133Matlab编程解答程序教材上例题只做了回归方程显著性分析和一次回归系数显著性分析剔除x1后没有再检验x2和...
  • % H=1,线性回归方程显著(好);H=0,回归不显著 % 回归系数的显著性检验 chi2=sqrt(diag(C)*Q/(n-p)); % 服从χ2(n-p)分布 tV=beta_hat./chi2; % 服从T分布,绝对值越大线性关系显著 tInv=tinv(0.5+alpha/2,n-p); ...
  • matlab建立多元线性回归模型并进行显著性检验及预测问题例子;x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; 增加一个常数项 Y=[88 85 88 91 92 93 93 95 96 98 97 96 ...
  • 【回归分析】[3]--回归方程显著性检验 这篇文章准备使用一个例子来说明。 例子的数据: data2 = {{391.95, 488.51}, {516.98, 798.30}, {355.63, 235.08}, {238.55, 299.45}, {537.78, 559.09}, {733...
  • 回归方程与回归系数的显著性检验 2. statsmodels 库 statsmodels库可以用来做逻辑回归、线性回归。并且会在summary中给出显著性检验的结果。 statsmodels例子 最终我们想要的就是如下图的报告。 3. 计算过程 ...
  • 转载于:回归方程显著性检验(F检验)是单侧还是双侧检验,为什么?
  • 回归方程显著性检验回归方程显著性检验回归方程显著性检验回归方程显著性检验回归方程显著性检验回归方程显著性检验回归方程显著性检验回归方程显著性检验回归方程显著性检验
  • 如果再arcgis中进行一元回归计算,需要将整个公式展开,并且容易出错,而matlab提供了强大的回归计算功能,通过逐像元的迭代,可以得到每个格点的趋势及显著性栅格图像,话不多说,见以下代码[a,R]=geotiffread('D:\...
  • 题目 程序及结果 1)程序 x<-c(16,23,32,31,37,40,46,48,55,60) y<-c(13,15,16,17,17,18,19,21,22,24) A<-data.frame(x,y) plot(x,y) lm.reg<-lm(y~x) abline(lm.reg) print(lm.reg) ... 8.97
  • VB开发,可计算多元线性回归方程,并进行方程F检验和偏回归显著性检验
  • 回归方程及回归系数的显著性检验.doc
  • 回归方程和回归系数的显著性检验.doc
  • 回归方程与回归系数的显著性检验讲义全.doc
  • 回归方程显著性检验——F检验3. 拟合优度评价指标I——R方/改进R方4. 拟合优度评价指标AIC/BIC/SIC写在最后 1. 单参数显著性检验——t检验 2. 回归方程显著性检验——F检验 3. 拟合优度评价指标I——R方/改进R方 4....
  • 1、回归方程显著性检验 (1) 回归平方和与剩余平方和  建立回归方程以后, 回归效果如何呢?因变量与自变量是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因...
  • 题目1 一位老师想要检查3种不同的教学方法的效果,为此随机地选取水平相当的15位学生,把他们分为3组,每组5人,每一组用一种方法教学,一段时间以后,这位老师15位...因为显著性水平为0.05,图中我们的显著性为0.

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,401
精华内容 1,760
关键字:

对回归方程显著性检验