精华内容
下载资源
问答
  • 用R进行多元线性回归分析建模

    万次阅读 多人点赞 2016-05-31 22:20:37
    概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析

    概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。

     

    下面我就举几个例子来说明一下

     

    例一:谋杀率与哪些因素有关

    变量选择

    states<-as.data.frame(state.x77[,c('Murder','Population','Illiteracy','Income','Frost')])
    cor(states)#查看变量相关系数
                   Murder Population Illiteracy     Income      Frost
    Murder      1.0000000  0.3436428  0.7029752 -0.2300776 -0.5388834
    Population  0.3436428  1.0000000  0.1076224  0.2082276 -0.3321525
    Illiteracy  0.7029752  0.1076224  1.0000000 -0.4370752 -0.6719470
    Income     -0.2300776  0.2082276 -0.4370752  1.0000000  0.2262822
    Frost      -0.5388834 -0.3321525 -0.6719470  0.2262822  1.0000000

    我们可以明显的看出谋杀率与人口,文盲率相关性较大

    将它们的关系可视化

    library(car)
    scatterplotMatrix(states,spread=FALSE)

    还可以这么看

    fit<-lm(Murder~Population+Illiteracy+Income+Frost,data = states)
    summary(fit)
    
    Call:
    lm(formula = Murder ~ Population + Illiteracy + Income + Frost, 
        data = states)
    
    Residuals:
        Min      1Q  Median      3Q     Max 
    -4.7960 -1.6495 -0.0811  1.4815  7.6210 
    
    Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
    (Intercept) 1.235e+00  3.866e+00   0.319   0.7510    
    Population  2.237e-04  9.052e-05   2.471   0.0173 *  
    Illiteracy  4.143e+00  8.744e-01   4.738 2.19e-05 ***
    Income      6.442e-05  6.837e-04   0.094   0.9253    
    Frost       5.813e-04  1.005e-02   0.058   0.9541    
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 2.535 on 45 degrees of freedom
    Multiple R-squared:  0.567,	Adjusted R-squared:  0.5285 
    F-statistic: 14.73 on 4 and 45 DF,  p-value: 9.133e-08

    还可以这么看

    #install.packages('leaps')
    library(leaps)
    leaps<-regsubsets(Murder~Population+Illiteracy+Income+Frost,data = states,nbest = 4)
    plot(leaps,scale = 'adjr2')


     

    最大值0.55是只包含人口,文盲率这两个变量和截距的。

     

    还可以这样,比较标准回归系数的大小

     

    zstates<-as.data.frame(scale(states))#scale()标准化
    zfit<-lm(Murder~Population+Illiteracy+Income+Frost,data = zstates)
    coef(zfit)
     (Intercept)    Population    Illiteracy        Income         Frost 
    -2.054026e-16  2.705095e-01  6.840496e-01  1.072372e-02  8.185407e-03 

     

     

     

    通过这几种方法,我们都可以明显的看出谋杀率与人口,文盲率相关性较大,与其它因素相关性较小。

    回归诊断

    > confint(fit)
                        2.5 %       97.5 %
    (Intercept) -6.552191e+00 9.0213182149
    Population   4.136397e-05 0.0004059867
    Illiteracy   2.381799e+00 5.9038743192
    Income      -1.312611e-03 0.0014414600
    Frost       -1.966781e-02 0.0208304170

    标记异常值

    qqPlot(fit,labels = row.names(states),id.method = 'identify',simulate = T)

    图如下,点一下异常值然后点finish就可以了

    查看它的实际值11.5与拟合值3.878958,这条数据显然是异常的,可以抛弃

    > states['Nevada',]
           Murder Population Illiteracy Income Frost
    Nevada   11.5        590        0.5   5149   188
    > fitted(fit)['Nevada']
      Nevada 
    3.878958 
    > outlierTest(fit)#或直接这么检测离群点
           rstudent unadjusted p-value Bonferonni p
    Nevada 3.542929         0.00095088     0.047544
    

    car包有多个函数,可以判断误差的独立性,线性,同方差性

    library(car)
    durbinWatsonTest(fit)
    crPlots(fit)
    ncvTest(fit)
    spreadLevelPlot(fit)

     

    综合检验

     

    #install.packages('gvlma')
    library(gvlma)
    gvmodel<-gvlma(fit);summary(gvmodel)

    检验多重共线性

    根号下vif>2则表明有多重共线性

    > sqrt(vif(fit))
    Population Illiteracy     Income      Frost 
      1.115922   1.471682   1.160096   1.443103

    都小于2所以不存在多重共线性

     

     

     

     

    例二:女性身高与体重的关系

    attach(women)
    plot(height,weight)

    通过图我们可以发现,用曲线拟合要比直线效果更好

    那就试试呗

     

    fit<-lm(weight~height+I(height^2))#含平方项
    summary(fit)
    
    Call:
    lm(formula = weight ~ height + I(height^2))
    
    Residuals:
         Min       1Q   Median       3Q      Max 
    -0.50941 -0.29611 -0.00941  0.28615  0.59706 
    
    Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
    (Intercept) 261.87818   25.19677  10.393 2.36e-07 ***
    height       -7.34832    0.77769  -9.449 6.58e-07 ***
    I(height^2)   0.08306    0.00598  13.891 9.32e-09 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 0.3841 on 12 degrees of freedom
    Multiple R-squared:  0.9995,    Adjusted R-squared:  0.9994 
    F-statistic: 1.139e+04 on 2 and 12 DF,  p-value: < 2.2e-16 

    效果是很不错的,可以得出模型为

    把拟合曲线加上看看

    lines(height,fitted(fit))


    非常不错吧

    还可以用car包的scatterplot()函数

    library(car)
    scatterplot(weight~height,spread=FALSE,pch=19)#19实心圆,spread=FALSE删除了残差正负均方根在平滑曲线上
    展开的非对称信息,听着就不像人话,你可以改成TRUE看看到底是什么,我反正不明白。
    

     

     

     

    例三:含交互项

    <strong>attach(mtcars)
    fit<-lm(mpg~hp+wt+hp:wt)
    summary(fit)
    Call:
    lm(formula = mpg ~ hp + wt + hp:wt)
    
    Residuals:
        Min      1Q  Median      3Q     Max 
    -3.0632 -1.6491 -0.7362  1.4211  4.5513 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept) 49.80842    3.60516  13.816 5.01e-14 ***
    hp          -0.12010    0.02470  -4.863 4.04e-05 ***
    wt          -8.21662    1.26971  -6.471 5.20e-07 ***
    hp:wt        0.02785    0.00742   3.753 0.000811 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 2.153 on 28 degrees of freedom
    Multiple R-squared:  0.8848,	Adjusted R-squared:  0.8724 
    F-statistic: 71.66 on 3 and 28 DF,  p-value: 2.981e-13</strong>

    其中的hp:wt就是交互项,表示我们假设hp马力与wt重量有相关关系,通过全部的三个星可以看出响应/因变量mpg(每加仑英里)与预测/自变量都相关,也就是说mpg(每加仑英里)与汽车马力/重量都相关,且mpg与马力的关系会根据车重的不同而不同。


     

     

    展开全文
  • 多元线性回归分析(R语言)

    万次阅读 多人点赞 2018-12-07 13:35:10
    多元线性回归分析▼ 一、多元线性回归模型 设变量Y与X1,X2,……,Xp之间有线性关系   其中 , 和 是未知参数,p≥2,称上公式为多元线性回归模型。 二、参数估计 我们根据多元线性回归模型,认为误差...

    ▼多元线性回归分析▼

    一、多元线性回归模型

    设变量Y与X1,X2,……,Xp之间有线性关系

                                            Y = \beta _{0} + \beta _{1} X_{1}+ \beta _{2} X_{2}+ \cdots +\beta _{p} X_{p} + \varepsilon

    其中  \varepsilon \sim N(0,\sigma ^{^{2}})  ,\beta _{0},\beta _{1},\beta _{2},\cdots ,\beta _{p} 和 \sigma ^{2} 是未知参数,p≥2,称上公式为多元线性回归模型。

    二、参数估计

    我们根据多元线性回归模型,认为误差 \varepsilon 应是比较小的,然后对 \beta _{0},\beta _{1},\beta _{2},\cdots ,\beta _{p} 求偏导并令其等于0,可以得到正规方程:

                                               X^{^{T}}X\beta = X^{T}Y

    因为 rank(X^{T}X) = rank(X) = p+1 ,故 \left ( X^{T} X\right )^{-1} 存在,解正规方程,可以得到β的最小二乘估计:

                                              \hat{\beta }=\left ( X^{T}X \right )^{-1}X^{T}Y

    三、回归方程的显著性检验

    给出定义:回归方程的显著性检验等价于检验回归系数是否全为零,即检验:

                       H_{0}:\beta _{1}=\beta _{2}=\cdots =\beta _{p}=0,H_{1}:\beta _{1},\beta _{2},\cdots ,\beta _{p} 不全为零

    下面给出必要的公式:

    残差平方和SSE:

                                     SSE=\sum_{i=1}^{n}\left ( y_{i} -\hat{y}\right )^{2}

    回归平方和SSR:

                                    SSR=\sum_{i=1}^{n}\left (\hat{} y_{i} -\bar{y}\right )^{2}

    总的离差平方和:

                                    SST=SSE+SSR

    统计量F:

                                     F=\frac{SSR/p}{SSE/(n-p-1)}

    对于给定的显著性水平α,检验的拒绝域:

                                     F|F>F_{\alpha }(p,n-p-1)

    四、回归系数的显著性检验

    回归方程显著,并不意味着每个自变量对因变量的影响都显著,通常会进行回归系数的检验,假设检验为:

                                     H_{0i}:\beta _{i}=0, H_{1i}:\beta _{i}\neq 0

    给出t值检验法公式:

                                      t_{i}=\frac{\hat{\beta i}}{\hat{\sigma }\sqrt{c_{ii}}}\sim t(n-p-1)

    其中  

                                       \hat{\alpha }=\sqrt{\frac{SSE}{n-p-1}}

    对于给定的显著性水平α,检验的拒绝域:

                                      |t_{i}|>t_{\frac{\alpha }{2}}(n-p-1)

    另外,还可以确定\beta _{i} 的置信度为1-α的置信区间:

                                     (\hat{\beta _{i}}-t_{\frac{\alpha }{2}}(n-p-1)\sqrt{c_{ii}}\hat{\sigma},\hat{\beta _{i}}+t_{\frac{\alpha }{2}}(n-p-1)\sqrt{c_{ii}}\hat{\sigma})

    五、例题实战

    题目: 文件“T3house.txt”中给出了美国某住宅区的20个家庭房价相关数据。

    数据:T3house.txt

       15.31    57.3    74.8
       15.20    63.8    74.0
       16.25    65.4    72.9
       14.33    57.0    70.0
       14.57    63.8    74.9
       17.33    63.2    76.0
       14.48    60.2    72.0
       14.91    57.7    73.5
       15.25    56.4    74.5
       13.89    55.6    73.5
       15.18    62.6    71.5
       14.44    63.4    71.0
       14.87    60.2    78.9
       18.63    67.2    86.5
       15.20    57.1    68.0
       25.76    89.6   102.0
       19.05    68.6    84.0
       15.37    60.1    69.0
       18.06    66.3    88.0
       16.35    65.8    76.0

     a.将矩阵第一列记为变量z1=总居住面积,第二列记为变量z2=评估价值,第三列记为Y=售价。

    library(foreign)
    data <-read.table("T3house.txt")
    data1<-as.matrix(data[1:20,1:3],dimnames="cc")
    colnames(data1) <- c("z1","z2","Y");data1

    b.将a中的各个变量生成数据框,做关于Y和z1,z2的回归,显示计算结果。

    data2<-data.frame(data1);data2
    
    #使用内置函数
    #lm.1<-lm(Y~z1+z2,data=data2)
    #summary(lm.1)
    
    #自编程序
    z0<-c(rep(1,20))
    data3<-data.frame(z0,data2)
    attach(data3)
    A<-as.matrix(data3)
    X<-A[1:20,1:3]
    Y<-A[1:20,4]
    Y<-as.vector(Y)
    b<-solve(t(X)%*%X)%*%t(X)%*%Y;b
    #结果
    #z0 30.96656634
    #z1  2.63439962
    #z2  0.04518386
    #故回归方程为Y=30.6656634+2.63439962 z1 + 0.04518386 z2
    

    c.根据b中的结果分别给出β1和β2的置信系数为90%的置信区间。

    data3<-data.frame(z0,data2);data3
    n<-nrow(data3);
    p<-ncol(data3);
    p<-p-1
    C<-solve(t(X)%*%X)
    A<-as.matrix(data3)
    X<-A[1:20,1:3]
    lm.1<-lm(Y~z1+z2,data=data3)
    SSE=deviance(lm.1)
    shita<-sqrt(SSE/(n-p-1))
    t1<-b[2]/(shita*sqrt(C[1,1]));t1
    t2<-b[3]/(shita*sqrt(C[2,2]));t2
    b1<-c(b[2]-1.7247*shita*sqrt(C[1,1]),b[2]+1.7247*shita*sqrt(C[1,1]));b1
    b2<-c(b[3]-1.7247*shita*sqrt(C[2,2]),b[3]+1.7247*shita*sqrt(C[2,2]));b2
    #结果
    #-11.37843  16.64723
    #-1.351438  1.441806
    

    d.假设某房间总居住面积为15,评估价值为55,试给出该房屋售价的点估计、预测区间和估计区间(置信系数95%)。

    y0<-b[1]+15*b[2]+55*b[3];y0
    #点估计72.96767
    
    newdata<-data.frame(z1=15,z2=55)
    lmpred<-predict(lm.1,newdata,interval="prediction",level=0.95)
    lmpred
    

    e.计算20个房屋价格的拟合值,并做残差对拟合值的残差图。

    resid<-residuals(lm.1)
    pre<-predict(lm.1);pre #等价于y,拟合值
    
    #方法二
    y=x
    for(i in 1:20)
    {
      y[i]=b[1]+X[i,2]*b[2]+X[i,3]*b[3]
    }
    y; #拟合值
    plot(pre,resid)
    

    f.计算回归系数β的最小二乘估计,误差方差σ2的估计,残差向量,残差平方和,回归平方和,方程显著性检验F统计量,复相关系数,修正的复相关系数。将上述8个量写入一个列表并显示出结果。

    #第一个量
    b;
    #第二个量
    shita2<-SSE/(n-p-1);shita2
    #第三个量
    e<-Y-X%*%b;e
    #第四个量
    y1<-mean(Y)
    sse<-0
    for(i in 1:20)
    {
       y[i]=b[1]+X[i,2]*b[2]+X[i,3]*b[3]
    }
    for(j in 1:20)
    {
       sse<-sse+(Y[j]-y[j])**2
    }
    sse;
    #第五个量
    ssr<-0;
    y0<-mean(Y)
    for(k in 1:20)
    {
      ssr<-ssr+(y[k]-y0)**2
    }
    ssr;
    #第六个量
    F<-(ssr/p)/(sse/(n-p-1));F
    #第七个量
    R<-ssr/(sse+ssr);R
    #第八个量
    R2<-sqrt(1-(sse/(n-p-1))/((sse+ssr)/(n-1)));R2
    #列表
    list.data <- list(b, shita2, e, sse, ssr,F,R,R2);list.data
    

    相关资料:数据分析与R软件第二版(李素兰著)每章例题代码和数据,下载地址:https://download.csdn.net/download/lph188/10802159

    展开全文
  • 土壤电阻率基于多元线性回归分析的数值模拟研究,李征,梁梦雪,本文基于2015年1月-12月测量的南京市江宁观测场粘土的温度、湿度和土壤电阻率数据,利用多元线性回归的方法研究了土壤电阻率与土壤�
  • Mathematica在多元线性回归分析中的应用,黄志鹏,李思泽,从多元线性回归分析的原理出发,利用最小二乘法准则,将回归分析归结为用Seidel迭代法求矩阵方程组解,确定待定系数,利用mathematica�
  • 基于人工鱼群算法的多元线性回归分析问题处理
  • 多元线性回归分析法预测商品零售价格指数,赵晓慧,杨杰, 本文主要应用数学建模中的多元线性回归模型,来拟合多个影响因素对一个变量的影响。利用1990-2007年的利率、消费水平、商品零售价�
  • 多元线性回归分析的原理出发,利用最小二乘法准则,将回归分析归结为用Seidel迭代法求矩阵方程组解,确定待定系数的过程.利用mathematica实现精度可调节式的多元线性回归.结合实例,通过方差分析表,进行F检验,...
  • 人工鱼群算法(AFSA)是一种基于动物...简要介绍了AFSA算法的基本原理,描述了使用AFSA算法解决多元线性回归分析问题的步骤和结果。仿真实验结果表明,AFSA算法在处理多元线性回归分析问题上是一种简单、高效的算法。
  • 多元线性回归分析在QCA数值比较器可靠性研究中的应用
  • 基于多元线性回归分析法预测矿井瓦斯涌出量,蔡武,袁莎莎,将偏回归平方和理论运用到影响某矿瓦斯涌出量预测指标的选取中,确定了影响该矿瓦斯涌出量的主要影响因素,根据这些主要影响因素
  • 共识连续投影算法-多元线性回归分析近红外光谱的方法。
  • 基于MATLAB数学软件对冠心病发病相关因素的多元线性回归分析.pdf
  • 通过具体的案例讲解时间序列下多元线性回归在eviews里的操作
  • 多元线性回归是回归分析的基础。

    十、多元线性回归

    1.多元线性回归概述

    多元回归研究的是因变量YYmm个自变量x1,,xmx_1,\cdots,x_m之间的相互依赖关系的,这里假定YY是随机变量,而x1,,xmx_1,\cdots,x_m是一般变量(视为非随机的),YY不能由x1,,xmx_1,\cdots,x_m完全决定,但是可以用x1,,xmx_1,\cdots,x_m的函数进行估计。而多元线性回归中的,指的是关于“参数”的线性,我们一般可以把数据写成这样的线性模型:
    {y1=β0+β1x11++βmx1m+ε1,yn=β0+β1xn1++βmxnm+εn. \left\{ \begin{array}l y_1=\beta_0+\beta_1x_{11}+\cdots+\beta_mx_{1m}+\varepsilon_1, \\ \cdots \cdots \cdots \cdots \cdots \cdots \\ y_n =\beta_0+\beta_1x_{n1}+\cdots+\beta_mx_{nm}+\varepsilon_n. \end{array} \right.
    这就是经典多元线性回归模型,这里εt\varepsilon_t偏差,可以将其视为一个与变量无关的白噪声,满足E(εt)=0,D(εt)=σ2,Cov(εi,εj)=0(ij){\rm E}(\varepsilon_t)=0,{\rm D}(\varepsilon_t)=\sigma^2,{\rm Cov}(\varepsilon_i,\varepsilon_j)=0(i\ne j),还可以进一步假定其为正态白噪声,即εtN(0,σ2)\varepsilon_t\sim N(0,\sigma^2)相互独立。

    大型的式子都可以用向量、矩阵形式表达,多元线性回归模型也不例外,这里进行以下定义:
    Y=[y1y2yn]n,β=[β0β1βm]m+1,ε=[ε1ε2εn]n,C=(1mX)=[1x11x12x1m1x21x22x2m1xn1xn2xnm]n×m, Y=\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}_n,\beta=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_m \end{bmatrix}_{m+1},\varepsilon=\begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix}_n,C=(\boldsymbol 1_m|X)=\begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1m} \\ 1 & x_{21} & x_{22} & \cdots & x_{2m} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{nm} \end{bmatrix}_{n\times m},
    这样就有Y=Cβ+εY=C\beta +\varepsilon,其中εNn(0,σ2In)\varepsilon\sim N_n(0,\sigma^2I_n)。要能够估计出m+1m+1个参数β0,,βm\beta_0,\cdots,\beta_m,就至少要有m+1m+1个样本,也就是n>mn>m;同时我们要求各个自变量之间是不相关的,因为如果存在相关性,则自变量可以由其他自变量表出,所需要的回归系数就可以减少,所以我们的要求是rank(C)=m+1{\rm rank} (C)=m+1

    2.最小二乘法

    在给定模型后,我们的目的是估计回归系数β\beta,在多元线性回归中常用的方法是最小二乘法。最小二乘法的思想就是让偏差平方和达到最小,偏差平方和即
    Q(β)=t=1net2=t=1n[yt(β0+β1xt1++βmxmt)]2=(YCβ)(YCβ). Q(\beta)=\sum_{t=1}^n e_t^2=\sum_{t=1}^n [y_t-(\beta_0+\beta_1x_{t1}+\cdots+\beta_mx_{mt})]^2=(Y-C\beta)'(Y-C\beta).

    如果令YtY_tYY的第tt行,CtC_tCC的第tt行,则
    yt(β0+β1xt1++βmxmt)=YtCtβ,[yt(β0+β1xt1++βmxmt)]2=(YtCtβ)(YtCtβ). y_t-(\beta_0+\beta_1x_{t1}+\cdots+\beta_mx_{mt})=Y_t-C_t\beta,\\ [y_t-(\beta_0+\beta_1x_{t1}+\cdots+\beta_mx_{mt})]^2=(Y_t-C_t\beta)'(Y_t-C_t\beta).
    所以
    (YCβ)(YCβ)=[(Y1C1β)(Y2C2β)(YnCnβ)][(Y1C1β)(Y2C2β)(YnCnβ)]=t=1n(YtCtβ)(YtCtβ)=t=1net2. \begin{aligned} & (Y-C\beta)'(Y-C\beta) \\ =& \begin{bmatrix} (Y_1-C_1\beta)' \\ (Y_2-C_2\beta)' \\ \vdots \\ (Y_n-C_n\beta)' \end{bmatrix}\begin{bmatrix} (Y_1-C_1\beta) & (Y_2-C_2\beta) & \cdots & (Y_n-C_n\beta) \end{bmatrix}\\ =&\sum_{t=1}^n (Y_t-C_t\beta)'(Y_t-C_t\beta) \\ =&\sum_{t=1}^n e_t^2. \end{aligned}

    要使得Q(β)Q(\beta)最小,就有
    Q(β)β=(YCβ)(YCβ)β=(YY)β(βCY)β(YCβ)β+(βCCβ)β=0m+1CYCY+2CCβ=2(CCβCY) \begin{aligned} \frac{\partial Q(\beta)}{\partial \beta}=& \frac{\partial (Y-C\beta)'(Y-C\beta)}{\partial \beta} \\ =&\frac{\partial(Y'Y)}{\partial \beta}-\frac{\partial(\beta'C'Y)}{\partial \beta}-\frac{\partial(Y'C\beta)}{\partial \beta}+\frac{\partial(\beta'C'C\beta)}{\partial \beta}\\ =&\boldsymbol 0_{m+1}-C'Y-C'Y+2C'C\beta\\ =&2(C'C\beta-C'Y) \end{aligned}

    这里用到的矩阵微商公式有:
    Aβ=0,βyβ=y,yββ=yyAββ=Ay,βAββ=(A+A)β. \frac{\partial A}{\partial \beta}=0, \\ \frac{\partial \beta'y}{\partial \beta}=y, \\ \frac{\partial y'\beta}{\partial\beta}=y或\frac{\partial y'A\beta}{\partial \beta}=A'y,\\ \frac{\partial \beta'A\beta}{\partial \beta}=(A+A')\beta.

    所以让导数为0,就得到
    β^=(CC)1CY. \hat \beta=(C'C)^{-1}C'Y.
    在刚才的推导中,我们得到了最小二乘法估计的参数值β^=(CC)1CY\hat\beta=(C'C)^{-1}C'Y,结合我们的多元线性回归模型Y=Cβ+εY=C\beta+\varepsilon,在已知XXYY的预测值就应该是
    Y^=Cβ^=C(CC)1CY=dHY. \hat Y=C\hat \beta=C(C'C)^{-1}C' Y\stackrel {\rm d}=HY.
    这里的H=C(CC)1CH=C(C'C)^{-1}C'被称为帽子矩阵,可以看到
    HH=C(CC)1CC(CC)1C=H2=C(CC)1C=H. H'H=C(C'C)^{-1}C'\cdot C(C'C)^{-1}C'=H^2=C(C'C)^{-1}C'=H.
    并且,此时的偏差为e=ε^=YY^=(IH)Ye=\hat\varepsilon=Y-\hat Y=(I-H)Y,残差平方和就是
    Q(β^)=ε^ε^=Y(IH)(IH)Y=Y(IH)Y=YYYHY=YYYCβ^. \begin{aligned} Q(\hat\beta)=&\hat\varepsilon'\hat\varepsilon \\ =&Y'(I-H)'(I-H)Y \\ =&Y'(I-H)Y\\ =&Y'Y-Y'HY\\ =&Y'Y-Y'C\hat \beta. \end{aligned}

    3.最小二乘估计量的性质

    最小二乘估计量β^=(CC)1CY\hat \beta=(C'C)^{-1}C'Yβ\beta最小方差线性无偏估计(BLUE),对这个词做一些说明。

    首先,很明显β^\hat \beta是一个随机变量(因为YY被假定为随机向量,XX被视为普通向量,所以CC应该被视为常数阵,YY视为随机向量),而线性性,指的就是β^\hat \beta可以被Y1,,YnY_1,\cdots,Y_n线性表示,这里的(CC)1C(C'C)^{-1}C'就是其线性表示系数。线性性的好处是,一些对于随机变量数字特征的对于独立随机变量的线性情形是有计算公式的,这样就可以很好地写出β^\hat \beta的表现形式及其数字特征。

    其次,无偏性指的是Eβ^=β{\rm E}\hat \beta=\beta,注意这里的β\beta客观存在的,是不随抽样改变的常数,而β^\hat \beta是随着我们抽取样本进行观测,根据样本的观测值算出的统计量,它是一个具有两重性的统计量。而
    Y=Cβ+ε,E(Y)=Cβ,Eβ^=(CC)1CE(Y)=(CC)1(CC)β=β.Dβ^=E[(β^β)(β^β)]=E[(CC)1CμμC(CC)1]=(CC)1CEμμC(CC)1=σ2(CC)1. Y=C\beta+\varepsilon,\quad {\rm E}(Y)=C\beta, \\ {\rm E}\hat \beta=(C'C)^{-1}C'{\rm E}(Y)=(C'C)^{-1}(C'C)\beta=\beta. \\ \begin{aligned} {\rm D}\hat \beta=&{\rm E}[(\hat\beta-\beta)(\hat\beta-\beta)'] \\ =&{\rm E}[(C'C)^{-1}C'\mu\mu'C(C'C)^{-1}]\\ =&(C'C)^{-1}C'{\rm E}\mu\mu' C(C'C)^{-1}\\ =&\sigma^2(C'C)^{-1}. \end{aligned}
    最后,最小方差性,指的是在所有的线性无偏估计中,β^\hat \beta是方差最小的一个。假设还有其他的线性无偏估计量β\beta^*,记作[(CC)1C+D]Y=CY=β^+DY[(C'C)^{-1}C'+D]Y=C^*Y=\hat \beta+DY,为了满足无偏性,有
    Eβ=E[C(Xβ+μ)]=E(CX)β=β,CX=I. {\rm E}\beta^*={\rm E}[C^*(X\beta+\mu)]={\rm E}(C^*X)\beta=\beta,\quad C^*X=I.
    CX=(XX)1XX+DX=I+DX=IC^*X=(X'X)^{-1}X'X+DX=I+DX=I,所以DX=0DX=0。于是
    Cov(βX)=E[(CYβ)(CYβ)X]=[E(Cμ)(Cμ)X]=E[(CμμC)X]=[(XX)1X+D]E(μμX)[X(XX)1+D]=σ2[(XX)1XX(XX)1+(XX)1(XD)+DX(XX)1+DD]=σ2(XX)1+σ2DD. \begin{aligned} {\rm Cov}(\beta^*|X)=&{\rm E}[(C^*Y-\beta)(C^*Y-\beta)'|X]\\ =&[{\rm E}(C^*\mu)(C^*\mu)'|X]\\ =&{\rm E}[(C^*\mu\mu'{C^*}')|X]\\ =&[(X'X)^{-1}X'+D]{\rm E}(\mu\mu'|X)[X(X'X)^{-1}+D']\\ =&\sigma^2[(X'X)^{-1}X'X(X'X)^{-1}+(X'X)^{-1}(XD)'+DX(X'X)^{-1}+DD']\\ =&\sigma^2(X'X)^{-1}+\sigma^2DD'. \end{aligned}
    由于DD是正定的,所以σ2DD>0\sigma^2DD'>0,所以Cov(βX)>σ2(XX)1=Cov(β^X){\rm Cov}(\beta^*|X)>\sigma^2(X'X)^{-1}={\rm Cov}(\hat \beta|X),这就证明了β^\hat \beta的最小方差性。
    这就说明β^\hat \beta是最小方差的。

    因为β^\hat \betaβ\beta的最小方差线性无偏估计,所以对于β\beta线性组合αβ\alpha'\beta,其最小方差线性无偏估计依然是aβ^a'\hat\beta。实际应用时,我们会得到一组数xt1,,xtmx_{t1},\cdots,x_{tm},要用它预报yty_t,实际上就是对β\beta分量的线性组合,这也是我们用Cβ^C\hat\beta作为YY的预测值的理由。

    接下来探讨β^\hat \beta作为一个随机变量时的分布。首先由线性性,β^\hat\betaYY的分量的线性组合,而YY的每一个分量中随机部分都是ε\varepsilon分量,在我们假定ε\varepsilon是正态白噪声的情况下,YY的各个分量应该是相互独立且服从正态分布的,即YNn(Cβ,σ2In)Y\sim N_n(C\beta,\sigma^2I_n),所以
    E(β^)=(CC)1CE(Y)=β,D(β^)=(CC)1CD(Y)C(CC)1=σ2(CC)1. {\rm E}(\hat\beta)=(C'C)^{-1}C'{\rm E}(Y)=\beta, \\ {\rm D}(\hat\beta)=(C'C)^{-1}C'{\rm D}(Y)C(C'C)^{-1}=\sigma^2(C'C)^{-1}.
    β^Nm+1(β,σ2(CC)1)\hat \beta\sim N_{m+1}(\beta,\sigma^2(C'C)^{-1})

    最后简要提一下白噪声方差σ2\sigma^2的估计,由最大似然估计法,β\beta的极大似然估计依然是β^\hat \beta,还可以得到σ2\sigma^2的最大似然估计是
    σ^2=(YCβ^)(YCβ^)n=Q(β^)n. \hat \sigma^2=\frac{(Y-C\hat\beta)'(Y-C\hat\beta)}{n}=\frac{Q(\hat\beta)}{n}.
    但这个估计量不是无偏的,所以我们对其作修正,就得到了最小二乘估计
    s2=(YCβ^)(YCβ^)nm1,E(s2)=σ2. s^2=\frac{(Y-C\hat\beta)'(Y-C\hat\beta)}{n-m-1},\quad {\rm E}(s^2)=\sigma^2.

    回顾总结

    1. 多元线性回归模型指的是这样的模型:Y=Cβ+εY=C\beta+\varepsilon,其中C=(1nX)C=(\boldsymbol 1_n|X)εtWN(0,σ2)\varepsilon_t\sim {\rm WN}(0,\sigma^2)。即使εt\varepsilon_t不是正态白噪声,也至少应当满足零均值、同方差、序列不相关性。

    2. 使用最小二乘法求解多元线性回归模型,得到β\beta的最小二乘估计量是β^=(CC)1CY\hat\beta=(C'C)^{-1}C'Y,基于此估计量和数据CC估计Y^=Cβ^=C(CC)1CY=HY\hat Y=C\hat\beta=C(C'C)^{-1}C'Y=HY,将HH称为帽子矩阵。

    3. β^\hat\betaβ\beta的最佳线性无偏估计(BLUE),即满足线性性、无偏性、最小方差性。且其分布是
      β^Nm+1(β,σ2(CC)1). \hat\beta\sim N_{m+1}(\beta,\sigma^2(C'C)^{-1}).

    4. 在获得β^\hat\beta后,残差平方和为Q(β^)=(YCβ^)(YCβ^)=YYYCβ^Q(\hat\beta)=(Y-C\hat\beta)'(Y-C\hat\beta)=Y'Y-Y'C\hat\beta,可以用残差平方和估计σ2\sigma^2,其无偏估计为s2=Q(β^)/(nm1)s^2=Q(\hat\beta)/(n-m-1)

    展开全文
  • 建模之多元线性回归分析

    千次阅读 2020-02-23 10:39:49
    1.回归分析用来研究变量X和Y之间的相关性 2.Y俗称因变量,即核心变量:连续数值型变量,0-1型变量,定序变量(数字代表了程度),计数变量(到访的次数),生存变量(年龄)。 X为解释变量,Y为被解释变量。 3.回归...

    关于回归的基础知识

    1.回归分析用来研究变量X和Y之间的相关性
    2.Y俗称因变量,即核心变量:连续数值型变量,0-1型变量,定序变量(数字代表了程度),计数变量(到访的次数),生存变量(年龄)。 X为解释变量,Y为被解释变量。
    3.回归分析的目的:识别重要的解释变量,判断相关性的方向,估计权重(即回归系数)。
    4.回归分析的分类:

    在这里插入图片描述5.数据的分类:横截面数据,时间序列数据,面板数据。(本次的多元回归分析用于解决横截面数据)
    6.对于线性的理解:有的模型可以通过变量代换进行转换成线性模型。如含有平方项和交互项的模型。(所以一个模型中可以含有一个变量的多种形式,如平方,三次方,交互项。因为在回归中各个解释变量之间可以有相关性)
    7.注意模型构建成功之后,要对模型进行解释,如回归系数的解释:在保持其它变量不变的情况下,xixi每增加一个单位,因变量增加(或减少)多少个单位。
    8.关于内生性:遗漏变量会导致内生性,即同一个解释变量前后回归系数变化很大,导致模型分析不准确,不满足无偏和一致性(样本数足够多时,拟合值会趋近于观测值的期望)
    y=β0+β1x1+β2x2++βkxk+uy=\beta 0+\beta1 x_{1}+\beta 2x_{2}+\wedge +\beta kx_{k}+u
    u为无法观测且满足一定条件的扰动项,其中包含了所有与Y有关但是没有添加到回归模型中的变量。如果这些变量与我i们已经添加的自变量相关,则会存在内生性·。
    使用蒙纳卡罗模拟发现某一自变量与u的相关系数越大,回归系数的估计值与正确值偏差越大。
    9.模型无内生性不显示,可以弱化。将解释变量分为两类,一类是核心解释变量(我们所关注的变量),一类是控制变量。在实际应用中,只要保证核心解释变量与u不相关即可。
    10.对变量取对数构造新的变量,
    (1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取 了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义。
    11.对四类模型回归系数的解释:
    一元线性回归。
    双对数模型:x每增加1%,y平均变化b%
    半对数模型:x每增加1个单位,y平均变化(100b)%(对y取对数)
    半对数模型:x每增加1%,y平均变化b/100。(对x取对数)
    12.在回归中对定性变量的解释
    虚拟变量的引入(0-1型变量)
    定性变量前的回归系数是在控制其他变量不变的情况下,该虚拟变量与对照组的差异。
    为了避免多重共线性的影响引入虚拟变量的个数是分类数-1。
    加入虚拟变量使用软件Stata回归,stata会自动检测完全多重共线性问题
    注意整理表格,修改字体,不要直接把截图放到论文里。
    13.对二值因变量常常使用probit回归。

    对数据进行预处理(数据可视化)

    使用excel对数据进行预处理,将区域转换为表格,便于管理。修改定性和定量数据的背景,进行总览,制成一个简单的表格放入论文中,进行一个总体情况的介绍·。
    在excel中复制由公式得到的某一行或某一列时,注意粘贴为数值。
    折线图与柱状图的结合使用。

    对数据进行描述性统计

    可以用·excel,SPSS,stata.
    注意Stata中的语法(符号是英文)
    导入数据,保存代码在do-file中。分别对定量数据和定性数据进行描述性统计,顺便可以设置虚拟变量。
    注意tabulate每次只能对一个定性变量进行描述性统计
    得到结果后,粘贴到Excel中美化(三线表)
    当定性数据太多,只能放到附录中,每一个数据对应的分类进行频数统计绘制饼状图(excel)更加直观放入论文中。(数据透视表)做柱状图时注意对数据进行排序。使用数据透视表可以进行交互的分析。

    利用Stata进行回归分析

    1. 在Stata中用reg进行回归时,默认使用OLS普通最小二乘法进行回归。
    2. Model代表SSR;Residual代表SSE;Total代表总体平方和SST;SS代表;df代表自由度;Coef代表回归系数;Std.Err.代表标准误差(它的作用在于构造t统计量——回归系数除以标准误差)
    3. 首先要进行联合显著性检验(F统计量),检验这K个自变量前的回归系数是否等于零。原假设是全部等于零·。
    4. 用t检验来检验回归系数的显著性,比较P值。(由于量纲的影响单看回归系数的大小没有意义,不能看出显著性)
    5. 置信区间包含原点说明回归系数的显著性不强。
    6. 回归用的是定量数据的变量和虚拟变量。
    7. 注意解读图标和某些数据的意义。(注意虚拟变量回归系数的解读)
    8. 将回归后得到的表格存到word文档中时,美化表格改变字体·,分析回归系数的意义。
    9. 回归模型的拟合优度很低,调整后通常更低,回归分为解释型回归(更多关注整体显著性,拟合优度小没有影响),预测型回归(唯拟合优度大是论)。也可以通过对模型进行调整,如·对数据取对数或者平方后进行回归(不要轻易改变变量,否则难以解释或者有内生性问题)
    10. 使用调整后拟合优度:因为引入的自变量越多,拟合优度越大。我们更倾向于使用调整后的拟合优度,如果新引入的自变量对SSE的减少程度比较小,那么调整后的拟合优度反而会变小。

    利用Stata进行标准化回归(剔除量纲的影响)b

    1.标准化回归是用来比较各个自变量对因变量的重要程度。
    2.对数据进行标准化,就是将原始数据减去他的均数之后,再除以该变量的标准差,计算得到的新的变量的值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化的回归系数。(只关注显著的回归系数,标准化系数的绝对值越大,说明对因变量影响越大)即先用未标准化的回归系数进行显著性检验,在通过标准化的回归系数进行变量的重要性判断。

    对模型进行稳健性检验

    1.更改研究对象(针对某一问题,没有固定研究对象)。
    2.更改计量方法。
    3.加入其他的控制变量。

    扰动项问题

    1.我们通常把扰动项看成是便于我们分析的球型扰动项,它满足“同方差”和“无自相关”的条件。但是横截面数据容易出现异方差的问题,时间序列数据容易出现自相关(ui和uj的协方差不为零)的问题。
    2.若扰动项中包含与自变量相关的变量会造成内生性,使模型不准确。

    关于异方差

    1.异方差:异方差性是相对于同方差而言的。所谓同方差(主对角线元素相同),是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定:总体回归函数中的随机误差项(扰动项)满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。
    简单来说就是对于不同的观测值,扰动项的方差不同
    2.存在异方差的后果:OLS 估计出来的回归系数仍然是无偏的,一致的,但是假设检验无法使用,因为假设检验构造的t统计量是回归系数除以标准误,而标准误由于异方差的影响而不准确。OLS 不再是最优线性无偏估计量。例如:当自变量x增大时,数据越来越发散。
    3.解决异方差的办法:(1)使用OLS和稳健的标准误差(常用)(2)使用广义最小二乘法(分配不同的权重)。
    4.检验异方差:画散点图(看数据波动的程度);BP检验和怀特检验(应用范围更广)(原假设是不存在异方差)。

    多重共线性的问题

    1.多重共线性是指某一自变量与其他自变量的相关性很大。
    2.严格的多重共线性往往不存在,完全多重共线性stata会自动识别并删去。非严格的多重共线性往往更常见,会使得对系数的估计不准确。往往表现在:模型的拟合优度很大,联合性检验也很显著,但是但是单个系数的t检验不显著,或者系数的估计值不合理,甚至符号和预期相反。也可能是增减解释变量对系数的估计值影响很大(类似于内生性)。
    多重共线性的主要后果是对单个系数的解释不准确,可能使它不显著。
    3.检验多重共线性:方差膨胀因子VIF。
    4.多重共线性的处理方法

    逐步回归分析(解决多重共线性的问题)

    向前逐步回归与向后逐步回归(更好),数模时可以用。
    逐步回归时,要提前手动删除完全多重共线性的变量(在做一般回归时,stata自动删除过)。

    展开全文
  • 但现实问题中,我们往往会碰到多个变量间的线性关系的问题,这时就要用到多元线性回归多元线性回归是一元回归的一种推广,其在实际应用中非常广泛,本文就用python代码来展示一下如何用多元线性回归来解决实际问题...
  • 数学建模(NO.11多元线性回归分析

    千次阅读 2021-01-13 20:45:06
    多元线性回归分析一.应用二.三个关键词三.目的四.回归模型分类五.数据分类1.三种数据2.模型与数据对应六.数据收集网址七.一元线性回归1.概念2.对“线性”理解1.纠正线性2. 预处理3.什么时候取对数?3.回归系数的解释...
  • 然后,假设端面顶板冒落高度与各影响因素线性相关,采用统计分析软件SPSS对各因素进行多元线性回归分析,结果表明,各因素与顶板冒落高度的线性关系成立,且得到了各因素的回归方程.最后,根据分析结果提出了预防...
  • #线性模型中有关函数#基本函数 a<-lm(模型公式,数据源) #anova(a)计算方差分析表#coef(a)提取模型系数#devinace(a)计算残差平方和#formula(a)提取模型公式#plot(a)绘制模型诊断图#predict...#多元线性回归分析 ...
  • 数学建模7 多元线性回归分析

    千次阅读 2020-02-07 09:27:33
    回归分析:研究x和y之间的相关性的分析,尝试去解释Y的形成机制,进而达到通过x去预测y的目的。 回归分析的目的: 1.变量选择,识别重要变量(逐步回归法) 2. 正相关还是副相关? 3. 不同变量的重要性(估计权重) ...
  • 数学建模--多元线性回归分析

    千次阅读 2020-07-10 21:33:34
    一、回归分析的介绍和分类 1 回归分析 研究X与Y之间相关性的分析 1.1 相关性 相关性≠因果性 1.2 Y 因变量/核心变量 连续数值型变量 0-1型变量 定序变量 计数变量 生存变量 1.3 X 研究X与Y的相关关系,得到Y...
  • 常见的回归分析有:线性回归、0-1回归、定序回归、计数回归和生存回归,其划分的依据是因变量y的类型。 Y的类型: X的含义: 回归分析的使命: 回归分析的分类: 数据的分类: 横截面数据:在某一时点收集的...
  • 本实验通过多元线性回归分析,探究究竟哪些因素是地方财政教育支出(y)的影响因素,并做出预测。现有地区生产总值(x1)、年末常住人口(x2)、居民人均教育文化娱乐消费(x3)、居民教育消费价格指数(x4)、教育支出在地方...
  • 解决多元线性回归中多重共线性问题的方法分析,谢小韦,印凡成,为了解决多元线性回归中自变量之间的多重共线性问题,常用的有三种方法: 岭回归、主成分回归和偏最小二乘回归。本文以考察职工平�
  • 这是一个关于大学生就业信息的获奖论文!其中主要运用了多元线性回归的知识,可以很好的帮助读者学会建模思想!
  • 多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow import excel "课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow // 定量变量的描述性统计 summarize 团购价元 评价量 ...
  • 多元线性回归的适用条件: (1)自变量对应变量的变化具有显著影响 (2)自变量与应变量间的线性相关必须是真实的,而非形式上的 (3)自变量之间需有一定的互斥性 (4)应具有完整的统计数据 训练数据:csv格式,...
  • 多元线性回归--案例分析及python实践

    千次阅读 2020-02-03 18:06:55
    本篇主要是针对回归分析过程中所使用到的统计量进行汇总,并通过案例,结合python语言实现。适用于一元线性回归和多元线性回归。代码可直接使用。
  • 多元线性回归建模 文章大纲 (Article Outline) Dataset description 数据集描述 Exploratory data analysis 探索性数据分析 A simple linear regression model fitting 简单的线性回归模型拟合 Model interpretation...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,316
精华内容 1,326
关键字:

多元线性回归分析论文