精华内容
下载资源
问答
  • 多元线性回归分析论文
    万次阅读 多人点赞
    2018-12-07 13:35:10

    ▼多元线性回归分析▼

    一、多元线性回归模型

    设变量Y与X1,X2,……,Xp之间有线性关系

                                            Y = \beta _{0} + \beta _{1} X_{1}+ \beta _{2} X_{2}+ \cdots +\beta _{p} X_{p} + \varepsilon

    其中  \varepsilon \sim N(0,\sigma ^{^{2}})  ,\beta _{0},\beta _{1},\beta _{2},\cdots ,\beta _{p} 和 \sigma ^{2} 是未知参数,p≥2,称上公式为多元线性回归模型。

    二、参数估计

    我们根据多元线性回归模型,认为误差 \varepsilon 应是比较小的,然后对 \beta _{0},\beta _{1},\beta _{2},\cdots ,\beta _{p} 求偏导并令其等于0,可以得到正规方程:

                                               X^{^{T}}X\beta = X^{T}Y

    因为 rank(X^{T}X) = rank(X) = p+1 ,故 \left ( X^{T} X\right )^{-1} 存在,解正规方程,可以得到β的最小二乘估计:

                                              \hat{\beta }=\left ( X^{T}X \right )^{-1}X^{T}Y

    三、回归方程的显著性检验

    给出定义:回归方程的显著性检验等价于检验回归系数是否全为零,即检验:

                       H_{0}:\beta _{1}=\beta _{2}=\cdots =\beta _{p}=0,H_{1}:\beta _{1},\beta _{2},\cdots ,\beta _{p} 不全为零

    下面给出必要的公式:

    残差平方和SSE:

                                     SSE=\sum_{i=1}^{n}\left ( y_{i} -\hat{y}\right )^{2}

    回归平方和SSR:

                                    SSR=\sum_{i=1}^{n}\left (\hat{} y_{i} -\bar{y}\right )^{2}

    总的离差平方和:

                                    SST=SSE+SSR

    统计量F:

                                     F=\frac{SSR/p}{SSE/(n-p-1)}

    对于给定的显著性水平α,检验的拒绝域:

                                     F|F>F_{\alpha }(p,n-p-1)

    四、回归系数的显著性检验

    回归方程显著,并不意味着每个自变量对因变量的影响都显著,通常会进行回归系数的检验,假设检验为:

                                     H_{0i}:\beta _{i}=0, H_{1i}:\beta _{i}\neq 0

    给出t值检验法公式:

                                      t_{i}=\frac{\hat{\beta i}}{\hat{\sigma }\sqrt{c_{ii}}}\sim t(n-p-1)

    其中  

                                       \hat{\alpha }=\sqrt{\frac{SSE}{n-p-1}}

    对于给定的显著性水平α,检验的拒绝域:

                                      |t_{i}|>t_{\frac{\alpha }{2}}(n-p-1)

    另外,还可以确定\beta _{i} 的置信度为1-α的置信区间:

                                     (\hat{\beta _{i}}-t_{\frac{\alpha }{2}}(n-p-1)\sqrt{c_{ii}}\hat{\sigma},\hat{\beta _{i}}+t_{\frac{\alpha }{2}}(n-p-1)\sqrt{c_{ii}}\hat{\sigma})

    五、例题实战

    题目: 文件“T3house.txt”中给出了美国某住宅区的20个家庭房价相关数据。

    数据:T3house.txt

       15.31    57.3    74.8
       15.20    63.8    74.0
       16.25    65.4    72.9
       14.33    57.0    70.0
       14.57    63.8    74.9
       17.33    63.2    76.0
       14.48    60.2    72.0
       14.91    57.7    73.5
       15.25    56.4    74.5
       13.89    55.6    73.5
       15.18    62.6    71.5
       14.44    63.4    71.0
       14.87    60.2    78.9
       18.63    67.2    86.5
       15.20    57.1    68.0
       25.76    89.6   102.0
       19.05    68.6    84.0
       15.37    60.1    69.0
       18.06    66.3    88.0
       16.35    65.8    76.0

     a.将矩阵第一列记为变量z1=总居住面积,第二列记为变量z2=评估价值,第三列记为Y=售价。

    library(foreign)
    data <-read.table("T3house.txt")
    data1<-as.matrix(data[1:20,1:3],dimnames="cc")
    colnames(data1) <- c("z1","z2","Y");data1

    b.将a中的各个变量生成数据框,做关于Y和z1,z2的回归,显示计算结果。

    data2<-data.frame(data1);data2
    
    #使用内置函数
    #lm.1<-lm(Y~z1+z2,data=data2)
    #summary(lm.1)
    
    #自编程序
    z0<-c(rep(1,20))
    data3<-data.frame(z0,data2)
    attach(data3)
    A<-as.matrix(data3)
    X<-A[1:20,1:3]
    Y<-A[1:20,4]
    Y<-as.vector(Y)
    b<-solve(t(X)%*%X)%*%t(X)%*%Y;b
    #结果
    #z0 30.96656634
    #z1  2.63439962
    #z2  0.04518386
    #故回归方程为Y=30.6656634+2.63439962 z1 + 0.04518386 z2
    

    c.根据b中的结果分别给出β1和β2的置信系数为90%的置信区间。

    data3<-data.frame(z0,data2);data3
    n<-nrow(data3);
    p<-ncol(data3);
    p<-p-1
    C<-solve(t(X)%*%X)
    A<-as.matrix(data3)
    X<-A[1:20,1:3]
    lm.1<-lm(Y~z1+z2,data=data3)
    SSE=deviance(lm.1)
    shita<-sqrt(SSE/(n-p-1))
    t1<-b[2]/(shita*sqrt(C[1,1]));t1
    t2<-b[3]/(shita*sqrt(C[2,2]));t2
    b1<-c(b[2]-1.7247*shita*sqrt(C[1,1]),b[2]+1.7247*shita*sqrt(C[1,1]));b1
    b2<-c(b[3]-1.7247*shita*sqrt(C[2,2]),b[3]+1.7247*shita*sqrt(C[2,2]));b2
    #结果
    #-11.37843  16.64723
    #-1.351438  1.441806
    

    d.假设某房间总居住面积为15,评估价值为55,试给出该房屋售价的点估计、预测区间和估计区间(置信系数95%)。

    y0<-b[1]+15*b[2]+55*b[3];y0
    #点估计72.96767
    
    newdata<-data.frame(z1=15,z2=55)
    lmpred<-predict(lm.1,newdata,interval="prediction",level=0.95)
    lmpred
    

    e.计算20个房屋价格的拟合值,并做残差对拟合值的残差图。

    resid<-residuals(lm.1)
    pre<-predict(lm.1);pre #等价于y,拟合值
    
    #方法二
    y=x
    for(i in 1:20)
    {
      y[i]=b[1]+X[i,2]*b[2]+X[i,3]*b[3]
    }
    y; #拟合值
    plot(pre,resid)
    

    f.计算回归系数β的最小二乘估计,误差方差σ2的估计,残差向量,残差平方和,回归平方和,方程显著性检验F统计量,复相关系数,修正的复相关系数。将上述8个量写入一个列表并显示出结果。

    #第一个量
    b;
    #第二个量
    shita2<-SSE/(n-p-1);shita2
    #第三个量
    e<-Y-X%*%b;e
    #第四个量
    y1<-mean(Y)
    sse<-0
    for(i in 1:20)
    {
       y[i]=b[1]+X[i,2]*b[2]+X[i,3]*b[3]
    }
    for(j in 1:20)
    {
       sse<-sse+(Y[j]-y[j])**2
    }
    sse;
    #第五个量
    ssr<-0;
    y0<-mean(Y)
    for(k in 1:20)
    {
      ssr<-ssr+(y[k]-y0)**2
    }
    ssr;
    #第六个量
    F<-(ssr/p)/(sse/(n-p-1));F
    #第七个量
    R<-ssr/(sse+ssr);R
    #第八个量
    R2<-sqrt(1-(sse/(n-p-1))/((sse+ssr)/(n-1)));R2
    #列表
    list.data <- list(b, shita2, e, sse, ssr,F,R,R2);list.data
    

    相关资料:数据分析与R软件第二版(李素兰著)每章例题代码和数据,下载地址:https://download.csdn.net/download/lph188/10802159

    更多相关内容
  • 多元线性回归分析
  • 通过具体的案例讲解时间序列下多元线性回归在eviews里的操作
  • 基于spss的一元线性回归与多元线性回归案例,个人整理出的,包含了部分案例、实验报告、题目,及部分题目答案,适合作为spss、MATLAB等软件数据分析题目联系
  • 每个人的生活中都有一个点,那就是该人希望购买或出售房屋。 首先考虑一个人需要买房的情况。 该人将以合理的价格寻找他/她想要的房子。 该人将具有一些决定他/她想要在房子里拥有什么功能。 该人将能够决定他/她所...
  • 数学建模(NO.11多元线性回归分析

    千次阅读 2021-01-13 20:45:06
    多元线性回归分析一.应用二.三个关键词三.目的四.回归模型分类五.数据分类1.三种数据2.模型与数据对应六.数据收集网址七.一元线性回归1.概念2.对“线性”理解1.纠正线性2. 预处理3.什么时候取对数?3.回归系数的解释...

    一.应用

    回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。
    回归分析的任务就是通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
    常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。

    二.三个关键词

    1. 相关性:相关性而非因果性
    2. Y:自变量
      (1)经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。
      (2)P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)。
      (3)消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示非常喜欢)(定序变量)。
      (4)管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。(计数变量)
      (5)研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁,现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+,那这种数据就是截断的数据)(生存变量)
    3. X:自变量
      回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的

    三.目的

    回归分析要完成的三个使命:

    1. 第一、识别重要变量;
    2. 第二、判断相关性的方向;
    3. 第三、要估计权重(回归系数)

    四.回归模型分类

    在这里插入图片描述

    五.数据分类

    1.三种数据

    1. 横截面数据:在某一时点收集的不同对象的数据。

    例如:
    (1)我们自己发行问卷得到的数据
    (2)全国各省份2018年GDP的数据
    (3)大一新生今年体测的数据

    1. 时间序列数据:对同一对象在不同时间连续观察所取得的数据。

    例如:
    (1)从出生到现在,你的体重的数据(每年生日称一次)。 (2)中国历年来GDP的数据。
    (3)在某地方每隔一小时测得的温度数据。

    1. 面板数据:横截面数据与时间序列数据综合起来的一种数据资源

    例如:
    2008‐2018年,我国各省份GDP的数据。

    2.模型与数据对应

    在这里插入图片描述

    六.数据收集网址

    【简道云汇总】110+数据网站

    虫部落数据搜索

    【汇总】数据来源/大数据平台

    大数据工具导航工具

    数据平台

    上面的数据多半都是宏观数据,微观数据市面上很少
    大家可以在人大经济论坛搜索

    另外也可以自己学习爬虫
    (1)Python等软件爬取(需要编程基础,实际学习起来不困难)
    网易云课堂:零基础21天搞定Python分布爬虫
    (2)傻瓜式软件爬取(八爪鱼)

    七.一元线性回归

    1.概念

    在这里插入图片描述
    在这里插入图片描述

    2.对“线性”理解

    1.纠正线性

    在这里插入图片描述
    使用线性回归模型进行建模前,需要对数据进行预处理。
    用Excel、Matlab、Stata等软件都可以

    2. 预处理

    在这里插入图片描述
    在这里插入图片描述

    3.什么时候取对数?

    目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:
    (1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
    (2)以年度量的变量,如受教育年限、工作经历等通常不取对数;
    (3)比例变量,如失业率、参与率等,两者均可;
    (4)变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);
    取对数的好处:(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取
    了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义

    3.回归系数的解释

    在这里插入图片描述
    在这里插入图片描述
    可以看到,引入了新的自变量价格后,对回归系数的影响非常大!!!
    原因:遗漏变量导致的内生性
    在这里插入图片描述

    4.内生性探究

    在这里插入图片描述
    内生性的蒙特卡罗模拟
    在这里插入图片描述

    %% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差
    times = 300;  % 蒙特卡洛的次数
    R = zeros(times,1);  % 用来储存扰动项u和x1的相关系数
    K = zeros(times,1);  % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数
    for i = 1: times
        n = 30;  % 样本数据量为n
        x1 = -10+rand(n,1)*20;   % x1在-1010上均匀分布,大小为30*1
        u1 = normrnd(0,5,n,1) - rand(n,1);  % 随机生成一组随机数
        x2 = 0.3*x1 + u1;   % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数
        % 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。
        u = normrnd(0,1,n,1);  % 扰动项u服从标准正态分布
        y = 0.5 + 2 * x1 + 5 * x2 + u ;  % 构造y
        k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的k
        K(i) = k;
        u = 5 * x2 + u;  % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2
        r = corrcoef(x1,u);  % 2*2的相关系数矩阵
        R(i) = r(2,1);
    end
    plot(R,K,'*')
    xlabel("x_1和u'的相关系数")
    ylabel("k的估计值")
    

    在这里插入图片描述
    相关系数绝对值越大,表示x1与干扰项越相关,代表内生性越大

    5. 解释变量与控制变量

    无内生性(no endogeneity)要求所有解释变量均与扰动项不相关。
    这个假定通常太强,因为解释变量一般很多(比如,5‐15个解释变量),且需要保证它们全部外生。
    为了弱化这个条件
    解释变量可以区分为核心
    解释变量与控制变量两类。
    核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的
    一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
    控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也
    放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。
    在实际应用中,我们只要保证核心解释变量与𝝁不相关即可

    6.四类模型回归系数的解释

    在这里插入图片描述
    在这里插入图片描述

    6.特殊的自变量

    (1)虚拟变量X

    如果自变量中有定性变量,例如性别、地域等,在回归中要怎么处理?
    例如:我们要研究性别对于工资的影响(性别歧视)
    在这里插入图片描述
    在这里插入图片描述

    (2) 含有交互项的自变量

    在这里插入图片描述

    八.stata操作

    1.导入表格

    在这里插入图片描述
    在这里插入图片描述

    2. 代码保存

    在这里插入图片描述
    在这里插入图片描述

    3. 数据的描述性统计

    (1)定量数据:summarize 变量1 变量2 … 变量n
    在这里插入图片描述
    复制到Excel后改动一下放到论文中
    (2)定性数据:
    tabulate 变量名,gen(A)
    返回对应的这个变量的频率分布表,并生成对应的虚拟变量(以A开头)。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    查看加入虚拟变量的表格
    在这里插入图片描述

    4. 虚拟变量展示

    使用Excel表格的数据透视图功能
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    也有可以多个变量进行
    在这里插入图片描述
    论文中最好有
    在这里插入图片描述
    也可以加上自变量,因变量

    5.stata回归

    (1)定量数据:

    设置了评价量为观测值

    regress 评价量 团购价元 商品毛重kg
    

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    这里论文需要用的R2需要进行调整
    在这里插入图片描述

    在这里插入图片描述

    (2)定性数据

    增加虚拟变量

    tabulate 配方,gen(A)
    tabulate 奶源产地 ,gen(B)
    tabulate 国产或进口 ,gen(C)
    tabulate 适用年龄岁 ,gen(D)
    tabulate 包装单位 ,gen(E)
    tabulate 分类 ,gen(F)
    tabulate 段位 ,gen(G)
    

    由于虚拟变量需要个数-1,设置一个对照组,如图stata自动将G4变为对照组

    在这里插入图片描述

    6.完成题目

    在这里插入图片描述

    clear
    // 清屏 和 matlab的clc类似
    cls 
    // 导入数据(其实是我们直接在界面上粘贴过来的,我们用鼠标点界面导入更方便 本条请删除后再复制到论文中,如果评委老师看到了就知道这不是你写的了)
    // import excel "C:\Users\hc_lzp\Desktop\数学建模视频录制\第7讲.多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow
    import excel "课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow
    // 定量变量的描述性统计
    summarize 团购价元 评价量 商品毛重kg
    // 定性变量的频数分布,并得到相应字母开头的虚拟变量
    tabulate 配方,gen(A)
    tabulate 奶源产地 ,gen(B)
    tabulate 国产或进口 ,gen(C)
    tabulate 适用年龄岁 ,gen(D)
    tabulate 包装单位 ,gen(E)
    tabulate 分类 ,gen(F)
    tabulate 段位 ,gen(G)
    

    以上为前期准备,对检查定量定性数据回归是否有意义,然后给定性数据增加虚拟变量
    现在进行回归
    只对定量数据

    regress 评价量 团购价元 商品毛重kg
    
    

    整体进行

     reg  评价量 商品毛重kg 团购价元 A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 
    > E2 E3 E4 F1 F2 G1 G2 G3 G4
    
    

    结果
    给虚拟变量选择对照组
    在这里插入图片描述
    表格:
    在这里插入图片描述
    观察得到只有两个数据在0.1以下,其余都在0.1以上
    所以我们将置信度变为90%,由于小于0.1,所以拒绝原假设H0:系数=0,即,显著异于0
    然后只用分析这两个数据就好
    分析:
    第一个,-29.77274:团购价格增加一单位,那么评价量减少29.77274
    第二个:由于对照组是F2:羊奶粉,所以相比较于羊奶粉,使用牛奶粉评价量会增加 14894.55
    这时候我们想把这个表格应用到论文中,但是太多了,放在附录中也可以,或者:

    regress 评价量 团购价元 商品毛重kg
    // 下面的语句可帮助我们把回归结果保存在Word文档中
    // 在使用之前需要运行下面这个代码来安装下这个功能包(运行一次之后就可以注释掉了)
    // ssc install reg2docx, all replace
    // 如果安装出现connection timed out的错误,可以尝试换成手机热点联网,如果手机热点也不能下载,就不用这个命令吧,可以自己做一个回归结果表,如果觉得麻烦就直接把回归结果截图。
    est store m1
    reg2docx m1 using m1.docx, replace
    

    在这里插入图片描述
    打开,如下
    在这里插入图片描述
    整体表格化

    // Stata会自动剔除多重共线性的变量
    regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
    est store m2
    reg2docx m2 using m2.docx, replace
    
    

    在这里插入图片描述
    对虚拟变量进行具体化

    // 得到标准化回归系数
    regress 评价量 团购价元 商品毛重kg, b 
    
    // 画出残差图
    regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
    rvfplot 
    // 残差与拟合值的散点图
    graph export a1.png ,replace
    // 残差与自变量团购价的散点图
    rvpplot  团购价元
    graph export a2.png ,replace
    
    // 为什么评价量的拟合值会出现负数?
    // 描述性统计并给出分位数对应的数值
    summarize 评价量,d
    
    // 作评价量的概率密度估计图
    kdensity 评价量 
    graph export a3.png ,replace
    
    // 异方差BP检验
    estat hettest ,rhs iid
    
    // 异方差怀特检验
    estat imtest,white
    
    // 使用OLS + 稳健的标准误
    regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4, r
    est store m3
    reg2docx m3 using m3.docx, replace
    
    // 计算VIF
    estat  vif
    
    // 逐步回归(一定要注意完全多重共线性的影响)
    // 向前逐步回归(后面的r表示稳健的标准误)
    stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r pe(0.05)
    // 向后逐步回归(后面的r表示稳健的标准误)
    stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r pr(0.05)
    // 向后逐步回归的同时使用标准化回归系数(在r后面跟上一个b即可)
    stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r b pr(0.05)
    
    
    // 补充语法 (大家不需要具体的去学Stata软件,掌握我课堂上教给大家的一些命令应对数学建模比赛就可以啦)
    // 事实上大家学好Excel,学好后应对90%的数据预处理问题都能解决
    // (1) 用已知变量生成新的变量 
    generate lny = log(评价量)  
    generate price_square = 团购价元 ^2
    generate interaction_term = 团购价元*商品毛重kg
    // (2) 修改变量名称,因为用中文命名变量名称有时候可能容易出现未知Bug
    rename 团购价元 price
    

    九.知识补充

    1.拟合优度 R2较低怎么办

    (1)回归分为解释型回归和预测型回归。
    预测型回归一般才会更看重𝑅2
    解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可
    (2)可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
    (3)数据中可能有存在异常值或者数据的分布极度不均匀。

    2.关于拟合优度和调整后的拟合优度

    我们引入的自变量越多,拟合优度会变大。但我们倾向于使用调整后的拟合优度,
    如果新引入的自变量对SSE的减少程度特别少,那么调整后的拟合优度反而会减小。【论文可用】
    在这里插入图片描述

    标准化回归系数

    为了更为精准的研究影响评价量的重要因素(去除量纲的影响),
    我们可考虑使用标准化回归系数。
    对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,计算得到新的变量值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化回归系数。
    标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显著的回归系数哦

    Stata标准化回归命令
    
    regress y x1 x2 … xk,beta
    

    在这里插入图片描述
    (1)为什么常数项没有标准化回归系数?
    常数的均值是其本身,经过标准化后变成了0.
    (2)为啥和之前的回归结果完全相同,除了多了最后那一列标准化回归系数?
    对数据进行标准化处理不会影响回归系数的标准误,也不会影响显著性.

    展开全文
  • 这是一个关于大学生就业信息的获奖论文!其中主要运用了多元线性回归的知识,可以很好的帮助读者学会建模思想!
  • 相关性因变量Y自变量X回归分析的使命回归分析的分类数据的分类一元线性回归对于线性的理解回归系数的解释内生性的探究内生性的蒙特卡罗模拟核心解释变量和控制变量回归系数的解释什么时候取对数? 学习来源:清风...


    学习来源:清风老师
    回归分析的任务就是,通过研究 自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去 预测Y的目的。
    常见的回归分析有五类: 线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。

    回归的思想

    回归分析:研究X和Y之间相关性的分析。

    相关性

    相关性 ≠ 因果性

    在绝大多数情况下,我们没有能力去探究严格的因果关系,所以只好退而求其次,改成通过回归分析,研究相关关系

    因变量Y

    • 经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。
    • P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)。
    • 消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示非常喜欢)(定序变量)。
    • 管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。(计数变量)
    • 研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁,
      现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+,那这种数据就是截断的数据)(生存变量)

    自变量X

    回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。

    回归分析的使命

    使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
    使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的?
    使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。
    第一、识别重要变量;
    第二、判断相关性的方向;
    第三、要估计权重(回归系数)。

    回归分析的分类

    在这里插入图片描述

    数据的分类

    横截面数据:在某一时点收集的不同对象的数据。
    例如:
    (1)我们自己发放问卷得到的数据
    (2)全国各省份2018年GDP的数据
    (3)大一新生今年体测的得到的数据
    时间序列数据:对同一对象在不同时间连续观察所取得的数据
    例如:
    (1)从出生到现在,你的体重的数据(每年生日称一次)。
    (2)中国历年来GDP的数据。
    (3)在某地方每隔一小时测得的温度数据。
    面板数据:横截面数据与时间序列数据综合起来的一种数据资源。
    例如:
    2008‐2018年,我国各省份GDP的数据。
    在这里插入图片描述
    数据的收集

    一元线性回归

    在这里插入图片描述

    对于线性的理解

    在这里插入图片描述

    回归系数的解释

    在这里插入图片描述

    内生性的探究

    在这里插入图片描述

    包含了所有与y相关,但未添加到回归模型中的变量
    如果这些变量和我们已经添加的自变量相关,则存在内生性

    内生性的蒙特卡罗模拟

    在这里插入图片描述

    %% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差
    times = 300;  % 蒙特卡洛的次数
    R = zeros(times,1);  % 用来储存扰动项u和x1的相关系数
    K = zeros(times,1);  % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数
    for i = 1: times
        n = 30;  % 样本数据量为n
        x1 = -10+rand(n,1)*20;   % x1在-1010上均匀分布,大小为30*1
        u1 = normrnd(0,5,n,1) - rand(n,1);  % 随机生成一组随机数
        x2 = 0.3*x1 + u1;   % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数
        % 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。
        u = normrnd(0,1,n,1);  % 扰动项u服从标准正态分布
        y = 0.5 + 2 * x1 + 5 * x2 + u ;  % 构造y
        k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的k
        K(i) = k;
        u = 5 * x2 + u;  % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2
        r = corrcoef(x1,u);  % 2*2的相关系数矩阵
        R(i) = r(2,1);
    end
    plot(R,K,'*')
    xlabel("x_1和u'的相关系数")
    ylabel("k的估计值")
    

    在这里插入图片描述

    核心解释变量和控制变量

    无内生性(no endogeneity)要求所有解释变量均与扰动项不相关。
    这个假定通常太强,因为解释变量一般很多(比如,5‐15个解释变量),且需要保证它们全部外生。
    是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心解释变量与控制变量两类。
    核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的
    一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
    控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也
    放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。
    在实际应用中,我们只要保证核心解释变量与𝝁不相关即可。

    回归系数的解释

    在这里插入图片描述

    什么时候取对数?

    目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:
    (1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
    (2)以年度量的变量,如受教育年限、工作经历等通常不取对数;
    (3)比例变量,如失业率、参与率等,两者均可;
    (4)变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y)
    取对数的好处:(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取
    了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义。

    四类模型回归系数的解释

    在这里插入图片描述
    在这里插入图片描述

    特殊的自变量:虚拟变量X

    在这里插入图片描述
    在这里插入图片描述

    多分类的虚拟变量设置

    在这里插入图片描述

    含有交互项的自变量

    在这里插入图片描述

    回归实例

    现有某电商平台846条关于婴幼儿奶粉的销售信息,每条信息由11个指标组成。其中,评价量可以从一个侧面反映顾客对产品的关注度。
    请对所给数据进行以下方面的分析,要求最终的分析将不仅仅有益于商家,更有益于宝妈们为宝贝选择适合自己的奶粉。

    1. 以评价量为因变量,分析其它变量和评价量之间的关系;
    2. 以评价量为因变量,研究影响评价量的重要因素。
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    数据的描述性统计

    定量数据

    在这里插入图片描述

    定性数据

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    // 按键盘上的PageUp可以使用上一次输入的代码(Matleb中是上箭头)
    // 清除所有变量
    clear
    // 清屏 和 matlab的clc类似
    cls 
    // 导入数据(其实是我们直接在界面上粘贴过来的,我们用鼠标点界面导入更方便 本条请删除后再复制到论文中,如果评委老师看到了就知道这不是你写的了)
    // import excel "C:\Users\hc_lzp\Desktop\数学建模视频录制\第7讲.多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow
    import excel "课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow
    // 定量变量的描述性统计
    summarize 团购价元 评价量 商品毛重kg
    // 定性变量的频数分布,并得到相应字母开头的虚拟变量
    tabulate 配方,gen(A)
    tabulate 奶源产地 ,gen(B)
    tabulate 国产或进口 ,gen(C)
    tabulate 适用年龄岁 ,gen(D)
    tabulate 包装单位 ,gen(E)
    tabulate 分类 ,gen(F)
    tabulate 段位 ,gen(G)
    // 下面进行回归
    regress 评价量 团购价元 商品毛重kg
    // 下面的语句可帮助我们把回归结果保存在Word文档中
    // 在使用之前需要运行下面这个代码来安装下这个功能包(运行一次之后就可以注释掉了)
    // ssc install reg2docx, all replace
    // 如果安装出现connection timed out的错误,可以尝试换成手机热点联网,如果手机热点也不能下载,就不用这个命令吧,可以自己做一个回归结果表,如果觉得麻烦就直接把回归结果截图。
    est store m1
    reg2docx m1 using m1.docx, replace
    // *** p<0.01  ** p<0.05 * p<0.1
    
    // Stata会自动剔除多重共线性的变量
    regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
    est store m2
    reg2docx m2 using m2.docx, replace
    
    // 得到标准化回归系数
    regress 评价量 团购价元 商品毛重kg, b 
    
    // 画出残差图
    regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
    rvfplot 
    // 残差与拟合值的散点图
    graph export a1.png ,replace
    // 残差与自变量团购价的散点图
    rvpplot  团购价元
    graph export a2.png ,replace
    
    // 为什么评价量的拟合值会出现负数?
    // 描述性统计并给出分位数对应的数值
    summarize 评价量,d
    
    // 作评价量的概率密度估计图
    kdensity 评价量 
    graph export a3.png ,replace
    
    // 异方差BP检验
    estat hettest ,rhs iid
    
    // 异方差怀特检验
    estat imtest,white
    
    // 使用OLS + 稳健的标准误
    regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4, r
    est store m3
    reg2docx m3 using m3.docx, replace
    
    // 计算VIF
    estat  vif
    
    // 逐步回归(一定要注意完全多重共线性的影响)
    // 向前逐步回归(后面的r表示稳健的标准误)
    stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r pe(0.05)
    // 向后逐步回归(后面的r表示稳健的标准误)
    stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r pr(0.05)
    // 向后逐步回归的同时使用标准化回归系数(在r后面跟上一个b即可)
    stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r b pr(0.05)
    
    

    Excel中数据透视表

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    11个指标的总体情况介绍在这里插入图片描述

    Stata回归的语句

    在这里插入图片描述
    在这里插入图片描述

    拟合优度 R2较低怎么办

    (1)回归分为解释型回归预测型回归
    预测型回归一般才会更看重𝑅2
    解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。
    (2)可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
    (3)数据中可能有存在异常值或者数据的分布极度不均匀。
    在这里插入图片描述

    标准化回归系数

    在这里插入图片描述

    在这里插入图片描述

    展开全文
  • 基于MATLAB数学软件对冠心病发病相关因素的多元线性回归分析.pdf
  • 系统聚类和多元线性回归模型的物流需求分析,孙淑生,黄宝军,物流业作为经济发展的基石,是衡量一个区域综合经济实力和科技水平的重要标志。为了更好地能够在未来某一时段内的准确预测将成为
  • 多元线性回归分析的原理出发,利用最小二乘法准则,将回归分析归结为用Seidel迭代法求矩阵方程组解,确定待定系数的过程.利用mathematica实现精度可调节式的多元线性回归.结合实例,通过方差分析表,进行F检验,...
  • 多元线性回归的参数估计方法,吴仕勋,赵东方,本文依据高斯—马尔可夫定理,通过对最小二乘估计方法得出的参数估计值的分析,从另外两个角度出发得出了参数估计的值与最小二乘
  • 1. 多元线性回归(解释性回归与预测性回归) 2. Stata对数据描述性统计 3. 对横截面数据进行Stata回归 4. Stata标准化回归 4. 回归前需要进行扰动项的检测

    回归分析

    研究X与Y的相关性
    在这里插入图片描述

    • X — 自变量, Y — 因变量
    • 回归的分类
    1. 解释性回归
    2. 预测性回归
    • 回归分析的任务
      通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过去预测Y的目的
    • 使用目的
    1. 判断那些X是与Y真的相关
    2. 相关的X与Y是正相关还是负相关
    3. 不同X有不同的权重(不同的回归系数),可以得到不同变量之间的相对重要性
    • 回归分析的分类
      在这里插入图片描述
    • 不同数据处理方法
      在这里插入图片描述

    数据分类 — 通过数据类别选择合适的建模方法

    1. 横截面数据 — 在某一时间点收集的不同对象的数据
      比如:某年各省的GDP
    2. 时间序列数据 — 对统一对象在不同时间所得数据
      比如: 一个省每年的GDP
    3. 面板数据 — 横截面数据与时间序列数据综合起来
      比如: 2008-2018,各省份GDP
      在这里插入图片描述

    数据网站

    【简道云汇总】110+数据网站
    【汇总】数据来源/大数据平台
    大数据工具导航
    大数据查询导航

    线性回归 — 横截面数据

    对线性的理解

    自变量和因变量可以通过变量变换而转化为线性模型
    在这里插入图片描述

    • 例如:将 y i = β 0 + β 1 l n x i + μ i y_i=\beta_0+\beta_1lnx_i+\mu_i yi=β0+β1lnxi+μi中的 l n x i lnx_i lnxi用一个新变量进行替换

    用新变量替换时求对应的值可以使用Excel

    在这里插入图片描述

    回归系数

    回归系数解释

    在这里插入图片描述

    在这里插入图片描述

    使用回归前,要检验扰动项是否满足某些条件 — 重点

    多元线性回归扰动项满足的条件

    扰动项 μ \mu μ的 内生性

    • 误差项 μ \mu μ与自变量 x x x相关
    • 扰动项 μ \mu μ中包含了与 y y y有关但没有放到模型中的变量

    在这里插入图片描述
    1.对于扰动项 μ \mu μ满足一定的条件为:不存在内生性,不存在异方差
    2. 例如: 在仅有变量 x x x为产品品质时,会出现内生性

    • ∵ \because 会有价钱也与 y y y有关,因为没有添加到模型中(即存在于 μ \mu μ中),而价格于品质 x x x有关
      ∴ \therefore 产生了内生性
      外生性很难满足
      ∴ \therefore 为了降低了条件
      — 引入核心解释变量和控制变量
    解决外生性 — 核心解释变量和控制变量

    在这里插入图片描述仅仅保证核心解释变量与 μ \mu μ无关,而不用保证控制变量与 μ \mu μ无关
    ∴ \therefore 控制变量就是为了控制那些对核心解释变量影响的遗漏的变量(这些变量在 μ \mu μ中)

    当式子中有对数时,对回归系数的解释

    在这里插入图片描述

    总结:四类模型回归系数的解释

    在这里插入图片描述
    在这里插入图片描述

    多变量时

    加一句:在控制其他自变量不变的情况下

    变量

    定性变量变为定量变量 — 引入虚拟变量

    在这里插入图片描述

    虚拟变量解释

    例如研究性别与工资影响:
    y i = β 0 + δ 0 F e m a l e i + β 1 x 1 i + β 2 x 2 i + . . . + μ i y_i=\beta_0+\delta_0Female_i+\beta_1x_{1i}+\beta_2x_{2i}+...+\mu_i yi=β0+δ0Femalei+β1x1i+β2x2i+...+μi

    • F e m a l e i = 1 Female_i =1 Femalei=1:表示第 i i i个样本为女性
      F e m a l e i = 0 Female_i =0 Femalei=0:表示第 i i i个样本为男性
      核心解释变量: F e m a l e Female Female
      控制变量: x m ( m = 1 , 2 , . . . k ) x_m(m=1,2,...k) xm(m=1,2,...k)
      在这里插入图片描述
    设置虚拟变量

    为了避免完全多重共线性的影响,引入虚拟变量的个数一般为分类数 - 1
    比如:定性变量(男/女),有两个分类,所以设置一个虚拟变量
    当出现完全多重共线性时,回归系数无法计算

    含有交互项的自变量

    • 因变量受到一个核心解释变量和另一个核心解释变量共同影响

    在这里插入图片描述

    在论文对变量解释介绍

    在这里插入图片描述

    一元线性回归

    1. 与一元线性函数拟合本质类似
    2. 仅有一个自变量

    在这里插入图片描述

    Stata对数据描述性统计

    定量数据

    summarize  变量1 变量2 ... 变量n
    

    在这里插入图片描述

    • 如果放入论文中,需要先放到Excel中,变成三线表,然后将三线表放到论文中

    定性数据 — 生成虚拟变量

    // 得到出现的次数(Freq)
    tabulate 变量
    
    • 该函数每次仅对一个变量进行分析

    在这里插入图片描述

    tab 变量 ,gen(A)
    
    • 生成对应变量的虚拟变量 A 1... A n A1 ... An A1...An

    在这里插入图片描述

    • 例如图中,有两种配方,有两个虚拟变量 A 1 , A 2 A1,A2 A1,A2
      当为第一种配方的时候, A 1 = = 1 ; A 2 = = 0 A1 == 1 ;A2==0 A1==1;A2==0
      当为第二种配方的时候, A 1 = = 0 ; A 2 = = 1 A1 == 0 ;A2==1 A1==0;A2==1

    Excel画出变量的频率扇形图

    1. 插入 -> 数据透视表
    2. 选择所需字段
      在这里插入图片描述
      可以选择值显示的方式(数字或百分比)
    3. 画出扇形图
      分析 -> 数据透视图
      在这里插入图片描述
    • 在图中加入数字
      在这里插入图片描述

    • 为了让画出来的图有美感
      可以先进行排序后再画开始 -> 排序
      可以进行颜色的变更:页面布局 -> 颜色

    Stata 回归 — 分析各个变量与因变量的关系

    使用回归前,要检验扰动项是否满足某些条件 — 重点

    多元线性回归扰动项满足的条件

    对定量变量回归

    regress y x1 x2 ...
    

    在这里插入图片描述

    • Model: 代表SSR,回归平方和
    • Residual: 代表SSR,误差平方和
    • Total: 代表SST

    上面三个对应的值在SS列中

    • R-squared: 代表 R 2 R^2 R2,拟合优度

    • 0 < = R 2 < = 1 0<=R^2<=1 0<=R2<=1

    • Adj R-squared: 代表调整后的拟合优度
      在这里插入图片描述

    • df: 代表自由度

    联合显著性检验 — P r o b > F Prob>F Prob>F的值看模型是否合理
    • P r o b > F Prob>F Prob>F 对应的值要 < 0.05 <0.05 <0.05,否则模型设置不合理

    在这里插入图片描述
    检验回归系数使用的 t t t 回归统计量

    • Coef: 估计出来的回归系数
    • cons: 常数项的估计值
    • 最后一列为置信区间
    分析的变量选择 — 回归系数显著

    只需要分析回归系数显著的变量(看 P > ∣ t ∣ 一 列 P>|t|一列 P>t,当值 < 0.05 <0.05 <0.05代表在 95 % 95\% 95%置信水平下,回归系数显著异于 0 0 0)

    回归系数解释

    在这里插入图片描述

    • 在其他变量不变的情况下,团购价元 每增加1,会导致评价量减少35.49873

    对定性变量回归

    使用tab 变量 ,gen(A)产生的虚拟变量 A 1... A n A1...An A1...An
    再使用regress y A1 A2 ...An

    为了避免多重共线性的影响,会自动将某个虚拟变量设置为对照组

    例如图中将G4看为对照组:
    在这里插入图片描述

    联合显著性检验 — P r o b > F Prob>F Prob>F的值看模型是否合理
    • P r o b > F Prob>F Prob>F 对应的值要 < 0.05 <0.05 <0.05,否则模型设置不合理

    图中含义:
    在这里插入图片描述

    检验回归系数使用的 t t t 回归统计量

    • Coef: 估计出来的回归系数
    • cons: 常数项的估计值
    • 最后一列为置信区间
    分析的变量选择 — 回归系数显著

    只需要分析回归系数显著的变量(看 P > ∣ t ∣ 一 列 P>|t|一列 P>t,当值 < 0.05 <0.05 <0.05代表在 95 % 95\% 95%置信水平下,回归系数显著异于0)

    回归系数的解释

    例如:
    有四个段位,观察段位与评价量的关系

    reg 评价量 G1 G2 G3 G4
    

    在这里插入图片描述

    解释回归系数:

    • G1回归系数(Coef对应的那列)
      在控制其他变量不变的情况下,段位1与段位4比较,评价量相差 − 7595.045 -7595.045 7595.045

    Stata对回归分析结果用文档保存

    regress 评价量 团购价元 商品毛重kg
    // 下面的语句可帮助我们把回归结果保存在Word文档中
    // 在使用之前需要运行下面这个代码来安装下这个功能包(运行一次之后就可以注释掉了)
    // ssc install reg2docx, all replace
    // 将模型保存为m1
    est store m1
    reg2docx m1 using m1.docx, replace
    // *** p<0.01  ** p<0.05 * p<0.1
    
    • 注意加上
      ∗ ∗ ∗ p < 0.01 , ∗ ∗ p < 0.05 , ∗ p < 0.1 *** p<0.01, ** p<0.05, * p<0.1 p<0.01,p<0.05,p<0.1
    • 对生成的文档注意修改字体:
      全选后选宋体,再全选后选新罗马字体

    Stata标准化回归 — 分析各个变量对因变量的影响程度

    • 只关注显著的回归系数
      即需要分析回归系数显著的变量(看 P > ∣ t ∣ 一 列 P>|t|一列 P>t,当值 < 0.05 <0.05 <0.05代表在 95 % 95\% 95%置信水平下,回归系数显著异于0)
      在这里插入图片描述
    regress y x1 x2 ... xk, beta
    

    在这里插入图片描述

    求出的拟合优度 R 2 R^2 R2较低时

    0 < = R 2 < = 1 0<=R^2<=1 0<=R2<=1

    在这里插入图片描述

    • 预测性回归需要 R 2 R^2 R2
    • 预测性回归拟合优度低时,使用第二点进行改进
    • 解释性回归拟合优度低时,可能为第三点原因

    拟合优度和调整后的拟合优度

    在这里插入图片描述


    参考资料:数学建模清风视频

    展开全文
  • 基于人工鱼群算法的多元线性回归分析问题处理
  • Mathematica在多元线性回归分析中的应用,黄志鹏,李思泽,从多元线性回归分析的原理出发,利用最小二乘法准则,将回归分析归结为用Seidel迭代法求矩阵方程组解,确定待定系数,利用mathematica�
  • 多元线性回归分析法预测商品零售价格指数,赵晓慧,杨杰, 本文主要应用数学建模中的多元线性回归模型,来拟合多个影响因素对一个变量的影响。利用1990-2007年的利率、消费水平、商品零售价�
  • (一)多元线性回归模型 在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或...
  • 多元线性回归模型.pptx
  • 多元线性回归模拟课程论文matlab辅助.docx多元线性回归模拟课程论文matlab辅助.docx多元线性回归模拟课程论文matlab辅助.docx多元线性回归模拟课程论文matlab辅助.docx多元线性回归模拟课程论文matlab辅助.docx多元...
  • 土壤电阻率基于多元线性回归分析的数值模拟研究,李征,梁梦雪,本文基于2015年1月-12月测量的南京市江宁观测场粘土的温度、湿度和土壤电阻率数据,利用多元线性回归的方法研究了土壤电阻率与土壤�
  • python多重线性回归

    2021-01-13 13:08:00
    一元线性回归是特殊的多重线性回归,多重线性回归分析步骤和一元线性回归一样:回归分析的步骤:1.根据预测目标,确定自变量和因变量。2.绘制散点图,确定回归模型类型。3.估计模型参数,建立回归模型。4.对回归模型...
  • 常见的回归分析有:线性回归、0-1回归、定序回归、计数回归和生存回归,其划分的依据是因变量y的类型。 本文没有大量的公式推导,更多的是感性的理解(主要是打公式太难了,哭) 1. 回归分析的概念 1.1回归分析的...
  • 数学建模--多元线性回归分析

    千次阅读 2020-07-10 21:33:34
    一、回归分析的介绍和分类 1 回归分析 研究X与Y之间相关性的分析 1.1 相关性 相关性≠因果性 1.2 Y 因变量/核心变量 连续数值型变量 0-1型变量 定序变量 计数变量 生存变量 1.3 X 研究X与Y的相关关系,得到Y...
  • 掌握一元线性回归、多元线性回归模型的建模原理、估计及检验方法。 能运用相应的统计软件(SAS\SPSS\R)进行计算、分析。 实验内容 某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售...
  • 解决多元线性回归中多重共线性问题的方法分析,谢小韦,印凡成,为了解决多元线性回归中自变量之间的多重共线性问题,常用的有三种方法: 岭回归、主成分回归和偏最小二乘回归。本文以考察职工平�
  • 共识连续投影算法-多元线性回归分析近红外光谱的方法。
  • 讲解MATLAB在多元线性回归方面的一篇学术论文,非常值得参考,很有用。
  • 分析五、代码方式实现多元线性回归1. 数据预处理2. 建立线性回归模型3. Sklearn库建立多元线性回归模型六、总结七、参考 一、多元线性回归 在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,...
  • 然后,假设端面顶板冒落高度与各影响因素线性相关,采用统计分析软件SPSS对各因素进行多元线性回归分析,结果表明,各因素与顶板冒落高度的线性关系成立,且得到了各因素的回归方程.最后,根据分析结果提出了预防...
  • 依据50年(1954-2003)和田绿洲的气象资料,应用灰关联分析,发现影响绿洲蒸发能力的主要因子是相对湿度与平均气温;在此基础上建立了回归模型。...这种途径比逐步回归分析减少了分析工作量和上机时间。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,004
精华内容 1,601
关键字:

多元线性回归分析论文