精华内容
下载资源
问答
  • 转载自微信公众号:青年智囊上一期我们和大家分享了多元线性回归分析的SPSS操作,本期跟大家一起交流一下多元线性回归分析的升级版——多元线性逐步回归分析。相较于多元线性回归分析,逐步回归具备更合理的自变量...

    5c2b6639b68993484df55f921c5b50e1.png

    转载自微信公众号:青年智囊

    上一期我们和大家分享了多元线性回归分析的SPSS操作,本期跟大家一起交流一下多元线性回归分析的升级版——多元线性逐步回归分析。相较于多元线性回归分析,逐步回归具备更合理的自变量筛选机制,能避免因无统计学意义的自变量对回归方程的影响。一起来学习吧!

    案例阐述

    养分含量与产量的回归分析

    土壤和植被养分是作物产量的重要影响因素。为探讨土壤和叶片养分元素含量对作物产量的影响,一项研究测定了某区域30个样地的作物产量、土壤pH值、有机质含量(SOM)、碱解氮含量(SAN)、速效磷含量(SAP)和叶片氮含量(STN)及磷含量(STP),部分数据如下:

    b17893d4a6757a6a60c87fdbf6b3717d.png
    注:表中数据均为随机生成,不可他用。

    该研究想建立变量(pH、SOM、SAN等)与产量之间的回归方程,此时我们可以选择多元逐步回归分析来解决。

    方法简述和数据分析

    一、方法简述

    多元逐步回归有3种筛选自变量的方法:

    (1)向前法:这种算法SPSS会建立由一个自变量开始,每次引入一个偏回归平方和最大且具有统计学意义的自变量,由少到多,直到无具有统计学意义的因素可以代入方程为止,此法也可能纳入部分无意义变量;

    (2)向后法:这种算法SPSS会先建立一个全因素的回归方程,再逐步剔除一个偏回归平方和最小且无统计学意义的自变量,知道不能再剔除为止,这种方法算法较为复杂,一般我们不使用;

    (3)逐步法(本次分享):逐步法结合向前法和向后法的优点,在向前引入每一个新自变量之后都要重新对已代入的自变量进行计算,以检验其有无继续保留在方程中的价值,并以此为依据进行自变量的引入和剔除交替进行,直到没有新的变量可以引入或剔除为止,此法较为准确。

    二、数据分析

    与多元线性回归分析一样,多元逐步回归分析数据也必须满足以下4个假设:

    (1)需要至少2个自变量,且自变量之间互相独立(本次6个);

    (2)因变量为为连续变量(本案例产量为连续变量);

    (3)数据具有方差齐性、无异常值和正态分布的特点(检验方法);

    (4)自变量间不存在多重共线性

    前2个假设可根据试验设计直接判断;假设(3)的检验在之前的教程中已有呈现,点击“检验方法”即可查看。

    关于假设(4)的检验方法如下:

    1. 点击 ①分析 → ②回归 → ③线性

    e015ca171622c4102501db257aa1d673.png

    2.①将pH等6个自变量选入自变量框→②将产量选入因变量框→③④在方法中选择步进(enter)→⑤点击统计。

    1783b3e1344cf170520d9db09cdcc9e1.png

    3.在统计窗口选择共线性诊断,点击继续,然后再主页面点击确定即可。

    f8f940690dfab2ba066dd0099a467a64.png

    4.结果判断:在结果中我们关注系数表即可,当VIF值大于等于10时,我们认为变量间存在严重的共线性,应当剔除部分VIF值较高的自变量,再进行多元逐步回归分析;当VIF值小于10时,我们认为数据基本符合多元逐步回归分析的假设(4),即不存在多重共线性问题,可以进行分析。

    57250a2f6089d12492879f59508bb741.png

    因此,本案例数据均满足以上4个假设,可以进行多元逐步回归分析的运算。

    SPSS分析步骤

    一、准备工作

    SPSS软件:我使用的是IBM SPSS Statistics 25 中文版,其实各个版本格局上都是相似的,如果大家需要我的版本可以直接点击(安装包)下载;Excel数据整理。

    63309607014f9a6e2100355b84cfac8c.png

    二、分析数据

    1. 点击 ①分析 → ②回归 → ③线性

    e015ca171622c4102501db257aa1d673.png

    2.①将pH等6个自变量选入自变量框→②将产量选入因变量框→③④在方法中选择步进(enter)→⑤点击统计。

    1783b3e1344cf170520d9db09cdcc9e1.png

    3.在统计界面勾选如下选项,点击继续。

    fbb54a636a5eaeb5351f0f298b1e070f.png

    4.点击主页面的保存,然后在新窗口中勾选如下选项,然后点击继续。

    126b6d35ec98d46a426c399dc36fe33e.png

    5.点击主页面中的“确定”即可得到分析结果。

    a0d157d5db75bfbec7f030a308249982.png

    结果阐述

    一、残差统计表

    我们首先查看输出结果中的最后一个表,残差统计表。

    在满足我们提到的4个假设后,我们还需要依据残差统计表中的库克距离(cook值)来判断数据有无强影响点,若库克距离的最大值大于1,则应检查数据是否存在的异常值(检验方法);若库克距离的最大值小于1,则数据中不存在强影响点,可以进行下一步的分析。

    本案例中库克距离的最大值为0.135<1,数据满足多元逐步回归分析的要求。

    74f3cb092b1d52166bdd44e93f8b7f94.png

    二、模型纳入变量表

    通过此表我们可以看出:

    (1)本次多元线性逐步回归分析一共拟合了4个方程模型;

    (2)纳入模型的变量有LTP、SOM、SAN和LTN4个,输入方法为步进法;

    (3)因变量为产量。

    9076c718d1790f0fa7817e960ab77188.png

    三、模型摘要

    下表是本次回归模型的模型摘要表,通过此表我们可以分析出:

    (1)表下的注释可以看出逐步回归分析中每一步引入回归方程的自变量;

    (2)R、R方和调整后R方表示拟合优度,估算的是模型对观测值的拟合程度。本案例中,随着模型中变量个数的增加,R方和调整后R方均呈增加趋势;各个拟合模型的调整后R方均>0.8,表明建立的回归方程较好,因变量对自变量的解释度较高。

    ad4ab825c54125db47c68ac3dfe3c368.png

    四、ANOVA表

    此表是模型显著性的检验表:

    (1)该表中方程1、2、3和4的F值分别为118.207、106.346、86.108和74.007,P值均小于0.001。

    (2)此检验的零假设是多重相关系数R=0。如果P<0.05,就说明多重线性回归模型中至少有一个自变量的系数不为零。同时,回归模型有统计学意义也说明相较于空模型,纳入自变量有助于预测因变量;或说明该模型优于空模型。

    d353f0d99e49d99942b2c7dd402e9eea.png

    五、回归系数表

    此表为回归模型系数表:

    首先我们看各自变量在各个模型中的显著性检验结果,当P>0.05时,该自变量在本模型中没有统计学意义,应当在回归模型中删除相应变量;当P<0.05时该变量在模型中具有统计学意义,应当保留。

    本案例中4个模型的常量显著性检验结果均大于0.05,因此不纳入最后的拟合方程中,各模型的标准化系数Bata如表所示。

    c48ecaf3d6ad6aaa8c1bd3709582c120.png

    五、结果描述

    我们拟合出的4个方程在论文中表述如下:

    本案例以土壤pH值、SOM、SAN、SAP含量和叶片LTN及LTP含量为自变量,作物产量为因变量进行多元线性逐步回归分析。结果表明,LTP含量能单独解释作物产量变异的80.20%,具有较高的解释度;LTP、SOM、SAN和LTN含量能共同解释作物产量变异的91.00%,表明 LTP、SOM、SAN和LTN含量对作物产量均具有较强的影响(表X)。

    4ba05a512bb347b98856ca8d07f77c3f.png

    当然,关于结果的论述大家还是要多看文献啦!这只是一个参考,希望大家进步多多!

    我们会在公众号中持续更新数据分析教程,分享学习资料,记得关注“青年智囊”。

    展开全文
  • 线性回归,前面用Python从底层一步一个脚印用两种方法实现了回归拟合。...对了,上次,用Python写的两篇回归拟合分别是:最小二乘算法多元回归分析,生活中用的很多,因为一个因素可能与很多其它因素有...

    15c911bf2408109f3c748837fb409ae9.png

    线性回归,前面用Python从底层一步一个脚印用两种方法实现了回归拟合。在这个高级语言层出不穷的年代,这样做显然不明智,所以我考虑用优秀的数据分析工具——R语言(不敢说最优秀,虽然心里是这么想的,我怕有人要骂我!)做回归分析。包括简单多变量回归、逐步回归、逻辑回归!

    对了,上次,用Python写的两篇回归拟合分别是:

    最小二乘算法

    多元回归分析,生活中用的很多,因为一个因素可能与很多其它因素有关!言归正传,这里考虑用R语言里面的相关函数做回归分析。

    需要的用到的知识储备:

    • 线性代数

    • 概率论与数理统计

    • 高等数学

    • R语言基础

    下面分别从普通多元线性回归、逐步回归、逻辑回归进行介绍。前面用Python实现的只是一元回归,由于R语言实现线性回归很方便,所以我会着重介绍原理。

    多元线性回归

    不论是单变量还是多元线性回归分析,他们都是直接或间接(有时候需要通过变量代换)程线性的关系。我们需要找到一个通用的线性模型来描述这种关系,在我们可以接受的误差范围内对数据进行预测或者发现规律。

    多元线性回归理论基础

    对于一组变量数据,如果我们不管是通过画散点图还是其它方法,知道了一个变量与其它变量程很强线性关系。我们就需要知道,到底是什么样的关系,关系系数是多少。通常是用经典的最小二乘法,因为这样算出的确实是最优的系数,可以保证残差平方和最小的优化目标。

    对于一个因变量y,有一组自变量X = (x1,x2,...,xk),x1,x2,...,xk,eps是列向量,考虑它们之间有如下线性关系:

    ccb43097d1628b53a859e6a013aed3b1.png

    当然了,这里X = (x1,x2,...,xk),y都是给的一组数据,就像这样

    40a7745c6eb0b1a3a83dde2647df19a2.png

    那么,对每一组(比如第一行)数据,就有如下关系:

    3b198b75e134b7a2f97d88f91d522b20.png

    目标函数为残差平方和的关于系数beta0,beta1,...,betak的多元二次函数,我们希望找到一组系数使得目标函数值最小,即误差最小。目标函数如下:

    1c77b38e361a10e5bcd1153ee5436f34.png

    学过数学分析或者高等数学的人都知道,这只要关于beta0,beta1,...,betak分别求偏导数,得到k+1方程,再求出零点即可。

    我们用矩阵表示各个变量如下:

    9967155258c0f44366a40171ac091a6b.png

    那么,学过高等代数(数学专业)或者线性代数(工科)都知道,因变量与自变量关系可以表示为:

    3f3a6a16ea6f8e291e761dad946a9895.png

    中间推导过程这里不在赘述了,最终系数向量表达式为:

    61267accdef50f80270c51b25ebe1035.png

    关于多元线性回归的理论就到这里,有兴趣可以参考:线性回归导论(机械工业出版社 王辰勇 译)

    多元线性回归的R语言实现

    这里用R语言里面的常用数据集iris来说明,这个数据集包含五个指标,我们这里先只用前面四个:花萼长度、花萼宽度、花瓣长度、花瓣宽度,进行多元线性回归分析。

    数据预处理

    大家都知道,为了消除不同变量量纲或者数量级不一致,做数据标准化的数据预处理是有必要的。用到的R语言函数是scale(),这个函数的机理具体公式如下:

    49913eeee9110eb95923c8243ce45b03.png

    R语言实现如下:

    ab932bd18bfa69cd808c7c99b2be9315.png

    标准化后数据选择前六行我们看一下:

    > head(sl.sc)

         Sepal.Length

    [1,]   -0.8976739

    [2,]   -1.1392005

    [3,]   -1.3807271

    [4,]   -1.5014904

    [5,]   -1.0184372

    [6,]   -0.5353840

    下面构建多元线性回归

    我们用花萼标准化后的数据sl.sc与其它三个变量做线性回归,先做有常数项的多元回归。

    lm.sc

    summary(lm.sc)

    f832c4bcaac311f987586de87f0ad562.png

    summary(lm.sc)给出了线性回归的相关信息,各个系数Residuals给出了残差的5分位数,Estimate、Std. Error、t value、Pr(>|t|)分别给出了自变量系数、标准误、t值和p值,Multiple R-squared:  0.8586, Adjusted R-squared:  0.8557分别给出了R方与修正的R方,这里 R-squared:  0.8557表示这个线性回归模型可以解释85.57的原数据,还是不错的,后面就不再解释这几个指标的意思了。可以看出无论是每个系数还是总体的p-value都远远小于0.05,给出了三颗星***的等级,但是如图蓝色方框是常数项的值是-1.176e-16,太小了,p值是1,告诉我们常数项可以不用,这些数据是过原点的线性关系。

    去掉常数项的多元回归,不同的是,减一表示不要常数项

    lm.sc -1)

    summary(lm.sc)

    模型详细情况:

    192c85a103acc06259b66ea07d16ce64.png

    显然,去掉后R方,F值没有明显变换,系数等级都是三颗星,表明去掉常数项确实在不影响模型情况下简化了模型。

    我们来看一下残差图与QQ图:

    plot(lm.sc,1,col = 'orange',main = '残差图')

    plot(lm.sc,2,col = 'orange',main = 'QQ图')

    bf256f8cea3c080760b933e2077f8dbc.png

    20d99d8c8eea3cc0f9a33ff4a40fba06.png

    通过残差图与QQ图也可以明显看出这个不带常数项的线性回归模型是不错的。

    逐步回归

    逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优、最简单的。

    逐步回归最常用的挑选准则有修正复相关系数、预测平方和、Cp和AIC等,这里用AIC准则,对于含有P个自变量的回归方程,n为观测值(样本)个数,AIC越小越好,具体计算公式为:

    b4a62076ea3d8c24d787474803b8c258.png

    使用R语言构建逐步回归模型

    知道原理后,我们试图从三个自变量中筛选出两个,首先看一下上述模型的AIC

    step(lm.sc)

    c4f1fbe0f4d0fd591a0a996bf9eac8ad.png

    显然,三个变量时AIC是最小的,这里为了说明问题,实在要剔除一个变量的话,当然要剔除第一个。因为我们发现剔除pw.sc时AIC为-272.06,如果剔除pl.scAIC就为-181.26,而AIC越小越好,所以就剔除变量pw.sc吧。

    lm.new

    summary(lm.new)

    6386868ebeac72799945cbecd6a395a7.png

    R方稍微减小了一点,因为三个变量AIC最小(即模型最优),提出后肯定会减小的。这里为了说明问题才强行提出一个。

    逻辑回归

    在介绍逻辑回归前我们先介绍什么是哑变量,其实,R语言用的多的人都知道iris这个数据集有5列,第五列是花的分类:setosa、versicolor、 virginica。那么花萼长度是否与花的分类有关呢?一般是有的。增加三列,我们考虑引入0~1变量那么对于属于setosa的,记为1,versicolor、 virginica位置记为0,同理就多了3列,这里的0,1就是哑变量。还是为了减少变量,简化模型,我们只增加2列versicolor和 virginica,这样versicolor、 virginica位置都为0时,就属于setosa这个分类,versicolor位置为1时就为versicolor这个分类。0,1是逻辑变量,线性回归引入了逻辑变量,故称为逻辑回归。

    下面就进行R语言实现,要不看一下iris数据集长什么样:

    01d915896457a104a9785cf5326c0827.png

    第五列变量就有三个水平,都是50条,正好。

    ad3d1d3c5a6334d54f966802fc605d1d.png

    两个for()语句就是构造逻辑变量的,还是很好理解的,这样就有五个变量了。构造的应该像这样:

    20dbfc2394cd7bd778071b3ad3ff1ec9.png

    这里省略了前面的,只为说明构造的逻辑变量(实际应该是s1里面51~100为1,s2里面101~150为1,其它为0)。看一下结果:

    29e83183e7f9fa41033687f7860f684b.png

    所有变量系数p-value都小于0.05,R-squared:  0.8627,比没有增加逻辑变量的R-squared:  0.8557好一些,可见花的分类确实对花萼长度sl.sc有关系。最终表达式为:

    d2ed8cc6fb9e88fc6671fad6060d51f9.png

    猜你可能喜欢

    Python之循环结构——实战计算自然底数e,圆周率Π

    Python系列之环境安装

    R语言(绘图入门)

    Python科学计算:numpy

    c3b48b9a62e61c9cf1f0195ca80886c9.png

    展开全文
  • 基于王斌会《多元统计分析及R语言建模》第4章第4节逐步回归。主要介绍回归变量的选择方法,涉及变量选择准则,逐步回归分析的步骤,以及算例。
  • 基于王斌会《多元统计分析及R语言建模》第4章第4节逐步回归。主要介绍回归变量的选择方法,涉及变量选择准则,逐步回归分析的步骤,以及算例。
  • 线性回归,前面用Python从底层一步一个脚印用两种方法实现了回归拟合。在这个高级语言层出不穷的年代,这样做显然不明智,所以我考虑用优秀的数据分析工具——R语言(不敢说最...
        

    640?wx_fmt=png

    线性回归,前面用Python从底层一步一个脚印用两种方法实现了回归拟合。在这个高级语言层出不穷的年代,这样做显然不明智,所以我考虑用优秀的数据分析工具——R语言(不敢说最优秀,虽然心里是这么想的,我怕有人要骂我!)做回归分析。包括简单多变量回归、逐步回归、逻辑回归!

    对了,上次,用Python写的两篇回归拟合分别是:

    多元回归分析,生活中用的很多,因为一个因素可能与很多其它因素有关!言归正传,这里考虑用R语言里面的相关函数做回归分析。

    需要的用到的知识储备:

    • 线性代数

    • 概率论与数理统计

    • 高等数学

    • R语言基础

    下面分别从普通多元线性回归、逐步回归、逻辑回归进行介绍。前面用Python实现的只是一元回归,由于R语言实现线性回归很方便,所以我会着重介绍原理。

    多元线性回归

    不论是单变量还是多元线性回归分析,他们都是直接或间接(有时候需要通过变量代换)程线性的关系。我们需要找到一个通用的线性模型来描述这种关系,在我们可以接受的误差范围内对数据进行预测或者发现规律。

    多元线性回归理论基础

    对于一组变量数据,如果我们不管是通过画散点图还是其它方法,知道了一个变量与其它变量程很强线性关系。我们就需要知道,到底是什么样的关系,关系系数是多少。通常是用经典的最小二乘法,因为这样算出的确实是最优的系数,可以保证残差平方和最小的优化目标。

    对于一个因变量y,有一组自变量X = (x1,x2,...,xk),x1,x2,...,xk,eps是列向量,考虑它们之间有如下线性关系:

    640?wx_fmt=png

    当然了,这里X = (x1,x2,...,xk),y都是给的一组数据,就像这样

    640?wx_fmt=png

    那么,对每一组(比如第一行)数据,就有如下关系:

    640?wx_fmt=png

    目标函数为残差平方和的关于系数beta0,beta1,...,betak的多元二次函数,我们希望找到一组系数使得目标函数值最小,即误差最小。目标函数如下:

    640?wx_fmt=png

    学过数学分析或者高等数学的人都知道,这只要关于beta0,beta1,...,betak分别求偏导数,得到k+1方程,再求出零点即可。

    我们用矩阵表示各个变量如下:

    640?wx_fmt=png

    那么,学过高等代数(数学专业)或者线性代数(工科)都知道,因变量与自变量关系可以表示为:

    640?wx_fmt=png

    中间推导过程这里不在赘述了,最终系数向量表达式为:

    640?wx_fmt=png

    关于多元线性回归的理论就到这里,有兴趣可以参考:线性回归导论(机械工业出版社 王辰勇 译)

    多元线性回归的R语言实现

    这里用R语言里面的常用数据集iris来说明,这个数据集包含五个指标,我们这里先只用前面四个:花萼长度、花萼宽度、花瓣长度、花瓣宽度,进行多元线性回归分析。

    数据预处理

    大家都知道,为了消除不同变量量纲或者数量级不一致,做数据标准化的数据预处理是有必要的。用到的R语言函数是scale(),这个函数的机理具体公式如下:

    640?wx_fmt=png

    R语言实现如下:

    640?wx_fmt=png

    标准化后数据选择前六行我们看一下:

    > head(sl.sc)

         Sepal.Length

    [1,]   -0.8976739

    [2,]   -1.1392005

    [3,]   -1.3807271

    [4,]   -1.5014904

    [5,]   -1.0184372

    [6,]   -0.5353840

    下面构建多元线性回归

    我们用花萼标准化后的数据sl.sc与其它三个变量做线性回归,先做有常数项的多元回归。

    lm.sc <- lm(sl.sc~sw.sc+pl.sc+pw.sc)

    summary(lm.sc)

    640?wx_fmt=png

    summary(lm.sc)给出了线性回归的相关信息,各个系数Residuals给出了残差的5分位数,Estimate、Std. Error、t value、Pr(>|t|)分别给出了自变量系数、标准误、t值和p值,Multiple R-squared:  0.8586, Adjusted R-squared:  0.8557分别给出了R方与修正的R方,这里 R-squared:  0.8557表示这个线性回归模型可以解释85.57的原数据,还是不错的,后面就不再解释这几个指标的意思了。可以看出无论是每个系数还是总体的p-value都远远小于0.05,给出了三颗星***的等级,但是如图蓝色方框是常数项的值是-1.176e-16,太小了,p值是1,告诉我们常数项可以不用,这些数据是过原点的线性关系。

    去掉常数项的多元回归,不同的是,减一表示不要常数项

    lm.sc <- lm(sl.sc~sw.sc+pl.sc+pw.sc-1)

    summary(lm.sc)

    模型详细情况:

    640?wx_fmt=png

    显然,去掉后R方,F值没有明显变换,系数等级都是三颗星,表明去掉常数项确实在不影响模型情况下简化了模型。

    我们来看一下残差图与QQ图:

    plot(lm.sc,1,col = 'orange',main = '残差图')

    plot(lm.sc,2,col = 'orange',main = 'QQ图')

    640?wx_fmt=png

    640?wx_fmt=png

    通过残差图与QQ图也可以明显看出这个不带常数项的线性回归模型是不错的。

    逐步回归

    逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优、最简单的。

    逐步回归最常用的挑选准则有修正复相关系数、预测平方和、Cp和AIC等,这里用AIC准则,对于含有P个自变量的回归方程,n为观测值(样本)个数,AIC越小越好,具体计算公式为:

    640?wx_fmt=png

    使用R语言构建逐步回归模型

    知道原理后,我们试图从三个自变量中筛选出两个,首先看一下上述模型的AIC

    step(lm.sc)

    640?wx_fmt=png

    显然,三个变量时AIC是最小的,这里为了说明问题,实在要剔除一个变量的话,当然要剔除第一个。因为我们发现剔除pw.sc时AIC为-272.06,如果剔除pl.scAIC就为-181.26,而AIC越小越好,所以就剔除变量pw.sc吧。

    lm.new <- lm(sl.sc~sw.sc+pl.sc-1)

    summary(lm.new)

    640?wx_fmt=png

    R方稍微减小了一点,因为三个变量AIC最小(即模型最优),提出后肯定会减小的。这里为了说明问题才强行提出一个。

    逻辑回归

    在介绍逻辑回归前我们先介绍什么是哑变量,其实,R语言用的多的人都知道iris这个数据集有5列,第五列是花的分类:setosa、versicolor、 virginica。那么花萼长度是否与花的分类有关呢?一般是有的。增加三列,我们考虑引入0~1变量那么对于属于setosa的,记为1,versicolor、 virginica位置记为0,同理就多了3列,这里的0,1就是哑变量。还是为了减少变量,简化模型,我们只增加2列versicolor和 virginica,这样versicolor、 virginica位置都为0时,就属于setosa这个分类,versicolor位置为1时就为versicolor这个分类。0,1是逻辑变量,线性回归引入了逻辑变量,故称为逻辑回归。

    下面就进行R语言实现,要不看一下iris数据集长什么样:

    640?wx_fmt=png

    第五列变量就有三个水平,都是50条,正好。

    640?wx_fmt=png

    两个for()语句就是构造逻辑变量的,还是很好理解的,这样就有五个变量了。构造的应该像这样:

    640?wx_fmt=png

    这里省略了前面的,只为说明构造的逻辑变量(实际应该是s1里面51~100为1,s2里面101~150为1,其它为0)。看一下结果:

    640?wx_fmt=png

    所有变量系数p-value都小于0.05,R-squared:  0.8627,比没有增加逻辑变量的R-squared:  0.8557好一些,可见花的分类确实对花萼长度sl.sc有关系。最终表达式为:

    640?wx_fmt=png

    猜你可能喜欢

    640?wx_fmt=jpeg

    展开全文
  • 在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更好。 可以解决的实际问题: 收入水平与受教育程度、所在行业、工作 年限、工作种类的关系。 公路客运量与人口增长量、私家...

    回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。

    多元回归分析的由来: 在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互相作用的关系。 在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更好。

    逐步回归法:逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。

    依据上述思想,可利用逐步回归筛选并剔除引起多重共线性的变量。

    其具体步骤如下

    可以解决的实际问题

    1. 收入水平与受教育程度、所在行业、工作 年限、工作种类的关系。
    2. 公路客运量与人口增长量、私家车保有量、 国民生产总值、国民收入、工农业总产值、 基本建设投资额、城乡居民储蓄额、铁路 和水运客运量等因素的关系。

    Q:以陕西省长武地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例, 建立蚜传病毒病情指数的逐步回归模型, 说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情指数影响显著的因子,从而建立相应的模型。

     

    以excel文件的形式导入spss

    此时的年份作为label,x1作为因变量,其他因素作为自变量(按住shift同时拉入多个因素)。

    【分析】-【回归】-【线性】-【方法】步进【选项】设置F-enter and F-remove-【输出】

    输入/除去的变量a

    模型

    输入的变量

    除去的变量

    方法

    1

    x16

    .

    步进(条件:要输入的 F 的概率 <= .150,要除去的 F 的概率 >= .200)。

    2

    x17

    .

    步进(条件:要输入的 F 的概率 <= .150,要除去的 F 的概率 >= .200)。

    a. 因变量:x1

     

    模型摘要c

    模型

    R

    R

    调整后 R 方

    标准估算的错误

    德宾-沃森

    1

    .762a

    .581

    .539

    22.08153

     

    2

    .844b

    .713

    .649

    19.26609

    2.313

    a. 预测变量:(常量), x16

    b. 预测变量:(常量), x16, x17

    c. 因变量:x1

     

    ANOVAa

    模型

    平方和

    自由度

    均方

    F

    显著性

    1

    回归

    6760.381

    1

    6760.381

    13.865

    .004b

    残差

    4875.941

    10

    487.594

     

     

    总计

    11636.322

    11

     

     

     

    2

    回归

    8295.681

    2

    4147.841

    11.175

    .004c

    残差

    3340.641

    9

    371.182

     

     

    总计

    11636.322

    11

     

     

     

    a. 因变量:x1

    b. 预测变量:(常量), x16

    c. 预测变量:(常量), x16, x17

    此时的两个模型则分别是对应x16以及x16、x17为变量的线性回归方程。

     

    系数a

    模型

    未标准化系数

    标准化系数

    t

    显著性

    B

    标准错误

    Beta

    1

    (常量)

    -16.055

    9.917

     

    -1.619

    .137

    x16

    .985

    .265

    .762

    3.724

    .004

    2

    (常量)

    -33.139

    12.059

     

    -2.748

    .023

    x16

    .753

    .257

    .583

    2.924

    .017

    x17

    .257

    .126

    .405

    2.034

    .072

    a. 因变量:x1

    第一步对x16做简单线性回归:y = 0.985x16-16.005

    第二步对x16、x17做线性回归:y = 0.753x16+0.257x17-33.139

     

    排除的变量a

    模型

    输入 Beta

    t

    显著性

    偏相关

    共线性统计

    容差

    1

    x2

    -.132b

    -.584

    .573

    -.191

    .881

    x3

    -.028b

    -.127

    .902

    -.042

    .942

    x4

    -.027b

    -.125

    .903

    -.042

    .997

    x5

    -.050b

    -.203

    .844

    -.068

    .751

    x6

    .024b

    .113

    .913

    .038

    .999

    x7

    -.033b

    -.133

    .897

    -.044

    .744

    x8

    .213b

    1.037

    .327

    .327

    .985

    x9

    -.030b

    -.132

    .898

    -.044

    .901

    x10

    .130b

    .609

    .558

    .199

    .979

    x11

    .200b

    .953

    .365

    .303

    .957

    x12

    -.121b

    -.560

    .589

    -.183

    .963

    x13

    .095b

    .438

    .672

    .144

    .978

    x14

    .225b

    1.020

    .334

    .322

    .856

    x15

    -.137b

    -.648

    .533

    -.211

    .992

    x17

    .405b

    2.034

    .072

    .561

    .803

    x18

    .302b

    1.192

    .264

    .369

    .626

    x19

    -.327b

    -1.754

    .113

    -.505

    .999

    x20

    -.132b

    -.623

    .549

    -.203

    .988

    x21

    -.353b

    -1.632

    .137

    -.478

    .769

    2

    x2

    -.085c

    -.422

    .684

    -.148

    .868

    x3

    -.038c

    -.197

    .849

    -.069

    .941

    x4

    -.103c

    -.544

    .601

    -.189

    .958

    x5

    -.026c

    -.119

    .909

    -.042

    .749

    x6

    .006c

    .030

    .976

    .011

    .996

    x7

    .059c

    .265

    .798

    .093

    .710

    x8

    .238c

    1.383

    .204

    .439

    .981

    x9

    -.094c

    -.473

    .649

    -.165

    .877

    x10

    .225c

    1.252

    .246

    .405

    .928

    x11

    .184c

    1.007

    .344

    .335

    .955

    x12

    .016c

    .076

    .941

    .027

    .836

    x13

    .080c

    .424

    .683

    .148

    .976

    x14

    .067c

    .294

    .776

    .103

    .693

    x15

    -.139c

    -.754

    .473

    -.257

    .992

    x18

    .231c

    1.010

    .342

    .336

    .608

    x19

    -.168c

    -.728

    .487

    -.249

    .631

    x20

    .007c

    .032

    .975

    .011

    .847

    x21

    -.230c

    -1.056

    .322

    -.350

    .662

    a. 因变量:x1

    b. 模型中的预测变量:(常量), x16

    c. 模型中的预测变量:(常量), x16, x17

     

    残差统计a

     

    最小值

    最大值

    平均值

    标准偏差

    个案数

    预测值

    -13.3111

    85.9252

    12.2325

    27.46184

    12

    残差

    -31.99095

    28.60478

    .00000

    17.42684

    12

    标准预测值

    -.930

    2.683

    .000

    1.000

    12

    标准残差

    -1.660

    1.485

    .000

    .905

    12

    a. 因变量:x1

    最终得出:\large y = 0.753x_{16}+0.257x_{17}-33.139

    展开全文
  • 波士顿房地产业的多元线性回归分析 摘要:本文基于波士顿房价的公开数据集,寻找影响波士顿房价的因素,统计数据包括城镇人均犯罪率、占地面积超过2.5万平方英尺的住宅用地比例、城镇非零售业务地区的比例以及...
  • 数据源) #anova(a)计算方差分析表#coef(a)提取模型系数#devinace(a)计算残差平方和#formula(a)提取模型公式#plot(a)绘制模型诊断图#predict(a)用作预测#print(a)显示#residuals()计算残差#setp()逐步回归分析#...
  • SPSS—回归多元线性回归结果分析(二)

    万次阅读 多人点赞 2014-03-19 17:57:28
    SPSS—回归多元线性回归结果分析(二) ,最近一直很忙,公司的潮起潮落,就好比人生的跌岩起伏,眼看着一步步走向衰弱,却无能为力,也许要学习“步步惊心”里面“四阿哥”的座右铭:“行到水穷处”,”坐看...
  • 数学建模7 多元线性回归分析

    千次阅读 2020-02-07 09:27:33
    1、回归思想 相关性(不是因果性) Y:因变量,常常是我们需要研究的核心变量,分为连续...1.变量选择,识别重要变量(逐步回归法) 2. 正相关还是副相关? 3. 不同变量的重要性(估计权重) 2、回归分析分类 3、线...
  • 上一节我们讲过了eviews做多元回归,但是很多同学做问卷之类的都需要用到spss,所以这节我教一下大家如何用spss做多元回归,并对结果进行解读,再对大家所疑惑的显著水平做一些白话的解释。一.线性回归的操作将因变量...
  • 参考书籍:1、《应用多元统计分析》高惠璇 1、表达式 用来研究因变量Y和m个自变量的相关关系(一共有n个样本,) 矩阵表示为: 记为或 2、回归方程和回归系数的显著性检验 2.1 回归方程的显著性检验(又...
  • 毕业时编的线性回归分析原程序,挺好用的,与大家分享享一下
  • ##作业:分析影响中国人口...%基于矩阵运算的多元线性回归分析 %参数估计 x1=[15037 17001 18718 21826 26937 35260 48108 59811 70142 78061 83024 88479 98000 108068 119096 135174 159587 184089 213132]; x2=[18.8
  • 通过查阅北京统计局出示的有关数据以及阅读相关文献,搜集北京市近15年的统计资料,基于SPSS多元线性回归中的逐步回归分析法,建立回归模型。经检验,该模型具有较高准确度,可以用来预测城市用水量。
  • 逐步回归分析

    千次阅读 2019-04-11 16:21:00
    R语言 逐步回归分析 逐步回归分析是以AIC信息统计量为准则,通过选择最小的AIC信息统计量,来达到删除或增加变量的目的。 R语言中用于逐步回归分析的函数 step() drop1() add1() #1.载入数据 首先对数据...
  • 能源是现代经济建设活动必须要素,通过对能源...本文通过多元线性回归模型对我国能源消耗影响因素进行分析、对比逐步回归法和岭回归法降低多重共线性、检验,最后得出结论,提出建议,以此为制订能源相关计划提供参考。
  • 线性回归分析

    2014-11-24 11:56:49
    该课件主要介绍以下内容:1 一元线性回归 2 多元线性回归 3 逐步回归 4 虚拟解释变量问题 5 用SPSS处理经典回归问题 6 曲线回归与SPSS的应用
  • 逐步回归分析是以AIC信息统计量为准则,通过选择最小的AIC信息统计量,来达到删除或增加变量的目的。R语言中用于逐步回归分析的函数step(),drop1(),add1()。#1.载入数据 首先对数据进行多元线性回归分析tdatax1=c...
  • 在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更较好。逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每—个自变量进行假设检验。当总的方程不...
  • R语言 逐步回归分析

    2020-04-24 10:40:27
    逐步回归分析是以AIC信息统计量为准则,通过选择最小的AIC信息统计量,来达到删除或增加变量的目的。 R语言中用于逐步回归分析的函数 step() drop1() add1() 1.载入数据 首先对数据进行多元线性回归分析 tdata<-...
  • 我们也可以在其中一个练习中使用MASS包来实现逐步线性回归。 我们将在实验室稍后使用此软件包中使用BAS.LM来实现贝叶斯模型。 数据 本实验室将使用的数据是在全国935名受访者中随机抽取的。 变量 描述
  • 泻药,可以参考下例子:R语言逐步多元回归模型分析长鼻鱼密度影响因素原文链接:http://tecdat.cn/?p=9564​tecdat.cn目录我从马里兰州生物流调查中提取了一些数据,以进行多元回归分析。数据因变量是每75米长的水流...
  • 文中通过采用某一个点的测井曲线或地震数据推测出该点的孔隙度或渗透率,基于多种测井信息的多元线性回归方法已成为储层孔隙度定量预测的主要方法,多元逐步回归分析方法的理论正好适用于这种实际问题。它是利用通过...
  • 实验目的:了解R语言多元线性回归模型中变量的选择和诊断分析 实验要求:对给出的数据用逐步回归的方法选择变量,并对实验结果进行诊断分析。 实验数据:1. 对给出数据进行变量选择,并进行回归诊断。 实验代码: a1...
  • 学到的东西要经常揣摩,真正地理解其含义(包括使用的方法,注意的事项)然后按照理论的要求在实践过程中应用到实际生活中,再从生活中遇到的问题,学习新的知识来解决,就这样相互促进学习,逐步加深自己的理论知识...
  • 矿井进行瓦斯涌出量预测是煤矿安全生产十分...结果表明:采用主成分-逐步回归分析法减少了回归分析所需要考虑的变量个数,预测结果具有较好的准确性,预测精度明显优于一元回归预测和多元回归预测,具有较好应用前景。
  • Matlab_回归分析_逐步回归

    万次阅读 多人点赞 2017-07-30 11:13:56
    例: (Hald,1960)Hald 数据是关于水泥生产...对于例 4 中的问题,可以使用多元线性回归、多元多项式回归,但也可以考虑使用逐步回归。从逐步回归的原理来看,逐步回归是以上两种回归方法的结合,可以自动使得方程的
  • 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是, 通过研究自变量X和因变量Y的相关关系,...(逐步回归法) 使命2:去除了那些同Y...

空空如也

空空如也

1 2 3 4 5 6
收藏数 118
精华内容 47
关键字:

多元线性逐步回归分析