精华内容
下载资源
问答
  • SPSS实例教程:多重线性回归,你用对了么 在实际的医学研究中,一个生理指标或疾病指标往往受到多种因素的共同作用和影响,当研究的因变量为连续变量时,我们通常在统计分析过程中引入多重线性回归模型,来分析一个...

    SPSS实例教程:多重线性回归,你用对了么

    在实际的医学研究中,一个生理指标或疾病指标往往受到多种因素的共同作用和影响,当研究的因变量为连续变量时,我们通常在统计分析过程中引入多重线性回归模型,来分析一个因变量与多个自变量之间的关联性。

    一、多重线性回归的作用

    多重线性回归模型在医学研究领域得到了广泛的应用,其作用主要体现在以下几个方面:

    1、探索对于因变量具有影响作用的因素;

    2、控制混杂因素,评价多个自变量对因变量的独立效应;

    3、用已知的自变量来估计和预测因变量的值及其变化。

    二、多重线性回归的形式

    多重线性回归的一般表达形式为:

    由表达式可以看出,每个因变量的实际测量值yi由两部分组成,即  和ei 。

     为估计值,即在给定自变量取值时因变量y的估计值,表示能由自变量决定的部分;ei为残差,即因变量实测值yi与估计值  之间的差值,表示不能由自变量决定的部分,而对于残差的分析是多重线性回归建模过程中需要重点关注的地方。

    此外在多线性回归的表达式中,b0为常数项,表示当所有自变量取值为0时因变量  的估计值;bi为偏回归系数,表示当其他自变量不变时,xi每改变一个单位时所引起的的  变化量。

    三、多重线性回归的适用条件

    多重线性回归模型作为一种统计模型,它有严格的适用条件,在建模时也需要对这些适用条件进行判断。但是许多使用者往往忽视了这一点,在使用过程中只是单一的构建模型,最终很有可能得出错误的结论。因此在应用多重线性回归之前,我们应该了解它需要满足哪些前提条件呢?

    总结起来可用4个词来概况:线性(Linear),独立(Independence),正态(Normality),齐性(Equal variance),缩写为LINE原则。

    (1) 线性:各自变量xi与因变量yi之间存在线性关系,可以通过绘制散点图来进行判断;

    (2) 独立:因变量yi的取值之间相互独立,反映到回归模型中,实际上就是要求残差ei之间相互独立;

    (3) 正态性:构建多重线性回归模型后,残差ei服从正态分布;

    (4) 方差齐性:残差ei的大小不随xi取值水平的变化而变化,即残差ei具有方差齐性。

    只有准确把握了LINE核心原则,才能够保证构建符合统计学要求的多重线性回归模型。但是,由于多重线性回归模型具有一定的“抗偏倚性”,如果只是想通过构建方程来探讨自变量和因变量之间的关联性,而非对因变量进行预测,那么后面两个条件可以适当放宽。

    此外,还应该注意以下几点:

    (5) 因变量yi为连续性变量,而非分类变量;

    (6) 自变量xi可以为连续变量,也可以为分类变量,当自变量为多分类无序变量时,则需要设置哑变量,当为有序变量时,则需要根据等级顺序进行赋值。

    (7) 对于自变量xi的分布特征没有具体的限定,只要求自变量xi间相互独立,不存在多重共线性;

    (8) 对于样本量的要求,根据经验一般要求样本量应当为纳入模型的自变量的20倍以上为宜,比如模型纳入5个自变量,则样本量应当在100以上为宜。

    四、SPSS实例操作

    1. 研究设计

    某研究人员收集了100名研究者的最大摄氧量(VO2max),并记录了他们的年龄,体重,心率和性别,拟探讨年龄,体重,心率和性别对VO2 max的影响,并希望能够根据一个人的年龄,体重,心率和性别来对他的VO2 max值进行评估和预测。

    2. 录入数据

    SPSS数据文件如图所示,分析数据结构:

    因变量VO2max为连续变量,满足上述条件(5);

    自变量中年龄(age),体重(weight),心率(heart_rate)为连续变量,性别(gender)(女=0,男=1)为二分类变量,满足条件(6);

    样本量为100,纳入的自变量为4个,满足条件(8)中大于20倍的要求。在满足上述几个基本条件后,根据研究目的研究人员拟采用多重线性回归的方法来进行统计分析,而对于其他几点适用条件我们将在后面的介绍中进行一一验证。

    3. 多重线性回归操作

    (1)选择Analyze → Regression → Linear

    在Linear Regression对话框中,将VO2max选入Dependent,将age,weight,heart_rate,gender选入Independent(s)中。

    点击Method下拉列表,会出现Enter,Stepwise,Remove,Backward,Forward共5种方法可供选择,这里选择默认的Enter法,表示将所有的变量都纳入到回归模型中。(自变量筛选共有5种方法,每种方法的区别我们将会在以后的内容中进行详细介绍。)

    (2)点击Statistic选项

    在Regression Coefficients复选框中,勾选Estimates和Confidence Intervals Level(%)并设定为95,可输出自变量的回归系数及其95%可信区间。

    选择Model fit,输出模型拟合优度的检验结果;选择Descriptive,输出对所有变量的基本统计描述;选择Part and partial correlations,输出自变量之间的相关系数;选择Collinearity diagnostics,输出对自变量进行共线性诊断的统计量。

    在Residus复选框中,选择Durbin-Watson,输出值用于判断残差之间是否相互独立。选择Casewise Diagnositics,默认在3倍标准差内来判定离群点。一般来说,95%的值在 ± 2倍标准差内,99%的值在 ± 2.5倍标准差内,可根据具体情况来进行设定。

    (3)点击Save选项

    在Predicted Values复选框中选择Unstandardized,保存模型对因变量的原始预测值,在Residuals是复选框中选择Standardized,保存均数为0标准差为1的标准化残差值,在Prediction Intervals复选框中选择Individuals,设定Confidence Intervals为95%,保存个体预测值的95%可信区间。

    (数据标准化:用观察值减去该变量的均数,然后除以标准差所得,标准化后数据的均数为0,标准差为1,经标准化的数据都是没有单位的纯数量。)

    (4)点击Plot选项

    在Plots对话框中将*ZRESID(标准化残差)放入Y轴,将*ZPRED(标准化预测值)放入X轴,绘制残差散点图;同时选择Histogram和Normal probability plot来绘制标准化残差图,考察残差是否符合正态分布;选择Produce all partial plots绘制每一个自变量与因变量残差的散点图。

    (5)点击Continue回到Linear Regression主对话框,点击OK完成操作。

    转载于:https://www.cnblogs.com/amengduo/p/9586832.html

    展开全文
  • 原标题:多重线性回归的结果解读和报告(SPSS实例教程)之前我们推送了“”,介绍了在应用多重线性回归模型之前所需要满足的8个适用条件,简单概括如下:(1) 自变量与因变量存在线性关系;(2) 残差间相互独立;(3) ...

    原标题:多重线性回归的结果解读和报告(SPSS实例教程)

    之前我们推送了“”,介绍了在应用多重线性回归模型之前所需要满足的8个适用条件,简单概括如下:

    (1) 自变量与因变量存在线性关系;

    (2) 残差间相互独立;

    (3) 残差服从正态分布;

    (4) 残差具有方差齐性;

    (5) 因变量为连续变量;

    (6) 自变量为连续变量或分类变量;

    (7) 自变量间不存在多重共线性;

    (8) 样本量应为自变量的20倍以上。

    同时我们也结合实际的研究数据,介绍了如何在SPSS中进行多重线性回归的操作。面对SPSS结果输出中众多的表格,很多时候会感觉一头雾水,不知所云,接下来我们将对多重线性回归的输出结果进行详细的解读。

    一、模型条件验证

    首先我们需要对上述的8个条件进行验证,来确保最终建立的回归模型有效。在上一期的内容里,我们通过观察数据结构进行了初步的判断,数据已经基本满足了条件(5) (6) (8)的要求,下面我们将对其他条件来进行一一验证。

    1. 验证各个自变量与因变量存在线性关系

    在结果输出的Charts部分,Partial Regression Plot输出了每个自变量与因变量之间形成的散点图,由散点图可以判断自变量age,weight及heart_rate与因变量VO2 max之间均呈现一定的线性关系,满足条件(1)。由于自变量gender为二分类变量,因此可以不用考察其与因变量VO2 max的线性关系。

    注意:散点图是建立多重线性回归分析之前的一个很有必要且非常重要的步骤,不能随意省略。如果因变量与某个自变量之间呈现出非线性趋势,可以尝试通过变量转换予以修正。如果进行了变量转换,则应当重新绘制散点图,以保证线性趋势在变换后仍然存在。

    2. 验证残差独立

    在结果输出的Model Summary表格中,Durbin-Watson值为1.910。该统计值的取值范围为0 ~ 4之间,如果残差间相互独立,则该值≈ 2。若Durbin-Watson值偏离2,向0或者4的方向接近,则提示残差不独立。本例中该值大小为1.910,非常接近于2,表明残差间没有明显的相关性,即残差独立,满足条件(2)。

    3. 验证残差服从正态分布

    在结果输出的Charts部分,通过标准化残差的直方图(Histogram)可以直观的看出,标准化残差服从均值为0,标准差为1的正态分布。同时从正态概率图(P-P图)也可以看出,散点基本围绕在第一象限对角线上散布,从而判断残差基本服从正态分布,满足条件(3)。

    4. 验证残差方差齐性

    在结果输出的Charts部分,通过对标准化残差和标准化预测值绘制的散点图可以看出,标准化残差的散点波动范围基本保持稳定,不随标准化预测值的变化而变化,可以认为基本满足方差齐性,满足条件(4)。

    5. 验证自变量是否存在共线性

    在结果输出的Correlations表格中,显示了所有变量两两之间的Pearson相关系数及其对应的P值,一般认为相关系数 > 0.7可考虑变量间存在共线性。在本例中结果显示自变量之间相关系数均 < 0.7,且P值均 > 0.05,表明自变量间相关性较弱,可认为不存在共线性,满足条件(7)。由于自变量gender为二分类变量,不适宜用Pearson相关系数进行考察。

    同时在结果输出的Coefficients表格中,显示了共线性诊断的两个统计量,即Tolerance(容忍度)和VIF(方差膨胀因子)。一般认为如果Tolerance < 0.2或VIF > 10,则提示要考虑自变量之间存在多重共线性的问题。本例中各自变量的Tolerance均 > 0.2,VIF均 < 10,提示不存在共线性。

    二、模型结果解读

    通过以上结果分析得知,本例中的研究数据符合多重线性回归的各项适用条件,下面终于要正式对回归模型的结果进行解读了。

    1. 评价回归模型的优劣

    在结果输出的Model Summary表格中显示了模型的拟合情况,其中复相关系数R为0.760,反映了所有自变量x与因变量y之间的线性相关程度,其值越大说明线性相关越密切。决定系数R Square (R2)为0.577,说明VO2 max变异的57.7%可由年龄,体重,心率的变化及性别来解释。R2越接近于1,说明模型对数据的拟合程度越好。校正的R2(Adjusted R Square)为0.559,其意义与R2相似,也是衡量模型好坏的重要指标之一,其值越大,表示模型拟合效果越好。

    2. 整体回归效应的检验

    在结果输出的ANOVA表格中显示了检验回归模型整体意义的方差分析结果,其中F统计量为32.393,P < 0.001,在α=0.05的检验水准下,可认为所拟合的多重线性回归方程具有统计学意义。

    3. 偏回归系数的检验

    在结果输出的Coefficients表格中列出了回归模型的偏回归系数(B)及其标准误(Std.Error),标准化偏回归系数(Beta),回归系数检验的t统计量及其P值(Sig.),偏回归系数B的95%可信区间(95% CI)。

    结果显示age,weight,heart_rate,gender以及常数项(Constant)的偏回归系数检验的P值均 < 0.05,在α=0.05的检验水准下,可认为其偏回归系数均不为0,有统计学显著性,均可纳入到最终的回归模型中。

    同时结果中还输出了标准化偏回归系数,其意义在于通过对偏回归系数进行标准化,从而可以比较不同自变量对因变量的作用大小。

    注意:偏回归系数更大的自变量,其标准化偏回归系数不一定更大。例如本例中,age的偏回归系数绝对值为0.165,大于heart_rate的偏回归系数绝对值0.118,但是heart_rate的标准化偏回归系数绝对值为0.252,却大于age的标准化偏回归系数绝对值0.176,说明heart_rate对于VO2 max的影响较age更大。

    4. 回归模型的结果解释

    根据对以上结果的分析,最终的多重线性回归方程可写为:

    VO2 max = 87.83 – 0.165 * age – 0.385 * weight – 0.118 * heart_rate + 13.208 * gender

    以年龄为例,其偏回归系数为-0.165,95% CI为(-0.290,-0.041),说明在其他因素不变的情况下,年龄每增加1岁,VO2 max下降0.165 ml/min/kg。

    三、结果报告

    本研究通过应用多重线性回归的方法,探讨了年龄,体重,心率和性别对VO2 max的影响,最终构建的多重线性回归模型具有统计学意义(F = 32.393,P < 0.001),因变量VO2 max变异的55.9%可由年龄,体重,心率的变化及性别来解释(校正的R2 = 0.559),各个自变量的偏回归系数β及95% CI如下表所示:

    四、问题思考

    我们在介绍多重线性回归的一开始就介绍了多重线性回归的作用,一方面是用来探索对因变量具有影响作用的因素,以及效应大小,这一点通过我们的实例已经得以实现。

    多重线性回归另一方面的作用就是根据构建的回归模型,来估计和预测因变量的值及其变化,结合我们的实例,在不易直接测得VO2 max的情况下,如何通过一个人的年龄,体重,心率及性别,来预测其VO2 max及可信区间呢,是否可以通过SPSS操作实现呢,我们将在接下来的内容中进行详细的介绍。

    (更多内容可关注“医咖会”微信公众号:传播医学知识和研究进展,探讨临床研究方法学。)返回搜狐,查看更多

    责任编辑:

    展开全文
  • spssmoderler线性回归分析实例

    万次阅读 多人点赞 2018-05-30 01:02:14
    一、首先,对回归分析的概念有一个清楚地认知在统计学中,回归分析(regression ...按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。在大数据分析中,回归分析是一种预测性的建模技术,...

    一、首先,对回归分析的概念有一个清楚地认知

    在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

    在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。

    按因变量是否连续又可分为线性回归(因变量为连续变量)和逻辑回归(因变量为逻辑变量),今天主要讲的是线性回归在spssmoderler中的实现步骤。

    二、下面对线性回归方程及一些概念进行一些大致的解析:

    1、多元线性回归可表示为Y=a+b1*X +b2*X2+b3*x3+...+bn*Xn+ e,其中a表示截距,b表示直线的斜率,e是误差项。回归方程拟合优度判定系数 R²取值为(0,1)越接近1,表示拟合度越好。

    2、回归方程的显著性检验。(F检验)

    回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变量与因变量的线性关系是否密切。能常采用F检验,F统计量的计算公式为:

      F=\frac{\sum(\hat{y}-\bar{y})^2/k}{\sum(y-\hat{y})^2/n-k-1}

      =\frac{R^2/k}{(1-R^2)/n-k-1}

      根据给定的显著水平a=0.05,自由度(k,n-k-1)查F分布表,得到相应的临界值Fa,若F > Fa,则回归方程具有显著意义,回归效果显著;F < Fa,则回归方程无显著意义,回归效果不显著。或者根据显著性水平P值判定,如果p<=a,拒绝零假设,回归方程有显著意义;如果p>a,则回归方程线性不显著。

    3、回归系数的显著性检验。(T检验)

      在一元线性回归中,回归系数显著性检验(t检验)与回归方程的显著性检验(F检验)是等价的,但在多元线性回归中,这个等价不成立。t检验是分别检验回归模型中各个回归系数是否具有显著性,以便使模型中只保留那些对因变量有显著影响的因素。检验时先计算统计量ti;然后根据给定的显著水平a,自由度n-k-1查t分布表,得临界值tata / 2,t > t − ata/ 2,则回归系数bi与0有显著关异,反之,则与0无显著差异

    同理,也可根据p值检验,p<=a,拒绝零假设,回归方程线性显著,反之则线性不显著。

    二、接下来就根据实例实现回归分析模型的建立,这是一个汽车各项性能和指标与价格关系的数据表。如图


    1、确定自变量和因变量。我们的目的是预测汽车各项性能和价格之间的关系,自变量是汽车各项性能,因变量则为汽车价格。


    这里将价格设为目标变量,因为线性回归要求输入和目标变量要均为连续值,下面对产地和类型进行重新分类并命名为国内和卡车。


    接下来还需要删除原字段并对字段进行重排,如图


    2、数据处理完毕,加下来就是建立回归分析模型。选择建模——预测回归分析模型:


    这里之前类型中已经定义自变量和因变量,直接选择预定义。


    这里都按默认打钩,构建方法有四种,进入法就是将所有的输入变量都导入方程,逐步法是逐个将输入变量代入方程进行评估,后退法是现将所有输入变量导入方程,再逐步删除对模型目标变量影响较小的输入变量,直到模型效果最好,前进法则是逐一将对模型目标变量影响大的输入变量添加到方程中,直到模型效果最好。


    接下来这里选择专家,仅使用完整记录,如果表中有缺失值则会被过滤。输出这里是指选择输出选项,一般默认,根据需求打钩选择。


    分析这里选择预测变量重要性。接下来运行输出模型。

    3、分析模型结果。


     模型这里可以看到输入变量对目标变量的重要性比较。马力>空车重量>燃料箱重量>轴距,其他属性对价格的影响几乎为零

       

    摘要这里是对模型构建过程的描述



    高级选项这里看到模型预测的结果,需要注意的是R²=0.888,说明拟合度很好,p值小于0.05,说明假设不成立,线性显著,然后再看T检验,各输入变量对应的的t值均不同,p<=0.05的,说明线性显著,即输入变量对价格影响大,p>0.05,线性不显著。

    我们还可以对模型进行调整,即对输入变量选取不同的输入方法,以选择逐步法为例




    从上图可以看到逐步法构建模型的过程,即将输入变量一个个加入方程,直到模型预测效果最好。类似的前进法、后退法实现步骤相同,可以不断调整,对模型进行比较,直到模型效果最好。

    以上就是我对线性回归在spssderler中的实现进行的总结,实现工具并不重要,我认为最重要的是要掌握回归分析的概念及模型实现步骤,并能对模型结果进行解读,分析,优化。

    加油吧,皮卡丘!



    展开全文
  • 在上一期SPSS的推文中我们讲了一些关于线性回归的基本知识,还利用一个简单的实例进行了简单线性回归的分析,今天我们就来讲讲多重线性回归(也叫多元线性回归),有关多元线性回归的概念我在上一期的推文中也已经讲过...

    走过路过不要错过

    点击蓝字关注我们

    致读者:本文篇幅较长,理论知识涉及较多,强烈建议收藏,对大家的回归分析建模分析肯定会有很多启示!!

    在上一期SPSS的推文中我们讲了一些关于线性回归的基本知识,还利用一个简单的实例进行了简单线性回归的分析,今天我们就来讲讲多重线性回归(也叫多元线性回归),有关多元线性回归的概念我在上一期的推文中也已经讲过,这里就不提了。可浏览上一篇SPSS的推文:SPSS第二期——线性回归(上),两篇对照起来看,或许能学到更多知识。

    多元回归分析和上一期讲到的一般线性回归分析的步骤是大致相同的,但是对于模型的检验,就复杂多了。这篇推文主要讲解了多元线性回归的模型效果评价的各个指标模型检验的各个指标以及解决方法多重回归模型进入方法的介绍,以及简单总结了多重回归模型的建模分析方法。考虑到篇幅原因,此推文没有实例,仅仅只是理论知识,对于回归建模步骤,网上有的是,反而是对模型的分析是最麻烦的,故而这篇文章侧重于讲解模型分析、检验与优化的理论知识。

    模型效果评价

    R方

    模型所要解释的y相对于其均值的波动性。判定系数R方的值在0~1之间,其值越接近1,表示回归方程的拟合程度越高,更能体现观测数据的内在规律。在一般的应用中,R方大于0.6就表示回归方程有较好的质量

    F值

    回归分析中反映回归效果的重要指标,以回归均方和与残差均方和的比值表示,在一般的线性回归中,F值应该在3.86以上

    T值

    回归分析中反映每个自变量的作用力的重要指标。在回归分析时,每个自变量都有自己的T值,T值以相应自变量的偏回归系数与其标准误差的比值来表示。在一般的线性回归分析中,T的绝对值应该大于1.96。如果某个自变量的T值小于1.96,表示这个自变量对方程的影响力很小,应该尽可能把它从方程中剔除。

    P值(sig值)

    回归方程的检验概率值共有两种类型:整体Sig值和针对每个自变量的Sig值。整体的Sig值反映了整个方程的影响力,而针对自变量的Sig值则反映了该自变量在回归方程中没有作用的可能性。只有Sig值小于0.05,才表示有影响力

    9b8c8f91827bd39bbbd13c12855ebbb5.gif

    模型检验

    多元回归分析模型的检验是比较复杂的,主要是要对模型的正态性、线性、独立性、多重共线性进行分析与检验,如果检验的结果不是那么差可通过一些方法优化模型,如果检验结果太差就只能放弃多元回归模型,选择其他模型来解决问题了。

    线性

    针对线性来说,如果因变量与自变量线性相关,那么他们的散点图必定是呈线性趋势的,也就是直线关系,在一元线性回归中,可以直接利用SPSS绘制因变量与自变量的散点图,在考虑是否要使用线性回归的时候可以直观的观察到他们是否为线性关系,在多元线性回归中,可以对自变量提取主成分,进而再画散点图。

    注:其实日常分析时,我们并没有经常先画散点图,对于数据是否呈线性关系,直接根据步骤建立线性回归模型,粗暴一点的话,直接看R方就行了,同时在回归步骤中可以选择生成散点图,可以反应线性关系。

    独立性

    对于独立性来说,线性回归要求因变量的之间是相互独立的,进而来说如果因变量独立,那么残差也就是独立的,对于残差的独立性,可以用Durbin-Waston检验来判断是否独立,不过DW检验主要是检验误差的序列相关性,比如说时间序列的自相关性,该检验适合用于时间独立的数据,对于非聚集型的数据不适用。

    其实,一般来讲,根据收集数据方式的先验知识来判断数据是否具有独立性是最好的,比如你通过随机抽样的方式,收集到一群人的身高体重数据,你总不能说会存在明显的数据不独立,毕竟两个人的身高体重也不能存在高度相关性(随机抽样)。

    多重共线性

    当我们用两个或两个以上的自变量进行多重回归来预测因变量取值的时候,如果既希望提高拟合优度,又希望保持回归方程的显著性,那么必须符合这样一种隐含的假设:各自变量之间是相互独立的。如果自变量之间存在线性相关关系,则意味着自变量之间的取值可以线性地相互决定,当我们用这个自变量预测了因变量的取值之后,另一个自变量对于决定因变量的取值已经没有独立的意义了,不会再对这种预测有显著的贡献,因而导致单个回归参数显著性的降低。回归理论中,把自变量之间的线性相关性称为多重共线性。

    实际问题中,自变量之间完全相关或完全不相关的情况都是很少见的。我们应当尽量避免在回归模型中加入高度相关的自变量。

    多重共线性诊断方指标

    由于多重共线性是一种样本现象,而来源于现实生活中的样本数据又各有其领域和背景, 所以数学上无法找到一个统一的诊断标准。这里可以提供一些经验的诊断规则。

    1.容许度:容许度=1-Rj^2。其中的R是第j个自变量与其余变量进行回归时的判定系数。容许度越接近1,表示多重共线性越弱。一般的认识是,当容忍度小于0.1时,存在严重的多重共线性。

    2.膨胀因子(VIF):膨胀因子:膨胀因子是容许度的倒数。膨胀因子越接近1(膨胀因子理论最小值是1),表示解释变量之间的多重共线性越弱,一般情况下,VIF的值不应该大于5,放宽到容忍度的水平,就是不应该大于10。如果VIF=10,说明膨胀因子存在严重多重共线性。

    3.特征根:对模型中常数项及所有自变量计算主成分,如果自变量间存在较强的线性相关关系,则前面的几个主成分数值较大,而后面的几个主成分较小,甚至接近于0。

    多重线性解决办法

    如果发现自变量间存在多重共线性时,可以采用以下方法解决:

    逐步回归:逐步回归能够在一定程度上对多重共线性的自变量组合进行筛选,将对因变量变异解释较大的自变量保留,而将解释较小的自变量删除。

    岭回归:岭回归是一种专门用于共线性数据分析的有偏估计回归方法,它实际上是一种改良的最下二乘法,通过放弃最小二乘法的无偏性,以损失部分信息,降低精度为代价来寻求效果稍差但是回归系数更符合实际的回归方程。

    主成分回归:主成分回归能够对存在多重多重共线性的自变量提取主成分,提取出来的主成分之间是完全互相独立的,然后再用提取出来的主成分与其它的自变量一起进行多重线性回归。

    极端值

    在线性回归分析中,自变量回归系数的确定主要采用最小二乘法,而最小二乘法的原理就是兼顾每个数据点的影响,使得最后的离差平方和最小。最小二乘法拟合得到的多重线性回归模型,会受到极端值的影响而失去客观和准确性。极端值通常指以下三种异常值:

    • 离群点:指那些模型预测效果不佳的观测点

    • 高杠杆值点:与其他预测变量有关的离群点

    • 强影响点:对模型参数估计值有些比例失衡的点

    在多元线性回归中,要尽量排除极端值对模型的影响,但不应盲目的直接删除极端值,应该搞清楚是不是某些特殊情况导致该值的离群,比如数据录入错误,这时你可以尝试着删除离群点,但如果不符合这种情况,或许你该考虑是否要用加权最小二乘法来进行多重回归了。

    多元回归模型进入方法介绍

    输入:对于用户提供的所有自变量,回归方程全部接纳。

    逐步:先检查不在方程中的自变量,把F值最大(检验概率最小)且满足进入条件的自变脸选入方程中,接着,对已经进入方程的自变量,查找满足移出条件的自变量(F值最小且F检验概率满足移出条件)将其移出。

    前进:对于用户提供的所有自变量,系统计算出所有自变量与因变量的相关系数,每次从尚未进入方程的自变量组中选择与因变量具有最强正或负相关系数的自变量进入方程,然后检验此自变量的影响力,直到没有进入方程的自变量都不满足进入方程的标准为止。

    后退:对于用户提供的所有自变量,先让它们全部强行进入方程,再逐个检查,剔除不合格变量,直到方程中的所有变量都不满足移出条件为止。

    删除:也叫一次性剔除方式,其思路是通过一次检验,而后剔除全部不合格变量。这种方法不能单独使用,通常建立在前面已经构造出初步的回归方程的基础上,与前面其他筛选方法结合使用。

    f70625dcdcf1cb297610dbccb00a7394.png

    多重线性回归模型方法总结

    如果你看到了这里,那么福利就来了,下面给大家简单的总结一下多元回归建模的主要方法:

    c0318501741bc5f49150d13faa8a9f99.png

    1

    确定模型的因变量与自变量

    根据研究目的确定好因变量和自变量,以便接下来的分析。

    2

    判断有无异常值

    通过线性回归-统计-个案诊断,线性回归-保存-勾选学生化删除、库克距离、杠杆值,根据新生成的学生化删除残差、库克距离、杠杆值来判断。

    学生化删除残差的值在-3至3的范围内,库克距离均小于1,杠杆值均均小于0.2,不存在异常值。

    如果发现异常值,则首先应该检查是否是数据收集或录入方面的错误,如是则应及时纠正。如不是数据收集或录入方面的错误,则需根据实际情况,选择去除异常值、转换异常值的变量,或者选用非参数分析法来处理。

    3

    判断数据是否满足多重线性回归假设条件

    第一,因变量与所有自变量之间是否存在线性关系通过建立未标化预测值和学生化残差的散点图判断,未标化预测值和学生化残差的散点图呈水平带状,则满足因变量与所有自变量之间存在线性关系的假设。

    第二,因变量与每一个自变量之间是否存在线性关系通过线性回归的【图】→【产生所有部分图】中的散点图判断。

    第三,方差齐性。通过线性回归的【ANOVA】表的Sig值判断,小于0.05为方差齐性,大于0.05为方差不齐。

    第四,各自变量之间是相互独立的。通过线性回归的→【统计】→【共线性诊断】的结果,容许度越接近1,多重共线性越弱,膨胀因子越接近1,多重共线性越弱;膨胀因子小于10为弱多重共线性,大于10则存在严重共线性如果各自变量之间存在严重共线性,则可选用岭回归或者主成分分析法来处理。

    第五,残差近似正态性。可通过直方图或者P-P图判断残差是否符合正态分布。

    4

    估计回归模型参数,建立模型

    可根据实际情况,选用强迫引入法、逐步引入法、强迫剔除法、向后剔除法、向前引入法来进行模型估计。方差不齐时,则需要用加权最小二乘法来进行模型估计。

    5

    对模型进行假设检验

    对回归模型进行假设检验一般使用方差分析法,对回归系数进行假设检验一般使用t检验方法。

    c0318501741bc5f49150d13faa8a9f99.png

    参考文献

    • 腾讯云-SPSS学堂,网址:

      https://cloud.tencent.com/developer/news/239275

    • 《SPSS统计分析和数据挖掘(第3版)》,谢龙汉 蔡思琪著,电子工业出版社

    6eee39b0af066d35285a68c2c02e6da3.png

    今天的推文就到这里了,希望这篇推文有所帮助吧,这篇推文费了小编好多时间,如果可以,大家能滑到文末点个赞吗,支持一下小编吧!!

    不当你的世界  只作你的肩膀

    深度学习与资源共享

    数模|软件|教程|资源|电子书

    9a72ac952c0be9758691f5ab40206cc5.png54e0e0fd5d529ddadaffd1ff88b274cf.png

    请留下你指尖的温度

    让太阳拥抱你

    记得这是一个有温度的公众号

    展开全文
  • 以某次多元线性回归为例介绍多元线性回归模型常见的检验方法,其中Farming为被解释变量,其他的所有变量为解释变量。此处要求进行:多重共线性检验、随机误差项正态分布检验、异方差检验、模型结构稳定性检验。 0. ...
  • 我们将首先回顾经典或频率论者的多重线性回归方法。然后我们将讨论贝叶斯如何考虑线性回归。用PyMC3进行贝叶斯线性回归在本节中,我们将对统计实例进行一种历史悠久的方法,即模拟一些我们知道的属性的数据,然后...
  • ​我们将首先回顾经典或频率论者的多重线性回归方法。然后我们将讨论贝叶斯如何考虑线性回归。用PyMC3进行贝叶斯线性回归在本节中,我们将对统计实例进行一种历史悠久的方法,即模拟一些我们知道的属性的数据,然后...
  • 我们将首先回顾经典或频率论者的多重线性回归方法。然后我们将讨论贝叶斯如何考虑线性回归。 用PyMC3进行贝叶斯线性回归 在本节中,我们将对统计实例进行一种历史悠久的方法,即模拟一些我们知道的属性的数据,...
  • 逐步线性回归能较好地克服多重共线性现象的发生,因此逐步回归分析是探索多变量关系的最常用的分析方法,智能算法是现代数据分析的主要方法。本文通过一个实例进行了对比研究,预测结果显示:在预测的精度上,在隐含层...
  • 书中首先简要介绍了多元线性回归、主成分分析和典型相关分析的基本知识,并重点讨论了变量多重相关性在回归建模中的危害。在此基础上,本书详细介绍了偏最小二乘回归的线性与非线性方法,其中包括了偏最小二乘回归...
  • Lasso回归和岭回归

    2020-08-14 00:58:12
    Lasso回归和岭回归1、两个回归的产生原因2、lambda的确定方法:最小化均方差预测误差...n*k维数据矩阵的秩 = k 即要求矩阵列满秩,在多重线性回归中为保持回归没有完全多重共线性,需要n>=k,才能保证回归系数能够
  • 多元线性回归分析 调整的多重判定系数: 曲线回归分析 多重共线性 多重共线性检验的主要方法: 容忍度: 方差膨胀因子 python 工具包 statsmodel回归分析  分类变量 plotly绘图实例 回归分析的一般步骤: 误差项ε ...
  • 按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 线性回归(Linear Regression) 线性回归应该是最常用的回归了,其应用的原理就是最小二乘法。奔着少一点公式推导(不会推),多一点实例...
  • 1.手动设置哑变量及结果解读对于多重线性回归,SPSS并没有直接的选项来帮助我们设置哑变量,我们需要通过重新编码的方式,手动将其转换为哑变量。以上次的研究为实例,为了研究空气中一氧化氮(NO)的浓度与季节等因素...
  • 李子奈计量经济学讲义 一元线性回归 多元线性回归 实例:时间序列 受约束回归 序列相关性 多重相关性 计量经济学模型求解
  • 7.多重线性 8.“各自变量对因变量的影响”和重回归分析 第4章 Logistic回归分析 1.Logistic回归分析 2.极大似然法 3.因变量的处理方法 4.Logistic回归分析的实例 5.“Logistic回归分析过程”中的注意事项 6.Odds R...
  • 针对回采工作面瓦斯涌出量回归建模过程中自变量间出现多重线性问题,提出应用偏最小二乘回归(PLS)对瓦斯涌出量进行预测的建模思路。选取地质及采矿2个方面共12个参数指标作为回归因子,利用15个瓦斯涌出实例为建模...
  •  第三章 非线性回归分析法  第一节 非线性回归模型  第二节 模型参数的估计  第三节 模型分析与评价  第四节 预测实例  ……  第五章 趋势外推法  第六章 季节变动预测法  第七章 马尔可夫法  第...
  • 从瓦斯灾害复杂影响因素中提取主控因素是...偏最小二乘回归分析方法(PLSR)可以解决样本数据偏少以及自变量多重线性问题。文中采用PLSR进行瓦斯灾害影响因素的主控因素分析,通过实例分析表明此方法可靠性高,预测效果好。
  • 1 线性回归 通过具体实例,我们可以模拟数据分布的规律,并且需要对模型进行评估,是否过拟合或欠拟合。 1、数据集click.csv x, y 235, 591 216, 539 148, 413 35, 310 85, 308 204, 519 49, 325 25, 332 173, 498

空空如也

空空如也

1 2 3
收藏数 44
精华内容 17
关键字:

多重线性回归实例