精华内容
下载资源
问答
  • 多重共线性的确认: 做出自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断,并不全面。 【1】容忍度(Tolerance):有 ...
  • 多重共线性的诊断(R语言)

    千次阅读 2019-01-22 14:48:22
    多重共线性的诊断 1.方差扩大因子法 经验表明,VIFj≥10VIF_{j}\geq10VIFj​≥10时,就说明自变量xjx_{j}xj​与其余变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。 代码实现如下...

    多重共线性的诊断

    1.方差扩大因子法

    经验表明,VIFj10VIF_{j}\geq10时,就说明自变量xjx_{j}与其余变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。

    代码实现如下:

    data3.3<-read.csv("C:/Users/Administrator/Desktop/data3.3.csv",head=TRUE)
    lm3.3<-lm(y~x1+x2+x3+x4+x5,data3.3)
    library(car)
    vif(lm3.3)
    

    输出结果为:
    在这里插入图片描述
      从输出结果看到,x1,x2x1,x2的方差扩大因子很大,远远超过10 ,说明这四个变量之间存在严重的多重共线性。
      一般情况下,当一个回归方程存在严重的多重共线性时,有若干个自变量所对应的方差扩大因子大于10,这个回归方程多重共线性的存在就是由方差扩大因子超过10 的这几个变量引起的,说明这几个自变量之间有一定的多重共线性的关系存在。知道了这一点,对于我们消除回归方程的多重共线性非常有用。

    2.特征根判定法

    通常认为条件数k&lt;100k&lt;100时,设计矩阵XX多重共线性的程度很小;100k1000100\leq k\leq 1000时,设计矩阵XX存在较强的多重共线性;k&gt;1000k&gt;1000时,存在严重的多重共线性。

    代码实现如下:

    data3.3<-read.csv("C:/Users/Administrator/Desktop/data3.3.csv",head=TRUE)
    XX<-cor(data3.3[,2:6])
    kappa(XX,exact=TRUE)
    

    输出结果为:
    在这里插入图片描述
      根据条件数大于1000,说明自变量之间存在严重的多重共线性。为找出哪些变量是多重共线性的,需要计算矩阵的特征值和相应的特征向量,在R命令窗口下面代码:

    eigen(XX)
    

    输出结果为:
    在这里插入图片描述
      有结果知道相应的特征向量为
      φ=(3.99,0.93,0.07,0.01,0)T\varphi=(3.99,0.93,0.07,0.01,0)^{T}
     
     即3.99X1+0.93X2+0.07X3+0.01X403.99X_{1}^{*}+0.93X_{2}^{*}+0.07X_{3}^{*}+0.01X_{4}^{*}\approx0。由于X3,X4,X5X_{3}^{*},X_{4}^{*},X_{5}^{*}的系数几近于0,故X1X_{1}^{*}X2X_{2}^{*}之间存在着多种共线性。

    展开全文
  • 多重共线性诊断及处理

    千次阅读 2018-11-26 11:34:00
    一、定义 多重共线性(Multicollinearity)是指线性回归模型... 目前常用的多重共线性诊断方法  1.自变量相关系数矩阵R诊断法:研究变量两两相关分析,如果自变量间二元相关系数值很大,则认为存在多重共...

    一、定义

    多重共线性Multicollinearity)是指线性回归模型中的解释变量之间由于存在较精确相关关系或高度相关关系而使模型估计失真或难以估计准确。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。

    . 目前常用的多重共线性诊断方法
      1.自变量的相关系数矩阵R诊断法:研究变量的两两相关分析,如果自变量间的二元相关系数值很大,则认为存在多重共线性。但无确定的标准判断相关系数的大小与共线性的关系。有时,相关系数值不大,也不能排除多重共线性的可能。

    R实现:画协方差矩阵图
      2.方差膨胀因子(the variance inflation factor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。该诊断方法也存在临界值不易确定的问题,在应用时须慎重。

    判断:VIFj>10时,说明自变量x与其余自变量之间存在严重的多重共线关系,这种多重共线性可能会过度地影响最小二乘估计值
      3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱。在应用时一般先预先指定一个Tol值,容忍值小于指定值的变量不能进入方程,从而保证进入方程的变量的相关系数矩阵为非奇异阵,计算结果具有稳定性。但是,有的自变量即使通过了容忍性检验进入方程,仍可导致结果的不稳定。
      4.多元决定系数值诊断法:假定多元回归模型p个自变量,其多元决定系数为R2y(X1,X2,…,Xp)。分别构成不含其中某个自变量(Xi,i=1,2,…,p)的p个回归模型,并应用最小二乘法准则拟合回归方程,求出它们各自的决定系数R2i(i=1,2,…,p)。如果其中较大的一个R2k与R2y很接近,就表明该自变量在模型中对多元决定系数的影响不大,说明该变量对Y总变异的解释能力可由其他自变量代替。它很有可能是其他自变量的线性组合。因此,该自变量进入模型后就有可能引起多重共线性问题。该方法也存在临界值和主观判断问题。
      5.条件数与特征分析法:在自变量的观测值构成的设计矩阵X中,求出变量相关系数R的特征值,如果某个特征值很小(如小于0.05 ),或所有特征值的倒数之和为自变量数目的5倍以上,表明自变量间存在多重共线性关系。

    三. R语言实现多重共线性的检验   

    1、 方差膨胀因子VIF

    得到各个系数的方差膨胀因子,一般认为,当0<VIF<10,不存在多重共线性(注意:在《R语言实战》第2版P182中认为VIF>4就存在多重共线性);当10≤VIF<100,存在较强的多重共线性,当VIF>=100,多重共线性非常严重。

    library(car)

    vif(lm.sol)

    注意:需要安装car包。

    2、基于条件数和特征分析法

    step1: 利用kappa函数,计算自变量矩阵的条件数;
    step2: 判断是否存在多重共线性. 从实际经验的角度,一般若条件数<100,则认为多重共线性的程度很小,若100<=条件数<=1000,则认为存在中等程度的多重共线性,若条件数>1000,则认为存在严重的多重共线性.

    注意:不用装包,kappa是R中内置函数,可以直接使用!

     

    四. 解决方法

    1、 处理时可以进行逐步回归,用step()命令,比如你一开始的模型是fm=lm(),step(fm)选择最小AIC信息统计量就可以了。这种方法是排除引起共线性的变量,是解决多重共线性的比较常用方法!

    2、 增大样本量,尽量样本量要远远大于自变量个数。

    3、 回归系数的有偏估计(岭回归,主成分分析,偏最小二乘法)

    例如:

    > collinear<-data.frame(
       Y=c(10.006, 9.737, 15.087, 8.422, 8.625, 16.289, 
            5.958, 9.313, 12.960, 5.541, 8.756, 10.937),
       X1=rep(c(8, 0, 2, 0), c(3, 3, 3, 3)), 
       X2=rep(c(1, 0, 7, 0), c(3, 3, 3, 3)),
       X3=rep(c(1, 9, 0), c(3, 3, 6)),
       X4=rep(c(1, 0, 1, 10), c(1, 2, 6, 3)),
       X5=c(0.541, 0.130, 2.116, -2.397, -0.046, 0.365,
            1.996, 0.228, 1.38, -0.798, 0.257, 0.440),
       X6=c(-0.099, 0.070, 0.115, 0.252, 0.017, 1.504,
            -0.865, -0.055, 0.502, -0.399, 0.101, 0.432)
    )
    > XX<-cor(collinear[2:7])
    > kappa(XX,exact=TRUE) #exact=TRUE表示精确计算条件数;
    [1] 2195.908    #大于1000,有严重的多重共线性
    # eigen(XX)
    

      

    > library(car)
    载入需要的程辑包:carData
    > vif.dia<-vif(lm(Y~.,data = collinear))
    > sort(vif.dia,decreasing = TRUE)
            X4         X3         X1         X2         X5         X6 
    297.714658 266.263648 182.051943 161.361942   1.919992   1.455265 
    
    #逐步回归
    > fit <- lm(Y~.,data=collinear)
    > fit_step <- step(fit)
    > summary(fit_step)
    

      

     

    转载于:https://www.cnblogs.com/Christina-Notebook/p/10019415.html

    展开全文
  • 多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或者难以估计准确。...多重共线性的诊断 直观判断法: 增加或者剔除一个自变量,或者是改变一个观测值,回...

    多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或者难以估计准确。

    即存在一组不全为0的数c_{0},c_{1},c_{2},...,c_{p}使得c_{0}+c_{1}x_{i1}+c_{2}x_{i2}+...+c_{p}x_{ip}\approx 0

    多重共线性的成因:

    • 不同的自变量存在相同的趋势
    • 引入了滞后的自变量
    • 样本资料的限制

    多重共线性对回归模型的影响:

    • 参数估计失败
    • 显著性检验失败
    • 模型无应用价值

    多重共线性的诊断

    直观判断法:

    • 增加或者剔除一个自变量,或者是改变一个观测值,回归系数的估计值发生较大变化,认为存在严重的多重共线性
    • 一些重要自变量在回归方程的显著性检验中未能通过,初步判定存在严重的共线性
    • 当回归方程中一些自变量的系数所带的正负号与定性分析的结果相违背时 ,认为存在多重共线性
    • 自变量的相关矩阵中,当自变量间的相关系数较大时,认为可能存在多重共线性
    • 当一些重要的自变量的回归系数的标准误差较大时,认为可能存在多重共线性

    方差扩大因子法:

    也叫方差膨胀因子,是中心标准化后的自变量的相关阵的主对角线元素。

    C=(c_{ij})=((X^{*})^{T}X^{*})^{-1}VIF为矩阵C的主对角线元素

    VIF_{j}=1/(1-R_{j}^{2})R_{j}^{2}x_{j}对其余zibianl自变量的复决定系数

    \overline{VIF}=1/p*VIF_{j}

    当膨胀因子VIF_{j}\geq 10,说明自变量x_{j}与其他自变量存在严重的多重共线性,会严重影响使用最小二乘法OLS进行系数估值

    平均膨胀因子\overline{VIF}> 1,存在严重的多重共线性

    特征根判定法:

    求解矩阵X^{T}X的特征根,存在近似于0的特征根 ,则表明存在多重共线性,有多少个近似于0的特征根,就有多少个多重共线性。

    可以通过条件数来判断特征根近似于0:

    k_{i}=\sqrt{\lambda _{m}/\lambda _{i}},其中\lambda _{m}为最大特征根

    • 条件数度量了特征的散布程度
    • 通常认为0<k<10时,没有多重共线性,当10\leq k<100时,存在较强的多重共线性关系,当k\geq 100时,存在严重的多重共线性。

    消除多重共线性的方法

    • 删除一些不重要的解释变量:选择回归模型时,可以将回归系数的显著性检验,方差扩大因子的多重共线性检验与自变量的实际意义结合起来考虑,引入或者剔除变量
    • 增大样本量:当关联系数不变时,增大样本量,回归系数估计值的方差也会适当缩小,从而减弱多重共线性的影响
    • 回归系数有偏估计:采取有偏估计的方法提高稳定性,如岭回归、主成分法、偏最小二乘法等

     

     

     

     

     

     

    展开全文
  • 文章目录变量的多重共线性诊断特征根分析法条件数法方差扩大因子法直观判定法举个例子(R语言) 变量的多重共线性诊断 多元线性回归模型一个基本假设,就是要求自变量矩阵X列满秩,即秩rank(X)=p,也就是要求X列...

    鄙人学习笔记
    参考文献:《计量经济学模型及R语言应用》-王斌会



    变量的多重共线性诊断

    多元线性回归模型的一个基本假设,就是要求自变量矩阵X列满秩,即秩rank(X)=p,也就是要求X的列向量之间线性无关。如果X的列不满秩,则(X’X)-1将不存在,于是基于最小二乘回归系数估计,b = (X’X)-1X’y将不存在,所以很难得出稳定的结果。

    考虑线性回归模型:

    这里假定自变量矩阵X已中心标准化,且rank(X)=p, 这时X’X/(n-1)为相关矩阵R。
    下面给出几个常用的复共线性诊断方法。

    特征根分析法

    条件数法

    方差扩大因子法

    一般标准:
    ①当0<VIF≤5时,没有复共线性;
    ②当5<VIF≤10时,有较弱的复共线性;
    ③当10<VIF≤100时,有中等或较强的复共线性;
    ④当VIF>100时,有严重的复共线性。

    由于VIF=1/TOL (TOL称为容忍度),所以也可以用TOL来诊断复共线性。

    直观判定法

    举个例子(R语言)

    数据:

    输入:

    Xdf <- testdf[, -1]
    Xscale <- scale(Xdf, T, T)
    #scale(data, center=T,scale=T)
    #1.center和scale默认为TRUE 
    #2.center为TRUE 表示数据中心化 
    #3.scale为TRUE 表示数据标准化
    Rtest <- (t(as.matrix(Xscale)) %*% as.matrix(Xscale))/14
    # * 是表示两个矩阵中对应的元素的乘积
    # %*% 表示通常意义下的矩阵乘积,要求第一个矩阵的列数与第二个矩阵行数相等。
    #相关矩阵 =  t(scale(X))*scale(X)/(n-1)
    #备注:X为解释变量矩阵,维度是n*p;n为样本量
    (Rtest)
    (R01 <- cor(Xscale))
    #查看我们自制的相关矩阵和R给出的相关矩阵是否一样
    
    #1.特征分析法
    (lamda = eigen(Rtest)$value)
    #本次实验的相关系数矩阵最小特征根为0.1626082 >0.1 则不存在复共线性
    #2.条件数法
    (CN = max(lamda)/min(lamda))
    #本次实验中CN = 11.53401,0<= CN <= 30, 则不存在多重共线性
    #3.方差扩大因子法(VIF)
    R2 <- summary(lm(x2 ~ x1 + x3, data = testdf))$r.sq
    (VIF1 <- 1/(1 - R2))
    #本次实验中VIF = 3.383924,0<= VIF <-5,同样没有复共线性
    
    

    输出:

    展开全文
  • 回归分析是数据挖掘中最基本方法,其中基于普通最小二乘法多元线性回归要求模型中特征数据不能存在有多重共线性,否则模型可信度将大打折扣。但是就是技术而言,如何确定模型中各各特征之间是否有多重共...
  • 当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性,也就是说共线性的自变量提供了重复的信息。 那么这种多重共线性会有什么不好的影响吗?答案是会的,而且影响非常不好。总结一下就是...
  • 并进行残差分析,比较两种方法在完全多重共线性和半完全多重共线性性中的优缺点,最后对进一步研究复多重共线性提出相应建议:在接下来的工作中有必要在多重共线性的诊断方面进行严格的量化,这种量化不是整体进行的...
  • 3 多重共线性的诊断方法 3.1 相关系数法 对于一个样本数据集,我们要了解解释变量,相关系数是一个重要的参数。假设样本中有x1x_{1}x1​,x2x_2x2​,x3x_3x3​,…,xpx_pxp​这些变量,两个变量间的相关系数: R=∑i=1...
  • R语言线性回归诊断

    千次阅读 2017-06-02 11:55:36
    回归诊断主要内容 (1).误差项是否满足独立性,等方差性与正态 (2).选择线性模型是否合适 ...自变量之间是否存在高度相关,是否有多重共线性现象存在通过了t检验与F检验,但是做为回归方程还是有问题
  • NO.05ZEYI06.2020正文:4314字54图预计阅读时间:11分钟嘿喽...接下来涉及线性回归,Logit回归,因变量受限回归,时间序列分析,面板数据分析都与最基本回归方法有一些联系。划线部分是自己要研究变量。回...
  • 多重线性回归模型的最终建立不仅仅拟合个方程就完事了,还需要进行适用条件的考察、模型的诊断以及改进模型的再评估等。(1)拟合多重线性回归模型;(2)适用条件考察:线性、独立性、正态性、同方差性;(3)模型诊断:...
  • R回归诊断广义线性模型非线性模型

    千次阅读 2016-06-03 09:48:26
    是否存在多重共线性? 正态分布检验 正态性检验:函数shapiro.test() P>0.05,正态性分布 0.05p值通常被认为是可接受错误边界水平(p-value) 方差分析,F检验不显著,Pr>0.05 p值为结果可信
  • 往期回顾前言在上一期中,关于线性回归模型创建,我们对比了Python和R语言具体代码实现,受到了很多网友关注。也有一些朋友问到,关于线性回归模型那些前提...自变量之间不存在多重共线性;回归模型残差...
  • UA MATH571A 多元线性回归III 模型诊断Add-one Plot异常值监测Studentized Detected Residual投影矩阵影响值样本数据影响力度量DFFITSCook' s DistanceDFBETAS方差膨胀因子(Variance Inflation Factor,VIF)异...
  • 使用线性回归需要满足线性、独立性、正态性、方差齐性、自变量间不存在多重共线、因变量为连续变量。不考虑前提条件地生搬硬套,也不对模型进行诊断,只能是“Garbage in,garbage out”。今天谈谈线性回归正态性...
  • 针对徐州雾霾情况,通过搜集徐州市2017年365天日空气质量指数AQI数据,其9个...通过拟合优度检验、显著性检验、多重共线性诊断和异常值残差诊断后,绘制出拟合对比图,验证了所得四元线性回归模型准确性和实用性。
  • 目录零、案例简介一、数据诊断1 正态性检验1.1 检验方法1.1.1 直方图法1.1.2 PP图与QQ图1.1.3 Shapiro检验和K-S检验1.2 校正方法2 多重共线性检验2.1 检验方法2.1.1 方差膨胀因子VIF2.2 校正方法3 线性相关性检验3.1...
  • 2.5 线性回归问题 在本章,我们已经看到了在尝试构建线性回归模型时候遇到某些问题一些示例。我们讨论过一大类问题是和模型在线性、特征独立性和同方差性及误差正态性等方面假设...2.5.1 多重共线性 ...
  • 广义线性回归和非线性模型——数据分析与R语言 Lecture 5回归诊断多重共线性广义线性回归模型(logistic)非线性模型 回归诊断 学习集可能有误差,输入错误,多输入0,离群值。 做线性的假设是否合理呢? 自变量正...
  • 使用线性回归需要满足线性、独立性、正态性、方差齐性、自变量间不存在多重共线、因变量为连续变量。不考虑前提条件地生搬硬套,也不对模型进行诊断,只能是“Garbage in,garbage out”。今天谈谈线性回归正态性...
  • 使用线性回归需要满足线性、独立性、正态性、方差齐性、自变量间不存在多重共线、因变量为连续变量。不考虑前提条件地生搬硬套,也不对模型进行诊断,只能是“Garbage in,garbage out”。今天谈谈线性回归正态性...
  • 案例3 线性回归之汽车贷款(代码)7 线性回归模型与诊断Step1、导入数据和数据清洗Step2、相关性分析Step3、线性回归算法1、简单线性回归3、多元线性回归3.1 多元线性回归变量筛选Step4、残差分析Step5、强影响点...
  • 使用R语言进行回归诊断

    千次阅读 2018-04-07 10:59:02
    选择线性模型是否合适是否存在异常样本回归分析结果是否对某些样本依赖过重,也就是回归模型是否具有稳定性自变量之间是否存在高度相关,即是否存在多重共线性下面我们通过一个小例子来大体认识一下回归诊断的重要...
  • 回归诊断:帮助我们发现并纠正问题,告诉我们模型是否合适,提供了评价回归模型适应性...是否存在多重共线性(自变量不独立)? 标准方法:R中提供了大量检验回归分析中统计假设方法。plot()函数 R语言例子: fit
  • 第2章-回归模型(2)-模型诊断

    千次阅读 2019-01-10 11:32:03
    我们还需要在计量经济学基础上验证模型,当模型出现多重共线性、异方差、序列相关等等问题时,我们需要如何应对与处理。 接下来我们来分别针对不同情况看进行处理 正文 一,异方差(Heteroscedasticity) (一)...
  • 随后人畜患病表现出非特异性症状,这使确定性诊断变得困难。 我们在这里报告八种tick传人兽患病(TBZ)的多重实时聚合酶链反应(qPCR)分析方法开发和评估。 该测定以每组4-plex二重形式进行组织。 格式1...
  • 并采用矩阵的奇异值分解和方差分解比诊断法进行数据的多重共线性诊断,分别采用帽子矩阵法和剔除后的t化残差进行自变量、因变量异常值诊断,用库克距离进行强影响值的诊断,保证了模型所用数据满足要求,提高了模型的...
  • “最低”变量处理“风向”变量处理“星期”变量处理“天气”变量处理数据分析多重共线性新建“温差”变量回归建模数据导入SPSS线性回归操作SPSS结果分析模型概要模型比较排除变量共线性诊断异常个案诊断模型回归...

空空如也

空空如也

1 2 3
收藏数 41
精华内容 16
关键字:

多重共线性的诊断