精华内容
下载资源
问答
  • 多重共线性的判断方法
    千次阅读
    2021-04-21 10:26:49

    在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,Xk中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。

    这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:

    1、保留重要解释变量,去掉次要或可替代解释变量

    2、用相对数变量替代绝对数变量

    3、差分法

    4、逐步回归分析

    5、主成份分析

    6、偏最小二乘回归

    7、岭回归

    8、增加样本容量

    这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。

    逐步回归分析方法的基本思想是通过相关系数r 、拟合优度R2 和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。具体方法分为两步:

    第一步,先将被解释变量y对每个解释变量多重共线性问题的几种解决方法作简单回归:

    多重共线性问题的几种解决方法

    对每一个回归方程进行统计检验分析(相关系数r 、拟合优度R2 和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。

    第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:

    1.如果新引进的解释变量使R2 得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。

    2.如果新引进的解释变量对R2 改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。

    3.如果新引进的解释变量不仅改变了R2 ,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。如果通过检验证明回归模型存在明显线性相关的两个解释变量中的其中一个可以被另一个很好地解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。

    下边我们通过实例来说明逐步回归分析方法在解决多重共线性问题上的具体应用过程。

    具体实例

    例1 设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表1,请建立需求函数模型。

    表1  服装消费及相关变量调查数据

    年份

    服装开支

    (百万元)

    可支配收入

    Y

    (百万元)

    流动资产

    (百万元)

    服装类物价指数Pc

    1992年=100

    总物价指数

    P0

    1992年=100

    1988

    8.4

    82.9

    17.1

    92

    94

    1989

    9.6

    88.0

    21.3

    93

    96

    1990

    10.4

    99.9

    25.1

    96

    97

    1991

    11.4

    105.3

    29.0

    94

    97

    1992

    12.2

    117.7

    34.0

    100

    100

    1993

    14.2

    131.0

    40.0

    101

    101

    1994

    15.8

    148.2

    44.0

    105

    104

    1995

    17.9

    161.8

    49.0

    112

    109

    1996

    19.3

    174.2

    51.0

    112

    111

    1997

    20.8

    184.7

    53.0

    112

    111

    (1)设对服装的需求函数为

    多重共线性问题的几种解决方法

    用最小二乘法估计得估计模型:

    多重共线性问题的几种解决方法

    模型的检验量得分,R2=0.998,D·W=3.383,F=626.4634

    R2接近1,说明该回归模型与原始数据拟合得很好。由多重共线性问题的几种解决方法得出拒绝零假设,认为服装支出与解释变量间存在显著关系。

    (2)求各解释变量的基本相关系数

    多重共线性问题的几种解决方法

    上述基本相关系数表明解释变量间高度相关,也就是存在较严重的多重共线性。

    (3)为检验多重共线性的影响,作如下简单回归:

    多重共线性问题的几种解决方法

    各方程下边括号内的数字分别表示的是对应解释变量系数的t检验值。

    观察以上四个方程,根据经济理论和统计检验(t检验值=41.937最大,拟合优度也最高),收入Y是最重要的解释变量,从而得出最优简单回归方程多重共线性问题的几种解决方法。

    (4)将其余变量逐个引入多重共线性问题的几种解决方法,计算结果如下表2:

    表2 服装消费模型的估计

    多重共线性问题的几种解决方法

    结果分析:

    ①在最优简单回归方程多重共线性问题的几种解决方法中引入变量Pc,使R2由0.9955提高到0.9957;根据经济理论分析,多重共线性问题的几种解决方法正号,多重共线性问题的几种解决方法负号是合理的。然而t检验多重共线性问题的几种解决方法不显著(多重共线性问题的几种解决方法),而从经济理论分析,Pc应该是重要因素。虽然Y与Pc高度相关,但并不影响收入Y回归系数多重共线性问题的几种解决方法的显著性和稳定性。依照第1条判别标准,Pc可能是“有利变量”,暂时给予保留。

    ②模型中引入变量L ,R2 由0.9957提高到0.9959, 值略有提高。一方面,虽然Y 与L ,Pc与L 均高度相关,但是L 的引入对回归系数多重共线性问题的几种解决方法、多重共线性问题的几种解决方法的影响不大(其中多重共线性问题的几种解决方法的值由0.1257变为0.1387,多重共线性问题的几种解决方法值由-0.0361变为-0.0345,变化很小);另一方面,根据经济理论的分析,L与服装支出C之间应该是正相关关系,即多重共线性问题的几种解决方法的符号应该为正号而非负号,依照第2条判别标准,解释变量L不必保留在模型中。

    ③舍去变量L ,加入变量P0 ,使R2 由0.9957提高到0.9980,R2 值改进较大。多重共线性问题的几种解决方法、多重共线性问题的几种解决方法、多重共线性问题的几种解决方法均显著(这三个回归系数的t检验值绝对值均大于多重共线性问题的几种解决方法),从经济意义上看也是合理的(服装支出C与Y,P0之间呈正相关,而与服装价格Pc之间呈负相关关系)。根据判别标准第1条,可以认为Pc、P0皆为“有利变量”,给予保留。

    ④最后再引入变量L ,此时R2 =0.9980没有增加(或几乎没有增加),新引入变量对其他三个解释变量的参数系数也没有产生多大影响,可以确定L 是多余变量,根据判别标准第2条,解释变量L 不必保留在模型中。

    因此我们得到如下结论:多重共线性问题的几种解决方法回归模型为最优模型。

    通过以上案例的分析,我们从理论和实际问题两方面具体了解了逐步回归分析是如何对多重共线性问题进行处理的。事实上,一般统计软件如SPSS,在回归模型的窗口中都会提供变量逐步进入的选项,勾选后实际上就是选择了运用逐步回归的思想来构建回归模型。运用SPSS软件不需要我们懂得其背后的运行规律,然而作为分析师,了解并理解模型背后的理论知识,将更有助于我们理解模型、解释结论背后的内在含义,从而达到更好地分析问题的目的。

    更多相关内容
  • 多重共线性问题的几种解决方法在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,Xk中的任何一个都不能是其他解释变量的线性组合。...

    多重共线性问题的几种解决方法

    在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,Xk中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。

    所谓多重共线性是指线性回归模型的解释变量之间由于存在精确相关关系或者高度相关关系而使模型评估失真或者不准确。这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:

    1、保留重要解释变量,去掉次要或可替代解释变量

    自变量之间存在共线性,说明自变量所提供的信息是重叠的,可以删除不重要的自变量减少重复信息。但从模型中删去自变量时应该注意:从实际经济分析确定为相对不重要并从偏相关系数检验证实为共线性原因的那些变量中删除。如果删除不当,会产生模型设定误差,造成参数估计严重有偏的后果。

    2、改变解释变量的形式

    改变解释变量的形式是解决多重共线性的一种简易方法,例如对于横截面数据采用相对数变量,对于时间序列数据采用增量型变量。

    3、差分法

    4、逐步回归分析

    逐步回归(Stepwise Regression)是一种常用的消除多重共线性、选取“最优”回归方程的方法。其做法是将逐个引入自变量,引入的条件是该自变量经F检验是显著的,每引入一个自变量后,对已选入的变量进行逐个检验,如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F 检验,以确保每次引入新变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既没有不显著的自变量选入回归方程,也没有显著自变量从回归方程中剔除为止。

    5、主成份分析

    主成分分析作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间。

    6、偏最小二乘回归

    7、岭回归

    岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,采用它可以通过允许小的误差而换取高于无偏估计量的精度, 因此它接近真实值的可能性较大。灵活运用岭回归法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助。

    8、增加样本容量

    多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计,因此追加样本信息是解决该问题的一条有效途径。但是,由于资料收集及调查的困难,要追加样本信息在实践中有时并不容易。

    这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。

    逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。具体方法分为两步:

    第一步,先将被解释变量y对每个解释变量作简单回归:

    对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。

    第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:

    1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。

    2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。

    3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。如果通过检验证明回归模型存在明显线性相关的两个解释变量中的其中一个可以被另一个很好地解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。

    下边我们通过实例来说明逐步回归分析方法在解决多重共线性问题上的具体应用过程。

    具体实例

    例1设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表1,请建立需求函数模型。

    表1  服装消费及相关变量调查数据

    e22d8bfdde543d867f66a2609b481071.png

    (1)设对服装的需求函数为

    用最小二乘法估计得估计模型:

    模型的检验量得分,R2=0.998,D·W=3.383,F=626.4634

    R2接近1,说明该回归模型与原始数据拟合得很好。由得出拒绝零假设,认为服装支出与解释变量间存在显著关系。

    (2)求各解释变量的基本相关系数

    上述基本相关系数表明解释变量间高度相关,也就是存在较严重的多重共线性。

    (3)为检验多重共线性的影响,作如下简单回归:

    各方程下边括号内的数字分别表示的是对应解释变量系数的t检验值。

    观察以上四个方程,根据经济理论和统计检验(t检验值=41.937最大,拟合优度也最高),收入Y是最重要的解释变量,从而得出最优简单回归方程。

    (4)将其余变量逐个引入,计算结果如下表2:

    表2 服装消费模型的估计

    3eae77f5df4ea0f16c8fc4761c57f79b.png

    结果分析:

    ①在最优简单回归方程中引入变量Pc,使R2由0.9955提高到0.9957;根据经济理论分析,正号,负号是合理的。然而t检验不显著(),而从经济理论分析,Pc应该是重要因素。虽然Y与Pc高度相关,但并不影响收入Y回归系数的显著性和稳定性。依照第1条判别标准,Pc可能是“有利变量”,暂时给予保留。

    ②模型中引入变量L,R2由0.9957提高到0.9959,值略有提高。一方面,虽然Y与L,Pc与L均高度相关,但是L的引入对回归系数、的影响不大(其中的值由0.1257变为0.1387,值由-0.0361变为-0.0345,变化很小);另一方面,根据经济理论的分析,L与服装支出C之间应该是正相关关系,即的符号应该为正号而非负号,依照第2条判别标准,解释变量L不必保留在模型中。

    ③舍去变量L,加入变量P0,使R2由0.9957提高到0.9980,R2值改进较大。、、均显著(这三个回归系数的t检验值绝对值均大于),从经济意义上看也是合理的(服装支出C与Y,P0之间呈正相关,而与服装价格Pc之间呈负相关关系)。根据判别标准第1条,可以认为Pc、P0皆为“有利变量”,给予保留。

    ④最后再引入变量L,此时R2=0.9980没有增加(或几乎没有增加),新引入变量对其他三个解释变量的参数系数也没有产生多大影响,可以确定L是多余变量,根据判别标准第2条,解释变量L不必保留在模型中。

    因此我们得到如下结论:回归模型为最优模型。

    通过以上案例的分析,我们从理论和实际问题两方面具体了解了逐步回归分析是如何对多重共线性问题进行处理的。事实上,一般统计软件如SPSS,在回归模型的窗口中都会提供变量逐步进入的选项,勾选后实际上就是选择了运用逐步回归的思想来构建回归模型。运用SPSS软件不需要我们懂得其背后的运行规律,然而作为分析师,了解并理解模型背后的理论知识,将更有助于我们理解模型、解释结论背后的内在含义,从而达到更好地分析问题的目的。

    喜欢 (2)or分享 (0)

    展开全文
  • 但这种方法只能对共线性作初步的判断,并不全面。 【1】容忍度(Tolerance):有 Norusis 提出,即以每个自变量作为应变量对其他自变量进行回归分析时得到的残差比例,大小用1减决定系数来表示。该指标越小,则说明该...
  • 多重共线性和非线性回归及解决方法.pdf多重共线性和非线性回归及解决方法.pdf多重共线性和非线性回归及解决方法.pdf多重共线性和非线性回归及解决方法.pdf多重共线性和非线性回归及解决方法.pdf多重共线性和非线性...
  • 前几天她和我说,在百度里有个人连续追着我的回答,三次说...说非线性回归不能转换成线性回归的方法,这里我详细说说这两方面的问题到底是怎么回事(根据我的理解),我发现很多人很怕这个多重共线性的问题,听到非线...

    前几天她和我说,在百度里有个人连续追着我的回答,三次说我的回答错了。当时非常惊讶,赶紧找到那个回答的问题,看看那个人是怎么说。最终发现他是说多重共线性和非线性回归的问题,他认为多个自变量进行不能直接回归,存在共线性的问题,需要进行因子分析(或主成分分析);说非线性回归不能转换成线性回归的方法,这里我详细说说这两方面的问题到底是怎么回事(根据我的理解),我发现很多人很怕这个多重共线性的问题,听到非线性回归,脑袋就更大了。。。

    (1)多重共线性问题

    我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看:

    第一个,是最熟悉也是最方便的——逐步回归法。

    逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。

    第二个,通过因子分析(或主成分分析)再进行回归。

    这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。

    第三个,岭回归。

    通过逐步回归时,我们可能得到几个自变量进入方程中,但是有时会出现自变量影响的方向出现错误,比如第一产业的产值对国民收入是正效应,而可能方程中的系数为负的,这种肯定是由于共线性导致出现了拟合失真的结果,而这样的结果我们只能通过自己的经验去判断。通常我们在做影响因素判断的时候,不仅希望得到各个因素对因变量真实的影响关系,还希望知道准确的影响大小,就是每个自变量系数的大小,这个时候,我们就可以通过岭回归的方法。

    岭回归是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子k,从而使回归系数的估计稍有偏差、而估计的稳定性却可能明显提高的一种回归分析方法,它是最小二乘法的一种补充,岭回归可以修复病态矩阵,达到较好的效果。在SPSS中没有提供岭回归的模块,可以直接点击使用,只能通过编程来实现,当然在SAS、Matlab中也可以实现。做岭回归的时候,需要进行多次调试,选择适当的k值,才能得到比较满意的方程,现在这个方法应用越来越普遍。在07年的时候,我的一个老师还觉得这个方法是他的看家本领,但是现在很多人都会这个方法,而且用的越来越多了,得到的结果也非常合理。

    特别提醒的是:多重共线性说的是变量之间线性关系,和非线性不要混淆了。多组变量之间两种极端的关系是完全多重共线性关系和完全非线性关系,即完全是平行直线的关系和完全无规则的曲线关系(是什么形状,还真不好形容,自己悟去吧^_^)。当然解决多重共线性问题的方法还有,比如差分微分模型,应用的很少,我估计是非常专业的人才会用的吧,呵呵,反正我不会这个方法。接下来说说非线性回归。

    (2)非线性回归的问题。

    非线性回归,顾名思义自变量和因变量是非线性的关系,比如平方、次方等等,但是大多数的非线性方程都可以转换成线性的方程,比如我们通常知道的二次函数:y=a0+a1*x+a2*x^2,这里就可以转换成线性方程,首先将x^2计算得到x1,方程就变成y=a0+a1*x+a2*x1,而这个方程就是我们一般见到的多元线性回归,直接进行线性拟合就可以了。

    这里需要特别提醒的是:我说的可以转换成线性的非线性方程,是一元非线性方程,而不是多元非线性方程。我们知道在SPSS回归分析中有单独一个模块叫曲线估计,它里面提供的11个非线性模型都是可以转换成线性模型的,而且在进行系数拟合的时候都是通过转换成线性方程进行拟合的,这就是为什么同样是非线性方程,在曲线估计里面不需要输入系数的初始值,而在非线性回归中却要输入。

    将非线性方程转换成线性方程再进行拟合,不是因为我们不会做非线性拟合,而改成线性拟合我就会做了,主要原因不是因为这个。而是因为同样的非线性方程拟合比转换成的线性方程拟合误差更大一些,而且由于迭代次数的增多,计算时间会更长,由于我们平时计算的数据不是很多,这种感觉不是非常明显,但是当我们做实际问题的时候,特别是规划问题中,我们将非线性方程转换成线性方程时,计算速度会明显加快。还有一个原因是,做非线性回归的时候,我们要在拟合之前设置初始值,而初始值的选择直接影响后面系数的确定,你改变初始值,拟合出来的系数都会发生变化,这样也会增加非线性回归产生的误差,前面说的误差是计算上产生的误差,而这里是人为经验上产生的误差。因此在做非线性回归时,如果能转换成线性回归,一定转换成线性的来做。

    说到那个人,他在留言中说,这样我没有考虑到转换之后自变量之间的多重共线性,不能这样做,还声嘶力竭的喊我误人子弟。这里我要详细说明是怎么回事,要不要考虑这里的多重共线的问题,如果他也能看到更好。一般我们做回归分析的时候,通常第一步看自变量和因变量之间的散点图,通过散点图我们大致判断两者之间存在怎么的关系,再来选择适当的模型。而通常我们不知道具体选择哪个模型,可以选择几个可能相似的模型比较一下,选择一个拟合效果最好的。这里比如说两个变量之间知道是非线性的,但是不知道是二次的、三次的还是四次及以上的关系(通常次方数越低越好),你可以同时考虑,然后根据拟合的结果来判断。如将方程设置为:y=a0+a1*x+a2*x^2+a3*x^3+a4*x^4,转换成线性方程就是:y=a0+a1*x+a2*x2+a3*x3+a4*x4,而这里需不需要考虑这四个自变量之间的共线性呢,上面说过,多重共线性指的是变量之间的线性关系,而这里的四个自变量他们是非线性的关系(x、x^2、x^3、x^4),即使他们的线性相关系数很高(这是因为二次或者三次曲线用直线拟合得到效果也不错,但是我们知道他们之间的确是非线性的关系,而不是线性关系),因此,我们可以他们的多重共线性,在拟合的时候,选择逐步回归法,也可以不考虑,选择直接进入法,两者得到的结果几乎一样,我亲自试验了。如果得到的结果的确有四次方的关系,那么x4自变量就会通过检验,我们可以通过检验来判断两个变量到底存在什么样的曲线关系。

    这样还需要简单说下多元非线性回归,多元非线性回归也可以进行转换,但是转换完之后就必须要考虑变量之间的多重共线性了,因为我们不能明确的知道转换之后的自变量是否不存在线性的关系。上次有个人在百度里提问说,我有十几个自变量,想做非线性回归,我们一般不推荐这么多自变量做多元非线性回归,除非你发现十几个自变量都和因变量存在非线性的关系。因为多元非线性回归计算非常复杂,迭代次数非常庞大,而得到的结果也不尽如人意。

    好了,这些都是根据我自己的理解和经验来写的,如果一不小心被统计高手或者老师看到,如发现说的不对的地方,请一定要在下面指正出来,非常感谢。

    展开全文
  • 4 多重共线性处理方法 4.1 手动移除出共线性的变量 4.2 逐步回归法 4.2.1向前法 4.2.2后退法 4.3 增加样本容量 4.4 岭回归 4.4.1最小二乘法求解多元线性回归 4.4.2 岭回归处理多重共线性 4.4.3 Lasso回归...

    目录

    1 什么是多重共线性?

    2 多重共线性的影响

    3 共线性的判别指标(方差膨胀因子)

    3.1 拟合优度

    3.2 方差膨胀因子VIF

    4 多重共线性处理方法 

    4.1 手动移除出共线性的变量

    4.2 逐步回归法

    4.2.1 向前法

    4.2.2 后退法

    4.2.3 逐步选择法

    4.2.4 检验显著性 (F 检验)

    4.3 增加样本容量

    4.4 岭回归

    4.4.1 最小二乘法求解多元线性回归

    4.4.2 岭回归处理多重共线性

    4.4.3 Lasso回归处理多重共线性

    4.4.4 总结

    4.5 Elastic Net

     4.6 主成分分析


    1 什么是多重共线性?

            回归分析,是对两个或两个以上变量之间的相关关系进行定量研究的一种统计分析方法。我们用回归分析做需求预测,主要是发现和分析“需求”和“影响需求的因素”之间的相关关系,从而利用这些相关关系来预测未来的需求。(“需求”和“影响需求的因素”,就是回归分析面对的因变量与自变量。)

            但是,在实际应用场景中,因变量和自变量存在相关关系,而自变量与自变量之间也会存在相关 关系,有时还会是强相关关系。在回归分析中,如果两个或两个以上自变量之间存在相关性,这种自变量之间的相关性,就称作多重共线性,也称作自变量间的自相关性。

            我们知道在进行线性回归的时候,相比于对模型的优化,更为重要的是模型训练之前的特征工程,而剔除特征中的多重共线性对逻辑斯蒂回归而言非常重要。

            多重共线性这种现象,在回归分析中普遍存在。因为:

            第一,在某一时间段或某一个项目中,公司做的某一个决策,往往由很多小方案组成(比如同时采用做广告、折扣、积分返利等方式提升销量),这些小方案就是一个个的自变量,这些自变量由于是共同构成公司策略的一部分,所以可能会出现相互关联或互为补充现象,从而出现多重共线性。

            第二,实际需求场景中,总会存在样本信息不充分,或者历史数据不全面和错误等情况,导致回归分析模型的参数不能准确估计与计算,从而不可避免的产生一些多重共线性。

    2 多重共线性的影响

            多重共线性普遍存在,适度的多重共线性没有问题。但当存在严重的多重共线性时,也就是自变量之间高度相关时(相关系数R在±0.7或以上),不同自变量解释的可能是需求(因变量)的同一种变化,从而使得判定每一个单独的自变量对需求的影响程度非常困难。

            也就是说,如果自变量是各自独立的变量(即不存在多重共线性),这时,根据相关分析,就能得知哪些自变量对因变量有显著影响,哪些没有影响,能很好的进行回归分析。

            但是,当存在严重的多重共线性时(即各个自变量之间有很强的相关关系),自变量之间相互影响和相互变化,而我们无法固定其它自变量来避免这些影响和变化,也就无法得到这个自变量和因变量之间的真实关系。

            比如,要分析自变量A对因变量的影响,自变量A与自变量B强相关。因为这自变量A与自变量B是相关的,我们分析自变量A,就需要固定自变量B,但我们无法固定自变量B,这样,就无法进行完整的分析,就无法得到我们需要的结果。

            多重共线性的主要影响,在数据上表现出来为以下三个方面。

    1. 求不出回归系数a或回归系数a变得不可靠,使得回归模型失真,导致预测结果不稳定或不可靠。
    2. 回归系数a正负方向不可控。即就算可以求出回归系数a,但会出现本应该出现正值的地方出现负值或者相反。
    3. 判定系数R2变得不可靠或不准确。

    3 共线性的判别指标(方差膨胀因子)

            有多种方法可以检测多重共线性,较常使用的是回归分析中的VIF值,VIF值越大,多重共线性越严重。一般认为VIF大于10时(严格是5),代表模型存在严重的共线性问题。

            在了解 VIF 如何进行计算之前,需要先知道拟合优度的计算方法。

    3.1 拟合优度

            拟合优度测量的是线性回归中得到的模型对样本的拟合程度,使用  来表示:

            

            其中: 

            

    • SSR 衡量的是由 x 的变化所造成的对 y 的变化的影响
    • SSE 衡量的是随机误差对 y 的变化的影响
    • SST 衡量的是上述两个变化所造成的影响的和。

            因此对于一个线性回归的模型来说,我们希望 y 的变化在较大程度上与 x 的变化存在相关性,因此 SSR 越大越好,并且希望随机误差对 y 的影响较小,因此 SSE 越小越好。

            所以  是一个在0到1之间的值,离1越近,说明模型对样本的拟合越好。

             例如我们用学习时间、读书的时间、做的题目的数量作为特征,分数作为y,做回归分析,其中books = 2倍 hours,questions = 3倍 hours ,学习到的参数有负数,但是这不符合事实,因为没有人能学习负数的时间,看负数的书,做负数的题目,考负数的考试。

            我们的数据中出现了多重共线性,导致了模型的参数出现了不符合实际的参数情况。

            但这是怎么造成的呢?很好理解,举个例子就明白了,考虑第一种情况,将 hours 特征设为 x1,假设我们得到的模型为:

           

            由于 hours 和 score 之间是正相关关系,因此模型中的 w1 一定是正数。

            现在,我们加入了第二个与 hours 相关性特别强的特征 books,设为 x2,我们得到的模型是:

                   

            由于  ,我们将其带入,可得: 

                 

            此时 x1 和 y 之间的关系没有改变,也就是说 x1 前面的参数  ,但此时这个参数由 w1 和 w2 组成,而 w1 和 w2 之间存在无数的组合让其为3,比如: 

               

            当然也可以: 

               

            这样就出现了参数不符合实际的情况。

            那么要怎么样解决多重共线性,提高模型的可解释性呢,最直观的方法就是,把产生了多重共线性的特征直接删掉就可以了,这样做不会有太大的问题,因为当两个特征之间存在完全(近似)多重共线性,说明它们两个能够给模型提供的信息是完全(近似)一致的,而我们不需要重复信息。

            方差膨胀因子(Variance Inflation Factor)是一个判断特征之间多重共线性的度量,接下来介绍VIF。

    3.2 方差膨胀因子VIF

            我们知道,拟合优度用来衡量我们的线性回归模型是否拟合良好,它的大小不仅跟模型的好坏有关,也跟我们特征数据的分布有关,在数据分布确定的情况下,我们可以指定一个阈值,认为超过该阈值的拟合优度对应的模型就是好的模型:

             然后我们发现,如果我们将特征中的一个作为我们的y(比如hours),再将其他的特征作为我们的样本数据X(比如 books, questions),然后进行拟合,如果得到的拟合优度较高,不就可以说明 y 和其他样本数据之间存在一定的多重共线性吗?

            上例中,将hours作为因变量。 此时很大,现在其实我们已经可以知道,hours 和其他特征之间是存在多重共线性的,但是更专业的,我们需要将其转换为方差膨胀因子,转换公式为:

            

            于是我们得到 VIF = 40.3,在习惯上,我们认为 VIF > 10 时,存在多重共线性,该特征需要删除。 

            除此之外,直接对自变量进行相关分析,查看相关系数显著性也是一种判断方法。如果一个自变量和其他自变量之间的相关系数显著,则代表可能存在多重共线性问题。

    4 多重共线性处理方法 

            多重共线性是普遍存在的,通常情况下,如果共线性情况不严重(VIF<5),不需要做特别的处理。如存在严重的多重共线性问题,可以考虑使用以下几种方法处理:

    4.1 手动移除出共线性的变量

            手动删除特征的方法适用于特征数量较少,或者我们的先验知识就已经告诉我们两个特征之间存在多重共线性问题的情况。

            比如我们的样本中仅仅存在10个特征,那么我们可以手动计算各个特征的方差膨胀因子(Variance Inflation Factor,VIF),然后筛选出我们需要保留的特征。

            先做下相关分析,如果发现某两个自变量X(解释变量)的相关系数值大于0.7,则移除掉一个自变量(解释变量),然后再做回归分析。此方法是最直接的方法,但有的时候我们不希望把某个自变量从模型中剔除,这样就要考虑使用其他方法。

             这个方法之所以说难以实现,是因为在实际情况中,我们往往面对着成百上千,甚至上亿的特征,也有可能因为我们的先验知识不足,而无法了解特征之间是否存在线性相关性,而无法筛选特征。

    4.2 逐步回归法

            让系统自动进行自变量的选择剔除,使用逐步回归将共线性的自变量自动剔除出去。此种解决办法有个问题是,可能算法会剔除掉本不想剔除的自变量,如果有此类情况产生,此时最好是使用岭回归进行分析。

            逐步回归分析方法的基本思路是自动从大量可供选择的变量中选取最重要的变量,建立回归分析的预测或者解释模型。其基本思想是:将自变量逐个引人,引入的条件是其偏回归平方和经检验后是显著的。同时,每引人一个新的自变量后,要对旧的自变量逐个检验,剔除偏回归平方和不显著的自变量。这样一直边引入边剔除,直到既无新变量引人也无旧变量删除为止。它的实质是建立“最优”的多元线性回归方程。

            依据上述思想,可利用逐步回归筛选并剔除引起多重共线性的变量,其具体步骤如下:先用被解释变量对每一个所考虑的解释变量做简单回归,然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,再逐步引入其余解释变量。经过逐步回归,使得最后保留在模型中的解释变量既是重要的,又没有严重多重共线性

            逐步回归法选择变量的过程包含两个基本步骤:一是从回归模型中剔出经检验不显著的变量,二是引入新变量到回归模型中,常用的逐步型选元法有向前法和向后法。

    4.2.1 向前法

            向前法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。具体步骤如下。

    步骤1:对 p 个回归自变量,分别同因变量 Y 建立一元回归模型,

            

            计算变量, 相应的回归系数的 F 检验统计量的值,记为 ,取其中的最大值 ,即

             

             对给定的显著性水平 ,记相应的临界值为 ​​​​​​​ ,则将引入回归模型,记为选入变量指标集合。

    步骤2:建立因变量 Y 与自变量子集 的二元回归模型(即此回归模型的回归元为二元的),共有 个。计算变量的回归系数 F 检验的统计量值,记为 ,选其中最大者,记为 ,对应自变量脚标记为 ,即

            对给定的显著性水平 ,记相应的临界值为 , ,则变量 引入回归模型。否则,终止变量引入过程。

    步骤3:考虑因变量对变量子集 的回归重复步骤2。

            依此方法重复进行,每次从未引入回归模型的自变量中选取一个,直到经检验没有变量引入为止。

            向后法与向前法正好相反,它事先将全部自变量选入回归模型,然后逐个剔除对残差平方和贡献较小的自变量。

    4.2.2 后退法

            后退法:与前进法相反,开始时先拟合包含所有自变量的回归方程,并预先指定留在回归方程中而不被剔除的自变量的假设检验标准。然后按自变量对应变量Y的贡献大小从小到大进行检验,对无统计学意义的自变量依次剔除。每剔除一个自变量,都要重新计算并检验尚未被剔除自变量对应变量Y的贡献并决定是否剔除对模型贡献最小的自变量。重复上述过程,直到回归方程中的自变量均符合留在方程中的给定标准,没有自变量可被剔除为止。在整个过程中只考虑剔除自变量,自变量一旦被剔除,则不再考虑引入回归方程。

    4.2.3 逐步选择法

            逐步选择法则是将两者结合,因为在向前法中,新引入的特征可能造成其他特征对模型影响的显著性下降,同样,在后退法中,新剔除的特征也可能对其他特征造成影响。

            那么在逐步选择法中,首先我们根据向前法,先加入一个影响最显著的特征,然后对目前保存在模型中的所有特征进行向后法,剔除所有影响不显著的特征,然后继续上述过程,直到没有特征可以加入,以及没有特征可以被剔除。

    4.2.4 检验显著性 (F 检验)

            在上面的三段话中,一直提到所谓的检验显著性,那么到底应该怎么检验呢?

            在统计学中,有一个方法叫做 F 检验,可以用来确定在线性模型中,所有解释变量整体是否对被解释变量具有显著影响,显然越显著,说明这个线性模型中引入的变量的变动越能解释被解释变量的变动。接下来会简单讲解一下如何做 F 检验,要彻底理解这个方法,需要一定的统计学基础。

            要做 F 检验,首先我们需要制定两个假设,在模型整体显著性的检验中,我们可以设定 H0(原假设)和 H1(备择假设)为:

            

            其中  代表的是每个变量的参数,k 就是变量的数量,如果检验结果显示,接受原假设,说明 这一线性模型不显著,如果拒绝原假设,接受备择假设,说明显著。

            接下来我们会对线性模型计算它的 F 值,并用该 F 值与一个阈值进行对比,如果 F > 阈值,则拒绝原假设,如果 F < 阈值,则接受原假设。在计算 F 值之前,让我们先看一下如何确定这个阈值。

             该阈值我们使用  代表,其中 α 是我们希望的置信度为多少,是人为制定的一个参数,k 就是上文中提到的变量的数量,n 是使用的样本的数量,当 k 或者 n 发生改变时,则改变了  的分布。

            而当 α 改变时,则改变了在该分布下阈值的取值: 

                 

            接下来,我们计算线性模型的 F 值:

                  

             现在,线性模型的 F 值和阈值我们都已经确定,只需要两者进行对比就可以了。

    4.3 增加样本容量

            当样本的数量较少时,多重共线性更容易出现,这是因为我们的样本都是从总体中抽样而来,可能因为各种各样的原因,也许是抽样的地域并没有覆盖所有地区,也可能是因为抽样的人群本身具备一定的特征,而导致样本数据的分布与总体的分布产生了偏差,也就是样本中数据仅是总体分布的一部分,这一部分中的特征产生了多重共线性。

            比如下图中,我们可能只收集了线性相关部分的数据,而导致了样本中的多重共线性,而当数据量逐渐增加,当样本覆盖到右边的区域,会发现这两个特征之间实际上不存在太大的相关性。

            但在实际情况中,继续收集数据是一项耗费时间和金钱的活,而且你也没法知道你最终收集到的数据是否真正符合总体的分布,因此这种方式也不是经常使用。

    4.4 岭回归

            上述第1和第2种解决办法在实际研究中使用较多,但问题在于,如果实际研究中并不想剔除掉某些自变量,某些自变量很重要,不能剔除。此时可能只有岭回归最为适合了。岭回归是当前解决共线性问题最有效的解释办法。岭回归是解决共线性问题 不需要异方差自相关这些。

            岭回归分析(Ridge Regression)是一种改良的最小二乘法,其通过放弃最小二乘法的无偏性,以损失部分信息为代价来寻找效果稍差但回归系数更符合实际情况的模型方程。

    4.4.1 最小二乘法求解多元线性回归

            多元线性回归表达式:
    在这里插入图片描述
    可以写成:
    在这里插入图片描述
    我们的目标就是求解w,如何求解w,就要用到损失函数,线性回归的损失函数为:
    在这里插入图片描述
    即预测值和真实值之间的差异,我们希望越小越好。
    在这里插入图片描述

            我们往往称上述式子为RSS(Residual Sum of Squares 残差平方和)或者SSE(Sum of Sqaured Error,误差平方和),如何求解w就用到最小二乘法:


            这个时候我们要求w,就要保证上述(x转置*x)的逆矩阵存在,而逆矩阵存在的充要条件就是特征矩阵不存在多重共线性。
            也就是矩阵的行列式不为0,也就是要求矩阵为满秩矩阵。 

            如上述A所示,第一行和第三行存在比例关系,我们称之为精确相关关系,而B虽然不是精确相关关系,但是相差无几,只差了0.002,我们称之为高度相关关系。两种关系会导致下面的错误:

            而如果是B的情况,或导致分母趋近于0,从而导致w趋近于无穷大,无法很好地拟合数据
    综合上述情况为: 

            

    4.4.2 岭回归处理多重共线性

            

            继续使用最小二乘法求解就会变成:

           

            其中为正则化系数,假如不存在逆矩阵,那么加上一个就会变成一个存在逆矩阵的矩阵,也就消除了多重共线性。当然也会存在刚好假如使得变成非满秩矩阵,但是这种情况太少,降低了风险。
            如此,多重共线性就被控制住了:最小二乘法一定有解,并且这个解可以通过 alpha来进行调节,以确保不会偏离太多。 当然了,挤占了w中由原始的特征矩阵贡献的空间,因此 如果太大,也会导致w的估计出现较大的偏移,无法正确拟合数据的真实面貌。我们在使用中,需要找出a让模型效果变好的最佳取值。

    4.4.3 Lasso回归处理多重共线性(没有从根本解决)

            Lasso回归跟上述不同,Lasso的损失函数使用L1正则化用于处理多重共线性,损失函数如下:   

             

            同样使用最小二乘法求解: 

             

            我们同样要保证X转置X的逆矩阵存在,但是Lasso回归对其没有造成任何影响,就是Lasso无法处理特征之间的精确相关关系,Lasso并没有从根本上处理多重共线性问题,只是限制了多重共线性带来的影响。

    4.4.4 总结

            两个正则化都会压缩w的大小,会导致对标签贡献更小的特征的系数更加小,但是L2正则化只会将特征的系数尽量压缩到0,但是L1正则化主导稀疏性,会将特征系数压缩到0,这也是Lasso回归可以用于特征选择的原因。

    • L1正则化:会产生稀疏的权重矩阵,趋于产生少量的特征,其他特征都为0
    • L2正则化:会选择更多的特征,但是很多的特征系数会更趋于0

    4.5 Elastic Net

            Elastic Net 是一种介于岭回归和 Lasso 回归之间的方法,其目标函数为: 

                

     4.6 主成分分析

            主成分分析本身是一种降维方法,在面对数量较大的特征时,可以在降低维度的同时保留尽量多的信息。

           简单来说,主成分分析就是将多维特征投影到较少维度的轴上,这样形成的新的特征之间一定是相互独立的,而相互独立的特征之间不存在多重共线性。

    多重共线性问题,如何解决? - 知乎

    解决多重共线性之岭回归分析 - 知乎

    面试题解答5:特征存在多重共线性,有哪些解决方法? - 知乎

    展开全文
  • 多元线性回归是我们在数据分析中经常用到的一个方法,很多人在遇到多维数据时基本上无脑使用该方法,而在用多元线性回归之后所得到的结果又并不总是完美的,其问题实际上并不出在方法上,而是出在数据上。...
  • 多重共线性详解

    万次阅读 多人点赞 2020-12-26 23:04:23
    目录 1、多重共线性的现象 2、出现的原因 3、判别标准 4、检验方法 5、多重共线性有什么影响 6、多重共线性处理方法 7、其他说明 8、多重共线性识别-python代码8.1、vif检验8.2 相关系数8.3 聚类 9、宏观把握共线性...
  • 多重共线性

    千次阅读 2020-09-11 20:30:00
    1.回归模型自变量彼此相关称为多重共线性,它给模型提供重复信息2.多重共线性会造成模型不稳定,可能会得到无法解释的现象3.检测共线性方法通常有相关性分析,显著性检验和方差膨胀因子分析4...
  • 多重共线性问题的几种解决方法

    万次阅读 多人点赞 2018-01-28 16:45:51
    如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。  所谓...
  • Multicolliearity多重共线性 而所谓的多重共线性,是指 predictor variable 之间的关系,当预测变量间有很高的相关度时,会造成信息冗余,影响回归模型的结果。 检测的方法是计算所有 predictor variable pairs 间...
  • 上篇文章《简单而强大的线性回归详解》(点击跳转)详细介绍了线性回归分析方程、损失方程及求解、模型评估指标等内容,其中在推导多元...本文将详细介绍线性回归中多重共线性问题,以及一种线性回归的缩减(shrinkage...
  • R 检测多重共线性

    千次阅读 2021-12-12 14:01:01
    多重共线性可用统计量VIF(Variance Inflation Factor,方差膨胀因子)进行检测。VIF的平 方根表示变量回归参数的置信区间能膨胀为与模型无关的预测变量的程度(因此而得名)。car 包中的vif()函数提供VIF值。一般...
  • R语言之多重共线性的判别以及解决方法

    万次阅读 多人点赞 2017-11-07 17:53:05
    多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。   1.可以计算X矩阵的秩qr(X)$rank,如果不是满秩的,说明其中有Xi...
  • 本文首先对特征多重共线性的定义进行描述,然后结合实际样例重点介绍多重共线性的常用检验方法。 1、多重共线性定义 对于多元线性模型 Y=k0+k1X1+k2X2+…+knXn,如果特征变量X1、X2、Xn之间存在高度线性相关关系,则...
  • 一、多重共线性及其危害我有一组自变量:它们满足下列关系:那么我们称这四个变量间存在多重共线性。这就意味着,一个变量可以被另外几个变量来解释,这就会带来两个后果1、尽管...那我们该如何识别多重共线性呢?二...
  • Python检验多重共线性

    2022-04-18 20:19:56
    下面来说一说我们最常用的VIF检验多重共线性方法 官方文档路径https://www.statsmodels.org/stable/generated/statsmodels.stats.outliers_influence.variance_inflation_factor.html#statsmodel
  • 多元线性回归—多重共线性

    千次阅读 2021-06-14 19:52:24
    文章目录多重共线性@[toc]1 什么是多重共线性1.1 多重共线性含义1.2 多重共线性产生原因2 多重共线性后果2.1 完全型2.2 不完全型3 多重共线性检验3.1 简单相关系数检验3.2 方差膨胀因子法3.3 经验法3.4 逐步回归检测...
  • 机器学习:多重共线性

    2021-03-08 10:52:05
    1 什么是多重共线性
  • 一个应用MATLAB对数据进行多重共线性检验的小程序。在进行多元线性回归前,通常需要进行多重共线性检验,以保证良好的回归效果。多重共线性的表征方法为VIF值,改程序用于自动计算VIF值。
  • Content线性回归的多重共线性1. 前提2. 由损失函数推导ω(基于最小二乘法OLS)3. 上述计算结果不成立3.1 多重共线性的机器学习解释3.2 多重共线性的解决4. Ridge & Lasso4.1 Ridge4.2 Lasso 线性回归的多重共线性...
  • 多重共线性_影响&识别

    千次阅读 2021-12-23 17:31:42
    多重共线性普遍存在,适度的多重共线性可以不做处理。 当自变量之间高度相关(相关系数在0.7以上)时,将很难判定每一个单独的自变量对因变量的影响程度,这时候我们就需要做相应处理了。 2、影响 系数不准确,很难...
  • 统计|多重共线性识别及严重后果

    千次阅读 2020-08-30 16:38:22
    如果在多元线性回归中没有考虑多重共线性,就会导致很多不好的后果,因此本博文旨在讲述多重共线性识别多重共线性告诉我们,当变量高度相关时,我们可以考虑主成分分析和岭回归之类的分析方法。变量高度相关就是...
  • Python 多重共线性检验

    千次阅读 2021-03-13 10:28:41
    多重共线性概念 共线性问题指的是输入的自变量之间存在较高的线性相关度。共线性问题会导致回归模型的稳定性和准确性大大降低...VIF是容忍度的倒数,值越大则共线性问题越明显,通常以10作为判断边界。当VIF<10,不存
  • stata学习笔记|多重共线性

    千次阅读 2021-11-04 10:29:42
    判断多重线性现象 回归结果上出现的问题 整个方程的R平方很大,F检验也很显著,但是t检验却并不显著,且可能出现与预期系数相反的情况。 增减相关变量后,系数估计值会出现很大变化 VIF方差膨胀因子(回归后检验...
  • 数据分析——多重共线性检验

    万次阅读 2020-05-03 11:20:35
    在做线性回归的时候,一般分为以下几个... 3.1 多重共线性 3.2 变量显著性 3.4 拟合效果 4、解释变量 上面一篇文章了解了如何利用t检验进行变量的显著性检验,下面着重学习如何进行多重共线性的检验 一、辅助...
  • 文章目录多重共线性• 逆矩阵存在的充分必要条件• 行列式不为0的充分必要条件行列式的计算• 矩阵满秩的充分必要条件精确相关关系高度相关关系总结:多重共线性多重共线性与相关性 多重共线性 • 逆矩阵存在的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 19,092
精华内容 7,636
关键字:

多重共线性的判断方法

友情链接: NCS_Getting_Started.zip