精华内容
下载资源
问答
  • python多重线性回归分析多重线性回归分析定义多重线性回归模型:Mulitiple Linear Regression包含两个或两个以上自变量的线性回归模型多元线性回归模型:Multivariate Linear Regression包含两个或两个以上因变量的...

    f7285df1685be68b02aac3a42ba947d1.png

    python多重线性回归分析

    多重线性回归分析

    定义

    1. 多重线性回归模型:Mulitiple Linear Regression

    • 包含两个或两个以上自变量的线性回归模型

    多元线性回归模型:Multivariate Linear Regression

    • 包含两个或两个以上因变量的线性回归模型

    数据准备

    #多重线性回归

    #数据准备

    import pandas as pd

    df=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')

    df

    根据预测目标,确定自变量和因变量

    #多重线性回归

    #数据准备

    import pandas as pd

    df=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')

    #定义自变量

    x=df[['营销费用(万元)','客流量(万人次)']]

    #定义因变量

    y=df[['销售额(万元)']]

    #计算相关系数

    df['营销费用(万元)'].corr(df['销售额(万元)'])

    #多重线性回归

    #数据准备

    import pandas as pd

    df=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')

    #定义自变量

    x=df[['营销费用(万元)','客流量(万人次)']]

    #定义因变量

    y=df[['销售额(万元)']]

    #计算相关系数

    df['客流量(万人次)'].corr(df['销售额(万元)'])

    绘制散点图,确定回归模型类型

    #多重线性回归

    #数据准备

    import matplotlib

    import matplotlib.pyplot as plt

    import pandas as pd

    df=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')

    #定义自变量

    x=df[['营销费用(万元)','客流量(万人次)']]

    #定义因变量

    y=df[['销售额(万元)']]

    #计算相关系数

    df['营销费用(万元)'].corr(df['销售额(万元)'])

    df['客流量(万人次)'].corr(df['销售额(万元)'])

    #营销费用 作为x轴

    #销售额 作为y轴

    #绘制散点图

    df.plot('营销费用(万元)','销售额(万元)',kind='scatter')

    #多重线性回归

    #数据准备

    import matplotlib

    import matplotlib.pyplot as plt

    import pandas as pd

    df=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')

    #定义自变量

    x=df[['营销费用(万元)','客流量(万人次)']]

    #定义因变量

    y=df[['销售额(万元)']]

    #计算相关系数

    df['营销费用(万元)'].corr(df['销售额(万元)'])

    df['客流量(万人次)'].corr(df['销售额(万元)'])

    #营销费用 作为x轴

    #销售额 作为y轴,绘制散点图

    df.plot('营销费用(万元)','销售额(万元)',kind='scatter')

    #客流量 作为x轴

    #销售额 作为y轴,绘制散点图

    df.plot('客流量(万人次)','销售额(万元)',kind='scatter')

    估计模型参数,建立线性回归模型

    #多重线性回归

    #数据准备

    import matplotlib

    import matplotlib.pyplot as plt

    import pandas as pd

    df=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')

    #定义自变量

    x=df[['营销费用(万元)','客流量(万人次)']]

    #定义因变量

    y=df[['销售额(万元)']]

    #计算相关系数

    df['营销费用(万元)'].corr(df['销售额(万元)'])

    df['客流量(万人次)'].corr(df['销售额(万元)'])

    #营销费用 作为x轴

    #销售额 作为y轴,绘制散点图

    df.plot('营销费用(万元)','销售额(万元)',kind='scatter')

    #客流量 作为x轴

    #销售额 作为y轴,绘制散点图

    df.plot('客流量(万人次)','销售额(万元)',kind='scatter')

    #导入sklearn.linear_model 模块中的LinearRegression函数

    from sklearn.linear_model import LinearRegression

    #使用线性回归模型进行建模

    lrModel= LinearRegression()

    #使用自变量x和因变量y训练模型

    lrModel.fit(x,y)

    #多重线性回归

    #数据准备

    import matplotlib

    import matplotlib.pyplot as plt

    import pandas as pd

    df=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')

    #定义自变量

    x=df[['营销费用(万元)','客流量(万人次)']]

    #定义因变量

    y=df[['销售额(万元)']]

    #计算相关系数

    df['营销费用(万元)'].corr(df['销售额(万元)'])

    df['客流量(万人次)'].corr(df['销售额(万元)'])

    #营销费用 作为x轴

    #销售额 作为y轴,绘制散点图

    df.plot('营销费用(万元)','销售额(万元)',kind='scatter')

    #客流量 作为x轴

    #销售额 作为y轴,绘制散点图

    df.plot('客流量(万人次)','销售额(万元)',kind='scatter')

    #导入sklearn.linear_model 模块中的LinearRegression函数

    from sklearn.linear_model import LinearRegression

    #使用线性回归模型进行建模

    lrModel= LinearRegression()

    #使用自变量x和因变量y训练模型

    lrModel.fit(x,y)

    #使用训练得到的模型的coef_属性,即可得到模型的参数b,

    #使用训练得到的模型的intercept_属性,即可得到模型的参数a

    #查看参数

    lrModel.coef_

    # 查看截距

    lrModel.intercept_

    对回归模型进行验证

    #多重线性回归

    #数据准备

    import matplotlib

    import matplotlib.pyplot as plt

    import pandas as pd

    df=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')

    #定义自变量

    x=df[['营销费用(万元)','客流量(万人次)']]

    #定义因变量

    y=df[['销售额(万元)']]

    #计算相关系数

    df['营销费用(万元)'].corr(df['销售额(万元)'])

    df['客流量(万人次)'].corr(df['销售额(万元)'])

    #营销费用 作为x轴

    #销售额 作为y轴,绘制散点图

    df.plot('营销费用(万元)','销售额(万元)',kind='scatter')

    #客流量 作为x轴

    #销售额 作为y轴,绘制散点图

    df.plot('客流量(万人次)','销售额(万元)',kind='scatter')

    #导入sklearn.linear_model 模块中的LinearRegression函数

    from sklearn.linear_model import LinearRegression

    #使用线性回归模型进行建模

    lrModel= LinearRegression()

    #使用自变量x和因变量y训练模型

    lrModel.fit(x,y)

    #使用训练得到的模型的coef_属性,即可得到模型的参数b,

    #使用训练得到的模型的intercept_属性,即可得到模型的参数a

    #查看参数

    lrModel.coef_

    # 查看截距

    lrModel.intercept_

    #计算模型的精度

    lrModel.score(x,y)

    利用回归模型进行预测

    #多重线性回归

    #数据准备

    import matplotlib

    import matplotlib.pyplot as plt

    import pandas as pd

    df=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')

    #定义自变量

    x=df[['营销费用(万元)','客流量(万人次)']]

    #定义因变量

    y=df[['销售额(万元)']]

    #计算相关系数

    df['营销费用(万元)'].corr(df['销售额(万元)'])

    df['客流量(万人次)'].corr(df['销售额(万元)'])

    #营销费用 作为x轴

    #销售额 作为y轴,绘制散点图

    df.plot('营销费用(万元)','销售额(万元)',kind='scatter')

    #客流量 作为x轴

    #销售额 作为y轴,绘制散点图

    df.plot('客流量(万人次)','销售额(万元)',kind='scatter')

    #导入sklearn.linear_model 模块中的LinearRegression函数

    from sklearn.linear_model import LinearRegression

    #使用线性回归模型进行建模

    lrModel= LinearRegression()

    #使用自变量x和因变量y训练模型

    lrModel.fit(x,y)

    #使用训练得到的模型的coef_属性,即可得到模型的参数b,

    #使用训练得到的模型的intercept_属性,即可得到模型的参数a

    #查看参数

    lrModel.coef_

    # 查看截距

    lrModel.intercept_

    #计算模型的精度

    lrModel.score(x,y)

    #使用predict函数,把自变量作为参数传入

    pX=pd.DataFrame({'营销费用(万元)':[20],'客流量(万元)':[5]})

    pX

    时间内容备注
    2020/7/7python 多重线性回归分析增加数学公式

    这两次开始使用在线Markdown进行内容编辑,效果比过去好多了。

    3a3c632f3ac1b22978f0fae15a8c0003.png

    数据分析时,需要输入数学公式,可以使用typora

    e9aaa917a7b56159de3a78c85c162033.png

    效果:

    9828e08bb0d9c25f4426449a357f204c.png

    今天也用Markdown 作甘特图让工作日井然有序

    5b88d275d69a429fd6fdbea4ac666150.png

    3937e24e3f572503a56e679457987ddf.png

    推荐:typora+Markdown保存.md文件。

    展开全文
  • 多重线性回归分析简介: 简单线性回归是只考虑单因素影响的预测模型,事实上,影响因变量的因素往往不止一个,可能会有多个影响因素,也就是研究一个因变量与多个自变量的线性回归问题,就用到多重线性回归分析了。 ...

    多重线性回归分析简介:

    简单线性回归是只考虑单因素影响的预测模型,事实上,影响因变量的因素往往不止一个,可能会有多个影响因素,也就是研究一个因变量与多个自变量的线性回归问题,就用到多重线性回归分析了

    多重线性回归的作用:

    1、探索对于因变量具有影响作用的因素;
    2、控制混杂因素,评价多个自变量对因变量的独立效应;
    3、用已知的自变量来估计和预测因变量的值及其变化。

    多重线性回归与多元线性回归

    • 多重线性回归:是指包含两个或两个以上自变量的线性回归模型;
    • 多元线性回归:是指包含两个或两个以上因变量的线性回归模型

    多重线性回归模型为:

    Y = a + b1X1 + b2X2 + … + bnXn + ε
    🎈🎈
    Y:因变量 Xn:第n个自变量
    a:常数项,是回归直线在纵坐标轴上的截距
    bn:第n个偏回归系数
    ε:随机误差,即随机因素对因变量所产生的影响

    偏回归系数b1指在其他变量保持不变的的情况下,自变量X1每变动一个单位所引起的因变量Y的平均变化,b2…bn依次类推。

    多重回归系数——偏回归系数

    建立多重线性回归方程的✨✨关键
    求出各个偏回归系数bn,同样使用最小二乘法估算相应的偏回归系数。

    多重线性回归分析实践

    多重线性回归在SPSS中操作与简单线性回归类似,区别🎁🎁在于变量纳入模型的方法以及对输出结果的解读不同

    我们继续使用“超市销售数据”进行分析练习:
    按照之前说的步骤🎈

    1、根据预测目标,确定自变量和因变量

    在这里插入图片描述

    将“广告费用”、“客流量”这两个变量当做自变量;
    将“销售额”当做“因变量”;
    预测广告费用和客流量两个自变量对超市销售额的影响。

    2、绘制散点图,确定回归模型类型

    观察两个变量之间是否存在线性关系
    【图形】——【旧对话框】——【散点图/点图】——【矩形散点图】——【定义】
    在这里插入图片描述
    在这里插入图片描述
    在弹出的【散点图矩阵】——将“广告费用”、“客流量”、“销售额”3个变量移至右侧的【矩阵变量】框中,其它选项保持默认设置,单击【确定】,即可完成矩阵散点图的绘制。
    在这里插入图片描述
    从图中我们可以看出,广告费用、客流量两个自变量分别与因变量销售额存在明显的线性相关关系。
    广告费用与客流量之间也存在一定的线性关系。

    3、估计模型参数,建立线性回归模型

    【分析】——【回归】——【线性】——【线性回归】
    设置因变量、自变量及选择变量的方法。在【线性回归】对话框中,将销售额变量移至【因变量】框中,将广告费用、客流量移至【自变量】框中,自变量步进【方法】下拉框,采用默认的【输入】方法。
    在这里插入图片描述

    🧡💛💚线性回归中方法的解析:

    输入——强制将所选择的自变量纳入回归模型中;
    步进——将自变量逐个引入模型并进行统计显著性检验,直至再也没有不显著的自变量从回归模型中剔除为止;
    除去——根据设定条件,直接剔除一部分自变量;
    后退——根据设定条件,每次剔除一个自变量直至不能剔除;
    前进——根据设定条件,每次纳入一个自变量直至无法继续纳入。

    在本例中,因为自变量只有两个,并且从业务角度判断“广告费用”“客流量”均是影响“销售额”变化的因素,所以可以采用【输入】将两个变量都纳入模型中,两个变量是否适合参与建模,通过后续输出的模型结果进行判断即可。
    如果有较多的自变量且无法选择判断,那么就采用【步进】的方法,让SPSS根据检验结果进行选择。

    💜💙💚设置回归系数及拟合度:
    【统计】——【线性回归:统计】
    ①勾选【回归系数】框中的【估算值】复选框,作用是估计出回归系数;②勾选【模型拟合】复选框,作用是输出判定系数 R²。其他选项保持默认设置即可,单击【继续】——【线性回归】
    💜💙💚设置自变量步数标准及常数项:
    【线性回归】——【选项】——【线性回归:选项】——确认勾选【在方程中包括常量】复选框,即输出拟合直线的截距a,其他选项保持默认设置即可——【继续】——【线性回归】——【确定】,完成多重线性回归分析。

    4、对回归模型进行检验

    SPSS输出4张结果表:
    (1)线性回归模型输入/除去变量表
    在这里插入图片描述

    因变量:销售额
    自变量:客流量、广告费用
    自变量步进方法:输入
    第3列除去的变量指的是:因为自变量步进方法为“输入”,所以“广告费用”、“客流量”两个变量全部纳入模型中,没有移出的变量。

    (2)线性回归模型汇总表
    在这里插入图片描述
    多重线性回归模型的拟合效果主要看第4列。

    调整后R²:主要衡量在多重线性回归模型建立过程中加入其它自变量后模型拟合优度的变化。
    调整后R²:0.747,代表“广告费用”和“客流量”两个自变量合起来能够解释模型变化的73.2%,模型拟合效果良好。

    (3)线性回归方差分析表
    模型1 的方差分析结果:
    在这里插入图片描述
    F检验的显著性(P值)=0.000<0.01,即认为模型1 在0.01显著性水平下,由自变量“客流量”、“广告费用”和因变量“销售额” 建立起来的线性关系具有显著的统计学意义。
    (4)线性回归模型回归系数表
    在这里插入图片描述
    第1列为常量、广告费用、客流量,分别为回归模型中的常量与自变量X1、X2。
    第2列为B分别为常量a(截距)、偏回归系数b1和b2,据此可以写出多重线性回归模型:

    Y=363.31+7.22 X1+16.381 X2

    第4列为标准化系数:用来测量自变量对因变量的重要性,本例中,X1和X2标准化系数分别为0.407、0.499,也就是说,客流量对销售额的影响要大于广告费用对销售额的影响。
    第5、6列分别为回归系数 t 检验和相应的显著性(P值),显著性(P值)同样与显著性水平 α 进行比较,本例中偏回归系数b1显著性(P值)=0.012<0.05,说明偏回归系数b1具有显著的统计学意义;偏回归系数b2显著性(P值)=0.003<0.01,说明偏回归系数b2具有极其显著的统计学意义,即因变量“销售额”和自变量“广告费用”“客流量”之间至少存在显著的线性关系。

    5、利用回归模型进行预测

    例如,接下来要投入20万的广告费用,根据超市往年客流量数据预估下一个月客流量可达10万人次,假设在其他因素稳定的情况下,下一个月的销售额预估达到多少万元?

    将预估的自变量数据代入我们刚才得到的多重线性回归模型中,最终我们预测销售额可达671.7万元左右。

    若需要预测的数据较多,可以用**【线性回归:保存】——勾选【预测值】框中的【未标准化】复选框,运行后就可以在原数据集中新增一列预测值变量,这样就得到了新增自变量对应的因变量预测值。**

    在这里插入图片描述

    学习参考:多重线性回归,你用对了吗?
    《谁说菜鸟不会数据分析-SPSS篇》

    展开全文
  • 探索多个自变量对1个因变量的影响时,可以采用:多重线性回归分析。适用条件与简单线性回归分析类似,包括:线性趋势、独立性、正态性、方差齐性。但是对样本量有要求,样本量太少时,可能会出现检验效能不足,回归...

    简单线性回归模型用于分析1个自变量对1个因变量的影响,或者说是由1个自变量预测1个因变量。但是事物间的联系往往是多方面的,因变量的变化往往不是由单个自变量的变化造成的。

    探索多个自变量对1个因变量的影响时,可以采用:多重线性回归分析。

    适用条件与简单线性回归分析类似,包括:线性趋势、独立性、正态性、方差齐性。

    但是对样本量有要求,样本量太少时,可能会出现检验效能不足,回归结果可靠性降低等问题。一般要求样本量要超过自变量数的20倍。


    案例:根据多个步态指标预测老年人动态平衡能力

    实验对象:60岁左右的老年人。

    测试内容:老年人平衡分数,以及步态指标。

    · 时间类指标:双支撑时间、单支撑时间。

    · 空间类指标:步长、步向角、左右侧COP、前后侧COP。

    研究目的:根据步态参数预测老年人平衡能力。

    本次分析目的:采用多个步态指标预测老年人的动态平衡能力

    部分数据:

    5ac0c2ff25ff7f58ad2d64435e97cbe7.png

    图1

    1.SPSS步骤:

    1)分析-回归-线性

    82d87fa6de21dd65a78af237ff473607.png

    图2

    2)"动态平衡得分"选入"因变量";"步长、步向角、左右测COP、前后侧COP、双支撑时间、单支撑时间"选入"自变量"。

    b8e43ae13114323732e8289fa2c59a2c.png

    图3

    3)按下图勾选。

    1625313009e5b829d0f9b1f127a0f6ca.png

    图4

    2.结果

    d82165ba4f5fa9eca324bad741c36118.png

    图5

    图5给出了各指标的均值、标准差。

    386322c95fa5b04022b10bc8f8cf0046.png

    图6

    图6,共建立3个回归模型,同时给出了依次输入的变量,由于引入新变量后,原来模型中引入的自变量仍然有统计学意义,因此没有自变量被除去。

    447a45b949dda2ed65c06b17f2dfd4e5.png

    图7

    (1)复相关系数R,表示模型中所有自变量与因变量之间的线性回归关系的密切程度。实际上是yi与估计值y^的简单线性回归系数。取值范围(0,1)。

    复相关系数在评价多重线性回归模型优劣时存在不足,即使向模型中增加的变量没有统计学意义,R值仍会增大。

    R值多大合适?不同的学科有不同的判断标准。社会科学类研究一般要求大于0.4,自然科学一般要求大于0.8。

    (2)决定系数R2,表示因变量y的总变异可由回归模型中自变量解释的部分所占比例。

    (3)调整后的决定系数R2adj。即使向模型中增加的变量没有统计学意义,R2值仍会增大,因此需要对其调整,形成调整后的决定系数R2adj。当模型中增加没有统计学意义的变量时,R2adj会变小,因此,R2adj是衡量模型好坏的重要指标之一。R2adj越大,模型的效果越好。

    案例模型的R2adj=0.768,模型效果较好。

    bef42836c676d6f338f6c4d4bd0499e9.png

    图8

    回归模型的方差分析结果显示,三个模型的P值均小于0.05,说明回归模型有统计学意义。

    剩余标准差是误差均方的算术平方根,反映建立的模型预测因变量的精度。剩余标准差越小,模型的预测效果就越好。

    6a192bc5d340036053fb118f79bf003d.png
    578e04c1787adbbd945cd0b5745e4ee9.png

    图9

    给出了各模型自变量的偏回归系数估计值、标准化后的偏回归系数,以及回归系数的显著性检验结果。回归方程:

    2a96ae26a2ae1dad846c86d72ba200ca.png

    标准化偏回归系数:由于不同自变量的偏回归系数的量纲不同,需要比较各自变量对因变量影响程度时,无法根据偏回归系数值的大小直接进行比较。标准化偏回归系数是偏回归系数标准化的结果,排除了量纲和自变量离散程度差异的影响,可以根据绝对值的大小判断自变量的重要程度。

    标准化偏回归系数分别为0.780,0.708,-0.233。


    多重共线性。

    多重共线性指自变量间存在线性相关关系,也就是一个自变量可以用其他一个或几个自变量的线性表达式进行表示。存在多重共线性时,模型可能会有以下表现:

    (1)模型检验结果为P≤α,但是各自变量的偏回归系数的检验结果却为P>α。

    (2)专业上认为应该有统计学意义自变量检验结果却无统计学意义。

    (3)自变量的偏回归系数的取值大小甚至符号明显与实际情况相违背,难以解释。

    (4)增加或删除一个自变量或一个案例,自变量偏回归系数发生较大变化。

    以上情况使回归模型,特别是其中的回归系数难以有合乎专业知识的解释。

    要强调的是,多重共线性的存在不一定必然影响模型的使用价值。理论上,共线性不应当降低模型的预测效果,主要影响的是偏回归系数,导致模型无法用专业知识解释。

    多重共线性的识别

    (1)容忍度(tolerance)。某自变量的容忍度等于1减去以该自变量为因变量,以模型中其他自变量为自变量的线性回归模型的决定系数。容忍度越小,多重共线性就越严重。一般容忍度小于0.1时,认为存在严重的多重共线性。

    案例中的容忍度都偏大,说明不存在多重共线性(图9) 。

    (2)方差膨胀因子(VIF),容忍度的倒数。VIF越大,多重共线性越严重。一般认为VIF要大于5或大于10时多重共线性较严重。

    案例中的方差膨胀因子都不大于2,进一步说明模型不存在多重共线性(图9) 。

    (3)特征值。对模型所有常数项及所有自变量提取主成分,如果自变量间存在较强的线性相关关系,则前面几个主成分特征值偏大,后面的主成分特征值偏小,甚至接近0。

    (4)条件指数。为最大主成分特征值与当前主成分特征值比值的算术平方根。所以第1个主成分的条件指数为1,如果条件指数偏大(如大于30),则存在多重共线性。

    (5)变异构成。回归模型中各项(包括常数项)的变异能够被主成分解释的比例,或者说各主成分对模型中各项的贡献。如果某个主成分同时对两个或多个自变量的贡献都比较大,则说明这几个自变量间存在一定程度的共线性。

    e5af30af7b9aa591897108ffae8d3868.png

    多重共线性的处理

    (1)逐步回归法。只能在一定程度上解决多重共线性问题。

    (2)岭回归。能有效解决。

    (3)主成分回归。从存在多重共线性的自变量中提取主成分,然后将特征根较大的(如大于1)几个主成分与其他自变量一起进行多重线性回归,得出主成分回归系数,再根据主成分表达式反推出原始自变量的参数估计值。代价是提取主成分时丢失了一部分信息,收益是大大降低了共线性对参数估计值的扭曲,而且多重共线性越强,主成分丢失的信息越少,越适合做主成分回归。

    展开全文
  • 转自个人微信公众号【Memo_Cleon】的统计学习...在线性回归中,残差是一个非常重要的概念,它是估计值与观测值之差,表示因变量中除了分析的自变量外其他所有未进入模型的因素引起的变异,即不能由分析自变量估计...

    转自个人微信公众号【Memo_Cleon】的统计学习笔记:多元线性回归。

    这次笔记的内容是多元线性回归的SPSS操作及解读。严格来讲,这种一个因变量多个自变量的线性回归叫多变量线性回归或者多因素线性回归更合适一些。多元或者多变量往往指的是多个因变量。

    在线性回归中,残差是一个非常重要的概念,它是估计值与观测值之差,表示因变量中除了分析的自变量外其他所有未进入模型的因素引起的变异,即不能由分析自变量估计的部分,在图形上表示观测值到拟合线的距离(注意不是垂直于拟合线的距离)。

    适用条件

    (1)线性趋势。因变量与自变量存在线性关系,一般通过散点图(简单线性相关)或散点图矩阵(多重线性回归)来做出简单的判断。此外,残差分析也可以考察线性趋势,偏残差图是更为专业的判断方法。如明显不成线性关系,应进行变量变换修正或改用其他分析。

    (2)独立性。因变量各观测间相互独立,即任意两个观测的残差的协方差为0。可用Durbin-Watson检验是否存在自相关。

    (3)正态性。对自变量的任一个线性组合,因变量均服从正态分布。此处正态分布意为对某个自变量取多个相同的值,对应的多个因变量观测值呈正态分布。但在实际获得的样本中,某一个自变量的固定的取值往往只有有限几个甚至只有1个,其对应的因变量随机观测值也只有几个甚至1个,是没有办法直接进行考察的。在模型中转换为考察残差是否符合正态分布。

    (4)方差齐性。同正态分布类似,模型需要利用残差图考察残差是否满足方差齐性。方差不齐可进行加权的最小二乘法。

    (5)各自变量间不存在多重共线。存在多重共线可导致结果与客观事实不符、估计方程不稳定等诸多问题。逐步回归可以限制有较强关系的自变量进入方程,如存在多重共线,可以剔除某个造成共线性的自变量,或合并自变量,也可改用领回归、主成分回归、偏最小二乘法回归等。多重共线可以利用容差、方差膨胀因子、特征根、条件指数、方差比例、相关系数以及残差图等多种方法考察。

    (6)因变量为连续变量,自变量不限。在实际操作中,遇到自变量为分类变量的时候,可用最优尺度回归(分类回归)。

    多元线性回归建立模型并不难,但需要认证考察多元线性分析的条件,以及建立的模型是否能够最优的拟合数据。分析步骤:

    (1)适用条件考察及处理:线性趋势、独立、正态、方差齐、不存在多重共线等,同时要注意强影响点。

    (2)建立回归模型,并进行模型和偏回归系数的假设检验。

    (3)模型拟合优劣考察:复相关系数R,决定系数R2,校正决定系数R2adj,残差均方或剩余标准差、赤池信息准则AIC、Cp。

    特别说明:纳入那些变量进行分析是由研究者根据专业和经验结合统计结果决定,而不是单单根据统计结果来决定。当自变量较多需要进行筛选自变量时,不同的筛选方法、不同的纳入剔除标准,也会得到完全不同的结果,入选的不一定是最好的,没有纳入的也未必没有统计学意义,回归是为了控制混杂因素分析影响因素,还是为了估计与预测,不同的回归模型可能对某种用途是好的,对另外一种可能就不是最好的。本示例仅为演示SPSS操作。示例数据来自孙振球主编的《医学统计学》第三版。收集了27名糖尿病人的血清总胆固醇(TC)、甘油三脂(TG)、空腹胰岛素(RI)、糖化血红蛋白(HbAc1。本文图片中由于个人在软件录入时书写错误写成了HbAa1c)、空腹血糖(Glu)的测量值,试建立血糖与其他几项指标关系的多重线性回归方程。

    SPSS操作步骤

    (1)数据录入

    (2)线性趋势考察:Graphs>>Chart Bulider

    选择散点图/点图(Scatter/Dot),双击散点图矩阵(Scatterplot Matrix),将要分析的所有变量拖入横坐标的Scatter Matrix框,OK

    (3)线性回归:Analyze>>Regression>>Linear……Dependent(因变量):选入Glu;

    Independent(自变量):选入TC、TG、RI和HbAc1;

    变量筛选方法(Method):Stepwise

    变量筛选方法SPSS提供了强行进入法(Enter)、逐步回归法(Stepwise)、剔除法(Remove)、向后移除法(Backward)以及向前选择法(Forward)。利用区块(Block)可以实现对不同的变量采用不同的筛选办法,将采用同一筛选方法的变量放在一个区块内即可。Enter:不涉及变量筛选,所选自变量全部纳入模型。

    Forward:所有自变量与因变量分别进行简单的线性回归拟合,选出最重要的候选变量(有统计学意义且P值最小的自变量)引入模型,然后在已引入一个自变量的模型中,将剩余的自变量分别引入,找到有统计学意义且P值最小的组合,然后进行下一步的自变量引入,直至剩余的所有自变量均无统计学意义。

    Backward:与Fordward相反,该法首先拟合包含所有自变量的模型,然后依次剔除不重要的变量(P值最大且无统计学意义)

    Stepwise:结合了Forward和Backward法。在逐步引入自变量的同时,考察已引入模型的自变量是否还有统计学意义,如果没有则进行剔除。

    Remove:规定为Remove的自变量从模型中强行剔除,一般与Block连用。

    除了上述方法,还有一种理论上的最佳方法:最优子集法(Best Subset),该法是将所有自变量的可能组合都拟合一遍,然后选出最佳的模型。SPSS中在自动建模(Automatic Linear modeling)中实现。

    Selection Variables(筛选变量):可通过Rule建立筛选条件,满足条件的记录进行回归分析。这跟Date>>Select Cases的功能类似。

    Case Labels:可选中某一变量作为每条记录的标签。

    WLS Weight:选入权重变量,实现加权最小二乘法的回归分析。

    Statistics…对话框:为更好的演示,本例选中所有复选框。回归系数(Regression Coefficient):估计值、置信区间、协方差矩阵。模型拟合检验(Model fit)、R2改变量、描述(Descriptives)、部分相关和偏相关(Part and Partial correlations)、共线性诊断(Collinearity diagnositics)。残差部分:提供Durbin-Watson检验和个案诊断。Durbin-Watson统计量用于检验残差是否存在自相关(独立),个案诊断可用来寻找l离群点。

    Plots…对话框:提供作图选项。绘图可以辅助确认正态性、线性、方差齐性假设,在探测离群值、非观测值及强影响点时也非常有用。除了可以直接利用该对话框进行作图,也可以先生成新的变量,然后利用图形构建器来作图。本例将ZRESID 选入Y,ZPRED选入X,构建散点图进行方差齐性的检验;同时选中Histogram和Normal probability plot进行正态性检验;选中Produce all partial plots进行线性趋势检验。可供选择的变量有DEPENDNT(因变量)、ZPRED(标准化预测值)、ZRESID(标准化残差)、DRESID(删除残差)、ADJPRED(校正的预测值)、SRESID(学生化残差)、SDRESID(学生化删除残差)。利用标准化预测值对标准化残差做散点图可以检查线性和方差齐性,利用学生化残差可以探测离群值。

    标准化残差图(Standardized Residual Plots): Histogram(标准化残差的直方图)、Normal probability plot(标准化残差的正态概率图)。输出含有正态分布曲线的标准化残差的直方图、P-P图,可以查看是否满足正态分布。

    生成所有自变量的偏回归图(Produce all partial plots):偏回归图是每一个自变量与其他自变量回归残差 和 因变量与其他自变量回归残差 的散点图,可以在控制其他因素的影响后考察自变量与因变量的线性趋势。Y•[i] = residuals from regressing Y (the response variable) against all the independent variables except Xi,Xi•[i] = residuals from regressing Xi against the remaining independent variables. SPSS中称为的偏回归图,在其他软件中被称为增加变量图(Added variable plot),如R、STATA,在JMP中略加修正后被称为杠杆图。此图翻译为偏残差图是不恰当的,偏残差图(Partial Residual Plots)也被称为成分残差图(Component plus Residual Plots),它是用某个自变量X与其偏残差做图,此处的偏残差即Y残差,Y残差是在模型不含自变量X的情况下获得的残差。

    Save…对话框:生成新的变量。本例生成标准化预测值、非标准化残差、标准化残差用于线性和方差齐性的诊断,生成Cook距离、杠杆值用于检测异常点。预测值(Predictedvalues):非标准化预测值(Unstandardized,模型对因变量的院原始预测值)、标准化预测值(standardized,预测值用均值和标准差进行标准化,均数为0,标准差为1)、调整的预测值(Adjusted,不考虑当前个体拟合的模型计算的当前记录的预测值)、预测均值的标准误。

    残差(Residuals),可保存各种残差,用于模型的诊断。包括未标准化残差、标准化残差、学生化残差、剔除残差、学生化剔除残差。

    距离(Distance):Mahalanobis、Cook’s、leveragevalue。用于检测数据市场存在高杠杆点和强影响点。马氏距离和杠杆值用于检查数据在X空间是否异常(高杠杆点),杠杆值大于3倍平均杠杆值就应引起重视;库克距离的值越大对回归估计值影响越大。

    影响力统计量:DfBeta(S)(意义为剔除某一观测值引起的回归系数的变化)、StandardizedDfBeta(S)、DfFit(Difference infit,意义为剔除某一观测值所引起预测值的变化)。以上4个统计量值越大越可能是强影响点,一般DfFit超过2可认为是强影响点。Covarianceratio(意义为剔除某一个体值的协方差阵与含有全部观测值的协方差阵的比率)。强影响点是指对统计结果影响较大的点,高杠杆点(X空间上的异常点)和离群点(Y空间上的异常点)都可能成为强影响点。

    预测区间等。可提供预测值均值的可信区间和个体预测值的参考区间。

    Options…对话框:可选择在逐步回归中的纳入和剔除标准,模型是否包含常数项,以及对缺失值的处理方法

    (4)利用残差考察因变量与自变量的线性关系:Graphs>>Chart Bulider

    选择散点图/点图(Scatter/Dot),双击简单散点图(Simple Scatter),将要HbAc1拖入横坐标的X-Axis?框,将新生成的RES_1(非标准化残差)拖入纵坐标的Y-Axis?框,OK。同样,可实现TC对RES_1的散点图。

    (5)高杠杆点和强影响点的考察:对新生成的变量COOl_1(库克距离)和LEV_1(杠杆值)进行降序排列。可使用Data>>Sort Cases…,然后选择要排序的变量进行降序排列;也可直接在要排序的列上单击右键,选择Sort Descending。也可以通过Data>>Select Cases…来直接寻找满足条件的记录。

    结果与解读

    【1】线性趋势考察:右图是在左图的基础上添加了拟合线。可以看出4个变量与Glu基本成线性关系。

    【2】描述统计量:显示各变量的均值、标准差及例数。

    【3】相关系数:输出各变量间的Pearson相关系数和统计检验结果。【2】和【3】同为“统计量…“中“描述“的输出结果。 如果各自间的相关系数过大,提示有多重共线的可能。

    【4】模型纳入和剔除的变量:本例采用的是Stepwise,共建立过两个回归模型,纳入2各变量(HbAc1和TC),默认纳入标准P≤0.5,剔除标准≤0.1。

    【5】模型概要:默认输出模型的一些拟合优度评价指标信息:复相关系数R,决定系数R2,校正决定系数R2adj以及剩余标准差(Std. Error of the Estimate),这些统计量及ANOVA检验表由统计量对话框中的“模型拟合”输出;同时本例在统计量对话框中还选择了R改变量、Durbin-Watson检验,在该表格中一并输出了这两个结果。

    结果显示:最终的模型复相关系数R=0.696,所有自变量于Glu之间的回归关系比较密切;R2=0.484,Glu的总变异中,最终模型中2个自变量可以解释的变异占48.4%;与只纳入HbAc相比,校正决定系数R2adj在增大,剩余标准差减小,说明拟合效果越来越好。纳入新的变量后,R2的改变也有统计学意义。DW=1.589,查DW分布表,界值在1.240-1.556,DW=1.589>1.556,不存在相关性。Durbin-Watson取值0-4,DW=2表示自变量间不存在自相关(即相互独立),0

    【6】方差分析:输出回归模型检验结果,该表格与上一个表格(Model Summary)中默认输出的衡量模型拟合优劣的几个系数都是Statistics…对话框中Descriptives的输出结果。表明最终回归模型F=11.271,P<0.01,至少有一个自变量的回归系数不为0,回归模型有统计学意义。

    【7】系数:输出模型的偏回归系数的估计值,包括非标准系数,标准化系数、以及各个偏回归系数是否为0(是否与因变量存在线性相关)的t检验。由于本例还同时选择了95%CI、部分相关和偏相关、共线性诊断,结果在该表格中一并输出。

    纳入模型的各自变量偏回归系数均不为0(PHbAc1=0.009<0.05;PTC=0.031<0.05),最终回归模型为:Glu=1.310+0.732HbAc1+0.678TC。糖化血红蛋白(HbAc1)每增加1%,血糖(Glu)平均升高0.732mmol/L;总胆固醇(TC)每增加1mmol/L,血糖(Glu)平均升高0.678mmol/L。

    标准化回归系数Beta去掉了不同自变量单位不同的影响,是利用标准化数据标计算而来,标准化数据=(原始数据-均值)/标准差。标准化回归方程常数项为0,标准化回归系数Beta=回归系数β*(自变量X的标准差/因变量Y的标准差),在有统计学意义的前提下,标准化回归系数的绝对值越大,对应自变量对因变量Y的影响越大。其意为固定其他自变量,自变量每改变1个标准差,因变量改变的标准差个数。标准化后的变量均值为0,标准差为1,常数项为0。该例Beta:HbAc1=0.456>0.369=TC,表明糖化血红蛋白(HbAc1)对血糖(Glu)的影响大于总胆固醇(TC)对血糖(Glu)的影响。

    在解释自变量对回归的贡献时,只查看回归系数往往是不够的,相关关系也需要一并考虑。相关系数部分提供了0介相关、偏相关和部分相关系数。0介相关结果等同Pearson相关,与描述(Descriptives)的输出的相关系数表格结果一致。

    偏相关(Partial Correlation)系数是自变量和因变量均剔除其他自变量影响后的相关系数,等同于自变量对其他自变量的回归残差与因变量对其他自变量的回归残差之间的相关系数。偏回归相关系数的平方则表示,去掉其他自变量的影响,自变量可解释的因变量变异的比例【The partial correlation coefficient removes the linear effects of other predictors from both the predictor and the response. This measure equals the correlation between the residuals from regressing the predictor on the other predictors and the residuals from regressing the response on the other predictors. The squared partial correlation corresponds to the proportion of the variance explained relative to the residual variance of the response remaining after removing the effects of the other variables】。本例控制TC的对HbAc1和Glu的影响,HbAc1可以解释(0.501)2=25.1%的血糖变异;控制HbAc1的对TC和Glu的影响,同样TC可解释17.9%的血糖变异。

    部分相关(Part Correlation)是自变量剔除其他自变量的影响后与因变量整体的相关关系,其平方代表的是自变量剔除其他自变量的影响后可解释的总变异的比例【The correlation between the response and the residuals from regressing a predictor on the other predictors is the part correlation. Squaring this value yields a measure of the proportion of variance explained relative to the total variance of response】。本例去除TC对HbAc1的影响,HbAc1剩余部分可以解释血糖17.2%的变异;去除HbAc1对TC的影响,TC剩余部分可以解释血糖11.3%的变异。

    共线性统计量:提供了容差(Tolerance)和方差膨胀因子(VIF),一般容差不小于0.1,VIF(容差的倒数)不大于10可说明自变量不存在共线的情况,本例两个自变量Tolerance=0.828,VIF=1.208,可以认为不存在共线的情况。

    【8】排除的变量:将这些变量进一步纳入现有模型中后的输出结果。TG和RI纳入最终的模型,偏回归系数检验均无统计学意义。

    【9】系数相关:输出相关和协方差矩阵,是各变量间的相关系数和协方差,相关系数和相关系数表格【3】结果一致;协方差表示各个维度偏离其均值的程度,协方差矩阵用于衡量各个变量之间的紧密程度。

    【10】共线性诊断:除了在系数表中输出共线性诊断统计量Tolerance和VIF,共线性诊断还提供了特征根(Elgenvalue)、条件指数(Condition Index)及变异构成(Variance Proportions)。主成分特征根意义为该变量被引入后,可以解释原始变量的个数。如果几个主成分的特征根接近0,则表明自变量高度关联,数据值较小的改变会导致偏回归系数发生较大的变化。条件指数是最大特征根与每个连续特征根比值的平方根,比值>15提示可能存在共线性的问题,>30则表明存在共线性。变异构成(方差比例)是回归模型中各项(包括常数项)变异能被主成分解释的比例,如某主成分对两个或两个以上的自变量贡献均较大(如>0.5),则提示这几个变量存在一定的共线性。

    本例几个指标结果提示最终进入模型的两个自变量基本不存在共线性。

    【11】个案诊断:Statistics…对话框中个案诊断(Casewise Diagnostics)的输出结果,主要用来查看有无离群值。在个案诊断中可以有两种输出形式,一种是显示所有记录的编号、标准残差、观测值、期望值和残差,另外一种只显示离群值的基本信息,离群值默认以超过3个标准差的残差为标准。本例无离群点,为显示该功能及输出样式,将异常点改为超过2个标准差的残差,结果显示如下:第13条记录满足此条件被显示出来。

    【12】残差统计量:Durbin-Watson检验输出的预测值、残差、标准预测值及标准残差,该分析输出的检验统计量DW值在模型概要表中显示。马氏距离、库克距离及杠杆值得保存可输出更多的残差统计量。

    【13】残差正态分布考察:正方图和P-P显示残差基本满足正态分布。

    【14】残差分析:正常情况下,残差服从均数为0,方差为δ2的正态分布,而标准化残差服从均数为0,方差为1 的正态分布。①离群值考察:超过3个标准差的残差为离群值,结果可以在残差图上直观的显示出来,当然在个案分析中也有输出;②方差齐性考察:以标准化预测值对标准残差作散点图,此图可在“绘图”对话框中质结构建,也可以先在“保存”对话框中保存需要的两个变量,然后用图形构建器构建。也可以构建各个自变量对标准残差作散点图。如果标准化残差随机较均匀的散布在0横线上下两侧,可认为方差基本相等,但如果标准残差随标准预测值增大出现扩散或收敛,则方差可能不齐。③线性关系考察:如果标准残差呈现一定的曲线变化,则因变量与自变量可能不是线性关系或者残差不独立。

    本例无离群值,但可能存在一高杠杆点;不论因变量预测值如何变化,标准化残差随机分布在残差为0的横线上下,不存在异常点,基本保持稳定,可认为方差齐性;HbAc1和TC的残差图显示,残差基本随机分布在0水平线的两侧,没有明显偏正或偏负的趋势,说明HbAc1、TC和Glu呈线性关系。但是HbAc1的残差散点图分布不是十分理想,隐约有一个先下后上的趋势。

    【15】偏回归图再次考察线性趋势:普通散点图虽然可以考察线性趋势,但当存在混杂因素的印象时,可能会出现一些偏差。偏回归图是在校正了其他因素的影响后自变量与因变量的关系,能够更准确的判断自变量与因变量是否为线性。TC和HbAc1的偏回归图如下:

    偏回归图添加拟合线、95%置信曲线及Y残差=0后如下图:偏回图中散点大致呈线性趋势,表明两个自变量在去除其他因素的影响后与Glu均呈直线关系;TC和HbAc1的95%的置信曲线均跨过y=0水平线,表明拟合线具有非零斜率,向模型中添加这两个变量可帮助解释更多的变异。

    【16】异常点考察:①离群点(因变量角度的异常值):一般以超过3个标准差的残差为标准,【11】个案诊断表并未显示,表明本例无离群值。【11】表只是为了更好地演示将标准改为2个标准差而出现的表;②高杠杆点(自变量角度异常点):杠杆值一般<0.2,>0.5很可能是强杠杆点,0.2-0.5之间应引起怀疑。杠杆值降序排序显示个案号为25的记录LEV=0.52,可能为强杠杆点;③强影响点:库克距离的值越大对回归估计值影响越大,库克距离>0.5,可能为强影响点,>1严重怀疑是强影响点。库克距离值降序排序显示个案号为25的记录COO=2.03,可能为强影响点。

    出现强影响点,应充分考虑该记录产生的原因,是人为的录入错误,还是该记录跟其他记录的纳入标准明显不一样,如此,则需要删除该记录。如果都不是,或者尝试增加样本量,或者进行稳健回归,比如加权最小二乘法,可以先用普通最小二乘法做多重线性回归,将残差存为新变量,然后把这个残差进行加权。

    后记:

    (1)当然,研究者根据专业知识和经验,判定总胆固醇、甘油三酯、胰岛素和糖化血红蛋白都会对血糖有影响,可以将所有自变量直接纳入模型而不是筛选自变量。此时变量筛选办法为Enter,最终回归方程为:Glu=5.943+0.142TC+0.351TG-0.271RI+0.638HbAc1。回归系数的解释及其他结果可参照逐步回归结果。

    (2)多元线性回归方程默认的变量纳入和剔除标准分别为P<0.05和P<0.1,这个标准可以在Options…对话框中进行修改,本例样本量不大,α值可以适当放宽,但要α入≤α出。如本例纳入和剔除标准分别改为0.1和0.15,纳入变量为TG、RI和HbAc1,最终回归方程变为::Glu=6.500+0.402TG-0.287RI+0.663HbAc1。

    实际上这个结果与最优子集筛选结果一致。最优子集选择在SPSS中可以通过自动建模(Automatic Linear modeling)实现

    Analyze>>Regression>> Automatic Linear modeling…

    Fields>>Target:Glu;Predictors:TC、TG、RI、HbAc1;

    Build Options>>Objectives:Creat astandard model;

    >>Basics:本例使用原始数据不进行处理,去掉自动准备数据的复选框;

    >>Model Selection:模型选择方法:最优子集;

    其他项为默认选项

    根据AICC标准选择的结果如下:

    当然,SPSS中默认进行对数据进行前处理,比如去掉离群值等,还有诸多其他一些模型拟合信息,本例不再做演示。JMP给出的所有可能模型结果如下。当模型纳入TG、RI和HbAc1时,R2最大,剩余标准差最小,AIC和BIC值最小,拟合的模型最优,各变量系数与SPSS结果完全一致。

    (3)关于交互作用的一些探讨。

    模型中纳入了TG(甘油三酯)、RI(胰岛素)以及HbAc1(糖化血红蛋白),专业上考虑糖化血红蛋白的作用大小可能与胰岛素的取值有关,即两者可能有交互作用,可以先构建两者的乘积项,然后对其进行检验。

    构建交互项:Transform>>Computer Variable…

    Target Variable:RHb(新构建的乘积项名称)

    Numeric Expression:RI*HbAc1

    回归分析:Analyze>>Regression>>Linear…Dependent(因变量):选入Glu;

    Independent(自变量):选入TG、RI、HbAc1、RHb;

    变量筛选方法(Method):Enter

    经检验,模型F=13.862,P<0.01,模型有统计学意义,回归方程Glu=-0.790+0.365TG+1.227RI+1.510HbAc1-0.179RHb。交互作用RHb显著(P=0.006),我们可能会立即得出这样一个结论:糖尿病患者体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。

    但是我们会马上发现这个模型也有问题!!是的,胰岛素每增加1uU/ml,血糖升高1.227mmol/L,这显然与实际不符,专业上胰岛素与血糖呈负相关,所以在构建的含有交互项的多重线性回归模型很可能存在多重共线的问题,统计学检验也证实了这一点(RI和交互项RHb的Tolerance均<0.1,VIF均>10)。

    对此问题,经管之家论坛有人给出了如下解决方案(https://bbs.pinggu.org/thread-6379009-1-1.html):交互项的加入可能导致多重共线,多重共线性可能导致交互项结果估计不准确。在交互项中解决多重共线性的一个方法是:变量去中心化后再回归,即将自变量减去他们的均值再回归,主要结果如下:

    END

    转自个人微信公众号【Memo_Cleon】的统计学习笔记:多元线性回归。

    展开全文
  • 当只考察一个自变量对因变量的影响时,我们称之为简单一元线性回归,如果要多考察一些自变量,此时许多人习惯性将之称为多元线性回归,统计学上建议称之为多重线性回归,避免和多元统计方法冲突。案例背景介绍这是...
  • 回归分析能够解决的问题:根据父母的身高能否预测孩子的身高?根据行走时的步态参数能否预测老人跌倒概率?哪些因素对标枪成绩影响较大?导致儿童肥胖的主要因素是什么?简单线性回归模型用于分析1个自变量对1个因...
  • 多重线性回归分析的四大纪律三项注意 鉴于多重线性回归已经到了滥用的程度,特总结一下在使用线性回归时需要注意的问题,总结为四大纪律加三项注意。 四大纪律 四大纪律之一: 自变量与因变量之间要存在线性关系...
  • 回归分析能够解决的问题:根据父母的身高能否预测孩子的身高?根据行走时的步态参数能否预测老人跌倒概率?哪些因素对标枪成绩影响较大?导致儿童肥胖的主要因素是什么?简单线性回归模型用于分析1个自变量对1个因...
  • 探索多个自变量对1个因变量的影响时,可以采用:多重线性回归分析。适用条件与简单线性回归分析类似,包括:线性趋势、独立性、正态性、方差齐性。但是对样本量有要求,样本量太少时,可能会出现检验效能不足,回归...
  • 多重线性回归(multiple linear regression)是研究一个连续型因变量和多个自变量之间线性关系的统计学分析方法。多重线性回归的功能:1)确定某个因素是否是因变量 的影响因素,以及该因素对 的作用大小。2)用若干...
  • 回归分析简介Happy Halloween在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量...按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。下面是回归分析中最基础的简单线...
  • 提供之前的笔记:回归分析|笔记整理(1)——引入,一元线性回归(上)回归分析|笔记整理(2)——一元线性回归(下)回归分析|笔记整理(3)——多元正态分布理论(上)回归分析|笔记整理(4)——多元正态分布理论...
  • 上篇文章《简单而强大的线性回归详解》(点击跳转)详细介绍了线性回归分析方程、损失方程及求解、模型评估指标等内容,其中在推导多元线性回归使用最小二乘法的求解原理时,对损失函数求导得到参数向量 的方程式上式...
  • 一元线性回归是特殊的多重线性回归,多重线性回归分析步骤和一元线性回归一样:回归分析的步骤:1.根据预测目标,确定自变量和因变量。2.绘制散点图,确定回归模型类型。3.估计模型参数,建立回归模型。4.对回归模型...
  • 多重线性回归(Multiple Linear Regression) 研究一个因变量与多个自变量间线性关系的方法 在实际工作中,因变量的变化往往受几个重要因素的影响,此时就需要用2个或2个以上的影响因素作为自变量来解释因变量的...
  • 我们推送了“多重线性回归的SPSS详细操作步骤”,介绍了在应用多重线性回归模型之前所需要满足的8个适用条件,简单概括如下:(1) 自变量与因变量存在线性关系;(2) 残差间相互独立;(3) 残差服从正态分布;(4) 残差...
  • 1.什么是残差?残差即因变量的观测值Yi与利用回归模型求出的预测值^ Y之间的差值,反映了利用回归模型进行预测引起的误差。...Step1:因为多重线性回归要求因变量符合正态分布,因此先利用直方图检验因变...
  • 一元线性回归是特殊的多重线性回归,多重线性回归分析步骤和一元线性回归一样: 回归分析的步骤: 根据预测目标,确定自变量和因变量。 绘制散点图,确定回归模型类型。 估计模型参数,建立回归模型。 对回归模型...
  • 一个简单的线性回归...回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线...
  • 线性回归分析则是基于最小二乘法原理产生的最优线性无偏估计方法,可以研究一个因变量与一个或多个自变量之间是否存在某种线性关系,按照因变量的多少可以分为简单线性回归和多重线性回归。模型简介:ȳ=a+b1*X1+b2*...
  • 回归分析(regression analysis )是研究一个变量...常见的回归分析有线性回归、非线性回归、多重线性回归、Logistic回归、Probit回归分析等等。本节主要讲解简单线性回归,即研究变量Y随变量X变化的分析,不考虑多个...
  • 【本章免费,专栏链接请点击文末左下角“阅读原文”】前9章,我分别讲述了回归分析及与回分析相关的概念,一元、多元线性回归分析的公式与计算方法,以及多重共线性、回归方程的精度、显著性验证和置信区间等进行...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 509
精华内容 203
关键字:

多重线性回归分析