精华内容
下载资源
问答
  • 多元线性逐步回归分析结果
    千次阅读
    2021-08-07 20:34:33

    多元线性回归分析

    回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
    常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。本讲主要学习线性回归。

    多元线性回归分析

    • 相关性
      通过回归分析,研究相关关。相关性不等于因果性
    • X
      X是用来解释Y的相关变量,所以X被称为自变量。
    • Y
      Y常常是我们需要研究的那个核心变量,称为因变量。

    数据的分类

    数据类型解释举例建模方法
    横截面数据在某一时点收集的不同对象的数据我们自己发放问卷得到的数据、全国各省份2018年GDP的数据、大一新生今年体测的得到的数据多元线性回归
    时间序列数据对同一对象在不同时间连续观察所取得的数据从出生到现在,你的体重的数据(每年生日称一次)、中国历年来GDP的数据、在某地方每隔一小时测得的温度数据移动平均、指数平滑、ARIMA、GARCH、VAR、协积
    面板数据横截面数据与时间序列数据综合起来的一种数据资源2008‐2018年,我国各省份GDP的数据固定效应和随机效应、静态面板和动态面板

    回归分析的分类

    类型模型Y的特点例子
    线性回归OLS、GLS(最小二乘)连续数值型变量GDP、产量、收入
    0-1回归logistic回归二值变量是否违约、是否得病
    定序回归probit定序回归定序变量等级评定(优良差)
    计数回归泊松回归(泊松分布)计数变量每分钟车流量
    生存回归Cox等比例风险回归生存变量(截断数据)企业、产品的寿命

    一元线性回归

    • 回归模型
      只涉及一个自变量的回归称为一元回归,描述两个具有线性关系的变量之间关系的方程称为回归模型,一元线性回归模型可表示为:
      y i = β 0 + β 1 x i + μ i y_i=\beta_0+\beta_1x_i+\mu_i yi=β0+β1xi+μi

    其中 μ \mu μ是被称为误差项的随机变量,反映了变量线性关系外的随机因素对y的影响。

    上式称为理论回归模型,对它有以下假定:

    • y与x之间具有线性关系;
    • x是非随机的,在重复抽样中,x的取值是固定的;
      以上2个假定表明,对于任何一个给定的x的值,y的取值都对应着一个分布,代表一条直线。但由于单个y是从y的分布中抽出来的,可能不在这条直线上,因此,必须包含一个误差项。
    • 误差项是一个期望值为0的随机变量,因此,对于一个给定的x值,y的期望 E ( y ) = β 0 + β 2 x E(y)=\beta_0+\beta_2x E(y)=β0+β2x值。
      • 对于所有的x, μ \mu μ的方差 σ \sigma σ都相同,这意味着对于一个给定的x值,y的方差都等于 σ 2 \sigma^2 σ2
      • 误差项是一个服从正态分布的随机变量,且独立。一个特定的x值所对应的与其他x值对应的不相关。对于任何一个给定的x值,y都服从期望值为 β 0 + β 1 x \beta_0+\beta_1x β0+β1x方差为 σ 2 \sigma^2 σ2的正态分布,不同的x值,y的期望值不同,但方差相同

    扰动项需要满足的条件
    y i = β 0 + β 1 x i + μ i y_i=\beta_0+\beta_1x_i+\mu_i yi=β0+β1xi+μi
    满足球型扰动项,即满足“同方差”和“无自相关”两个条件。
    在这里插入图片描述
    这里注意,横截面数据容易出现异方差的问题,时间序列数据容易出现自相关的问题。

    • 回归方程
      描述y的期望值如何依赖自变量x的方程称为回归方程,一元线性回归方程(误差项的期望值为0)的形式为:
      E ( y ) = β 0 + β 2 x E(y)=β_0+β_2x E(y)=β0+β2x
    • 估计的回归方程
      总体回归参数 β 0 β_0 β0 β 1 β_1 β1是未知的,需要用样本数据去估计。一元线性回归的估计的回归方程形式为:

    y ^ = β ^ 0 + β ^ 1 x \hat y=\hat\beta_0+\hat\beta_1x y^=β^0+β^1x

    • 对于“线性”的理解
      不要求严格的线性,只要有线性的形式即可。
      如下,都属于“线性”。
      在这里插入图片描述

    内生性的探究

    误差 μ \mu μ包含了所有与 y y y相关,但未添加到回归模型中的变量。如果这些变量和我们已经添加的自变量相关,则存在内生性。

    蒙特卡罗模拟

    %% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差
    times = 300;  % 蒙特卡洛的次数
    R = zeros(times,1);  % 用来储存扰动项u和x1的相关系数
    K = zeros(times,1);  % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数
    for i = 1: times
        n = 30;  % 样本数据量为n
        x1 = -10+rand(n,1)*20;   % x1在-1010上均匀分布,大小为30*1
        u1 = normrnd(0,5,n,1) - rand(n,1);  % 随机生成一组随机数
        x2 = 0.3*x1 + u1;   % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数
        % 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。
        u = normrnd(0,1,n,1);  % 扰动项u服从标准正态分布
        y = 0.5 + 2 * x1 + 5 * x2 + u ;  % 构造y
        k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的k
        K(i) = k;
        u = 5 * x2 + u;  % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2
        r = corrcoef(x1,u);  % 2*2的相关系数矩阵
        R(i) = r(2,1);
    end
    plot(R,K,'*')
    xlabel("x_1和u'的相关系数")
    
    ylabel("k的估计值")
    

    在这里插入图片描述
    表明x与 μ \mu μ关系越大,内生性越强。

    核心解释变量和控制变量

    无内生性(no endogeneity)要求所有解释变量均与扰动项不相关,这个条件一般很难达到,因此我们对于变量作以下两种分类
    核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
    控制变量:我们可能对于这些变量本身并无太大兴趣。而之所以把它们也放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。

    在实际应用中,我们只要保证核心解释变量与𝝁不相关即可。

    回归系数的解释

    一元线性回归

    y = a + b x + μ y=a+bx+\mu y=a+bx+μ
    β 0 ^ \hat{\beta_0} β0^ : 一般不考虑(所有变量都是0才有意义)

    β m ^ ( m = 1 , 2... k ) \hat{\beta_m}(m=1,2...k) βm^(m=1,2...k) :在控制了其他变量的情况下, x m i x_{mi} xmi每增加一个单位,对 y i y_i yi造成的变化。

    半对数模型1

    y = a + b l n x + μ y=a+blnx+\mu y=a+blnx+μ

    什么时候取对数

    • 与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
    • 以年度量的变量,如受教育年限、工作经历等通常不取对数;
    • 比例变量,如失业率、参与率等,两者均可;
    • 变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);

    取对数的好处

    • 减弱数据的异方差性
    • 如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布
    • 模型形式的需要,让模型具有经济学意义
      x每增加1%,y平均变化b/100个单位。

    半对数模型2

    l n y = a + b x + μ lny=a+bx+\mu lny=a+bx+μ
    x每增加1个单位,y平均变化(100b)%。

    双对数模型

    l n y = a + b l r n x + μ lny=a+blrnx+\mu lny=a+blrnx+μ
    x每增加1%,y平均变化b%

    虚拟变量

    • 如果自变量中有定性变量,例如性别、地域等,在回归中转化为0-1表示
    • 为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1。

    数据的描述性统计

    stata 实现

    • 定量数据summarize 变量1 变量2 ... 变量n
    • 定性数据tabulate 变量名,gen(A)
      返回对应的这个变量的频率分布表,并生成对应的虚拟变量(以A开头)。gen以后的不写也可以
      在这里插入图片描述
      • Freq 频数
      • Percent 频率
      • Cum 累积频率

    Excel实现

    在这里插入图片描述

    回归实现

    STATA语句 : regress y x1 x2 … xk

    • 默认使用的OLS:普通最小二乘估计法)
    • 如果假如虚拟变量 STATA会自动检测数据的完全多重共线性
    • 不带虚拟变量的
      在这里插入图片描述
      • Model + SS :SSR回归平方和
      • Residual +SS : SSE误差平方和
      • Total + SS :SST=SSR+SSE
      • df : 自由度
      • MS :ss/df
      • F&&Prob>F : 联合显著性检验。 H 0 : β 1 = β 2 = . . . β k = 0 H_0 : \beta_1=\beta_2=...\beta_k=0 H0:β1=β2=...βk=0
      • R 2 a n d a d j R 2 R^2 and adj R^2 R2andadjR2 :一般使用调整后的
      • _cons : 常数项
      • H 0 : β 1 = β 2 = . . . β k = 0 H_0 : \beta_1=\beta_2=...\beta_k=0 H0:β1=β2=...βk=0
    • 带虚拟变量的
      在这里插入图片描述
      避免多重共线性,把一个固定(为0), 其余的数值是与它作比较。

    拟合优度 R 2 R^2 R2较低怎么办

    • 回归分为解释型回归和预测型回归。
      预测型回归一般才会更看重 R 2 R^2 R2。解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。
    • 可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
    • 数据中可能有存在异常值或者数据的分布极度不均匀。
    • 我们引入的自变量越多,拟合优度会变大。但我们倾向于使用调整后的拟合优度,如果新引入的自变量对SSE的减少程度特别少,那么调整后的拟合优度反而会减小。

    标准化回归

    标准化回归系数

    为了去除量纲的影响,我们可使用标准化回归系数
    对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,计算得到新的变量值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化回归系数。标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显著的回归系数

    Stata标准化回归命令

    regress y x1 x2 … xk,beta
    bata可简写为b

    • 常数项没有标准化回归系数
      常数的均值是其本身,经过标准化后变成了0。
      -除了多了标准化回归系数 ,和之前的回归结果完全相同。
      对数据进行标准化处理不会影响回归系数的标准误,也不会影响显著性。

    异方差

    • 危害
      当扰动项存在异方差时 :
    • OLS估计出来的回归系数是无偏、一致的。
    • 假设检验无法使用(构造的统计量失效了)。
    • OLS估计量不再是最优线性无偏估计量(BLUE)。
    • 检验(by stata)
    \\在回归结束后运行命令:
    rvfplot \\(画残差与拟合值的散点图)
    rvpplot x \\(画残差与自变量x的散点图)
    estat hettest ,rhs iid\\异方差bp检验
    


    波动比较大,表示存在异方差

    • BP检验
      • 原假设 : 扰动项不存在异方差
      • 备选假设 :扰动项存在异方差
    • 解决方案
    1. 使用OLS + 稳健的标准误
      如果发现存在异方差,一 种处理方法是,仍然进行OLS 回归,但使用稳健标准误。只要样本容量较大,即使在异方差的情况下,若使用稳健标准误,则所 有参数估计、假设检验均可照常进行。
      regress y x1 x2 … xk,robust
      在这里插入图片描述

    Stock and Watson (2011)推荐,在大多数情况下应该使用“OLS + 稳健标准误”。
    2. 广义最小二乘估计法GLS(有缺陷)

    原理:方差较小的数据包含的信息较多,我们可以给予信息量大的数据更大的权重(即方差较小的数据给予更大的权重)

    多重共线性

    多重线性回归,也即通过 X 1 X_1 X1 X 2 X_2 X2等多个自变量(解释变量)来构建线性回归模型预测因变量 Y Y Y。在多重线性回归中,当多个自变量之间存在 精确/高度 相关关系时,会导致回归系数难以估计/估计不准,这时就出现了共线性问题。

    • 检验多重共线性
      VIF,VarianceInflation Factor,方差膨胀因子。VIF指的是解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比,可以反映多重共线性导致的方差的增加程度
      V I F m VIF_m VIFm越大,说明第 m m m个变量和其他变量的相关性越大,回归模型的 V I F = m a x { V I F 1 , V I F 2 , . . . , V I F K } VIF=max\{VIF_1,VIF_2,...,VIF_K\} VIF=max{VIF1,VIF2,...,VIFK}
      一般 V I F > 10 VIF>10 VIF>10认为回归方程存在严重的多重共线性。
    \\Stata计算各自变量VIF的命令(在回归结束后使用):
    estat vif
    
    • 如果不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,则通常可以 不必理会多重共线性(假设你的整个方程是显著的)。这是因为,多重共线性的主要后果是使得对单个变量的贡献估计不准,但所有变量的整体效应仍可以较准确地估计。
    • 如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著;如果没有多重共线性,则只会更加显著。
    • 如果多重共线性影响到所关心变量的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除,因为可能会有内生性的影响),或对模型设定进行修改。
    • 逐步回归分析
      • 向前逐步回归Forward selection:将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。
        (缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了,但是,并没有将其及时从回归方程中剔除掉。)
      • 向后逐步回归Backward elimination:与向前逐步回归相反,先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的变异是否有显著变化,之后将最没有解释力的那个自变量剔除;此过程不断迭代,直到没有自变量符合剔除的条件。
        (缺点:一开始把全部变量都引入回归方程,这样计算量比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算。当然这个缺点随着现在计算机的能力的提升,已经变得不算问题了)
      • Stata实现逐步回归法
      \\向前逐步回归Forward selection:
      stepwise regress y x1 x2 … xk, pe(#1)
      
      \\向后逐步回归Backward elimination:
      stepwise regress y x1 x2 … xk, pr(#2)
      
      
      • pe(#1) specifies the significance level for addition to the model; terms with p<#1 are eligible for addition(显著才加入模型中).
      • pr(#2) specifies the significance level for removal from the model; terms with p>= #2 are eligible for removal(不显著就剔除出模型)
    • 如果你筛选后的变量仍很多,可以减小#1或者#2;如果筛选后的变量太少了,可以增加#1或者#2。
    • x 1 x 2 … x k x_1 x_2 … x_k x1x2xk之间不能有完全多重共线性(和regress不同哦)
    • 可以在后面再加参数b和r,即标准化回归系数或稳健标准误
      -向前逐步回归和向后逐步回归的结果可能不同。
    • 不要轻易使用逐步回归分析,因为剔除了自变量后很有可能会产生新的问题,例如内生性问题。
    更多相关内容
  • 通过对可能影响处理耗时的各个特征数据及其耗时进行多元线性回归训练,后根据待预测特征数据来估计耗时
  • 原始数据在这里 1.观察数据 首先,用Pandas打开数据,并进行观察。 import numpy import pandas as pd import matplotlib.pyplot as plt ...我们的问题是得到一个线性的关系,对应PE是样本输出,而AT/V/
  • 点击分析->回归->线性会出来如图 选择自变量,因变量。点击左侧然后点击即可选择变量并将它添加到自变量、因变量。点击统计,需要额外勾选共线性诊断和然后点击继续,点击设置成如图 。解释:----------------------...

    点击分析->回归->线性会出来如图

     选择自变量,因变量。点击左侧然后点击即可选择变量并将它添加到自变量、因变量。

    点击统计,需要额外勾选共线性诊断和然后点击继续,点击

    设置成如图 。

    解释:----------------------------------------------------------------------------

    起到检验残差是否独立的左右

     检验自变量间是否存在共线性

    绘制残差图,x标准化预测值,Y残差。

    --------------------------------------------------------------------------------------------------------------

    点击确定

     出现

     注意:就是,值越接近2越相互独立。

    残差独立正态。

    点越接近越落在直线上表明越正态分布。

    在0上下随机分布,没有很多的离群值,没有趋势,残差稳定。

    Sig(显著性)<0.001表明结果很好

    R方越接近1越好

    为多元线性回归回归方程y=-33.960+6.199X菌盖厚度+.....

    表示自变量对因变量的影响程度,数字越大表示影响程度越大。 

    多重共线性判断方法:

    A.

    容差<0.2表述存在多重共线性,VIF(方差膨胀系数)为:1/容差,一半>5表示存在多重共线性,这个根据学科不同,值也有变化。

    B.

     特征值那一栏,如果提取的多个主成分特征值相对集中在某一个或几个主成分上,其他主成分趋于0,就存在多重共线性,一般条件索引>30就存在多重共线性。

    如果一个主成分同时在多个自变量上有较大方差比例,如3,4,5就有多重共线性.

    有多重共线性多元线性回归不准确。

     解决方法:逐步回归分析

    方法那一栏改成,其它的不发生改变。

    显著性水平在这设置:

     注意:

     看清楚,常量要排除,多重共线性看自变量

     

     所以这个不存在多重共线性。

      原学习视频:多元线性回归+逐步回归

    标准系数就是直接通径系数,比较需要看绝对值。

    展开全文
  • 基于王斌会《多元统计分析及R语言建模》第4章第4节逐步回归。主要介绍回归变量的选择方法,涉及变量选择准则,逐步回归分析的步骤,以及算例。
  • 基于王斌会《多元统计分析及R语言建模》第4章第4节逐步回归。主要介绍回归变量的选择方法,涉及变量选择准则,逐步回归分析的步骤,以及算例。
  • 当影响因变量的因素是多个时候,这种一个变量同时与多个变量的回归问题就是多元回归,分为:多元线性回归和多元非线性回归。这里直说多元线性回归。对比一元线性回归:1.1多元回归模型:1.2多元回归方程1.3估计的...

    当影响因变量的因素是多个时候,这种一个变量同时与多个变量的回归问题就是多元回归,分为:多元线性回归和多元非线性回归。这里直说多元线性回归。对比一元线性回归:

    1.1多元回归模型:

    1.2多元回归方程

    1.3估计的多元回归方程

    2.1**对参数的最小二乘法估计:** 和一元线性回归中提到的最小二乘法估计一样、这不过这里的求导变量多了点、原理是一样的、这里需要借助计算机求导、就不写了。

    3 回归方程的拟合优度:

    3.1

    多重判定系数:(Multiple coefficient of determination)

    注解:

    (1

    )对于多重判定系数有一点特别重要的需要说明:自变量个数的增加将影响到因变量中被估计的回归方程所解释的变量数量。当增加自变量时,会使预测误差变得较小,从而减小残差平方和SSE。自然就会是SSR变大。自然就会是R2变大。这就会引发一个问题。如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R2的值也会变大。因此为了避免这个问题。提出了调整的多种判定系数(adjusted

    multiple coefficient of

    determination):

    R2a同时考虑了样本量(n)和模型中自变量的个数(k)的影响,这就使得R2a的值永远小于R2,而且R2a的值不会因为模型中自变量的个数增多而逐渐接近于1. (2

    )R2的平方根成为多重相关系数,也称为复相关系数,它度量了因变量同k个自变量的相关程度。 3.2 估计标准误差

    4. 显著性检验

    在此重点说明,在一元线性回归中,线性关系的检验(F检验)和回归系数的检验(t检验)是等价的。

    但是在多元回归中,线性关系的检验主要是检验因变量同多个自变量线性关系是否显著,在k个自变量中,只要有一个自变量与因变量的线性关系显著,F检验就能通过,但这不一定意味着每个自变量与因变量的关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验,它主要用于检验每个自变量对因变量的影响是否都显著。如果某个自变量没有通过检验,就意味着这个自变量对因变量的影响不显著,也许就没有必要将这个自变量放进回归模型中。 4.1 线性关系的检验

    步骤: (1):提出假设

    (2):计算检验的统计量F.

    (3):作出统计决策。 4.2 线性关系的检验

    步骤: (1):提出假设

    (2):计算检验的统计量F.

    (3):作出统计决策。

    5.1 多重共线性

    多重共线性:当回归模型中两个或两个以上的变量彼此相关时,则称回归模型中存在多重共线性。 多重共线性的判别:

    (1)模型中中各对自变量之间显著相关 (2)当模型的线性关系检验(F检验)显著时,几乎所有的回归系数βi的t检验却不显著。 (3)回归系数的正负号与预期的相反。 (4)容忍度(tolerance) 与 方差扩大因子(variance inflation factor,

    VIF). 容忍度:某个变量的容忍度等于 1

    减去该自变量为因变量而其他k−1个自变量为预测变量时所得到的线性回归模型的判定系数。即1−R2i。

    容忍度越小,多重共线性越严重。通常认为 容忍度小于 0.1 时,存在严重的多重共线性。 方差扩大因子:容忍度的倒数。 因此,VIF越大,多重共线性越严重,一般认为VIF的值大于10时,存在严重的多重共线性。

    5.2 多重共线性的处理

    常见的两种办法: (1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。 (2)如果要在模型中保留所有的自变量,那么应该: (2.1)避免根据t统计量对单个参数β进行检验, (2.2)对因变量y值的推断(预测和估计)限定在自变量样本值的范围内。

    5.3选择变量避免共线性的几种方式,

    在建立回归模型时,我们总是希望用最少的变量来说明问题,选择自变量的原则通常是对统计量进行显著性检验,检验的根据是:将一个或一个以上的自变量引入回归模型中时,是否使残差平方和(SSE)显著减少,如果增加一个自变量使残差平方和(SSE)显著减少,则说明有必要将这个变量引入回归模型中,否则,没有必要将这个变量引入回归模型中。确定在模型中引入自变量xi是否使残差平方和(SSE)显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定在模型中增加一个自变量,还是从模型中剔除一个自变量。 变量选择方式:

    5.3.1 向前选择;

    第一步:

    对k个自变量分别与因变量y的一元线性回归模型,共有k个,然后找到F统计量的值最大的模型及其自变量xi并将其首先引入模型。 第二步:

    在已经引入模型的xi的基础上,再分别拟合xi与模型外的k−1个自变量的线性回归模型,挑选出F值最大的含有两个自变量的模型,

    依次循环、直到增加自变量不能导致SSE显著增加为止, 5.3.2向后剔除

    第一步:先对所有的自变量进行线性回归模型。然后考察p

    第二步:考察p−1个再去掉一个自变量的模型,使模型的SSE值减小最少的自变量被挑选出来从模型中剔除,直到剔除一个自变量不会使SSE值显著减小为止,这时,模型中的所剩自变量自然都是显著的。 5.3.3逐步回归

    是上面两个的结合、考虑的比较全,以后就用这个就可以。

    具体的分析过程、咱们以spss的多元回归分析结果为例。

    展开全文
  • 多元线性回归结果怎么看?

    千次阅读 2022-04-26 17:25:07
    自变量为2个及以上时,称为多元线性回归。例如:研究吸烟、喝酒、久坐对高血压患病的影响关系等。 二、SPSSAU操作 SPSSAU左侧仪表盘“通用方法”→“线性回归”; 三、线性回归的一般步骤 回归分析用于研究X...

    一、研究场景

    回归分析实质上就是研究一个或多个自变量X对一个因变量Y(定量数据)的影响关系情况。当自变量为1个时,是一元线性回归,又称作简单线性回归;自变量为2个及以上时,称为多元线性回归。例如:研究吸烟、喝酒、久坐对高血压患病的影响关系等。

    二、SPSSAU操作

    SPSSAU左侧仪表盘“通用方法”→“线性回归”;

    三、线性回归的一般步骤

    回归分析用于研究X(定量或定类)对Y(定量)的影响关系,是否有影响关系,影响方向及影响程度情况如何;
    第一:首先分析模型拟合情况,即通过R方值分析模型拟合情况,以及可对VIF值进行分析,判断模型是否存在共线性问题【共线性问题可使用岭回归或者逐步回归进行解决】;
    第二:写出模型公式(可选);
    第三:分析X的显著性;如果呈现出显著性(p值小于0.05或0.01);则说明X对Y有影响关系,接着具体分析影响关系方向;
    第四:结合回归系数B值,对比分析X对Y的影响程度(可选);
    第五:对分析进行总结。
    回归分析之前,可使用箱盒图查看是否有异常数据,或使用散点图直观展示X和Y之间的关联关系;回归分析之后,可使用正态图观察和展示保存的残差值正态性情况;或使用散点图观察和展示回归模型异方差情况【残差与X间的散点完全没有关系则无异方差】。

    线性回归分析思路总结!简单易懂又全面!

    四、SPSSAU结果与指标解读

    1.线性回归分析结果

    计算:

    (1)VIF(方差膨胀因子)

      对于VIF说明:其值介于1~之间。其值越大,自变量之间存在共线性的可能越大;

    (2)R方

     

    它是判断线性回归直线拟合优度的重要指标,表明决定系数等于回归平方和在总平方和中所占比率,体现了回归模型所解释的因变量变异的百分比;例:R2=0.775,说明变量y的变异中有77.5%是由变量x引起的,R2=1,表明因变量与自变量成函数关系。

    (3)调整R方

    其中,k为自变量的个数;n为观测项目。自变量数越多,与R2的差值越大;例: 

     

    (4)F值

    参考下方ANOVA表格(中间过程)

    F=回归均方/残差均方;0.254/0.237=1.068

    从上表可知,将价格,性能,品牌偏好作为自变量,而将笔记本是否购买作为因变量进行线性回归分析,从上表可以看出,模型公式为:笔记本是否购买=0.588 + 0.033*价格-0.116*性能 + 0.061*品牌偏好,模型R方值为0.032,意味着价格,性能,品牌偏好可以解释笔记本是否购买的3.2%变化原因。对模型进行F检验时发现模型并没有通过F检验(F=1.068, p=0.367>0.05),也即说明价格,性能,品牌偏好并不会对笔记本是否购买产生影响关系,因而不能具体分析自变量对于因变量的影响关系,分析结束。

    2.模型汇总(中间过程)

    补充说明:一般对于时间序列分析才会考虑DW值:

    1. 当残差与自变量互为独立时,DW≈2;
    2. 当相邻两点的残差为正相关时,DW<2;
    3. 当相邻两点的残差为负相关时,DW>2;

    3.ANOVA表格(中间过程)

    F=回归均方/残差均方;0.254/0.237=1.068;

    对模型进行F检验时发现模型并没有通过F检验(F=1.068,p=0.367>0.05),也即说明价格,性能,品牌偏好并不会对笔记本是否购买产生影响关系,因而不能具体分析自变量对于因变量的影响关系。

    4.回归系数(中间过程)

    95%CI:是指由样本统计量所构造的总体参数的估计区间(置信区间)。

    补充说明:SPSSAU还提供了coefPlot、预测模型等。例如下图:

    五、疑难解惑

    1.回归分析缺少Y?

    回归分析是研究X对于Y的影响。有时候由于问卷设计问题,导致直接缺少了Y(没有设计对应的问卷题项),建议可以考虑将X所有题项概括计算平均值来表示Y。(使用“ 生成变量”的 平均值功能)(另提示:如果问卷中并没有设计出Y对应的题项,没有其它办法可以处理)

    2.影响关系的大小,那个自变量影响更大一点?

    如果说自变量X已经对因变量Y产生显著影响(P< 0.05),还想对比影响大小,建议可使用标准化系数( Beta)值的大小对比影响大小,Beta值大于0时正向影响,该值越大说明影响越大。Beta值小于0时负向影响,该值越小说明影响越大。

    3.回归分析之前是否需要先做相关分析?

    一般来说,回归分析之前需要做相关分析,原因在于相关分析可以先了解是否有关系,回归分析是研究有没有影响关系,有相关关系但并不一定有回归影响关系。当然回归分析之前也可以使用散点图直观查看数据关系情况等。

    4.常数项值很大或者很小?

    常数项无实际意义,包括其对应的显著性值等均无实际意义,只是数学角度上一定存在而已。

    5.回归系数非常非常小或者非常非常大?

    如果说数据的单位很大,不论是自变量X还是因变量Y;此种数据会导致结果里面的回归系数出现非常非常小,也或者非常非常大。此种情况是正常现象,但一般需要对数据进行统一取对数处理,以减少单位问题带来的‘特别大或特别小的回归系数’问题。

    六、总结

    以上就是多元线性回归分析的指标解读,对于线性回归的操作步骤具体可以查看推荐文章,线性回归在实际研究里非常常见,但是理论与实际操作会有较大“距离”,具体还需要结合实际研究考察。


    SPSSAU:回归分析结果不稳定,可以试试这种方法

    更多干货请前往SPSSAU官网查看。

    展开全文
  • 多元线性回归分析(Stata)

    万次阅读 多人点赞 2022-01-14 10:12:47
    回归分析的介绍与分类 回归分析的任务是:通过研究自变量X和因变量Y的关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的 三个关键字:相关性、因变量Y、自变量X 常见的回归分析有五类(划分的依据是因...
  • 线性回归,前面用Python从底层一步一个脚印用两种方法实现了回归拟合。在这个高级语言层出不穷的年代,这样做显然不明智,所以我考虑用优秀的数据分析工具——R语言(不敢说最...
  • 参考书籍:1、《应用多元统计分析》高惠璇 1、表达式 用来研究因变量Y和m个自变量的相关关系(一共有n个样本,) 矩阵表示为: 记为或 2、回归方程和回归系数的显著性检验 2.1 回归方程的显著性检验(又...
  • 多元线性回归、逐步回归.docx多元线性回归、逐步回归.docx多元线性回归、逐步回归.docx多元线性回归、逐步回归.docx多元线性回归、逐步回归.docx多元线性回归、逐步回归.docx多元线性回归、逐步回归.docx多元线性...
  • 多元线性回归、逐步回归.pdf多元线性回归、逐步回归.pdf多元线性回归、逐步回归.pdf多元线性回归、逐步回归.pdf多元线性回归、逐步回归.pdf多元线性回归、逐步回归.pdf多元线性回归、逐步回归.pdf多元线性回归、逐步...
  • R语言 逐步回归分析

    千次阅读 2020-04-24 10:40:27
    逐步回归分析是以AIC信息统计量为准则,通过选择最小的AIC信息统计量,来达到删除或增加变量的目的。 R语言中用于逐步回归分析的函数 step() drop1() add1() 1.载入数据 首先对数据进行多元线性回归分析 tdata<-...
  • 实验八 多元线性回归与逐步回归.docx实验八 多元线性回归与逐步回归.docx实验八 多元线性回归与逐步回归.docx实验八 多元线性回归与逐步回归.docx实验八 多元线性回归与逐步回归.docx实验八 多元线性回归与逐步回归....
  • 实验八 多元线性回归与逐步回归.pdf实验八 多元线性回归与逐步回归.pdf实验八 多元线性回归与逐步回归.pdf实验八 多元线性回归与逐步回归.pdf实验八 多元线性回归与逐步回归.pdf实验八 多元线性回归与逐步回归.pdf...
  • 通过查阅北京统计局出示的有关数据以及阅读相关文献,搜集北京市近15年的统计资料,基于SPSS多元线性回归中的逐步回归分析法,建立回归模型。经检验,该模型具有较高准确度,可以用来预测城市用水量。
  • 实验八 多元线性回归与逐步回归...docx实验八 多元线性回归与逐步回归...docx实验八 多元线性回归与逐步回归...docx实验八 多元线性回归与逐步回归...docx实验八 多元线性回归与逐步回归...docx实验八 多元线性回归...
  • 实验八 多元线性回归与逐步回归...pdf实验八 多元线性回归与逐步回归...pdf实验八 多元线性回归与逐步回归...pdf实验八 多元线性回归与逐步回归...pdf实验八 多元线性回归与逐步回归...pdf实验八 多元线性回归与逐步...
  • matlab多元线性回归与逐步回归实验1.docxmatlab多元线性回归与逐步回归实验1.docxmatlab多元线性回归与逐步回归实验1.docxmatlab多元线性回归与逐步回归实验1.docxmatlab多元线性回归与逐步回归实验1.docxmatlab多元...
  • matlab多元线性回归与逐步回归实验1.pdfmatlab多元线性回归与逐步回归实验1.pdfmatlab多元线性回归与逐步回归实验1.pdfmatlab多元线性回归与逐步回归实验1.pdfmatlab多元线性回归与逐步回归实验1.pdfmatlab多元线性...
  • 逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的...
  • 实验八 多元线性回归与逐步回归(共11页).docx实验八 多元线性回归与逐步回归(共11页).docx实验八 多元线性回归与逐步回归(共11页).docx实验八 多元线性回归与逐步回归(共11页).docx实验八 多元线性回归与逐步回归(共...
  • 实验八 多元线性回归与逐步回归(共11页).pdf实验八 多元线性回归与逐步回归(共11页).pdf实验八 多元线性回归与逐步回归(共11页).pdf实验八 多元线性回归与逐步回归(共11页).pdf实验八 多元线性回归与逐步回归(共11页...
  • 用 Python 进行多元线性回归分析(附代码)

    万次阅读 多人点赞 2020-08-25 08:30:00
    很多人在做数据分析时会经常用到一元线性回归,这是描述两个变量间统计关系的最简单的回归模型。但现实问题中,我们往往会碰到多个变量间的线性关系的问题,这时就要用到多元线性回归多元线性回归是...
  • 在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更好。 可以解决的实际问题: 收入水平与受教育程度、所在行业、工作 年限、工作种类的关系。 公路客运量与人口增长量、私家...
  • 全子集回归比逐步回归范围更广,模型优化效果更好,但是一旦变量数多了之后,全子集回归迭代的次数就很多,就会很慢。事实上,变量的选择不是机械式地只看那几个统计指标,更主要的是根据数据的实际意义,从业务角度...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,356
精华内容 2,142
关键字:

多元线性逐步回归分析结果