精华内容
下载资源
问答
  • 多项logistic回归系数解释
    千次阅读
    2020-12-28 23:15:44

    Logistic回归结果的回归系数和OR值解读。Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。

    一 从线性回归到Logistic回归

    线性回归和Logistic回归都是广义线性模型的特例。

    假设有一个因变量y和一组自变量x1, x2, x3, ... , xn,其中y为连续变量,我们可以拟合一个线性方程:

    y =β0+β1*x1+β2*x2+β3*x3+...+βn*xn

    并通过最小二乘法估计各个β系数的值。

    如果y为二分类变量,只能取值0或1,那么线性回归方程就会遇到困难: 方程右侧是一个连续的值,取值为负无穷到正无穷,而左侧只能取值[0,1],无法对应。为了继续使用线性回归的思想,统计学家想到了一个变换方法,就是将方程右边的取值变换为[0,1]。最后选中了Logistic函数:

    y = 1 / (1+e-x)

    这是一个S型函数,值域为(0,1),能将任何数值映射到(0,1),且具有无限阶可导等优良数学性质。

    我们将线性回归方程改写为:

    y = 1 / (1+e-z),

    其中,z =β0+β1*x1+β2*x2+β3*x3+...+βn*xn

    此时方程两边的取值都在0和1之间。

    进一步数学变换,可以写为:

    Ln(y/(1-y)) =β0+β1*x1+β2*x2+β3*x3+...+βn*xn

    Ln(y/(1-y))称为Logit变换。我们再将y视为y取值为1的概率p(y=1),因此,1-y就是y取值为0的概率p(y=0),所以上式改写为:

    p(y=1) = ez/(1+ez),

    p(y=0) = 1/(1+ez),

    其中,z =β0+β1*x1+β2*x2+β3*x3+...+βn*xn.

    接下来就可以使用”最大似然法”估计出各个系数β。

    二 odds与OR复习

    odds: 称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds = p/(1-p)。

    OR:比值比,为实验组的事件发生几率(odds1)/对照组的事件发生几率(odds2)。

    三 Logistic回归结果的解读

    我们用一个例子来说明,这个例子中包含200名学生数据,包括1个自变量和4个自变量:

    因变量:  hon,表示学生是否在荣誉班(honors class),1表示是,0表示否;

    自变量:

    female :性别,分类变量,1=女,0=男

    read: 阅读成绩,为连续变量

    write: 写作成绩,为连续变量

    math:数学成绩,为连续变量

    1、不包含任何变量的Logistic回归

    首先拟合一个不包含任何变量的Logistic回归,

    模型为 ln(p/(1-p) =β0

    回归结果如下(结果经过编辑):

    hon

    系数β

    标准误

    P

    截距

    -1.12546

    0.164

    0.000

    这里的系数β就是模型中的β0= -1.12546,

    我们用p表示学生在荣誉班的概率,所以有ln(p/(1-p) =β0= -1.12546,

    解方程得:p = 0.245。

    odds = p/1-p = 0.3245

    这里的p是什么意思呢?p就是所有数据中hon=1的概率。

    我们来统计一下整个hon的数据:

    hon

    例数

    百分比

    0

    151

    75.5%

    1

    49

    24.5%

    hon取值为1的概率p为49/(151+49) = 24.5% = 0.245,我们可以手动计算出ln(p/(1-p) = -1.12546,等于系数β0。可以得出关系:

    β0=ln(odds)。

    2、包含一个二分类因变量的模型

    拟合一个包含二分类因变量female的Logistic回归,

    模型为 ln(p/(1-p)  =β0+β1*female.

    回归结果如下(结果经过编辑):

    hon

    系数β

    标准误

    P

    female

    0.593

    .3414294

    0.083

    截距

    -1.47

    .2689555

    0.000

    在解读这个结果之前,先看一下hon和female的交叉表:

    hon

    female

    Total

    Male

    Female

    0

    74

    77

    151

    1

    17

    32

    49

    Total

    91

    109

    根据这个交叉表,对于男性(Male),其处在荣誉班级的概率为17/91,处在非荣誉班级的概率为74/91,所以其处在荣誉班级的几率odds1=(17/91)/(74/91) = 17/74 = 0.23;相应的,女性处于荣誉班级的几率odds2 = (32/109)/(77/109)=32/77 = 0.42。女性对男性的几率之比OR = odds2/odds1 = 0.42/0.23 = 1.809。我们可以说,女性比男性在荣誉班的几率高80.9%。

    回到Logistic回归结果。截距的系数-1.47是男性odds的对数(因为男性用female=0表示,是对照组),ln(0.23) = -1.47。变量female的系数为0.593,是女性对男性的OR值的对数,ln(1.809) = 0.593。所以我们可以得出关系: OR = exp(β),或者β= ln(OR)(exp(x)函数为指数函数,代表e的x次方)。

    3、包含一个连续变量的模型

    拟合一个包含连续变量math的Logistic回归,

    模型为 ln(p/(1-p)  =β0+β1*math.

    回归结果如下(结果经过编辑):

    hon

    系数β

    标准误

    P

    math

    .1563404

    .0256095

    0.000

    截距

    -9.793942

    1.481745

    0.000

    这里截距系数的含义是在荣誉班中math成绩为0的odds的对数。我们计算出odds = exp(-9.793942) = .00005579,是非常小的。因为在我们的数据中,没有math成绩为0的学生,所以这是一个外推出来的假想值。

    怎么解释math的系数呢?根据拟合的模型,有:

    ln(p/(1-p)) =  - 9.793942  + .1563404*math

    我们先假设math=54,有:

    ln(p/(1-p))(math=54) = - 9.793942 + .1563404 *54

    然后我们把math提高提高一个单位,令math=55,有:

    ln(p/(1-p))(math=55) = - 9.793942 + .1563404 *55

    两者之差:

    ln(p/(1-p))(math=55) - ln(p/1-p))(math = 54) = 0.1563404.

    正好是变量math的系数。

    由此我们可以说,math每提高1个单位,odds(即p/(1-p),也即处于荣誉班的几率)的对数增加0.1563404。

    那么odds增加多少呢?根据对数公式:

    ln(p/(1-p))(math=55) - ln(p/1-p))(math = 54) = ln((p/(1-p)(math=55)/ (p/(1-p)(math=54))) = ln(odds(math=55)/ odds(math=54)) = 0.1563404.

    所以:

    odds(math=55)/ odds(math=54)  =  exp(0.1563404) = 1.169.

    因此我们可以说,math每升高一个单位,odds增加16.9%。且与math的所处的绝对值无关。

    聪明的读者肯定发现,odds(math=55)/ odds(math=54)不就是OR嘛!

    4、包含多个变量的模型(无交互效应)

    拟合一个包含female、math、read的Logistic回归,

    模型为 ln(p/(1-p) = β0+β1*math+β2*female+β3*read.

    回归结果如下(结果经过编辑):

    hon

    系数β

    标准误

    P

    math

    .1229589

    0.000

    female

    0.979948

    0.020

    read

    .0590632

    0.026

    截距

    -11.77025

    0.000

    该结果说明:

    (1) 性别:在math和read成绩都相同的条件下,女性(female=1)进入荣誉班的几率(odds)是男性(female=0)的exp(0.979948) = 2.66倍,或者说,女性的几率比男性高166%。

    (2) math成绩:在female和read都相同的条件下,math成绩每提高1,进入荣誉班的几率提高13%(因为exp(0.1229589) = 1.13)。

    (3)read的解读类似math。

    5、包含交互相应的模型

    拟合一个包含female、math和两者交互相应的Logistic回归,

    模型为 ln(p/(1-p)  =β0+β1*female+β2*math+β3*female *math.

    所谓交互效应,是指一个变量对结果的影响因另一个变量取值的不同而不同。

    回归结果如下(结果经过编辑):

    hon

    系数β

    标准误

    P

    female

    -2.899863

    0.349

    math

    .1293781

    0.000

    female*math

    .0669951

    0.210

    截距

    -8.745841

    0.000

    注意:female*math项的P为0.21,可以认为没有交互相应。但这里我们为了讲解交互效应,暂时忽略P值,姑且认为他们是存在交互效应的。

    由于交互效应的存在,我们就不能说在保持math和female*math不变的情况下,female的影响如何如何,因为math和female*math是不可能保持不变的!

    对于这种简单的情况,我们可以分别拟合两个方程,

    对于男性(female=0):

    log(p/(1-p))= β0 + β2*math.

    对于女性(female=1):

    log(p/(1-p))= (β0 + β1) + (β2 + β3 )*math.

    然后分别解释。

    更多相关内容
  • 深入解读Logistic回归结果(一):回归系数,OR关键词:Logistic回归分析、lasso回归系数解读、回归系数解读Logistic回归虽然名字叫”回归”,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因...

    深入解读Logistic回归结果(一):回归系数,OR

    关键词:Logistic回归分析、lasso回归系数解读、回归系数解读

    Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。

    一 从线性回归到Logistic回归

    线性回归和Logistic回归都是广义线性模型的特例。

    假设有一个因变量y和一组自变量x1, x2, x3, … , xn,其中y为连续变量,我们可以拟合一个线性方程:

    y =β0+β1*x1+β2*x2+β3*x3+…+βn*xn

    并通过最小二乘法估计各个β系数的值。

    如果y为二分类变量,只能取值0或1,那么线性回归方程就会遇到困难: 方程右侧是一个连续的值,取值为负无穷到正无穷,而左侧只能取值[0,1],无法对应。为了继续使用线性回归的思想,统计学家想到了一个变换方法,就是将方程右边的取值变换为[0,1]。最后选中了Logistic函数:

    y = 1 / (1+e-x)

    这是一个S型函数,值域为(0,1),能将任何数值映射到(0,1),且具有无限阶可导等优良数学性质。

    我们将线性回归方程改写为:

    y = 1 / (1+e-z),

    其中,z =β0+β1*x1+β2*x2+β3*x3+…+βn*xn

    此时方程两边的取值都在0和1之间。

    进一步数学变换,可以写为:

    Ln(y/(1-y)) =β0+β1*x1+β2*x2+β3*x3+…+βn*xn

    Ln(y/(1-y))称为Logit变换。我们再将y视为y取值为1的概率p(y=1),因此,1-y就是y取值为0的概率p(y=0),所以上式改写为:

    p(y=1) = ez/(1+ez),

    p(y=0) = 1/(1+ez),

    其中,z =β0+β1*x1+β2*x2+β3*x3+…+βn*xn.

    接下来就可以使用”最大似然法”估计出各个系数β。

    二 odds与OR复习

    odds: 称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds = p/(1-p)。

    OR:比值比,为实验组的事件发生几率(odds1)/对照组的事件发生几率(odds2)。

    三 Logistic回归结果的解读

    我们用一个例子来说明,这个例子中包含200名学生数据,包括1个自变量和4个自变量:

    因变量:  hon,表示学生是否在荣誉班(honors class),1表示是,0表示否;

    自变量:

    female :性别,分类变量,1=女,0=男

    read: 阅读成绩,为连续变量

    write: 写作成绩,为连续变量

    math:数学成绩,为连续变量

    1、不包含任何变量的Logistic回归

    首先拟合一个不包含任何变量的Logistic回归,

    模型为 ln(p/(1-p) =β0

    回归结果如下(结果经过编辑):

    hon

    系数β

    标准误

    P

    截距

    -1.12546

    0.164

    0.000

    这里的系数β就是模型中的β0= -1.12546,

    我们用p表示学生在荣誉班的概率,所以有ln(p/(1-p) =β0= -1.12546,

    解方程得:p = 0.245。

    odds = p/1-p = 0.3245

    这里的p是什么意思呢?p就是所有数据中hon=1的概率。

    我们来统计一下整个hon的数据:

    hon

    例数

    百分比

    0

    151

    75.5%

    1

    49

    24.5%

    hon取值为1的概率p为49/(151+49) = 24.5% = 0.245,我们可以手动计算出ln(p/(1-p) = -1.12546,等于系数β0。可以得出关系:

    β0=ln(odds)。

    2、包含一个二分类因变量的模型

    拟合一个包含二分类因变量female的Logistic回归,

    模型为 ln(p/(1-p)  =β0+β1*female.

    回归结果如下(结果经过编辑):

    hon

    系数β

    标准误

    P

    female

    0.593

    .3414294

    0.083

    截距

    -1.47

    .2689555

    0.000

    在解读这个结果之前,先看一下hon和female的交叉表:

    hon

    female

    Total

    Male

    Female

    0

    74

    77

    151

    1

    17

    32

    49

    Total

    91

    109

    根据这个交叉表,对于男性(Male),其处在荣誉班级的概率为17/91,处在非荣誉班级的概率为74/91,所以其处在荣誉班级的几率odds1=(17/91)/(74/91) = 17/74 = 0.23;相应的,女性处于荣誉班级的几率odds2 = (32/109)/(77/109)=32/77 = 0.42。女性对男性的几率之比OR = odds2/odds1 = 0.42/0.23 = 1.809。我们可以说,女性比男性在荣誉班的几率高80.9%。

    回到Logistic回归结果。截距的系数-1.47是男性odds的对数(因为男性用female=0表示,是对照组),ln(0.23) = -1.47。变量female的系数为0.593,是女性对男性的OR值的对数,ln(1.809) = 0.593。所以我们可以得出关系: OR = exp(β),或者β= ln(OR)(exp(x)函数为指数函数,代表e的x次方)。

    3、包含一个连续变量的模型

    拟合一个包含连续变量math的Logistic回归,

    模型为 ln(p/(1-p)  =β0+β1*math.

    回归结果如下(结果经过编辑):

    hon

    系数β

    标准误

    P

    math

    .1563404

    .0256095

    0.000

    截距

    -9.793942

    1.481745

    0.000

    这里截距系数的含义是在荣誉班中math成绩为0的odds的对数。我们计算出odds = exp(-9.793942) = .00005579,是非常小的。因为在我们的数据中,没有math成绩为0的学生,所以这是一个外推出来的假想值。

    怎么解释math的系数呢?根据拟合的模型,有:

    ln(p/(1-p)) =  – 9.793942  + .1563404*math

    我们先假设math=54,有:

    ln(p/(1-p))(math=54) = – 9.793942 + .1563404 *54

    然后我们把math提高提高一个单位,令math=55,有:

    ln(p/(1-p))(math=55) = – 9.793942 + .1563404 *55

    两者之差:

    ln(p/(1-p))(math=55) – ln(p/1-p))(math = 54) = 0.1563404.

    正好是变量math的系数。

    由此我们可以说,math每提高1个单位,odds(即p/(1-p),也即处于荣誉班的几率)的对数增加0.1563404。

    那么odds增加多少呢?根据对数公式:

    ln(p/(1-p))(math=55) – ln(p/1-p))(math = 54) = ln((p/(1-p)(math=55)/ (p/(1-p)(math=54))) = ln(odds(math=55)/ odds(math=54)) = 0.1563404.

    所以:

    odds(math=55)/ odds(math=54)  =  exp(0.1563404) = 1.169.

    因此我们可以说,math每升高一个单位,odds增加16.9%。且与math的所处的绝对值无关。

    聪明的读者肯定发现,odds(math=55)/ odds(math=54)不就是OR嘛!

    4、包含多个变量的模型(无交互效应)

    拟合一个包含female、math、read的Logistic回归,

    模型为 ln(p/(1-p) = β0+β1*math+β2*female+β3*read.

    回归结果如下(结果经过编辑):

    hon

    系数β

    标准误

    P

    math

    .1229589

    0.000

    female

    0.979948

    0.020

    read

    .0590632

    0.026

    截距

    -11.77025

    0.000

    该结果说明:

    (1) 性别:在math和read成绩都相同的条件下,女性(female=1)进入荣誉班的几率(odds)是男性(female=0)的exp(0.979948) = 2.66倍,或者说,女性的几率比男性高166%。

    (2) math成绩:在female和read都相同的条件下,math成绩每提高1,进入荣誉班的几率提高13%(因为exp(0.1229589) = 1.13)。

    (3)read的解读类似math。

    5、包含交互相应的模型

    拟合一个包含female、math和两者交互相应的Logistic回归,

    模型为 ln(p/(1-p)  =β0+β1*female+β2*math+β3*female *math.

    所谓交互效应,是指一个变量对结果的影响因另一个变量取值的不同而不同。

    回归结果如下(结果经过编辑):

    hon

    系数β

    标准误

    P

    female

    -2.899863

    0.349

    math

    .1293781

    0.000

    female*math

    .0669951

    0.210

    截距

    -8.745841

    0.000

    注意:female*math项的P为0.21,可以认为没有交互相应。但这里我们为了讲解交互效应,暂时忽略P值,姑且认为他们是存在交互效应的。

    由于交互效应的存在,我们就不能说在保持math和female*math不变的情况下,female的影响如何如何,因为math和female*math是不可能保持不变的!

    对于这种简单的情况,我们可以分别拟合两个方程,

    对于男性(female=0):

    log(p/(1-p))= β0 + β2*math.

    对于女性(female=1):

    log(p/(1-p))= (β0 + β1) + (β2 + β3 )*math.

    然后分别解释。

    注:本文大量参考这篇文章:http://www.ats.ucla.edu/stat/mult_pkg/faq/general/odds_ratio.htm

    喜欢 (11)or分享 (0)

    展开全文
  • 在SPSS软件的二项Logistic回归模型中,将分类变量选入categorical,软件会自动设置一系列的哑变量。由于验证假设3(自变量之间无多重共线性)需要通过线性回归实现,而在线性回归中,就需要手动设置哑变量。因此,...

    一、问题与数据

    研究者想调查人们对“本国税收过高”的赞同程度:Strongly Disagree——非常不同意,用“0”表示;Disagree——不同意,用“1”表示;Agree--同意,用“2”表示;Strongly Agree--非常同意,用“3”表示。

    另外,研究者也调查了一些其它情况,包括:是否是“雇主”(biz_owner:Yes——是,用“0”表示;No——否,用“1”表示)、年龄(age)和党派(politics:Lib——党派1,用“1”表示;Con——党派2,用“2”表示;Lab——党派3,用“3”表示)。部分数据如下图:

    二、对问题的分析

    使用有序Logistic进行回归分析时,需要考虑4个假设。

    假设1:因变量唯一,且为有序多分类变量,如城市综合竞争力等级可以分为高、中、低;某病的治疗效果分为痊愈、有效、无效等。

    假设2:存在一个或多个自变量,可为连续、有序多分类或无序分类变量。

    假设3:自变量之间无多重共线性。

    假设4:模型满足“比例优势”假设。意思是无论因变量的分割点在什么位置,模型中各个自变量对因变量的影响不变,也就是自变量对因变量的回归系数与分割点无关。

    有序多分类的Logistic回归原理是将因变量的多个分类依次分割为多个二元的Logistic回归,例如本例中因变量“本国的税收过高”的赞同程度有4个等级,分析时拆分为三个二元Logistic回归,分别为(0 vs 1+2+3) 、(0+1 vs 2+3)、(0+1+2 vs 3),均是较低级与较高级对比。

    在有序多分类Logistic回归中,假设几个二元Logistic回归中,自变量的系数相等,仅常数项不等,结果也只输出一组自变量的系数。因此,有序多分类的Logistic回归模型,必须对自变量系数相等的假设(即“比例优势”假设)进行检验(又称平行线检验)。如果不满足该假设,则考虑使用无序多分类Logistic回归。三、前期数据处理

    对假设进行验证前,我们需要将分类变量设置成哑变量。

    1. 为什么要设计哑变量

    若直接将分类变量纳入Logistic回归方程,则软件会将分类变量按连续变量处理。例如,如果把性别按“1”——男、“2”——女进行编码,然后直接把性别纳入方程,方程会认为“女”是“男”的2倍。为了解决这个问题,需要用一系列的二分类变量“是”或“否”来表示原始的分类变量,这些新的二分类变量被称为“哑变量”。

    在SPSS软件的二项Logistic回归模型中,将分类变量选入categorical,软件会自动设置一系列的哑变量。由于验证假设3(自变量之间无多重共线性)需要通过线性回归实现,而在线性回归中,就需要手动设置哑变量。因此,这里需要先手动设置哑变量。

    2. 设置哑变量的思路

    哑变量的数目是分类变量类别数减一。本例中,党派1、党派2和党派3的原始编码为1、2和3。设置哑变量时,需要对党派1和党派2进行重新编码。

    建立新变量Lib(党派1),若调查对象选了党派1,则Lib编为“1”,代表是;若未选党派1,则Lib编为“0”,代表否。同样,建立新变量Con(党派2),将是否选党派2编为“1”或“0”。此时,若既未选党派1,又未选党派2,则两个新变量Lib和Con的编码都为“0”,代表党派3。此时,党派3在模型中是参考类别(Reference)。

    3. 在SPSS中设置哑变量

    (1)首先,先创建新变量“Con”,在主菜单下选择Transform→Recode into Different Variables... ,如下图:

    (2)在Recode into Different Variables对话框中,将politics选入右侧Numeric Variable-->Output Variable下,在右侧Output Variable中填写“Con”。点击Change→Old and New Values。

    (3)出现Recode into Different Variables: Old and New Values对话框,在左侧的Old Value下的Value中填入2,在右侧的New Value下的Value中填入1,点击Add。

    (4)将其它值变为“0”:左侧点击All other values,在右侧Value中填入“0”,点击Add→Continue。

    (5)如果数据中有缺失值,点击左侧System-missing,右侧点击System-missing→Add,保持缺失值:

    设置得到的结果如下图:

    本例中没有缺失值,可省略这一步。

    (6)继续创建新变量“Lib”,与以上步骤相似。两个变量创建完成后,点击变量视图,可以看到在最右侧已经生成了两个新变量“Con”和“Lib”,如下图:

    四、对假设的判断

    假设1-2都是对研究设计的假设,需要研究者根据研究设计进行判断,所以这里主要对数据的假设3-4进行检验。

    1. 检验假设3:自变量之间无多重共线性

    (1)在主菜单点击Analyze→Regression→Linear...

    (2) 将tax_too_high选入Dependent,将biz_owner、age、Con、Lib选入Independent(s)。

    (3)点击Statistics,出现Linear Regression:Statistics对话框,点击Collinearity diagnostics→Continue→OK。

    结果如下图:

    如果容忍度(Tolerance)小于0.1或方差膨胀因子(VIF)大于10,则表示有共线性存在。

    本例中,容忍度均远大于0.1,方差膨胀因子均小于10,所以不存在多重共线性。如果数据存在多重共线性,则需要用复杂的方法进行处理,其中最简单的方法是剔除引起共线性的因素之一,剔除哪一个因素可以基于理论依据。

    2. 检验假设4:模型满足“比例优势”假设

    “比例优势”假设可以在后面结果部分的“平行线检验”中看到。五、SPSS操作

    SPSS中,可以通过两个过程实现有序Logistic回归。分别是Analyze → Regression → Ordinal...和Analyze → Generalized Linear Models → Generalized Linear Models...。

    其中,Analyze → Regression → Ordinal模块,可以检验 “比例优势”假设,但无法给出OR值和95%CI。而Analyze → Generalized Linear Models → Generalized Linear Models模块可以给出OR值和95%CI,但无法检验“比例优势”假设。

    这里,我们主要介绍Analyze → Regression → Ordinal过程。

    (1)在主菜单点击Analyze→Regression→Ordinal...

    (2)出现Ordinal Regression对话框,将tax_too_high选入Dependent,将biz_owner和politics选入Factor(s),将age选入Covariate(s),再点击Output。

    (3)出现Ordinal Regression: Output对话框。在原始设置的基础上,勾选Display下方的Test of parallel lines,勾选Saved Variables下方的Estimated response probabilities、Predicted category、Predicted category probability和Actual category probability,这四个选项会在SPSS数据集中产生新的变量,如下图所示。点击Continue。

    (4)点击Location,出现Ordinal Regression: Location对话框,如果自变量间有交互作用,则通过该对话框进行选择。本例中自变量间无交互作用,所以点击Continue→OK。

    六、结果解释

    1. 假设4的检验结果

    在结果解释之前,我们需要先看一下假设4的检验结果(平行线检验的结果)。

    在Ordinal Regression:Output对话框中,选则Test of parallel lines后出现,的结果如下表。本例中平行线检验χ2= 8.620, P= 0.375,说明平行性假设成立,即各回归方程相互平行,可以使用有序Logistic过程进行分析。

    如果平行线假设不能满足,可以考虑一下两种方法进行处理:①进行无序多分类Logistic回归,而非有序Logistic回归,并能接受因变量失去有序的属性;② 用不同的分割点将因变量变为二分类变量,分别进行二项Logistic回归。

    但是,当样本量过大时,平行线检验会过于敏感。即当比例优势存在时,也会显示P<>

    2. 单元格

    输出结果中,首先会给一个警告,内容为:有235(63.2%)个频率为零的单元格。如果存在过多频数为0的单元格,则会影响模型的拟合,导致拟合优度检验不可信。

    扩展阅读

    要理解这一点,就需要理解“协变量模式(covariate pattern)”的概念。协变量模式是指数据中自变量数值的组合,与因变量无关。比如,在本数据中,一个协变量模式是23岁(age),雇主(biz_owner)和党派3(politics)。对于每种协变量模式,可能有多个研究对象。比如,如果有4个研究对象是23岁、雇主和党派3,这代表一个协变量模式。

    需要理解的另一个概念是“单元格模式(cell pattern)”,它是指自变量和因变量数值的组合,与协变量模式相似,但加上了因变量。对于同一个协变量模式,如果协变量模式能对应因变量所有值,就没有“缺失”的单元格。但实际中,一个协变量模式对应的因变量可能只有一个值。假如,有1个23岁、雇主和党派3研究对象的因变量是“Agree”,但由于因变量总共有4个水平,所以此时单元格“缺失”3个。

    因此,协变量模式与单元格模式之间的联系是:(1)所有可能的单元格总数是协变量模式个数乘以因变量的分组个数;(2)实际的单元格是指单元格模式中频率不为0的单元格。单元格频率为零的比率为(总单元格的个数-实际单元格的个数)÷总单元格的个数。

    3. 拟合优度检验结果

    下图为拟合优度检验的结果,分别为Pearson和Deviance两种拟合优度检验。本例中,Pearson检验的结果χ2= 745.367,P<><>2= 232.618,P=0.960>0.05,说明Deviance检验结果为模型拟合好。

    这两个统计量对于上述单元格频数为0的比例十分敏感。本例中频数为0的单元格非常多,这两个统计量不一定服从卡方分布,而基于卡方分布计算的P值也不可信,所以本例中这两个检验结果都不可信。

    4. 伪决定系数

    下图给出了三个伪决定系数:Cox and Snell,Nagelkerke和McFadden,这三种方法是最常用的计算伪决定系数的方法。由于三种方法并没有得到广泛的应用,所以我们也不用关注该结果。

    5. 模型拟合信息

    Model Fitting Information的结果是对模型中所有自变量的偏回归系数是否全为0的似然比检验。结果χ2=87.911(该值为仅有常数项的模型和最终模型的-2 Log Likelihood值之差),P<>

    6. 模型预测准确度

    另一种看模型拟合程度的方法是看模型对因变量的预测情况。在Ordinal Regression: Output对话框中,勾选Saved Variables下方的Estimated response probabilities、Predicted category、Predicted category probability和Actual category probability后,会在SPSS数据集中产生新的变量,如下图所示。

    EST1_1、EST2_1、EST3_1和EST4_1分别代表对因变量的四个程度(Strongly Disagree、Disagree、Agree和Strongly Agree) 的预测概率。

    第一行(case 1),可以看到EST1_1、EST2_1、EST3_1和EST4_1相加的概率为1,其中EST1_1的概率最大,为0.44,对应的PRE_1为0(Strongly Disagree),因变量的观察值也是0(Strongly Disagree),此时模型准确的预测了因变量。

    而第三行(case 3),EST1_1、EST2_1、EST3_1和EST4_1中EST3_1最大,预测的PRE_1为2(Agree),而因变量实际的观察值为0(Strongly Disagree),此时模型没有准确的预测因变量。

    那么,如何看出模型预测因变量的程度呢?可以按照下述步骤建立表格。

    (1)在主界面下选择Analyze→Descriptive Statistics→Crosstabs...

    (2)将tax_too_high选入Row(s),将PRE_1选入Column(s),点击Cells。

    (3)在已选的Observed基础上,点击Row→Continue→OK。

    (4)结果如下图。当tax_too_high=0,即为Strongly Disagree时,模型预测正确的有11人(45.8%)。相似的,当tax_too_high分别为Disagree、Agree和Strongly Agree时,模型预测正确的分别有9人(23.7%)、76人(83.5%)和11人(28.2%)。模型预测的总准确度可以通过计算获得,即四个分组中预测正确人数除以总人数=(11+9+76+11)÷192=55.7%。

    7. 参数估计

    在Parameter Estimates中,得到了回归方程的参数,包括常数项(Estimates或B)及其标准误和95%置信区间等。

    (1)Threshold(常数项)中,第一行tax_too_high=0代表“Strongly Disagree” VS 其它组的累积概率模型的截距;tax_too_high=1代表 “Strongly Disagree”和“Disagree”VS其它组的累积概率模型的截距;tax_too_high=2代表 “Strongly Disagree”、“Disagree”和“Agree” VS“Strongly Agree”的累积概率模型的截距。

    (点击图片看大图)

    (2)除了常数项不同,Location中自变量的系数都是同一个系数,这也是为什么要求有序Logistic回归需要满足比例优势的假设。最终拟合的三个方程如下:

    但是Analyze→Regression→Ordinal模块,并不能直接给出OR值及其95%CI,此时可以借助Analyze→Generalized Linear Models→Generalized Linear Models模块计算。该模块的操作见后面第八部分。

    (3)借助Analyze→Generalized Linear Models→Generalized Linear Models模块得到OR值后,我们得到如下结果:雇主认为“税收过高”的OR值是非雇主的1.944倍(95%CI:1.101-3.431),χ2= 5.255, P = 0.022。

    (4)以党派3为对照组,党派1认为“税收过高”的OR值是党派3的1.038倍 (95%CI: 0.509-2.116),χ2 = 0.010,P = 0.919;党派2认为“税收过高”的OR值党派3的3.194倍(95%CI: 1.626 -6.277),χ2 = 11.358,P= 0.001。

    这样可以看到党派1 VS 党派3、党派2 VS 党派3的结果,但是没有党派1和党派2比较的结果。此时,可以对Politics重新编码,将党派1编为3,党派3编为1,再进行上述操作,即可得到结果。

    (5)age:年龄每增加一岁,认为税收过高的OR值增加为原来的1.274倍(95%CI:1.196-1.357),χ2 = 56.355,P<>七、撰写结论

    运用符合比例优势假设的有序Logistic回归分析是否是雇主、投票选举的党派和年龄对“税收过高”的效应。

    平行线检验的结果为χ2= 8.620,P=0.375,说明比例优势假设存在。Deviance拟合优度检验显示模型拟合好,χ2= 232.618,P=0.960,但是有大部分(63.2%)频数为0的单元格。模型拟合信息显示,本模型优于只有常数项的模型,χ2 = 87.911,P <>

    雇主认为“税收过高”的OR值是非雇主的1.944倍(95%CI: 1.101-3.431),χ2= 5.255,P=0.022。以党派3为对照组,党派1认为“税收过高”的OR值是党派3的1.038倍 (95%CI: 0.509-2.116),χ2 = 0.010,P= 0.919;党派2认为“税收过高”的OR值党派3的3.194倍(95%CI: 1.626 -6.277),χ2 = 11.358,P=0.001。八、利用其它模块计算OR值

    上述Analyze→Regression→Ordinal模块,可以检验 “比例优势”假设,但无法给出OR值和95%CI。而Analyze→Generalized Linear Models→Generalized Linear Models模块可以给出OR值和95%CI。

    1. SPSS操作

    (1)在主菜单点击Analyze→Generalized Linear Models→Generalized Linear Models。出现Generalized Linear Models对话框后,在Ordinal Response下选择Ordinal logistic。

    (2)点击上方的Response,出现 Response对话框。将tax_too_high选入Dependent Variable,下方的category order行可以选择Ascending或Descending。

    本例中tax_too_high共有四个等级,“0”表示“非常不同意”。如果选择ascending,则“0”是最低的等级;如果选择Descending,则表示“0”为最高的等级。

    (3)点击上方的Predictors,出现Predictors对话框。将biz_owner和politics选入Factors,将age选入Covariates。

    (4)点击上方的Model,出现Model对话框。将biz_owner、politics和age选入右侧的Model中。

    (5)点击Estimation,出现Estimation对话框。在Method中选择Fisher。

    (6)点击Statistics,出现Statistics对话框。在原始设置下,再勾选Print下的Include exponential parameter estimates,勾选该选项会输出OR值及其95%的置信区间,然后点击OK。

    2. 结果解释

    Generalized Linear Models模块不会给出单元格信息、伪决定系数和平行线检验结果。模型拟合信息在Ominibus Test表中,该结果与Regression→Ordinal的Model Fitting Information结果一致。

    参数估计的OR值和95%CI见下图:

    展开全文
  • 多元回归系数:我们都解释错了?

    千次阅读 2020-12-29 16:26:05
    2.2 多元线性回归系数的图形解释 我们运用 Stata 自带的 1978 汽车数据集 auto.dta 中的进口汽车 (foreign) 数据来解释多元回归系数估计值的含义。 首先,我们把汽车的百英里油耗 (100/mpg) 当作被响应变量,汽车的...

    作者:金钊 (中山大学)

    E-Mail:

    Note: 助教招聘信息请进入「课程主页」查看。因果推断-内生性 专题 ⌚ 2020.11.12-15

    主讲:王存同 (中央财经大学);司继春(上海对外经贸大学)空间计量 专题 ⌚ 2020.12.10-13

    主讲:杨海生 (中山大学);范巧 (兰州大学)

    目录编者按: 在 Stata Journal (吵架」论文。其中,首篇为 David Hoaglin 撰写的长文 (p.5-22),题为「Regressions are Commonly Misinterpreted」。从标题上来看,这无异于「挑战」我们的常识。三位知名的计量经济学家 (James Hardin, Scott Long, David Drukker) 撰写了两篇短文对此进行评论/批评。而同期第四篇论文刊登的就是 David Hoaglin 的「反驳 (Rejoinder)」。显然,这四篇文章是 Stata Journal 的编辑们蓄意之作,同时,也凸显出此问题的重要性。本文对其中的一些核心观点进行梳理,感兴趣的读者可以阅读原文以便品尝原味红茶。Hoaglin David C., 2016, Regressions are Commonly Misinterpreted, Stata Journal, 16(1): 5–22.

    Hardin James W. , 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 23–24.

    Long J. Scott, David M. Drukker, 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 25–29.

    Hoaglin David C., 2016, Regressions are Commonly Misinterpreted: A Rejoinder, Stata Journal, 16(1): 30–36.同主题阅读:

    1. 引言

    多元回归模型一直被广泛运用,也是最常见和最基础的计量模型。多元回归模型中各个变量间关系相对复杂,其回归系数惯常解释为:当其他变量保持不变或控制其他变量不变时,

    每改变一个单位时因变量

    的平均变化量。

    然而,Hoaglin (2016) 指出,这种常见的解读存在错误。这些问题常常出现在 OLS 回归、logistic 回归和其他广义线性模型以及生存分析、纵向分析和层次分析回归中。

    Hoaglin (2016) 认为,这些解释既没有体现多元回归的基本原理,也不符合现实情况。他从图形、多元正态分布和最小二乘几何特征等角度解释「控制」和「保持不变」的不适性。为此,他们提出一直全新的解释「调整

    和其他预测因子对

    的共同线性影响后,

    每改变一个单位时因变量

    的平均变化量」。

    2. 多元线性回归系数的常见误解

    2.1 多元线性回归计量模型

    我们常见的多元回归的总体 (population) 模型为:

    其中,

    为解释变量或预测因子;

    为被解释变量或响应变量。我们通常令第一个解释变量为单位向量,即

    为待估参数,称为「回归系数」(regression coefficients)。

    在多元回归中,预测因子间不可能是完全独立的,每个回归系数的下标应该包含方程中的其他预测因子。为此,预测因子

    的回归系数可以写为:

    ,第一个下标表示响应变量,第二个下标表示系数所附的预测因子,而在「·」之后的下标表示其他预测因子。则回归模型可以变为:

    运用数据可以对回归系数

    进行估计,可以得到估计值

    。则 (2) 的拟合方程为:

    为残差,

    的观测值。在多元回归中,每个预测因子的系数都说明了其他预测因子的贡献,也就是说,它反映了对这些预测因子的调整。

    2.2 多元线性回归系数的图形解释

    我们运用 Stata 自带的 1978 汽车数据集 auto.dta 中的进口汽车 (foreign) 数据来解释多元回归系数估计值的含义。

    首先,我们把汽车的百英里油耗 (100/mpg) 当作被响应变量,汽车的重量 (weight) 和排量 (displacement) 为预测因子。通过散点图 (图 1),我们可以看到汽车油耗与重量和排量的相关性很高,汽车的重量和排量的相关性也很强。

    . sysuse auto, clear

    (1978 Automobile Data)

    . generate gp100m = 100/mpg

    . label var gp100m "Gallons per 100 miles"

    *-相关系数

    . pwcorr gp100m weight displacement if foreign==1

    | gp100m weight displa~t

    -------------+---------------------------

    gp100m | 1.0000

    weight | 0.8172 1.0000

    displacement | 0.8444 0.9507 1.0000

    *-散点图矩阵

    . graph matrix gp100m weight displacement if foreign==1

    图 1 汽车油耗、重量和排量的散点图矩阵

    首先,我们看二元回归的估计结果如下,可以发现汽车重量回归系数的估计值为 0.396,而汽车排量回归系数的估计值为 0.032。

    . regress gp100m weight displacement if foreign == 1

    Source | SS df MS Number of obs = 22

    ----------+------------------------------ F(2, 19) = 23.86

    Model | 19.6704568 2 9.83522842 Prob > F = 0.0000

    Residual | 7.83165119 19 .412192168 R-squared = 0.7152

    ----------+------------------------------ Adj R-squared = 0.6853

    Total | 27.502108 21 1.30962419 Root MSE = .64202

    -----------------------------------------------------------------------

    gp100m | Coef. Std. Err. t P>|t| [95% Conf. Interval]

    -------------+---------------------------------------------------------

    weight | 0.396 1.044 0.38 0.708 -1.788 2.580

    displacement | 0.032 0.018 1.78 0.091 -0.006 0.070

    _cons | -0.196 0.811 -0.24 0.812 -1.893 1.501

    -----------------------------------------------------------------------

    其次,我们单独对汽车重量进行回归,可以发现,在第 (1) 列中,汽车重量回归系数的估计值为 2.160,比第二列所呈现的二元回归的系数估计值高 (0.396):

    . regress gp100m weight if foreign == 1

    . est store m1

    . regress gp100m weight displacement if foreign == 1

    . est store m2

    . esttab m1 m2, nogap b(%6.3f) s(N r2_a)

    --------------------------------------------

    (1) (2)

    gp100m gp100m

    --------------------------------------------

    weight 2.160*** 0.396

    (6.34) (0.38)

    displacement 0.032

    (1.78)

    _cons -0.689 -0.196

    (-0.86) (-0.24)

    --------------------------------------------

    N 22.000 22.000

    r2_a 0.651 0.685

    --------------------------------------------

    t statistics in parentheses

    * p<0.05, ** p<0.01, *** p<0.001

    接着,我们用图示显示在一元回归后加入汽车重量的估计结果。

    图 2 显示了,汽车油耗 (gp100m) 对排量 (displacement) 回归后的残差,与汽车重量 (weight) 对排量 (displacement) 回归后的残差之间的关系。可以发现,两类残差的相关性与二元回归中汽车重量 (weight) 的系数估计值和

    值完全一致。命令如下:

    *-部分回归图

    . ssc install reganat, replace //下载外部命令

    . reganat gp100m weight displacement if foreign == 1, dis(weight) biline

    . graph export "图2-reganat部分回归图.png", replace //保存图片

    我们也可以手动计算上述残差,并进而用这两个残差做回归,得到与二元回归中一样的系数估计值

    。在这段命令中,第 [1]-[2] 行的目的在于从 gp100m 中「滤掉」displacement 的影响 (也就是前文反复提及的「调整」);第 [3]-[4] 行的目的相似:从 weight 中「调整掉」displacement 的影响。调整后的的两个残差 e_y_x2 和 e_x1_x2 中已经不再包含 displacement 变量的信息了,因此,我们执行 reg e_y_x2 e_x1_x2 时,产生的效果与 regress gp100m weight displacement 是完全一致的。

    *-手动计算二元回归的系数

    . keep if foreign==1

    . reg gp100m displacement // [1]

    . predict e_y_x2, res // [2]

    . reg weight displacement // [3]

    . predict e_x1_x2, res // [4]

    . reg e_y_x2 e_x1_x2

    Source | SS df MS Number of obs = 22

    ----------+---------------------------------- F(1, 20) = 0.15

    Model | .059470475 1 .059470475 Prob > F = 0.7009

    Residual | 7.83165211 20 .391582605 R-squared = 0.0075

    ----------+---------------------------------- Adj R-squared = -0.0421

    Total | 7.89112258 21 .375767742 Root MSE = .62577

    ---------------------------------------------------------------------------

    e_y_x2 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

    ----------+----------------------------------------------------------------

    e_x1_x2 | 0.396 1.017 0.39 0.701 -1.725 2.518

    _cons | 0.000 0.133 0.00 1.000 -0.278 0.278

    ---------------------------------------------------------------------------编者注:有关这部分内容的详情,参见reganat 命令绘制的图形是编者自行添加的。

    由此,我们可以清晰的知道,二元回归中汽车重量 (

    ) 的系数估计值

    是指汽车油耗 (

    ) 和重量 (

    ) 同时调整了汽车排量 (

    ) 对其的线性变化后的关系。从一元和二元回归结果中汽车重量的系数来看(分别为 2.160 和 0.396),这个调整的影响是很大的。图 2 增加变量后的散点图

    已上线:可随时购买学习+全套课件,

    2.3 多元线性回归系数的代数和矩阵解释

    我们从简单的二元回归模型来看系数的代数解释。首先,我们假设回归计量模型为:

    通过最小二乘估计,我们可以得到系数的代数表达式如下。可以发现,系数

    正是

    回归的斜率。也就是说,

    的回归系数

    回归后的残差再回归的结果。可以理解为是调整了

    的共同线性变化后,

    变动一单位对

    的平均变化。_

    对于多元回归系数,可以写成矩阵的形式,

    。令

    的预测值为

    ,则

    ,其中

    被称为「投影矩阵」,也就是说

    超平面上的投影。

    2.4 常见的错误解读

    在拟合方程中,预测因子的系数估计值

    不仅仅代表斜率,其包含更复杂的关系。

    常见的对

    的解释为:控制其他解释变量不变,

    变化一单位,

    的平均变化。

    然而,这样的解释只有当

    为虚拟变量,即其值由 0 变 1 时才成立。这样运用「控制」来描述

    与其他预测因子之间的关系显然存在问题

    (1) 「控制」的描述可能意味着在数据收集中对预测因子运用了随机化原则 (randomization rules),即总体或样本中每个个体发生的概率均等。

    (2) 「控制」的描述并不能反映多元回归的工作原理,即忽视了其它预测因子对回归系数的影响。「控制」的解释通常是从偏导数的定义来的。简单说,

    的偏导数,即

    。然而,运用偏导数的概念来解释

    存在两方面缺陷,一方面,实际数据是无法观测的,

    的偏导只是形式上的;另一方面,在微积分中的「保持不变」是偏导的假设,而这里是把假设当作结论。偏导数并不能解释系数在多大程度上反映其他预测因子的贡献。

    (3) 在很多模型中,我们没法保证

    的变动不会引起其它预测因子的变动。可以从两个例子来进一步理解「保持不变」的说法是不合理的。第一个例子,在模型 (6) 中,我们不可能要求在

    不变的情况下仅让

    变动。第二个例子,在模型 (7) 中,在改变

    时,若想保持

    不变,就必须让

    能够变动。

    (4) 允许一个预测因子变化而其他预测因子固定在其平均值所获得的预测值可能没有意义。一方面,某些预测因子的均值可能缺乏实际经济意义;另一方面,在数据中预测时使用的任何特定预测因子模式都可能没法显示。

    2.5 正确的解释

    为此,Hoaglin (2016) 提出对于多元回归系数的「正确解释」应该为: 表示,调整了

    和其他预测因子对

    的共同线性影响后,

    变化一单位,

    的平均变化。

    他们运用「调整」来代替「控制」,同时突出预测因子间对响应变量的共同线性影响。 Long and Drukker(2016)

    3. Stata 命令:margins 运用问题

    温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。

    对多元回归系数估计值的重新解读会对 margins 命令的运用带来重要影响。下面是 margins 命令官方说明文档中的一个例子,所使用的数据为虚构的网络数据 margex.dta:

    . webuse margex, clear

    (Artificial data for margins)

    . tab group sex,column

    +-------------------+

    | Key |

    | ----------------- |

    | frequency |

    | column percentage |

    +-------------------+

    | sex

    group | male female | Total

    -----------+----------------------+----------

    1 | 215 984 | 1,199

    | 14.35 65.51 | 39.97

    -----------+----------------------+----------

    2 | 666 452 | 1,118

    | 44.46 30.09 | 37.27

    -----------+----------------------+----------

    3 | 617 66 | 683

    | 41.19 4.39 | 22.77

    -----------+----------------------+----------

    Total | 1,498 1,502 | 3,000

    | 100.00 100.00 | 100.00

    可以看到样本在不同组别中的性别分布是截然不同的,接下来我们做因变量

    对性别

    和组别

    的简单回归,数据中并未说明

    的具体含义,不妨假设其代表小时工资.

    . reg y i.sex i.group

    Source | SS df MS Number of obs = 3,000

    -------------+---------------------------------- F(3, 2996) = 152.06

    Model | 183866.077 3 61288.6923 Prob > F = 0.0000

    Residual | 1207566.93 2,996 403.059723 R-squared = 0.1321

    -------------+---------------------------------- Adj R-squared = 0.1313

    Total | 1391433.01 2,999 463.965657 Root MSE = 20.076

    ------------------------------------------------------------------------------

    y | Coef. Std. Err. t P>|t| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    sex |

    female | 18.322 0.893 20.52 0.000 16.571 20.073

    |

    group |

    2 | 8.038 0.914 8.80 0.000 6.246 9.829

    3 | 18.639 1.160 16.08 0.000 16.366 20.913

    |

    _cons | 53.321 0.935 57.06 0.000 51.489 55.154

    ------------------------------------------------------------------------------

    在不加任何选项的情况下, margins 命令默认计算的是平均调整过的预测值 (Average adjusted predictions, AAPs) ,将样本视为每个人都是男性 (或是女性) , margins 命令的结果如下:

    . margins sex

    Predictive margins Number of obs = 3,000

    Model VCE : OLS

    Expression : Linear prediction, predict()

    ------------------------------------------------------------------------------

    | Delta-method

    | Margin Std. Err. t P>|t| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    sex |

    male | 60.560 0.578 104.74 0.000 59.427 61.694

    female | 78.882 0.577 136.65 0.000 77.751 80.014

    ------------------------------------------------------------------------------

    从结果可以看出,两个 AAPs 之差刚好等于性别的估计系数 (78.88−60.56 = 18.32) 。然而,如果让 AAPs 有意义,就必须假定每个个体刚好以 39.97%,37.27%​ 和 22.77% 的概率分布在 group1、group2 和 group3。

    并且,在这三个群体中,男性和女性都应该具有相同的分布。然而,样本的「预测空间」为六个点,分别对应为

    。在交叉表中可以看出,三个组中的男性和女性的分布有显著差异。

    以上分析属于线性回归,接着,我们运用 nhanes2f.dta 数据集,讨论 logistic 回归的情况。

    . webuse nhanes2f, clear

    . logit diabetes black female age

    Iteration 0: log likelihood = -1999.0668

    Iteration 1: log likelihood = -1841.3525

    Iteration 2: log likelihood = -1812.3671

    Iteration 3: log likelihood = -1811.9834

    Iteration 4: log likelihood = -1811.9828

    Iteration 5: log likelihood = -1811.9828

    Logistic regression Number of obs = 10,335

    LR chi2(3) = 374.17

    Prob > chi2 = 0.0000

    Log likelihood = -1811.9828 Pseudo R2 = 0.0936

    ------------------------------------------------------------------------------

    diabetes | Coef. Std. Err. z P>|z| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    black | 0.718 0.127 5.66 0.000 0.469 0.966

    female | 0.155 0.094 1.64 0.101 -0.030 0.339

    age | 0.059 0.004 15.93 0.000 0.052 0.067

    _cons | -6.405 0.237 -27.00 0.000 -6.870 -5.940

    ------------------------------------------------------------------------------

    我们知道,logit 回归的系数并不代表边际效应。对于非线性模型,边际效应不是常数,而是随着解释变量而变化。

    我们接下来看年龄 (age) 在 20、30、40、50、60 和 70 处,性别 (female) 和种族 (black) 在样本均值处的边际效应。

    可以发现,当性别和种族处于均值时 (0.525 和 0.105) ,70 年龄组的边际效应是 20 年龄组的 18 倍 (11% 和 0.6%) 。样本的「预测空间」为四个点:

    。要使这个结果有解释意义,我们必须假定 20 岁年龄组和 70 岁年龄组的女性占比为 0.525,黑人占比为 0.105。然而,实际上,在nhanes2f.dta 数据集中,20 岁年龄组的女性占比为 0.578,而黑人占比 0.123;70 岁年龄组的女性占比 0.5,而黑人占比 0.064。

    . margins, at(age=(20 30 40 50 60 70)) atmeans

    Adjusted predictions Number of obs = 10,335

    Model VCE : OIM

    Expression : Pr(diabetes), predict()

    1._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 20

    2._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 30

    3._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 40

    4._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 50

    5._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 60

    6._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 70

    ------------------------------------------------------------------------------

    | Delta-method

    | Margin Std. Err. z P>|z| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    _at |

    1 | 0.006 0.001 6.38 0.000 0.004 0.008

    2 | 0.011 0.001 8.25 0.000 0.009 0.014

    3 | 0.020 0.002 11.42 0.000 0.017 0.024

    4 | 0.036 0.002 16.99 0.000 0.032 0.041

    5 | 0.064 0.003 22.50 0.000 0.059 0.070

    6 | 0.110 0.006 18.82 0.000 0.099 0.122

    ------------------------------------------------------------------------------

    样本取不同值的边际效应差别会很大。然而,一般文献里常计算样本均值处的边际效应。从下图我们可以发现,当性别和人种取不同值时,20 岁年龄组和 70 岁年龄组的边际效应差别非常大。尽管 margins 可以为很多模型的预测提供更大的灵活性,然而,在分析时不能一味的选择「样本均值处边际效应」,而是应该详细分析样本的预测区间,谨慎选取样本代表值。

    . margins, at(age=(20 70) black=(0 1) female=(0 1))

    Adjusted predictions Number of obs = 10,335

    Model VCE : OIM

    Expression : Pr(diabetes), predict()

    1._at : black = 0

    female = 0

    age = 20

    2._at : black = 0

    female = 0

    age = 70

    3._at : black = 0

    female = 1

    age = 20

    4._at : black = 0

    female = 1

    age = 70

    5._at : black = 1

    female = 0

    age = 20

    6._at : black = 1

    female = 0

    age = 70

    7._at : black = 1

    female = 1

    age = 20

    8._at : black = 1

    female = 1

    age = 70

    ------------------------------------------------------------------------------

    | Delta-method

    | Margin Std. Err. z P>|z| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    _at |

    1 | 0.005 0.001 5.99 0.000 0.004 0.007

    2 | 0.096 0.007 13.51 0.000 0.082 0.110

    3 | 0.006 0.001 6.10 0.000 0.004 0.008

    4 | 0.110 0.007 15.05 0.000 0.096 0.125

    5 | 0.011 0.002 5.24 0.000 0.007 0.015

    6 | 0.179 0.020 9.08 0.000 0.140 0.217

    7 | 0.013 0.002 5.32 0.000 0.008 0.018

    8 | 0.203 0.021 9.66 0.000 0.161 0.244

    ------------------------------------------------------------------------------

    4. 小结

    总的来说,Hoaglin (2016) 认为在解释多元回归系数时,文献和教科书中常用的「保持不变」,「控制」和「固定」等词语均不能很好的反应多元回归的基本原理,也不符合现实情况。

    他认为,「调整共同线性影响」的表述会更适合。此外,在运用 margins 命令时应该谨慎选择「样本均值处」的边际效应。需要根据实际情况,弄清楚「样本预测空间」,并据此在合适的「点位」上求取边际效应,才能保证我们所着力解释的系数有真正的经济含义。

    参考文献Hoaglin David C., 2016, Regressions are Commonly Misinterpreted, Stata Journal, 16(1): 5–22.

    Hardin James W. , 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 23–24.

    Long J. Scott, David M. Drukker, 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 25–29.

    Hoaglin David C., 2016, Regressions are Commonly Misinterpreted: A Rejoinder, Stata Journal, 16(1): 30–36.

    附:文中所用代码

    . sysuse auto, clear

    . generate gp100m = 100/mpg

    . label var gp100m "Gallons per 100 miles"

    . replace weight = weight/1000

    *-相关系数

    . pwcorr gp100m weight displacement if foreign==1

    *-散点图矩阵

    . graph matrix gp100m weight displacement if foreign==1

    *-多元回归分析

    regress gp100m weight displacement if foreign == 1

    *-一元和多元回归结果对比

    . regress gp100m weight if foreign==1

    . est store m1

    . regress gp100m weight displacement if foreign==1

    . est store m2

    . esttab m1 m2, nogap b(%6.3f) s(N r2_a)

    *-部分回归图

    . ssc install reganat, replace

    . reganat gp100m weight displacement if foreign == 1, dis(weight) biline

    . graph export "图2-reganat部分回归图.png", replace

    *-手动计算二元回归的系数

    . keep if foreign==1

    . reg gp100m displacement

    . predict e_y_x2, res

    . reg weight displacement

    . predict e_x1_x2, res

    . reg e_y_x2 e_x1_x2

    *-3. Stata 命令:margins 运用问题

    . webuse margex, clear

    . tab group sex,column

    . reg y i.sex i.group

    . margins sex

    . webuse nhanes2f, clear

    . logit diabetes black female age

    . margins, at(age=(20 30 40 50 60 70)) atmeans

    . margins, at(age=(20 70) black=(0 1) female=(0 1))

    相关课程部分直播课

    课程一览

    支持回看,所有课程可以随时购买观看。Note: 部分课程的资料,PPT 等可以前往关于我们Stata 连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。

    公众号推文分类:计量专题 | 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。连享会小程序:扫一扫,看推文,看视频……扫码加入连享会微信群,提问交流更方便

    展开全文
  • (3)对一般Logistic模型系数解释

    千次阅读 2020-12-28 23:15:45
    设想有一个二分变量Y记录了人们对一决议的意见,Y=1表示支持某决议,Y=0表示反对这决议,对于人群总体来说,Y的均值用 μ 表示, μ 值就是支持的人占总人数的比例,也就是支持该决议的概率 P,而发生比 odds ...
  • 在这里,我尝试生成一个不平衡的分类集,运行logistic回归,绘制数据点并绘制决策边界线。在为了绘制决策边界线,我首先得到系数:coef = clf.best_estimator_.coef_intercept = clf.best_estimator_.intercept_然后...
  • R实现分类logistic回归

    千次阅读 2021-01-14 02:10:11
    分类logistic回归在临床研究中,接触最多的是二分类数据,如淋巴癌是否转移,是否死亡,这些因变量最后都可以转换成二分类0与1的问题。然后建立二元logistic回归方程,可以得到影响因素的OR值。那么如果遇到分类...
  • Logistics回归系数解读

    千次阅读 2021-03-09 05:29:47
    Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。 一、从线性回归到Logistic回归 线性回归和Logistic回归都是广义线性模型的特例。 假设有...
  • 一文掌握分类logistic回归

    千次阅读 多人点赞 2020-08-21 11:55:28
    Logistic回归分析(logit回归)一般可分为3类,分别是二元Logistic回归分析、分类Logistic回归分析和有序Logistic回归分析。logistic回归分析类型如下所示。 Logistic回归分析用于研究X对Y的影响,并且对X的...
  • 一、实验目的及要求 高校扩招以来,大学生就业问题就一直是全社会关注的焦点。而对大学生来说,就业密切联系着的就是专业的选择。...线性回归模型是一种流行的定量分析因变量与自变量之间相关关系的统计分析方法。
  • Logistic回归是一种统计方法,它可根据输入字段的值对记录进行分类。这种技术与线性回归类似,但用分类目标字段代替了数值字段。 实验目的:例如,假设某个电信提供商根据服务使用情况模式对其客户群进行了细分,将...
  • 结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X...
  • 使用Logistic模型前,需判断是否满足以下七个研究假设:假设1:因变量即结局是二分类变量。假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。假设3:每条观测间相互独立。分类变量(包括因变量和自...
  • 原标题:SPSS实例教程:有序分类Logistic回归1、问题与数据在某胃癌筛查项目中,研究者想了解首诊胃癌分期(Stage)与患者的经济水平的关系,以确定胃癌筛查的重点人群。为了避免性别因素对结论的混杂影响,研究者将...
  • 使用Logistic回归模型来预测一个学生是否有资格入学。评估学生在两门test中的表现来决定录取率,通过以往的成绩和是否录取的学生数据建立模型,训练Logistic回归,对每一个新申请学生,你通过lr判定是否应该予以录取...
  • Python3:《机器学习实战》之Logistic回归(2)最佳回归系数确定 转载请注明作者和出处:http://blog.csdn.net/u011475210 代码地址:https://github.com/WordZzzz/ML/tree/master/Ch05 操作系统:WINDOWS 10 软件...
  • 机器学习 —— Logistic回归

    千次阅读 多人点赞 2021-11-21 16:24:47
    现有一些数据点,我们用 一条直线对这些点进行拟合,该线称为最佳拟合...Logistic回归的一般过程 (1) 收集数据:采用任意方法收集数据。 (2) 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。...
  • 11 #alpha会随着迭代次数不断减小,但存在常数,它不会小到0 12 #这种设置可以缓解数据波动 13 alpha = 4/(1.0+j+i)+0.0001 14 #通过随机选取样本来更新回归系数 15 randIndex =int(random.uniform(0,len...
  • 逻辑斯蒂回归 基本思想 数学推导 基于R的案例 结论 基本思想这一讲给大家介绍一下...今天我们重点说一下,二项逻辑斯底回归多项逻辑斯底回归。我们先简单聊聊传统的线性回归,我们说线性回归就是y=k0+k1xy=k_0+k_1x,
  • Logistic回归模型

    千次阅读 2020-04-03 12:06:39
    为什么会用到logistic回归模型 普通线性回归模型的一个假设条件是当自...logistic回归模型可分为二分类和分类模型。 二分类logistic回归模型 当因变量只有0,1两种取值时,因变量服从伯努利分布: 预测自变量取...
  • 第13章Stata Logistic回归分析

    千次阅读 2021-07-17 10:16:13
    根据因变量得离散特征:常用得Logistic回归分析方法有3终,包括二元Logistic回归分析、多元Logistic回归分析以及有序Logistic回归分析等。 13.1二元Logistic回归分析 我们经常会遇到因变量只有两种取值的情况,...
  • spss logistic回归分析结果如何分析

    万次阅读 2020-12-24 13:09:17
    如何用spss17.0进行二元和多元logistic回归分析一、二元logistic回归分析二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。...
  • Python实现Logistic回归

    2020-12-13 10:41:20
    假设现在有一些数据点,我们用一条直线对这些点...使用梯度下降找到最佳参数每个回归系数初始化为1重复R次:计算整个数据集的梯度使用alpha*gradient更新回归系数的向量返回回归系数def loadDataSet():dataMat = [];...
  • logistic回归分类与softmax回归

    千次阅读 2019-10-21 17:19:50
    目录 Logistic回归 逻辑回归的定义式: ...logistic回归分类)和softmax的关系: YOLOV3中的逻辑分类应用 Logistic回归 Logistic回归(LR):是一种常用的处理二分类问题的模型。 二分类...
  • Logistic 回归的决策边界

    千次阅读 2021-12-11 12:22:54
    而散点图更是包含着属于不同类别的数据点(用颜色或形状表示),决策边界可以通过多种不同的策略绘制:单线决策边界和基于轮廓的决策边界,这一节主要以逻辑回归为例分析如何绘制线性和非线性决策边界。
  • logistic回归详解

    万次阅读 多人点赞 2019-04-20 15:37:52
           逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型,...利用logistic回归进行分类的主要思想是:根据现有的数据对分类边界线建立回归...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,815
精华内容 3,926
关键字:

多项logistic回归系数解释

友情链接: MPEG4.rar