精华内容
下载资源
问答
  • 一、 概述 Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,...因变量为分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。  下面学习一下Odds、OR、RR的概念: 在病例

    一、 概述

    Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。

    因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。 

    下面学习一下Odds、OR、RR的概念:

    在病例对照研究中,可以画出下列的四格表:

    ------------------------------------------------------

    暴露因素              病例             对照

    -----------------------------------------------------

    暴露                 a                 b 

    非暴露               c                 d

    -----------------------------------------------

    Odds: 称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。在病例对照研究中病例组的暴露比值为:

    odds1 = (a/(a+c))/(c(a+c)) = a/c,

    对照组的暴露比值为:

    odds2 = (b/(b+d))/(d/(b+d)) = b/d

    OR比值比,为:病例组的暴露比值(odds1)/对照组的暴露比值(odds2) = ad/bc

     

    换一种角度,暴露组的疾病发生比值:

    odds1 = (a/(a+b))/(b(a+b)) = a/b

    非暴露组的疾病发生比值:

    odds2 = (c/(c+d))/(d/(c+d)) = c/d

    OR = odds1/odds2 = ad/bc

    与之前的结果一致。

     

    OR的含义与相对危险度相同,指暴露组的疾病危险性为非暴露组的多少倍。OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。 还应计算OR的置信区间,若区间跨1,一般说明该因素无意义。

    关联强度大致如下:

    ------------------------------------------------------

           OR值                        联系强度

    ------------------------------------------------------

     0.9-1.0   1.0-1.1                    

     0.7-0.8   1.2-1.4       弱(前者为负关联,后者为正关联)

     0.4-0.6   1.5-2.9                 中等(同上)

     0.1-0.3   3.0-9.0                  强(同上)

      <0.1     10.0以上                很强(同上)

    ------------------------------------------------------

     

    RR: 相对危险度(relative risk)的本质为率比(rate ratio)或危险比(risk ratio),即暴露组与非暴露组发病率之比,或发病的概率之比。但是病例对照研究不能计算发病率,所以病例对照研究中只能计算OR。当人群中疾病的发病率或者患病率很小时,OR近似等于RR,可用OR值代替RR。

    不同发病率情况下,OR与RR的关系图如下:


    SPSS学习笔记之——二项Logistic回归分析

     
    当发病率<10%时,RR与OR很接近。当发病率增大时,两者的差别增大。当OR>1时,OR高估了RR,当OR<1时,OR低估了RR。

    设疾病在非暴露人群中的发病为P0,则可用下列公式对RR记性校正:

    RR = OR/((1-P0)+(P0*OR))

    若P0未知,可以用c/(c+d)估计。

     

     


    二、 问题

    对银行拖欠贷款的影响因素进行分析,可选的影响因素有:客户的年龄、教育水平、工龄、居住年限、家庭收入、贷款收入比、信用卡欠款、其他债务等,从中选择出对是否拖欠贷款的预测因素,并进行预测。数据采用SPSS自带的bankloan.sav中的部分数据。

     

    三、 统计操作

    1、 准备数据 

    变量视图

    SPSS学习笔记之——二项Logistic回归分析

        数据视图

    SPSS学习笔记之——二项Logistic回归分析

    下面开始准备数据:

    由于“default”变量可能存在缺失值,所以要新建一个变量"validate",当default不为缺失值时,将validate=1,然后通过validate来判断将不缺失的值纳入回归分析:

    选择如下菜单:


    SPSS学习笔记之——二项Logistic回归分析

    点击进入“计算变量”对话框:


    SPSS学习笔记之——二项Logistic回归分析

    在“目标变量”看中输入“validate”,右边的“数字表达式”输入“1”。再点击下方的“如果...”按钮,进入对话框:


    SPSS学习笔记之——二项Logistic回归分析

    在框中输入missing(default)=0,含义是defalut变量不为缺失值。点击“继续”回到“计算变量”对话框:


    SPSS学习笔记之——二项Logistic回归分析

    点击确定,完成变量计算。 

    2、统计

    菜单选择


    SPSS学习笔记之——二项Logistic回归分析

    进入如下的对话框(下文称“主界面”):


    SPSS学习笔记之——二项Logistic回归分析

    将“是否拖欠贷款[default]”作为因变量选入“因变量”框中。将其与变量选入“协变量”框中,下方的“方法”下拉菜单选择“向前:LR”(即前向的最大似然法,选择变量筛选的方法,条件法和最大似然法较好,慎用Wald法)。将“validate”变量选入下方的“选择变量”框。点击“选择变量”框后的“规则”按钮,进入定义规则对话框:


    SPSS学习笔记之——二项Logistic回归分析

    设置条件为“validate=1”,点击“继续”按钮返回主界面:


    SPSS学习笔记之——二项Logistic回归分析

    点击右上角“分类”按钮,进入如下的对话框:


    SPSS学习笔记之——二项Logistic回归分析

    该对话框用来设置自变量中的分类变量,左边的为刚才选入的协变量,必须将所有分类变量选入右边的“分类协变量框中”。本例中只有“教育程度[ed]”为分类变量,将它选入右边框中,下方的“更改对比”可以默认。点击“继续”按钮返回主界面。

    回到主界面后点击“选项”按钮,进入对话框:


    SPSS学习笔记之——二项Logistic回归分析

    勾选“分类图”和“Hosmer-Lemeshow拟合度”复选框,输出栏中选择“在最后一个步骤中”,其余参数默认即可。“Hosmer-Lemeshow拟合度”能较好的检验该模型的拟合程度。

    点击继续回到主界面,点击“确定”输出结果。

     

    四、结果分析


    SPSS学习笔记之——二项Logistic回归分析

    以上是案例处理摘要及变量的编码。


    SPSS学习笔记之——二项Logistic回归分析

    上表是关于模型拟合度的检验。这用Cox&Snell R方和Negelkerke R方代替了线性回归中的R方,他们呢的值越接近1,说明拟合度越好,这个他们分别为0.2980.436,单纯看这一点,似乎模型的拟合度不好,但是该参数主要是用于模型之间的对比。


    SPSS学习笔记之——二项Logistic回归分析


    这是H-L检验表,P=0.381 > 0.05接受0假设,认为该模型能很好拟合数据。


    SPSS学习笔记之——二项Logistic回归分析


    H-L检验的随机性表,比较观测值与期望值,表中观测值与期望值大致相同,可以直观的认为,该模型拟合度较好。

    SPSS学习笔记之——二项Logistic回归分析

    这个是最终模型的预测结果列联表。在700例数据中进行预测,在未拖欠贷款的478+39=517例中,有478例预测正确,正确率92.5%;在91+92=183例拖欠贷款的用户中,有92例预测正确,正确率50.3%。总的正确率81.4%。可以看出该模型对于非拖欠贷款者预测效果较好。


    SPSS学习笔记之——二项Logistic回归分析


    这是最终拟合的结果,四个变量入选,P值均<0.05。列“B”为偏回归系数,“S.E.”为标准误差,“Wals”为Wald统计量。EXP(B)”即为相应变量的OR值(又叫优势比,比值比),为在其他条件不变的情况下,自变量每改变1个单位,事件的发生比“Odds”的变化率。如工龄为2年的用户的拖欠贷款的发生比(Odds)是工龄为1年的用户的0.785倍。

    最终的拟合方程式:logit(P)  =  -0.791 - 0.243*employ - 0.081*address + 0.088*detbinc + 0.573*creddebt。用该方程可以做预测,预测值大于0.5说明用户可能会拖欠贷款,小于0.5说明可能不会拖欠贷款。


    SPSS学习笔记之——二项Logistic回归分析


    这是不在方程中的变量,其P均大于0.05,没有统计学意义

    SPSS学习笔记之——二项Logistic回归分析

    这是预测概率的直方图。横轴为拖欠贷款的预测概率(0为不拖欠,1为拖欠),纵轴为观测的频数,符号“Y”代表拖欠,“N”代表不拖欠。若预测正确,所有的Y均应在横轴0.5分界点的右边,所有的N均应该在0.5分界点的左边,数据分布为“U”型,中间数据少,两头数据多。可以直观的看出,本模型对于不拖欠贷款的预测较好,对于拖欠贷款的预测相对较差。

    展开全文
  • 结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X...

    633f7394e8dcf2cd5518b3dcc805a730.png

    在研究X对于Y的影响时,如果Y为定量数据,那么使用多元线性回归分析(SPSSAU通用方法里面的线性回归);如果Y为定类数据,那么使用Logistic回归分析。

    结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。

    214bfceeb03053a8a7ae147d2c1005d9.png

    Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X可以为定类数据,也可以为定量数据,但要求Y必须为定类数据,并且根据Y的选项数,使用相应的数据分析方法。

    本次内容将针对二元logistic(logit)回归进行说明,后续两篇文章将分别讲解有序logistic(logit)和多分类logistic(logit)回归。

    1、二元logistic分析思路说明

    在进行二元Logistic回归分析时,通常会涉及3个步骤,分别是数据处理、卡方分析和影响关系研究,如下图。

    d71835df14d0c897a637a3589c999584.png

    1.1 第一步为数据处理

    例如,在研究相关因素对样本将来是否愿意购买理财产品的影响情况时,性别,专业等均为影响因素,而且明显的,性别和专业属于定类数据,因此需要进行虚拟哑变量设置,可使用【数据处理->生成变量】完成。

    除此之外,二元logistic回归要求因变量只能为2项,而且数字一定是0和1,数字1表示YES,愿意,购买,患病等,数字0表示no,不愿意,不购买,不患病等。如果不是这样,那么就需要针对因变量Y进行数据编码,使用【数据处理->数据编码】即可完成。

    1.2 第二步为卡方分析或方差分析

    此步不是必需的步骤,通过此步可以试探性了解每个影响因素X与Y之间的影响关系情况,研究影响关系前,首先需要自变量X与Y之间有着差异关系,才可能进一步有着影响关系,也或者说差异关系是一种基础性关系,影响关系是更进一步的深层次关系。所以在进行二元logistic回归分析前,可先对X做差异分析,筛选出与Y有着差异性的X。

    如果X是定类数据,那么就使用卡方分析去分析差异;如果说X是定量数据,那么可使用方差分析去研究X和Y的差异性。

    分析完成X与Y的差异关系之后,筛选出有差异的X,然后再放入模型中,进行二元logistic回归;这样做的目的有两个,一是简化模型,越简单的模型越容易拟合且效果越好;二是做到心里有数,提前了解到数据之间的大致关系情况。

    1.3 第三步为影响关系分析,即二元Logistic回归分析

    在上一步确认了可能的影响因素之后,此步骤直接对题进行二元Logistic回归分析。二元Logistic回归分析时,首先需要看某个题是否呈现出显著性(如果P值小于0.05,则说明呈现出0.05水平的显著性;如果P值小于0.01,则说明呈现出0.01水平的显著性),如果呈现出显著性,那么说明该题对Y有影响关系。具体是正向影响还是负向影响需要结合对应的回归系数值进行说明,如果回归系数值大于0,则说明是正向影响;反之则说明是负向影响。

    除此之外,二元Logistic回归分析会涉及一个术语——对数比(SPSSAU中称其为OR值)。对数比是一个倍数概念指标,该值等于回归系数的指数次方,也称exp(b)值。例如,研究相关因素对样本‘是否购买理财产品’的影响,性别因素呈现出显著性,并且性别以女性为对照项,其对数比(OR值)为1.34,这说明男性样本购买理财产品的可能性是女性样本的1.34倍。

    二元Logistic回归分析模型的拟合情况或模型效果的判断会涉及3个指标,分别是Hosmer和Lemeshow检验、R2值和模型预测准确率表格。Hosmer和Lemeshow检验用于检验事实数据情况与模型拟合结果是否保持一致,如果在进行Hosmer和Lemeshow检验时P值大于0.05,那么说明事实数据情况与模型拟合结果保持一致,即说明模型拟合情况良好。

    R2用于表示模型拟合程度,此值与多元线性回归分析的R2值意义基本一致,此值的取值范围为0~1,值越大意味着相关因素对Y的解释力度越高。SPSSAU提供3个R方值指标,分别是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。

    除此之外,SPSSAU还会输出模型预测准确率表格,用于分析模型的预测水平情况。比如有多大比例将本身为愿意购买理财产品的样本误判断为不愿意购买理财产品的样本。

    2、如何使用SPSSAU进行二元logistic操作

    在进行二元logistic回归分析时,共分为三个步骤,第1步是数据处理。第二步是进行卡方或者方差分析试控X对于Y的差异,找出有差异关系的X,用于进一步的二元logistic回归分析。

    2.1 数据处理

    如果X是定类数据,比如性别或专业。那么就需要首先对它们做虚拟哑变量处理,使用SPSSAU【数据处理】--【生成变量】。操作如下图:

    990cc99cda21064948d3607840deff11.png

    因变量Y只能包括数字0和1,如果因变量的原始数据不是这样,那么就需要数据编码,设置成0和1,使用SPSSAU数据处理->数据编码功能,操作如下图:

    4b6238a54df73a6b85e662c6f32d68bf.png

    2.2 卡方分析或方差分析

    本例子中想研究性别,专业,年龄,月生活费共4项对于‘是否愿意理财’的影响。性别,专业这两项为定类数据,所以可使用卡方分析它们分别与‘是否愿意理财’的差异关系。而年龄和月生活费可看成定量数据,可使用方差分析(或非参数检验)分析它们分别与‘是否愿意理财’的差异关系情况。

    由于例子里面仅4个X,本身就较少,因此模型本身并不复杂,因此直接忽略此步骤即可,直接进行二元logistic回归分析。

    2.3 二元logistic回归分析

    SPSSAU进行二元logistic回归分两步,分别是在进阶方法里面找到二元logit,第二是拖拽分析项到右我们就是右侧框后开始分析,如下所示:

    899a576d8304de35e03ba79ed69cfa9f.png

    cddc7d7578ef8dba2db5b1c0747f9497.png

    性别和专业均为定类数据,所以进行了虚拟哑变量设置。

    而且性别分为男和女,以女作为参照项,因此框中仅放入‘男’即可;

    专业分为理工类,文科类,艺术类和,体育类;以体育类作为参照项,因此框中会少放体育类,放入另外3项即理工类,文科类和艺术类即可。

    虚拟哑变量在进行影响关系研究时,一定需要有1个参照项,至于具体是哪一项,由研究者自行决定即可,无固定要求,一般是第1个或者最后1个,或者研究者希望设置作为参考项的。

    完成后,SPSSAU会得到一系列的表格和智能分析,包括模型基本汇总表格,模型似然比检验表格,模型参数拟合表格,模型预测准确率表格,Hosmer-Lemeshow拟合度检验等。如下:

    dd67d9a5ab53dae14d48dd4cd055d3bb.png

    二元logit回归分析基本汇总

    5d45a5f4dd910018a28304d2321dd4ff.png

    二元logit回归模型似然比检验结果

    b037e0909dd33c15daf1b76dc52ac20b.png

    二元logit回归结果分析

    d72d9bdb90ae83e59b997e1648b36848.png

    二元logit回归预测准确率表格

    e22b8fc824ea3ed8a8a3f3bdbb9850c9.png

    Hosmer-Lemeshow拟合度检验 

    3、二元logistic相关问题

    在使用SPSSSAU进行二元logistic回归时,可能会出现一些问题,比如提示奇异矩阵,质量异常,Y值只能为0或1等,接下来一一说明。

    6ebf1701cff86e618eeb557a0f324b87.png

    第1点:出现奇异矩阵或质量异常

    如果做二元logistic提示奇异矩阵,通常有两个原因,一是虚拟哑变量设置后,本应该少放1项作为参考项但是并没有,而是把所有的哑变量项都放入框中,这会导致绝对的共线性问题即会出现奇异矩阵矩阵。二是X之间有着太强的共线性(可使用通用方法的线性回归查看下VIF值),此时也可能导致模型无法拟合等。先找出原因,然后把有问题的项移出模型中即可。

    同时,如果自变量X的分布极其不均匀,SPSSAU建议可先对类别进行组合,可使用数据处理里面的数据编码完成。

    第2点:Y值只能为0或1

    二元logistic回归研究X对Y的影响,Y为两个类别,比如是否愿意,是否喜欢,是否患病等,数字一定有且仅为2个,分别是0和1。如果不是这样就会出现此类提示,可使用SPSSAU频数分析进行检查,并且使用数据处理->数据编码功能进行处理成0和1。

    第3点:OR值的意义

    OR值=exp(b)值,即回归系数的指数次方,该值在医学研究里面使用较多,实际意义是X增加1个单位时,Y的增加幅度。如果仅仅是研究影响关系,该值意义较小。

    第4点: wald值或z值

    z 值=回归系数/标准误,该值为中间过程值无意义,只需要看p 值即可。有的软件会提供wald值(但不提供z 值,该值也无实际意义),wald值= z 值的平方。

    第5点: McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相关问题?

    Logit回归时会提供此3个R 方值(分别是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方),此3个R 方均为伪R 方值,其值越大越好,但其无法非常有效的表达模型的拟合程度,意义相对交小,而且多数情况此3个指标值均会特别小,研究人员不用过分关注于此3个指标值。一般报告其中任意一个R方值指标即可。

    展开全文
  • 项logistic回归分析

    2011-03-31 14:16:19
    项logistic回归在医学统计中广泛应用,但对于大多数医学生来说是一难点,分享我找到的相关资料
  • 本文脉络:logistic回归模型的含义logistic模型的决策边界函数分析logistic模型的参数最优化logistic回归模型与感知机模型的比较总结logistic回归模型的含义我们把分类模型分成两个阶段,推断阶段和决策...

    37d470dacc9b1c4161dad4418a117780.png

    logistic回归模型是一种线性生成模型。本文将介绍logistic回归模型相关的知识,为了更好地理解模型的决策边界函数,本文同时分析了多元变量的协方差对概率分布的影响。

    本文脉络:

    1. logistic回归模型的含义
    2. logistic模型的决策边界函数分析
    3. logistic模型的参数最优化
    4. logistic回归模型与感知机模型的比较
    5. 总结

    logistic回归模型的含义

    我们把分类模型分成两个阶段,推断阶段和决策阶段,推断阶段对联合概率分布建模,然后归一化,得到后验概率。决策阶段确定每个新输入x的类别。

    我们用推断阶段的方法来推导logistic回归模型,首先对类条件概率密度

    和类先验概率分布
    建模,然后通过贝叶斯定理计算后验概率密度。

    考虑二分类的情形,类别C1的后验概率密度;


    则:

    式中的

    就是logistic函数

    因此,logistic回归的值等于输入变量为x的条件下类别为C1的概率

    (1) 当

    分类结果为C1

    (2) 当
    分类结果为C2

    结论:logistic回归值表示所属类的后验概率,无论是二分类还是多分类,分类结果都是后验概率最大所对应的类。

    logistic的决策边界函数分析

    决策边界函数,简而言之,就是函数的两侧是不同的分类结果。

    可定性的分析协方差的三种情况与分布图的关系。

    (a) 图表示正常的协方差矩阵的高斯分布图。
    (b) 图表示协方差矩阵是对角矩阵的高斯分布图。
    (c) 图表示协方差矩阵是对角矩阵且对角元素都相等的高斯分布图。

    ed6eafab10f80176f8821fb8076e367c.png

    ab1d58cb1ff3744093ba4de9798d0cb6.png

    dd7c9ae7fadefc9958a8a7068a70aac3.png

    logistic的决策边界函数分析

    logistic曲线如下图,红色直线(a=0)表示决策边界函数:

    3c229a4600adc57ce68e388acec8d2e0.png

    假设类条件概率密度是高斯分布,即P(x|Ck),然后求解后验概率的表达式,即P(Ck|x)。我们知道,logistic回归值就是所求的后验概率。

    假设类条件概率密度的协方差相同,类条件概率密度为:

    由上面的推导公式得后验概率为:

    其中:

    由后验概率

    的表达式可知,当类条件的协方差矩阵相等时,决策边界函数是随x线性变化的直线。

    结论:如下图,若两类的条件概率密度的协方差相同时(如C1和C2的协方差相同),则决策边界函数是直线;若两类的条件概率密度的协方差不相同时(如C1和C3,C2和C3),则决策边界函数是曲线。判断协方差矩阵是否相同可以根据分布图形形状是否相同来判断,如C1和C2的协方差相同,C3和C1、C2的协方差不相同。

    963e5ca4fc546a105f3bd43d36796309.png

    假设类条件概率密度符合高斯分布且具有相同的协方差矩阵,则决策边界函数是一条直线;若类条件概率密度符合更一般的指数分布且缩放参数s相同,决策边界函数仍然是一条直线。

    logistic模型的参数最优化

    logistic模型损失函数

    logistic回归模型的含义是后验概率分布,因此可以从概率的角度去设计损失函数。

    考虑两分类情况,假设有N个训练样本,logistic模型是

    表示后验概率y=1的概率,则
    表示y=0的概率,变量
    取值1或0,且分别代表模型

    因此,似然函数

    损失函数

    logistic模型的参数最优化

    损失函数最小化等价于模型参数的最优化,如下图:

    利用梯度下降法求最优解,学习速率

    :

    具体求法本文不介绍,只给出算法的思想。
    为了避免过拟合问题,则在原来的损失函数增加正则项,然后利用梯度下降法求最优解,这里也不展开。

    logistic模型与感知机模型的比较

    logistic模型与感知机模型的相同点

    由上面的分析可知,假设类条件概率分布的协方差相同,则logistic模型的决策边界函数是随x线性变化的直线,因此,感知机模型与logistic模型的分类策略一样,即决策边界函数是一样的。如下图:

    d5bb1a5241499612c354f3d7371a1c6e.png

    感知机模型:当点落在直线上方,y>0,则分类结果为C1;反之为C2。
    logistic模型:当点落在上方,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。

    考虑到对输入变量x进行非线性变换

    ,感知机和logistic模型的分类策略仍一样,决策边界函数相同,如下图:

    dba974f00771b1e18ae4ed733eed75aa.png

    感知机模型:当点落在圆外,y>0,则分类结果为C1;反之为C2。
    logistic模型:当点落在圆外,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。

    logistic模型与感知机模型的异同点

    (1) logistic回归模型限制值的范围在0~1,感知机模型对值范围没有限制,因此logistic模型相比感知机模型,对异常点有更强的鲁棒性。如下图,当有异常数据时,logistic模型要好于感知机模型。

    b4fa6f11b6965ac6a678625e5dc4a05d.png

    (2) 感知机模型用误分类点到超平面的距离衡量损失函数,而logistic模型则从概率角度去衡量损失函数。

    总结

    logistic回归的含义是后验概率分布,用概率的角度去设计似然函数,logistic模型相比于感知机模型对异常数据具有更好的鲁棒性。

    展开全文
  • logistic回归系列()中,我们把logistic回归因变量转化成了比数对数后进行回归,简化了预测问题,有利于描述整个步骤背后的逻辑。然而,对于更常见的非线性所做的转化来说,自变量在logistic...

    回顾:当logistic回归模型能够较好地拟合数据时,我们便可以对模型的系数进行解释了,类似于线性回归系数。Logistic回归系数也可以被解释为对应自变量一个单位的变化所导致的因变量上的变化。在logistic回归系列(二)中,我们把logistic回归因变量转化成了比数对数后进行回归,简化了预测问题,有利于描述整个步骤背后的逻辑。

    然而,对于更常见的非线性所做的转化来说,自变量在logistic回归中造成的影响有许多解释。本期拟用三种方法来解释logistic的回归系数。

    1比数的对数

    第一种解释方法直接使用了从logistic回归得出的系数。Logistic回归系数简单表示自变量每变化一个单位,预测的发生某事件或者具有某种特征的比数对数的改变。除了因变量的单位代表的是比数对数,系数的解释和普通回归中的系数的解释是完全一样的。例如有1000例20至40岁的企业员工年终奖金发放情况。雇佣年限的logistic回归系数0.13表示雇佣年限每增加一年,目前员工奖金发放率比数的对数会增加0.13。2比数第二种解释将logistic回归系数进行转化,使得自变量影响的是比数而非比数对数。为了找到对比数的影响,把logistic回归系数取指数或者反对数就可以了。例如:

    0ec04da2609b383c6633e5972e722d46.png

    ,可以得出

    ab586079a515b09bc935e2b09d91c0f2.png

    简单实例分析:

    例如手术感染问题:

    dc7ecdca49b09cddd5706d5b19a1a5bb.png

    首先明确两个概念,相对危险RR和指数比OR。

    673d6e3406439df1f02b813f52ce7a1e.png

    如果x = 1,0,则

    5a9a5b9dd17916fcf25367c0958f398d.png

    近似表示表示在x = 1条件下的发病率与在x = 0条件下发病率之比(相对危险度)。

    因此,实例中的logistic回归模型为:

    da0513c3579ec98057652251525ce732.png

    从β = 0.986得到OR≈RR=2.618。所以,手术时间大于5小时的感染率是手术时间小于或等于5小时感染率的2.681倍,即感染的可能性增加了186.1%。

    3概率

    第三种解释logistic回归系数的方法涉及将对比数对数或者比数的影响转化为对概率的影响。由于自变量和概率之间的关系并不是线性的而且不可加的,它们之间无法用一个系数来完整描述。对概率带来的影响在指定好某一个特殊值或者某一组特殊值后在能够被确认。如何选择这些特定自变量的值依赖于实际工作的考虑以及数据本身的特性。这种方法有一个简明的优点,就是可以检验某个特殊案例对概率带来的影响。

    小结:本期我们简要介绍了logistic系数解释的三种方法,并用一个案例来进行说明,使我们对整个模型更加熟悉,下期我们将会对我们创建的这个模型进行评价,以判断模型的适当性,是否适合实际应用。

    关于Logistic回归的其它基础内容,小伙伴们可以回顾本系列的第一篇推文《Logistic回归系列(一)——logistic回归概述》和第二篇《Logistic回归系列(二)——logistic回归数学模型》。

    展开全文
  • 点击上方蓝字关注我们在社会科学的研究中,经常会遇到二元变量的情况,...如果希望根据一系列预测变量的值来预测某种特征或结果是否存在,且因变量为二元变量,通常采用二元Logistic回归。1二元逻辑回归分析的原理与...
  • 回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具。按照研究方法划分,回归分析研究的范围大致如下:本文简述几个主要的回归模型:线性回归:适用于因变量和自变量是...
  • logistic回归分析及SAS实现医学研究中的logistic回归分析及SAS实现
  • 多元Logistic 回归分析

    2013-02-22 11:02:22
    多元Logistic_回归分析多元Logistic_
  • 1.分组数据的Logistic回归 例1: 在一次住房展销会上,与房地产商签订初步购房意向书的共有名 顾客,在随后的3个月的时间内,只有一部分顾客确实购买了房屋.购买了房屋的顾客记为1,没有购买房屋的顾客记为0,以顾客的年...
  • 采用Minitab进行logistic回归分析

    千次阅读 2020-04-07 09:41:52
    在研究Y与X之间的因果关系时,如果Y不是一个定比或定距变量时,就需要进行logistic回归。logistic回归是一种广义线性... logistic回归分析类型 因变量Y的特征 举例 二元logistic...
  • 一文掌握有序logistic回归分析

    千次阅读 2020-08-28 17:12:31
    Logistic回归分析(logit回归)一般可分为3类,分别是二元logistic回归分析、多分类Logistic回归分析和有序Logistic回归分析logistic回归分析类型如下所示。 Logistic回归分析用于研究X对Y的影响,并且对X...
  • 原数据部分截图:先看一下是否低出生体重,与是否吸烟之间的关系,使用卡方检验:接下来看一下,相同的单变量,使用Logistic回归应该如何去做:看一下具体的预测概率值:下面,把案例中的连续性自变量和分类自变量...
  • 应用LOGISTIC回归分析(第2版)
  • 方法:采用神经精神问卷(NPI-Q)知情者版,对60名社区初筛为MCI老年人的家属进行调查,根据回收到的有效数据分析MCI老年人精神行为症状的发生情况并研究其影响因素,以期为今后对MCI精神行为症状的预防和干预提供依据...
  • 在医学研究中,为了控制一些重要的混杂因素,经常会把病例和对照按年龄,性别等条件进行配对,...病历对照研究或者倾向得分匹配研究(一种将研究数据处理成‘随机对照实验数据’的方法)中常使用条件Logistic回归进...
  • 5.4 logistic回归分析

    2020-07-26 12:19:53
    logistic回归分析主要用来做分类(尤其是分类问题),下面以客户是否会及时还信用卡欠款的数据进行预测 https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients 信用卡是否违约数据集 from ...
  • Logistic 回归常用于分析二分类因变量与多个自变量的关 系, 本文通过案例解析分类变量的 Logistic 回归, 借助于 SPSS 软件 实现 Logistic 回归过程, 并对多分类因变量的 Logistic 回归做简单 介绍。
  • Logistic回归分析

    千次阅读 2019-04-21 11:09:04
    \\首先我们使用全部变量来拟合Logistic回归模型。 > spam.glm (spam~.,data=spambase,family="binomial") > summary(spam.glm) \\可以看到很多效果不显著的系数。 接下来,我们执行变量选择,获取最优预测模型。 ...
  • Logistic回归分析.ppt

    2010-05-15 11:56:47
    介绍数学建模中SAS软件logistic回归分析的PPT。
  • 根据因变量得离散特征:常用得Logistic回归分析方法有3终,包括二元Logistic回归分析、多元Logistic回归分析以及有序Logistic回归分析等。 13.1二元Logistic回归分析 我们经常会遇到因变量只有两种取值的情况,...
  • 前面,我们讲了logistic回归,单因素logistic回归分析。今天,我们来讲解一个数据分析的全过程,即所谓的单因素和多因素分析。案例:分析有生育障碍的妇女进行注射HCG后卵巢反应的影响因素,研究收集的参与者数据有...
  • logistic回归分析

    2012-10-25 13:26:31
    logistic相当不错的资料,自己慢慢看吧,内容讲解详细
  • 分类变量logistic回归分析--1

    千次阅读 2020-09-23 22:58:49
    1. 分类logistic回归分析 2. 多分类logistic回归分析 因变量(y变量)是多分类的,包括无序和有序的。 无序的多类别因变量:对应无序多分类logistic回归模型 有序的多类别因变量:有序多分类logistic回归模型 ...
  • spss logistic回归分析结果如何分析

    千次阅读 2016-12-17 16:24:00
    二元logistic回归分析的前提为因变量是可以转化为0、1的分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。 下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic...
  • 分类器的logistic回归分析,机器学习解决的问题大体上就是两种:数值预测和分类两种问题。从本质上 讲是一样的:都是通过对已有数据的学习,构建模型,然后对未知的数据进行预 测,若是连续的数值预测就是回归问题,...
  • 专栏的前几期文章,临度简单讲解了基础统计的知识,如:两组定量资料的分析思路之t检验多组样本比较之方差分析 列联表之卡方检验之后介绍了logistic回归,如:统计分析之logistic回归单因素logistic回归分析案例多...
  • 一、逻辑回归的概念逻辑回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。.逻辑回归不是回归 从名字来理解逻辑回归.在逻辑回归中,逻辑(logistics ),并不...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,860
精华内容 10,744
关键字:

二项logistic回归分析