精华内容
下载资源
问答
  • 多项logistic回归分析

    2011-03-31 14:16:19
    多项logistic回归在医学统计中广泛应用,但对于大多数医学生来说是一难点,分享我找到的相关资料
  • 结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X...

    633f7394e8dcf2cd5518b3dcc805a730.png

    在研究X对于Y的影响时,如果Y为定量数据,那么使用多元线性回归分析(SPSSAU通用方法里面的线性回归);如果Y为定类数据,那么使用Logistic回归分析。

    结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。

    214bfceeb03053a8a7ae147d2c1005d9.png

    Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X可以为定类数据,也可以为定量数据,但要求Y必须为定类数据,并且根据Y的选项数,使用相应的数据分析方法。

    本次内容将针对二元logistic(logit)回归进行说明,后续两篇文章将分别讲解有序logistic(logit)和多分类logistic(logit)回归。

    1、二元logistic分析思路说明

    在进行二元Logistic回归分析时,通常会涉及3个步骤,分别是数据处理、卡方分析和影响关系研究,如下图。

    d71835df14d0c897a637a3589c999584.png

    1.1 第一步为数据处理

    例如,在研究相关因素对样本将来是否愿意购买理财产品的影响情况时,性别,专业等均为影响因素,而且明显的,性别和专业属于定类数据,因此需要进行虚拟哑变量设置,可使用【数据处理->生成变量】完成。

    除此之外,二元logistic回归要求因变量只能为2项,而且数字一定是0和1,数字1表示YES,愿意,购买,患病等,数字0表示no,不愿意,不购买,不患病等。如果不是这样,那么就需要针对因变量Y进行数据编码,使用【数据处理->数据编码】即可完成。

    1.2 第二步为卡方分析或方差分析

    此步不是必需的步骤,通过此步可以试探性了解每个影响因素X与Y之间的影响关系情况,研究影响关系前,首先需要自变量X与Y之间有着差异关系,才可能进一步有着影响关系,也或者说差异关系是一种基础性关系,影响关系是更进一步的深层次关系。所以在进行二元logistic回归分析前,可先对X做差异分析,筛选出与Y有着差异性的X。

    如果X是定类数据,那么就使用卡方分析去分析差异;如果说X是定量数据,那么可使用方差分析去研究X和Y的差异性。

    分析完成X与Y的差异关系之后,筛选出有差异的X,然后再放入模型中,进行二元logistic回归;这样做的目的有两个,一是简化模型,越简单的模型越容易拟合且效果越好;二是做到心里有数,提前了解到数据之间的大致关系情况。

    1.3 第三步为影响关系分析,即二元Logistic回归分析

    在上一步确认了可能的影响因素之后,此步骤直接对题进行二元Logistic回归分析。二元Logistic回归分析时,首先需要看某个题是否呈现出显著性(如果P值小于0.05,则说明呈现出0.05水平的显著性;如果P值小于0.01,则说明呈现出0.01水平的显著性),如果呈现出显著性,那么说明该题对Y有影响关系。具体是正向影响还是负向影响需要结合对应的回归系数值进行说明,如果回归系数值大于0,则说明是正向影响;反之则说明是负向影响。

    除此之外,二元Logistic回归分析会涉及一个术语——对数比(SPSSAU中称其为OR值)。对数比是一个倍数概念指标,该值等于回归系数的指数次方,也称exp(b)值。例如,研究相关因素对样本‘是否购买理财产品’的影响,性别因素呈现出显著性,并且性别以女性为对照项,其对数比(OR值)为1.34,这说明男性样本购买理财产品的可能性是女性样本的1.34倍。

    二元Logistic回归分析模型的拟合情况或模型效果的判断会涉及3个指标,分别是Hosmer和Lemeshow检验、R2值和模型预测准确率表格。Hosmer和Lemeshow检验用于检验事实数据情况与模型拟合结果是否保持一致,如果在进行Hosmer和Lemeshow检验时P值大于0.05,那么说明事实数据情况与模型拟合结果保持一致,即说明模型拟合情况良好。

    R2用于表示模型拟合程度,此值与多元线性回归分析的R2值意义基本一致,此值的取值范围为0~1,值越大意味着相关因素对Y的解释力度越高。SPSSAU提供3个R方值指标,分别是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。

    除此之外,SPSSAU还会输出模型预测准确率表格,用于分析模型的预测水平情况。比如有多大比例将本身为愿意购买理财产品的样本误判断为不愿意购买理财产品的样本。

    2、如何使用SPSSAU进行二元logistic操作

    在进行二元logistic回归分析时,共分为三个步骤,第1步是数据处理。第二步是进行卡方或者方差分析试控X对于Y的差异,找出有差异关系的X,用于进一步的二元logistic回归分析。

    2.1 数据处理

    如果X是定类数据,比如性别或专业。那么就需要首先对它们做虚拟哑变量处理,使用SPSSAU【数据处理】--【生成变量】。操作如下图:

    990cc99cda21064948d3607840deff11.png

    因变量Y只能包括数字0和1,如果因变量的原始数据不是这样,那么就需要数据编码,设置成0和1,使用SPSSAU数据处理->数据编码功能,操作如下图:

    4b6238a54df73a6b85e662c6f32d68bf.png

    2.2 卡方分析或方差分析

    本例子中想研究性别,专业,年龄,月生活费共4项对于‘是否愿意理财’的影响。性别,专业这两项为定类数据,所以可使用卡方分析它们分别与‘是否愿意理财’的差异关系。而年龄和月生活费可看成定量数据,可使用方差分析(或非参数检验)分析它们分别与‘是否愿意理财’的差异关系情况。

    由于例子里面仅4个X,本身就较少,因此模型本身并不复杂,因此直接忽略此步骤即可,直接进行二元logistic回归分析。

    2.3 二元logistic回归分析

    SPSSAU进行二元logistic回归分两步,分别是在进阶方法里面找到二元logit,第二是拖拽分析项到右我们就是右侧框后开始分析,如下所示:

    899a576d8304de35e03ba79ed69cfa9f.png

    cddc7d7578ef8dba2db5b1c0747f9497.png

    性别和专业均为定类数据,所以进行了虚拟哑变量设置。

    而且性别分为男和女,以女作为参照项,因此框中仅放入‘男’即可;

    专业分为理工类,文科类,艺术类和,体育类;以体育类作为参照项,因此框中会少放体育类,放入另外3项即理工类,文科类和艺术类即可。

    虚拟哑变量在进行影响关系研究时,一定需要有1个参照项,至于具体是哪一项,由研究者自行决定即可,无固定要求,一般是第1个或者最后1个,或者研究者希望设置作为参考项的。

    完成后,SPSSAU会得到一系列的表格和智能分析,包括模型基本汇总表格,模型似然比检验表格,模型参数拟合表格,模型预测准确率表格,Hosmer-Lemeshow拟合度检验等。如下:

    dd67d9a5ab53dae14d48dd4cd055d3bb.png

    二元logit回归分析基本汇总

    5d45a5f4dd910018a28304d2321dd4ff.png

    二元logit回归模型似然比检验结果

    b037e0909dd33c15daf1b76dc52ac20b.png

    二元logit回归结果分析

    d72d9bdb90ae83e59b997e1648b36848.png

    二元logit回归预测准确率表格

    e22b8fc824ea3ed8a8a3f3bdbb9850c9.png

    Hosmer-Lemeshow拟合度检验 

    3、二元logistic相关问题

    在使用SPSSSAU进行二元logistic回归时,可能会出现一些问题,比如提示奇异矩阵,质量异常,Y值只能为0或1等,接下来一一说明。

    6ebf1701cff86e618eeb557a0f324b87.png

    第1点:出现奇异矩阵或质量异常

    如果做二元logistic提示奇异矩阵,通常有两个原因,一是虚拟哑变量设置后,本应该少放1项作为参考项但是并没有,而是把所有的哑变量项都放入框中,这会导致绝对的共线性问题即会出现奇异矩阵矩阵。二是X之间有着太强的共线性(可使用通用方法的线性回归查看下VIF值),此时也可能导致模型无法拟合等。先找出原因,然后把有问题的项移出模型中即可。

    同时,如果自变量X的分布极其不均匀,SPSSAU建议可先对类别进行组合,可使用数据处理里面的数据编码完成。

    第2点:Y值只能为0或1

    二元logistic回归研究X对Y的影响,Y为两个类别,比如是否愿意,是否喜欢,是否患病等,数字一定有且仅为2个,分别是0和1。如果不是这样就会出现此类提示,可使用SPSSAU频数分析进行检查,并且使用数据处理->数据编码功能进行处理成0和1。

    第3点:OR值的意义

    OR值=exp(b)值,即回归系数的指数次方,该值在医学研究里面使用较多,实际意义是X增加1个单位时,Y的增加幅度。如果仅仅是研究影响关系,该值意义较小。

    第4点: wald值或z值

    z 值=回归系数/标准误,该值为中间过程值无意义,只需要看p 值即可。有的软件会提供wald值(但不提供z 值,该值也无实际意义),wald值= z 值的平方。

    第5点: McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相关问题?

    Logit回归时会提供此3个R 方值(分别是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方),此3个R 方均为伪R 方值,其值越大越好,但其无法非常有效的表达模型的拟合程度,意义相对交小,而且多数情况此3个指标值均会特别小,研究人员不用过分关注于此3个指标值。一般报告其中任意一个R方值指标即可。

    展开全文
  • 本文脉络:logistic回归模型的含义logistic模型的决策边界函数分析logistic模型的参数最优化logistic回归模型与感知机模型的比较总结logistic回归模型的含义我们把分类模型分成两个阶段,推断阶段和决策...

    37d470dacc9b1c4161dad4418a117780.png

    logistic回归模型是一种线性生成模型。本文将介绍logistic回归模型相关的知识,为了更好地理解模型的决策边界函数,本文同时分析了多元变量的协方差对概率分布的影响。

    本文脉络:

    1. logistic回归模型的含义
    2. logistic模型的决策边界函数分析
    3. logistic模型的参数最优化
    4. logistic回归模型与感知机模型的比较
    5. 总结

    logistic回归模型的含义

    我们把分类模型分成两个阶段,推断阶段和决策阶段,推断阶段对联合概率分布建模,然后归一化,得到后验概率。决策阶段确定每个新输入x的类别。

    我们用推断阶段的方法来推导logistic回归模型,首先对类条件概率密度

    和类先验概率分布
    建模,然后通过贝叶斯定理计算后验概率密度。

    考虑二分类的情形,类别C1的后验概率密度;


    则:

    式中的

    就是logistic函数

    因此,logistic回归的值等于输入变量为x的条件下类别为C1的概率

    (1) 当

    分类结果为C1

    (2) 当
    分类结果为C2

    结论:logistic回归值表示所属类的后验概率,无论是二分类还是多分类,分类结果都是后验概率最大所对应的类。

    logistic的决策边界函数分析

    决策边界函数,简而言之,就是函数的两侧是不同的分类结果。

    可定性的分析协方差的三种情况与分布图的关系。

    (a) 图表示正常的协方差矩阵的高斯分布图。
    (b) 图表示协方差矩阵是对角矩阵的高斯分布图。
    (c) 图表示协方差矩阵是对角矩阵且对角元素都相等的高斯分布图。

    ed6eafab10f80176f8821fb8076e367c.png

    ab1d58cb1ff3744093ba4de9798d0cb6.png

    dd7c9ae7fadefc9958a8a7068a70aac3.png

    logistic的决策边界函数分析

    logistic曲线如下图,红色直线(a=0)表示决策边界函数:

    3c229a4600adc57ce68e388acec8d2e0.png

    假设类条件概率密度是高斯分布,即P(x|Ck),然后求解后验概率的表达式,即P(Ck|x)。我们知道,logistic回归值就是所求的后验概率。

    假设类条件概率密度的协方差相同,类条件概率密度为:

    由上面的推导公式得后验概率为:

    其中:

    由后验概率

    的表达式可知,当类条件的协方差矩阵相等时,决策边界函数是随x线性变化的直线。

    结论:如下图,若两类的条件概率密度的协方差相同时(如C1和C2的协方差相同),则决策边界函数是直线;若两类的条件概率密度的协方差不相同时(如C1和C3,C2和C3),则决策边界函数是曲线。判断协方差矩阵是否相同可以根据分布图形形状是否相同来判断,如C1和C2的协方差相同,C3和C1、C2的协方差不相同。

    963e5ca4fc546a105f3bd43d36796309.png

    假设类条件概率密度符合高斯分布且具有相同的协方差矩阵,则决策边界函数是一条直线;若类条件概率密度符合更一般的指数分布且缩放参数s相同,决策边界函数仍然是一条直线。

    logistic模型的参数最优化

    logistic模型损失函数

    logistic回归模型的含义是后验概率分布,因此可以从概率的角度去设计损失函数。

    考虑两分类情况,假设有N个训练样本,logistic模型是

    表示后验概率y=1的概率,则
    表示y=0的概率,变量
    取值1或0,且分别代表模型

    因此,似然函数

    损失函数

    logistic模型的参数最优化

    损失函数最小化等价于模型参数的最优化,如下图:

    利用梯度下降法求最优解,学习速率

    :

    具体求法本文不介绍,只给出算法的思想。
    为了避免过拟合问题,则在原来的损失函数增加正则项,然后利用梯度下降法求最优解,这里也不展开。

    logistic模型与感知机模型的比较

    logistic模型与感知机模型的相同点

    由上面的分析可知,假设类条件概率分布的协方差相同,则logistic模型的决策边界函数是随x线性变化的直线,因此,感知机模型与logistic模型的分类策略一样,即决策边界函数是一样的。如下图:

    d5bb1a5241499612c354f3d7371a1c6e.png

    感知机模型:当点落在直线上方,y>0,则分类结果为C1;反之为C2。
    logistic模型:当点落在上方,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。

    考虑到对输入变量x进行非线性变换

    ,感知机和logistic模型的分类策略仍一样,决策边界函数相同,如下图:

    dba974f00771b1e18ae4ed733eed75aa.png

    感知机模型:当点落在圆外,y>0,则分类结果为C1;反之为C2。
    logistic模型:当点落在圆外,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。

    logistic模型与感知机模型的异同点

    (1) logistic回归模型限制值的范围在0~1,感知机模型对值范围没有限制,因此logistic模型相比感知机模型,对异常点有更强的鲁棒性。如下图,当有异常数据时,logistic模型要好于感知机模型。

    b4fa6f11b6965ac6a678625e5dc4a05d.png

    (2) 感知机模型用误分类点到超平面的距离衡量损失函数,而logistic模型则从概率角度去衡量损失函数。

    总结

    logistic回归的含义是后验概率分布,用概率的角度去设计似然函数,logistic模型相比于感知机模型对异常数据具有更好的鲁棒性。

    展开全文
  • 一、 概述 Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,...因变量为二分类的称为二项logistic回归,因变量为分类的称为多元logistic回归。  下面学习一下Odds、OR、RR的概念: 在病例

    一、 概述

    Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。

    因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。 

    下面学习一下Odds、OR、RR的概念:

    在病例对照研究中,可以画出下列的四格表:

    ------------------------------------------------------

    暴露因素              病例             对照

    -----------------------------------------------------

    暴露                 a                 b 

    非暴露               c                 d

    -----------------------------------------------

    Odds: 称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。在病例对照研究中病例组的暴露比值为:

    odds1 = (a/(a+c))/(c(a+c)) = a/c,

    对照组的暴露比值为:

    odds2 = (b/(b+d))/(d/(b+d)) = b/d

    OR比值比,为:病例组的暴露比值(odds1)/对照组的暴露比值(odds2) = ad/bc

     

    换一种角度,暴露组的疾病发生比值:

    odds1 = (a/(a+b))/(b(a+b)) = a/b

    非暴露组的疾病发生比值:

    odds2 = (c/(c+d))/(d/(c+d)) = c/d

    OR = odds1/odds2 = ad/bc

    与之前的结果一致。

     

    OR的含义与相对危险度相同,指暴露组的疾病危险性为非暴露组的多少倍。OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。 还应计算OR的置信区间,若区间跨1,一般说明该因素无意义。

    关联强度大致如下:

    ------------------------------------------------------

           OR值                        联系强度

    ------------------------------------------------------

     0.9-1.0   1.0-1.1                    

     0.7-0.8   1.2-1.4       弱(前者为负关联,后者为正关联)

     0.4-0.6   1.5-2.9                 中等(同上)

     0.1-0.3   3.0-9.0                  强(同上)

      <0.1     10.0以上                很强(同上)

    ------------------------------------------------------

     

    RR: 相对危险度(relative risk)的本质为率比(rate ratio)或危险比(risk ratio),即暴露组与非暴露组发病率之比,或发病的概率之比。但是病例对照研究不能计算发病率,所以病例对照研究中只能计算OR。当人群中疾病的发病率或者患病率很小时,OR近似等于RR,可用OR值代替RR。

    不同发病率情况下,OR与RR的关系图如下:


    SPSS学习笔记之——二项Logistic回归分析

     
    当发病率<10%时,RR与OR很接近。当发病率增大时,两者的差别增大。当OR>1时,OR高估了RR,当OR<1时,OR低估了RR。

    设疾病在非暴露人群中的发病为P0,则可用下列公式对RR记性校正:

    RR = OR/((1-P0)+(P0*OR))

    若P0未知,可以用c/(c+d)估计。

     

     


    二、 问题

    对银行拖欠贷款的影响因素进行分析,可选的影响因素有:客户的年龄、教育水平、工龄、居住年限、家庭收入、贷款收入比、信用卡欠款、其他债务等,从中选择出对是否拖欠贷款的预测因素,并进行预测。数据采用SPSS自带的bankloan.sav中的部分数据。

     

    三、 统计操作

    1、 准备数据 

    变量视图

    SPSS学习笔记之——二项Logistic回归分析

        数据视图

    SPSS学习笔记之——二项Logistic回归分析

    下面开始准备数据:

    由于“default”变量可能存在缺失值,所以要新建一个变量"validate",当default不为缺失值时,将validate=1,然后通过validate来判断将不缺失的值纳入回归分析:

    选择如下菜单:


    SPSS学习笔记之——二项Logistic回归分析

    点击进入“计算变量”对话框:


    SPSS学习笔记之——二项Logistic回归分析

    在“目标变量”看中输入“validate”,右边的“数字表达式”输入“1”。再点击下方的“如果...”按钮,进入对话框:


    SPSS学习笔记之——二项Logistic回归分析

    在框中输入missing(default)=0,含义是defalut变量不为缺失值。点击“继续”回到“计算变量”对话框:


    SPSS学习笔记之——二项Logistic回归分析

    点击确定,完成变量计算。 

    2、统计

    菜单选择


    SPSS学习笔记之——二项Logistic回归分析

    进入如下的对话框(下文称“主界面”):


    SPSS学习笔记之——二项Logistic回归分析

    将“是否拖欠贷款[default]”作为因变量选入“因变量”框中。将其与变量选入“协变量”框中,下方的“方法”下拉菜单选择“向前:LR”(即前向的最大似然法,选择变量筛选的方法,条件法和最大似然法较好,慎用Wald法)。将“validate”变量选入下方的“选择变量”框。点击“选择变量”框后的“规则”按钮,进入定义规则对话框:


    SPSS学习笔记之——二项Logistic回归分析

    设置条件为“validate=1”,点击“继续”按钮返回主界面:


    SPSS学习笔记之——二项Logistic回归分析

    点击右上角“分类”按钮,进入如下的对话框:


    SPSS学习笔记之——二项Logistic回归分析

    该对话框用来设置自变量中的分类变量,左边的为刚才选入的协变量,必须将所有分类变量选入右边的“分类协变量框中”。本例中只有“教育程度[ed]”为分类变量,将它选入右边框中,下方的“更改对比”可以默认。点击“继续”按钮返回主界面。

    回到主界面后点击“选项”按钮,进入对话框:


    SPSS学习笔记之——二项Logistic回归分析

    勾选“分类图”和“Hosmer-Lemeshow拟合度”复选框,输出栏中选择“在最后一个步骤中”,其余参数默认即可。“Hosmer-Lemeshow拟合度”能较好的检验该模型的拟合程度。

    点击继续回到主界面,点击“确定”输出结果。

     

    四、结果分析


    SPSS学习笔记之——二项Logistic回归分析

    以上是案例处理摘要及变量的编码。


    SPSS学习笔记之——二项Logistic回归分析

    上表是关于模型拟合度的检验。这用Cox&Snell R方和Negelkerke R方代替了线性回归中的R方,他们呢的值越接近1,说明拟合度越好,这个他们分别为0.2980.436,单纯看这一点,似乎模型的拟合度不好,但是该参数主要是用于模型之间的对比。


    SPSS学习笔记之——二项Logistic回归分析


    这是H-L检验表,P=0.381 > 0.05接受0假设,认为该模型能很好拟合数据。


    SPSS学习笔记之——二项Logistic回归分析


    H-L检验的随机性表,比较观测值与期望值,表中观测值与期望值大致相同,可以直观的认为,该模型拟合度较好。

    SPSS学习笔记之——二项Logistic回归分析

    这个是最终模型的预测结果列联表。在700例数据中进行预测,在未拖欠贷款的478+39=517例中,有478例预测正确,正确率92.5%;在91+92=183例拖欠贷款的用户中,有92例预测正确,正确率50.3%。总的正确率81.4%。可以看出该模型对于非拖欠贷款者预测效果较好。


    SPSS学习笔记之——二项Logistic回归分析


    这是最终拟合的结果,四个变量入选,P值均<0.05。列“B”为偏回归系数,“S.E.”为标准误差,“Wals”为Wald统计量。EXP(B)”即为相应变量的OR值(又叫优势比,比值比),为在其他条件不变的情况下,自变量每改变1个单位,事件的发生比“Odds”的变化率。如工龄为2年的用户的拖欠贷款的发生比(Odds)是工龄为1年的用户的0.785倍。

    最终的拟合方程式:logit(P)  =  -0.791 - 0.243*employ - 0.081*address + 0.088*detbinc + 0.573*creddebt。用该方程可以做预测,预测值大于0.5说明用户可能会拖欠贷款,小于0.5说明可能不会拖欠贷款。


    SPSS学习笔记之——二项Logistic回归分析


    这是不在方程中的变量,其P均大于0.05,没有统计学意义

    SPSS学习笔记之——二项Logistic回归分析

    这是预测概率的直方图。横轴为拖欠贷款的预测概率(0为不拖欠,1为拖欠),纵轴为观测的频数,符号“Y”代表拖欠,“N”代表不拖欠。若预测正确,所有的Y均应在横轴0.5分界点的右边,所有的N均应该在0.5分界点的左边,数据分布为“U”型,中间数据少,两头数据多。可以直观的看出,本模型对于不拖欠贷款的预测较好,对于拖欠贷款的预测相对较差。

    展开全文
  • 采用Minitab进行logistic回归分析

    千次阅读 2020-04-07 09:41:52
    在研究Y与X之间的因果关系时,如果Y不是一个定比或定距变量时,就需要进行logistic回归。logistic回归是一种广义线性... logistic回归分析类型 因变量Y的特征 举例 二元logistic...

           在研究Y与X之间的因果关系时,如果Y不是一个定比或定距变量时,就需要进行logistic回归。logistic回归是一种广义线性回归(generalized linear model)。logistic回归根据Y的取值分为三类:

     

          1 二元 logistic回归

           二元logistic回归的基本思想是对取某个类别值的概率p进行logit变换,令:

          

    如果:

             y=ax+b

    则:

            

     

     

           2 多元logistic回归

           多元logistic回归的基本思想是将取y的某个类别值概率pK作为参照物,将取其他类别值的概率与其相除后取对数,记为yi

           

    然后对yi进行回归分析得到:

             yi=𝛃0+𝛃1*x1+𝛃2*x2……

    则:

             

     

           3 顺序logistic回归

           当y是有n(n>2)个取值的定序数据时,分析时可以拆分为n-1个二元logistic回归,分别为(1 vs 2++n-1) 、(1+2 vs +n-1)、(1+vs n-1),均是较低级与较高级的对比。

           logit(p1)1+𝛃1*x1+𝛃2*x2+……  

           logit(p1+p2)2+𝛃1*x1+𝛃2*x2+……

           yn个级别,则有n-1个方程。

     

           以下以顺序逻辑回归为例说明在Minitab中如何进行logistic回归分析:

           某公司积累了22个项目的历史数据,包括:客户满意度、系统测试时发现的缺陷密度(缺陷个数/功能点)以及项目采用的生命周期模型(瀑布或迭代)。客户满意度为定序刻度,包含 了5个等级:

     

         5很满意

         4 满意

         3 一般

         2 不太满意

         1 很不满意

    序号

    客户满意度

    累计测试的缺陷密度

    LCM

    P1

    1

    1.1121

    瀑布模型

    P2

    3

    0.5385

    迭代模型

    P3

    5

    0.0000

    迭代模型

    P4

    2

    0.6656

    瀑布模型

    P5

    5

    0.2443

    迭代模型

    P6

    2

    0.6262

    瀑布模型

    P7

    3

    0.5767

    迭代模型

    P8

    5

    0.2434

    迭代模型

    P9

    5

    0.2671

    瀑布模型

    P10

    3

    0.7158

    迭代模型

    P11

    4

    0.5423

    迭代模型

    P12

    2

    1.0438

    瀑布模型

    P13

    1

    2.4690

    瀑布模型

    P14

    3

    0.7160

    瀑布模型

    P15

    3

    0.8739

    瀑布模型

    P16

    2

    1.0970

    瀑布模型

    P17

    3

    0.8531

    迭代模型

    P18

    3

    1.0130

    迭代模型

    P19

    4

    0.7168

    迭代模型

    P20

    3

    0.6926

    瀑布模型

    P21

    4

    0.7792

    迭代模型

    P22

    2

    0.9906

    瀑布模型

     

           我们拟建立客户满意度与累积测试的缺陷密度和生命周期模型之间的回归关系,因为客户满意度为定序刻度,所以采用有序logistic回归。在Minitab中选中顺序logistic菜单项:

           

    然后设置好模型:

     

           Minitab对上述数据执行分析后,结果如下:

     

     

     

     

           根据上述的结果,可以得到模型如下:

     

    满意度等级

    瀑布模型

    迭代模型

    等级1的概率

    1/(1+exp(-(-14.3302+2.78502+9.64861*累计测试缺陷密度)))

    1/(1+exp(-(-14.3302-2.78502+9.64861*累计测试缺陷密度)))

    等级1和2的概率

    1/(1+exp(-(-10.3946+2.78502+9.64861*累计测试缺陷密度)))

    1/(1+exp(-(-10.3946-2.78502+9.64861*累计测试缺陷密度)))

    等级1,2,3的概率

    1/(1+exp(-(-6.33092+2.78502+9.64861*累计测试缺陷密度)))

    1/(1+exp(-(-6.33092-2.78502+9.64861*累计测试缺陷密度)))

    等级1,2,3,4的概率

    1/(1+exp(-(-4.42629+2.78502+9.64861*累计测试缺陷密度)))

    1/(1+exp(-(-4.42629-2.78502+9.64861*累计测试缺陷密度)))

    当采用了瀑布生命周期模型,累计测试缺陷密度为1时,根据上表可以进行预测:

    序号

    满意度等级

    瀑布模型

    1

    等级1的概率

    0.1305

    2

    等级1和2的概率

    0.8848

    3

    等级1,2,3的概率

    0.9978

    4

    等级1,2,3,4的概率

    0.9997

    5

    等级2的概率=(2)-(1)

    0.7543

    6

    等级3的概率=(3)-(2)

    0.1129

    7

    等级4的概率=()-(1)

    0.0019

    8

    等级5的概率=1-(4)

    0.0003

    展开全文
  • 一文掌握有序logistic回归分析

    千次阅读 2020-08-28 17:12:31
    Logistic回归分析(logit回归)一般可分为3类,分别是二元logistic回归分析分类Logistic回归分析和有序Logistic回归分析logistic回归分析类型如下所示。 Logistic回归分析用于研究X对Y的影响,并且对X...
  • 分类变量logistic回归分析--1

    千次阅读 2020-09-23 22:58:49
    2. 分类logistic回归分析 因变量(y变量)是分类的,包括无序和有序的。 无序的类别因变量:对应无序分类logistic回归模型 有序的类别因变量:有序分类logistic回归模型 2.1 无序分类logistic回归...
  • 根据因变量得离散特征:常用得Logistic回归分析方法有3终,包括二元Logistic回归分析、多元Logistic回归分析以及有序Logistic回归分析等。 13.1二元Logistic回归分析 我们经常会遇到因变量只有两种取值的情况,...
  • spss logistic回归分析结果如何分析

    千次阅读 2016-12-17 16:24:00
    logistic回归分析结果如何分析 如何用spss17.0进行二元和多元logistic回归分析 一、二元logistic回归分析 二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或...
  • Logistic回归分析简介

    2016-11-21 09:16:00
    Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。 1. 应用范围: ① 适用于流行病学资料的危险因素分析 ② 实验室中药物的剂量-反应关系 ③ 临床试验评价 ④ 疾病的预后因素分析 2. ...
  • 影响关系研究是所有研究中最为常见的。...如果Y为定类数据,研究影响关系,正确做法是选择Logistic回归分析。01. 概念Logistic回归分析也用于研究影响关系,即X对于Y的影响情况。Y为定类数据,X可以是...
  • Logistic回归 logistic回归主要用来预测离散因变量(分类因变量)与一组解释变量(自变量)之间的关系。最常用的是二分类logistic,即因变量的取值只包含两个类别,例如:“好”和“坏” ;“发生”和“不发生”。...
  • 一文掌握分类logistic回归

    千次阅读 2020-08-21 11:55:28
    Logistic回归分析(logit回归)一般可分为3类,分别是二元Logistic回归分析分类Logistic回归分析和有序Logistic回归分析logistic回归分析类型如下所示。 Logistic回归分析用于研究X对Y的影响,并且对X的...
  • 作者:朱驰单位:上海市东方医院南院检验科上一篇《超实用干货—检验人最常用的统计学分析方法梳理(一)》我们简单梳理了常用的比较分析的统计...今天我们就来梳理一下SPSS作logistic回归分析。在做logistic回归分...
  • 如何用spss17.0进行二元和多元logistic回归分析
  • logistic回归

    千次阅读 2018-10-28 19:04:43
    值得一提的是,logistic回归跟多元线性回归有很相似之处,模型形式也都是wx+b,w、b为要求的参数,不同点在于因变量不同,logistic回归通过logistic函数L将wx+b对应一个隐形状态p,即p=L(wx+b),若L是logistic...
  • 一、实验目的及要求 高校扩招以来,大学生就业问题就一直是全社会关注的焦点。而对大学生来说,就业密切联系着的就是专业的选择。...线性回归模型是一种流行的定量分析因变量与自变量之间相关关系的统计分析方法。
  • 分类有序反应变量logistic逐步回归分析在上海市医疗保险调查中的应用
  • logistic回归模型

    万次阅读 多人点赞 2020-04-13 17:44:45
    从这一期开始,我们准备介绍一系列机器学习算法模型,主要包括logistic回归,决策树,随机森林,关联规则,朴素贝叶斯,支持向量机模型,隐式马尔可夫模型,因子分析,主成分分析,聚类,多元线性回归,时间序列,...
  • 一文理解二元logistic回归

    万次阅读 2020-08-18 11:59:48
    结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。 SPSSAU Logistic回归分析分类 Logistic回归分析用于研究X对Y的...
  • Logistic回归

    2018-01-29 21:47:12
    基于Logistic回归和Sigmoid函数的分类 logistic回归: 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 适用数据类型:数值型和标称型数据。 Sigmoid函数具体的计算公式为如下:...
  • logistic回归介绍以及原理分析

    千次阅读 2020-07-07 17:40:32
    1.什么是logistic回归logistic回归虽然说是回归,但确是为了解决分类问题,是二分类任务的首选方法,简单来说,输出结果不是0就是1 举个简单的例子: 癌症检测:这种算法输入病理图片并且应该辨别患者是患有癌症...
  • logistic回归简介

    千次阅读 2014-03-04 19:57:11
    logistic回归又称罗杰斯蒂克回归分析,或逻辑回归分析Logistic回归为概率型非线性回归模型,是研究分类观察结果y与一些影响因素x(单变量,变量都可以)之间关系的一种变量的分析方法 。   二、与线性回归...
  • 视频地址:... Case Processing Summary(案例处理摘要) 告诉参与本次分析的大致情况(占比) Model Fitting Information(模型拟合信息) 判别真实数据与模型方程的拟合程度 Pseudo R-S...
  • logistic回归分类与softmax回归

    千次阅读 2019-10-21 17:19:50
    目录 Logistic回归 逻辑回归的定义式: ...logistic回归分类)和softmax的关系: YOLOV3中的逻辑分类应用 Logistic回归 Logistic回归(LR):是一种常用的处理二分类问题的模型。 二分类...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 19,071
精华内容 7,628
关键字:

多项logistic回归分析