精华内容
下载资源
问答
  • 多元logistic回归分析spss
    千次阅读
    2020-12-23 18:26:40

    原标题:SPSS实例教程:有序多分类Logistic回归

    1、问题与数据

    在某胃癌筛查项目中,研究者想了解首诊胃癌分期(Stage)与患者的经济水平的关系,以确定胃癌筛查的重点人群。为了避免性别因素对结论的混杂影响,研究者将性别(Sex)也纳入分析(本例仅为举例说明如何进行软件操作,实际研究中需控制的混杂因素可以更多)。研究者将所有筛查人群的结果如表1,变量赋值如表2。

    表1. 原始数据

    表2. 变量赋值情况

    2、对数据结构的分析

    该设计中,因变量为四分类,且分类间有次序关系,针对因变量为分类型数据的情况应该选用Logistic回归,故应采用有序多分类的Logistic回归分析模型进行分析。

    有序多分类的Logistic回归原理是将因变量的多个分类依次分割为多个二元的Logistic回归,例如本例中因变量首诊胃癌分期有1-4期,分析时拆分为三个二元Logistic回归,分别为(1 vs 2+3+4) 、(1+2 vs 3+4)、(1+2+3 vs 4),均是较低级与较高级对比。需注意的是,有序多分类Logistic回归的假设是,拆分后的几个二元Logistic回归的自变量系数相等,仅常数项不等。其结果也只输出一组自变量的系数。

    因此,有序多分类的Logistic回归模型中,必须对自变量系数相等的假设进行检验(又称平行线检验)。如果不满足平行线假设,则考虑使用无序多分类Logistic回归或其他统计方法。

    3、SPSS分析方法

    (1)数据录入SPSS

    首先在SPSS变量视图(Variable View)中新建四个变量:ID代表患者编号,Sex代表性别,Income代表收入水平,Stage代表首诊胃癌分期。赋值参考表1。然后在数据视图(Data View)中录入数据。

    (2)选择Analyze → Regression → Ordinal Logistic

    (3)选项设置

    将因变量Stage放入因变量(Dependent)位置,自变量性别(Sex)、收入水平(Income)为分类变量,故放入因子(Factors)位置。若研究中还有连续型变量需要调整,则放入协变量(Covariate)位置。

    点击输出(Output)选项,勾选平行线检验(Test of parallel lines)。其余选项维持默认。点击确定(OK)。

    4、结果解读

    (1)Case Processing Summary

    给出的是数据的一般情况,这里不进行介绍。

    (2)模型拟合优度检验

    有两个,一个是似然比检验结果(Model Fitting Information).该检验的原假设是所有纳入自变量的系数为0,P(Sig.)<0.001,说明至少一个变量系数不为0,且具有统计学显著性。也就是模型整体有意义。

    另一个结果是拟合优度检验(Goodness-of-Fit)结果,提供了Pearson卡方和偏差(Deviance)卡方两个检验结果。但是,这两个检验结果不如上图的似然比检验结果稳健,尤其是纳入的自变量存在连续型变量时,因此推荐以似然比检验结果为准。

    (3)伪决定系数(Pseudo R-Square)

    对于分类数据的统计分析,一般情况下伪决定系数都不会很高,对此不必在意。

    (4)参数估计(Parameter Estimates)

    阈值(Threshold)对应的Stage=1,2,3三个估计值(Estimate)分别是本次分析中拆分的三个二元Logistic回归的常数项。位置(Location)中Sex和Income变量对应的参数估计值为自变量的估计值。其中Income为多分类,在分析中被拆分成了三个哑变量(即Income 取值1、2、3),分别与Income=4的组进行对比。且有序多分类Logistic回归假定拆分的多个二元回归中自变量系数均相等,因此结果只给出了一组自变量系数。

    Income=1系数估计值(Estimate)为-1.617意味着,在调整性别变量的情况下,Income=1(即收入水平最低)的组,相比于Income=4(收入水平最高)的组,初诊胃癌分期至少低一个等级的可能性是exp(-1.617)=0.198倍。其他系数解释相同。这说明,收入水平低的人群,其初诊胃癌时病情更严重。

    Sex变量系数无统计学意义(P=0.428),如果没有其他证据证明不同性别的初诊胃癌分期有区别,那么从模型精简的角度考虑,应当将Sex变量从模型中去掉再次进行回归,得到收入水平的参数估计值。如果研究者比较肯定不同性别初诊胃癌分期会产生区别,那么即使在本研究中其系数无统计学意义也应保留在模型中(因为无统计学意义有可能是因为样本量小造成的,并不能说明该变量不产生影响)。本研究中予以保留。

    (5)平行线假设检验(Test of Parallel Lines)

    该检验的原假设是三个二元Logistic回归自变量系数相等,检验P(Sig.)值为0.052,不拒绝原假设,可以认为假设成立,可以使用多重有序Logistic回归。如果将参数无统计学意义的Sex变量去掉,会发现平行线假定检验P值会增大(P=0.175)(是否去掉Sex变量重回归,取决于是否有充足研究证据证明Sex是一个混杂变量,如果是,Sex变量应保留在模型中)。

    5、结果汇总

    胃癌患者的初诊分期与患者的收入水平有关。低等收入、中等收入与中高等收入人群与高等收入人群相比,初诊胃癌分期低至少一个等级的可能性分别为0.198(P<0.001)、0.310(P<0.001)、0.640(P=0.071)倍。

    (更多内容可关注“医咖会”微信公众号:传播医学知识和研究进展,探讨临床研究方法学。)返回搜狐,查看更多

    责任编辑:

    更多相关内容
  • 如何用spss17.0进行二元和多元logistic回归分析.pdf
  • 多元logistic回归模型——spss步骤

    万次阅读 多人点赞 2021-12-03 20:54:40
    多元:因变量为多分类变量;结果在三种及三种以上。如:机构养老、社区养老、居家养老。 自变量:可以是分类变量或连续变量,建议是分类变量;...2.主面板中,点击【模型】,打开【多项logistic回归:模型】对话框,勾

    多元:因变量为多分类变量;结果在三种及三种以上。如:机构养老、社区养老、居家养老。

    自变量:可以是分类变量或连续变量,建议是分类变量;

    协变量:必须是分类变量;

    案例:
    请添加图片描述

    步骤:

    1.【分析】【回归】【多项logistic】,打开主面板—— 因变量、自变量分别按照箭头指示移入对应的变量框内,点击【参考类别】按钮,默认勾选【最后一个类别】。(指以因变量和自变量的最后一个分类水平为参照,用其他分类依次与之对比,考察不同水平间的倾向。)

    2.主面板中,点击【模型】,打开【多项logistic回归:模型】对话框,勾选【主效应】。本例主要考察自变量年龄、性别、婚姻状况的主效应,暂不考察它们之间的交互作用,然后点击【继续】。

    3.主面板中,点击【统计】按钮,设置模型的统计量。主要【伪R方】【模型拟合信息】【分类表】【拟合优度】这几项必选,其他可以默认不勾选。这些参数主要用于说明建模的质量。

    4.主面板中,点击【保存】按钮,勾选【估算响应概率】,我们要求SPSS软件帮我们估算每个个案三类早餐的概率。下主面板底部点击【确定】按钮,软件开始执行此处建模。

    5.其余的参数主要和逐步回归有关系,本例采用主效应模型,人为指定进入模型的自变量,在其他研究中,可以根据情况选择逐步回归。

    结果分析与解读:

    1.个案处理摘要表,列出因变量和自变量的分类水平及对应的个案百分比。建议在此表主要读取变量分类水平的顺序,比如自变量“年龄段”,第一个分类是“低于31岁”,第二个分类是“31-45”,第三个分类是“45-60”,第四个分类是“60岁以上”,尤其是看清楚最后一个分类,因为我们前面参数设置时要求是以最后一个分类最为对比参照组的。谁和谁对比,一定要搞清楚。
    请添加图片描述

    2.模型拟合信息表,读取最后一列,显著性值小于0.05,说明模型有统计意义,模型通过检验。
    请添加图片描述

    3.拟合优度表,原假设模型能很好地拟合原始数据,最后一列皮尔逊卡方显著性值0.952,概率较大,原假设成立,说明模型对原始数据的拟合通过检验。

    请添加图片描述

    4.伪R方表,依次列出的3个伪R方值(类似于决定系数)均偏低,最高0.4,说明模型对原始变量变异的解释程度一般,还有一部分信息无法解释,拟合程度并不是很优秀。请添加图片描述

    5.模型似然比检验表,我们能看到最终进入模型的效应包括截距、年龄、婚姻状况、生活态度,而且最后一列显著性值表明,三个自变量(影响因素)对模型构成均有显著贡献,研究它们是有意义的。请添加图片描述
    6.参数估计表,列出自变量不同分类水平对早餐选择的影响检验,是多项logistic回归非常重要的结果。
    请添加图片描述
    第二列B值,即各自变量不同分类水平在模型中的系数,正负符号表明它们与早餐选择是正比还是反比关系。第六列是瓦尔德检验显著性值,此值小于0.05说明对应自变量的系数具有统计意义,对因变量不同分类水平的变化有显著影响。

    比如,早餐摊点和谷物类早餐相比,31-45岁的年轻人更偏向于选择在早餐摊点吃早餐,这种可能性是60岁以上人的3.7倍;燕麦类和谷物类早餐相比,结婚与否对早餐的选择没有差别。

    多元logistic回归模型

    1.经过对该早餐喜好民意调查数据进行多项logistic回归分析,由参数估计表,我们可以得到模型如下:

    G1=LOG[P(早餐摊)/P(谷物类)]=-1.224+0.984年龄1+1.309年龄2+0.542年龄3+0.843婚姻状况0-0.792生活态度0

    G2=LOG[P(燕麦类)/P(谷物类)]=1.134-4.273年龄1-2.532年龄2-1.192年龄3+0.843婚姻状况0+0.186生活态度0

    G3=0 (对照组)

    2.根据这个模型,我们首先计算某个受访者G1、G2、G3的值,然后带入如下公式,最终可得到三个早餐相应的概率。

    P1=exp(G1)/[exp(G1)+exp(G2)+exp(G3)]

    P2=exp(G2)/[exp(G1)+exp(G2)+exp(G3)]

    P3=exp(G3)/[exp(G1)+exp(G2)+exp(G3)]

    3.当然,SPSS软件已经自动帮我们计算出每个受访者三种早餐选择的相应概率,我们无需手工计算,返回数据编辑器窗口,具体来看结果。
    请添加图片描述

    原始数据最右侧新增3个变量,依次为EST1_1、EST2_1、EST3_1,分别对应因变量“早餐选择”的三个分类水平(早餐摊、燕麦类、谷物类)的响应概率。比如第一个个案,他选择谷物类早餐的概率为0.55,在三种选择中数值最大,因此,模型会判定他选择谷物类早餐,这和原始记录的真值一致,说明模型判断准确。

    当然,SPSS软件也输出了模型预测分类表,如下所示。请添加图片描述

    模型在预测燕麦类早餐选择倾向上准确率最高,达到77%,其他两个早餐选择的预测略低,模型总体预测准确率为57.4%,表现一般。前面伪R方数据显示,模型对总体变异的解释能力不足,这和总体预测准确率结论也一致。

    参考文献:
    http://www.datasoldier.net/archives/370
    http://www.360doc.com/content/18/0112/02/50153987_721214611.shtml

    展开全文
  • 如何用spss17.0进行二元和多元logistic回归分析
  • spss17.0进行二元和多元logistic回归分析.doc
  • SPSS:二元Logistic回归中自变量的处理和解读——有序多分类变量的处理。有序多分类变量是很常见的变量形式,通常在变量中有多个可能会出现的取值,各取值之间还存在等级关系。比如高血压分级(0=正常,1=正常高值,2...

    SPSS:二元Logistic回归中自变量的处理和解读——有序多分类变量的处理。有序多分类变量是很常见的变量形式,通常在变量中有多个可能会出现的取值,各取值之间还存在等级关系。比如高血压分级(0=正常,1=正常高值,2=1级高血压,3=2级高血压,4=3级高血压)、尿蛋白水平(0=-,1=±,2=+,3=++,4=+++)等等。与无序多分类变量不同,有序多分类变量的各个选项直接呈现向一个方向递增或递减的关系。

    当Logistic回归中需要将有序多分类变量代入自变量X时,我们如何处理呢?通常大家会习惯性的将有序多分类变量直接代入。这当然不是不对,但是有个前提条件,就是该有序多分类变量每改变一个单位的时候,结局风险增加倍数相同。

    每改变一个等级,对结局贡献相同或相似时

    上面的标题听起来不大好懂,但是可以简单的用个例子和图表示一下。比如我们关心研究对象是否接受治疗,也就是研究对象中,有一部分人出现了“接受治疗”这个结局。可能影响结局的变量之一是教育程度。

    c324078b36a88045015482cb7b83eb1d.png

    0

    我们看图说话,教育程度每增加1个水平,“接受治疗率”提升的百分比相近。“高中”是“未完成高中”治疗率的1.4倍;“大专及以上”是“高中”治疗率的1.4倍。换句话说也就是教育程度只要提高1个水平,不管从哪一个等级提升,对结局发生概率的影响都是相当的。(当然,在这里我们没有考虑其他因素分布的问题。)

    此时我们通常直接把有序多分类变量代入Logistic回归模型,而不对变量进行额外设置。跑出来的结果解读起来也和连续变量差不多。

    778de631a1ffb3bd111f626ea824fc18.png

    教育程度还是有统计学意义的,我们试着解释一下OR值(Exp(B))。此处,我们认为只要是教育程度相差1级,那么出现“接受治疗”这一结局的概率就增加到1.609倍,相差2级概率就为1.609的2次方倍。

    同样间隔的不同等级间,效应不一致时

    同样的例子,如果同样相差一个等级,结局发生概率的增加倍数不一样。比如我们把上面的例子改成这样。

    3c2b25ff94b374be89aae0959ebb311f.png

    0

    同样是有序多分类变量,从“未完成高中”到“高中”改变了1,结局发生概率升到1.40倍;从“高中”到“大学”改变了1,结局发生概率升到1.16倍;从“大专”到“大学及以上”也是改变了1,结局发生概率升到之前的0.99倍。可见此时每升高一级,接受治疗的发生率提高的倍数并不一致。如果按照最开始的方法直接把多分类变量代入模型,得到的结论就有问题了。

    此时,可选的做法有几个,如果在各等级间,临近等级的改变完全不增加结局的风险,则可以简单粗暴的把相近的几个级别合并。

    当然还有更细致的办法,就是按照“SPSS:二元Logistic回归中自变量的处理和解读——无序多分类变量的处理”的做法,把有序多分类变量按哑变量处理,各级别都和其中的某一个级别进行比较。过程如下:

    f93c1f25df09f9feacd696b774f5dd88.png

    6338274519c77c203ee9decc3f0aaf58.png

    ff348febec9f18e19b29375f0b331885.png

    与结局不成线性关系时,无序多分类变量效应拐点的探索

    探索的方法有很多种,首先可以参考的就是我们讲过的连续变量的处理方法,详见“临床研究中年龄只能是连续变量吗?”。

    在Logistic回归处理有序多分类变量时,还有更简化的方法,就是在

    88622c73eb5edfd94ec2c89a25ff6676.png

    0

    这个步骤中,选择特定的对比方法。

    当在对比中,选择“差值”方法时,会变为如下结果:

    7facb5908ac47fb55f65dbecd1ea716f.png

    此处每个教育程度水平的OR值不再是和第一个或最后一个水平进行比较,而是直接和前一个水平进行比较。比如“教育程度(2)”对应的OR值为0.96,其含义是指其出现结局事件的概率是“教育程度(1)”的0.96倍。若某个水平的OR值与其他水平OR值相差过多,意味着从临近水平进入这一水平这“1个”改变量,带来的效应与其他水平不一致,提示此处可能为效应的拐点。

    我们还可以选择“Helmert”选项,此时每个教育水平为与之前所有水平总体的比较。其他各选项的解释可以参考张文彤编写的《SPSS统计分析高级教程》Logistic回归的章节。

    展开全文
  • 如何用spss17.0进行二元和多元logistic回归分析.doc
  • 二分类Logistic回归spss实现

    千次阅读 2019-01-14 13:58:54
    第一步:找到适合二分类Logistic的数据集 首先,我们进入机器学习数据集仓库寻找合适的数据集:http://archive.ics.uci.edu/ml/datasets.html?format=&amp;task=cla&amp;att=&amp;area=&amp;numAtt...

    第一步:找到适合二分类Logistic的数据集

    首先,我们进入机器学习数据集仓库寻找合适的数据集:http://archive.ics.uci.edu/ml/datasets.html?format=&task=cla&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table

    我们以威斯康星州乳腺癌的诊断数据作为参考数据:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/

    上面两项分别对应数据集和这些数据的介绍:

    将数据Ctrl+A、Ctrl+C、Ctrl+V保存到txt里(csv也行,随便啦)

    第二项关于数据的描述里,我们只关注下面的信息就好了:他告诉我们数据集每一列的含义。

    第二步:将数据导入spss

    这一步比较简单,直接把桌面的txt导入spss即可,如图

    第三步:运行并分析结果

    毫无疑问,列中的Class是判断癌症与否的因变量,只有两种可能,要么是要么否,所以他是因变量,其他都是自变量,直接点确定即可。

    运行结果如下有很多表格,可以根据自己的需要得到想要的信息:

    展开全文
  • spss logistic回归分析结果如何分析

    万次阅读 2020-12-24 13:09:17
    如何用spss17.0进行二元和多元logistic回归分析一、二元logistic回归分析二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。...
  • 线性回归的因变量 Y 必须为连续变量,但当...结合 Y 的具体情况,Logistic 回归分析可以分为三种,分别是二元 Logistic 回归多元无序 Logistic 回归多元有序 Logistic 回归Logistic 回归分析的分类情况如下图:
  • 在前几期文章中,我们讲到了因变量为连续线性型的回归分析,用线性回归;因变量为对立二分类变量,用二元Logistic回归。 但当我们遇到因变量为等级变量时候... 下面我们通过实际案例来详细讲解SPSS有序Logistic回归...
  • 多元logistic回归中遇到警告:“在海森矩阵中遇到意外的奇异性,这表明应该排除某些预测变量或者合并某些类别” 想询问下为什么会出现这样的问题,以及解决方法是什么呢? 感谢!
  • 作者:朱驰单位:上海市东方医院南院检验科上一篇《超实用干货—检验人最常用的统计学分析方法梳理(一)》我们简单梳理了常用的比较分析的统计...今天我们就来梳理一下SPSSlogistic回归分析。在做logistic回归分...
  • SPSS19.0实战之多元线性回归分析

    千次阅读 2020-12-24 14:09:03
    线性回归数据(全国各地区能源消耗量与产量)来源,可点击协会博客数据挖掘栏:国泰安数据服务中心的经济研究数据库。1.1 数据预处理数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,...
  • logistic回归分析优点_二元Logistic回归

    千次阅读 2020-11-21 02:46:52
    点击上方蓝字关注我们在社会科学的研究中,经常会遇到二元变量的情况,...如果希望根据一系列预测变量的值来预测某种特征或结果是否存在,且因变量为二元变量,通常采用二元Logistic回归。1二元逻辑回归分析的原理与...
  • 视频地址:... Case Processing Summary(案例处理摘要) 告诉参与本次分析的大致情况(占比) Model Fitting Information(模型拟合信息) 判别真实数据与模型方程的拟合程度 Pseudo R-S...
  • logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。 logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易...
  • 数学建模:预测模型——多元回归分析 SPSS实现

    万次阅读 多人点赞 2021-04-14 21:46:35
    基于结果变量(因变量)的种类,回归分析可分为:线性回归(因变量为连续变量)、logistic回归(因变量为分类变量)、柏松回归(因变量为计数变量);这三种回归模型中自变量则可以是任意类型的变量;   有的自...
  • 一、 概述 Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,...因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。  下面学习一下Odds、OR、RR的概念: 在病例
  • 一文理解二元logistic回归

    万次阅读 多人点赞 2020-08-18 11:59:48
    结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析多元有序Logistic回归分析多元无序Logistic回归分析,如下图。 SPSSAU Logistic回归分析分类 Logistic回归分析用于研究X对Y的...
  • 文章目录回归定义最常用回归方法一、线性回归(Linear Regression)二、逻辑回归(Logistic Regression) 回归定义 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常...
  • 乳腺癌细胞数据分析&Logistic回归模型 :“关爱女性,呵护生命”
  • 多元logistic回归

    千次阅读 2021-11-11 10:04:31
    SPSS多元有序logistic回归分析在医学统计中的运用(冠心病案例)——【杏花开医学统计】_哔哩哔哩_bilibili陈老师数据分析QQ/微信1622275006更多视频、资料下载, 互动问答www.databbs.net微信公众号: 谦瑞数据...
  • SAS的最优之处可能在于它的方差分析,混合模型分析和多变量分析,而它的劣势主要是有序和多元logistic回归(因为这些命令很难),以及稳健方法(它难以完成稳健回归和其他稳健方法)。 推荐书目:《SAS应用统计分析》 ...
  • 今天在跑多元/有序logistic回归得时候,发现警告里面空缺数很大,想问问这是不是会影响最后的统计结果,以及有没有什么好的解决方法么?
  • 当我们要研究自变量与无序多分类因变量之间的关系时,就需要使用到SPSS软件带有的多元逻辑回归模型,下面我来讲解下如何使用。 一、操作演示 如图1所示,我们在IBM SPSS Statistics中建立一组数据,其中有三个变量...
  • 有序多分类Logistic回归,我见过的最详细SPSS教程!2018-09-13一、问题与数据研究者想调查人们对“本国税收过高”的赞同程度:Strongly Disagree——非常不同意,用“0”表示;Disagree——不同意,用“1”表示;...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 516
精华内容 206
关键字:

多元logistic回归分析spss

友情链接: LabVIEWsoundanalysise.rar