精华内容
下载资源
问答
  • 分类有序反应变量logistic逐步回归分析在上海市医疗保险调查中的应用
  • 有序回归: Ordinal Regression的理解

    千次阅读 2020-10-05 22:13:21
    今天读文献,遇到有序回归(Ordinal Regression)算法。 通过简单的调研,这里说一下自己对有序回归的理解。 Ordinal Regression就是解决类别之间有某种顺序关系的模型,比如年龄,收入等。使模型除了考虑分类损失...

    今天读文献,遇到有序回归(Ordinal Regression)算法。

    通过简单的调研,这里说一下自己对有序回归的理解。

    Ordinal Regression就是解决类别之间有某种顺序关系的模型,比如年龄,收入等。使模型除了考虑分类损失以外,还要考虑不同类别之间的顺序关系,使与真实标签排序更近的误判的损失小于远离真实标签的误判的损失。

    有序回归问题可以看作是分类问题和回归问题的中间问题。(It can be considered an intermediate problem between regression and classification--wikipedia

     

    逻辑回归

    原始的逻辑回归只解决二分类问题,由二分类问题进而也可以扩展到多分类问题。参考李航的《统计学习方法》。

    分类问题可用于对猫,狗,鸟,花等的分类。

     

    有序回归

    但是,当不同类别的类别之间有一定的顺序关系时,仅仅使用分类损失是不够的。

    比如:我们对人的年龄进行分类:0岁,1岁和2岁。这时仅仅使用分类损失是不够的。

    如果一个样本的真实年龄是0,如果用分类方法,我们把它的年龄分类成1岁和2岁时的损失是相等的。但是,明显1岁要比2岁,更加接近于0岁,1岁是一个比2岁更可被接受的分类。因此从应用意义上,1岁应该比2岁有更小的损失。

    有序回归就是解决这个问题,除了考虑分类损失以外,还要考虑误分类的类别和真实类别之间的排序关系,排序更近的损失应该更小。

     

    有序回归的一个典型应用就是年龄估计的问题:年龄估计:Ordinal Regression


    参考: 年龄估计:Ordinal Regression

                有序回归(Ordinal regression)和逻辑回归有什么区别?--知乎
     

    展开全文
  • SPSS实例教程:有序多分类Logistic回归

    万次阅读 多人点赞 2017-10-29 22:38:21
    SPSS实例教程:有序多分类Logistic回归 医小咖 10 个月前 1、问题与数据 在某胃癌筛查项目中,研究者想了解首诊胃癌分期(Stage)与患者的经济水平的关系,以确定胃癌筛查的重点人群。为了避免性别因素对结论的...

    SPSS实例教程:有序多分类Logistic回归

    医小咖医小咖
    10 个月前

    1、问题与数据

    在某胃癌筛查项目中,研究者想了解首诊胃癌分期(Stage)与患者的经济水平的关系,以确定胃癌筛查的重点人群。为了避免性别因素对结论的混杂影响,研究者将性别(Sex)也纳入分析(本例仅为举例说明如何进行软件操作,实际研究中需控制的混杂因素可以更多)。研究者将所有筛查人群的结果如表1,变量赋值如表2。

    表1. 原始数据


    表2. 变量赋值情况


    2、对数据结构的分析

    该设计中,因变量为四分类,且分类间有次序关系,针对因变量为分类型数据的情况应该选用Logistic回归,故应采用有序多分类的Logistic回归分析模型进行分析。

    有序多分类的Logistic回归原理是将因变量的多个分类依次分割为多个二元的Logistic回归,例如本例中因变量首诊胃癌分期有1-4期,分析时拆分为三个二元Logistic回归,分别为(1 vs 2+3+4) 、(1+2 vs 3+4)、(1+2+3 vs 4),均是较低级与较高级对比。需注意的是,有序多分类Logistic回归的假设是,拆分后的几个二元Logistic回归的自变量系数相等,仅常数项不等。其结果也只输出一组自变量的系数。

    因此,有序多分类的Logistic回归模型中,必须对自变量系数相等的假设进行检验(又称平行线检验)。如果不满足平行线假设,则考虑使用无序多分类Logistic回归或其他统计方法。

    3、SPSS分析方法

    (1)数据录入SPSS

    首先在SPSS变量视图(Variable View)中新建四个变量:ID代表患者编号,Sex代表性别,Income代表收入水平,Stage代表首诊胃癌分期。赋值参考表1。然后在数据视图(Data View)中录入数据。

    (2)选择Analyze → Regression → Ordinal Logistic


    (3)选项设置

    将因变量Stage放入因变量(Dependent)位置,自变量性别(Sex)、收入水平(Income)为分类变量,故放入因子(Factors)位置。若研究中还有连续型变量需要调整,则放入协变量(Covariate)位置。

    点击输出(Output)选项,勾选平行线检验(Test of parallel lines)。其余选项维持默认。点击确定(OK)。


    4、结果解读

    (1)Case Processing Summary

    给出的是数据的一般情况,这里不进行介绍。

    (2)模型拟合优度检验

    有两个,一个是似然比检验结果(Model Fitting Information).该检验的原假设是所有纳入自变量的系数为0,P(Sig.)<0.001,说明至少一个变量系数不为0,且具有统计学显著性。也就是模型整体有意义。

    另一个结果是拟合优度检验(Goodness-of-Fit)结果,提供了Pearson卡方和偏差(Deviance)卡方两个检验结果。但是,这两个检验结果不如上图的似然比检验结果稳健,尤其是纳入的自变量存在连续型变量时,因此推荐以似然比检验结果为准。

    (3)伪决定系数(Pseudo R-Square)

    对于分类数据的统计分析,一般情况下伪决定系数都不会很高,对此不必在意。

    (4)参数估计(Parameter Estimates)

    阈值(Threshold)对应的Stage=1,2,3三个估计值(Estimate)分别是本次分析中拆分的三个二元Logistic回归的常数项。位置(Location)中Sex和Income变量对应的参数估计值为自变量的估计值。其中Income为多分类,在分析中被拆分成了三个哑变量(即Income 取值1、2、3),分别与Income=4的组进行对比。且有序多分类Logistic回归假定拆分的多个二元回归中自变量系数均相等,因此结果只给出了一组自变量系数。

    Income=1系数估计值(Estimate)为-1.617意味着,在调整性别变量的情况下,Income=1(即收入水平最低)的组,相比于Income=4(收入水平最高)的组,初诊胃癌分期至少低一个等级的可能性是exp(-1.617)=0.198倍。其他系数解释相同。这说明,收入水平低的人群,其初诊胃癌时病情更严重。

    Sex变量系数无统计学意义(P=0.428),如果没有其他证据证明不同性别的初诊胃癌分期有区别,那么从模型精简的角度考虑,应当将Sex变量从模型中去掉再次进行回归,得到收入水平的参数估计值。如果研究者比较肯定不同性别初诊胃癌分期会产生区别,那么即使在本研究中其系数无统计学意义也应保留在模型中(因为无统计学意义有可能是因为样本量小造成的,并不能说明该变量不产生影响)。本研究中予以保留。

    (5)平行线假设检验(Test of Parallel Lines)

    该检验的原假设是三个二元Logistic回归自变量系数相等,检验P(Sig.)值为0.052,不拒绝原假设,可以认为假设成立,可以使用多重有序Logistic回归。如果将参数无统计学意义的Sex变量去掉,会发现平行线假定检验P值会增大(P=0.175)(是否去掉Sex变量重回归,取决于是否有充足研究证据证明Sex是一个混杂变量,如果是,Sex变量应保留在模型中)。

    5、结果汇总

    胃癌患者的初诊分期与患者的收入水平有关。低等收入、中等收入与中高等收入人群与高等收入人群相比,初诊胃癌分期低至少一个等级的可能性分别为0.198(P<0.001)、0.310(P<0.001)、0.640(P=0.071)倍。

    (更多内容可关注“医咖会”微信公众号:传播医学知识和研究进展,探讨临床研究方法学。)

    展开全文
  • 转自个人微信公众号【Memo_Cleon】的统计学习笔记:因变量无序分类资料的logistic回归。因变量为无序分类资料,或者因变量虽为有序多分类但不满足比例优势假定(平行性检验P>0.05),可采用无序分类的...

    转自个人微信公众号【Memo_Cleon】的统计学习笔记:因变量无序多分类资料的logistic回归。

    因变量为无序多分类资料,或者因变量虽为有序多分类但不满足比例优势假定(平行性检验P>0.05),可采用无序多分类的logistic回归进行分析。当然当结局变量无序,自变量只有一个且为分类变量时,可以直接采用卡方检验;结局变量有序,自变量只有一个且为分类变量时,可以直接采用非参数检验。

    无序多分类的logistic回归模型与有序多分类的logistic回归模型不同。有序多分类的logistic回归采用的是累积logit模型,进行logit变换的是因变量有序取值水平的累积概率;而无序多分类的logistic回归采用的是广义logit模型,是用因变量的各个水平(除参照水平外)与参照水平比值的自然对数来建立模型方程,当水平数为2时,该模型等价于二分类资料的logistic回归,因此该模型可以看做是二分类logistic回归模型的扩展。因变量y是有n个水平的无序多分类变量,进行无序多分类的logistic回归时可以产生n-1个广义logit模型。参照水平R的阳性概率记为πR,第k个水平(k=1,2,…n)的阳性概率分别为πk,则有π12+…πn=1。自变量x有m个,第k个水平第i个自变量(i=1,2,…m)Xi系数为βki。

    b20c987b073347ab956c569df28c930b.png

    以因变量为4水平(第4水平为参照水平),自变量有m个为例,模型可以表示为:

    7b68b0d286741f59c748c5b96850e22d.png

    显然π1+π2+π3+π4=1,如希望比较1和2,可以将相应的两个公式相减即可得到相应的函数,同理可以比较1和3,或者2和3。当然我们也可以直接对参照水平进行修改。

    示例:某研究人员欲了解不同社区和性别之间成年居民获取健康知识途径是否不同,对2个社区的314名成人进行了调查,结果见下表。变量赋值为:社区(社区A=0,社区B=1)、性别(男=0,女=1)、获取健康知识途径(传统大众媒介=1,网络=2,社区宣传=3)。请拟合社区和性别对居民获取健康知识途径的多分类logistic回归模型。

    02dd959089e091d58cb4e7a38d5a1447.png

    1、数据录入

    2a45643d9497f01a42c00149f6c228e1.png

    2f2410578e66631b07eacb4b7cb3e853.png

    2、数据加权:Data>>Weight Cases…,将[频数]进行加权

    e4c8bfca9e81d353610c81f02e55d383.png

    3、多变量回归分析:Analyze>>Regression>>Multinomial Logistic…

    l 因变量:获得途径

    l 因素:社区、性别

    因变量和因素必须是分类变量,协变量是试验设计中不为研究者关注但对结果会产生影响的独立解释变量,可以分类变量也可以是连续型变量。在[因变量]下方的[参考类别(Reference Category…)]中可以对参考类别和类别顺序进行设置,默认的参考类别是最后一个类别,默认的类别顺序为升序。升序时因变量取值最小的为第一类别,而降序则将取值最小的为最后一类。

    a9a9ac1a8e9ae9d5231c7a6a6df9c4fd.png

    【模型】:可以指定分析的模型,默认是只分析主效应,也可以进行全因素分析(主效应+交互作用),当然也可以进行自定义分析。选中自定义/逐步(Custom/Stepwise)后,除了可以自定义模型外,还可以实现变量的筛选,类似于二分类logistics回归中的Block和Method。本例取默认的主效应分析。

    【统计量】:除默认选项,同时选中信息准则(输出AIC和BIC)、单元格概率、分类表及拟合优度检验。定义子总体默认选项为对所有的自变量和协变量计算单元格概率并进行拟合优度检验。

    95cadd60f83e77b3ee61ae17bb48113d.png

    【收敛准则】:主要对迭代进行设置。

    【选项】:可对进入和剔除标准及其检验方法进行设置。【保存】:可以保存新变量[估计反应概率]、[预测分类]、[预测分类概率]、[实际分类概率]。

    4、结果

    【案例处理概要】:分析示例的基本情况。

    49098e6599f7d1123385e1e5e34fd306.png

    【模型拟合信息】:与只含常数项的初始模型相比,最终模型的AIC(Akaike信息准则)、BIC(贝叶斯信息准则)、负2倍的对数似然值(-2LL)均有下降。-2LL值从80.877下降至36.821,下降了44.056(卡方值),似然比卡方检验具有统计学意义(P<0.001),说明模型纳入性别和社区两个变量中至少有一个偏回归系数不为0。

    bdea3a2caed5c2e986bf5b912f7af8e0.png

    【拟合优度检验】:显示Pearson拟合优度检验和Deviance拟合优度检验结果。此两种方法实际是检验当前模型预测值与样本实测值的比较,两者结果P值均大于0.05,表示拟合良好。但要注意这两种方法对自变量的样本量有一定要求,当自变量较多或者含有连续变量时一般不采用这两种方法的检验结果。

    93f5fb938672705fbd59049795e6a2b4.png

    【伪R2】:输出三种伪决定系数。对分类数据的统计分析,不需要过于在意这三种伪决定系数过低的问题。

    3950b37c0bcec27a2ea8df8bea6da1aa.png

    【似然比检验】:表格显示最终模型的AIC、BIC、-2LL值(与【模型拟合信息】表的结果一致),以及简约模型(去掉某个自变量效应后的模型)的AIC、BIC、-2LL值,卡方检验统计量为简约模型与最终模型的-2LL差值。结果显示社区和性别对模型的贡献均有统计学意义。

    6cdc94dfcb33319f3a47a1b896e7b1d1.png

    【参数估计】SPSS中因变量默认以取值高水平为参照水平(本例为社区宣传),如希望将其他取值水平作为参照水平,可在数据中修改因变量各水平的赋值,或者通过[参考类别(Reference Category…)]来指定。自变量也默认取值水平高的为参照水平,也可以修改自变量各水平的赋值来改变参照水平,如果将变量作为协变量纳入分析则低水平会被默认为参照水平。因此本例中社区B(社区=1)和女(性别=1)为参照水平,其参数值为0,一般是研究者不感兴趣的参数,即冗余参数。

    530bf583ae9fd92b2fc79a21e759bc10.png

    从结果来看,社区A(社区=0)的回归系数为负值,P=0.001<0.05,OR=0.370。具有统计学意义表明社区A回归系数不为0(社区B的回归系数为0)。回归系数为负,表明与社区宣传相比,社区A(比社区B)更不愿意通过传统大众传媒获得健康知识,或者说社区A更愿意通过社区宣传获得健康知识;OR=0.370,即相比社区宣传,社区A通过传统大众传媒获得健康知识是社区B的0.37倍,或者更符合表达逻辑的说法是社区A通过社区宣传获得健康知识是社区B的2.70倍(1/0.370),社区B通过传统大众传媒获得健康知识是社区A的2.70倍。当然严格来说OR的表达应该是:社区B选择传统大众传媒与选择社区宣传的比值 是 社区A相应比值的2.70倍。

    同理可知与社区宣传相比,男性(比女性)更愿意通过传统大众传媒获得健康知识,OR=3.410。与网络宣传相比,社区A(与社区B)在通过传统大众媒体获得健康知识方面没有统计过学差异(Wald χ2=1.7,P=0.192>0.05),但男性更倾向于选择网络获得健康知识(Wald χ2=8.126,P=0.004<0.05,OR=2.213)。

    a36ee86badd5d11bb7f7bd5e479f3683.png

    如想比较传统大众媒介与网络,可直接将相应的模型方程相减,

    40438bf8e16fc48b4f5b32a208514271.png

    大体可以判断与网络途径相比,社区A更不倾向传统大众传媒(也就是说更倾向于网络),男性更倾向传统大众传媒,但是否有统计学意义尚需进一步检验。可在多变量回归对话框中,通过[参考类别(Reference Category…)]将参考类别自定义为网络(Custom Value=2),可获得如下结果,同上述计算结果一致,解读略。

    a5b229b4ec733abc9e23e422169afc25.png

    另外,自变量为多分类时也要遵循同进同出的原则。

    【分类表】:观测频数与预测频数的差异。对角线为正确判断的频数,而非对角线为判断错误的个数。预测正确率一般,有待改善。

    97dce1e17f890a4405791a4acbfb8909.png

    【观测频数和预测频数】:较为接近,拟合良好。

    dd2224a632cdac5cafe5e52a5f5e7d40.png

    —— END ——

    转自个人微信公众号【Memo_Cleon】的统计学习笔记:因变量无序多分类资料的logistic回归。

    展开全文
  • 1、问题与数据 在某胃癌筛查项目中,研究者想了解首诊胃癌分期(Stage)与患者的经济...该设计中,因变量为四分类,且分类间有次序关系,针对因变量为分类型数据的情况应该选用Logistic回归,故应采用有序多分类的Logis

    一、教学内容

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    二、备注

    相关资料已上传我的资源,下载链接https://blog.csdn.net/TIQCmatlab?spm=1011.2124.3001.5343

    展开全文
  • 但当我们遇到因变量为等级变量时候,比如某种疾病的严重程度,分为轻、中、重度,要研究这一类变量的影响因素的时候,之前讲解的线性和二元Logistic就都不适用了,那么这一类变量,就要用到有序Logistic回归了。...
  • matlab实现的分类逻辑回归

    热门讨论 2015-06-22 08:50:21
    matlab实现的分类逻辑回归,用于手写数字识别
  • 一文掌握分类logistic回归

    千次阅读 2020-08-21 11:55:28
    Logistic回归分析(logit回归)一般可分为3类,分别是二元Logistic回归分析、分类Logistic回归分析和有序Logistic回归分析。logistic回归分析类型如下所示。 Logistic回归分析用于研究X对Y的影响,并且对X的...
  • 最后,在上述研究基础上引入有序logistic回归模型对国际收支阶段演变的影响因素进行实证分析.实证结果表明:第一,人均GDP对国际收支阶段演变具有显著的正向作用,这符合Crowther的国际收支阶段假说;第二,金融深化...
  • 做代谢组学分析,一共有147种代谢物,需要每个单独和其他选定的协变量一起放入线性回归模型中,依次替换147种代谢物,完成147次回归分析。 实现步骤: R语言 1、 数据预处理:excel和spss 2、 for循环 3、 multinom...
  • 结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X...
  • 实际问题中影响因变量的因素可能很,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量的选择的问题,逐步回归是从众多变量中有效地选择重要变量方法。 2、例题 3、求解 clear clc x0=...
  • Python实现多元线性回归

    万次阅读 多人点赞 2018-04-12 21:39:25
    Python实现多元线性回归 线性回归介绍 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的...
  • 一 线性回归模型最要是描述输入输出的线性关系, 例如:房屋价格与房子面积和房子年龄的关系 为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格...
  • 二元Logistic回归

    千次阅读 2020-10-16 22:58:08
    引言 搞了若干次这个东西,...分类有序:定序回归 (ordinal regression) 按个案是否经过匹配分类 非条件Logistic回归 条件Logistic回归 二元Logistic回归概述 一般线性模型中的一种,即反应变量 (dependent va
  • matlab多元参数非线性回归模型代码输出高斯过程 ...单变量GP在函数上定义了高斯分布,可用于非线性回归,分类,排名,偏好学习或有序回归。 与其他回归技术相比,单变量GP具有个优点: 在受计算量大的数据集限制的
  • 采用Minitab进行logistic回归分析

    千次阅读 2020-04-07 09:41:52
    在研究Y与X之间的因果关系时,如果Y不是一个定比或定距变量时,就需要进行logistic回归。logistic回归是一种广义线性回归(generalized linear model)。logistic回归根据Y的取值分为三类: logistic回归分析...
  •   回归分析是处理变量间相关关系的一种数学方法。相关关系不同于函数关系,函数关系反应变量间严格依存性,简单说就是一个自变量对应一个因变量。而相关分析中,对自变量的每一个取值,因变量可以有个数值与之...
  • 医学统计与R语言:这里的坑你踩过几回,有序多分类Logistic回归(Ordinal Logistic Regression) 医学统计与R语言:logsitc回归校准曲线 Calibration curve 医学统计与R语言:分格相关系数(polychoric)序列相关...
  • 二元logistic回归分析时,...设置哑变量纳入多因素回归后,结果置信区间很大,可以合并例数少的类型,变为二分类纳入多因素吗?可以的话,在文章里如何描述呢?</p>
  • 分类变量logistic回归分析--1

    千次阅读 2020-09-23 22:58:49
    1. 二分类logistic回归分析 2. 分类logistic回归分析 因变量(y变量)是分类的,包括...有序类别因变量:有序多分类logistic回归模型 2.1 无序分类logistic回归分析 2.2 有序多分类logistic回归分析 ...
  • logistic回归

    2019-11-27 20:26:17
    主要应用在研究某些现象发生的概率p,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率 p与那些因素有关。显然作为概率值,一定有0<p<1,因此很难用线性模型描述概率p与自变量的关系,另外如果p接近两个...
  • python回归

    2021-05-01 15:41:11
    假如我们现在要研究median house value与哪些因素有关,并预测其值。对于这个问题,由于median house value是一个数值型变量,所以最适合用线性回归。 分割数据,创建训练集+测试集。 一般是按照80%和20%的比例划分...
  • 我们都知道当Y是定量数据时,线性回归可以用来分析影响关系。如果现在想对某件事情发生的概率进行预估,比如一件衣服的是否有人想购买?这里的Y是“是否愿意购买”,属于分类数据,所以不能使用回归分析。如果Y为定...
  • 案例案例来源:中华护理杂志2018年10期关于轻度认知障碍(MCI)老年人精神行为症状及影响因素的调查研究。方法:采用神经精神问卷(NPI-Q)知情者版,对60名社区初筛为MCI老年人的家属进行调查,根据回收到的有效数据...
  • 有序》读书笔记

    2019-06-25 17:53:59
    书名:有序 作者:丹尼尔 列维汀 出版社: 阅读日期: 书摘/笔记: 批注/感悟: 从生化激素层面理解行为、用刺激–反应方式塑造行为...
  • Logistic回归

    2018-11-05 10:46:59
    写在开头  最近在学习一些关于机器学习的基础算法,结合学习Peter Harrington的《机器学习实战》和李航老师的《统计学习方法》两本书以及... 个人理解的回归就是发现变量之间的关系,也就是求回归系数,经常用回...
  • 逻辑回归模型原理

    2019-07-25 13:40:02
    逻辑回归模型 逻辑回归回归模型还是分类模型? 分类模型。分类与回归最大的差别在于输出变量Y的形式不同,前者Y取有限个离散值,后者的Y是连续值。 为什么名字中带“回归”二字? 逻辑回归就是用回归的方法(用...
  • 空均衡权益策略是适用于一篮子交易标的的配对交易策略的自然延伸。其特别适用于品种众多且有相互关联性的交易市场,比如数字货币市场和商品期货市场。 基本原则 空均衡权益策略是同时做和做空一篮子交易标的。...
  • 一文理解二元logistic回归

    千次阅读 2020-08-18 11:59:48
    结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。 SPSSAU Logistic回归分析分类 Logistic回归分析用于研究X对Y的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,597
精华内容 1,438
关键字:

多因素有序回归