精华内容
下载资源
问答
  • 2022-05-13 22:14:52

    单因素logistic回归

    logitUniVar <- function(dat, group, var, digit = 3){
        formu <- as.formula(paste0(group, " ~ ", var))
        dat[[group]] <- as.factor(dat[[group]])
        subgroup <- levels(as.factor(dat[[group]]))
        subgroup1 <- paste0(subgroup[2], " vs ", subgroup[1])
        fit <- glm(formu, data = dat, family = binomial())
        unisum <- summary(fit)
        OR <- exp(coef(fit))[2]
        OR <- round(OR, digit)
        ci <- exp(confint(fit))[2,]
        ci <- round(ci, digit)
        cito <- paste0(ci[1], " - ", ci[2])
        p <- unisum$coefficients[2, "Pr(>|z|)"]
        p <- ifelse(p < 0.001, "< 0.001", round(p, 3))
        var1 <- names(exp(coef(fit)))[2]
        result <- c(var1, group,subgroup1, OR, cito, p)
        names(result) <- c("var", "group","subgroup", "OR", "95%CI", "p.val")
        return(result)
    }
    
    #y1 进行分析
    multivar <- c("X", "Y", "D")
    logitRes <- lapply(multivar, function(x) logitUniVar(df, group = "y1", var = x))
    logitResDat <- do.call(rbind, logitRes)
    logitResDat
    
    更多相关内容
  • 分类有序反应变量logistic逐步回归分析在上海市医疗保险调查中的应用
  • 有序回归(Ordinal Regression)

    千次阅读 2022-01-05 19:13:02
    有序回归(Ordinal Regression) 序数回归建模的是有序输出,离散但是有顺序的类别。当一个连续的变量在观测的时候被设限时就会产生序数输出的结果。例如:当征求个人意见,但是结果却限制为离散的类别如 “不同意”...

    有序回归(Ordinal Regression)

    序数回归建模的是有序输出,离散但是有顺序的类别。当一个连续的变量在观测的时候被设限时就会产生序数输出的结果。例如:当征求个人意见,但是结果却限制为离散的类别如 “不同意”、“未确定” 和 “同意”。

    建模过程

    许多经典的建模类别数据的方法都假设类别是无序的,因此相应的概率是可以交换的。然而,有序类别的排序会导致一致统计模型的所需的特定相关性。特别的,相邻类别之间概率需要比遥远的类别之间的相关性要高。

    一个实现这种必要结构的方法是假设一个由连续隐变量组成的模型,对该隐变量进行限制即可导出叙述概率。这个隐变量只是一种构建具有期望相关性概率分布的一种方式,并不需要用来解释真实数据的生成过程。

    一旦具有了构建概率分布的过程,我们便可以引入潜在的影响来连续的调整这些概率。

    进行切割

    假设隐变量分布空间为 X = R X=R X=R ,概率分布密度函数为 π ( x ) \pi(x) π(x),通过三个cut points, c 0 , c 1 , c 2 {c_0,c_1,c_2} c0,c1,c2 X X X分割成两个区间,在这里 c 0 = − ∞ , c 2 = + ∞ c_0=-\infty,c_2=+\infty c0=,c2=+, c 1 c_1 c1在中间,控制 X X X的分布情况,如下图所示:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ftdS5NXN-1641381160713)(解决的问题记录-2021.assets/image-20220105174926195.png)]

    可以通过累计概率分布函数的差来计算相应的概率:

    p 1 = ∏ ( c 1 ) − ∏ ( c 0 ) = ∏ ( c 1 ) − 0 p_1=\prod(c_1)-\prod(c_0)=\prod(c_1)-0 p1=(c1)(c0)=(c1)0

    p 2 = ∏ ( c 2 ) − ∏ ( c 1 ) = 1 − ∏ ( c 1 ) p_2=\prod(c_2)-\prod(c_1)=1-\prod(c_1) p2=(c2)(c1)=1(c1)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vJXsmuvT-1641381160714)(解决的问题记录-2021.assets/image-20220105175225170.png)]

    很容易把上面的过程扩展到多段的情况,使用 K + 1 K+1 K+1个有序的cut points可以把 X X X分割成 K K K份,从而可以使用如下公式计算出 K K K个有序概率:

    p k = ∏ ( c k ) − ∏ ( c k − 1 ) p_k=\prod(c_k)-\prod(c_{k-1}) pk=(ck)(ck1)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ENIxB7D0-1641381160714)(解决的问题记录-2021.assets/image-20220105175525891.png)]

    此时完整的序数模型为:

    π ( k ∣ c 0 , … , c K ) = ∏ ( c k ) − ∏ ( c k − 1 ) \pi(k|c_0,\dots,c_K)=\prod(c_k)-\prod(c_{k-1}) π(kc0,,cK)=(ck)(ck1)

    上述构建过程对于任何关于 X X X的分布都成立,可以通过配置内部的切割点来实现任何期望的序数概率,通常可以考虑累积分布的计算复杂度来选择合适的关于 X X X的概率分布。

    当选择如下式所示的逻辑概率密度函数时:

    π ( x ) = e − x ( 1 + e − x ) 2 \pi(x)=\frac{e^{-x}}{(1+e^{-x})^2} π(x)=(1+ex)2ex

    其累计分布函数为sigmoid函数:

    σ ( x ) = 1 1 + e − x \sigma(x)=\frac{1}{1+e{-x}} σ(x)=1+ex1

    此时定义为 ordinal logistic或者ordered logistic,如果概率密度函数选择高斯分布,则称为 ordinal probit或者ordered probit。

    Cut to the Feeling

    如何来建模潜在因素对序数概率的影响呢?特别的,假设潜在因素记为 γ \gamma γ,和较大的序数输出结果有关,问题的关键在于如何设计模型,使得当 γ > 0 \gamma > 0 γ>0的时候把概率分布拉向较大的序数输出结果,当 γ < 0 \gamma < 0 γ<0时,把概率分布拉向较小的序数输出结果。

    实际上可以通过把 x ⟼ x − γ x \longmapsto x-\gamma xxγ来实现:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fb1A3nph-1641381160715)(解决的问题记录-2021.assets/image-20220105185812102.png)]

    由于潜在空间平移和切割点之间的这种等价性,在这种结构中,序数概率只告知 γ \gamma γ 和切割点的相对位置。当对和切割点联合建模时,这导致观测模型中的不可辨识性和产生的似然函数中的强退化(个人理解为多组不同的 γ \gamma γ和cut points可能代表同一个结果,比如 γ \gamma γ、cut points和 2 γ 2\gamma 2γ c u t p o i n t s + 2 ∗ γ cut points + 2 * \gamma cutpoints+2γ)。为了防止这些退化从已实现的似然函数传播到相应的后验分布,我们必须小心地将 γ \gamma γ、切割点,或者甚至两者都锚定到先验模型中的一些基线值。

    一个更好的方法是完全避免对任何基线 γ \gamma γ建模,而是使用这种构造来对跨不同环境的 γ \gamma γ中的异构性建模。例如,考虑亲和本身受外部协变量的影响, γ = α + β x \gamma=\alpha+\beta x γ=α+βx。截距 α \alpha α不是从切割点确定的,因此不是真正定义明确的。理想情况下,我们将完全放弃截距,只对协变量依赖关系建模, γ = β x \gamma=\beta x γ=βx

    参考链接:Ordinal Regression (betanalpha.github.io)

    展开全文
  • 原标题:SPSS实例教程:有序多分类Logistic回归1、问题与数据在某胃癌筛查项目中,研究者想了解首诊胃癌分期(Stage)与患者的经济水平的关系,以确定胃癌筛查的重点人群。为了避免性别因素对结论的混杂影响,研究者将...

    原标题:SPSS实例教程:有序多分类Logistic回归

    1、问题与数据

    在某胃癌筛查项目中,研究者想了解首诊胃癌分期(Stage)与患者的经济水平的关系,以确定胃癌筛查的重点人群。为了避免性别因素对结论的混杂影响,研究者将性别(Sex)也纳入分析(本例仅为举例说明如何进行软件操作,实际研究中需控制的混杂因素可以更多)。研究者将所有筛查人群的结果如表1,变量赋值如表2。

    表1. 原始数据

    表2. 变量赋值情况

    2、对数据结构的分析

    该设计中,因变量为四分类,且分类间有次序关系,针对因变量为分类型数据的情况应该选用Logistic回归,故应采用有序多分类的Logistic回归分析模型进行分析。

    有序多分类的Logistic回归原理是将因变量的多个分类依次分割为多个二元的Logistic回归,例如本例中因变量首诊胃癌分期有1-4期,分析时拆分为三个二元Logistic回归,分别为(1 vs 2+3+4) 、(1+2 vs 3+4)、(1+2+3 vs 4),均是较低级与较高级对比。需注意的是,有序多分类Logistic回归的假设是,拆分后的几个二元Logistic回归的自变量系数相等,仅常数项不等。其结果也只输出一组自变量的系数。

    因此,有序多分类的Logistic回归模型中,必须对自变量系数相等的假设进行检验(又称平行线检验)。如果不满足平行线假设,则考虑使用无序多分类Logistic回归或其他统计方法。

    3、SPSS分析方法

    (1)数据录入SPSS

    首先在SPSS变量视图(Variable View)中新建四个变量:ID代表患者编号,Sex代表性别,Income代表收入水平,Stage代表首诊胃癌分期。赋值参考表1。然后在数据视图(Data View)中录入数据。

    (2)选择Analyze → Regression → Ordinal Logistic

    (3)选项设置

    将因变量Stage放入因变量(Dependent)位置,自变量性别(Sex)、收入水平(Income)为分类变量,故放入因子(Factors)位置。若研究中还有连续型变量需要调整,则放入协变量(Covariate)位置。

    点击输出(Output)选项,勾选平行线检验(Test of parallel lines)。其余选项维持默认。点击确定(OK)。

    4、结果解读

    (1)Case Processing Summary

    给出的是数据的一般情况,这里不进行介绍。

    (2)模型拟合优度检验

    有两个,一个是似然比检验结果(Model Fitting Information).该检验的原假设是所有纳入自变量的系数为0,P(Sig.)<0.001,说明至少一个变量系数不为0,且具有统计学显著性。也就是模型整体有意义。

    另一个结果是拟合优度检验(Goodness-of-Fit)结果,提供了Pearson卡方和偏差(Deviance)卡方两个检验结果。但是,这两个检验结果不如上图的似然比检验结果稳健,尤其是纳入的自变量存在连续型变量时,因此推荐以似然比检验结果为准。

    (3)伪决定系数(Pseudo R-Square)

    对于分类数据的统计分析,一般情况下伪决定系数都不会很高,对此不必在意。

    (4)参数估计(Parameter Estimates)

    阈值(Threshold)对应的Stage=1,2,3三个估计值(Estimate)分别是本次分析中拆分的三个二元Logistic回归的常数项。位置(Location)中Sex和Income变量对应的参数估计值为自变量的估计值。其中Income为多分类,在分析中被拆分成了三个哑变量(即Income 取值1、2、3),分别与Income=4的组进行对比。且有序多分类Logistic回归假定拆分的多个二元回归中自变量系数均相等,因此结果只给出了一组自变量系数。

    Income=1系数估计值(Estimate)为-1.617意味着,在调整性别变量的情况下,Income=1(即收入水平最低)的组,相比于Income=4(收入水平最高)的组,初诊胃癌分期至少低一个等级的可能性是exp(-1.617)=0.198倍。其他系数解释相同。这说明,收入水平低的人群,其初诊胃癌时病情更严重。

    Sex变量系数无统计学意义(P=0.428),如果没有其他证据证明不同性别的初诊胃癌分期有区别,那么从模型精简的角度考虑,应当将Sex变量从模型中去掉再次进行回归,得到收入水平的参数估计值。如果研究者比较肯定不同性别初诊胃癌分期会产生区别,那么即使在本研究中其系数无统计学意义也应保留在模型中(因为无统计学意义有可能是因为样本量小造成的,并不能说明该变量不产生影响)。本研究中予以保留。

    (5)平行线假设检验(Test of Parallel Lines)

    该检验的原假设是三个二元Logistic回归自变量系数相等,检验P(Sig.)值为0.052,不拒绝原假设,可以认为假设成立,可以使用多重有序Logistic回归。如果将参数无统计学意义的Sex变量去掉,会发现平行线假定检验P值会增大(P=0.175)(是否去掉Sex变量重回归,取决于是否有充足研究证据证明Sex是一个混杂变量,如果是,Sex变量应保留在模型中)。

    5、结果汇总

    胃癌患者的初诊分期与患者的收入水平有关。低等收入、中等收入与中高等收入人群与高等收入人群相比,初诊胃癌分期低至少一个等级的可能性分别为0.198(P<0.001)、0.310(P<0.001)、0.640(P=0.071)倍。

    (更多内容可关注“医咖会”微信公众号:传播医学知识和研究进展,探讨临床研究方法学。)返回搜狐,查看更多

    责任编辑:

    展开全文
  • 有序多分类的Logistic回归原理是将因变量的个分类依次分割为个二元的Logistic回归,例如本例中因变量“本国的税收过高”的赞同程度有4个等级,分析时拆分为三个二元Logistic回归,分别为(0 vs 1+2+3) 、(0+1 vs...

    一、问题与数据

    研究者想调查人们对“本国税收过高”的赞同程度:Strongly Disagree——非常不同意,用“0”表示;Disagree——不同意,用“1”表示;Agree--同意,用“2”表示;Strongly Agree--非常同意,用“3”表示。

    另外,研究者也调查了一些其它情况,包括:是否是“雇主”(biz_owner:Yes——是,用“0”表示;No——否,用“1”表示)、年龄(age)和党派(politics:Lib——党派1,用“1”表示;Con——党派2,用“2”表示;Lab——党派3,用“3”表示)。部分数据如下图:

    二、对问题的分析

    使用有序Logistic进行回归分析时,需要考虑4个假设。

    假设1:因变量唯一,且为有序多分类变量,如城市综合竞争力等级可以分为高、中、低;某病的治疗效果分为痊愈、有效、无效等。

    假设2:存在一个或多个自变量,可为连续、有序多分类或无序分类变量。

    假设3:自变量之间无多重共线性。

    假设4:模型满足“比例优势”假设。意思是无论因变量的分割点在什么位置,模型中各个自变量对因变量的影响不变,也就是自变量对因变量的回归系数与分割点无关。

    有序多分类的Logistic回归原理是将因变量的多个分类依次分割为多个二元的Logistic回归,例如本例中因变量“本国的税收过高”的赞同程度有4个等级,分析时拆分为三个二元Logistic回归,分别为(0 vs 1+2+3) 、(0+1 vs 2+3)、(0+1+2 vs 3),均是较低级与较高级对比。

    在有序多分类Logistic回归中,假设几个二元Logistic回归中,自变量的系数相等,仅常数项不等,结果也只输出一组自变量的系数。因此,有序多分类的Logistic回归模型,必须对自变量系数相等的假设(即“比例优势”假设)进行检验(又称平行线检验)。如果不满足该假设,则考虑使用无序多分类Logistic回归。三、前期数据处理

    对假设进行验证前,我们需要将分类变量设置成哑变量。

    1. 为什么要设计哑变量

    若直接将分类变量纳入Logistic回归方程,则软件会将分类变量按连续变量处理。例如,如果把性别按“1”——男、“2”——女进行编码,然后直接把性别纳入方程,方程会认为“女”是“男”的2倍。为了解决这个问题,需要用一系列的二分类变量“是”或“否”来表示原始的分类变量,这些新的二分类变量被称为“哑变量”。

    在SPSS软件的二项Logistic回归模型中,将分类变量选入categorical,软件会自动设置一系列的哑变量。由于验证假设3(自变量之间无多重共线性)需要通过线性回归实现,而在线性回归中,就需要手动设置哑变量。因此,这里需要先手动设置哑变量。

    2. 设置哑变量的思路

    哑变量的数目是分类变量类别数减一。本例中,党派1、党派2和党派3的原始编码为1、2和3。设置哑变量时,需要对党派1和党派2进行重新编码。

    建立新变量Lib(党派1),若调查对象选了党派1,则Lib编为“1”,代表是;若未选党派1,则Lib编为“0”,代表否。同样,建立新变量Con(党派2),将是否选党派2编为“1”或“0”。此时,若既未选党派1,又未选党派2,则两个新变量Lib和Con的编码都为“0”,代表党派3。此时,党派3在模型中是参考类别(Reference)。

    3. 在SPSS中设置哑变量

    (1)首先,先创建新变量“Con”,在主菜单下选择Transform→Recode into Different Variables... ,如下图:

    (2)在Recode into Different Variables对话框中,将politics选入右侧Numeric Variable-->Output Variable下,在右侧Output Variable中填写“Con”。点击Change→Old and New Values。

    (3)出现Recode into Different Variables: Old and New Values对话框,在左侧的Old Value下的Value中填入2,在右侧的New Value下的Value中填入1,点击Add。

    (4)将其它值变为“0”:左侧点击All other values,在右侧Value中填入“0”,点击Add→Continue。

    (5)如果数据中有缺失值,点击左侧System-missing,右侧点击System-missing→Add,保持缺失值:

    设置得到的结果如下图:

    本例中没有缺失值,可省略这一步。

    (6)继续创建新变量“Lib”,与以上步骤相似。两个变量创建完成后,点击变量视图,可以看到在最右侧已经生成了两个新变量“Con”和“Lib”,如下图:

    四、对假设的判断

    假设1-2都是对研究设计的假设,需要研究者根据研究设计进行判断,所以这里主要对数据的假设3-4进行检验。

    1. 检验假设3:自变量之间无多重共线性

    (1)在主菜单点击Analyze→Regression→Linear...

    (2) 将tax_too_high选入Dependent,将biz_owner、age、Con、Lib选入Independent(s)。

    (3)点击Statistics,出现Linear Regression:Statistics对话框,点击Collinearity diagnostics→Continue→OK。

    结果如下图:

    如果容忍度(Tolerance)小于0.1或方差膨胀因子(VIF)大于10,则表示有共线性存在。

    本例中,容忍度均远大于0.1,方差膨胀因子均小于10,所以不存在多重共线性。如果数据存在多重共线性,则需要用复杂的方法进行处理,其中最简单的方法是剔除引起共线性的因素之一,剔除哪一个因素可以基于理论依据。

    2. 检验假设4:模型满足“比例优势”假设

    “比例优势”假设可以在后面结果部分的“平行线检验”中看到。五、SPSS操作

    SPSS中,可以通过两个过程实现有序Logistic回归。分别是Analyze → Regression → Ordinal...和Analyze → Generalized Linear Models → Generalized Linear Models...。

    其中,Analyze → Regression → Ordinal模块,可以检验 “比例优势”假设,但无法给出OR值和95%CI。而Analyze → Generalized Linear Models → Generalized Linear Models模块可以给出OR值和95%CI,但无法检验“比例优势”假设。

    这里,我们主要介绍Analyze → Regression → Ordinal过程。

    (1)在主菜单点击Analyze→Regression→Ordinal...

    (2)出现Ordinal Regression对话框,将tax_too_high选入Dependent,将biz_owner和politics选入Factor(s),将age选入Covariate(s),再点击Output。

    (3)出现Ordinal Regression: Output对话框。在原始设置的基础上,勾选Display下方的Test of parallel lines,勾选Saved Variables下方的Estimated response probabilities、Predicted category、Predicted category probability和Actual category probability,这四个选项会在SPSS数据集中产生新的变量,如下图所示。点击Continue。

    (4)点击Location,出现Ordinal Regression: Location对话框,如果自变量间有交互作用,则通过该对话框进行选择。本例中自变量间无交互作用,所以点击Continue→OK。

    六、结果解释

    1. 假设4的检验结果

    在结果解释之前,我们需要先看一下假设4的检验结果(平行线检验的结果)。

    在Ordinal Regression:Output对话框中,选则Test of parallel lines后出现,的结果如下表。本例中平行线检验χ2= 8.620, P= 0.375,说明平行性假设成立,即各回归方程相互平行,可以使用有序Logistic过程进行分析。

    如果平行线假设不能满足,可以考虑一下两种方法进行处理:①进行无序多分类Logistic回归,而非有序Logistic回归,并能接受因变量失去有序的属性;② 用不同的分割点将因变量变为二分类变量,分别进行二项Logistic回归。

    但是,当样本量过大时,平行线检验会过于敏感。即当比例优势存在时,也会显示P<>

    2. 单元格

    输出结果中,首先会给一个警告,内容为:有235(63.2%)个频率为零的单元格。如果存在过多频数为0的单元格,则会影响模型的拟合,导致拟合优度检验不可信。

    扩展阅读

    要理解这一点,就需要理解“协变量模式(covariate pattern)”的概念。协变量模式是指数据中自变量数值的组合,与因变量无关。比如,在本数据中,一个协变量模式是23岁(age),雇主(biz_owner)和党派3(politics)。对于每种协变量模式,可能有多个研究对象。比如,如果有4个研究对象是23岁、雇主和党派3,这代表一个协变量模式。

    需要理解的另一个概念是“单元格模式(cell pattern)”,它是指自变量和因变量数值的组合,与协变量模式相似,但加上了因变量。对于同一个协变量模式,如果协变量模式能对应因变量所有值,就没有“缺失”的单元格。但实际中,一个协变量模式对应的因变量可能只有一个值。假如,有1个23岁、雇主和党派3研究对象的因变量是“Agree”,但由于因变量总共有4个水平,所以此时单元格“缺失”3个。

    因此,协变量模式与单元格模式之间的联系是:(1)所有可能的单元格总数是协变量模式个数乘以因变量的分组个数;(2)实际的单元格是指单元格模式中频率不为0的单元格。单元格频率为零的比率为(总单元格的个数-实际单元格的个数)÷总单元格的个数。

    3. 拟合优度检验结果

    下图为拟合优度检验的结果,分别为Pearson和Deviance两种拟合优度检验。本例中,Pearson检验的结果χ2= 745.367,P<><>2= 232.618,P=0.960>0.05,说明Deviance检验结果为模型拟合好。

    这两个统计量对于上述单元格频数为0的比例十分敏感。本例中频数为0的单元格非常多,这两个统计量不一定服从卡方分布,而基于卡方分布计算的P值也不可信,所以本例中这两个检验结果都不可信。

    4. 伪决定系数

    下图给出了三个伪决定系数:Cox and Snell,Nagelkerke和McFadden,这三种方法是最常用的计算伪决定系数的方法。由于三种方法并没有得到广泛的应用,所以我们也不用关注该结果。

    5. 模型拟合信息

    Model Fitting Information的结果是对模型中所有自变量的偏回归系数是否全为0的似然比检验。结果χ2=87.911(该值为仅有常数项的模型和最终模型的-2 Log Likelihood值之差),P<>

    6. 模型预测准确度

    另一种看模型拟合程度的方法是看模型对因变量的预测情况。在Ordinal Regression: Output对话框中,勾选Saved Variables下方的Estimated response probabilities、Predicted category、Predicted category probability和Actual category probability后,会在SPSS数据集中产生新的变量,如下图所示。

    EST1_1、EST2_1、EST3_1和EST4_1分别代表对因变量的四个程度(Strongly Disagree、Disagree、Agree和Strongly Agree) 的预测概率。

    第一行(case 1),可以看到EST1_1、EST2_1、EST3_1和EST4_1相加的概率为1,其中EST1_1的概率最大,为0.44,对应的PRE_1为0(Strongly Disagree),因变量的观察值也是0(Strongly Disagree),此时模型准确的预测了因变量。

    而第三行(case 3),EST1_1、EST2_1、EST3_1和EST4_1中EST3_1最大,预测的PRE_1为2(Agree),而因变量实际的观察值为0(Strongly Disagree),此时模型没有准确的预测因变量。

    那么,如何看出模型预测因变量的程度呢?可以按照下述步骤建立表格。

    (1)在主界面下选择Analyze→Descriptive Statistics→Crosstabs...

    (2)将tax_too_high选入Row(s),将PRE_1选入Column(s),点击Cells。

    (3)在已选的Observed基础上,点击Row→Continue→OK。

    (4)结果如下图。当tax_too_high=0,即为Strongly Disagree时,模型预测正确的有11人(45.8%)。相似的,当tax_too_high分别为Disagree、Agree和Strongly Agree时,模型预测正确的分别有9人(23.7%)、76人(83.5%)和11人(28.2%)。模型预测的总准确度可以通过计算获得,即四个分组中预测正确人数除以总人数=(11+9+76+11)÷192=55.7%。

    7. 参数估计

    在Parameter Estimates中,得到了回归方程的参数,包括常数项(Estimates或B)及其标准误和95%置信区间等。

    (1)Threshold(常数项)中,第一行tax_too_high=0代表“Strongly Disagree” VS 其它组的累积概率模型的截距;tax_too_high=1代表 “Strongly Disagree”和“Disagree”VS其它组的累积概率模型的截距;tax_too_high=2代表 “Strongly Disagree”、“Disagree”和“Agree” VS“Strongly Agree”的累积概率模型的截距。

    (点击图片看大图)

    (2)除了常数项不同,Location中自变量的系数都是同一个系数,这也是为什么要求有序Logistic回归需要满足比例优势的假设。最终拟合的三个方程如下:

    但是Analyze→Regression→Ordinal模块,并不能直接给出OR值及其95%CI,此时可以借助Analyze→Generalized Linear Models→Generalized Linear Models模块计算。该模块的操作见后面第八部分。

    (3)借助Analyze→Generalized Linear Models→Generalized Linear Models模块得到OR值后,我们得到如下结果:雇主认为“税收过高”的OR值是非雇主的1.944倍(95%CI:1.101-3.431),χ2= 5.255, P = 0.022。

    (4)以党派3为对照组,党派1认为“税收过高”的OR值是党派3的1.038倍 (95%CI: 0.509-2.116),χ2 = 0.010,P = 0.919;党派2认为“税收过高”的OR值党派3的3.194倍(95%CI: 1.626 -6.277),χ2 = 11.358,P= 0.001。

    这样可以看到党派1 VS 党派3、党派2 VS 党派3的结果,但是没有党派1和党派2比较的结果。此时,可以对Politics重新编码,将党派1编为3,党派3编为1,再进行上述操作,即可得到结果。

    (5)age:年龄每增加一岁,认为税收过高的OR值增加为原来的1.274倍(95%CI:1.196-1.357),χ2 = 56.355,P<>七、撰写结论

    运用符合比例优势假设的有序Logistic回归分析是否是雇主、投票选举的党派和年龄对“税收过高”的效应。

    平行线检验的结果为χ2= 8.620,P=0.375,说明比例优势假设存在。Deviance拟合优度检验显示模型拟合好,χ2= 232.618,P=0.960,但是有大部分(63.2%)频数为0的单元格。模型拟合信息显示,本模型优于只有常数项的模型,χ2 = 87.911,P <>

    雇主认为“税收过高”的OR值是非雇主的1.944倍(95%CI: 1.101-3.431),χ2= 5.255,P=0.022。以党派3为对照组,党派1认为“税收过高”的OR值是党派3的1.038倍 (95%CI: 0.509-2.116),χ2 = 0.010,P= 0.919;党派2认为“税收过高”的OR值党派3的3.194倍(95%CI: 1.626 -6.277),χ2 = 11.358,P=0.001。八、利用其它模块计算OR值

    上述Analyze→Regression→Ordinal模块,可以检验 “比例优势”假设,但无法给出OR值和95%CI。而Analyze→Generalized Linear Models→Generalized Linear Models模块可以给出OR值和95%CI。

    1. SPSS操作

    (1)在主菜单点击Analyze→Generalized Linear Models→Generalized Linear Models。出现Generalized Linear Models对话框后,在Ordinal Response下选择Ordinal logistic。

    (2)点击上方的Response,出现 Response对话框。将tax_too_high选入Dependent Variable,下方的category order行可以选择Ascending或Descending。

    本例中tax_too_high共有四个等级,“0”表示“非常不同意”。如果选择ascending,则“0”是最低的等级;如果选择Descending,则表示“0”为最高的等级。

    (3)点击上方的Predictors,出现Predictors对话框。将biz_owner和politics选入Factors,将age选入Covariates。

    (4)点击上方的Model,出现Model对话框。将biz_owner、politics和age选入右侧的Model中。

    (5)点击Estimation,出现Estimation对话框。在Method中选择Fisher。

    (6)点击Statistics,出现Statistics对话框。在原始设置下,再勾选Print下的Include exponential parameter estimates,勾选该选项会输出OR值及其95%的置信区间,然后点击OK。

    2. 结果解释

    Generalized Linear Models模块不会给出单元格信息、伪决定系数和平行线检验结果。模型拟合信息在Ominibus Test表中,该结果与Regression→Ordinal的Model Fitting Information结果一致。

    参数估计的OR值和95%CI见下图:

    展开全文
  • Logit回归共分为三种,分别是二元Logit(Logistic)回归分类Logit(Logistic)回归有序Logit(Logistic)回归(也称Oridinal回归),此三个方法的区别在于因变量Y的数据类型。如下表:Logistic回归分类哑变量问题有序....
  • SPSS:二元Logistic回归中自变量的处理和解读——有序多分类变量的处理。有序多分类变量是很常见的变量形式,通常在变量中有个可能会出现的取值,各取值之间还存在等级关系。比如高血压分级(0=正常,1=正常高值,2...
  • 上期学习了怎样汇总单因素 Cox 回归的结果,这期学习单因素;回归分的汇总,由于使用的是 coxph和 glm 两个函数结果的展示有所不同,因此整理过程略有不同,但是提取的信息是一致的。
  • R实现分类logistic回归

    千次阅读 2021-01-14 02:10:11
    然后建立二元logistic回归方程,可以得到影响因素的OR值。那么如果遇到分类变量,如何进行logistic回归呢?譬如临床疗效分为好,中,差,三类,或者根据指标进行分类,分为高,中,低三类,我用1、2、3代表作为...
  • 当研究目标是个水平的分类变量,而且各水平还有顺序关系时,可以考虑选用有序多分类logistic回归分析。用一个案例来说明。欲研究性别、两种治疗方法对某病疗效的影响,疗效的评价分为3个有序的等级:显效、有效和...
  • r软件-医学统计分析-有序logistic回归1统计学进展/累积 logisitic 回归模型/ 曾庆累积 logisitic 回归模型一、理论(一)模型定义假设结局变量 Y 有 J 个有序分类,其自然结局顺序表示为 Y=1,2,..., J,每个分类(结局)...
  • 但当我们遇到因变量为等级变量时候,比如某种疾病的严重程度,分为轻、中、重度,要研究这一类变量的影响因素的时候,之前讲解的线性和二元Logistic就都不适用了,那么这一类变量,就要用到有序Logistic回归了。...
  • matlab多元参数非线性回归模型代码输出高斯过程 ...单变量GP在函数上定义了高斯分布,可用于非线性回归,分类,排名,偏好学习或有序回归。 与其他回归技术相比,单变量GP具有个优点: 在受计算量大的数据集限制的
  • Logit回归共分为三种,分别是二元Logistic回归分类Logistic回归有序Logistic回归(也称Oridinal回归),此三个方法的区别在于因变量Y的数据类型。如下表:Logistics回归分类哑变量问题有序logistics回归中,X...
  • 关于cox单因素多因素分析

    千次阅读 2021-07-14 09:04:23
    我按照原有的知识体系说是单因素就单个变量与生存的cox回归,而多因素则是将单因素显著的部分提取出来作为自变量做cox,也就是说多因素的cox是有个自变量的。当被问到为什么要做多因素时,我想了一下说是为了去除...
  • 回归是一种线性回归分析,因变量是名义上的两个或两个以上的水平。它用来描述数据,并解释一个依赖名义变量和一个或个联系水平(时间间隔或比例规模)的独立变量之间的关系。你可以理解的名义变量,一个没有内在...
  • 多元logistics回归分析

    千次阅读 2021-01-14 02:07:51
    1. 概念多元 logistics 回归(multinomial logistics regression)又称分类 logistics 回归。医学研究、社会科学领域中, 存在因变量是项的情况, 其中又分为无序(口味: 苦、 甜、 酸、 辣; 科目: 数学、 自然...
  • 目录 基本情况 摘要 介绍 网络结构 基本情况 题目... section4: 除了在这些基准上的定性和定量性能外,我们还评估了所提出方法的个基本实例,以分析这些核心因素的影响; section5: 最后,总结了整个论文。 网络结构
  • 使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。一 从线性回归到Logistic回归线性回归和Logistic回归都是广义线性模型的特例。假设有一个因变量y和一组自变量x1, x2, x3, ... , xn,其中y为连续变量...
  • 转自个人微信公众号【Memo_Cleon】的统计学习笔记:因变量无序分类资料的logistic回归。因变量为无序分类资料,或者因变量虽为有序多分类但不满足比例优势假定(平行性检验P>0.05),可采用无序分类的...
  • cosoft@163.com基于R的有序分类资料logistic回归分析韦杰,曾萍(贵阳中医学院基础医学院,贵州贵阳,550002)摘要:本文描述有序分类资料的logistic回归模型及参数估计与假设检验,以R语言作为分析工具,利用程序包...
  • 最后,在上述研究基础上引入有序logistic回归模型对国际收支阶段演变的影响因素进行实证分析.实证结果表明:第一,人均GDP对国际收支阶段演变具有显著的正向作用,这符合Crowther的国际收支阶段假说;第二,金融深化...
  • 1、问题与数据 在某胃癌筛查项目中,研究者想了解首诊胃癌分期(Stage)与患者的经济...该设计中,因变量为四分类,且分类间有次序关系,针对因变量为分类型数据的情况应该选用Logistic回归,故应采用有序多分类的Logis
  • SAS逻辑回归分类

    万次阅读 热门讨论 2017-02-28 11:00:00
    数据集Car(1728个观测值,6个自变量,因变量Car有unacc\acc\good\very good.../*逻辑回归数据集Car(1728个观测值,每个含6个属性,目标变量Car(unacc\acc\good\very good))*/ /*导入数据集australian到逻辑库work中
  • 第13章Stata Logistic回归分析

    千次阅读 2021-07-17 10:16:13
    前面我们讲述得回归分析方法都要求因变量是连续变量,但很情况下因变量是离散得而非连续得。例如,公司招聘人才时根据对应聘人员得特征做出录用或者不录用得评价、毕业学生对职业得选择等。这时就需要用到Logistic...
  • 自变量是无序分类变量,因本量是等级变量可以做回归分析吗?比如自变量是不同地区(A,B,C),因变量是高血压分级(1级,2级,3级)
  • 结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,241
精华内容 1,696
关键字:

多因素有序回归