精华内容
下载资源
问答
  • 多项logistic回归分析

    2011-03-31 14:16:19
    多项logistic回归在医学统计中广泛应用,但对于大多数医学生来说是一难点,分享我找到的相关资料
  • via:SPSS学习乐园析拟合logistic回归方程的步骤和注意事项01应用范围① 适用于流行病学资料...二分类logitic回归分析有序分类logitic回归分析无序分类logistic回归分析② 按研究方法分:条件/配伍 Logistic 回...
    b6c7b5244275ca0ed916dbd77d4a91f4.pngvia:SPSS学习乐园析拟合logistic回归方程的步骤和注意事项01应用范围① 适用于流行病学资料的危险因素分析② 实验室中药物的剂量-反应关系③ 临床试验评价④ 疾病的预后因素分析02Logistic 回归的分类① 按因变量的资料类型分:
    • 二分类logitic回归分析

    • 有序多分类logitic回归分析

    • 无序多分类logistic回归分析

    f6fed0d3095ecb2dd0be1392a0937e35.png② 按研究方法分:
    • 条件/配伍 Logistic 回归分析

    • 非条件 Logistic 回归分析

    两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。  03Logistic 回归的应用条件① 独立性。各观测对象间是相互独立的;② LogitP 与自变量是线性关系;③ 样本量。经验值是病例对照各 50 例以上或为自变量的 5-10 倍(以 10 倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确 logistic 回归分析,此时要求分析变量不能太多,且变量分类不能太多;④ 当队列资料进行 logistic 回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用 Poisson 回归)。04拟合logistic 回归方程的步骤① 对每一个变量进行量化,并进行单因素分析;② 数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。③ 对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;④ 在单变量分析和相关自变量分析的基础上,对 P ≤α(常取 0.2,0.15 或 0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。c79e04e7051d310192e47636b01d6bf8.png可以采用双向筛选技术:a 进入变量的筛选用 score 统计量或 G 统计量或 LRS(似然比统计量),用户确定 P 值临界值如:0.05、0.1 或 0.2,选择统计量显著且最大的变量进入模型;b 剔除变量的选择用 Z 统计量 (Wald 统计量),用户确定其 P 值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问 题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结 果,这在与他人结果比较时应当注意。⑤ 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立 (也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。⑥ 对专业上认为重要但未选入回归方程的要查明原因。05回归方程拟合优劣的判断以下为线性回归方程判断依据,可用于 logistic 回归分析① 决定系数 (R2) 和校正决定系数,可以用来评价回归方程的优劣。R2 随着自变量个数的增加而增加,所以需要校正;校正决定系数越大,方程越优。但亦有研究指出 R方 是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在 logistic 回归中不适合。② Cp 选择法:选择 Cp 最接近 p 或 p+1 的方程(不同学者解释不同)。Cp 无法用 SPSS 直接计算,可能需要手工。1964 年 CL Mallows 提出:Cp 接近(p+1)的模型为最佳,其中 p 为方程中自变量的个数,m 为自变量总个数。③ AIC 准则:1973 年由日本学者赤池提出 AIC 计算准则,AIC 越小拟合的方程越好。  ④ 在 logistic 回归中,评价模型拟合优度的指标主要有 Pearson χ2、偏差 (deviance)、Hosmer- Lemeshow (HL) 指标、Akaike 信息准则 (AIC)、SC 指标等。Pearson χ2、偏差 (deviance) 主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用 HL 指标则更为恰当。Pearson χ2、偏差 (deviance)、Hosmer- Lemeshow (HL) 指标值均服从χ2 分布,χ2 检验无统计学意义 (P>0.05) 表示模型拟合的较好,χ2 检验有统计学意义 (P ≤ 0.05) 则表示模型拟合的较差。AIC 和 SC 指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其 AIC 和 SC 指标值排序,AIC 和 SC 值较小者一般认为拟合得更好。d0444abe98b964e67e8be07aeec62326.png06拟合方程的注意事项① 进行方程拟合对自变量筛选采用逐步选择法 [前进法(forward)、后退法(backward)、逐步回归法(stepwise)] 时,引入变量的检验水准要小于或等于剔除变量的检验水准;② 小样本检验水准α定为 0.10 或 0.15,大样本把α定为 0.05。值越小说明自变量选取的标准越严;③ 在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;④ 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。⑤ 多重共线性的诊断(SPSS 中的指标):a 容许度:越近似于 0,共线性越强;b 特征根:越近似于 0,共线性越强;c 条件指数:越大,共线性越强;⑥ 异常点的检查:主要包括特异点 (outher)、高杠杆点 (high leverage points) 以及强影响点 (influential points)。特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该 点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的「有害」 点。对特异点、高杠杆点、强影响点诊断的指标有 Pearson 残差、Deviance 残差、杠杆度统计量 H(hat matrix diagnosis)、Cook 距离、DFBETA、Score 检验统计量等。这五个指标中,Pearson 残差、Deviance 残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。杠杆度统计量 H 可用来发现高杠杆点, H 值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA 指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook 距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA 指标值反映了某个样品被删除后 logistic 回归系数的变化,变化越大 (即 DFBETA 指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出 现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。2f0fda8e6222537facf5d427dfe2079e.png  07回归系数符号反常与主要变量选不进方程的原因① 存在多元共线性;② 有重要影响的因素未包括在内;③ 某些变量个体间的差异很大;④ 样本内突出点上数据误差大;⑤ 变量的变化范围较小;⑥ 样本数太少。08参数意义① Logistic 回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。② Logistic 回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即 OR 或 RR 的对数值。需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? (InL(t-1)-InL(t)) 三种方法结果基本一致。③ 存在因素间交互作用时,Logistic 回归系数的解释变得更为复杂,应特别小心。④ 模型估计出 OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。另外,Logistic 模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。文章来源:爱科学,综合整理原文标题:拟合logistic回归方程的步骤和注意事项本文完文=spss学习乐园图=数据小兵
    数据小兵坚持写博客已经12年坚持写微信公号文章6年坚持更新SPSS视频课程2年坚持一对一答疑讨论2年绝对超值:一对一答疑欢迎加入SPSS视频课程竭诚服务864f014d2af14ee48a720cd857d0dbc2.png◢点【
    展开全文
  • ☞logistic回归分析8个知识点整理,建议收藏☞SPSS二项logistic回归分析案例实践,做个预测模型☞SPSS统计分析案例:多项logistic回归分析☞用SPSS做有序多分类logistic回归分析☞如何选择有序多分类logis...
    49bc917981d50218ecf06fe28c4c9902.png整理出logistic回归的文章,方便大家专题化阅读,下面这些都是每一篇文章的标题链接,点标题即可跳转到原文。☞常见logistic回归模型有哪几种?☞logistic回归分析8个知识点整理,建议收藏☞SPSS二项logistic回归分析案例实践,做个预测模型☞SPSS统计分析案例:多项logistic回归分析☞用SPSS做有序多分类logistic回归分析☞如何选择有序多分类logistic回归连接函数?☞logistic回归样本量多少合适?☞logistic回归方法的选择:输入、向前、向后与条件、LR、Wald☞SPSS做logistic回归分析时如何进行多重共线性检验?☞logistic回归的OR值如何解读,我收藏的这篇文章分享给你☞精品:深入解读logistic回归系数与OR值结果☞logistic回归如何判断连续自变量与logit(P)存在线性关系?☞如何判断Logistic回归中哪个自变量更重要?☞资料合集:如何判断Logistic回归中哪个自变量更重要?听听不同的声音2f8c59642b41f0fe7c5b9d0cc15a5f17.png0d4f04f19fbaa7d6ae82a3568ebd1aaf.png
    展开全文
  • 如果Y是定类数据,此时则需要使用logistic回归分析。Logit回归共分为三种,分别是二元Logistic回归、分类Logistic回归,有序Logistic回归(也称Oridinal回归),此三个方法的区别在于因变量Y的数据类型。如下表:...

    e122b9e2793583c34963dab5845f0c62.png

    如果研究X对于Y的影响,Y为定量数据则可以使用线性回归分析。如果Y是定类数据,此时则需要使用logistic回归分析。Logit回归共分为三种,分别是二元Logistic回归、多分类Logistic回归,有序Logistic回归(也称Oridinal回归),此三个方法的区别在于因变量Y的数据类型。如下表:

    04469748d763010fb68779014f85cc03.png
    Logistics回归分类

    哑变量问题

    有序logistics回归中,X可以为定量数据,也可以是定类数据。但如果定类数据纳入模型,需要先将其设为哑变量。

    314d84c09972dce92a2e1e032a0ae7fc.png
    SPSSAU-哑变量设置

    平行性检验

    即检验自变量各取值水平对因变量的影响在各个回归方程中是否相同。平行性检验的原假设为模型满足平行性,因而如果P值大于0.05则说明模型接受原假设,即符合平行性检验。反之如果P值小于0.05则说明模型拒绝原假设,模型不满足平行性检验。平行性是有序Logit回归的前提条件,如果不满足平行性,SPSSAU建议使用多分类Logit回归模型。

    除此以外,连接函数可能会对平行性检验起到影响,如果平行性检验无法通过时,可考虑选择更准确的连接函数进行尝试,按照因变量选项的分布情况划分,各类连接函数的使用场景说明如下,SPSSAU提供了5种连接函数:

    d0bcfcb781eb9d71984407b8a54207c4.png

    如果模型没有特别的要求,应该首选使用logit连接函数,尤其是因变量的选项数量很少的时候。如果无论如何模型不满足平行性检验, SPSSAU建议使用多分类Logit回归分析。

    案例应用

    (1)背景

    当前有一份研究数据是用来研究民众幸福度影响因素,包括性别,年龄,学历和年收入水平共4个潜在的影响因素对于幸福水平的影响情况。幸福水平共由三项表示,分别是“不幸福,比较幸福和十分幸福”,由于Y为定类数据且有序,因而适用于有序Logit回归分析。

    (2)操作步骤

    本例子中研究X对于Y的差异;X分别为性别,年龄,学历和年收入水平,Y为幸福水平,幸福水平共由三项表示,分别是“不幸福,比较幸福和十分幸福”。由于性别为类别数据,所以将其设置为虚拟哑变量,并且以“男”作为参照项,放置如下:

    64c4a82abad389ce19139e2752977e1d.png
    使用路径:SPSSAU→进阶方法→有序logit

    (3)结果分析

    针对有序logistics回归分析SPSSAU共输出5个表格,分别是:频数分布表、平行性检验结果、似然比检验结果、有序Logistic回归模型分析结果汇总,以及模型预测准确率表。

    ①频数分布汇总

    0c76ce8614de4c908d9719366398be7c.png
    表1 频数分布表

    表1为频数分布表,展示因变量各个类别的分布情况。如果因变量各类别分布非常分散,则需要对类别进行重新组合后再次进行分析。同时,如果因变量的类别个数非常多,也需要针对类别进行重新组合后才能进行分析。

    从上表可知:总共有372个样本参加分析,并且没有缺失数据。认为处于不幸福状态的人占到45.16%,认为比较幸福的人的比例为20.7%,认为非常幸福的人比例为34.14%。数据分析比较均衡。

    ②平行性检验

    f4fae24eea0e6c7cdfbba631e937db81.png
    表2 平行性检验

    表2展示模型的平行性检验,检验的原假设为模型满足平行性,因而如果P值大于0.05则说明模型接受原假设,即符合平行性检验。

    上表中可知:平行性检验的原假设是各回归方程互相平行,P=0.762>0.05接受原假设,说明模型通过平行性检验,可进一步进行分析。

    ③似然比检验

    d28d5dd387d31b21e106e7f05bf20e17.png
    表3 似然比检验

    表3展示模型的似然比检验结果,用于分析模型整体有效性。

    其原假设是模型的回归系数全部均为0,因此如果P值小于0.05,则说明拒绝原假设,即说明模型有效;反之如果P值大于0.05则说明接受原假设,即说明模型回归系数全部均应该为0,模型无意义。AIC和BIC值用于多次分析时的对比;两个值越低越好;如果多次进行分析,可对比此两个值的变化情况,说明模型构建的优化过程。

    从上表可知:此处模型检验的原定假设为:是否放入自变量(性别_男, 年收入水平, 文化程度, 年龄)两种情况时模型质量均一样;分析显示拒绝原假设(Chi=62.510,P=0.000<0.05),即说明本次构建模型时,放入的自变量具有有效性,本次模型构建有意义。

    ④ 回归模型分析结果汇总

    112e9123d8df8afa3036b0f0e3ee0201.png
    表4 有序Logistic回归模型分析结果汇总

    表4是模型结果分析汇总表,用于展示模型的结果,可以说是最为重要的结果,包括回归系数的显著性,模型R方值等。

    上表格中包括因变量阈值,其值基本无意义,仅从数学角度上看有此值输出而已。同时输出Cox and Snell,Nagelkerke和McFadden,三种常用的计算伪决定系数的方法,通常伪决定系数不会太高,不需要过多关注。

    从上表可知:模型伪R平方值(McFadden R平方)为0.080,意味着性别, 年龄, 学历, 年收入水平可以解释幸福水平的8.0%变化原因。

    具体分析,年收入水平,回归系数值为0.508,并且呈现出0.01水平的显著性(z=4.849,P=0.000<0.01),意味着年收入水平会对幸福水平产生显著的正向影响关系。OR值为1.662,说明年收入水平增加一个单位时,幸福水平的变化(增加)幅度为1.662倍。

    年龄、文化程度同年收入水平均对幸福水平产生显著性影响,这里不再展开分析。

    总结分析可知:学历, 年收入水平会对幸福水平产生显著的正向影响关系,以及年龄会对幸福水平产生显著的负向影响关系。

    ⑤有序Logistic回归模型预测准确率汇总

    d8f7e2faf5c9556b92f168467b2d77b1.png
    表5 有序Logistic回归模型预测准确率

    表5位模型预测准确率表格,用于展现预测准确率情况,包括各个类别和整体的预测准确率。如果模型用于预测分析,则预测准确率非常重要,如果模型用于研究影响关系,则不太关注预测准确率值。

    通过模型预测准确率去判断模型拟合质量,从上表可知:研究模型的整体预测准确率为55.65%,模型拟合情况较差。但本研究模型的重点在于找出对幸福水平有影响的因素,因此准确率的关注意义较小。

    其他说明

    • 有序Logit回归的分析要求数据满足平行性检验,如果不满足,SPSSAU建议使用多分类Logti回归分析即可。
    • 如果自变量个数非常多,建议用户可先进行卡方检验,筛选出P值小于0.05的自变量放入模型中。

    更多干货内容可登录SPSSAU官网查看

    SPSSAU:快速掌握:多分类Logistic回归

    SPSSAU:快速掌握Logistic回归分析及应用

    SPSSAU:SPSSAU教程05:相关回归分析指标解读

    展开全文
  • 一、 概述 Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,...因变量为二分类的称为二项logistic回归,因变量为分类的称为多元logistic回归。  下面学习一下Odds、OR、RR的概念: 在病例

    一、 概述

    Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。

    因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。 

    下面学习一下Odds、OR、RR的概念:

    在病例对照研究中,可以画出下列的四格表:

    ------------------------------------------------------

    暴露因素              病例             对照

    -----------------------------------------------------

    暴露                 a                 b 

    非暴露               c                 d

    -----------------------------------------------

    Odds: 称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。在病例对照研究中病例组的暴露比值为:

    odds1 = (a/(a+c))/(c(a+c)) = a/c,

    对照组的暴露比值为:

    odds2 = (b/(b+d))/(d/(b+d)) = b/d

    OR比值比,为:病例组的暴露比值(odds1)/对照组的暴露比值(odds2) = ad/bc

     

    换一种角度,暴露组的疾病发生比值:

    odds1 = (a/(a+b))/(b(a+b)) = a/b

    非暴露组的疾病发生比值:

    odds2 = (c/(c+d))/(d/(c+d)) = c/d

    OR = odds1/odds2 = ad/bc

    与之前的结果一致。

     

    OR的含义与相对危险度相同,指暴露组的疾病危险性为非暴露组的多少倍。OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。 还应计算OR的置信区间,若区间跨1,一般说明该因素无意义。

    关联强度大致如下:

    ------------------------------------------------------

           OR值                        联系强度

    ------------------------------------------------------

     0.9-1.0   1.0-1.1                    无

     0.7-0.8   1.2-1.4       弱(前者为负关联,后者为正关联)

     0.4-0.6   1.5-2.9                 中等(同上)

     0.1-0.3   3.0-9.0                  强(同上)

      <0.1     10.0以上                很强(同上)

    ------------------------------------------------------

     

    RR: 相对危险度(relative risk)的本质为率比(rate ratio)或危险比(risk ratio),即暴露组与非暴露组发病率之比,或发病的概率之比。但是病例对照研究不能计算发病率,所以病例对照研究中只能计算OR。当人群中疾病的发病率或者患病率很小时,OR近似等于RR,可用OR值代替RR。

    不同发病率情况下,OR与RR的关系图如下:


    SPSS学习笔记之——二项Logistic回归分析

     
    当发病率<10%时,RR与OR很接近。当发病率增大时,两者的差别增大。当OR>1时,OR高估了RR,当OR<1时,OR低估了RR。

    设疾病在非暴露人群中的发病为P0,则可用下列公式对RR记性校正:

    RR = OR/((1-P0)+(P0*OR))

    若P0未知,可以用c/(c+d)估计。

     

     


    二、 问题

    对银行拖欠贷款的影响因素进行分析,可选的影响因素有:客户的年龄、教育水平、工龄、居住年限、家庭收入、贷款收入比、信用卡欠款、其他债务等,从中选择出对是否拖欠贷款的预测因素,并进行预测。数据采用SPSS自带的bankloan.sav中的部分数据。

     

    三、 统计操作

    1、 准备数据 

    变量视图

    SPSS学习笔记之——二项Logistic回归分析

        数据视图

    SPSS学习笔记之——二项Logistic回归分析

    下面开始准备数据:

    由于“default”变量可能存在缺失值,所以要新建一个变量"validate",当default不为缺失值时,将validate=1,然后通过validate来判断将不缺失的值纳入回归分析:

    选择如下菜单:


    SPSS学习笔记之——二项Logistic回归分析

    点击进入“计算变量”对话框:


    SPSS学习笔记之——二项Logistic回归分析

    在“目标变量”看中输入“validate”,右边的“数字表达式”输入“1”。再点击下方的“如果...”按钮,进入对话框:


    SPSS学习笔记之——二项Logistic回归分析

    在框中输入missing(default)=0,含义是defalut变量不为缺失值。点击“继续”回到“计算变量”对话框:


    SPSS学习笔记之——二项Logistic回归分析

    点击确定,完成变量计算。 

    2、统计

    菜单选择


    SPSS学习笔记之——二项Logistic回归分析

    进入如下的对话框(下文称“主界面”):


    SPSS学习笔记之——二项Logistic回归分析

    将“是否拖欠贷款[default]”作为因变量选入“因变量”框中。将其与变量选入“协变量”框中,下方的“方法”下拉菜单选择“向前:LR”(即前向的最大似然法,选择变量筛选的方法,条件法和最大似然法较好,慎用Wald法)。将“validate”变量选入下方的“选择变量”框。点击“选择变量”框后的“规则”按钮,进入定义规则对话框:


    SPSS学习笔记之——二项Logistic回归分析

    设置条件为“validate=1”,点击“继续”按钮返回主界面:


    SPSS学习笔记之——二项Logistic回归分析

    点击右上角“分类”按钮,进入如下的对话框:


    SPSS学习笔记之——二项Logistic回归分析

    该对话框用来设置自变量中的分类变量,左边的为刚才选入的协变量,必须将所有分类变量选入右边的“分类协变量框中”。本例中只有“教育程度[ed]”为分类变量,将它选入右边框中,下方的“更改对比”可以默认。点击“继续”按钮返回主界面。

    回到主界面后点击“选项”按钮,进入对话框:


    SPSS学习笔记之——二项Logistic回归分析

    勾选“分类图”和“Hosmer-Lemeshow拟合度”复选框,输出栏中选择“在最后一个步骤中”,其余参数默认即可。“Hosmer-Lemeshow拟合度”能较好的检验该模型的拟合程度。

    点击继续回到主界面,点击“确定”输出结果。

     

    四、结果分析


    SPSS学习笔记之——二项Logistic回归分析

    以上是案例处理摘要及变量的编码。


    SPSS学习笔记之——二项Logistic回归分析

    上表是关于模型拟合度的检验。这用Cox&Snell R方和Negelkerke R方代替了线性回归中的R方,他们呢的值越接近1,说明拟合度越好,这个他们分别为0.2980.436,单纯看这一点,似乎模型的拟合度不好,但是该参数主要是用于模型之间的对比。


    SPSS学习笔记之——二项Logistic回归分析


    这是H-L检验表,P=0.381 > 0.05接受0假设,认为该模型能很好拟合数据。


    SPSS学习笔记之——二项Logistic回归分析


    H-L检验的随机性表,比较观测值与期望值,表中观测值与期望值大致相同,可以直观的认为,该模型拟合度较好。

    SPSS学习笔记之——二项Logistic回归分析

    这个是最终模型的预测结果列联表。在700例数据中进行预测,在未拖欠贷款的478+39=517例中,有478例预测正确,正确率92.5%;在91+92=183例拖欠贷款的用户中,有92例预测正确,正确率50.3%。总的正确率81.4%。可以看出该模型对于非拖欠贷款者预测效果较好。


    SPSS学习笔记之——二项Logistic回归分析


    这是最终拟合的结果,四个变量入选,P值均<0.05。列“B”为偏回归系数,“S.E.”为标准误差,“Wals”为Wald统计量。EXP(B)”即为相应变量的OR值(又叫优势比,比值比),为在其他条件不变的情况下,自变量每改变1个单位,事件的发生比“Odds”的变化率。如工龄为2年的用户的拖欠贷款的发生比(Odds)是工龄为1年的用户的0.785倍。

    最终的拟合方程式:logit(P)  =  -0.791 - 0.243*employ - 0.081*address + 0.088*detbinc + 0.573*creddebt。用该方程可以做预测,预测值大于0.5说明用户可能会拖欠贷款,小于0.5说明可能不会拖欠贷款。


    SPSS学习笔记之——二项Logistic回归分析


    这是不在方程中的变量,其P均大于0.05,没有统计学意义

    SPSS学习笔记之——二项Logistic回归分析

    这是预测概率的直方图。横轴为拖欠贷款的预测概率(0为不拖欠,1为拖欠),纵轴为观测的频数,符号“Y”代表拖欠,“N”代表不拖欠。若预测正确,所有的Y均应在横轴0.5分界点的右边,所有的N均应该在0.5分界点的左边,数据分布为“U”型,中间数据少,两头数据多。可以直观的看出,本模型对于不拖欠贷款的预测较好,对于拖欠贷款的预测相对较差。

    展开全文
  • 导读上一期介绍了多元线性回归分析的SAS实现,本打算介绍多元线性相关分析,有读者留言期待Logistic回归,那我们今天就开始介绍Logistic回归的数学模型、基本原理、分析步骤。一、Logistic回归模型分析例题:研究...
  • 深入解读Logistic回归结果(一):回归系数,OR关键词:Logistic回归分析、lasso回归系数解读、回归系数解读Logistic回归虽然名字叫”回归”,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因...
  • 0.05),可采用无序分类的logistic回归进行分析。当然当结局变量无序,自变量只有一个且为分类变量时,可以直接采用卡方检验;结局变量有序,自变量只有一个且为分类变量时,可以直接采用非参数检验。无序分...
  • 流行病学和临床研究中,探索某疾病的发病原因或影响因素可以说是最常见的一种研究目的,而用于此研究的 logistic 回归,也成了流行病学和临床研究中广泛应用的方法。上一期“临度科研:数据统计的理解和应用(九)...
  • 在上篇文章中素言素语Sue:【R语言】Logistic回归——消费者点击广告的行为预测,我们使用...数据信息如下表所示:回归过程SPSS操作过程:选择“分析”——“回归”——“二元Logistic回归”,将Clicked on Ad放入因...
  • 系列文章“log binomial and Poisson 回归”第一篇logistic回归,统计分析的万金油,只要是一医学研究的结局是二分类数据,都可以 用logistic回归,在现况调查、在病例对照研究、在队列研究、在随机对照研究。...
  • 文章作者 | 赵利娟文章...医学研究、社会科学领域中, 存在因变量是多项的情况, 其中又分为无序(口味:苦、 甜、 酸、 辣;科目:数学、 自然、 语文、 英语) 和有序(辣度:微辣、 中辣、 重辣) 两类。对于这类数据...
  • 回归分析中,如果有两个或两个以上的自变量,就称为多元回归。实际应用中,一种现象常常是与个因素相联系的,由个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际...
  • 连享会·推文专辑:Stata资源 | 数据处理 | Stata绘图 | Stata程序结果输出 | 回归分析 | 时间序列 | 面板数据 | 离散数据交乘调节 | DID | RDD | 因果推断 | SFA-TFP-DEA文本分析+爬虫 | 空...
  • 医学研究、社会科学领域中, 存在因变量是多项的情况, 其中又分为无序(口味: 苦、 甜、 酸、 辣; 科目: 数学、 自然、 语文、 英语) 和有序(辣度: 微辣、 中辣、 重辣) 两类。 对于这类数据需要用多元 ...
  • 文章作者 | 赵利娟文章...医学研究、社会科学领域中, 存在因变量是多项的情况, 其中又分为无序(口味:苦、 甜、 酸、 辣;科目:数学、 自然、 语文、 英语) 和有序(辣度:微辣、 中辣、 重辣) 两类。对于这类数据...
  • 使用来自756位受访者的数据(包括381位女性和375位男性)进行了分析。 使用14个压力造成因素来测量职业压力,这些因素包括工作量,同事,同伴,同伴支持,角色歧义,角色冲突,职业,骚扰,心理因素,生理因素,...
  • logistic回归学习

    千次阅读 2013-12-30 16:11:54
    因变量为二分类的称为二项logistic回归,因变量为分类的称为多元logistic回归。因变量的类型: 可为连续变量、等级变量、分类变量。适用性 两元因变量的logistic回归模型方程讲解 一个自变量与Y
  • 日常统计分析中,较为常见的logistic回归分析主要包括三种形式,分别是二项logistic回归,无序分类logistic回归和有序分类logistic回归。这三种统计方法,在SPSS统计软件中对应的菜单为:二项logistic回归因变量...
  • 6、spss做logistic回归

    千次阅读 2015-04-15 15:29:38
    前边我们用两篇笔记讨论了线性回归的内容。线性回归是很重要的一种回归方法,但是线性回归...Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序分类
  • logistic regression属于概率型非线性回归,它是...对于线性回归分析,由于应变量Y是一个二值变量(通常取值1或0),不满足应用条件,尤其当各因素都处于低水平或高水平时,预测值Y值可能超出0~1范围,出现不合理...
  • Logistic回归简介Logistic回归:主要用于因变量为分类变量(如疾病的缓解、不缓解,评比...因变量为二分类的称为二项logistic回归,因变量为分类的称为多元logistic回归。Odds:称为比值、比数,是指某事件发生的可...
  • 在介绍有序多元Logistic回归分析的理论基础时,介绍过该模型公式有一个非常重要的假设,就是自变量对因变量个类别(因变量是定序数据)的影响程度是相同的。如果因变量有4个水平,那么有序多元逻辑回归分析最终会...
  • 回顾了2000年至2018年发表的37篇以Logistic回归为主要统计工具的研究文章,以及6篇关于Logistic回归的教科书。 提出了逻辑回归概念,例如赔率,赔率比,对数变换,对数曲线,假设,选择因变量和自变量,模型拟合,...
  • 应用多项逻辑回归(Multinomial Logistic Regression, MLR)和线性判别分析((Linear Discriminant Analysis, LDA)来识别英文字母。 一.数据集 数据集来源:...
  • logistic回归,统计分析的万金油,只要是一医学研究的结局是二分类数据,都可以 用logistic回归,在现况调查、在病例对照研究、在队列研究、在随机对照研究等等。 我的标题有些夸大其词,但是这十年来,统计...
  • 二元逻辑回归介绍定义Logistic回归主要...而因变量为二分类的称为二项logistic回归,通常再解释变量为0和1二值品质变量的时候采用。Logistic 回归模型的假设检验——常用的检验方法有似然比检验(likelihood ratio ...
  • Logistic回归与多重线性回归实际上有很相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。 这一家族...

空空如也

空空如也

1 2 3 4 5
收藏数 85
精华内容 34
关键字:

多项logistic回归分析