精华内容
下载资源
问答
  • 2021-01-12 00:48:50

    多个自变量多个因变量用SPSS如何分析?

    提问:

    我是在做问卷,然后是要研究A与B两个问题之间的关系.然后AB分别设定了n个问题,从完全不符合到完全符合设为1到5的数值.昨晚问卷后我就有A1,A2……An这些自变量,然后B1,B2……Bn这些因变量,都有数值,要分析A对B的影响,该怎么办?

    实在不能直接分析能不能用简单相加的方法,就是把一个问卷的A1到An加起来,B1到Bn加起来,然后再把所有问卷放在一起分析,这样可不可以?

    如果用因子分析提取主成分的话,就只能把收集来的所有问卷的A1提取一个主成分,所有问卷的A2提取一个主成分以此类推,可是我想要的是一个问卷中的A1到An提取一个主成分,

    如果不能的话能不能简单相加啊……

    精彩回答:

    可以做因子分析.首先,先将A1到An用提取主成分分析的方法,形成一个因子,同理,对B项做同样处理.其次,再在因子的层面上对两个因子单变量方差分析(当然,如果存在多个自变量因子和多个因变量因子,可以用多变量方差分析).最后,如果想考察两者的线性的数量关系,可以再做回归分析.

    因子分析的步骤:菜单栏”分析”——“降维”——“因子分析”,在变量框里分别选入变量,记住将因子得分保存为新的变量.

    方差分析的步骤:分析——一般线性模型——单变量,将因变量选入“因变量”框内,将自变量选入”固定因子“框内,点确定.

    回归分析:分析——回归.选择线性或曲线模型.

    喜欢 (5)or分享 (0)

    更多相关内容
  • 协方差分析解决的问题:多个自变量(包括离散变量连续变量)对一个因变量(连续数据)的影响。自变量中的连续变量被作为协变量加以'控制'(控制变量)。协方差分析可以在一定程度上排除非处理因素的影响,从而准确的获得...

    协方差分析解决的问题:多个自变量(包括离散变量和连续变量)对一个因变量(连续数据)的影响。自变量中的连续变量被作为协变量加以'控制'(控制变量)。

    协方差分析可以在一定程度上排除非处理因素的影响,从而准确的获得处理因素的影响。

    协方差分析的条件:除了满足一般的方差分析条件外,还需要满足'平行性检验'。

    协方差分析是回归分析和方差分析的结合。

    分析步骤包括两个部分:

    第一部分:平行性检验

    自变量与协变量的交互作用:P>0.05,满足平行性检验,满足协方差分析的条件;P≤0.05,不满足平行性检验,不满足协方差分析的条件。

    第二部分:协方差分析

    案例:

    运动干预对高血压人群的治疗效果研究

    实验设计(简化版):选取54名高血压人群,随机分为3组,分别采用健身走、广场舞、太极拳运动干预。干预时间为6个月。实验前、实验后测试安静收缩压,差值形成变量'血压下降'。已经统计检验过,实验前三组的收缩压基础值差异没有统计学意义。

    统计分析思路说明:考虑到年龄可能对血压下降程度有较大影响,而年龄又是连续变量,因此把'年龄'作为'协变量'。在研究运动干预对血压影响的同时,排除协变量'年龄'的影响,使结果更加准确。协方差分析就是用于解决类似问题的。

    自变量:锻炼项目

    协变量:年龄

    因变量:血压下降。

    1 部分数据

    图1

    2 平行性检验

    这是协方差分析的一个重要条件。意思是:各组的协变量与因变量存在线性回归关系且斜率基本相同。也就是回归直线近似平行。

    可以先做一个散点图,初步探索平行性。

    图2 散点图

    根据图2,三条回归直线近似平行,可以尝试采用协方差分析。

    SPSS步骤:

    1)分析-一般线性模型-单变量

    图3

    2)'血压下降'为'因变量';'组别'为'固定因子';'年龄'为'协变量'。

    图4

    3)点击'模型'。

    图5

    4)点击'定制',然后把因子与协变量的主效应和交互作用都选到'模型'列表(默认是没有交互作用的)。点击'继续'。

    5)返回'图4'后,点'确定'。下面是结果。

    图6

    组别与年龄的交互作用,P=0.770>0.05,说明交互作用不显著。也就是满足平行性检验。

    因为交互作用不显著,可以精简模型。把交互作用剔除,再做协方差分析。

    3 协方差分析

    1)图4状态点击'模型',把'组别'和'年龄'的交互作用取消。点击'继续'。

    图7

    2)回到图4后,点击'选项',如下图勾选。点击'继续',返回后,点击'确定'查看结果。

    图8

    4 SPSS结果

    1)方差齐性检验结果

    图 9

    P=0.462>0.05,方差齐性。满足了协方差分析的另一个条件。

    2)方差分析表

    图10

    组别P=0.019<0.05,说明三种运动干预方式对血压下降的效果不同。

    年龄P=0.000<0.05,说明年龄的确对血压下降程度产生了影响。排除这部分影响后,使运动干预对血压的影响结果更加准确。

    图11

    结合图11均值可知。结果:降压效果由高到低依次为HIIT、持续有氧、核心训练。(当然,如果结合后面的成对比较统计结果进一步做出判断会更加合适,篇幅原因,不再展开。)

    5 请一定要往下看

    如果不考虑'年龄'这个协变量对因变量(血压下降)的影响,结果会怎样?

    1)'组别'为'固定因子';'血压下降'为'因变量'。其他全默认。直接点击'确定'。

    图12

    2)方差分析表

    图13

    组别P=0.133>0.05,说明三种运动干预方式对血压下降的效果相同。

    由此可见,不考虑协变量'年龄'时得出了与前面完全相反的结果。

    这提示我们:科学研究中选择准确统计方法的重要性,方法一旦选错,我们将无法追求科学真理。

    展开全文
  • 目录:前言偏相关或复相关意义与用途分析方法:1、 样本相关系数矩阵、相关系数检验2、 复相关分析3、 决定系数 (RMSE的介绍)小结、前言:继上篇文章,继续探讨相关性分析,这次不再是两个变量,而是3或者...

    目录:前言

    偏相关或复相关

    意义与用途

    分析方法:

    1、 样本相关系数矩阵、相关系数检验

    2、 复相关分析

    3、 决定系数

    equation?tex=R%5E2 (RMSE的介绍)

    小结

    一、前言:

    继上一篇文章,继续探讨相关性分析,这次不再是两个变量,而是3个或者以上的变量之间的相关关系分析。

    没读过上篇文章请先仔细阅读再过来,因为多变量本质上是基于双变量的TzeSing Kong:相关性分析(两变量)​zhuanlan.zhihu.comv2-e69227d959b35b12f69b363c678df786_180x120.jpg

    二、偏相关或复相关

    简单相关:研究两变量之间的关系

    偏相关或复相关:研究三个或者以上变量与的关系

    在这里仍然是选择最简单的线性相关来解释:

    三、意义与用途:

    有些情况下,我们只想了解两个变量之间是否有线性相关关系,并不想拟合建立它们的回归模型,也不需要区分自变量和因变量,这时可用相关性分析。

    四、分析方法:

    1、样本相关阵

    equation?tex=x_1%2Cx_2%2C%C2%B7%C2%B7%C2%B7%2Cx_n+ 来自正态总体

    equation?tex=N_p%28%5Cmu%2C%5Csigma%5E2%29 容量为

    equation?tex=n 的样本,其中每个样本

    equation?tex=x

    equation?tex=p 个观测

    分别计算两两样本之间的简单相关系数

    equation?tex=r_%7Bij%7D+ ,它们构成的矩阵就是:

    equation?tex=%5Cbegin%7Bbmatrix%7D+r_%7B11%7D+%26+r_%7B12%7D+%26...+%26+r_%7B1p%7D+%5C%5C+r_%7B21%7D+%26+r_%7B22%7D+%26+...+%26r_%7B2p%7D+%5C%5C+...%26...%26...%26...+%5C%5Cr_%7Bp1%7D%26r_%7Bp2%7D%26...%26r_%7Bpp%7D+%5Cend%7Bbmatrix%7D%5Cquad

    由于每个变量跟自己的相关系数就是

    equation?tex=1 ,即:

    equation?tex=%5Cbegin%7Bbmatrix%7D+1+%26+r_%7B12%7D+%26...+%26+r_%7B1p%7D+%5C%5C+r_%7B21%7D+%26+1+%26+...+%26r_%7B2p%7D+%5C%5C+...%26...%26...%26...+%5C%5Cr_%7Bp1%7D%26r_%7Bp2%7D%26...%261+%5Cend%7Bbmatrix%7D%5Cquad%3D%28r_%7Bij%7D%29_%7Bp%5Ctimes+p%7D

    其中,

    equation?tex=%28r_%7Bij%7D%29_%7Bp%5Ctimes+p%7D 就是两个变量的简单相关系数。

    equation?tex=r_%7Bij%7D%3D%5Cfrac%7B%5Csum_%7B%7D%5E%7B%7D%7B%28x-%5Cbar%7Bx%7D%29%28y-%5Cbar%7By%7D%29%7D%7D%7B%5Csqrt%7B%5Csum%7B%28x-%5Cbar%7Bx%7D%29%5E2%5Csum%7B%28y-%5Cbar%7By%7D%29%5E2%7D%7D%7D%7D

    例子:v2-c3cd33fcac270371c6d3c9d40a62f918_720w.jpg

    > X <- read.table("clipboard", header = T)

    > cor(X) # 相关系数矩阵

    y x1 x2 x3 x4

    y 1.0000000 0.9871498 0.9994718 0.9912053 0.6956619

    x1 0.9871498 1.0000000 0.9907018 0.9867664 0.7818066

    x2 0.9994718 0.9907018 1.0000000 0.9917094 0.7154297

    x3 0.9912053 0.9867664 0.9917094 1.0000000 0.7073820

    x4 0.6956619 0.7818066 0.7154297 0.7073820 1.0000000

    再看看矩阵散点图:

    > pairs(X, ...) # 多元数据散点图v2-61a5c0634204d0715edf11647f97174b_720w.jpg

    相关系数检验:

    > install.package('psych') # 先安装一个'psych'的包

    > library(psych)

    > corr.test(X)

    Call:corr.test(x = yX)

    Correlation matrix

    y x1 x2 x3 x4

    y 1.00 0.99 1.00 0.99 0.70

    x1 0.99 1.00 0.99 0.99 0.78

    x2 1.00 0.99 1.00 0.99 0.72

    x3 0.99 0.99 0.99 1.00 0.71

    x4 0.70 0.78 0.72 0.71 1.00

    Sample Size

    [1] 31

    Probability values (Entries above the diagonal are adjusted for multiple tests.)

    y x1 x2 x3 x4

    y 0 0 0 0 0

    x1 0 0 0 0 0

    x2 0 0 0 0 0

    x3 0 0 0 0 0

    x4 0 0 0 0 0

    To see confidence intervals of the correlations, print with the short=FALSE option

    上面矩阵是相关系数的

    equation?tex=t 值矩阵,下面矩阵是

    equation?tex=P 值矩阵

    可以看出

    equation?tex=y

    equation?tex=x_1%2C+x_2%2C+x_3%2C+x_4 的关系都十分密切

    相关系数

    equation?tex=r%3E0.8 且置信度

    equation?tex=P%3C0.001

    2、复相关分析

    实际分析中,一个变量(

    equation?tex=y )往往要受到多种变量(

    equation?tex=x_1+...+x_4 )的综合影响,

    所谓复相关,就是研究多个变量同时与某个变量的相关关系,

    度量复相关程度的指标是复相关系数

    多个变量同时与某个变量的相关关系不能直接测算,只能通过间接测算

    复相关系数的计算:

    设因变量

    equation?tex=y ,自变量为

    equation?tex=x_1%2Cx_2%2C%C2%B7%C2%B7%C2%B7%2Cx_p ,构造一个线性模型为:

    equation?tex=y%3Db_0%2Bb_1x_1%2C%2B...%2Bb_px_p%2B%5Cvarepsilon

    equation?tex=%5Chat%7By%7D+%3D+b_0%2Bb_1x_1%2B%C2%B7%C2%B7%C2%B7%2Bb_px_p

    equation?tex=y

    equation?tex=x_1%2Cx_2%2C%C2%B7%C2%B7%C2%B7%2Cx_p 作相关分析,就是对

    equation?tex=y

    equation?tex=%5Chat%7By%7D 做简单相关分析

    记:equation?tex=r_%7By%C2%B7x_1%C2%B7%C2%B7%C2%B7x_p%7D

    equation?tex=y

    equation?tex=x_1%2Cx_2%2C%C2%B7%C2%B7%C2%B7%2Cx_p 的复相关系数,

    equation?tex=r_%7By%C2%B7%5Chat%7By%7D%7D

    equation?tex=y

    equation?tex=%5Chat%7By%7D 的简单相关系数

    equation?tex=r_%7By%C2%B7x_1%C2%B7%C2%B7%C2%B7x_p%7D 的计算公式:

    equation?tex=R%3Dcorr%28y%2Cx_1%2C%C2%B7%C2%B7%C2%B7%2Cx_p%29%3Dcorr%28y%2C%5Chat%7By%7D%29%3D%5Cfrac%7Bcov%28y%2C%5Chat%7By%7D%29%7D%7B%5Csqrt%7Bvar%28y%29var%28%5Chat%7By%7D%29%7D%7D

    复相关系数常用于多元线性回归分析中,我们希望知道因变量与一组自变量之间的相关程度,即复相关,复相关系数反映了一个变量与另一组变量的密切程度。

    假设检验:

    与多元回归的方差分析一样,所以我留在下篇文章阐述回归分析与方差分析的时候会继续详细说明

    综上:

    equation?tex=R%3D%5Csqrt%7B%5Cfrac%7B%5Csum_%7B%7D%5E%7B%7D%7B%28%5Chat%7By_i%7D-%5Cbar%7By%7D%29%5E2%7D%7D%7B%5Csum%28y_i-%5Cbar%7By%7D%29%5E2%7D%7D%3D%5Cfrac%7BSSR%7D%7BSST%7D

    至于

    equation?tex=SSR

    equation?tex=SST 还有

    equation?tex=SSE 是什么?

    就由下篇文章阐述回归分析的时候会详细说明。TzeSing Kong:线性回归——描述变量间预测关系最简单的回归模型​zhuanlan.zhihu.comv2-ded72b64347f782cdb92e92d4fd6ee48_180x120.jpg

    3、决定系数

    equation?tex=R%5E2 (coefficient of determination)

    在复相关系数中,根号里面的比值

    equation?tex=%5Cfrac%7B%5Csum_%7B%7D%5E%7B%7D%7B%28%5Chat%7By_i%7D-%5Cbar%7By%7D%29%5E2%7D%7D%7B%5Csum%28y_i-%5Cbar%7By%7D%29%5E2%7D

    其实说明了回归平方和与总离差平方和的比值,反应了回归贡献的百分比

    把复相关系数两边平方一下就能得到决定系数

    equation?tex=R%5E2%3D%5Cfrac%7B%5Csum_%7B%7D%5E%7B%7D%7B%28%5Chat%7By_i%7D-%5Cbar%7By%7D%29%5E2%7D%7D%7B%5Csum%28y_i-%5Cbar%7By%7D%29%5E2%7D%3D1-%5Cfrac%7BSSE%7D%7BSST%7D%3D1-%5Cfrac%7B%5Csum_%7B%7D%5E%7B%7D%7B%28%5Chat%7By_i%7D-y_i%29%5E2%7D%7D%7B%5Csum%28y_i-%5Cbar%7By%7D%29%5E2%7D

    决定系数用于评价多元回归方程、变量选择、曲线回归方程拟合的好坏程度中,常常用到。

    【注意】equation?tex=R%5E2 是相关性的度量,并不是准确性的度量!!!

    equation?tex=R%5E2 依赖于

    equation?tex=y 的波动程度(样本方差),这会使得我们看待模型的好坏有着巨大影响,例如,假设测试集

    equation?tex=y 的方差是

    equation?tex=4.2 ,如果一个模型的

    equation?tex=RMSE%3D1

    equation?tex=R%5E2 大致为

    equation?tex=76%5C%25 ,但是另一个测试集

    equation?tex=y 的方差是

    equation?tex=3 (分母小了,

    equation?tex=R%5E2 小了),

    equation?tex=R%5E2 则变为

    equation?tex=67%5C%25 。变成了模型好坏取决于测试集的波动程度,所以这个十分不靠谱

    不明白上面的话,可以再看一个例子,如果我们建立了一个模型预测广州房价,如果测试集中广州房屋售价的波动范围较大——方差较大(40万-几千万),因为方差大,所以很可能导致

    equation?tex=R%5E2 也比较大(假设

    equation?tex=80%5C%25 ),但

    equation?tex=RMSE 可能十万,这对于广州房价预测来说是一个很糟糕的预测范围。

    具体用法,留在回归分析中详细阐述。TzeSing Kong:线性回归——描述变量间预测关系最简单的回归模型​zhuanlan.zhihu.comv2-ded72b64347f782cdb92e92d4fd6ee48_180x120.jpg

    在 线性回归 中的 3.4 决定系数

    # 先建立多元线性回归模型

    > fm = lm(y~x1+x2+x3+x4,data = X)

    计算多元线性回归模型决定系数

    > R2 = summary(fm)$r.sq

    > R2

    [1] 0.9997162

    计算复相关系数

    > R = sqrt(R2)

    > R

    [1] 0.9998581

    【补】

    什么是RMSE?

    RMSE是回归问题的性能指标,衡量的是 预测值

    equation?tex=h%28x%5E%7B%28i%29%7D%29 与 真实值

    equation?tex=y%5E%7B%28i%29%7D 间的差距

    是测量预测误差的标准差

    equation?tex=RMSE%28X%2Ch%29%3D%5Csqrt%7B%5Cfrac%7B1%7D%7Bm%7D%5Csum_%7Bi%3D1%7D%5Em%28h%28x%5E%7B%28i%29%7D%29-y%5E%7B%28i%29%7D%29%5E2%7D

    举例子:RMSE 等于 50000,根据【

    equation?tex=3%5Csigma 准则】意味着:

    大约 68% 的预测值位于真实值的 50000元(

    equation?tex=1%5Csigma )以内,

    大约 95% 的预测值位于真实值的 100000元 (

    equation?tex=2%5Csigma )以内,

    大约 99.7% 的预测值位于真实值的 150000元内 (

    equation?tex=3%5Csigma )以内

    五、小结:

    可以看出多变量相关分析跟回归分析的关系很密切,多变量相关分析能为回归分析服务,因为要具有相关性才有做线性回归拟合的价值

    展开全文
  • 个人微信公众号【Memo_Cleon】的统计学习笔记两概念:RROR二分类资料的logistic回归SPSS操作示例几需要注意的问题:样本量、哑变量、模型拟合效果拟合优度检验、多重共线【1】两概念RR(Relative Risk)...

    转自个人微信公众号【Memo_Cleon】的统计学习笔记两个概念:RR和OR

    二分类资料的logistic回归SPSS操作示例

    几个需要注意的问题:样本量、哑变量、模型拟合效果和拟合优度检验、多重共线

    【1】两个概念

    RR(Relative Risk):相对危险度,也称危险比(Risk Ratio)或率比(Rate Ratio),在前瞻性研究中用以表示暴露与疾病发生的关联强度,说明暴露组发病危险是非暴露组发病危险的多少倍,是两组发病率之比,计算公式为:

    OR(Odds Ration):比值比,优势比,比数比。在病例对照研究中说明暴露与疾病的关联强度,它是暴露在某危险因子下的发病率P1与不发病率之比(1-P1)与未暴露在某危险因子下的发病率P2与不发病率(1-P2)之比的比值。

    比值(odd)表示发生的可能性与不发行的可能性之比,odds1=P1/(1-P1),odds2=P2/(1-P2)。OR=odds1/odds2=ad/bc

    在logistic回归中,各自变量的回归系数βi表示自变量Xi每改变一个单位,比值比的自然对数值该变量,而exp(βi)即OR,表示自变量Xi每改变一个单位,阳性结果出现概率与不出现概率之比是变化前相应比值的倍数,即优势比。当阳性结果出现概率较小时(一般小于0.05)或者较大时(大于0.95),OR=(P1/(1-P1))/(P2/(1-P2))≈P1/P2=RR

    【2】二分类资料的logistic回归SPSS操作示例

    适用条件:①因变量为二分类变量,自变量可以是连续变量也可以是分类变量;②各观测间相互独立;③自变量与因变量logit(P)之间存在线性关系;④自变量间不存在多重共线;⑤尽量避免异常值,残差服从二项分布合计为零;⑥研究对象无论是病例组还是对照组,样本量至少是需要分析的自变量个数的10倍,多分类自变量的哑变量的参照水平频数至少为30。

    示例:探讨冠心病发生的有关危险因素。分析数据来自孙振球主编的《医学统计学》第三版。

    (1)数据录入赋值。二分类变量取值只有“0”和“1”两个值,本例年龄和体重指数严格来讲是要设成哑变量的(可参见本文后面关于哑变量的介绍),但由于样本量的问题,为更好的演示spss操作,本例按等级资料直接赋值。

    (2)分析(Analyze)>>回归(Regression)>>二分类logistic(Binary Logistic…)

    因变量(Dependent):选入冠心病[Y]

    协变量(Covariates):选入自变量[X1]-[X8]

    筛选变量方法(Method):进入(Enter):强行引入,全部变量一次进入模型,不进行筛选

    向前:条件(Forward:Conditional):向前逐步选择法,剔除变量的标准是条件参数估计的似然比检验

    向前:似然比(Forward:LR):向前逐步选择法,剔除变量的标准是最大偏似然估计的似然比检验

    向前:Wald(Forward:Wald):向前逐步选择法,剔除变量的标准Wald卡方检验

    不同的向前法选入自变量时均采用比分检验,只是采用的剔除变量的检验方法不同

    向后法也三种,剔除标准分别对应条件、似然比和Wald

    本例选中Forward:LR。

    分类变量(Categorial…):可将多分类自变量设置为哑变量。

    保存(Save…):可将中间的计算结果存储起来供以后分析,共有预测值、残差和影响强度因子三类

    选项(Options…):可以选中相应选项对模型进行描述、预测和诊断,设置逐步法的进入和剔除标准等。本例选中CI for exp(B)选项

    结果解释:

    (1)数据处理情况汇总,本例共有54条记录纳入分析,无缺失值。本例样本量时偏少,要分析8个自变量至少需要160例记录,本例仅用于操作演示。

    (2)因变量分类赋值

    (3)预测分类表:此步开始进行拟合。Block 0拟合的是不包含任何自变量只有常数的无效模型,本例有28例对照的记录被预测为对照,有26例病例也被预测为对照,总预测准确率为51.9%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。

    Block 0: Beginning Block

    (4)纳入方程的变量及检验情况。因此步拟合仅有常数项,β0=-0.074;检验方法Wald检验,检验统计量Wald χ2=0.074,P=0.786>0.05,H0假设是回归系数为0。Exp(B)为自然对数e的β0次方,实际意义是总体研究对象中(54例)中患病率(26/54)与未患病率(28/54)的比值0.929。

    (5)尚未纳入模型方程的变量及其比分检验结果。所作的检验是分别将他们纳入方程,方程的改变是否有统计学意义。本例如果将X1-X8分别纳入方程,则方程的改变都是有统计学意义的,总的统计量也有统计学意义。逐步回归法(Stepwise)是一个一个的选入变量,下一步将会先纳入P值最小的变量X6重新计算选择。

    (6)模型系数的综合检验,此步开始Block 1的拟合,本例采用的方法为向前逐步选择法(似然比),本例依次引入了4个变量,结果显示每一步新引入的变量和最终的模型均有统计学意义(新引入变量系数不为零,所有引入变量系数不全为零)

    Block 1: Method = Forward Stepwise (Likelihood Ratio)

    此处输出的即为每一步的似然比检验结果,模型新引入一个或几个变量后形成的新模型(当前模型)与“上一步(step)的模型/上一个区块(block)模型/初始模型(model)”进行比较,卡方值是上一个步模型/上一个区组模型/初始模型的-2logLR(负2倍的似然比值)与当前的-2logLR的差值,可通过下一张表格(Model Summary)中的值验证,step的卡方值结果上一步的模型与纳入新变量后的模型-2logLR之差,model的卡方值是初始模型(step0,各自变量系数均为0)与纳入新变量后的模型-2logLR之差,本例只设置了一个block,因此block与model相同。step检验的是每个step被纳入的变量引起的似然比变化,model则提示纳入新变量后整个模型的似然比变化。

    SPSS软件中自带的帮助对几个卡方的描述如下:

    Model Chi-Square

    2(log-likelihood function for current model − log-likelihood function for initial model)。 The initial model contains a constant if it is in the model; otherwise, the model has no terms. The degrees of freedom for the model chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models. If the degrees of freedom is zero, the model chi-square is not computed.

    Block Chi-Square

    2(log-likelihood function for current model − log-likelihood function for the final model from the previous method)。The degrees of freedom for the block chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models.

    Improvement Chi-Square

    2(log-likelihood function for current model − log-likelihood function for the model from the last step)。The degrees of freedom for the improvement chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models.

    (7)模型概况,输出每一步的-2logLR(-2倍的对数似然比值)以及两个广义决定系数(也称伪决定系数),这两个指标是模型拟合效果的的判断指标。logistic模型估计一般采用最大似然法,即是得到模型的似然函数值LR达到最大值(LR取值在0-1之间)。模型预测效果越好,LR越大,-2logLR越小。Cox&Snell R2和Nagelkerke R2表示当前模型中的 自变量导致的因变量变异占因变量总变异的比例。本例在拟合过的4个模型中-2logLR逐步减小,广义决定系数在增大,模型拟合效果还是不错的。

    (8)每一步的预测分类表,预测准确率由Block 0的51.9%上升至77.8%。逐步回归得出的结果是保证模型的最大似然函数值最大,但不能保证此时的预测精度最高。

    每一步第一行最后的百分比为真阴性率(特异度),第二行为真阳性率(灵敏度),以第四步结果为例,特异度75.0%,灵敏度80.8%。

    (9)每一步拟合入选方程的变量检验情况,输出每一步模型中参数估计值,包括常数项、各自变量的回归系数及标准误、Wald卡方值、自由度、P值及OR值(Exp(B))。最后一步的入选变量作为最终结果,最终筛选出的危险因素有4个,分别是年龄(X1)、高血脂史(X5)、动物脂肪摄入(X6)、A型性格(X8),说明年龄、高血脂史、动物脂肪摄入及A型性格与冠心病呈正相关,优势比分别是2.519、4.464、23、7.008。以A型性格为例,其结果可做如下解释:不考虑其他因素的印象,A型性格的对非A型性格的人发生冠心病的优势比是7.008(一般文献中会近似的表达为:不考虑其他因素的印象,A型性格的人发生冠心病的可能是非A型性格的人发生冠心病可能的7.008倍)。对于本例年龄和体重指数,按统计结果直接表达年龄每增加10岁/体重指数每增加一级引起的优势比,但此解释应当慎重,因为我们不能确定年龄和体重指数对冠心病的影响和我们的赋值水平是一致的,严格来说此处两变量应该设置成哑变量进行分析,但由于样本量的原因本例仅做演示。哑变量的设置可参见本文后面关于哑变量的设置。

    logit(P)=-4.705+0.924X1+1.496X5+3.135X6+1.947X8

    需要特别指出的是,本例X1的Wald检验P=0.053>0.05依然保留在了最终的模型中,是因为未达到变量剔除的标准,剔除检验见下一张表格:Model if Term Removed。SPSS默认的进入标准是0.05,剔除标准是0.10(可在选项(Options…)中设置),每一步P值小于等于0.1的变量均保留在方程中。

    在对尚未进入模型的自变量进行分析时(结果见表(11):Variables not in the Equation),在进行到step3引入X6后,X1的比分检验结果,P=0.042<0.05,符合纳入标准,因此将其纳入方程。在进行变量剔除时(Model if Term Removed)采用的似然比检验,P=0.041<0.05,尚未达到剔除标准,因此保留在模型中。从检验方法上看,似然比检验是基于整个模型的拟合情况,比分检验一般与似然比检验类似,而Wald检验没有考虑各因素的综合作用,结果最不可靠,因此当结果出现冲突时应以似然比检验结果为准。

    (10)输出每一步被纳入的自变量是否需要被剔除,采用的方法是似然比检验。结果显示每一步单独移除纳入的自变量后模型的改变均有统计学意义,因此需要全部保留在方程中。采用不同的变量筛选方法(剔除方法),该处的统计量会有差异。

    (11)尚未进入模型的自变量是否可能被纳入的比分检验结果:尚未进入方程的自变量如果再进入现有模型,模型的改变有无统计学意义。可见在Step 1时,还有多个变量可以引入,其中X5的P值最小,Step2时首先引入;在Step 2时首先考虑引入X8,Step3时首选考虑引入X1,而Step4时在现有的进入标准下已经没有需要引入的变量了。

    需要特别说明的是,变量是否最终入选,最重要的准则是专业判断,其次为多变量分析,最差的是单变量分析。如在专业上认为某自变量对结果有影响,不论其检验水准如何,都可强行纳入方程。多变量模型综合考虑了各个自变量的影响,结果更为客观,如多变量模型与单变量模型出现矛盾时应以多变量分析结果为准。

    强行纳入方法:第一种方法是将欲强行纳入的变量和已筛选出的变量重新进行logistic回归,变量帅选办法为Enter。第二种方法是利用区组(Block)来进行。将欲强行纳入的变量归为一个区组(block),在筛选方法中选择“ENTER”来确保这些变量被纳入,其他变量则归入另一区组(block),筛选方法可以是其他方法,比如Forward:LR。

    【3】几个需要注意的问题

    (1)样本量

    越多越好。理论上讲,每个自变量所需要的事件数至少为10个,也就是研究对象中较少组的记录数与自变量个数之商大于等于10。本例有8个自变量需要分析,病例组和对照组至少各需要80例以上,总样本160例以上,如设置哑变量,自变量增多样本量要求也就更大,而且参照水平至少30例以。本例对照组只有28例,病例组只有26例,最多只能分析的自变量个数是26/10=2.6个,若要分析所有的自变量,样本量就需要增加,否则就需要减少自变量个数。本例仅演示操作。

    (2)哑变量

    二分类变量取值只有“0”和“1”两个值,它们分别代表两种成对出现的逻辑概念,如“是”和“否”、“有”和“无”、“高”和“低”等,spss默认取值水平高的为阳性结果。当自变量为无序多分类时,SPPS中对变量的赋值大小并不代表自变量间存在次序或者程度的差异,比如研究血型对性格的影响,对A、B、AB、O血型分别赋值1、2、3、4,并不代表性格的logit(P)会按此顺序进行线性递增或递减,此时需要设置哑变量,自变量有n个水平,需要n-1个哑变量,如上面的4个血型,则需要3个哑变量来设置。

    无序多分类变量可直接设置成哑变量,对于有序多分类,则视情况而定。张文彤老师给出的解决方案是专业上不能判断不同等级的自变量对因变量的影响程度是一致的时候,需要将有序变量分别以哑变量和连续性变量引入模型,对两个模型进行似然比检验(似然比卡方值等于两模型-2logLR之差,自由度为两模型自变量个数之差),如果似然比检验无统计学意义,且各哑变量回归系数间存在相应的等级关系,则可将该自变量作为连续性变量引入模型,否则还是采用哑变量方式引入。本例年龄和体重指数均为有序多分类变量,我们不能确定冠心病的发病率logit转换值会与设定的年龄等级递增相同,体重指数不同分类之间划分切点是不等距的,直接按等距赋值为1、2、3也不太符合实际情况。上面的示例将年龄和体重指数直接引入模型进行筛选是不恰当的,严格来说这两个变量是应该采用哑变量来分析的,但本来例数太少,引入哑变量后所需样本量应该更多,如果引入哑变量分析可能会使结果误差很大。实际上本例直接引入后,就出现了年龄不再是冠心病发病的危险因素。为更好的演示哑变量的设置及解读,将原数据复制一倍,变量只保留X2、X4、X6、X7,重新进行回归分析。

    步骤如下:

    分析>>回归>>二分类logistic…

    因变量:选入冠心病[Y]

    协变量:选入自变量[X2]、[X4]、[X6]、[X7]

    筛选变量方法(Method):Forward:LR

    分类变量(Categorial…):可将多分类自变量设置为哑变量,将“体重指数(BMI)[X7]”选入分类协变量(Categorial Covariats)框中,低BMI水平(BMI<24)设为参照水平,将Contrast-Indicator,Reference Category-First,Change,Continue

    大部分结果解读同示例结果,以下仅结合哑变量对应的结果进行解读。

    分类变量的哑变量编码见下表

    拟合纳入方程的变量及其检验情况见下表。最后一步的入选变量作为最终结果,最终筛选出的危险因素有3个,分别是X2、X6、X7。对于X2的解读:不考虑其他因素的影响,有高血压病史的患者发生冠心病的可能是无高血压史患者发生冠心病可能的4.646倍(近似,实际是OR=4.646),X6的解释与此类同,高动物脂肪摄入对低脂肪摄入发生冠心病的优势比是22.042。对哑变量的解释则是与参照水平相比的结果:不考虑其他因素的影响,BMI24-26水平对BMI<24水平的优势比是3.279,BMI>26水平对BMI<24水平的优势比是4.039。

    要特别注意,哑变量需要遵循同进同出的原则,即在一个模型中同一个多分类变量的所有哑变量要么全部纳入模型,要么全部不纳入模型。目前在各很多统计论坛上,普遍认为结果的第一行是该自变量的总体检验,总体检验有统计学意义,所有哑变量都应保留,本例X7总P值=0.04<0.05,X7(1):P=0.04<0.05,X7(2):P=0.53>0.05。

    一般来说第一行的总体检验有统计学意义,其后的哑变量至少有一个是有统计学意义的,有时可能出现后面的哑变量都没有统计学意义的情况,因为哑变量选取不同的参照水平,其他哑变量与之相比的P值会不同,出现这种情况可能是其他哑变量与选取的参照水平相比刚好没有统计学意义。

    还有一种情况是此表哑变量总检验P>0.05,结果仍保留在方程中,原因可能是不同的检验方法造成的,跟正文结果(9)后面的解释一样,纳入标准、剔除标准以及方程中变量的检验方法是不一样的,以本例为例,纳入变量方法是比分检验(默认纳入标准P=0.05),剔除标准是最大似然比检验(默认标准P=0.10),而本表方程中变量的检验采用的是Wald卡方检验。Wald与似然比检验出现矛盾时以似然比检验为准。

    实际上,自变量设为哑变量后,Variables in the Equations表中直接显示的都是最终入选的变量,具体的纳入和剔除检验则需要从Variables not in the Equation和Model if Term Removed表中查看。如本例,结合上表X7在step3时被纳入,从模型系数的综合检验表格(Omnibus Tests of Model Coefficient)中可以看出,Step3与上一步的似然比检验有统计学意义,纳入该变量时模型的改变有统计学意义(Variables not in the Equation表中step2比分检验结果:P=0.033<0.05),剔除该变量时模型的改变也有统计学意义(Model if Term Removed表中step3的似然比检验结果:P=0.034<0.05)。

    (3)模型效果检验

    模型拟合效果可以通过对似然比值的变化和广义决定系数(Model Summary)、预测分类表(Classification Table),解读如正文。另外对模型效果的检验还有ROC曲线。

    制作ROC曲线步骤如下:

    分析>>回归>>二分类logistic…因变量:选入冠心病[Y]

    协变量:选入自变量[X2]、[X4]、[X6]、[X7]

    筛选变量方法(Method):Forward:LR

    保存(Save…):选中预测值中的概率(Probabilities)

    Continue

    OK

    分析>>ROC曲线(ROC Curve…)检验变量(Test Variable):选入新生产的预测概率(Predicted probability[PRE_1])

    状态变量(State Variable):选入冠心病[Y],将Y=1的研究对象指定为病人(状态变量值(Value of State Variable):1)。

    显示(Dispaly)选中所有复选框:ROC曲线、带对焦参考线、标准误和置信区间、ROC曲线的坐标点

    OK

    结果显示曲线下面积为0.883,P<0.001。P值的H0假设是曲线下面积为0.5。

    ROC曲线下面积取值范围0.5-1,0.5-0.7表示诊断价值较低,0.7-0.9表示诊断价值中等,0.9以上表示诊断价值较高。如果ROC曲线沿着对角线方向分布. 表示分类是机遇造成的,正确和错误的概率各位50%,此时该诊断方法无效,较好的诊断方法的ROC曲线应该是从左下角垂直上升至顶线.然后水平向右至右上角,更外面离对角线更远的曲线其灵敏度和特异度均高于里面的离对角线更近的曲线。

    (4)模型的拟合优度的检验

    可采用Pearson拟合优度检验和Deviance拟合优度检验,此两法在SPSS的二分类的logistic回归没有输出

    似然比检验是 计算经筛选出的变量的饱和模型的-2logLR值和只引入筛选出的变量的主效应模型(简单模型)的-2logLR值,两者之差服从卡方分布,自由度为两者参数个数之差,若P>0.05则说明拟合筛选的自变量主效应的logistic回归模型已经足够。注:饱和模型可以理解为纳入各自变量主效应及其交互项的模型,简约模型为非饱和模型,比如缺少交互项。

    除了似然比检验外,SPSS中还有Hosmer-lemeshow检验,可在选项(Options…)中选入Hosmer-lemeshow goodness-of-fit,结果出现在“模型概况(Model Summary)”表格之后,输出“Hosmer和Lemeshow检验”以及“Hosmer和Lemeshow检验列联表”。其中Hosmer和Lemeshow检验列联表是十分位组的观测值和期望值,按模型求得某个体的得病概率,概率递增排序后分为10等份,据此期望值与相应的观测值求得Pearson卡方(自由度=组数-2=8,但有时自变量组合和样本量的原因组数可能少于10)。

    本例最终结果χ2=8.727,P=0.273>0.05,表明简约模型与饱和模型间无差异(H0假设是简约模型与饱和模型无差异。如果结果显著则说明现有简约模型仍然需要加入新的变量以提升模型的解释力度;相反若结果不显著说明简约模型中包括的自变量已足够,即解释力度已与饱和模型无差异)。

    (5)模型诊断

    可采用残差分析、迭代记录、分类图等。通过残差分析可以查找异常值,可通过保存(Save…)中的残差( Residuals)部分来进行,一般来说残差绝对值大于2,该条记录可能是异常点。残差图可参见

    代记录在选项(Option…)中选中Iteration history来获得,健康迭代过程的迭代记录似然值和自变量系数从迭代开始就向着一个方向发展,如中间出现波折,尤其是当引入新变量后变化方向改变了,则提示要好好进一步分析。分类图可以直观的观测模型的预测状况,可在选项(Option…)中选中Classification plots来获得

    (6)多重共线的检验

    运用相同的因变量和自变量拟合线性回归模型进行共线性诊断

    分析>>回归>>线性(Linear…)

    选入相应的因变量和自变量

    统计(Statistics…):选中Collinearity diagnostics,Continue,OK

    查看结果中的回归系数表(Coefficients),如容忍度(Tolerance)小于0.1,方差膨胀因子(VIF)大于10,则提示共线性的存在。存在共线性最简单的处理方法就是剔除引起共线性的因素。

    END

    转自个人微信公众号【Memo_Cleon】的统计学习笔记

    展开全文
  • Root of Mean Square Error (RMSE): 0.552968636193814Sum of Squared Residual: 7.33858350273712Correlation Coef. (R): 0.967603268749806R-Square: 0.936256085695309Adjusted R-Square: 0.851964171950494Deter...
  • 两个变量与变量相关性分析提问:用SPSS一个分析,有一个因变量N个自变量,先做相关性发现有很自变量与变量有关,相关性也比较高.继续说,但是再做多重回归方程的时候只有3个变量入选,其他都被排除了,那在写...
  • 涉及到一个河流的水污染分析,其中污染物较,同时自变量也较(气象因素含温度天气、污染企业数量及其位置、生活污染等)。需要考虑用什么模型来建模呢? 另外,污染物的数值之间,用相关性分析,貌似还有...
  • 多个自变量的函数拟合问题

    千次阅读 2021-04-18 16:27:30
    有七组数据(1,50): x=[ 13.4171 5.652496 7.560203 7.005844 11.98577 7.746066 10.69772 8.115705 14.04746 10.89177 8.992618 13.90936 6....请教一下该怎么编程呢,cftool是不是只能做两个自变量的函数拟合?
  • 首先,将x、y看成同一变量,即x(1)、x(2) 然后,定义自变量函数,即fun=inline('x(2)-f(x(1),x(2))','a','x')%a是拟合系数 再用Matlab的nlinfit()函数或lsqcurvefit()函数进行拟合另外你也可以利用可视化工具cftool...
  • 1.分析自变量对某一个因变量的显著性 在分析里找到,General linear model,然后选择Univariate, 分别把两个自变量TIssue and Speed 输入到Fixed Factor,然后设置Option里的描述,如果需要其他的设置可以自己添加 ...
  • 案例背景或目标:激素水平是否在对照组实验组之间存在...基本思路:控制变量法,首先排除性别,年龄,萎缩程度,胃粘膜细胞肠化生程度的影响; 探索性数据分析:观察样本量,样本的分布,是否存在偏态分不等; ...
  • TF之NN之回归预测:利用NN算法(RelU)实现根据三个自变量预测一个因变量的回归问题 目录 实验数据 设计思路 输出结果 实现代码 实验数据 TF之NN之回归预测:利用NN算法(RelU)实现基于30行样本(每个...
  • 求解很多多自变量的问题时,需要用到遗传算法,我们以标准遗传算法为例,举例说明如何实现x、y两个自变量的遗传算法的实现。其实在之前的文章 遗传算法的进一步探究—目标优化_数学建模matlab算法(七) 以及 遗传...
  • matlab 画两个自变量的函数图像

    千次阅读 2021-04-19 01:44:34
    dao可用meshgridmesh函数来绘制曲面,内举例子如下,容具体用法可参加helpmesh等。:lol[x,y]=meshgrid(-1:.05:1);z=x.^2+sin(y);mesh(x,y,z),曲线还是曲面,曲线的话用plot3函数,曲面是mesh,还有surf,surfl等...
  • SPSS:二元Logistic回归中自变量的处理解读——有序多分类变量的处理。有序多分类变量是很常见的变量形式,通常在变量中有多个可能会出现的取值,各取值之间还存在等级关系。比如高血压分级(0=正常,1=正常高值,2...
  • MATLAB中如何对含有多个变量的函数,只对其中一个或两个变量进行数值积分,而其他变量为设定的定值呢? 最好用的方法 由于对一个或两个变量进行积分方法类似,下面通过一个对两个变量进行积分的案例来介绍这种方法。...
  • python打印多个变量Like other programming languages, In python also, we can define and print the multiple variables. Here, we see how can we print the single and multiple variables using the print() ...
  • 十、模型自变量选择方法

    万次阅读 2018-07-18 19:51:22
    费尔南多的确获得了一个比较好的模型,然而,费尔南多想要获得最好的输入变量集 本文将详细介绍模型选择方法 一、概念 模型选择方法的想法很直观。它回答了以下问题: 如何为最佳模型选择正确的输入变量? 如何...
  • matlab同时给多个变量赋值(deal)

    万次阅读 多人点赞 2019-05-06 00:06:25
    matlab同时给多个变量赋值例子1:对x,y,z同时初始化为100例子2:对a,b,c分别初始化为mat,lab,sky例子3:将Cell数组x={1 2 3}中的1,2,3分别赋值给a,...MATLAB中条语句给多个变量赋值(转载)_了凡春秋_新浪博客 http:...
  • 如何用SPSS把调查问卷中多个维度的多个问题合成一个变量,然后进行相关分析?求大神帮帮忙。 问卷中某一变量,用了多个维度来衡量,如何将这几个维度合成一个变量?将每个维度取均值,再将这几个均值加起来取均值来...
  • 线程操作同一个变量

    万次阅读 2019-03-13 15:52:37
    在java线程并发处理中,有一个关键字volatile的使用目前存在很大的混淆,以为使用这个关键字,在进行线程并发处理的时候就可以万事大吉。 Java语言是支持线程的,为了解决线程并发的问题,在语言内部引入了 ...
  • 衡量预测变量/自变量重要性

    千次阅读 2020-03-31 14:45:53
    、响应变量为数值型,预测变量为数值型 1.1 Pearson相关系数 衡量线性关系 1.2 Spearman相关系数 变量之间近线性或者曲线相关 不适用于变量间的复杂关系 1.3 loess局部加权回归 非线性关系 采取系列...
  • 在前面有一篇文章,我...这看起来没有什么问题,那么如果一个项目真的需要很多个参数化变量去构建,那么我们直接这样写肯定不行,本篇就来讨论如下如何优化这个问题。 1.问题场景 之前的场景是这样,相关文章ht...
  • 函数自变量变量的关系

    千次阅读 2015-09-11 13:49:00
    函数关系式中,能够影响其他变量的一个变量叫做自变量,随自变量的变动而变动的量,就称为变量。下面介绍如何在 几何画板 制作函数自变量变量关系的课件。 更详情: http://www.jihehuaban.com.cn/ ...
  • 多变量分析方法与相关分析

    千次阅读 2021-08-04 17:11:02
    有监督模型具有两大通用目的:1)分析哪些自变量变量存在显著影响作用, 2)通过选择对变量存在影响的自变量,建立预测变量取值的预测模型。 1)变量为连续变量(建立的模型称为回归预测模型),自变量为...
  • 之前在项目的存储过程中发现有通过 `DECLARE` 关键字定义...`,这两种类型的变量究竟有什么区别却弄不清楚,赶紧上网查询资料,发现还有`@@sql_mode`这样的变量,这一个圈俩圈的到底是什么啊?会不会出现三个圈的情况?
  • Shell 变量的作用域(Scope),就是 Shell 变量的有效范围(可以使用的范围)。 在不同的作用域中,同名的变量不会相互干涉,就好像 A 班有个叫小明的同学,B 班也有个叫小明...但是如果同一个班级中有两个叫小明...
  • R语言21-多变量绘图

    千次阅读 2020-02-10 10:29:54
    在原来两个变量的图里面再加一个变量 试图增加颜色,以此来表现 eg1:color=gender用包裹器放在geom_line里面 ggplot(aes(x=age,y=friend_count),data = subset(pf,is.na(gender)))+ geom_line(aes(color = gender)...
  • 多元回归自变量存在共线性

    千次阅读 2020-10-09 20:32:37
    如果在构建多重线性回归模型时,把具有多重共线性的变量一同放在模型中进行拟合,就会出现方程估计的偏回归系数明显与常识不相符,甚至出现符号方向相反的情况,对模型的拟合带来严重的影响。 今天我们就来讨论一下...
  • python3 输入多个变量

    千次阅读 2019-04-08 15:37:55
    #使用eval(有点像作弊),而且输入间隔符必须是逗号 a,b,c = eval(input()) #利用mapsplit函数来实现解析 #这个是空格隔开的,而且做了类型转换 a,b,c= map(int,input('a,b,c:')...转:python3 输入多个变量 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,808,229
精华内容 1,123,291
关键字:

多个自变量和一个因变量