精华内容
下载资源
问答
  • 2021-01-12 00:48:50

    多个自变量多个因变量用SPSS如何分析?

    提问:

    我是在做问卷,然后是要研究A与B两个问题之间的关系.然后AB分别设定了n个问题,从完全不符合到完全符合设为1到5的数值.昨晚问卷后我就有A1,A2……An这些自变量,然后B1,B2……Bn这些因变量,都有数值,要分析A对B的影响,该怎么办?

    实在不能直接分析能不能用简单相加的方法,就是把一个问卷的A1到An加起来,B1到Bn加起来,然后再把所有问卷放在一起分析,这样可不可以?

    如果用因子分析提取主成分的话,就只能把收集来的所有问卷的A1提取一个主成分,所有问卷的A2提取一个主成分以此类推,可是我想要的是一个问卷中的A1到An提取一个主成分,

    如果不能的话能不能简单相加啊……

    精彩回答:

    可以做因子分析.首先,先将A1到An用提取主成分分析的方法,形成一个因子,同理,对B项做同样处理.其次,再在因子的层面上对两个因子单变量方差分析(当然,如果存在多个自变量因子和多个因变量因子,可以用多变量方差分析).最后,如果想考察两者的线性的数量关系,可以再做回归分析.

    因子分析的步骤:菜单栏”分析”——“降维”——“因子分析”,在变量框里分别选入变量,记住将因子得分保存为新的变量.

    方差分析的步骤:分析——一般线性模型——单变量,将因变量选入“因变量”框内,将自变量选入”固定因子“框内,点确定.

    回归分析:分析——回归.选择线性或曲线模型.

    喜欢 (5)or分享 (0)

    更多相关内容
  • 协方差分析解决的问题:多个自变量(包括离散变量连续变量)对一个变量(连续数据)的影响。自变量中的连续变量被作为协变量加以'控制'(控制变量)。协方差分析可以在一定程度上排除非处理因素的影响,从而准确的获得...

    协方差分析解决的问题:多个自变量(包括离散变量和连续变量)对一个因变量(连续数据)的影响。自变量中的连续变量被作为协变量加以'控制'(控制变量)。

    协方差分析可以在一定程度上排除非处理因素的影响,从而准确的获得处理因素的影响。

    协方差分析的条件:除了满足一般的方差分析条件外,还需要满足'平行性检验'。

    协方差分析是回归分析和方差分析的结合。

    分析步骤包括两个部分:

    第一部分:平行性检验

    自变量与协变量的交互作用:P>0.05,满足平行性检验,满足协方差分析的条件;P≤0.05,不满足平行性检验,不满足协方差分析的条件。

    第二部分:协方差分析

    案例:

    运动干预对高血压人群的治疗效果研究

    实验设计(简化版):选取54名高血压人群,随机分为3组,分别采用健身走、广场舞、太极拳运动干预。干预时间为6个月。实验前、实验后测试安静收缩压,差值形成变量'血压下降'。已经统计检验过,实验前三组的收缩压基础值差异没有统计学意义。

    统计分析思路说明:考虑到年龄可能对血压下降程度有较大影响,而年龄又是连续变量,因此把'年龄'作为'协变量'。在研究运动干预对血压影响的同时,排除协变量'年龄'的影响,使结果更加准确。协方差分析就是用于解决类似问题的。

    自变量:锻炼项目

    协变量:年龄

    因变量:血压下降。

    1 部分数据

    图1

    2 平行性检验

    这是协方差分析的一个重要条件。意思是:各组的协变量与因变量存在线性回归关系且斜率基本相同。也就是回归直线近似平行。

    可以先做一个散点图,初步探索平行性。

    图2 散点图

    根据图2,三条回归直线近似平行,可以尝试采用协方差分析。

    SPSS步骤:

    1)分析-一般线性模型-单变量

    图3

    2)'血压下降'为'因变量';'组别'为'固定因子';'年龄'为'协变量'。

    图4

    3)点击'模型'。

    图5

    4)点击'定制',然后把因子与协变量的主效应和交互作用都选到'模型'列表(默认是没有交互作用的)。点击'继续'。

    5)返回'图4'后,点'确定'。下面是结果。

    图6

    组别与年龄的交互作用,P=0.770>0.05,说明交互作用不显著。也就是满足平行性检验。

    因为交互作用不显著,可以精简模型。把交互作用剔除,再做协方差分析。

    3 协方差分析

    1)图4状态点击'模型',把'组别'和'年龄'的交互作用取消。点击'继续'。

    图7

    2)回到图4后,点击'选项',如下图勾选。点击'继续',返回后,点击'确定'查看结果。

    图8

    4 SPSS结果

    1)方差齐性检验结果

    图 9

    P=0.462>0.05,方差齐性。满足了协方差分析的另一个条件。

    2)方差分析表

    图10

    组别P=0.019<0.05,说明三种运动干预方式对血压下降的效果不同。

    年龄P=0.000<0.05,说明年龄的确对血压下降程度产生了影响。排除这部分影响后,使运动干预对血压的影响结果更加准确。

    图11

    结合图11均值可知。结果:降压效果由高到低依次为HIIT、持续有氧、核心训练。(当然,如果结合后面的成对比较统计结果进一步做出判断会更加合适,篇幅原因,不再展开。)

    5 请一定要往下看

    如果不考虑'年龄'这个协变量对因变量(血压下降)的影响,结果会怎样?

    1)'组别'为'固定因子';'血压下降'为'因变量'。其他全默认。直接点击'确定'。

    图12

    2)方差分析表

    图13

    组别P=0.133>0.05,说明三种运动干预方式对血压下降的效果相同。

    由此可见,不考虑协变量'年龄'时得出了与前面完全相反的结果。

    这提示我们:科学研究中选择准确统计方法的重要性,方法一旦选错,我们将无法追求科学真理。

    展开全文
  • Root of Mean Square Error (RMSE): 0.552968636193814Sum of Squared Residual: 7.33858350273712Correlation Coef. (R): 0.967603268749806R-Square: 0.936256085695309Adjusted R-Square: 0.851964171950494Deter...

    Root of Mean Square Error (RMSE): 0.552968636193814

    Sum of Squared Residual: 7.33858350273712

    Correlation Coef. (R): 0.967603268749806

    R-Square: 0.936256085695309

    Adjusted R-Square: 0.851964171950494

    Determination Coef. (DC): -4.46808418046885

    F-Statistic: 8.6883418476569

    Parameter                  Best Estimate

    --------------------        -------------

    e0        13.9352477245558

    e1        15083489353.5665

    a        0.209330199775545

    r        9.84300027446168E-46

    ====== Output Results ======

    File: Data File-1

    No        Target y1        Calculated y1        Target y2        Calculated y2        Target y3        Calculated y3

    1        18.42445        17.6182972078781        2.34646        1.25666199904499        0.127355769        0.0713270972908252

    2        19.27556        18.5706074299262        2.40837        1.58159167277283        0.12494423        0.0851663941925846

    3        19.66805        19.0937435606322        2.50286        1.76008650388092        0.127255117        0.092181320980444

    4        20.12384        19.8992493538741        2.65565        2.03492628662184        0.13196537        0.102261459738212

    5        21.35861        21.4413355389213        3.10685        2.56108840183982        0.145461245        0.119446309544982

    6        21.54175        22.6134208541421        3.17097        2.96100566621095        0.147201133        0.130940191902394

    7        21.35861        21.4413355389213        3.10685        2.56108840183982        0.145461245        0.119446309544982

    8        21.54175        22.6134208541421        3.17097        2.96100566621095        0.147201133        0.130940191902394

    展开全文
  • 个人微信公众号【Memo_Cleon】的统计学习笔记两个概念:RROR二分类资料的logistic回归SPSS操作示例几个需要注意的问题:样本量、哑变量、模型拟合效果拟合优度检验、多重共线【1】两个概念RR(Relative Risk)...

    转自个人微信公众号【Memo_Cleon】的统计学习笔记两个概念:RR和OR

    二分类资料的logistic回归SPSS操作示例

    几个需要注意的问题:样本量、哑变量、模型拟合效果和拟合优度检验、多重共线

    【1】两个概念

    RR(Relative Risk):相对危险度,也称危险比(Risk Ratio)或率比(Rate Ratio),在前瞻性研究中用以表示暴露与疾病发生的关联强度,说明暴露组发病危险是非暴露组发病危险的多少倍,是两组发病率之比,计算公式为:

    OR(Odds Ration):比值比,优势比,比数比。在病例对照研究中说明暴露与疾病的关联强度,它是暴露在某危险因子下的发病率P1与不发病率之比(1-P1)与未暴露在某危险因子下的发病率P2与不发病率(1-P2)之比的比值。

    比值(odd)表示发生的可能性与不发行的可能性之比,odds1=P1/(1-P1),odds2=P2/(1-P2)。OR=odds1/odds2=ad/bc

    在logistic回归中,各自变量的回归系数βi表示自变量Xi每改变一个单位,比值比的自然对数值该变量,而exp(βi)即OR,表示自变量Xi每改变一个单位,阳性结果出现概率与不出现概率之比是变化前相应比值的倍数,即优势比。当阳性结果出现概率较小时(一般小于0.05)或者较大时(大于0.95),OR=(P1/(1-P1))/(P2/(1-P2))≈P1/P2=RR

    【2】二分类资料的logistic回归SPSS操作示例

    适用条件:①因变量为二分类变量,自变量可以是连续变量也可以是分类变量;②各观测间相互独立;③自变量与因变量logit(P)之间存在线性关系;④自变量间不存在多重共线;⑤尽量避免异常值,残差服从二项分布合计为零;⑥研究对象无论是病例组还是对照组,样本量至少是需要分析的自变量个数的10倍,多分类自变量的哑变量的参照水平频数至少为30。

    示例:探讨冠心病发生的有关危险因素。分析数据来自孙振球主编的《医学统计学》第三版。

    (1)数据录入赋值。二分类变量取值只有“0”和“1”两个值,本例年龄和体重指数严格来讲是要设成哑变量的(可参见本文后面关于哑变量的介绍),但由于样本量的问题,为更好的演示spss操作,本例按等级资料直接赋值。

    (2)分析(Analyze)>>回归(Regression)>>二分类logistic(Binary Logistic…)

    因变量(Dependent):选入冠心病[Y]

    协变量(Covariates):选入自变量[X1]-[X8]

    筛选变量方法(Method):进入(Enter):强行引入,全部变量一次进入模型,不进行筛选

    向前:条件(Forward:Conditional):向前逐步选择法,剔除变量的标准是条件参数估计的似然比检验

    向前:似然比(Forward:LR):向前逐步选择法,剔除变量的标准是最大偏似然估计的似然比检验

    向前:Wald(Forward:Wald):向前逐步选择法,剔除变量的标准Wald卡方检验

    不同的向前法选入自变量时均采用比分检验,只是采用的剔除变量的检验方法不同

    向后法也三种,剔除标准分别对应条件、似然比和Wald

    本例选中Forward:LR。

    分类变量(Categorial…):可将多分类自变量设置为哑变量。

    保存(Save…):可将中间的计算结果存储起来供以后分析,共有预测值、残差和影响强度因子三类

    选项(Options…):可以选中相应选项对模型进行描述、预测和诊断,设置逐步法的进入和剔除标准等。本例选中CI for exp(B)选项

    结果解释:

    (1)数据处理情况汇总,本例共有54条记录纳入分析,无缺失值。本例样本量时偏少,要分析8个自变量至少需要160例记录,本例仅用于操作演示。

    (2)因变量分类赋值

    (3)预测分类表:此步开始进行拟合。Block 0拟合的是不包含任何自变量只有常数的无效模型,本例有28例对照的记录被预测为对照,有26例病例也被预测为对照,总预测准确率为51.9%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。

    Block 0: Beginning Block

    (4)纳入方程的变量及检验情况。因此步拟合仅有常数项,β0=-0.074;检验方法Wald检验,检验统计量Wald χ2=0.074,P=0.786>0.05,H0假设是回归系数为0。Exp(B)为自然对数e的β0次方,实际意义是总体研究对象中(54例)中患病率(26/54)与未患病率(28/54)的比值0.929。

    (5)尚未纳入模型方程的变量及其比分检验结果。所作的检验是分别将他们纳入方程,方程的改变是否有统计学意义。本例如果将X1-X8分别纳入方程,则方程的改变都是有统计学意义的,总的统计量也有统计学意义。逐步回归法(Stepwise)是一个一个的选入变量,下一步将会先纳入P值最小的变量X6重新计算选择。

    (6)模型系数的综合检验,此步开始Block 1的拟合,本例采用的方法为向前逐步选择法(似然比),本例依次引入了4个变量,结果显示每一步新引入的变量和最终的模型均有统计学意义(新引入变量系数不为零,所有引入变量系数不全为零)

    Block 1: Method = Forward Stepwise (Likelihood Ratio)

    此处输出的即为每一步的似然比检验结果,模型新引入一个或几个变量后形成的新模型(当前模型)与“上一步(step)的模型/上一个区块(block)模型/初始模型(model)”进行比较,卡方值是上一个步模型/上一个区组模型/初始模型的-2logLR(负2倍的似然比值)与当前的-2logLR的差值,可通过下一张表格(Model Summary)中的值验证,step的卡方值结果上一步的模型与纳入新变量后的模型-2logLR之差,model的卡方值是初始模型(step0,各自变量系数均为0)与纳入新变量后的模型-2logLR之差,本例只设置了一个block,因此block与model相同。step检验的是每个step被纳入的变量引起的似然比变化,model则提示纳入新变量后整个模型的似然比变化。

    SPSS软件中自带的帮助对几个卡方的描述如下:

    Model Chi-Square

    2(log-likelihood function for current model − log-likelihood function for initial model)。 The initial model contains a constant if it is in the model; otherwise, the model has no terms. The degrees of freedom for the model chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models. If the degrees of freedom is zero, the model chi-square is not computed.

    Block Chi-Square

    2(log-likelihood function for current model − log-likelihood function for the final model from the previous method)。The degrees of freedom for the block chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models.

    Improvement Chi-Square

    2(log-likelihood function for current model − log-likelihood function for the model from the last step)。The degrees of freedom for the improvement chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models.

    (7)模型概况,输出每一步的-2logLR(-2倍的对数似然比值)以及两个广义决定系数(也称伪决定系数),这两个指标是模型拟合效果的的判断指标。logistic模型估计一般采用最大似然法,即是得到模型的似然函数值LR达到最大值(LR取值在0-1之间)。模型预测效果越好,LR越大,-2logLR越小。Cox&Snell R2和Nagelkerke R2表示当前模型中的 自变量导致的因变量变异占因变量总变异的比例。本例在拟合过的4个模型中-2logLR逐步减小,广义决定系数在增大,模型拟合效果还是不错的。

    (8)每一步的预测分类表,预测准确率由Block 0的51.9%上升至77.8%。逐步回归得出的结果是保证模型的最大似然函数值最大,但不能保证此时的预测精度最高。

    每一步第一行最后的百分比为真阴性率(特异度),第二行为真阳性率(灵敏度),以第四步结果为例,特异度75.0%,灵敏度80.8%。

    (9)每一步拟合入选方程的变量检验情况,输出每一步模型中参数估计值,包括常数项、各自变量的回归系数及标准误、Wald卡方值、自由度、P值及OR值(Exp(B))。最后一步的入选变量作为最终结果,最终筛选出的危险因素有4个,分别是年龄(X1)、高血脂史(X5)、动物脂肪摄入(X6)、A型性格(X8),说明年龄、高血脂史、动物脂肪摄入及A型性格与冠心病呈正相关,优势比分别是2.519、4.464、23、7.008。以A型性格为例,其结果可做如下解释:不考虑其他因素的印象,A型性格的对非A型性格的人发生冠心病的优势比是7.008(一般文献中会近似的表达为:不考虑其他因素的印象,A型性格的人发生冠心病的可能是非A型性格的人发生冠心病可能的7.008倍)。对于本例年龄和体重指数,按统计结果直接表达年龄每增加10岁/体重指数每增加一级引起的优势比,但此解释应当慎重,因为我们不能确定年龄和体重指数对冠心病的影响和我们的赋值水平是一致的,严格来说此处两变量应该设置成哑变量进行分析,但由于样本量的原因本例仅做演示。哑变量的设置可参见本文后面关于哑变量的设置。

    logit(P)=-4.705+0.924X1+1.496X5+3.135X6+1.947X8

    需要特别指出的是,本例X1的Wald检验P=0.053>0.05依然保留在了最终的模型中,是因为未达到变量剔除的标准,剔除检验见下一张表格:Model if Term Removed。SPSS默认的进入标准是0.05,剔除标准是0.10(可在选项(Options…)中设置),每一步P值小于等于0.1的变量均保留在方程中。

    在对尚未进入模型的自变量进行分析时(结果见表(11):Variables not in the Equation),在进行到step3引入X6后,X1的比分检验结果,P=0.042<0.05,符合纳入标准,因此将其纳入方程。在进行变量剔除时(Model if Term Removed)采用的似然比检验,P=0.041<0.05,尚未达到剔除标准,因此保留在模型中。从检验方法上看,似然比检验是基于整个模型的拟合情况,比分检验一般与似然比检验类似,而Wald检验没有考虑各因素的综合作用,结果最不可靠,因此当结果出现冲突时应以似然比检验结果为准。

    (10)输出每一步被纳入的自变量是否需要被剔除,采用的方法是似然比检验。结果显示每一步单独移除纳入的自变量后模型的改变均有统计学意义,因此需要全部保留在方程中。采用不同的变量筛选方法(剔除方法),该处的统计量会有差异。

    (11)尚未进入模型的自变量是否可能被纳入的比分检验结果:尚未进入方程的自变量如果再进入现有模型,模型的改变有无统计学意义。可见在Step 1时,还有多个变量可以引入,其中X5的P值最小,Step2时首先引入;在Step 2时首先考虑引入X8,Step3时首选考虑引入X1,而Step4时在现有的进入标准下已经没有需要引入的变量了。

    需要特别说明的是,变量是否最终入选,最重要的准则是专业判断,其次为多变量分析,最差的是单变量分析。如在专业上认为某自变量对结果有影响,不论其检验水准如何,都可强行纳入方程。多变量模型综合考虑了各个自变量的影响,结果更为客观,如多变量模型与单变量模型出现矛盾时应以多变量分析结果为准。

    强行纳入方法:第一种方法是将欲强行纳入的变量和已筛选出的变量重新进行logistic回归,变量帅选办法为Enter。第二种方法是利用区组(Block)来进行。将欲强行纳入的变量归为一个区组(block),在筛选方法中选择“ENTER”来确保这些变量被纳入,其他变量则归入另一区组(block),筛选方法可以是其他方法,比如Forward:LR。

    【3】几个需要注意的问题

    (1)样本量

    越多越好。理论上讲,每个自变量所需要的事件数至少为10个,也就是研究对象中较少组的记录数与自变量个数之商大于等于10。本例有8个自变量需要分析,病例组和对照组至少各需要80例以上,总样本160例以上,如设置哑变量,自变量增多样本量要求也就更大,而且参照水平至少30例以。本例对照组只有28例,病例组只有26例,最多只能分析的自变量个数是26/10=2.6个,若要分析所有的自变量,样本量就需要增加,否则就需要减少自变量个数。本例仅演示操作。

    (2)哑变量

    二分类变量取值只有“0”和“1”两个值,它们分别代表两种成对出现的逻辑概念,如“是”和“否”、“有”和“无”、“高”和“低”等,spss默认取值水平高的为阳性结果。当自变量为无序多分类时,SPPS中对变量的赋值大小并不代表自变量间存在次序或者程度的差异,比如研究血型对性格的影响,对A、B、AB、O血型分别赋值1、2、3、4,并不代表性格的logit(P)会按此顺序进行线性递增或递减,此时需要设置哑变量,自变量有n个水平,需要n-1个哑变量,如上面的4个血型,则需要3个哑变量来设置。

    无序多分类变量可直接设置成哑变量,对于有序多分类,则视情况而定。张文彤老师给出的解决方案是专业上不能判断不同等级的自变量对因变量的影响程度是一致的时候,需要将有序变量分别以哑变量和连续性变量引入模型,对两个模型进行似然比检验(似然比卡方值等于两模型-2logLR之差,自由度为两模型自变量个数之差),如果似然比检验无统计学意义,且各哑变量回归系数间存在相应的等级关系,则可将该自变量作为连续性变量引入模型,否则还是采用哑变量方式引入。本例年龄和体重指数均为有序多分类变量,我们不能确定冠心病的发病率logit转换值会与设定的年龄等级递增相同,体重指数不同分类之间划分切点是不等距的,直接按等距赋值为1、2、3也不太符合实际情况。上面的示例将年龄和体重指数直接引入模型进行筛选是不恰当的,严格来说这两个变量是应该采用哑变量来分析的,但本来例数太少,引入哑变量后所需样本量应该更多,如果引入哑变量分析可能会使结果误差很大。实际上本例直接引入后,就出现了年龄不再是冠心病发病的危险因素。为更好的演示哑变量的设置及解读,将原数据复制一倍,变量只保留X2、X4、X6、X7,重新进行回归分析。

    步骤如下:

    分析>>回归>>二分类logistic…

    因变量:选入冠心病[Y]

    协变量:选入自变量[X2]、[X4]、[X6]、[X7]

    筛选变量方法(Method):Forward:LR

    分类变量(Categorial…):可将多分类自变量设置为哑变量,将“体重指数(BMI)[X7]”选入分类协变量(Categorial Covariats)框中,低BMI水平(BMI<24)设为参照水平,将Contrast-Indicator,Reference Category-First,Change,Continue

    大部分结果解读同示例结果,以下仅结合哑变量对应的结果进行解读。

    分类变量的哑变量编码见下表

    拟合纳入方程的变量及其检验情况见下表。最后一步的入选变量作为最终结果,最终筛选出的危险因素有3个,分别是X2、X6、X7。对于X2的解读:不考虑其他因素的影响,有高血压病史的患者发生冠心病的可能是无高血压史患者发生冠心病可能的4.646倍(近似,实际是OR=4.646),X6的解释与此类同,高动物脂肪摄入对低脂肪摄入发生冠心病的优势比是22.042。对哑变量的解释则是与参照水平相比的结果:不考虑其他因素的影响,BMI24-26水平对BMI<24水平的优势比是3.279,BMI>26水平对BMI<24水平的优势比是4.039。

    要特别注意,哑变量需要遵循同进同出的原则,即在一个模型中同一个多分类变量的所有哑变量要么全部纳入模型,要么全部不纳入模型。目前在各很多统计论坛上,普遍认为结果的第一行是该自变量的总体检验,总体检验有统计学意义,所有哑变量都应保留,本例X7总P值=0.04<0.05,X7(1):P=0.04<0.05,X7(2):P=0.53>0.05。

    一般来说第一行的总体检验有统计学意义,其后的哑变量至少有一个是有统计学意义的,有时可能出现后面的哑变量都没有统计学意义的情况,因为哑变量选取不同的参照水平,其他哑变量与之相比的P值会不同,出现这种情况可能是其他哑变量与选取的参照水平相比刚好没有统计学意义。

    还有一种情况是此表哑变量总检验P>0.05,结果仍保留在方程中,原因可能是不同的检验方法造成的,跟正文结果(9)后面的解释一样,纳入标准、剔除标准以及方程中变量的检验方法是不一样的,以本例为例,纳入变量方法是比分检验(默认纳入标准P=0.05),剔除标准是最大似然比检验(默认标准P=0.10),而本表方程中变量的检验采用的是Wald卡方检验。Wald与似然比检验出现矛盾时以似然比检验为准。

    实际上,自变量设为哑变量后,Variables in the Equations表中直接显示的都是最终入选的变量,具体的纳入和剔除检验则需要从Variables not in the Equation和Model if Term Removed表中查看。如本例,结合上表X7在step3时被纳入,从模型系数的综合检验表格(Omnibus Tests of Model Coefficient)中可以看出,Step3与上一步的似然比检验有统计学意义,纳入该变量时模型的改变有统计学意义(Variables not in the Equation表中step2比分检验结果:P=0.033<0.05),剔除该变量时模型的改变也有统计学意义(Model if Term Removed表中step3的似然比检验结果:P=0.034<0.05)。

    (3)模型效果检验

    模型拟合效果可以通过对似然比值的变化和广义决定系数(Model Summary)、预测分类表(Classification Table),解读如正文。另外对模型效果的检验还有ROC曲线。

    制作ROC曲线步骤如下:

    分析>>回归>>二分类logistic…因变量:选入冠心病[Y]

    协变量:选入自变量[X2]、[X4]、[X6]、[X7]

    筛选变量方法(Method):Forward:LR

    保存(Save…):选中预测值中的概率(Probabilities)

    Continue

    OK

    分析>>ROC曲线(ROC Curve…)检验变量(Test Variable):选入新生产的预测概率(Predicted probability[PRE_1])

    状态变量(State Variable):选入冠心病[Y],将Y=1的研究对象指定为病人(状态变量值(Value of State Variable):1)。

    显示(Dispaly)选中所有复选框:ROC曲线、带对焦参考线、标准误和置信区间、ROC曲线的坐标点

    OK

    结果显示曲线下面积为0.883,P<0.001。P值的H0假设是曲线下面积为0.5。

    ROC曲线下面积取值范围0.5-1,0.5-0.7表示诊断价值较低,0.7-0.9表示诊断价值中等,0.9以上表示诊断价值较高。如果ROC曲线沿着对角线方向分布. 表示分类是机遇造成的,正确和错误的概率各位50%,此时该诊断方法无效,较好的诊断方法的ROC曲线应该是从左下角垂直上升至顶线.然后水平向右至右上角,更外面离对角线更远的曲线其灵敏度和特异度均高于里面的离对角线更近的曲线。

    (4)模型的拟合优度的检验

    可采用Pearson拟合优度检验和Deviance拟合优度检验,此两法在SPSS的二分类的logistic回归没有输出

    似然比检验是 计算经筛选出的变量的饱和模型的-2logLR值和只引入筛选出的变量的主效应模型(简单模型)的-2logLR值,两者之差服从卡方分布,自由度为两者参数个数之差,若P>0.05则说明拟合筛选的自变量主效应的logistic回归模型已经足够。注:饱和模型可以理解为纳入各自变量主效应及其交互项的模型,简约模型为非饱和模型,比如缺少交互项。

    除了似然比检验外,SPSS中还有Hosmer-lemeshow检验,可在选项(Options…)中选入Hosmer-lemeshow goodness-of-fit,结果出现在“模型概况(Model Summary)”表格之后,输出“Hosmer和Lemeshow检验”以及“Hosmer和Lemeshow检验列联表”。其中Hosmer和Lemeshow检验列联表是十分位组的观测值和期望值,按模型求得某个体的得病概率,概率递增排序后分为10等份,据此期望值与相应的观测值求得Pearson卡方(自由度=组数-2=8,但有时自变量组合和样本量的原因组数可能少于10)。

    本例最终结果χ2=8.727,P=0.273>0.05,表明简约模型与饱和模型间无差异(H0假设是简约模型与饱和模型无差异。如果结果显著则说明现有简约模型仍然需要加入新的变量以提升模型的解释力度;相反若结果不显著说明简约模型中包括的自变量已足够,即解释力度已与饱和模型无差异)。

    (5)模型诊断

    可采用残差分析、迭代记录、分类图等。通过残差分析可以查找异常值,可通过保存(Save…)中的残差( Residuals)部分来进行,一般来说残差绝对值大于2,该条记录可能是异常点。残差图可参见

    代记录在选项(Option…)中选中Iteration history来获得,健康迭代过程的迭代记录似然值和自变量系数从迭代开始就向着一个方向发展,如中间出现波折,尤其是当引入新变量后变化方向改变了,则提示要好好进一步分析。分类图可以直观的观测模型的预测状况,可在选项(Option…)中选中Classification plots来获得

    (6)多重共线的检验

    运用相同的因变量和自变量拟合线性回归模型进行共线性诊断

    分析>>回归>>线性(Linear…)

    选入相应的因变量和自变量

    统计(Statistics…):选中Collinearity diagnostics,Continue,OK

    查看结果中的回归系数表(Coefficients),如容忍度(Tolerance)小于0.1,方差膨胀因子(VIF)大于10,则提示共线性的存在。存在共线性最简单的处理方法就是剔除引起共线性的因素。

    END

    转自个人微信公众号【Memo_Cleon】的统计学习笔记

    展开全文
  • 目录:前言偏相关或复相关意义与用途分析方法:1、 样本相关系数矩阵、相关系数检验2、 复相关分析3、 决定系数 (RMSE的介绍)小结一、前言:继上一篇文章,继续探讨相关性分析,这次不再是两个变量,而是3个或者...
  • 首先,将x、y看成同一变量,即x(1)、x(2) 然后,定义自变量函数,即fun=inline('x(2)-f(x(1),x(2))','a','x')%a是拟合系数 再用Matlab的nlinfit()函数或lsqcurvefit()函数进行拟合另外你也可以利用可视化工具cftool...
  • 1.分析多自变量对某一个变量的显著性 在分析里找到,General linear model,然后选择Univariate, 分别把两个自变量TIssue and Speed 输入到Fixed Factor,然后设置Option里的描述,如果需要其他的设置可以自己添加 ...
  • matlab已知函数值求自变量,求助

    千次阅读 2021-04-19 08:18:17
    思路是这样的:你得到最小的函数值后,把它带入你作图的方程反解自变量的值。我不知道你画的这个函数图像的方程什么,我用一个二次方程y=x.^2+x给你做示范:先做图:x=-10:0.1:10;y=x.^2+x;plot(x,y);m_y=min(y)得到...
  • 基本概念:自变量和协变量

    万次阅读 2017-12-04 21:22:15
    自变量是指研究者主动操纵,而引起变量发生变化的因素或条件,因此自变量被看作是变量的原因。 协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响响应。同时,它指与变量有...
  • matlab中如何指定一个函数的自变量

    千次阅读 2021-04-19 04:32:32
    给出的代码抄有两个问题:1、书写错误,2113f_x表达式中5261漏写变量lam,“./(l.*(c1.*sin(h)”;2、矩阵运算没4102有使用点运算符。如1653f_x表达式应这样来写f_x=(5*lam.*a*104.*sin(h).*cos(h).*(c1-c2))./(lam....
  • 涉及到一个河流的水污染分析,其中污染物较多,同时自变量也较多(气象因素含温度天气、污染企业数量及其位置、生活污染等)。需要考虑用什么模型来建模呢? 另外,污染物的数值之间,用相关性分析,貌似还有...
  • 多个自变量的函数拟合问题

    千次阅读 2021-04-18 16:27:30
    有七组数据(1,50): x=[ 13.4171 5.652496 7.560203 7.005844 11.98577 7.746066 10.69772 8.115705 14.04746 10.89177 8.992618 13.90936 6....请教一下该怎么编程呢,cftool是不是只能做两个自变量的函数拟合?
  • 函数自变量变量的关系

    千次阅读 2015-09-11 13:49:00
    函数关系式中,能够影响其他变量的一个变量叫做自变量,随自变量的变动而变动的量,就称为变量。下面介绍如何在 几何画板 制作函数自变量变量关系的课件。 更多详情: http://www.jihehuaban.com.cn/ ...
  • 两个变量与变量相关性分析提问:用SPSS一个分析,有一个变量N个自变量,先做相关性发现有很多自变量变量有关,相关性也比较高.继续说,但是再做多重回归方程的时候只有3个变量入选,其他都被排除了,那在写...
  • 但是我们发现在logistic回归中,SPSS软件只给出了回归系数而没有提供标准化后的回归系数,那么此时应该如何判断自变量的重要性呢?事实上不止SPSS,还有其他一些统计软件在logistic回归的结果输出中也没有给出标准化...
  • 十、模型自变量选择方法

    万次阅读 2018-07-18 19:51:22
    费尔南多的确获得了一个比较好的模型,然而,费尔南多想要获得最好的输入变量集 本文将详细介绍模型选择方法 一、概念 模型选择方法的想法很直观。它回答了以下问题: 如何为最佳模型选择正确的输入变量? 如何...
  • 求解很多多自变量的问题时,需要用到遗传算法,我们以标准遗传算法为例,举例说明如何实现x、y两个自变量的遗传算法的实现。其实在之前的文章 遗传算法的进一步探究—多目标优化_数学建模matlab算法(七) 以及 遗传...
  • C语言 静态变量与自动变量的区别

    万次阅读 多人点赞 2017-10-19 13:18:18
    C语言中使用auto 关键字声明自动变量,使用static关键字声明静态变量
  • SPSS:二元Logistic回归中自变量的处理解读——有序多分类变量的处理。有序多分类变量是很常见的变量形式,通常在变量中有多个可能会出现的取值,各取值之间还存在等级关系。比如高血压分级(0=正常,1=正常高值,2...
  • 多元回归自变量存在共线性

    千次阅读 2020-10-09 20:32:37
    所谓多重共线性,是指自变量之间存在某种相关或者高度相关的关系,其中某个自变量可以被其他自变量组成的线性组合来解释。 医学研究中常见的生理资料,如收缩压舒张压、总胆固醇低密度脂蛋白胆固醇等,这些变量...
  • 衡量预测变量/自变量重要性

    千次阅读 2020-03-31 14:45:53
    一、响应变量为数值型,预测变量为数值型 1.1 Pearson相关系数 衡量线性关系 1.2 Spearman相关系数 变量之间近线性或者曲线相关 不适用于变量间的复杂关系 1.3 loess局部加权回归 非线性关系 采取一系列...
  • 残差平方SSE越小,决定系数R2R^2R2越大越好:并非如此,增加自变量个数会达到上述效果,但是考虑到多重共线性、变量测量误差累计、参数数目增加等因素,未必会好 自由度调整复决定系数达到最大:自变量增多,复...
  • TF之NN之回归预测:利用NN算法(RelU)实现根据三个自变量预测一个变量的回归问题 目录 实验数据 设计思路 输出结果 实现代码 实验数据 TF之NN之回归预测:利用NN算法(RelU)实现基于30行样本(每个...
  • 案例背景或目标:激素水平是否在对照组实验组之间存在...基本思路:控制变量法,首先排除性别,年龄,萎缩程度,胃粘膜细胞肠化生程度的影响; 探索性数据分析:观察样本量,样本的分布,是否存在偏态分不等; ...
  • 之前在项目的存储过程中发现有通过 `DECLARE` 关键字定义的变量如`DECLARE cnt INT DEFAULT 0;`,还有形如 `@count` 这样的变量,存储过程中拿过来直接就进行设置,像这样`set @count=1;`,这两种类型的变量究竟有...
  • 1.自变量选择的影响 如果一个变量共受到个因素的影响,建模时选取了所有的因素,则为全模型;若只选了其中p个因素建模,则成为选模型。  (1)全模型 其参数估值为:  (2)选模型 其参数估值为: 自变量...
  • 静态变量和实例变量的区别

    千次阅读 2022-01-12 14:18:43
    静态变量和实例变量的区别
  • matlab 画两个自变量的函数图像

    千次阅读 2021-04-19 01:44:34
    dao可用meshgridmesh函数来绘制曲面,内举个例子如下,容具体用法可参加helpmesh等。:lol[x,y]=meshgrid(-1:.05:1);z=x.^2+sin(y);mesh(x,y,z),曲线还是曲面,曲线的话用plot3函数,曲面是mesh,还有surf,surfl等...
  • SPSS学习笔记(六)线性相关及回归

    千次阅读 2020-11-19 12:04:17
    研究者收集了研究对象每天久坐时间(变量time)胆固醇浓度(变量cholesterol)。 观察两个连续变量之间的相关性,可以使用Pearson相关分析。 需要考虑5个假设。 假设1:两个变量都是连续变量。 假设2:两个...
  • 原文链接:http://tecdat.cn/?p=18169 比如说分类变量为是否幸存、是变量,连续变量为年龄、是自变量,这两者可以做相关分析吗?两者又是否可以做回归分析? 我们考虑泰坦尼克号数据集,

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,905,359
精华内容 1,562,143
关键字:

如何判断自变量和因变量