精华内容
下载资源
问答
  • 2021-01-12 00:48:50

    多个自变量多个因变量用SPSS如何分析?

    提问:

    我是在做问卷,然后是要研究A与B两个问题之间的关系.然后AB分别设定了n个问题,从完全不符合到完全符合设为1到5的数值.昨晚问卷后我就有A1,A2……An这些自变量,然后B1,B2……Bn这些因变量,都有数值,要分析A对B的影响,该怎么办?

    实在不能直接分析能不能用简单相加的方法,就是把一个问卷的A1到An加起来,B1到Bn加起来,然后再把所有问卷放在一起分析,这样可不可以?

    如果用因子分析提取主成分的话,就只能把收集来的所有问卷的A1提取一个主成分,所有问卷的A2提取一个主成分以此类推,可是我想要的是一个问卷中的A1到An提取一个主成分,

    如果不能的话能不能简单相加啊……

    精彩回答:

    可以做因子分析.首先,先将A1到An用提取主成分分析的方法,形成一个因子,同理,对B项做同样处理.其次,再在因子的层面上对两个因子单变量方差分析(当然,如果存在多个自变量因子和多个因变量因子,可以用多变量方差分析).最后,如果想考察两者的线性的数量关系,可以再做回归分析.

    因子分析的步骤:菜单栏”分析”——“降维”——“因子分析”,在变量框里分别选入变量,记住将因子得分保存为新的变量.

    方差分析的步骤:分析——一般线性模型——单变量,将因变量选入“因变量”框内,将自变量选入”固定因子“框内,点确定.

    回归分析:分析——回归.选择线性或曲线模型.

    喜欢 (5)or分享 (0)

    更多相关内容
  • 转自个人微信公众号【Memo_Cleon】的统计学习笔记两个概念:RR和OR二分类资料的logistic回归SPSS操作示例几个需要注意的问题:样本量、哑变量、模型拟合效果和拟合优度检验、多重共线【1】两个概念RR(Relative Risk)...

    转自个人微信公众号【Memo_Cleon】的统计学习笔记两个概念:RR和OR

    二分类资料的logistic回归SPSS操作示例

    几个需要注意的问题:样本量、哑变量、模型拟合效果和拟合优度检验、多重共线

    【1】两个概念

    RR(Relative Risk):相对危险度,也称危险比(Risk Ratio)或率比(Rate Ratio),在前瞻性研究中用以表示暴露与疾病发生的关联强度,说明暴露组发病危险是非暴露组发病危险的多少倍,是两组发病率之比,计算公式为:

    OR(Odds Ration):比值比,优势比,比数比。在病例对照研究中说明暴露与疾病的关联强度,它是暴露在某危险因子下的发病率P1与不发病率之比(1-P1)与未暴露在某危险因子下的发病率P2与不发病率(1-P2)之比的比值。

    比值(odd)表示发生的可能性与不发行的可能性之比,odds1=P1/(1-P1),odds2=P2/(1-P2)。OR=odds1/odds2=ad/bc

    在logistic回归中,各自变量的回归系数βi表示自变量Xi每改变一个单位,比值比的自然对数值该变量,而exp(βi)即OR,表示自变量Xi每改变一个单位,阳性结果出现概率与不出现概率之比是变化前相应比值的倍数,即优势比。当阳性结果出现概率较小时(一般小于0.05)或者较大时(大于0.95),OR=(P1/(1-P1))/(P2/(1-P2))≈P1/P2=RR

    【2】二分类资料的logistic回归SPSS操作示例

    适用条件:①因变量为二分类变量,自变量可以是连续变量也可以是分类变量;②各观测间相互独立;③自变量与因变量logit(P)之间存在线性关系;④自变量间不存在多重共线;⑤尽量避免异常值,残差服从二项分布合计为零;⑥研究对象无论是病例组还是对照组,样本量至少是需要分析的自变量个数的10倍,多分类自变量的哑变量的参照水平频数至少为30。

    示例:探讨冠心病发生的有关危险因素。分析数据来自孙振球主编的《医学统计学》第三版。

    (1)数据录入赋值。二分类变量取值只有“0”和“1”两个值,本例年龄和体重指数严格来讲是要设成哑变量的(可参见本文后面关于哑变量的介绍),但由于样本量的问题,为更好的演示spss操作,本例按等级资料直接赋值。

    (2)分析(Analyze)>>回归(Regression)>>二分类logistic(Binary Logistic…)

    因变量(Dependent):选入冠心病[Y]

    协变量(Covariates):选入自变量[X1]-[X8]

    筛选变量方法(Method):进入(Enter):强行引入,全部变量一次进入模型,不进行筛选

    向前:条件(Forward:Conditional):向前逐步选择法,剔除变量的标准是条件参数估计的似然比检验

    向前:似然比(Forward:LR):向前逐步选择法,剔除变量的标准是最大偏似然估计的似然比检验

    向前:Wald(Forward:Wald):向前逐步选择法,剔除变量的标准Wald卡方检验

    不同的向前法选入自变量时均采用比分检验,只是采用的剔除变量的检验方法不同

    向后法也三种,剔除标准分别对应条件、似然比和Wald

    本例选中Forward:LR。

    分类变量(Categorial…):可将多分类自变量设置为哑变量。

    保存(Save…):可将中间的计算结果存储起来供以后分析,共有预测值、残差和影响强度因子三类

    选项(Options…):可以选中相应选项对模型进行描述、预测和诊断,设置逐步法的进入和剔除标准等。本例选中CI for exp(B)选项

    结果解释:

    (1)数据处理情况汇总,本例共有54条记录纳入分析,无缺失值。本例样本量时偏少,要分析8个自变量至少需要160例记录,本例仅用于操作演示。

    (2)因变量分类赋值

    (3)预测分类表:此步开始进行拟合。Block 0拟合的是不包含任何自变量只有常数的无效模型,本例有28例对照的记录被预测为对照,有26例病例也被预测为对照,总预测准确率为51.9%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。

    Block 0: Beginning Block

    (4)纳入方程的变量及检验情况。因此步拟合仅有常数项,β0=-0.074;检验方法Wald检验,检验统计量Wald χ2=0.074,P=0.786>0.05,H0假设是回归系数为0。Exp(B)为自然对数e的β0次方,实际意义是总体研究对象中(54例)中患病率(26/54)与未患病率(28/54)的比值0.929。

    (5)尚未纳入模型方程的变量及其比分检验结果。所作的检验是分别将他们纳入方程,方程的改变是否有统计学意义。本例如果将X1-X8分别纳入方程,则方程的改变都是有统计学意义的,总的统计量也有统计学意义。逐步回归法(Stepwise)是一个一个的选入变量,下一步将会先纳入P值最小的变量X6重新计算选择。

    (6)模型系数的综合检验,此步开始Block 1的拟合,本例采用的方法为向前逐步选择法(似然比),本例依次引入了4个变量,结果显示每一步新引入的变量和最终的模型均有统计学意义(新引入变量系数不为零,所有引入变量系数不全为零)

    Block 1: Method = Forward Stepwise (Likelihood Ratio)

    此处输出的即为每一步的似然比检验结果,模型新引入一个或几个变量后形成的新模型(当前模型)与“上一步(step)的模型/上一个区块(block)模型/初始模型(model)”进行比较,卡方值是上一个步模型/上一个区组模型/初始模型的-2logLR(负2倍的似然比值)与当前的-2logLR的差值,可通过下一张表格(Model Summary)中的值验证,step的卡方值结果上一步的模型与纳入新变量后的模型-2logLR之差,model的卡方值是初始模型(step0,各自变量系数均为0)与纳入新变量后的模型-2logLR之差,本例只设置了一个block,因此block与model相同。step检验的是每个step被纳入的变量引起的似然比变化,model则提示纳入新变量后整个模型的似然比变化。

    SPSS软件中自带的帮助对几个卡方的描述如下:

    Model Chi-Square

    2(log-likelihood function for current model − log-likelihood function for initial model)。 The initial model contains a constant if it is in the model; otherwise, the model has no terms. The degrees of freedom for the model chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models. If the degrees of freedom is zero, the model chi-square is not computed.

    Block Chi-Square

    2(log-likelihood function for current model − log-likelihood function for the final model from the previous method)。The degrees of freedom for the block chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models.

    Improvement Chi-Square

    2(log-likelihood function for current model − log-likelihood function for the model from the last step)。The degrees of freedom for the improvement chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models.

    (7)模型概况,输出每一步的-2logLR(-2倍的对数似然比值)以及两个广义决定系数(也称伪决定系数),这两个指标是模型拟合效果的的判断指标。logistic模型估计一般采用最大似然法,即是得到模型的似然函数值LR达到最大值(LR取值在0-1之间)。模型预测效果越好,LR越大,-2logLR越小。Cox&Snell R2和Nagelkerke R2表示当前模型中的 自变量导致的因变量变异占因变量总变异的比例。本例在拟合过的4个模型中-2logLR逐步减小,广义决定系数在增大,模型拟合效果还是不错的。

    (8)每一步的预测分类表,预测准确率由Block 0的51.9%上升至77.8%。逐步回归得出的结果是保证模型的最大似然函数值最大,但不能保证此时的预测精度最高。

    每一步第一行最后的百分比为真阴性率(特异度),第二行为真阳性率(灵敏度),以第四步结果为例,特异度75.0%,灵敏度80.8%。

    (9)每一步拟合入选方程的变量检验情况,输出每一步模型中参数估计值,包括常数项、各自变量的回归系数及标准误、Wald卡方值、自由度、P值及OR值(Exp(B))。最后一步的入选变量作为最终结果,最终筛选出的危险因素有4个,分别是年龄(X1)、高血脂史(X5)、动物脂肪摄入(X6)、A型性格(X8),说明年龄、高血脂史、动物脂肪摄入及A型性格与冠心病呈正相关,优势比分别是2.519、4.464、23、7.008。以A型性格为例,其结果可做如下解释:不考虑其他因素的印象,A型性格的对非A型性格的人发生冠心病的优势比是7.008(一般文献中会近似的表达为:不考虑其他因素的印象,A型性格的人发生冠心病的可能是非A型性格的人发生冠心病可能的7.008倍)。对于本例年龄和体重指数,按统计结果直接表达年龄每增加10岁/体重指数每增加一级引起的优势比,但此解释应当慎重,因为我们不能确定年龄和体重指数对冠心病的影响和我们的赋值水平是一致的,严格来说此处两变量应该设置成哑变量进行分析,但由于样本量的原因本例仅做演示。哑变量的设置可参见本文后面关于哑变量的设置。

    logit(P)=-4.705+0.924X1+1.496X5+3.135X6+1.947X8

    需要特别指出的是,本例X1的Wald检验P=0.053>0.05依然保留在了最终的模型中,是因为未达到变量剔除的标准,剔除检验见下一张表格:Model if Term Removed。SPSS默认的进入标准是0.05,剔除标准是0.10(可在选项(Options…)中设置),每一步P值小于等于0.1的变量均保留在方程中。

    在对尚未进入模型的自变量进行分析时(结果见表(11):Variables not in the Equation),在进行到step3引入X6后,X1的比分检验结果,P=0.042<0.05,符合纳入标准,因此将其纳入方程。在进行变量剔除时(Model if Term Removed)采用的似然比检验,P=0.041<0.05,尚未达到剔除标准,因此保留在模型中。从检验方法上看,似然比检验是基于整个模型的拟合情况,比分检验一般与似然比检验类似,而Wald检验没有考虑各因素的综合作用,结果最不可靠,因此当结果出现冲突时应以似然比检验结果为准。

    (10)输出每一步被纳入的自变量是否需要被剔除,采用的方法是似然比检验。结果显示每一步单独移除纳入的自变量后模型的改变均有统计学意义,因此需要全部保留在方程中。采用不同的变量筛选方法(剔除方法),该处的统计量会有差异。

    (11)尚未进入模型的自变量是否可能被纳入的比分检验结果:尚未进入方程的自变量如果再进入现有模型,模型的改变有无统计学意义。可见在Step 1时,还有多个变量可以引入,其中X5的P值最小,Step2时首先引入;在Step 2时首先考虑引入X8,Step3时首选考虑引入X1,而Step4时在现有的进入标准下已经没有需要引入的变量了。

    需要特别说明的是,变量是否最终入选,最重要的准则是专业判断,其次为多变量分析,最差的是单变量分析。如在专业上认为某自变量对结果有影响,不论其检验水准如何,都可强行纳入方程。多变量模型综合考虑了各个自变量的影响,结果更为客观,如多变量模型与单变量模型出现矛盾时应以多变量分析结果为准。

    强行纳入方法:第一种方法是将欲强行纳入的变量和已筛选出的变量重新进行logistic回归,变量帅选办法为Enter。第二种方法是利用区组(Block)来进行。将欲强行纳入的变量归为一个区组(block),在筛选方法中选择“ENTER”来确保这些变量被纳入,其他变量则归入另一区组(block),筛选方法可以是其他方法,比如Forward:LR。

    【3】几个需要注意的问题

    (1)样本量

    越多越好。理论上讲,每个自变量所需要的事件数至少为10个,也就是研究对象中较少组的记录数与自变量个数之商大于等于10。本例有8个自变量需要分析,病例组和对照组至少各需要80例以上,总样本160例以上,如设置哑变量,自变量增多样本量要求也就更大,而且参照水平至少30例以。本例对照组只有28例,病例组只有26例,最多只能分析的自变量个数是26/10=2.6个,若要分析所有的自变量,样本量就需要增加,否则就需要减少自变量个数。本例仅演示操作。

    (2)哑变量

    二分类变量取值只有“0”和“1”两个值,它们分别代表两种成对出现的逻辑概念,如“是”和“否”、“有”和“无”、“高”和“低”等,spss默认取值水平高的为阳性结果。当自变量为无序多分类时,SPPS中对变量的赋值大小并不代表自变量间存在次序或者程度的差异,比如研究血型对性格的影响,对A、B、AB、O血型分别赋值1、2、3、4,并不代表性格的logit(P)会按此顺序进行线性递增或递减,此时需要设置哑变量,自变量有n个水平,需要n-1个哑变量,如上面的4个血型,则需要3个哑变量来设置。

    无序多分类变量可直接设置成哑变量,对于有序多分类,则视情况而定。张文彤老师给出的解决方案是专业上不能判断不同等级的自变量对因变量的影响程度是一致的时候,需要将有序变量分别以哑变量和连续性变量引入模型,对两个模型进行似然比检验(似然比卡方值等于两模型-2logLR之差,自由度为两模型自变量个数之差),如果似然比检验无统计学意义,且各哑变量回归系数间存在相应的等级关系,则可将该自变量作为连续性变量引入模型,否则还是采用哑变量方式引入。本例年龄和体重指数均为有序多分类变量,我们不能确定冠心病的发病率logit转换值会与设定的年龄等级递增相同,体重指数不同分类之间划分切点是不等距的,直接按等距赋值为1、2、3也不太符合实际情况。上面的示例将年龄和体重指数直接引入模型进行筛选是不恰当的,严格来说这两个变量是应该采用哑变量来分析的,但本来例数太少,引入哑变量后所需样本量应该更多,如果引入哑变量分析可能会使结果误差很大。实际上本例直接引入后,就出现了年龄不再是冠心病发病的危险因素。为更好的演示哑变量的设置及解读,将原数据复制一倍,变量只保留X2、X4、X6、X7,重新进行回归分析。

    步骤如下:

    分析>>回归>>二分类logistic…

    因变量:选入冠心病[Y]

    协变量:选入自变量[X2]、[X4]、[X6]、[X7]

    筛选变量方法(Method):Forward:LR

    分类变量(Categorial…):可将多分类自变量设置为哑变量,将“体重指数(BMI)[X7]”选入分类协变量(Categorial Covariats)框中,低BMI水平(BMI<24)设为参照水平,将Contrast-Indicator,Reference Category-First,Change,Continue

    大部分结果解读同示例结果,以下仅结合哑变量对应的结果进行解读。

    分类变量的哑变量编码见下表

    拟合纳入方程的变量及其检验情况见下表。最后一步的入选变量作为最终结果,最终筛选出的危险因素有3个,分别是X2、X6、X7。对于X2的解读:不考虑其他因素的影响,有高血压病史的患者发生冠心病的可能是无高血压史患者发生冠心病可能的4.646倍(近似,实际是OR=4.646),X6的解释与此类同,高动物脂肪摄入对低脂肪摄入发生冠心病的优势比是22.042。对哑变量的解释则是与参照水平相比的结果:不考虑其他因素的影响,BMI24-26水平对BMI<24水平的优势比是3.279,BMI>26水平对BMI<24水平的优势比是4.039。

    要特别注意,哑变量需要遵循同进同出的原则,即在一个模型中同一个多分类变量的所有哑变量要么全部纳入模型,要么全部不纳入模型。目前在各很多统计论坛上,普遍认为结果的第一行是该自变量的总体检验,总体检验有统计学意义,所有哑变量都应保留,本例X7总P值=0.04<0.05,X7(1):P=0.04<0.05,X7(2):P=0.53>0.05。

    一般来说第一行的总体检验有统计学意义,其后的哑变量至少有一个是有统计学意义的,有时可能出现后面的哑变量都没有统计学意义的情况,因为哑变量选取不同的参照水平,其他哑变量与之相比的P值会不同,出现这种情况可能是其他哑变量与选取的参照水平相比刚好没有统计学意义。

    还有一种情况是此表哑变量总检验P>0.05,结果仍保留在方程中,原因可能是不同的检验方法造成的,跟正文结果(9)后面的解释一样,纳入标准、剔除标准以及方程中变量的检验方法是不一样的,以本例为例,纳入变量方法是比分检验(默认纳入标准P=0.05),剔除标准是最大似然比检验(默认标准P=0.10),而本表方程中变量的检验采用的是Wald卡方检验。Wald与似然比检验出现矛盾时以似然比检验为准。

    实际上,自变量设为哑变量后,Variables in the Equations表中直接显示的都是最终入选的变量,具体的纳入和剔除检验则需要从Variables not in the Equation和Model if Term Removed表中查看。如本例,结合上表X7在step3时被纳入,从模型系数的综合检验表格(Omnibus Tests of Model Coefficient)中可以看出,Step3与上一步的似然比检验有统计学意义,纳入该变量时模型的改变有统计学意义(Variables not in the Equation表中step2比分检验结果:P=0.033<0.05),剔除该变量时模型的改变也有统计学意义(Model if Term Removed表中step3的似然比检验结果:P=0.034<0.05)。

    (3)模型效果检验

    模型拟合效果可以通过对似然比值的变化和广义决定系数(Model Summary)、预测分类表(Classification Table),解读如正文。另外对模型效果的检验还有ROC曲线。

    制作ROC曲线步骤如下:

    分析>>回归>>二分类logistic…因变量:选入冠心病[Y]

    协变量:选入自变量[X2]、[X4]、[X6]、[X7]

    筛选变量方法(Method):Forward:LR

    保存(Save…):选中预测值中的概率(Probabilities)

    Continue

    OK

    分析>>ROC曲线(ROC Curve…)检验变量(Test Variable):选入新生产的预测概率(Predicted probability[PRE_1])

    状态变量(State Variable):选入冠心病[Y],将Y=1的研究对象指定为病人(状态变量值(Value of State Variable):1)。

    显示(Dispaly)选中所有复选框:ROC曲线、带对焦参考线、标准误和置信区间、ROC曲线的坐标点

    OK

    结果显示曲线下面积为0.883,P<0.001。P值的H0假设是曲线下面积为0.5。

    ROC曲线下面积取值范围0.5-1,0.5-0.7表示诊断价值较低,0.7-0.9表示诊断价值中等,0.9以上表示诊断价值较高。如果ROC曲线沿着对角线方向分布. 表示分类是机遇造成的,正确和错误的概率各位50%,此时该诊断方法无效,较好的诊断方法的ROC曲线应该是从左下角垂直上升至顶线.然后水平向右至右上角,更外面离对角线更远的曲线其灵敏度和特异度均高于里面的离对角线更近的曲线。

    (4)模型的拟合优度的检验

    可采用Pearson拟合优度检验和Deviance拟合优度检验,此两法在SPSS的二分类的logistic回归没有输出

    似然比检验是 计算经筛选出的变量的饱和模型的-2logLR值和只引入筛选出的变量的主效应模型(简单模型)的-2logLR值,两者之差服从卡方分布,自由度为两者参数个数之差,若P>0.05则说明拟合筛选的自变量主效应的logistic回归模型已经足够。注:饱和模型可以理解为纳入各自变量主效应及其交互项的模型,简约模型为非饱和模型,比如缺少交互项。

    除了似然比检验外,SPSS中还有Hosmer-lemeshow检验,可在选项(Options…)中选入Hosmer-lemeshow goodness-of-fit,结果出现在“模型概况(Model Summary)”表格之后,输出“Hosmer和Lemeshow检验”以及“Hosmer和Lemeshow检验列联表”。其中Hosmer和Lemeshow检验列联表是十分位组的观测值和期望值,按模型求得某个体的得病概率,概率递增排序后分为10等份,据此期望值与相应的观测值求得Pearson卡方(自由度=组数-2=8,但有时自变量组合和样本量的原因组数可能少于10)。

    本例最终结果χ2=8.727,P=0.273>0.05,表明简约模型与饱和模型间无差异(H0假设是简约模型与饱和模型无差异。如果结果显著则说明现有简约模型仍然需要加入新的变量以提升模型的解释力度;相反若结果不显著说明简约模型中包括的自变量已足够,即解释力度已与饱和模型无差异)。

    (5)模型诊断

    可采用残差分析、迭代记录、分类图等。通过残差分析可以查找异常值,可通过保存(Save…)中的残差( Residuals)部分来进行,一般来说残差绝对值大于2,该条记录可能是异常点。残差图可参见

    代记录在选项(Option…)中选中Iteration history来获得,健康迭代过程的迭代记录似然值和自变量系数从迭代开始就向着一个方向发展,如中间出现波折,尤其是当引入新变量后变化方向改变了,则提示要好好进一步分析。分类图可以直观的观测模型的预测状况,可在选项(Option…)中选中Classification plots来获得

    (6)多重共线的检验

    运用相同的因变量和自变量拟合线性回归模型进行共线性诊断

    分析>>回归>>线性(Linear…)

    选入相应的因变量和自变量

    统计(Statistics…):选中Collinearity diagnostics,Continue,OK

    查看结果中的回归系数表(Coefficients),如容忍度(Tolerance)小于0.1,方差膨胀因子(VIF)大于10,则提示共线性的存在。存在共线性最简单的处理方法就是剔除引起共线性的因素。

    END

    转自个人微信公众号【Memo_Cleon】的统计学习笔记

    展开全文
  • 两个变量变量相关性分析提问:用SPSS一个分析,有一个变量和N个自变量,先做相关性发现有很多自变量与变量有关,相关性也比较高.继续说,但是再做多重回归方程的时候只有3个变量入选,其他都被排除了,那在写...

    两个变量与因变量相关性分析

    提问:用SPSS一个分析,有一个因变量和N个自变量,先做相关性发现有很多自变量与因变量有关,相关性也比较高.

    继续说,但是再做多重回归方程的时候只有3个因变量入选,其他都被排除了,那在写文章的时候那些被排除了的有相关性的因变量该怎么处理呢?

    这说明这些变量之间存在自相关,模型选择的是代表程度更高且自变量相互之间相关性低的自变量来,以保证自变量变化时,只影响因变量,而不影响其它模型中的自变量.

    建议你对这些自变量做两两之间的相关性检验,以说明他们不适合同时存在于模型中.

    追问:这个是所谓的共线性的问题么?那我做自变量两两之间的相关性检验,什么样的结果才能显示他们不适合同时出现在模型中呢?

    追答:你进行自变量之间的相关性检验,结果就会出来他们之间的相关性很高。 至于具体到模型中,得看具体的情况了,我也没有经验值。但是建模的时候一定要选择合适的变量进入方式。

    最佳答案:

    1.多重共线性的概念:

    所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。

    完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。

    2.多重共线性产生的原因   主要有3各方面:   (1)经济变量相关的共同趋势   (2)滞后变量的引入   (3)样本资料的限制 3多重共线性的解决方法

    多重共线性的处理方法一般有如下的几种

    1 增加样本容量,当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的

    2剔除一些不重要的解释变量,主要有向前法和后退法,逐步回归法.

    前进法的主要思想是变量由少到多的,每次增加一个,直至没有可引入的变量为止.具体做法是首先对一个因变量y和m个自变量分别建立回归方程,并分别计算这m个回归方程的F值,选其最大者,记为Fj,,给定显著性水平F,如果Fj>F,则变量引入该方程,再分别对(Xj,X1),(Xj,X2)…(Xj,Xm)做回归方程,并对他们进行F检验,选择最大的Fi值,如果Fi.>F,则该变量引入方程,重复上述步骤,直到没有变量引入为止.

    后退法,是先用m个因变量建立回归方程,然后在这m个变量中选择一个最不显著的变量将它从方程中剔除,对m个回归系数进行F检验,记所求得的最小的

    一个记为Fj,给定一个显著性的水平,如果Fj逐步回归法,前进法存在着这样的缺点当一个变量被引入方程时,这个变量就被保留在这个方程中了,当引入的变量导致其不显著时,它也不会被删除掉,后退法同样存在着这样的缺点,当一个变量被剔除时就永远的被排斥在方程以外了,而逐步回归法克除了两者的缺点.逐步回归的思想是有进有出.将变量一个一个的引入,每引入一个变量对后面的变量进行逐个检验,当变量由于后面变量的引入而不变的不显著时将其剔除,进行每一步都要进行显著性的检验,以保证每一个变量都是显著的.

    理论上上面的三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论 的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义.

    3.不相关的系数法.当变量之间存在着多重共线性最直接的表现就是各个解释变量之间的决定系数很大.考虑到两个变量之间的决定系数众所周知, 在多元线性回归模型中, 当各个解释变量( 如Xi 与Xj, i≠j) 之间存在着多重共线性时, 其最直接的表现就是各个解释变量之间的决定系数(ri2,j)很大.ri2,j 很大, 则意味着重要变量Xi( 在本文中, 为研究方便, 我们始终假定Xi 相对于Xj 而言, 是一重要变量, i≠j) 的变化能够说明Xj 的变化.如两者之间的r2,j=90%, 则我们以说, Xi 的变化说明了Xj 变化的90%,而剩余的( 1- ri2,j) 部分,则是由Xj 自身的变化说明的.由此决定, 在反映被解释变量(Y)与解释变量Xi,Xj 之间的关系时, 对于解释变量Xj 来说, 并不需要用全部的信息来解释被解释变量的问题, 而只需要用剩余的( 1- ri2,j) 部分的信息来解释就足够了,因为有ri2,j 部分的信息是与Xi 相重复的, 已由Xi 解释了.由此出发, 如果我们能够在保留重要变量(Xi) 全部信息的同时, 以重要变量(Xi) 为基础, 对其他的解释变量进行一定的线形变换, 使之转换为一个新变量, 如将Xj 转换为Xjj , 并且使得Xi 与新变量Xjj 之间的决定系数( ri2,jj) 降低到最小程度———如( 1- ri2,j) , 则就可以消除多重共线性.

    喜欢 (5)or分享 (0)

    展开全文
  • 协方差分析解决的问题:多个自变量(包括离散变量和连续变量)对一个因变量(连续数据)的影响。自变量中的连续变量被作为协变量加以'控制'(控制...分析步骤包括两个部分:第一部分:平行性检验自变量与协变量的交互作...

    协方差分析解决的问题:多个自变量(包括离散变量和连续变量)对一个因变量(连续数据)的影响。自变量中的连续变量被作为协变量加以'控制'(控制变量)。

    协方差分析可以在一定程度上排除非处理因素的影响,从而准确的获得处理因素的影响。

    协方差分析的条件:除了满足一般的方差分析条件外,还需要满足'平行性检验'。

    协方差分析是回归分析和方差分析的结合。

    分析步骤包括两个部分:

    第一部分:平行性检验

    自变量与协变量的交互作用:P>0.05,满足平行性检验,满足协方差分析的条件;P≤0.05,不满足平行性检验,不满足协方差分析的条件。

    第二部分:协方差分析

    案例:

    运动干预对高血压人群的治疗效果研究

    实验设计(简化版):选取54名高血压人群,随机分为3组,分别采用健身走、广场舞、太极拳运动干预。干预时间为6个月。实验前、实验后测试安静收缩压,差值形成变量'血压下降'。已经统计检验过,实验前三组的收缩压基础值差异没有统计学意义。

    统计分析思路说明:考虑到年龄可能对血压下降程度有较大影响,而年龄又是连续变量,因此把'年龄'作为'协变量'。在研究运动干预对血压影响的同时,排除协变量'年龄'的影响,使结果更加准确。协方差分析就是用于解决类似问题的。

    自变量:锻炼项目

    协变量:年龄

    因变量:血压下降。

    1 部分数据

    图1

    2 平行性检验

    这是协方差分析的一个重要条件。意思是:各组的协变量与因变量存在线性回归关系且斜率基本相同。也就是回归直线近似平行。

    可以先做一个散点图,初步探索平行性。

    图2 散点图

    根据图2,三条回归直线近似平行,可以尝试采用协方差分析。

    SPSS步骤:

    1)分析-一般线性模型-单变量

    图3

    2)'血压下降'为'因变量';'组别'为'固定因子';'年龄'为'协变量'。

    图4

    3)点击'模型'。

    图5

    4)点击'定制',然后把因子与协变量的主效应和交互作用都选到'模型'列表(默认是没有交互作用的)。点击'继续'。

    5)返回'图4'后,点'确定'。下面是结果。

    图6

    组别与年龄的交互作用,P=0.770>0.05,说明交互作用不显著。也就是满足平行性检验。

    因为交互作用不显著,可以精简模型。把交互作用剔除,再做协方差分析。

    3 协方差分析

    1)图4状态点击'模型',把'组别'和'年龄'的交互作用取消。点击'继续'。

    图7

    2)回到图4后,点击'选项',如下图勾选。点击'继续',返回后,点击'确定'查看结果。

    图8

    4 SPSS结果

    1)方差齐性检验结果

    图 9

    P=0.462>0.05,方差齐性。满足了协方差分析的另一个条件。

    2)方差分析表

    图10

    组别P=0.019<0.05,说明三种运动干预方式对血压下降的效果不同。

    年龄P=0.000<0.05,说明年龄的确对血压下降程度产生了影响。排除这部分影响后,使运动干预对血压的影响结果更加准确。

    图11

    结合图11均值可知。结果:降压效果由高到低依次为HIIT、持续有氧、核心训练。(当然,如果结合后面的成对比较统计结果进一步做出判断会更加合适,篇幅原因,不再展开。)

    5 请一定要往下看

    如果不考虑'年龄'这个协变量对因变量(血压下降)的影响,结果会怎样?

    1)'组别'为'固定因子';'血压下降'为'因变量'。其他全默认。直接点击'确定'。

    图12

    2)方差分析表

    图13

    组别P=0.133>0.05,说明三种运动干预方式对血压下降的效果相同。

    由此可见,不考虑协变量'年龄'时得出了与前面完全相反的结果。

    这提示我们:科学研究中选择准确统计方法的重要性,方法一旦选错,我们将无法追求科学真理。

    展开全文
  • 协方差分析解决的问题:多个自变量(包括离散变量和连续变量)对一个因变量(连续数据)的影响。自变量中的连续变量被作为协变量加以“控制”(控制...分析步骤包括两个部分:第一部分:平行性检验自变量与协变量的交互作...
  • 目录:前言偏相关或复相关意义与用途分析方法:1、 样本相关系数矩阵、相关系数检验2、 复相关分析3、 决定系数 (RMSE的介绍)小结一、前言:继上一篇文章,继续探讨相关性分析,这次不再是两个变量,而是3个或者...
  • 虚拟变量回归模型-案例数据-EVIEWS 这是非常好的案例,十分值得学习
  • 原文链接:http://tecdat.cn/?p=18169 比如说分类变量为是否幸存、是因变量,连续变量为年龄、是自变量,这两者可以做相关分析吗?两者又是否可以做回归分析? 我们考虑泰坦尼克号数据集,
  • 下面就和大家分享一下如何使用SPSS对有序变量进行回归分析。 一、概述 1.有序变量 图1:数据样本 有序变量是一类特殊的变量,这类变量中一般都有等级划分,但划分的依据并不明确。 比如上图所示样本中,治疗...
  • SPSS-两变量相关性分析

    千次阅读 2020-12-28 21:14:06
    两个变量之间存在确定性:关系和不确定关系(会存在一定的波动范围),就好比你的亲生母亲绝对只有一个,而你的亲叔叔可能有好几个(可以在1叔—4叔之间波动)相关性一般分为 1:强正相关关系 (一个值会随着另一个值的...
  • 在前面只探讨了单变量/特征的回归模型,然而,在实际生活中,多重因素构成一个含有多个变量的模型,模型中的特征为(????1, ????1, . . . , ????????) eg: 在实际生活中,有卧室的数量,楼层的数量…都会影响房价的 ...
  • 什么是工具变量,以及什么是孟德尔随机化,以及孟德尔随机化怎么实现都给大家写了(大家去翻翻之前的文章呀),因为孟德尔随机化的工具...以下一步步给大家捋捋哈,假设我现在对学历和收入这两个变量有兴趣,我想知道.
  • 分析里找到,General linear model,然后选择Univariate, 分别把两个变量TIssue and Speed 输入到Fixed Factor,然后设置Option里的描述,如果需要其他的设置可以自己添加 2.选择OK 标黄的这几个是比较常用...
  • 1.多元线性回归SPSS分析 四步搞定SPSS多元线性回归视频教程(含详细操作及结果解读)_哔哩哔哩_bilibili订阅陈老师B站送福利!订阅后加陈老师QQ1622275006送数据分析教程及软件福利哟~关注微信公众号:杏花开医学...
  • 分析方法:Bootstrap抽样,秩和检验,秩变换方法,cox回归 字段包括:性别,年龄,萎缩程度,胃粘膜细胞肠化生程度 基本思路:控制变量法,首先排除性别,年龄,萎缩程度,胃粘膜细胞肠化生程度的影响; 探索性...
  • 两个水平 ...对于只有两个水平的分类变量很好理解,那么“在多元回归分析中,如果一个分类变量有k个水平,那么需要在多元回归分析中定义k-1个虚拟变量”该怎么解释呢? 对于我们一开始很容易想到的问题,为
  • 根据以上五假设,我们可以看到,唯一一因变量有关的假设是假设1:y与x呈线性关系,但有了后面几对误差项μ的假设以后,假设1也不重要了,因为如果y与x不呈线性关系,那么我们使用线性回归模型时μ自然也会...
  • 在研究一个因变量的时候,解释变量中除了定量变量,有时候会有一些定型变量,比如性别、年龄、宗教、民族、婚姻状况、教育程度等。这些定性变量也可以成为指标变量、二元变量或分类变量。此时需要使用虚拟变量。模型...
  • SPSS的双变量相关分析

    千次阅读 2021-12-22 11:50:56
    相关性分析主要是测量两个变量之间关系的密切程度 两个参数分别为:有详细的计划对游戏控制的时间程度和上网时间的有效控制程度,采用双变量相关分析方法 这里是使用整个调查问卷的数据进行测量 SPSS:单击...
  • 生存分析之R包survival的单变量和多变量Cox回归续前文生存分析(Survival Analysis)。在前文初步简介了生存分析的概念,以及展示了一种生存分析模型Kaplan-Meier的使用。Kaplan-Meier是一种非参数的单变量分析方法,...
  • 回归分析——简单线性回归实例讲解(SPSS)

    万次阅读 多人点赞 2020-09-06 22:07:58
    回归分析是研究自变量因变量之间数量变化关系的一种分析方法,它主要是通过因变量Y与影响它的自变量Xi(i1,2,3…)之间的回归模型,衡量自变量Xi对因变量Y的影响能力的,进而可以用来预测因变量Y的发展趋势。...
  • 多元相关分析与回归分析(转)

    千次阅读 2018-11-29 09:44:14
    什么是回归分析 分析步骤 回归分析与相关分析的主要区别 一元线性相关分析 一元线性回归分析 建模 方差分析检验 t检验 多元回归分析模型建立 线性回归模型基本假设 多元回归分析用途 多元线性相关分析...
  • 本篇描述分类变量如何进行回归(翻译自...例如,性别作为一个分类变量,它有两个水平:男性或女性。 回归分析需要数值变量。因此,当研究者希望在回归模型中包含一
  • 原标题:SPSS分析技术:回归模型的自变量筛选方法;欢迎关注天善智能微信公众号,我们是专注于商业智能BI,...基础回顾上篇文章,我们以两个变量分析案例为例,介绍了如果使用SPSS进行多重线性分析,如果是新...
  • 多元线性回归分析

    千次阅读 2021-10-21 09:24:41
    回归分析中,如果有两个两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。...
  • 相关分析和回归分析

    千次阅读 2020-01-29 16:23:09
    若研究的是两个变量之前的关系,则称为简单相关与简单回归分析; 若研究的是两个以上变量之间的关系,则称为多元相关与多元回归; (2)从变量之间的关系形态来看,有 线性相关与线性回归分析; 非线性相关与非...
  • 在一些回归模型中,我们常看到回归方程中有两个变量以相乘的形式出现,如: yprice=β0+β1producttype+β2productbrand+β3producttype∗productbrand+μ(1)y_{price}=\beta_0+\beta_1producttype+\beta_2...
  • 变量分析、组合变量分析

    千次阅读 2020-04-20 21:23:16
    会使数据分布在四个象限 当s_xy为正时,表示变量x、y是正的线性关系,即x增加,y增加 当s_xy为负时,表示变量x、y为负的线性关系,即x增加,y减小 当s_xy=0时,表示数据均匀的分布在四个象限中,两个变量基本没有...
  • 回归分析课后题答案

    千次阅读 2022-01-14 19:47:00
    函数关系:两个变量间完全表现为一种确定性关系。即一个变量的变化能完全决定另一个变量的变化。 1.2 回归分析与相关分析的区别与联系是什么? 在回归分析中,变量y称为变量,处在被解释的特殊地位。 在
  • 相关分析就是对两个变量之间线性关系的描述与度量,要解决的问题如下: 变量之间是否存在关系? 如果存在关系,它们之间是什么关系? 变量之间的关系强度如何? 样本反映的变量之间的关系能否代表总体变量之间的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 115,425
精华内容 46,170
关键字:

两个因变量的回归分析

友情链接: 9 静态路由实验.zip