精华内容
下载资源
问答
  • 多元相关性分析_数据分析的方法(三)
    千次阅读
    2020-11-20 18:42:04

      今天把剩下的几种数据分析的常见方法给大家介绍一下。

    十、主成分分析

      主成分分析在数据分析中应用的不是很多,它是多元统计分析中用来分析数据的一种方法,是通过矩阵变换用一组数量更少的特征来对样本进行描述,从而可以降低数据的维度。主成分分析在数据分析中的应用主要目的是减少决策变量的数量来达到降维的效果,另外一个就是防范多重共线性。

      主要流程为:

      1、数据预处理。

      2、主成分计算。

      3、判断要选择的主成分数目

      4、选择并解释主成分

      5、计算主成分得分

      6、结果可视化

    十一、因子分析

      因子分析在数据分析中主要是把多个实测变量转换为少数几个综合指标,也叫作潜变量,主要用于寻找数据的内在逻辑和降维。因子分析通过研究个变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来把它基本的数据结构表现出来,这几个假想变量能够把原来的多变量的主要信息也直观的反映出来。

      例如,在某个企业的形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系来评价百货商场的24个方面的优劣。那消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。那么数据分析中的因子分析法可以通过以上的24个变量,找过反映商店环境、商店服务水平和商品价格的三个潜在的因子,从而对商店进行综合性的评价。

    十二、时间序列分析

      时间序列除了运用在数据分析领域之外也广泛应用于统计、信号处理、模式识别、通信工程、控制工程、数学金融、天气预报等等,以及主要涉及时间测量的的任何应用科学和工程领域。

      数据分析中的时间序列分析包括用于分析时间序列数据的方法,以便提取有意义的统计数据和数据的其他特征。他具有自然的时间顺序,比如说,可以通过参考其各自的教育水平来分析人们的工资,这其中个体的数据是可以以任何顺序输入其中的。

    十三、生存分析

      数据分析中的生存分析主要指的是对生存资料的分析。那生存资料指的是什么呢?所谓的生存资料是指描述寿命或者一个发生时间的数据,一个人的生存时间的长短和其他许多因素相关,那么研究每个因素之间和生存时间有没有直接或见解的关系以及关联程度的大小,这也是生存分析的其中一种应用。

    39c2ed78a68a9cfe798b4f9eb8a79272.png

    十四、典型相关分析

      在数据分析里面,典型相关分析是对互协方差矩阵的一种理解,是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。典型现骨干分析的基本原理是为了从总体上出发,把握好两组指标之间的关系,这个关系一般指的是相关关系,随后分别在两组变量中提取有代表性的两个综合变量U1和V1,利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

    十五、ROC分析

      ROC曲线指受试者工作特征曲线,在数据分析中主要用来反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,他通过将连续变量设定出多个不同的临界值,从而把一系列的敏感性和特异性计算出来。

    10b9b7d3112d885f550106ea3c81f87e.png

      主要用途是一种是最佳的诊断界限值,可以查出任意界限值对疾病的识别能力。另外一种就是在数据分析中用来比较两种以上不同诊断试验对于疾病的识别诊断能力。

    十六、其他分析方法

      多重响应分析、举例分析、项目分析、对应分析、决策树分析、顺境网络、系统方程、蒙特卡洛模拟等。

      以上的十六种方法都是在数据分析中比较常见的,也是用的比较多的,在遇到不同的企业项目和行业数据的时候,需要正确选择的方法去进行数据分析。

    更多相关内容
  • 一、相关分析和回归分析变量间不存在完全的确定性,不能用精确的数学公式来表示——相关关系相关变量间的关系——平行关系和依存关系相关分析——研究平行关系,不区分自变量和因变量回归分析——研究依存关系,区分...

    侵权声明:

    本篇文章是查阅各种网络技术博客撰写的,仅供学习使用,如有侵权立即删除。

    下载使用数据,在公众号回复data。

    一、相关分析和回归分析

    变量间不存在完全的确定性,不能用精确的数学公式来表示——相关关系

    相关变量间的关系——平行关系和依存关系

    相关分析——研究平行关系,不区分自变量和因变量

    回归分析——研究依存关系,区分自变量和因变量

    二、简单线性相关系数

    1 公式

    总体:

    27581a46ea66e3a5081b1708bcbd01ef.png

    样本:

    aec3a2f17870759a176ca61f71bacd7c.png

    在R中计算简单线性相关系数会用到cor()

    它的标准格式:

    ea1d8eb10b6aa263a0f25c41131bcb75.png

    代码:

    setwd('F:/R project/multi_analysis') data1 x1 x2 cor(x1,x2)

    结果:

    [1] 0.9593031

    2 检验

    先说相关系数假设检验的理论知识:

    H0:ρ=0

    H1:ρ≠0

    检验统计量为:

    aef1f8a265f3276b46cae25113c7393b.png

    检验准则:

    P值 < α,拒绝原假设,可认为两个变量之间是显著相关的。

    在R中用到cor.test()进行检验,它的标准格式:

    8fadea381aff8f2a2b75c02f99c195fb.png

    代码:

    cor.test(x1,x2)

    结果:

    Pearson's product-moment correlation data:  x1 and x2 t = 10.743, df = 10, p-value = 8.21e-07 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval:  0.8574875 0.9888163 sample estimates:       cor  0.9593031 

    结果中“p-value = 8.21e-07”,当α取0.05时,可以拒绝原假设了,因此可以认为x1和x2之间显著相关。而且r = 0.9593031 ,说明x1和x2之间相关性还挺强的。

    以上是两个变量之间的线性相关性,而在多元中,我们常常用协方差矩阵或者相关矩阵

    来表示多个变量之间的相关性,用到的函数依旧是cov()和cor(),其实在这两个函数的标准格式

    里就表明了这一点。

    代码:

    data1 cor(data1[,-1]) pairs(data1[,-1],col = 'red')

    结果:

               y        x1        x2        x3        x4

    y  1.0000000 0.9871498 0.9994718 0.9912053 0.6956619

    x1 0.9871498 1.0000000 0.9907018 0.9867664 0.7818066

    x2 0.9994718 0.9907018 1.0000000 0.9917094 0.7154297

    x3 0.9912053 0.9867664 0.9917094 1.0000000 0.7073820

    x4 0.6956619 0.7818066 0.7154297 0.7073820 1.0000000

    9a6d5c9ad4ca4c69581c4b9e3dfaad56.png

    这个图是散点图矩阵,可以直观地查看变量间的关系。

    三、一般线性模型——lm()和nls()

    1 一元线性回归

    这个系列主要针对R语言的实际操作,原理部分可以参见统计学相关教材。

    代码:

    data1 attach(data1) fm #查看结果 fm

    结果:

    Call: lm(formula = y ~ x) Coefficients: (Intercept)            x        -1.197        1.116  

    这个拟合的模型为:y = -1.197+1.116x

    代码:

    #绘图 plot(x,y) lines(x,fitted(fm),col = 'red')

    结果:

    07a771e0427061345f4bdb5d4d6db0c0.png

    代码:

    #假设检验 #模型的检验 anova(fm)

    结果:

    Analysis of Variance Table Response: y           Df Sum Sq Mean Sq F value x          1 712077  712077   27427 Residuals 29    753      26                      Pr(>F)     x         < 2.2e-16 *** Residuals               --- Signif. codes:     0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05   ‘.’ 0.1 ‘ ’ 1

    可以看出,整个模型是显著的。

    代码:

    #回归系数的检验 summary(fm) detach(data1)

    结果:

    Call: lm(formula = y ~ x) Residuals:    Min     1Q Median     3Q    Max  -6.631 -3.692 -1.535  5.338 11.432  Coefficients:             Estimate Std. Error (Intercept) -1.19660    1.16126 x            1.11623    0.00674             t value Pr(>|t|)     (Intercept)   -1.03    0.311     x            165.61   <2e-16 *** --- Signif. codes:     0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05   ‘.’ 0.1 ‘ ’ 1 Residual standard error: 5.095 on 29 degrees of freedom Multiple R-squared:  0.9989,Adjusted R-squared:  0.9989  F-statistic: 2.743e+04 on 1 and 29 DF,  p-value: < 2.2e-16

    可以看出,回归系数是显著的。在一元回归模型中,F检验和 t检验的结果是一致等价的。

    2 多元线性回归

    和一元线性回归差不多,同样,理论部分请参见统计专业教材。

    代码:

    data1 attach(data1) fm fm

    结果:

    Call: lm(formula = y ~ x1 + x2 + x3 + x4) Coefficients: (Intercept)           x1           x2           x3    23.5321088   -0.0033866    1.1641150    0.0002919            x4    -0.0437416  

    拟合的模型为:

    y = 23.5321088-0.0033866 x1+1.1641150x2 +0.0002919x3

    -0.0437416x4

    代码:

    #检验 summary(fm) detach(data1)

    结果:

    Call: lm(formula = y ~ x1 + x2 + x3 + x4) Residuals:     Min      1Q  Median      3Q     Max  -5.0229 -2.1354  0.3297  1.2639  6.9690  Coefficients:               Estimate Std. Error t value Pr(>|t|)     (Intercept) 23.5321088  4.5990714   5.117 2.47e-05 *** x1          -0.0033866  0.0080749  -0.419    0.678     x2           1.1641150  0.0404889  28.751  < 2e-16 *** x3           0.0002919  0.0085527   0.034    0.973     x4          -0.0437416  0.0092638  -4.722 7.00e-05 *** --- Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.79 on 26 degrees of freedom Multiple R-squared:  0.9997,Adjusted R-squared:  0.9997  F-statistic: 2.289e+04 on 4 and 26 DF,  p-value: < 2.2e-16

    F检验的p-value: < 2.2e-16,说明模型是显著的。另外回归系数的检验中,x2和x4是显著的。

    3 非线性回归

    做非线性回归需要提前知道拟合模型的形式,并且要给定各个参数的初始值。

    代码:

    data1 plot(data1$x,data1$y)

    结果:

    8d670afb4d509a26c0d53ee9781d90ea.png

    观察散点图,发现和 y = a*x^2+b*x+c类似,于是用这个模型拟合非线性模型。

    代码:

    attach(data1) fit fit data1$fit library(ggplot2) ggplot(data1)+   geom_point(aes(x,y))+   geom_line(aes(x,fit),color = 'red')+   theme_classic()

    结果:

    ada28896dae6851bc5839cca4ad29b88.png

    拟合的图形是用ggplot2绘制的,这个在R数据科学之ggplot2入门中已经介绍过了。

    四、广义线性模型

    第三部分介绍的一般线性模型解决的是因变量y是连续型变量的情况,那如果y是其他类型的变量呢?

    (1)0-1变量——Logistic回归模型

    (2)有序变量——累计比数模型和对数线性模型

    (3)多分类变量——对数线性模型和多分类Logistic回归模型

    (4)连续伴有删失——Cox比例风险模型

    标准格式:

    33225df17ce77060a4d3e7e5f56d440a.png

    这里主要介绍Logistic模型,它用到Logit变换。

    e22819a91a051615a21c5d50b6e9bfd8.png

    因为这里的y只能取0-1,不太符合我们的研究思路,所以通常将问题转化为:分析y = 1的概率和解释变量之间的关系。即为:

    64062f656171e01721c36bff1aa6314c.png

    可是这样还是很麻烦,我们将其进行变换,就有了Logistic回归模型。

    ee34338c9e2c3e5009b23baa7b66364a.png

    这个模型确定之后,也能确定P与解释变量X的关系。我们以一个具体的例子进行分析。这个案例是在研究视力(x1)、年龄(x2)和驾车教育(x3)对是否出现事故(y)的影响。

    代码:

    data1 fit fit

    结果:

    Call:  glm(formula = y ~ x1 + x2 + x3, family = "binomial", data = data1) Coefficients: (Intercept)           x1           x2           x3      0.597610    -1.496084    -0.001595     0.315865   Degrees of Freedom: 44 Total (i.e. Null);  41 Residual Null Deviance:    62.18  Residual Deviance: 57.03 AIC: 65.03

    所以得到:

    4ee16d3c58451d3f705216dab8bb9d18.png

    我们可以进行简单的预测,视力正常、年龄在17岁、受过驾车教育的情况下,出现事故的概率怎么样?

    代码:

    temp p p

    结果:

            1 

    0.3521214 

    那么今天就说到这儿,这个系列下一篇更新主成分分析和因子分析方法~

    展开全文
  • 毕业大半年了,现在还清晰的记得当时毕业论文不会用SPSS的痛苦,每天挣扎把度娘、知乎、知网、优酷、某宝等各大网站都逛了个遍,依然没有找到用SPSS完整的分析一份问卷的流程,几乎都是零零散散的一些知识,又或是几...

    毕业大半年了,现在还清晰的记得当时毕业论文不会用SPSS的痛苦,每天挣扎把度娘、知乎、知网、优酷、某宝等各大网站都逛了个遍,依然没有找到用SPSS完整的分析一份问卷的流程,几乎都是零零散散的一些知识,又或是几十个视频的解说却总是听不到自己想听的部分,眼看论文上交时间到却毫无头绪的紧张感使自己完全静不下心从头学到尾。从一个完全是SPSS小白到基本能完整分析一份问卷数据(当然也仅仅是单因素的分析,多元分析并未接触,这篇文章主要希望能帮助之前从未接触过SPSS却因论文不得不用的小伙伴)。

    实证分析主要包括描述性分析、信度效度分析、相关分析、假设检验(回归分析)。在分析之前我们首先要懂得SPSS的分析原理。学过高数的基本都知道假设检验的原理,SPSS软件的基本原理就是假设检验,即先假设H0:A对B没有影响条件成立,分析得出的结果P(sig.)<0.001/0.01/0.05,则假设不成立,即A对B具有显著性影响。

    用SPSS分析的问卷必须是李克特五级量表或七级量表,生手建议设计五级单因素的量表。问卷数据收集完成后,首先要剔除无效问卷(所有问题答案全选一种选项的或存在矛盾的答案等问卷),保证数据的准确性。分析步骤如下:

    1. 录入问题及数据

    打开SPSS软件,在变量视图界面内输入问题及设置值,一般设置值为1非常不同意,2不同意,3不一定,4同意,5非常同意。同理输完一篇问卷即可。如下图:

    a149a62e-0e12-eb11-8da9-e4434bdf6706.png

    二、描述性分析

    描述性分析主要是对被调查者的基本信息进行描述,如性别、学历、年龄、工作年限、居住地等等,这类问题一般放置在一份问卷的开头(也有放置在结尾,个人设计问卷时比较喜欢放置于开头)。描述性分析主要对问卷的均值、标准差进行分析,均值相同时,比较标准差,标准差越小,表示越稳定。

    步骤如下图:1、点击分析-----描述统计----描述----选择变量----点击选项----选择你需要描述的项(平均值、方差…..)。

    2、分析----描述统计----频率---选择项,则可以得出频率频数。

    a449a62e-0e12-eb11-8da9-e4434bdf6706.png

    最后将自己需要的数据进行汇总了列成表格或图表(饼图/柱形图等)的表示,图表的项有频数、频率、均值、标准值等,并辅以文字说明,使结果一目了然。(注:以下图表及数据仅作为案例解释说明,数据不具有准确性和真实性)

    aa49a62e-0e12-eb11-8da9-e4434bdf6706.png

    二、信度分析

    信度分析主要是通过SPSS分析验证设计的问卷是否可靠,问卷题目之间是否具有良好的相关性进行分析,被调查者的答案是否存在矛盾,是否可靠等等。

    问卷分析的步骤如下:点击分析----标度----可靠性分析-----选择项----确定即可

    ae49a62e-0e12-eb11-8da9-e4434bdf6706.png

    得出的结果如下:

    b049a62e-0e12-eb11-8da9-e4434bdf6706.png

    b149a62e-0e12-eb11-8da9-e4434bdf6706.png

    结果分析:一般来说,问卷是否可靠主要看Alpha(a系数),a<0.7则表示设计的问卷信度不可靠,0.7<a<0.8则说明问卷具有一定的可靠性,0.8<a<0.9则说明问卷信度很好。上面的项数则是选择分析的问卷题目的数目。

    在进行下面分析时先说一下问卷的设计。实证分析的论文中比较简单的模型大概可能是:研究对象的影响因素(自变量)会影响研究对象的效果(因变量),A H B ; 即论文假设H为自变量A对因变量B会产生一定的影响。一般可以找出四五个影响因素设计为自变量,每一个影响因素可以设计3—7个问题进行调查。所以在进行可靠性分析的时候可以对每一个影响因素(自变量)的题目数(项数)分析一次,看是否每一个自变量的设计的问题都具有较好的信度。(若某一因素项数信度不够好,首先可以通过调整题目中的表达措词、修改或增加关键词来提高信度,若某道题目修改调整后信度仍然过低则可以删除这一道题目达到提高整篇文章的信度)。

    三、效度分析和因子分析

    通俗来说,效度分析是检验问卷题目与研究目的是否相一致,即不能研究顾客对某产品的满意度,问卷设计的问题则是调查某产品的市场覆盖率。一般分为内容效度和结构效度,内容效度是指题项与所测变量的适合性和逻辑相符性(我们在设计问卷时一般都要参考或引用前人的问卷,因此内容效度不存在问题,当然如果设计的一份全新的问卷则需要重点分析内容效度)。结构效度是指题项衡量所测变量的能力,实证分析一般着重分析结构效度,可以通过进行探索性因素分析(Exploratory factor analysis,EFA)检验来证明量表的结构有效性。

    分析步骤如下:分析----降维----因子----将左边所有变量选到右边变量框中----描述---选择初始解和KMO---点击继续-----提取-----在提取里选择主成份和碎石图---继续----旋转----选择最大方差法。如下图:

    b649a62e-0e12-eb11-8da9-e4434bdf6706.png

    b849a62e-0e12-eb11-8da9-e4434bdf6706.png

    bb49a62e-0e12-eb11-8da9-e4434bdf6706.png

    得出结果如下:

    be49a62e-0e12-eb11-8da9-e4434bdf6706.png

    结果分析:效度分析结果主要看KMO值和sig.(显著性),若KMO>0.7,则说明问卷中设计的自变量之间具有一定的联系,问卷是有效的;sig.<0.001说明该问卷符合做因子分析,下一步则可以进行因子分析(EFA)。

    因子分析结果如下(仅抽取部分比较重要的图解释):

    c149a62e-0e12-eb11-8da9-e4434bdf6706.png

    看碎石图的关键就是找拐点,也就是找图中陡坡和缓坡的临界点(特征值明显较大的因子),趋于平缓前的点有几个则说明这份问卷可以分为几个因子(当然还要结合特征值、总方差解释等图考察)。如上图看出从第7个点开始趋于平缓,即前面有6个点属于陡坡上的点,初步可以说明这份问卷设计的因素可以分为6个因子。

    c249a62e-0e12-eb11-8da9-e4434bdf6706.png

    旋转后的成分矩阵的作用是知道那几道题可以归为一个因子,上面截取一部分作为说明(左侧的数字为问卷中的题项,题目内容已删除)。上图可以看到一共6个成分因子,其中问卷题目5、6、7、8、9、10、26可以第一个因子(成分1对下的数字0.769、0.571、0.714…….均大于0.5,即各个测量题项的最大因素负荷均大于0.5,且交叉载荷均小于0.4则可作为一个因子);同理题目27、28则可以作为一个因子,成为4对下的数字为0.797、0.793…….。

    c549a62e-0e12-eb11-8da9-e4434bdf6706.png

    总方差解释图主要看累计百分比的项。如上图6个因子在整份问卷中的总解释能力(累计百分比)达到了72.938%(总解释能力>50%可以说明筛选出来的因子有良好的代表性,当然实际操作中一般>80%的问卷因子解释能力比较好)。所以整份问卷基本可以提取出6个因子作为主要变量,其余的为次要变量。

    通过上面三个图的分析,可以确定这一份问卷一共可以提取出6个因子(6个自变量)。

    五、相关分析

    在进行相关分析前首先要取各个因子的平均值(如上面7道题目作为因子1,因子1的平均值就是取7道题目的维度平均。得出6个因子的维度平均值后进行相关分析。

    步骤如下:分析----相关----双变量-----将左边的变量选到右边-----在皮尔逊和双变量前打勾----确定。如下图

    c749a62e-0e12-eb11-8da9-e4434bdf6706.png

    得出的结果如下:

    c949a62e-0e12-eb11-8da9-e4434bdf6706.png

    上图中,假设前面两个为因子1、因子2(自变量),第三个为因变量。相关性是检验自变量与因变量的关系。可以看出因子1与因变量的相关系数为0.779,且sig.<0.001,说明自变量(因子1)与因变量呈正相关。(相关系数的取值范围介于-1~1之间,绝对值越大,表明变量之间的相关越为紧密)。

    六、回归分析

    回归分析需要看的图有模型摘要图、ANOVA、系数图等等

    步骤如下:分析----回归----线性-----选择自变量和因变量----点击统计----选择德、共线性等(看自己需要知道什么就选什么,不一定要选共线性诊断等)---继续----图----选择XY变量-----继续---保存----继续---确定。如下图:

    cb49a62e-0e12-eb11-8da9-e4434bdf6706.png

    d149a62e-0e12-eb11-8da9-e4434bdf6706.png

    d349a62e-0e12-eb11-8da9-e4434bdf6706.png

    得出结果为:

    d849a62e-0e12-eb11-8da9-e4434bdf6706.png

    模型摘要图主要看R方和德宾值(D-W),调整后的R方为0.684说明自变量对因变量的可解释程度为68.4%(R方代表的是自变量对因变量的解释能力,R方与调整后的R方越接近说明数据越稳定)。D-W值是检验自变量之间是否存在自相关,上图中D-W>2表示问卷中的几个自变量无自相关性,(D-W值的范围记得不是很清楚了,见谅…..)。

    db49a62e-0e12-eb11-8da9-e4434bdf6706.png

    即方差分析表,ANOVA表的一个作用就是验证假设(A对B不产生影响)是否成立,一般只看sig.值即可,上图sig.<0.01,说明拒绝原假设,至少有一个对因变量产生显著性影响。

    下一步看系数表,系数表则说明有几个自变量对因变量产生显著性影响。如下图:

    e349a62e-0e12-eb11-8da9-e4434bdf6706.png

    上图中回归系数b是通过样本及回归模型通过SPSS计算得出的,是反映当自变量x的变动引起因变量y变动的量。主要看显著性,因子1、2、3的sig.<0.05,说明3个因子均对因变量产生显著性影响。

    从上面可以看出,相关性分析是检验自变量与因变量之间是否具有相关性(正向或反向相关),回归分析则说明了自变量对因变量是否具有显著性影响。

    当然上面提到的步骤和图大部分是我感觉论文需要用的,还有很多像散点图等一些小细节很多也没有写,一个是因为篇幅有限,一个也是因为时间也过去大半年了,有很多也记得不是很清楚了,上面写的内容基本是我去年写论文后学到的,很多都是个人的理解,仅供参考。希望大家毕业季顺利!


    ——————————————-—— 更新一下——————————————————

    最近电脑借给别人了,本来想等拿回电脑再跟新一下,想想还是趁着这两天闲一点回答一下各位的问题。

    在写这一篇文章的时候我想我已经说得很清楚了,本人非SPSS专业,大学期间也没有开设过这门课程,仅仅是写论文的时候涉及了单因素分析的一点皮毛,多因素及多元回归分析并未涉及,可以说我会的基本已经在文章中写出来了。我的毕业论文也仅仅是构建简单的模型和简单相关回归分析得出简单的结论。所以说毕业涉及关联分析,卡方检验,中介变量和多元回归分析,数据有问题等比较深入的知识的小伙伴也不要为难我了,不是不想回答,实在是问了我也不懂啊。

    以下整理了一些简单的问题回答一下:

    一、录入问卷数据的具体步骤:

    第一种方法:打开SPSS软件,可以看到SPSS左下角有两个视图界面----数据视图和变量视图,点击变量视图,可以看到“名称、类型、宽度、值”等一些列,在“名称”那一列输入问卷题目,“类型”那一列设置为数值、在“值”的那一列赋值,具体怎么赋值看个人问卷的设计,一般情况下可以设置为1非常不同意,2不同意,3不一定,4同意,5非常同意。(具体能不能反方向设置,我觉得要看分析结果,怎么设置能得出有效的信度效度分析结果数据就怎么来,论文答辩也不可能要你用电脑一步一步来操作,并且像赋值这么简单的问题也不可能会问,只要能把一篇论文从头到尾圆润起来,其他的细节没必要那么较真)。

    第二种方法:现在问卷数据收集一般是在问卷星或其他网站上发布,数据收集完成后可以在问卷星或别的网站上将自己的问卷下载成excel格式的文件,打开SPSS直接导入excel文件(点击文件---打开---数据---选择excel数据类型--导入)。

    二、如何求每个维度的平均?

    在做相关性分析前首先求维度平均,打开Spss,在窗口栏点击“转换--计算变量”,在里面输入每个因子对应的题目和公式就可以得出维度对应的均值平均。如下图:比如说维度1对应的题目有3道题,在目标变量的框中填上维度1,在数字表达式的框中写上公式:=(题目1+题目2+题目3)/3。

    求出各个维度的均值,然后就可以进行相关分析了,直接将均值得分的各个维度选到相关分析的变量框中就可以,接下来的步骤看以上文章。

    三、对自变量进行效度分析,这个时候是不是在抽取里应该选特征值大于4的,然后才能出来4个公因子?

    不是,特征值选大于1就行了。因子分析的目的是降维,筛选出能解释题目数量比较多的因子。这就是说明为什么一个因子维度能对应几道题目。如果一个因子只能解释一题目甚至连1道题目的方差都不能解释,那么这个因子在这份问卷中也没有什么意义了,可以直接忽视。所以说提取特征值大于几和公因子的数量没有很大的关系,一般来说,提取特征值大于1是比较公认的标准。特征值大于1的意思是提取出的因子能解释1道题以上的方差,如果选大于4的话则说明接下来提取出的因子则可以解释4道题以上的方差。

    e749a62e-0e12-eb11-8da9-e4434bdf6706.png

    四、在信度分析时,那个值该怎么写,问卷信度总是0.5多 ,不懂那个值怎么写?

    信度分析主要看Alpha(a系数),a<0.7则表示设计的问卷信度不可靠,0.7<a<0.8则说明问卷具有一定的可靠性,0.8<a<0.9则说明问卷信度很好。0.5小于0.7说明问卷信度不可靠,接下来的分析也用不到了,建议调改问卷或数据。

    五、如果两个变量的sig值为0.531,说明了什么?

    SPSS的原理是假设A对B不产生影响,分析得出的结果P(sig.)<0.001/0.01/0.05,则假设不成立,即A对B具有显著性影响。如果sig.=0.531大于>0.05,说明假设成立,A对B(或B对A)不产生影响,任何一方变动都不会影响另一方。

    六、如果要做多个因素对一个结果的影响程度,应该使用什么分析?

    多个自变量对一个因变量的影响分析,参考我的文章,一般信度效度分析,相关分析,线性回归分析即可。

    七、为什么我的相关性分析出来没有星号?

    有没有星号这个什么原因我也不清楚,你可以看一下你使用的版本,我用SPSS24.,相关分析有星号,回归分析没有星号。星号对数据有什么影响我也不清楚,去年我写论文的时候也没有关注个这个问题。

    八、这些数据得出来了,怎么运用到论文中呢?

    这个问题我真不知道怎么回答......数据得出来了,就说明你的实证分析那一章也写好了。结论建议那一章就可以根据分析结果提出来。前面的绪论、文献综述这些纯理论性的也不用说了,数据分析前模型假设/问卷设计这一章写完了才可以进行实证分析也不用考虑了......

    九、一个维度至少3-7个题目是在哪本书上看?

    没有在哪本书看到的,大概是在知网的期刊和论文上看到的,参考的论文一般也是3到7个问题,维度对应的4、5个问题的居多。

    十、中文版在哪下载:

    去年我是在淘宝花的十几块钱买下载的,现在很多人反映已经安装不了了,大家可以在微信搜索安装包,很多公众号可以免费领取噢

    更新更新更新更新!!!!!!!!

    还是有很多小伙伴问维度平均怎么求,今天特意用SPSS操作了一遍,回答一下之前的问题。

    第一:有人问维度是什么,怎么来的,简单的说,维度就是因子,一个因子就代表一个维度,在做因子分析的时候,我们就能把问卷的所有问题归类,哪几道题归为一个因子,就说明这几道题属于一个维度,一份问卷有几个因子就说明有几个维度。所以维度就是做因子分析得出来的结果。

    第二:维度平均的操作步骤

    上面也多多少少说过怎么算,不过还是有很多小伙伴算不出,今天我就具体说一下。

    1.在SPSS的窗口栏上点击转换----计算变量,如下图:

    ef49a62e-0e12-eb11-8da9-e4434bdf6706.png

    f549a62e-0e12-eb11-8da9-e4434bdf6706.png

    2.在计算变量界面上命名目标变量和输入公式,公式之间点击界面键盘上的数字及符号输入,如下图:

    f949a62e-0e12-eb11-8da9-e4434bdf6706.png

    3.点击确定后SPSS输出界面如下:

    004aa62e-0e12-eb11-8da9-e4434bdf6706.png

    4.返回SPSS数据视图和变量视图在问卷数据旁边会增加一列均值数据,如下图:

    044aa62e-0e12-eb11-8da9-e4434bdf6706.png

    且在计算变量界面下的类型和标签框中也会增加维度平均的标签,如下图:

    0a4aa62e-0e12-eb11-8da9-e4434bdf6706.png

    这样一个维度平均值就算出来了,每个维度平均算出来之后,就可以进行相关分析和回归分析了。

    希望大家都能顺利!

    展开全文
  • 1.尊敬的各位老师,我的问题如下:多元回归分析中相关性分析和回归分析变量的符号不一致。回归分析的结果与论文预期一致,但相关分析结果相反。这样的结果正常吗?这是为什么?相关分析的符号与预期不一致,是不是说...

    1.尊敬的各位老师,我的问题如下:多元回归分析中相关性分析和回归分析变量的符号不一致。回归分析的结果与论文预期一致,但相关分析结果相反。这样的结果正常吗?这是为什么?相关分析的符号与预期不一致,是不是说就没有必要做多元回归分析了?还是说相关分析的结果只是一个大致的检测,具体的关系还是要以回归分析为准。相关分析的符号与预期不一致,会影响后续进行多元回归分析吗?

    2.老师您好。我想将家庭背景作为协变量,分析家庭背景Z(连续变量/分类变量)是如何影响阅读时间X(分类变量)和语文成绩Y(连续变量)的关系的。想得到在控制家庭背景变量之后不同阅读时间的语文均值,然后和控制家庭背景变量之前的不同阅读时间的语文均值进行比较。请问:我应该怎么操作才能得到这个结果呢?非常感谢。

    d702f600562195c4ec1d7d9550bad689.png

    1.相关系数和回归系数符号相反是可能发生的。因为相关分析关注的是两个变量之间的相关方向和相关程度,而没有考虑其他变量的影响。多元线性回归得到的系数是偏回归系数,考虑了其他控制变量的影响。如果确认数据不存在问题(没有离群值,进行了缩尾处理),那么可以考虑是否存在多重共线性,多重共线性的一个重要后果就是得到的系数符号相反。此外,由于控制变量中的某些变量遮掩(多元回归中的抑制现象(Suppression))主要变量,也可能发生符号相反的情况。两者符号不一致并不影响你进行分析,结果当然还是以回归分析为主。

    2.分析家庭背景Z(连续变量/分类变量)是如何影响阅读时间X(分类变量)和语文成绩Y(连续变量)的关系可以通过交乘项来实现,通过交互项的系数来分析家庭背景的作用就行了,没必要根据你说的这样取均值。Stata的回归命令为:

    reg Y Z##i.X // Z为分类变量时

    reg Y c.Z##i.X //Z为连续变量时

    往期回顾:

    互助问答第160期:对于159期问题的补充

    互助问答第159期:逻辑回归、用虚拟变量做分组回归

    互助问答第158期:滚动回归之stata 实现

    互助问答第157期:有关probit 模型的边际系数问题

    如果您在计量学习和实证研究中遇到问题,请及时发到邮箱szlw58@126.com,专业委员会有30多名编辑都会看,您的问题会得到及时关注!请您将问题描述清楚,任何有助于把问题描述清楚的细节都能使我们更方便地回答您的问题,提问细则参见:实证研究互助平台最新通知(点击文末阅读原文查看详情)

    如果您想成为问题解答者,在帮助他人过程中巩固自己的知识,请发邮件至szlw58@126.com(优先)或给本公众号留言加微信793481976给群主留言,我们诚挚欢迎热心的学者和学生。具体招募信息请参见:实证研究互助平台志愿者团队招募公告

    鲜活的事例更有助于提高您的研究水平,呆板的教科书让人生厌。如果您喜欢,请提出您的问题,也请转发推广!

    (欢迎转发,欢迎分享转载请注明出处引用和合作请留言。本文作者拥有所有版权,原创文章最早发表于“学术苑”任何侵权行为将面临追责!)

    学术指导:张晓峒老师

    本期解答人:曹晖老师 统计小妹

    编辑:统计小妹

    统筹:易仰楠

    技术:林毅

    4a24021329887bff855d5619fd646715.png
    展开全文
  • 然而,要推断此类网络的微生物相关性并获得有意义的生物学见解,就需要冗长的数据管理工作流程,选择适当的方法,进行统计计算,然后通过不同的流程进行适当的可视化、报告和比较。随着通常与微生物组研究相关的多组...
  • 上次我们已经通过题目对冰盖融化问题进行了详细分析并确立了基本模型友情链接:美赛A题解析之冰盖融化问题分析美赛A题解析之冰盖融化问题模型预测今天我们详细解读预测模型如何预测全球海平面上升幅度。多元线性回归...
  • 根据PAST内各项分析的标签分类,将该教程具体设置如下:PAST软件介绍PAST的基本信息数据的输入和修改数据的转换和标准化图像绘制 (Plot标签)点线图和直方图散点图条形图和箱须图饼图堆叠条形图三元相图气泡图单变量...
  • 电子健康素养与中青年脑卒中患者健康行为的相关性分析戴春花 1, 王雪 1, 曾杏梅 1, 徐鹏翔 2, 冯基高 2【 摘要】 背景近年来电子健康素养在慢性病患者的管理中受到广泛关注, 但目前关于电子健康素养与中青年...
  • 多元回归分析显示,男性患者的PANSS抑郁因子得分分别与MnSOD及总SOD活性呈正相关(P),而女性患者的PANSS阳性症状得分与其MnSOD活性呈正相关(P)。 图1:总SOD活性与抑郁因子相关性的性别差异 图2:MnSOD活性与临床...
  • 2.2 T1DM患者中甲状腺激素水平与血糖及血脂的相关性分析 Pearson相关分析提示,在T1DM患儿中,TSH与LDL-C (r=0.175. P=0.034)、TC (r=0.187. P=0.009)和TG(r=0.206,P=0.005)呈正相关,与FBG(r=-0.187,P=0.018)和...
  • “辨状论质”是根据药材外观性状特征判断其质量的优劣,其实质是中药材的性状特征与内在质量具有相关性。鸡血藤药材断面含深棕色树脂状物的韧皮部与木质部相间排列,呈数个偏心性半圆形环或同心性椭圆形环。传统经验...
  • 多元相关分析多元回归分析

    万次阅读 多人点赞 2018-10-27 17:13:02
    多元回归分析模型建立 线性回归模型基本假设 多元回归分析用途 多元线性相关分析 矩阵相关分析 复相关分析 曲线回归模型 多项式曲线 二次函数 对数函数 指数函数 幂函数 双曲线函数 变量间的...
  • 应用SPSS软件进行多组分爆炸性混合气体对CH4爆炸极限影响的相关性研究,并且建立回归模型,为矿井可燃性气体的进一步研究提供一种简便、实用的数据分析和探究方法。
  • 回归分析是相关分析的扩展,通过分析指标之间是否存在关系从而建立回归模型,若相关分析出的指标之间没有关系则就没有必要做下一步的回归分析。 相关系数: 两个变量的线性相关程度可以用简单线性相关系数来度量,...
  • 两个变量与因变量相关性分析提问:用SPSS一个分析,有一个因变量和N个自变量,先做相关性发现有很多自变量与因变量有关,相关性也比较高.继续说,但是再做多重回归方程的时候只有3个因变量入选,其他都被排除了,那在写...
  • 3.多元相关分析 3.1 多元数据散点图 操作步骤: plot(Case3) #矩阵散点图 结果: 结果解释: 多元数据散点图 3.2 多元数据相关系数矩阵 操作步骤: cor(Case3) #相关分析 结果: 结果解释: 相关系数矩阵 3.3 ...
  • = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])] print(vif) ③线性相关性 高度相关:|p| >= 0.8 中度相关:0.5 |p| 弱相关:0.3 |p| 几乎不相关:|p| 相关性越大越好 # 计算数据集Profit中每...
  • 如何用matlab做相关性分析

    千次阅读 2021-04-19 03:16:38
    2014-04-22怎样用matlab求相关系数矩阵我们是用corr来计算的:[RHO,PVAL] = corr(X,Y,'name',value)其中name可以是type,rows,tail,而value分别如下:type: 'Pearson' (the default) computes Pearson's linear ...
  • 相关性分析

    2019-11-28 17:57:52
    (只能对两组数据进行分析) 弊端:无法对相关的密切程度进行度量 正值:正相关(两个变量变化趋势一致) 负值:负相关 零:不相关(两个变量相互独立) 3. 相关系数(correlation coefficience)  可以对相关的...
  • 基于相关性分析和主成分分析的变量筛选方法主成分分析法 指标筛选既然在课程专题四中讲到主成分分析法,那么这里再进一步介绍主成分分析法,概括起来说,主成分分析主要由以下几个方面的作用。主成分分析能降低所...
  • 相关性分析的五种方法

    万次阅读 多人点赞 2020-09-04 17:26:41
    相关分析(Analysis of Correlation)是网站分析中经常使用的分析方法之一。通过对不同特征或数据间的关系进行分析,发现业务运营中的关键影响及驱动因素。并对业务的发展进行预测。本篇文章将介绍5种常用的分析方法...
  • 多元相关与回归分析及R使用

    千次阅读 2021-03-26 14:06:16
    Author:龙箬 ...多元相关与回归分析及R使用 1.变量间的关系分析 简单相关分析的R计算 > x1=c(171,175,159,155,152,158,154,164,168,166,159,164) #身高 > x2=c(57,64,41,38,35,44,41,51,57,49.
  • 如何使用SPSS进行相关性和回归分析

    千次阅读 2021-11-14 17:01:16
    下面用SPSS采用回归—线性分析的方式来分析一下:居民总储蓄 和 “居民总消费”情况是否具备相关性,如果具备相关性,那相关关系的密切程度为多少。 下面以“居民总储蓄”和“居民总消费”的调查样本做统计分析,...
  • 为什么80%的码农都做不了架构师?>>> ...
  • 本文通过建立人口城市化率、非农业人口数量、产业非农化率、建成区面积关于产业结构的回归方程,分析了进入模型中的影响因素数量、主要影响因子及其影响系数,指出邯郸市在城市化进程中存在的问题,并提出具体的对策...
  • 20220225—相关性分析,学习记录
  • ArcGIS 栅格图层相关性分析

    千次阅读 2020-12-28 16:58:24
    Spatial Analyst Tools——Multivariate(多元分析)——Band Collection Statistics(波段集统计)。 添加图层,勾选Compute covariance and correlation matrices以输出相关第分析结果,结果保存成txt。 使用的...
  • R_多元相关和回归分析

    千次阅读 2020-04-25 14:16:27
    # Title : TODO # ...模型的方差分析 # # anova(m4.3) # # #2.回归系数t检验 # # summary(m4.3) d5.2=read.table("clipboard",header = T) d5.2 log = glm(y~x1+x2,family = poisson,data = d5.2) summary(log)

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,335
精华内容 3,734
关键字:

多元相关性分析

友情链接: solve equation example.rar