精华内容
下载资源
问答
  • 如何使用SPSS进行相关性分析
    万次阅读
    2021-12-17 15:41:17

    相关性分析旨在分析两组数据之间是否相互影响,彼此是否独立的变动。SPSS内部提供了多种分析数据相关性的方法:卡方检验(Chi-SquareTest),Pearson相关系数计算,Spearman相关系数计算和Kendall的tau-b(K)相关系数计算。这四种分析方法适用于不同的数据类型,下面向大家介绍常用的SPSS相关性分析方法。

       1.卡方检验(Chi-SquareTest)

       卡方检验(Chi-SquareTest)是由Pearson提出的一种统计方法,在一定的置信水平和自由度下,通过比较卡方统计量和卡方分布函数概率值,判断实际概率与期望概率是否吻合,进而分析两个分类变量的相关性。

       卡方检验(Chi-SquareTest)适用于不服从正态分布的数据,两组变量是无序的。使用SPSS进行卡方检验的操作方法,大家可以登录SPSS中文网站进行学习,这里仅作原理性的介绍。如图1是某种药物单独使用和药物与放疗同时使用时,治疗是否有效的卡方检验结果。

    图1某地某种疾病发病人数统计

    图1某地某种疾病发病人数统计

      

       个案处理摘要显示了有效数据和无效数据的数量。VAR00001*VAR00002交叉表显示各变量对应的频数,VAR00001列1代表单独使用药物,2代表药物与放疗同时使用,VAR00002行1代表有疗效的人数,2代表无疗效的人数。

       行列变量为各为二组,自由度为(2-1)×(2-1)=1,Pearsonχ2值为22.475,显著性数值为0.000小于0.05,有显著性差异,不能接受无关假设,即单独使用药物与药物放疗同时进行有显著性差异。

       2.Pearson相关系数计算

       Pearson相关系数用于评估两组数据是否符合线性关系,不能用于符合曲线关系的数据,线性相关越强,Pearson相关系数就越接近1(线性递增)或-1(线性递减)。图2为一组数据的线性相关性检验,可以看出,Peason相关系数0.984,表明两者有较强的线性相关性,一般认为<0.3无相关性,0.3~0.7弱相关性,>0.7较强的相关性。

    图2Pearson检验结果

    图2Pearson检验结果

       3.Spearman相关系数计算

       Spearman相关系数适用于不满足线性关系,且不满足正态分布的数据,如图3所示,实际这是两组随机产生的数据,用Spearman相关系数计算时,结果为0.257,<0.3无相关性,与Pearson相关系数类似,<0.3不相关,0.3~0.7为弱相关,>0.7为强相关。

    图3Spearman相关系数计算

    图3Spearman相关系数计算

       4.Kendall的tau-b(K)相关系数计算

       进行Kendall的tau-b(K)相关分析,需要满足下列3个条件:

       1.两个变量是有序分类变量;

       2.两个变量相对应的研究对象是一定的。

       例如调查工资与学历之间的关系,两个变量学历和收入都是等级变量,符合条件1;两个变量均对应同一研究对象:一个区域内的所有工作的成年人。符合条件2。收入等级分别为1高收入,2中收入,3低收入,学历等级分别为1高学历,2中等学历,3低学历。结果分析如图4所示。相关系数为0.480,有弱的相关性。

    图4Kendalltau-b系数计算

    图4Kendalltau-b系数计算

       对于不同种类的数据,应采用不同的统计方法进行相关性分析,SPSS内置了丰富的统计计算功能,可以充分满足不同统计数据的使用需求。

    更多相关内容
  • 使用spss做各种相关性分析的方法和步骤

    万次阅读 多人点赞 2022-01-16 12:07:20
    不要在意细节hhh 卡方检测 选择: 分析|描述统计|交叉表 然后把要分析的变量分别放到行和列, 比如我要分析的是抽烟和性别的关系 点击右侧的统计, 选择卡方, 其他的随便选选也行 确认后到输出视图, 重点注意卡方检测...

    目录

    数据类型

    相关性分析的方法

    用spss操作

    卡方检测

    Eta检测

     皮尔逊(Pesrson)检测

     Spearman(斯皮尔曼)


    数据类型

    先说明spss里的三种数据类型, 可以在 数据视图|测量 那里看到

    分别是

    1. 标度型(又称定距型) 简单来说就是有高低区别又有大小取值的, 如温度, 身高, 体重

    2. 有序性(又称定序型) 只有高低区别, 没有大小取值(或者和取值没有明显关系), 如学历, 年龄

    3. 名义型(又称定类型) 没有高低区别, 如性别, 民族

    相关性分析的方法

    顾名思义,就是看两个变量有没有某种关系? 究竟是一种什么关系?

    一般只有四种方法: 卡方检测, Spearman系数, Pearson系数, Eta系数

    检验不同类型的变量的方法如下表格:

    表格只是说明某一类相关性用某一种方法检测比较好, 而不是说不能用其他方法检测

    用spss操作

    随遍编了一手数据, 不要在意细节hhh 

    卡方检测

    选择: 分析|描述统计|交叉表

    然后把要分析的变量分别放到行和列, 比如我要分析的是抽烟和性别的关系

    点击右侧的统计, 选择卡方, 其他的随便选选也行

    确认后到输出视图, 重点注意卡方检测皮尔逊卡方, 如果检测值小于0.05, 说明相关性显著, 否则相关性不显著

    Eta检测

    和卡方检测几乎相同的步骤, 只是选择的时候不要选卡方, 选择相关性

    对称测量, 如果图中值大于0.5, 则高度相关, 且越大相关性越大

    同时如果皮尔逊系数不等于phi值, 说明他们不是线性相关

     皮尔逊(Pesrson)检测

    选择 分析|相关|双变量

    选择想要分析的两个变量, 选中皮尔逊, 双尾

    当然也可以在选项中选择其他想要显示的值

    查看相关性, 如果皮尔逊相关大于0.5(越大表示越相关)并且双尾小于0.05(排除偶然性,通过检验)说明是高度相关

     Spearman(斯皮尔曼)

    spearman检测和皮尔逊检测步骤几乎一模一样, 只是选中的是斯皮尔曼

    展开全文
  • 不同类型特征变量之间相关性分析

    千次阅读 2022-01-01 19:22:13
    在数据分析过程中,对特征变量的相关性分析是一项重要工作,尤其是在数据建模场景,特征的相关性分析是变量筛选的一种典型方法。但是,在日常数据分析实践中,由于数据源的特征分布情况,特征相关性分析往往是针对...

    站在2022的第一天想说点啥总结却迟迟不知道该如何下笔,年前的立的各种风控技能Flag还没一一勾除又有新的Flag要立,风控人不容易…不管怎样,学习总是必要的,今天带来番茄风控2022年第一篇实操干货。
    在数据分析过程中,对特征变量的相关性分析是一项重要工作,尤其是在数据建模场景,特征的相关性分析是变量筛选的一种典型方法。但是,在日常数据分析实践中,由于数据源的特征分布情况,特征相关性分析往往是针对连续变量与连续变量,如pearson相关系数等,而对分类变量的相关性较少关注。本文基于SAS实操,介绍下不同类型特征之间的相关性分析,分为三个部分:连续变量与连续变量、连续变量与分类变量、分类变量与分类变量。
    现有一份excel测试数据,样本量2000,特征数13个,其结构如下图所示:
    在这里插入图片描述
    【图1:样本数据(前10条)】

    通过以下代码进行excel数据导入,生成SAS数据集,并对数据的特征类型分布通过报表展示:
    在这里插入图片描述
    生成特征类型报表如图2所示,包括变量名称、类型、长度、标签等信息:
    在这里插入图片描述 【图2:特征类型】

    1、连续变量与连续变量
    衡量连续变量与连续变量的相关性程度有多个参数,包括pearson、spearman、 kendall、hoeffding系数等,其中pearson是参数度量方法,spearman、kendall、hoeffding是非参数度量方法。在实际数据分析工作中,我们经常使用的是person系数或spearman系数。

    从图2信息可知,变量X1、X4X10均为连续型变量,我们通过SAS中的corr过程步分析变量X4X10与X1之间的线性相关程度。
    在这里插入图片描述
    代码运行后生成报表如图3~4所示,包括变量基本信息、统计信息(最大值、最小值、平均值、中位数、标准差等)、pearson系数、spearman系数。
    在这里插入图片描述
    在这里插入图片描述
    【图3: 统计信息】
    在这里插入图片描述
    【图4 :相关系数】

    从上表可知,变量X4~X10与变量X1的相关性依次减弱,pearson系数与pearson系数均呈现同样规律。变量X1(年龄)与X4(信用卡额度)的相关性相对较强,从pearson系数0.12149与spearson系数0.23105均得以体现,同时p值(<0.0001)检验均远小于0.1。X1与X6、X7、X10的相关性均较弱,相关系数低于0.04,p值检验均大于0.1。

    为了更有效评估连续变量之间的相关性,综合对比pearson系数与pearson系数更为合理些。例如,某两个变量之间的pearson系数较大,而pearson系数较小,则不能单从某一个系数大小评估其相关性程度。

    2、连续变量与分类变量
    连续变量与分类变量相关性程度的评估方法,有T检验、方差分析等。在SAS语言的统计分析中,主要取决于分类变量的类别数。若对比分类变量两个类别的差异,可以使用SAS中的ttest(T检验)过程;若比较分类变量多个类别的差异,可以使用anova(方差分析)过程。
    T检验是通过T分布理论与假设检验原理进行样本均值与总体均值的比较,以及进行两样本均值的比较;方差分析是用于检验两组或两组以上样本的均值是否具有显著性差异性的一种数理统计方法。

    2.1 二分类变量与连续变量
    从图2的特征类型信息可知,变量Y(好坏标签)是二分类变量,X5(最近3个月通话次数)是连续型变量,我们通过SAS中的ttest过程步分析变量X2与X5之间的相关性程度。
    在这里插入图片描述
    代码运行后生成报表如图5~ 6所示,包括变量统计信息(最大值、最小值、平均值、标准差、标准误差等)、置信区间、T检验、方差等价性检验。
    在这里插入图片描述
    图5: 统计信息与置信区间
    在这里插入图片描述
    【图6 :T检验与方差等价检验】

    根据生成的报表信息,我们来对结果指标进行解读。首先,看图6的“方差等价检验”结果,p值为0.1161,在0.1置信水平下,接受原假设,认为方差相等。然后,看图6 的“T检验”结果,在“方差”为“等于”的一行,对应p值为0.0003,在0.1置信水平下,拒绝原假设,认为变量Y的“0”和“1”两个群体间的“X5(最近3个月通话次数)”信息有显著性差异。最后,综上说明变量X5(最近3个月通话次数)可以作为区分Y变量(0或1)的一个有效特征,即两个变量之间有较好的相关性。

    2.2 多分类变量与连续变量
    以上是采用T检验,举例(Y与X5)对二分类变量与连续变量进行相关性分析。现选取多分类变量X3(学历)与连续变量X9(最近1年银行卡交易次数),通过SAS中的anova过程(方差分析)说明多分类变量与连续变量的相关性程度。
    在这里插入图片描述

    代码运行后生成报表如图7~9所示,包括方差分析、盒型图、方差齐性检验。根据图7方差分析结果可知,p值为0.9106,接受原假设,认为变量X3(学历)在7种不同水平下的X9(最近1年银行卡交易次数)信息没有显著性差异。从图9方差齐性检验结果可知,p值为0.9379,满足方差齐性检验,认为变量X3(学历)在7种不同水平下的X9(最近1年银行卡交易次数)信息没有较强的关联关系。图8变量盒型图则展示变量X3(学历)不同类别在X9(最近1年银行卡交易次数)的分布情况。
    在这里插入图片描述
    【图7:方差分析】
    在这里插入图片描述
    【图8:变量盒型图】
    在这里插入图片描述
    【图9:方差齐性检验】

    3、分类变量与分类变量
    分类变量之间的相关性检验,其理论基础为卡方检验分析,在SAS中以freq过程步(频数统计)实现分类变量相关性的分析过程。现选取分类变量X2(性别)与分类变量Y(好坏标签),对分类变量之间的相关性程度分析进行说明。
    在这里插入图片描述
    代码运行后生成如图10~13所示,包括变量交叉频数表、卡方检验、Fisher检验、优比信息,其中Fisher检验结果仅对于两个二分类变量输出,本例选取的两个分类变量均为二分类变量,即变量X2(性别)取值“男”与“女”,变量Y(好坏标签)取值“0”和“1”。
    在这里插入图片描述
    【图10:变量交叉频数 】

    在这里插入图片描述
    【图11:卡方检验】

    在这里插入图片描述
    【图12: Fisher检验】

    在这里插入图片描述【图13:优比信息】

    由图11卡方检验结果可知,p值为0.3371,在0.1置信水平下,接受原假设,认为分类变量X2(性别)与Y(好坏标签)无关联关系。由图12的Fisher检验可知,p值为0.3781,在0.1的置信水平下,接受原假设,认为X2(性别)与Y(好坏标签)无关联关系。由图13优化比信息可知,变量优比值为0.8537,而95%的置信区间为[0.6179, 1.1795],区间范围包含1,说明优比与1无显著性差异,即认为X2与Y无关联关系。综合以上三项指标,均说明X2(性别)与Y(好坏标签)无较强关联关系。

    本文进一步的实操内容,更有相关的数据集提供给大家练习,详细的数据可以到星球进行下载学习:

    在这里插入图片描述
    另外关于本文中所提到的SAS相关的内容,更全面的系统知识可关注:
    第一期的《SAS数据分析训练营》。
    在这里插入图片描述

    最后,感谢所有童鞋过去一年对番茄风控的关注~

    祝大家元旦节快乐!

    展开全文
  • 毕业大半年了,现在还清晰的记得当时毕业论文不会用SPSS的痛苦,每天挣扎把度娘、知乎、知网、优酷、某宝等各大网站都逛了个遍,依然没有找到用SPSS完整的分析一份问卷的流程,几乎都是零零散散的一些知识,又或是几...

    毕业大半年了,现在还清晰的记得当时毕业论文不会用SPSS的痛苦,每天挣扎把度娘、知乎、知网、优酷、某宝等各大网站都逛了个遍,依然没有找到用SPSS完整的分析一份问卷的流程,几乎都是零零散散的一些知识,又或是几十个视频的解说却总是听不到自己想听的部分,眼看论文上交时间到却毫无头绪的紧张感使自己完全静不下心从头学到尾。从一个完全是SPSS小白到基本能完整分析一份问卷数据(当然也仅仅是单因素的分析,多元分析并未接触,这篇文章主要希望能帮助之前从未接触过SPSS却因论文不得不用的小伙伴)。

    实证分析主要包括描述性分析、信度效度分析、相关分析、假设检验(回归分析)。在分析之前我们首先要懂得SPSS的分析原理。学过高数的基本都知道假设检验的原理,SPSS软件的基本原理就是假设检验,即先假设H0:A对B没有影响条件成立,分析得出的结果P(sig.)<0.001/0.01/0.05,则假设不成立,即A对B具有显著性影响。

    用SPSS分析的问卷必须是李克特五级量表或七级量表,生手建议设计五级单因素的量表。问卷数据收集完成后,首先要剔除无效问卷(所有问题答案全选一种选项的或存在矛盾的答案等问卷),保证数据的准确性。分析步骤如下:

    1. 录入问题及数据

    打开SPSS软件,在变量视图界面内输入问题及设置值,一般设置值为1非常不同意,2不同意,3不一定,4同意,5非常同意。同理输完一篇问卷即可。如下图:

    a149a62e-0e12-eb11-8da9-e4434bdf6706.png

    二、描述性分析

    描述性分析主要是对被调查者的基本信息进行描述,如性别、学历、年龄、工作年限、居住地等等,这类问题一般放置在一份问卷的开头(也有放置在结尾,个人设计问卷时比较喜欢放置于开头)。描述性分析主要对问卷的均值、标准差进行分析,均值相同时,比较标准差,标准差越小,表示越稳定。

    步骤如下图:1、点击分析-----描述统计----描述----选择变量----点击选项----选择你需要描述的项(平均值、方差…..)。

    2、分析----描述统计----频率---选择项,则可以得出频率频数。

    a449a62e-0e12-eb11-8da9-e4434bdf6706.png

    最后将自己需要的数据进行汇总了列成表格或图表(饼图/柱形图等)的表示,图表的项有频数、频率、均值、标准值等,并辅以文字说明,使结果一目了然。(注:以下图表及数据仅作为案例解释说明,数据不具有准确性和真实性)

    aa49a62e-0e12-eb11-8da9-e4434bdf6706.png

    二、信度分析

    信度分析主要是通过SPSS分析验证设计的问卷是否可靠,问卷题目之间是否具有良好的相关性进行分析,被调查者的答案是否存在矛盾,是否可靠等等。

    问卷分析的步骤如下:点击分析----标度----可靠性分析-----选择项----确定即可

    ae49a62e-0e12-eb11-8da9-e4434bdf6706.png

    得出的结果如下:

    b049a62e-0e12-eb11-8da9-e4434bdf6706.png

    b149a62e-0e12-eb11-8da9-e4434bdf6706.png

    结果分析:一般来说,问卷是否可靠主要看Alpha(a系数),a<0.7则表示设计的问卷信度不可靠,0.7<a<0.8则说明问卷具有一定的可靠性,0.8<a<0.9则说明问卷信度很好。上面的项数则是选择分析的问卷题目的数目。

    在进行下面分析时先说一下问卷的设计。实证分析的论文中比较简单的模型大概可能是:研究对象的影响因素(自变量)会影响研究对象的效果(因变量),A H B ; 即论文假设H为自变量A对因变量B会产生一定的影响。一般可以找出四五个影响因素设计为自变量,每一个影响因素可以设计3—7个问题进行调查。所以在进行可靠性分析的时候可以对每一个影响因素(自变量)的题目数(项数)分析一次,看是否每一个自变量的设计的问题都具有较好的信度。(若某一因素项数信度不够好,首先可以通过调整题目中的表达措词、修改或增加关键词来提高信度,若某道题目修改调整后信度仍然过低则可以删除这一道题目达到提高整篇文章的信度)。

    三、效度分析和因子分析

    通俗来说,效度分析是检验问卷题目与研究目的是否相一致,即不能研究顾客对某产品的满意度,问卷设计的问题则是调查某产品的市场覆盖率。一般分为内容效度和结构效度,内容效度是指题项与所测变量的适合性和逻辑相符性(我们在设计问卷时一般都要参考或引用前人的问卷,因此内容效度不存在问题,当然如果设计的一份全新的问卷则需要重点分析内容效度)。结构效度是指题项衡量所测变量的能力,实证分析一般着重分析结构效度,可以通过进行探索性因素分析(Exploratory factor analysis,EFA)检验来证明量表的结构有效性。

    分析步骤如下:分析----降维----因子----将左边所有变量选到右边变量框中----描述---选择初始解和KMO---点击继续-----提取-----在提取里选择主成份和碎石图---继续----旋转----选择最大方差法。如下图:

    b649a62e-0e12-eb11-8da9-e4434bdf6706.png

    b849a62e-0e12-eb11-8da9-e4434bdf6706.png

    bb49a62e-0e12-eb11-8da9-e4434bdf6706.png

    得出结果如下:

    be49a62e-0e12-eb11-8da9-e4434bdf6706.png

    结果分析:效度分析结果主要看KMO值和sig.(显著性),若KMO>0.7,则说明问卷中设计的自变量之间具有一定的联系,问卷是有效的;sig.<0.001说明该问卷符合做因子分析,下一步则可以进行因子分析(EFA)。

    因子分析结果如下(仅抽取部分比较重要的图解释):

    c149a62e-0e12-eb11-8da9-e4434bdf6706.png

    看碎石图的关键就是找拐点,也就是找图中陡坡和缓坡的临界点(特征值明显较大的因子),趋于平缓前的点有几个则说明这份问卷可以分为几个因子(当然还要结合特征值、总方差解释等图考察)。如上图看出从第7个点开始趋于平缓,即前面有6个点属于陡坡上的点,初步可以说明这份问卷设计的因素可以分为6个因子。

    c249a62e-0e12-eb11-8da9-e4434bdf6706.png

    旋转后的成分矩阵的作用是知道那几道题可以归为一个因子,上面截取一部分作为说明(左侧的数字为问卷中的题项,题目内容已删除)。上图可以看到一共6个成分因子,其中问卷题目5、6、7、8、9、10、26可以第一个因子(成分1对下的数字0.769、0.571、0.714…….均大于0.5,即各个测量题项的最大因素负荷均大于0.5,且交叉载荷均小于0.4则可作为一个因子);同理题目27、28则可以作为一个因子,成为4对下的数字为0.797、0.793…….。

    c549a62e-0e12-eb11-8da9-e4434bdf6706.png

    总方差解释图主要看累计百分比的项。如上图6个因子在整份问卷中的总解释能力(累计百分比)达到了72.938%(总解释能力>50%可以说明筛选出来的因子有良好的代表性,当然实际操作中一般>80%的问卷因子解释能力比较好)。所以整份问卷基本可以提取出6个因子作为主要变量,其余的为次要变量。

    通过上面三个图的分析,可以确定这一份问卷一共可以提取出6个因子(6个自变量)。

    五、相关分析

    在进行相关分析前首先要取各个因子的平均值(如上面7道题目作为因子1,因子1的平均值就是取7道题目的维度平均。得出6个因子的维度平均值后进行相关分析。

    步骤如下:分析----相关----双变量-----将左边的变量选到右边-----在皮尔逊和双变量前打勾----确定。如下图

    c749a62e-0e12-eb11-8da9-e4434bdf6706.png

    得出的结果如下:

    c949a62e-0e12-eb11-8da9-e4434bdf6706.png

    上图中,假设前面两个为因子1、因子2(自变量),第三个为因变量。相关性是检验自变量与因变量的关系。可以看出因子1与因变量的相关系数为0.779,且sig.<0.001,说明自变量(因子1)与因变量呈正相关。(相关系数的取值范围介于-1~1之间,绝对值越大,表明变量之间的相关越为紧密)。

    六、回归分析

    回归分析需要看的图有模型摘要图、ANOVA、系数图等等

    步骤如下:分析----回归----线性-----选择自变量和因变量----点击统计----选择德、共线性等(看自己需要知道什么就选什么,不一定要选共线性诊断等)---继续----图----选择XY变量-----继续---保存----继续---确定。如下图:

    cb49a62e-0e12-eb11-8da9-e4434bdf6706.png

    d149a62e-0e12-eb11-8da9-e4434bdf6706.png

    d349a62e-0e12-eb11-8da9-e4434bdf6706.png

    得出结果为:

    d849a62e-0e12-eb11-8da9-e4434bdf6706.png

    模型摘要图主要看R方和德宾值(D-W),调整后的R方为0.684说明自变量对因变量的可解释程度为68.4%(R方代表的是自变量对因变量的解释能力,R方与调整后的R方越接近说明数据越稳定)。D-W值是检验自变量之间是否存在自相关,上图中D-W>2表示问卷中的几个自变量无自相关性,(D-W值的范围记得不是很清楚了,见谅…..)。

    db49a62e-0e12-eb11-8da9-e4434bdf6706.png

    即方差分析表,ANOVA表的一个作用就是验证假设(A对B不产生影响)是否成立,一般只看sig.值即可,上图sig.<0.01,说明拒绝原假设,至少有一个对因变量产生显著性影响。

    下一步看系数表,系数表则说明有几个自变量对因变量产生显著性影响。如下图:

    e349a62e-0e12-eb11-8da9-e4434bdf6706.png

    上图中回归系数b是通过样本及回归模型通过SPSS计算得出的,是反映当自变量x的变动引起因变量y变动的量。主要看显著性,因子1、2、3的sig.<0.05,说明3个因子均对因变量产生显著性影响。

    从上面可以看出,相关性分析是检验自变量与因变量之间是否具有相关性(正向或反向相关),回归分析则说明了自变量对因变量是否具有显著性影响。

    当然上面提到的步骤和图大部分是我感觉论文需要用的,还有很多像散点图等一些小细节很多也没有写,一个是因为篇幅有限,一个也是因为时间也过去大半年了,有很多也记得不是很清楚了,上面写的内容基本是我去年写论文后学到的,很多都是个人的理解,仅供参考。希望大家毕业季顺利!


    ——————————————-—— 更新一下——————————————————

    最近电脑借给别人了,本来想等拿回电脑再跟新一下,想想还是趁着这两天闲一点回答一下各位的问题。

    在写这一篇文章的时候我想我已经说得很清楚了,本人非SPSS专业,大学期间也没有开设过这门课程,仅仅是写论文的时候涉及了单因素分析的一点皮毛,多因素及多元回归分析并未涉及,可以说我会的基本已经在文章中写出来了。我的毕业论文也仅仅是构建简单的模型和简单相关回归分析得出简单的结论。所以说毕业涉及关联分析,卡方检验,中介变量和多元回归分析,数据有问题等比较深入的知识的小伙伴也不要为难我了,不是不想回答,实在是问了我也不懂啊。

    以下整理了一些简单的问题回答一下:

    一、录入问卷数据的具体步骤:

    第一种方法:打开SPSS软件,可以看到SPSS左下角有两个视图界面----数据视图和变量视图,点击变量视图,可以看到“名称、类型、宽度、值”等一些列,在“名称”那一列输入问卷题目,“类型”那一列设置为数值、在“值”的那一列赋值,具体怎么赋值看个人问卷的设计,一般情况下可以设置为1非常不同意,2不同意,3不一定,4同意,5非常同意。(具体能不能反方向设置,我觉得要看分析结果,怎么设置能得出有效的信度效度分析结果数据就怎么来,论文答辩也不可能要你用电脑一步一步来操作,并且像赋值这么简单的问题也不可能会问,只要能把一篇论文从头到尾圆润起来,其他的细节没必要那么较真)。

    第二种方法:现在问卷数据收集一般是在问卷星或其他网站上发布,数据收集完成后可以在问卷星或别的网站上将自己的问卷下载成excel格式的文件,打开SPSS直接导入excel文件(点击文件---打开---数据---选择excel数据类型--导入)。

    二、如何求每个维度的平均?

    在做相关性分析前首先求维度平均,打开Spss,在窗口栏点击“转换--计算变量”,在里面输入每个因子对应的题目和公式就可以得出维度对应的均值平均。如下图:比如说维度1对应的题目有3道题,在目标变量的框中填上维度1,在数字表达式的框中写上公式:=(题目1+题目2+题目3)/3。

    求出各个维度的均值,然后就可以进行相关分析了,直接将均值得分的各个维度选到相关分析的变量框中就可以,接下来的步骤看以上文章。

    三、对自变量进行效度分析,这个时候是不是在抽取里应该选特征值大于4的,然后才能出来4个公因子?

    不是,特征值选大于1就行了。因子分析的目的是降维,筛选出能解释题目数量比较多的因子。这就是说明为什么一个因子维度能对应几道题目。如果一个因子只能解释一题目甚至连1道题目的方差都不能解释,那么这个因子在这份问卷中也没有什么意义了,可以直接忽视。所以说提取特征值大于几和公因子的数量没有很大的关系,一般来说,提取特征值大于1是比较公认的标准。特征值大于1的意思是提取出的因子能解释1道题以上的方差,如果选大于4的话则说明接下来提取出的因子则可以解释4道题以上的方差。

    e749a62e-0e12-eb11-8da9-e4434bdf6706.png

    四、在信度分析时,那个值该怎么写,问卷信度总是0.5多 ,不懂那个值怎么写?

    信度分析主要看Alpha(a系数),a<0.7则表示设计的问卷信度不可靠,0.7<a<0.8则说明问卷具有一定的可靠性,0.8<a<0.9则说明问卷信度很好。0.5小于0.7说明问卷信度不可靠,接下来的分析也用不到了,建议调改问卷或数据。

    五、如果两个变量的sig值为0.531,说明了什么?

    SPSS的原理是假设A对B不产生影响,分析得出的结果P(sig.)<0.001/0.01/0.05,则假设不成立,即A对B具有显著性影响。如果sig.=0.531大于>0.05,说明假设成立,A对B(或B对A)不产生影响,任何一方变动都不会影响另一方。

    六、如果要做多个因素对一个结果的影响程度,应该使用什么分析?

    多个自变量对一个因变量的影响分析,参考我的文章,一般信度效度分析,相关分析,线性回归分析即可。

    七、为什么我的相关性分析出来没有星号?

    有没有星号这个什么原因我也不清楚,你可以看一下你使用的版本,我用SPSS24.,相关分析有星号,回归分析没有星号。星号对数据有什么影响我也不清楚,去年我写论文的时候也没有关注个这个问题。

    八、这些数据得出来了,怎么运用到论文中呢?

    这个问题我真不知道怎么回答......数据得出来了,就说明你的实证分析那一章也写好了。结论建议那一章就可以根据分析结果提出来。前面的绪论、文献综述这些纯理论性的也不用说了,数据分析前模型假设/问卷设计这一章写完了才可以进行实证分析也不用考虑了......

    九、一个维度至少3-7个题目是在哪本书上看?

    没有在哪本书看到的,大概是在知网的期刊和论文上看到的,参考的论文一般也是3到7个问题,维度对应的4、5个问题的居多。

    十、中文版在哪下载:

    去年我是在淘宝花的十几块钱买下载的,现在很多人反映已经安装不了了,大家可以在微信搜索安装包,很多公众号可以免费领取噢

    更新更新更新更新!!!!!!!!

    还是有很多小伙伴问维度平均怎么求,今天特意用SPSS操作了一遍,回答一下之前的问题。

    第一:有人问维度是什么,怎么来的,简单的说,维度就是因子,一个因子就代表一个维度,在做因子分析的时候,我们就能把问卷的所有问题归类,哪几道题归为一个因子,就说明这几道题属于一个维度,一份问卷有几个因子就说明有几个维度。所以维度就是做因子分析得出来的结果。

    第二:维度平均的操作步骤

    上面也多多少少说过怎么算,不过还是有很多小伙伴算不出,今天我就具体说一下。

    1.在SPSS的窗口栏上点击转换----计算变量,如下图:

    ef49a62e-0e12-eb11-8da9-e4434bdf6706.png

    f549a62e-0e12-eb11-8da9-e4434bdf6706.png

    2.在计算变量界面上命名目标变量和输入公式,公式之间点击界面键盘上的数字及符号输入,如下图:

    f949a62e-0e12-eb11-8da9-e4434bdf6706.png

    3.点击确定后SPSS输出界面如下:

    004aa62e-0e12-eb11-8da9-e4434bdf6706.png

    4.返回SPSS数据视图和变量视图在问卷数据旁边会增加一列均值数据,如下图:

    044aa62e-0e12-eb11-8da9-e4434bdf6706.png

    且在计算变量界面下的类型和标签框中也会增加维度平均的标签,如下图:

    0a4aa62e-0e12-eb11-8da9-e4434bdf6706.png

    这样一个维度平均值就算出来了,每个维度平均算出来之后,就可以进行相关分析和回归分析了。

    希望大家都能顺利!

    展开全文
  • 基于spss的相关性分析(correlation analysis)

    万次阅读 多人点赞 2020-08-15 15:55:24
    实际的生产生活中,很多事物之间有着千丝万缕的联系,这些联系有的紧密,有的稀松。...基于这些区别,在数据分析中,一般先做相关关系的分析,待相关关系清楚以后,再进一步确定不同变量之间的函数关系(回归关系)。
  • 【SPSS笔记01】交叉分析表

    千次阅读 2021-05-05 20:53:36
    使用步骤Step1Step2变量解释Step3交叉表结果观察卡方分析的解释 交叉表用途&使用步骤 主要用途:主要用于分析分类变量的相关关系,如果是连续变量的相关性,主要使用相关分析 Step1 :分析——描述统计——交叉表...
  • 一、数值变量相关性分析 Pearson相关系数 Pearson相关系数度量了两个连续变量之间的线性相关程度 「R语言」-> cor( x1,x2,method=‘pearson’) Spearman相关系数 Spearman等级相关系数可以衡量非线性关系变量...
  • [小结] 二元变量相关性分析

    千次阅读 2017-10-30 10:41:59
    1、服从正态分布的两连续变量,若有一份随机样本...3、对两个反映属性的分类变量,若有一份随机样本,可做交叉分类的频数,利用独立性卡方检验和列联系数来描述关联性。 4、相关系数和列联系数的计算都是基于一份
  • 关注SPSS相关性分析及相关系数计算方法(点二列相关系数)关键词:SPSS 相关性分析 点二系列相关分析即是指研究连续变量与二分类变量的关联关系。医学数据统计分析中,常常会遇到探讨性别变量与另一个连续变量间是否...
  • 数据特征化的输出可以由多种形式提供,例如饼图、条图、曲线、多维数据立方体、交叉表在内的多维数表。 数据区分:是将目标数据与其他对比类数据进行比较。 挖掘频繁模式、关联和相关性频繁模式包括:频繁项集、频繁...
  • spss交叉表分析 + SPSS卡方检验

    万次阅读 多人点赞 2015-05-06 09:56:21
    在实际工作中,经常用交叉表分析比例是否相等。例如分析不同的性别对不同的报纸的选择有什么不同。 spss交叉表分析方法与步骤:  1、在spss中打开数据,然后依次打开:analyze--descriptive--crosstabs,打开...
  • 还能推断未知基因产物的功能、检测sub-groups 1.3 Network inference and reverse engineering 利用网络进行推断:可以使用表达量数据、已知的转录因子、ChIP-ChIP或ChIP-seq、时间序列等,因为网络是有向、交叉 ...
  • (1)从excel导入 下面的截图是data.xlsx中的数据,sheet的名字data1。 执行如下代码 # 利用pandas里的read_excel函数 # 注意两个地方,一是写好文件路径(包括文件名) # 二是写好导入文件中哪个s
  • 两个分类变量间的关系,无法直接使用常见的皮尔逊相关系数来表述,多采用频数统计、交叉表卡方检验等过程进行处理,当分类变量的取值较多时,列联表频数的形式就变得更为复杂,很难从中归纳出变量间的关系。对应分析...
  • 写在前面而后能够进入今天的正文git1、描述性统计分析Excel里能够用【数据分析】功能里的【描述统计】功能来查看数据集经常使用的统计指标,但这里只能是对数值型的数据进行统计。ide pandas里能够用describe方法对...
  • 本文需要用到的Python库:PandasScipy.statsStatsmodels在《用Python统计推断——交叉表篇(上:crosstab与热图)》中,我们介绍了如何构建交叉表并对其可视化。本文,我们将介绍如何检验交叉表的两个分类变量,是...
  • 相关分析与列联分析

    千次阅读 2019-08-22 09:31:53
    一、相关分析 相关分析是什么?有哪些分类?各类相关分析的用途是什么? 相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种...
  • 交叉表卡方检验与因果性检验

    千次阅读 2019-05-21 08:42:22
    20%,此时用皮尔逊卡方就行,对应P值小于显著水平0.05拒绝原假设,住房条件与婆媳关系有强相关性(P_值接近0) 由于这是定类与定类变量之间的分析,关于因果性关系强度的Lambda(L)就派上用场了 lambda是基于PRE上的相关...
  • 名义多选题的处理例子处理Step1Step2.1Step2.2Index函数的解释Step3:使用语法编辑器处理结果分析分析前必备步骤:建立多重应答集分析步骤分析结果:频率克科伦Q检验基本解释检验方法检验结果交叉分析 例子 有1个...
  • Datawhale作者:王瑞楠、吴忠强、徐韬、...数据分析探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据...
  • 栅格数据的空间分析

    2015-09-10 17:02:56
    Arcgis10的栅格数据的空间分析基本方法:栅格数据重分类、距离分析、采样点数据空间插值、栅格单元统计 、交叉面积、 邻域分析、 栅格计算器等。
  • 用SPSS进行列联表分析Crosstabs实例 列联表分析Crosstabs 列联表是指两个或多个分类变量各水平的频数分布表又称频数交叉表SPSS的Crosstabs过程为二维或高维列联表分析提供了22种检验和相关性度量方法其中卡方检验是...
  • 课程链接:《问卷与量表数据分析(SPSS+AMOS)》 ...我们可以看到多选题的频率分析交叉表还不可以使用,因为还没定义多重响应集。因此,要对多选题进行分析,需要先定义多重响应集。 第一步:选择“...
  • 三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。   1. person ...
  • #交叉分析(数据透视) qbresult=qb.pivot_table( values='年龄', index='年龄分层', columns='性别', aggfunc=[numpy.size])   #结构分析 #默认按列运算 qbresult.sum() #设定按列运算 qbresult....
  • T检验,方差分析,相关分析

    千次阅读 2020-03-08 23:00:31
    假设检验: 一般我们把想要的结果放在备择假设上面,通过否定原假设来得到我们想要的结果 P值!...关于连续与分类数据的相关性检验方法 X/Y 分类数据 连续数据 ...
  • 这节介绍如何使用pandas做简单的数据分析,内容包括基本统计分析、分组分析、分布分析、交叉分析(透视)、结构分析和相关性分析以下实例数据文件,可以从该站内链接获取1.基本统计分析一般统计某变量的最大最小值,...
  • 这些数据集主要用于非侵入性成像研究,特别是与结构MRI或静息状态fMRI的相关性。现有的方法依赖于已发表的死后脑基因表达数据集,这意味着神经生理和行为数据不是来自提供基因表达数据的同一人。这限制了此类方法...
  • 交叉表与透视变

    2019-10-05 12:22:27
    分析两个离散值值间得相关性 探究股票的涨跌与星期几有关? 以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例...
  • 关键词:卡方检验和相关性分析、卡方检验 相关性分析 一、相关分析方法的选择及指标体系 (一)两个连续变量的相关分析 1、Pearson相关系数 最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,581
精华内容 5,032
关键字:

交叉表的相关性分析