精华内容
下载资源
问答
  • 学习spss的心得体会

    万次阅读 2017-02-28 14:28:18
    本科的时候有概率统计和数理分析的基础,但是从来没有接触过应用统计分析的东西,SPSS也只是听说过,从来没有过。一直以为这一块儿会比较难,这学期最初学的时候,因为没有认真看老师给的英文教材,课下也没有认真...

    存储,学习,共享。。。。。

    篇一:SPSS学习报告总结心得

    应用统计分析学习报告

    本科的时候有概率统计和数理分析的基础,但是从来没有接触过应用统计分析的东西,SPSS也只是听说过,从来没有学过。一直以为这一块儿会比较难,这学期最初学的时候,因为没有认真看老师给的英文教材,课下也没有认真搜集相关资料,所以学起来有些吃力,总感觉听起来一头雾水。老师说最后的考核是通过提交学习报告,然后我从图书馆里借了些教材查了些资料,发现很多问题都弄清楚了。结合软件和书上的例子,实战一下,发现SPSS的功能相当强大。最后总结出这篇报告,以巩固所学。

    SPSS,全称是Statistical Product and Service Solutions,即“统计产品与服务解决方案”软件,是IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,也是世界上公认的三大数据分析软件之一。SPSS具有统计分析功能强大、操作界面友好、与其他软件交互性好等特点,被广泛应用于经济管理、医疗卫生、自然科学等各个领域。具体到管理方面,SPSS也是一个进行数据分析和预测的强大工具。这门课中也会用到AMOS软件。

    关于SPSS的书,很多都是首先介绍软件的。这个软件易于安装,我装的是19.0的,虽然20.0有一些改变和优化,但是主体都是一样的,而且都是可视化界面,用起来很方面且容易上手。所以,我学习的重点是卡方检验和T检验、方差分析、相关分析、回归分析、因子分析、结构方程模型等方法的适用范围、应用价值、计算方式、结果的解释和表述。

    首先是T检验这一部分。由于参数检验的基础不牢固,这部分也是最初开始接触应用统计的东西,学起来很多东西拿不准,比如说原假设默认的是什么。结果出来后依然分不清楚是接受原假设还是拒绝原假设。不过现在弄懂了。这部分很有用的是T检验。T检验应用于当样本数较小时,且样本取自正态总体同时做两样本均数比较时,还要求两样本的总体方差相等时,已知一个总体均数u,可得到一个样本均数及该样本标准差,样本来自正态或近似正态总体。T检验分为单样本T检验、独立样本T检验、配对样本T检验。其中,单样本T 检验是样本均数与总体均数的比较的T检验,用于推断样本所代表的未知总体均数μ与已知的总体均数uo有无差别;独立样本T检验主要用于检验两个样本是否来自具有相同均值的总体,即比较两个样本的均值是否相同,要求两个样本是相互独立的;配对样本T检验中,要正确理解“配对”的含义,主要用于检验两个有联系的正态总体的均值是否有显著差异,跟独立检验的区别就是样本是否是配对样本。这几个方法用软件操作起来都是相对简单的,关键是分清楚什么时候用这个什么时候用那个。

    然后是方差分析。方差分析就是将索要处理的观测值作为一个整体,按照变异的不同来源把观测值总变异的平方和以及自由度分解为两个或多个部分,获得不同变异来源的均值与误差均方,通过比较不同变异来源的均方与误差均方,判断各样本所属总体方差是否相等。方差分析主要包括单因素方差分析、多因素方差分析和协方差分析等。这一部分在学习的过程中出现一些问题,就是用SPSS来操作的时候分不清观测变量和控制变量,如果反了的话会导致结果的不准确。其次,对Bonferroni、Tukey、Scheffe等方法的使用目的不清楚,现在基本掌握了多重比较方法选择:一般如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较。宜用Bonferroni(LSD)法;若需要进行多个均数间的两两比较,且各组个案数相等,适宜用Tukey法;其他情况宜用Scheffe法。最后,对方差齐性检验、多重比较检验、趋势检验理解不够透彻,在方差检验中,Post Hoc键有LSD的选项:当方差分析F检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。

    相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关分析研究现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。主要有双变量相关分析、偏相关、距离相关几个方法。双变量相关分析是相关分析中最常使用的分析过程,主要用于分析两个变量之间的线性相关分析,可以根据不同的数据类型和条件,选用Pearson积差相关、Spearman等级相关和Kendall的tau-b等级相关。当数据文件包括多个变量时,

    直接对两个变量进行相关分析往往不能真实反映二者之间的关系,此时就需要用到偏相关分析,从中剔除其他变量的线性影响。距离相关分析是对观测变量之间差异度或相似程度进行的测量,其中距离需要弄清楚,距离分析是对观测量之间相似或不相似程度的一种测度,是计算一对观测量之间的广义距离。这些相似性或距离测度可以用于其他分析过程,例如因子分析、聚类分析或多维定标分析,有助于分析复杂的数据集。

    接着是回归分析。相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。回归分析的目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。应用回归分析时应首先确定变量之间是否存在相关关系,如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。正确应用回归分析预测时应注意:①用定性分析判断现象之间的依存关系;②避免回归预测的任意外推;③应用合适的数据资料;

    接下来是因子分析。因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接

    测量到的隐性变量。从显性的变量中得到因子的方法有两类。一类是探索性因子分析,另一类是验证性因子分析。探索性因子分析不事先假定因子与测度项之间的关系,而让数据“自己说话”。而验证性因子分析假定因子与测度项的关系是部分知道的,即哪个测度项对应于哪个因子,虽然我们尚且不知道具体的系数。这一部分不能用SPSS来操作,要用AMOS,用起来也很方便。

    最后一部分学习的是结构方程模型。结构方程模型是一种融合了因素分析和路径分析的多元统计技术。它的强势在于对多变量间交互关系的定量研究。在近三十年内,其大量应用于社会科学及行为科学的领域里,并在近几年开始逐渐应用于市场研究中。结构方程模型是对顾客满意度的研究采用的模型方法之一。其目的在于探索事物间的因果关系,并将这种关系用因果模型、路径图等形式加以表述。结构方程模型与传统的回归分析不同,结构方程分析能同时处理多个因变量,并可比较及评价不同的理论模型。与传统的探索性因子分析不同,在结构方程模型中,我们可以提出一个特定的因子结构,并检验它是否吻合数据。通过结构方程多组分析,我们可以了解不同组别内各变量的关系是否保持不变,各因子的均值是否有显著差异。

    这门课要学习完了,整个学习的过程是充满曲折和挑战的,我见证了自己从一无所知到困惑迷茫再到略懂再到会用的过程。甚至学完之后有些问题还没有彻底搞清楚,自己接下来还会不断的探索的。SPSS是个很神奇的工具,结合AMOS和EXCEL更是如虎添翼,相信学习了SPSS在以后的论文和数据分析中很有用。这门课给我的感觉是看起来很难,但是实际学起来就好很多,因为当我结合具体实例和软件的时候,很多抽象的问题就豁然开朗了。但是想给老师一个建议,这门课需要很强的统计和概率论的基础,要不然就会很难听懂或者听得半懂。然后这门课的很多方法的相关资料都是用在医疗卫生、自然科学领域的,在管理中的应用的资料不怎么多。老师希望我们上课的时候结合在管理中的应用来学习,但是资料有限,希望老师在这个方面多给学生一些引导。

    篇二:spss心得体会

    学习SPSS在教育统计中的应用心得体会

    一、什么是SPSS?为什么要学习SPSS?

    新学期开始时,在信息化教育测量与评价的课程中第一次接触

    到SPSS这个软件,作为本科是计算机专业出身的我,当时只知道SPSS是一套统计软件,就是一套根据统计学原理所编写出来的统计分析软件,至于统计什么?分

    学习spss的心得体会

    析什么?我一无所知,尤其是看到老师推荐的《SPSS在教育统计中的应用》这本书的时候,就简单的把它理解为用SPSS软件来统计、分析与教育相关的数据,最终得出想要的结论而已,而现在看来,我当初的想法未免有点简单与无知。下面就来让我们了解一下SPSS。SPSS软件是一组专业的、通用的统计软件包,同时它也是一个组合式软件包,兼有数据管理、统计分析、统计绘图和统计报表功能。它广泛用于教育、心理、医学、市场、人口、保险等研究领域,也用于产品质量控制、人事档案管理和日常统计报表等。SPSS软件对计算机硬件系统的要求较低;对运行的软件环境要求宽松,有各种版本可运行在WINDOWS XP、WIN7系统环境下, SPSS统计软件采用电子表格的方式输入与管理数据,能方便地从其他数据库中读入数据(如Dbase,Excel,Lotus等)。

    我为什么要学习SPSS呢?其实很简单,一方面,做为一名

    研究生,要具备一定的科研能力,如今量化研究的方法大行其道,一切要以事实说话、要以数据说话,有了数据支持的研究才能更容易被认可、被推论。另一方面,根据对AECT94定义的理解,教育技术

    学研究的对象是学习过程和学习资源,包含大量的偶然现象和非精确现象。因此,要深入研究教育技术现象及其规律,必须运用统计描述、统计分析方法和模糊数学分析方法,才可能使这门学科达到真正完善的地步。教育技术学研究的现象多数是偶然的现象,其变化发展往往具有几种不同的可能性,究竟出现哪一种结果,那是带有偶然性的,是随机的。这类偶然现象是遵循统计规律的,当随机现象是由大量的成份组成,或者随机现象出现大量的次数时,就能体现统计平均规律。我们只有对数据资料作统计处理,才可能可以发现它们的内在规律,掌握现象的特征,检验研究的假设,才能得出准确的、可靠的研究结果。

    二、对本SPSS各章节学习的心得

    新课程老师带领下,采取一种新的学习方式,老师讲解了基础部分后,全班同学采取小组分工、协作学习,然后对全班同学进行讲解学习内容,教师进行当堂指导,这种方法改变了同学们的学习态度,同学们不再是课前不预习,课下不复习的状态,每组都有自己的任务,课前有一定的压力,同学间的讨论也明显的增多,例如:一次课下同学们在一起吃饭,有几位同学还在调侃说“两个菜之间用SPSS进行分析后得出的结果不接受H0假设,也就是两个菜之间不相关”,虽然这只是一个课下的玩笑,但是这也可以体现出对学习的态度的转变。下面就本学期的所学SPSS的各章节做一下归纳,这些归纳也是基于本人平时在课前预习,课上及课后的一些所思所想,也许会有一些理解上的偏颇在内,但这仅限于心得而已。本学期学习各个章节

    及分工如下表:

    章节名称

    1.SPSS的认识

    及数据文件的

    处理

    2.数据清理与

    基本统计及测

    量质量分析

    3.T检验

    4.方差分析

    1、 2人 3人 7.聚类分析 8.统计图形 2人 1人 2人 6.卡方检验 3人 2人 5.相关分析 3人 分工人数 章节名称 分工人数 SPSS的认识及数据文件的处理心得体会

    可能是由于是同学们第一次讲,万事开头难,压力很大,在大家认为最为简单的内容讲解上,两位同学并没有完全展现出二人实际水平,大家在这一节课上都感觉到很压抑,总的感觉是这节内容很简单,但是内容又很松散,可讲的东西太多,讲的东西多就没有突出重点和难点,所以听过之后就有种无数的碎片漂浮在脑海中一样,很难将知识系统化,课后总结一下无非就是两块,一块是了解SPSS软件的历史及基本功能,还有一块就是SPSS软件当中一个模块叫做数据文件的处理,在认识SPSS软件当中了解到它是一组社会科学统计软件包,诞生于1968年,当时美国的3位大学生开发出了它,经过这么多年的后续开发,SPSS已经有了很多的版本,具有了更的兼容性、和更友好的操作界面,也在很多的学科领域得到了应用,而在教育中的应用

    只是它的一个分支。此外它对硬件的要求也很低,当前一般的电脑都能安装它,安装的过程中也没有什么特殊的方法,傻瓜式的安装方式完全就可以满足。在数据文件的处理方面,主要是要学会定义变量、处理变量两方面;定义变量是要注意根据自己实际采集的数据来定义变量,例如是数值型的变量还是文本型的变量及变量的长度,小数点保留尾数等,总之就是一句话,根据实际调查的数据要求来定义相应变量。变量定义只有只要细心的将实际调查的数据录入到SPSS当中即可,当然也可以在SPSS软件之外进行数据编制,可以通过EXECEL等编辑后可以直接导入到SPSS中。在处理变量模块当中,可以对变量进行添加、删除、拆分与合并等操作,只要根据实际调查数据,细心调整变量,使操作更加简便和明了。

    2、 数据清理与基本统计及测量质量分析的心得体会

    数据的清理与基本统计及测量质量分析由两名同学进行讲解,由于吸取了上节课两名同学的经验,本节讲授的明显好于上节课,这里我也是把它分为两块进行学习,一块是数据的清理,另一块是相关统计理论的学习。在数据清理方面主要学习了奇异数据的检查与清理,在这里本人觉得非常有必要进行数据清理,在实际的调查数据时难免会出现错误或者碰到极为特殊的典型案例,所以这些数据很难符合大众规律,在统计、分析过程中可能会造成分析结果异常,从而直接影响最终的结论。所以觉得非常有必要进行数据检查与清理。而我认为本节的难点不是怎样熟练运用SPSS软件,而是在第二块中的,相关统计理论的学习,学习这些理论需要一定的数学基础,只有明确这些

    理(论如均值、标准误差、中数、众数、全距、四分位等)原理,知其然,知其所以然,这才是关键,在SPSS中想要实现对数据进行以上分析只需要轻轻点击一下按钮就可以是轻松实现,但是如果不清楚到底用它们来做什么就无从谈起做数据分析了,所以本节内容知道分析原理的重要性要远远大用SPSS对数据做出相关分析的重要性。总结为一句话“知道它们是做什么的后才会让它们去做该做的工作”。

    3、 T检验的心得体会

    T检验由两名同学讲解,在学习T检验时,首先要明确什么样的数据适合T检验,T检验的结果要说明什么问题?经过学习可以知道,T检验是对两组数据间的平均水平或均数的比较,通过比较可以得出两组数据间的显著性水平,而这两组数据都要符合正态分布,方差具有齐同性,T检验由两种情况,一种配对提检验,要求两组数据不可以独立颠倒顺序,如果颠倒顺序就会改变问题的性质,这种T检验称为配对T检验;另一种情况下的T检验是两组数据可以任意颠倒顺的检验称为独立样本的T检验。但是这两种情况都必须符合最先的要求,即都是符合正态分布,方差都具有齐同性。通过SPSS的相关操作可以轻松完成检验,但是在检验的过程中必须设置置信区间,一般设置为95%,在设置置信区间时必须要考虑到所做分析的数据,如果像要得到显著性差异的结果则可尽量将置信区间设置小些,如果想要得到不显著差异就要将置信区间甚至大些,本人的理解为若置信区间小,则可以理解为在小范围内是可以相信的,但如果将分析结果的置信区间值调大则说明在很大的范围内这个结果可信,反之则不可信,

    篇三:SPSS学习总结

    学习SPSS感想

    以前学统计学的时候就听老师讲过SPSS有非常强大的统计功能,对我们学习、工作有很大的帮助,所以我一直认为SPSS很神秘。通过这个学期周老师的课让我对此清楚了许多,也学到了SPSS强大的统计功能,更加让我明白了SPSS与Excel的区别。

    SPSS是“社会科学统计软件包”(Statistical Package for the Social Science)的简称,是一种集成化的计算机数据处理应用软件。1968年,美国斯坦福大学H.Nie等三位大学生开发了最早的SPSS统计软件,并于1975年在芝加哥成立了SPSS公司,已有30余年的成长历史,全球约有25万家产品用户,广泛分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研、教育等多个领域和行业。SPSS是世界上公认的三大数据分析软件之一(SAS、SPSS和SYSTAT)。

    在学习SPSS期间,我主要遇到的问题是后面几章,SPSS的参数检验、方差分析、相关分析、线性回归分析、聚类分析、因子分析等。

    在参数检验中我不知道原假设是什么,导致分析的时候不知道该拒绝原假设还是接受原假设,不能分析出统计结果。不会区分单样本t检验和两配对样本t检验的区别,现在懂得了它们都要服从正态分布,基本思想是小概率反证法,反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,否则,还不能认为假设不成立。

    在学习方差分析中,开始常常把观测变量和控制变量弄混淆,在分析的时候应分别送入哪个对应框中,如果反了的话会导致结果的不准确。其次,对LSD、Bonferroni、Tukey、Scheffe等方法的使用不清楚,现在基本掌握了多重比较方法选择:一般如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较。宜用Bonferroni(LSD)法;若需要进行多个均数间的两两比较,且各组个案数相等,适宜用Tukey法;其他情况宜用Scheffe法。最后,对方差齐性检验、多重比较检验、趋势检验理解不够透彻,在方差检验中,Post Hoc键有LSD的选项:当方差分析F检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。

    在学习相关分析的过程中,在绘制散点图时,不知道哪个该做横坐标,哪个该做纵坐标,明白了横坐标是解释变量,纵坐标是被解释变量,还有对相关系数的种类分析不熟练等 。在学习回归分析的过程中,对DW可检验的含义不理解,不记得对应的DW表示的残差序列的相关性。对解释变量向前筛选、向后筛选、逐步帅选策略不能熟练掌握,特别是对向前向后筛选时到处的结果不会进行分析。

    学习聚类分析中, 变量的选择分不清,无关变量有时会引起严重的错分,应当只引入在不同类间有显著差别的变量,尽量只使用相同类型的变量进行分析 。 分类数不明确,从实用角度讲,2~8 类比较合适 。 掌握了K-means Cluster 分析,样本量大于100时有必要考虑,只能使用连续性变量。

    学习因子分析的过程中,对提取出来的因子的实际含义不清晰,不能使因子具有命名解释性。

    学习了SPSS后,我不禁想到了SPSS与Excel的区别,这一点是针对像我这样开始只懂得用EXCEL的人来说。从个人的体会来说,二种软件有一定相似,操作都简便,同时又有一些可以互补的地方。但是SPSS又比Excel更加强大:

    一、图型的表现力是SPSS的主要优点之一

    应该说,Excel的图型表现主要是简便,对许多的人来说基本够用,但对于科学的表现,SPSS就更为详细和准确,这一点据说在所有统计软件中都突出。

    二、通过SPSS检验方差齐性和数据分布

    假设检验中,采用的t检验和方差检验都需要满足二个要求,即

    1.样本方差齐性

    2.样本总体呈正态分布

    在Excel中,提供了F检验来检验方差齐性问题,也就是可以先通过F检验确定方差齐性与否来选择下一步用哪个T检验或方差检验分析工具。但只要数据多于二组则无从下手;通过描述统计大约能从峰度和偏度来了解样本的分布实际工作中,只要分布单峰且近似对称分布,也可应用,但要具体确定样本的分布也有难度。这二个问题在SPSS就可以解决

    最后,在感叹它的方便与快捷的同时,对软件开发人员的智慧到了肃然起敬的地步。一直觉得计算机语言是最难的一门外语。虽然本科时曾经对这种逻辑性很强的东西很感兴趣,并在编程课上取得不错的成绩,但一直觉得这似乎不是我能掌控的东西。SPSS的神奇之处在于,它省去了使用者巨大的计算量,并提高准确性。它开发了开发者的智慧,却弱化了使用者的大脑。

    展开全文
  • 职业建设是每个工程专业学生中最珍惜的部分。 对于工程专业的毕业生,有必要在其领域内拥有丰富的知识才能被安置在知名公司中。 数据挖掘用于获取知识,查找隐藏信息,并且该系统还将数据挖掘技术应用于学术数据集。...
  • 这篇博客是我对一次数据分析实验的一个记录和总结。采用的工具为SPSS。涉及到了非参数检验Mann-Whitney U、Kruskal-Waills H(K)检验、Pearson相关性检验、重复测量方差检验等方法。

    实验(一)

    研究设计:

    • 选取由高一、高二、高三组成的265名高职学生,对他们进行心理测试,维度如下:
    • 学生填写的分类信息包括:年级、性别、是否为独生子女。
    • 身体与体育竞赛适应、陌生情境与学习情境适应、考试焦虑情景适应、群体活动适应、心理适应总分(由前四个维度相加可得到)、自我认同感总分。

    研究需求:

    • 需求一:根据下面的常规模型对每个学生的每个维度进行分类,并且测量在各个维度当中学生的平均值、所占百分比、最大值、最小值等基本信息(其中男生与女生要进行分开测量)。

    在这里插入图片描述

    • 需求二:观察不同年级、不同性别以及是否为独生子女在这六个项的得分中是否存在显著差异,如果有差异,进一步探索哪个组与哪个组存在差异。
    • 需求三:观察自我认同感的得分是否与其他5项得分存在一定的相关性,如果相关,观察相关的强度与相关的方向。
    • 需求四:观察自我认同感得分的变化是否会影响到心理适应总分的变化。

    构思:

    • 需求一:起初原始数据当中只有每个项目的分数,而没有分组的这个维度。所以若要实现这个需求,我们必须要在每项后面分别按照常规模型去增加一个变量。这样一来,我们在每项上就拥有了两个维度。那么通过SPPS中的均值分析就可以实现这一需求。
    • 需求二:首先要想探索两个及以上的独立组别之间在某一项得分上是否有差异。首先要进行正态检验与方差齐性检验。因为服从正态分布或服从近似正态分布且方差齐性和不服从正态分布的数据,所要采取的差异分析方式是不同的。若数据服从正态分布且方差齐,观察两个独立组别之间在某一项得分上是否有差异可以使用独立样本t检验。而数据若不服从近似正态分布,如果再继续使用独立样本t检验就很难保证结果的准确性。因此,要转而采用非参数检验当中的两个独立样本检验中的Mann-Whitney U检验(两个独立样本检验)。
    • 需求三:由于要进行相关性检验的两个变量都属于连续变量,因此选择Pearson检验。
    • 需求四:该项需求本希望采用一元线性回归。但是在进行一元线性回归是发现,结果当中的R方和调整后的R方远远低于正常可接受的水平,同时DW检验的结果远远的小于2,即意味着自变量可能自己对自己也会产生干扰,因此,采用这样的方法所得出来的结果是非常的不可信的。目前还没有找到解决办法…

    实施:

    • 需求一:设计好每个分组之后只要得出在每个分组上有多少人,平均值,中位数,最大值,最小值即可。在SPSS中实现这个需求只需要选择均值,然后将所需的数据放入框内即可。
      在这里插入图片描述
      在这里插入图片描述
      结果输出:
      在这里插入图片描述
    • 需求二:进行正态检验的方法有很多(比如:偏度和峰度、S-W检验(小样本<100)、K-W检验(大样本)、Q-Q图、P-P图),经过检验后发现所有数据都不服从正态分布。因此改用非参数检验中的Mann-Whitney U检验来进行两个独立组之间差异的分析。采用Kruskal-Wallis H(K)来检验三组及以上的独立组之间的差异,然后再进一步采用两两比较,来观察哪两组之间存在差异,最后取中位数来确定是何种差异。下面以年级为例:
      首先检验是否为正态:
      在这里插入图片描述
      不服从正态分布,因此要采用非参数检验法:
      在这里插入图片描述
      发现各个年级之间仅在自我认同感总分上有显著差异,因此进一步用两两比较来探索哪些方面具有差异。
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      发现高一年级与高二年级之间在自我总分之间有差异,进而采用取中位数的方法来探索这两组的具体差异。
      在这里插入图片描述
      可发现高一的学生在自我认同方面的得分显著的高于高二的学生。
    • 需求三:采用Pearson相关性检验即可

    在这里插入图片描述
    结果显示,自我认同感总分与心理适应总分呈现显著相关。但是相关的程度从Pearson相关性可以看出为极弱,即这条线比较细。

    • 需求四:待解决
      在这里插入图片描述
      D-W值离2比较远,且R方,即拟合度极低。

    实验(二)

    研究设计:

    • 需求一:选择24名被试,分为实验组与对照组,每组分别为12人。先对两组在同一时间进行实验前测,然后对实验组进行一段时间的心理辅导(6周左右),再次同时对实验组与对照组进行测试。

    研究需求:

    • 心理辅导是否会使得学生在这6项得分上能够有所提高,使得实验前和实验后出现显著差异

    构思:

    • 需求一:首先我对每组数据都进行了正态性检验与方差齐性检验,发现每组数据都服从近似正态分布,且方差齐。因此,接下来就是选择分析方法。

    • 想法一:由于我的目的是要测试,进行心理辅导是否会提高学生在各项得分的提升。因此我要把每个测试项分为4组(A1:实验组前测;A2:实验组后测;B1:对照组前测;B2:对照组后测)。然后对每一个组进行重复测量方差比较,即在每一项上,A1与A2比,A1与B1,B2比,A2与B1,B2比,B1与B2比。理想化一点:A1要与B1、B2没有显著差异,且A1与B1、B2互相之间不完全相等,A2与A1、B1、B2应有差异。(因为测试的时间不一样。比如:经历过爆炸或者恐怖事件的人,他们即使没有接受过心理辅导,在一段事件之后他们的恐慌程度也会降低,只是可能受过心理辅导的人降低的程度更大。)

    • 想法二:
      首先不用讲数据分为四组,但是每个维度仅分为实验组和对照组两组,并且每个维度都有前测和后测两个水平的数据。然后在SPSS当中进行重复度量方差分析。观察测量时间*组别是否有差异。若有,则进行简单效应分析。

    过程:

    • 法一:首先将每个项的数据进行重新整理,分为A1、A2、B1、B2四组,然后检验是否为正态分布。然后根据正态检验结果选择重复测量方差检验的方法。
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      结果均服从正态分布,因此我们可以选择单因素 One-Way ANOVA进行重复测量方差检验分析。
      在这里插入图片描述
      在这里插入图片描述
      方差齐,且组间存在差异,因此进行多重比较
      在这里插入图片描述
      结果表明:A2与其他组均存在显著差异,并且其他组之间不存在显著差异。

    • 法二
      数据设置:
      在这里插入图片描述
      操作步骤:
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      结果分析步骤:
      首先看球形检验的结果(只有当数据有三个及以上水平才会进行球形检验,若服从球形检验假设,则看主内对比检验,若不服从,则看多变量检验表)。
      在这里插入图片描述
      两个水平的数据无法做球形检验,所以一般看多变量检验
      若发现某项时间*团辅序号上存在差异,则进一步进行简单效应分析。
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    重复测量方差总结:

    1. 数据:数据至少有两个及两个以上的分组,并且要求每个组有两个及两个以上水平的数据。如,将被试对象分为对照组和实验组,同时对两个组进行实验前测和实验后测。那么进行重复测量方差分析就是要做2*2的重复测量方差分析。
    2. 若有三个及以上水平的数据,在分析结果时,首先要看球形检验表,如果球形检验的p值>0.05,那么分析结果时就要看主效应检验表。若不服从球形检验就要,那么就要看多变量检验表。
    3. 若发现交互效应检验当中的p<0.05,则要进一步进行简单效应分析。由于SPSS中自带简单效应分析模块,因此就要通过输入代码来实现该功能,代码如下:
      在这里插入图片描述
    展开全文
  • 在影响本科生学习成绩的几种因素中,针对高考成绩这一因素是定量指标的特点,首先将有序样本进行聚类分析,从而把定量指标定性化,进而应用统计中的方差分析模型,找到影响在校学生成绩的重要因素,由此对今后的教学管理...
  • spss成绩练习数据

    2018-08-15 12:00:55
    学习spss的练习资料,学生姓名成绩学号等内容供学习者练习使用
  • 使用《科学社会统计软件包》(SPSS 21版)对数据进行分析,以分析描述性数据。 描述性统计用于查找均值,标准差,频率,百分比和推论统计,以找到t检验来回答研究的所有假设。 研究结果表明,治疗组的学生在预测试...
  • 基于SPSS的数据分析

    2021-07-23 04:30:06
    2本课程的教学目标通过本课程的学习,学生应能了解spss统计分析方法的核心思想,从实际应用出发,结合spss数据理论与分析方法,对数据进行加工和整理,理解spss统计量对分析结论的重要性,正确、合理和完整地引用...

    基于SPSS的数据分析

    课程编号:2417340                    学时学分:48(3)

    1 本课程的性质及适用专业

    本课程是一门专业必修课,适合于信息管理与信息系统专业。

    2本课程的教学目标

    通过本课程的学习,学生应能了解spss统计分析方法的核心思想,从实际应用出发,结合spss数据理论与分析方法,对数据进行加工和整理,理解spss统计量对分析结论的重要性,正确、合理和完整地引用分析结果,能将spss灵活运用于数据分析和科学决策中。

    3对先修课程的要求

    建议先修课程为:计算机基础、管理学、统计学、高等数学。

    4本课程教学内容及基本要求

    4.1 spss统计分析软件概述

    教学内容:spss的发展和特点,spss安装的基本步骤,spss数据编辑窗口,spss结果输出窗口,完全窗口菜单方式,程序运行方式,混合运行方式,明确数据分析目标,正确收集数据,数据的加工整理,明确统计方法的含义和适用范围。

    基本要求:了解spss的发展和特点,了解spss安装的基本步骤,熟悉spss的基本操作环境,掌握启动和退出spss的方法。掌握数据分析的一般步骤和利用spss进行数据分析的一般步骤。

    4.2 spss数据文件的建立和管理

    教学内容:原始数据的组织方式,频数数据的组织方式,变量名,数据类型,变量名标签,变量值标签,缺失数据,度量尺度,结构定义的基本操作,spss结构定义的应用案例,spss数据的录入、编辑,纵向合并数据文件,横向合并数据文件。

    基本要求:了解spss数据文件的特点,spss数据的基本组织方式,掌握spss数据的结构和定义方法,掌握spss数据的录入与编辑,spss数据的保存,掌握spss数据文件的合并。

    4.3 spss数据文件的预处理

    教学内容:数据排序的目的,基本步骤,spss算术表达式,条件表达式,spss算术函数,统计函数,分布函数,逻辑函数,字符函数等,计数区间和基本操作,分类汇总的基本操作,spss的单变量值分组,spss的组距分组,分位数分组,数据转置,加权处理,数据拆分

    基本要求:了解数据排序的目的,掌握数据排序的基本操作,了解变量计算的目的和各种表达式,熟悉spss各种函数的运用,了解数据选取的目的,数据选取的基本方式和基本操作,了解计数的目的,掌握计数的基本操作,了解分类汇总的目的,掌握分类汇总的基本操作,了解数据分组的目的,掌握spss的单变量值分组,spss的组距分组,分位数分组,掌握数据预处理的其他功能。

    4.4spss基本统计分析

    教学内容:频数分析的目的,基本操作,计算分位数,刻画集中趋势的描述统计量,刻画离散程度的描述统计量,刻画分布形态的描述统计量,交叉列联表的主要内容,交叉列联表的卡方检验,频数分析,多选项分析,比率分析,

    基本要求:掌握频数分析的目的和基本任务,熟悉频数分析的基本操作,掌握频数分析的扩展功能,熟悉计算基本描述统计量的基本操作,了解交叉分组下的频数分析的目的和基本任务,掌握交叉列联表行列变量间关系的分析,熟悉交叉分组下的频数分析的基本操作,了解多选项分析的目的,熟悉多选项分析的基本操作,了解比率分析的目的和主要指标,熟悉比率分析的基本步骤。

    4.5spss的参数检验

    教学内容 :推断统计与参数检验,假设检验的基本思想和基本步骤,单样本t检验的基本步骤和基本操作,两独立样本t检验的基本步骤和基本操作,两配对样本t检验的基本步骤和基本操作。

    基本要求 :熟悉假设检验的基本思想和基本步骤,了解单样本t检验的目的,掌握单样本t检验的基本步骤和基本操作,了解两独立样本t检验的目的,掌握两独立样本t检验的基本步骤和基本操作,了解两配对样本t检验的目的,掌握两配对样本t检验的基本步骤和基本操作。

    4.6spss的方差分析

    教学内容:单因素方差分析的基本思想,单因素方差分析的基本步骤和基本操作,多因素方差分析的基本思想,多因素方差分析的基本步骤和基本操作,协方差分析的基本思想,协方差分析的基本步骤和基本操作

    基本要求:熟悉单因素方差分析的基本思想,掌握单因素方差分析的基本步骤和基本操作,熟悉多因素方差分析的基本思想,掌握多因素方差分析的基本步骤和基本操作,熟悉协方差分析的基本思想,掌握协方差分析的基本步骤和基本操作。

    4.7spss的聚类分析

    教学内容:定距型变量个体间距离的计算方式,计数变量个体间距离的计算方式,二值变量个体间距离的计算方式,体与小类,小类与小类间“亲疏程度”的度量,K-Means聚类分析的核心步骤和基本操作。

    基本要求:了解聚类分析的意义,掌握聚类分析中“亲疏程度”的度量方法,掌握层次聚类的两种类型和两种方式,掌握个体与小类,小类与小类间“亲疏程度”的度量方法,熟悉层次聚类的基本操作,掌握K-Means聚类分析的核心步骤,熟悉K-Means聚类分析的基本操作。

    4.8spss的因子分析

    教学内容: 因子分析的意义,数学模型和相关概念,因子分析的基本步骤,前提条件,因子提取和因子载荷矩阵的求解,因子的命名,计算因子得分,因子分析的基本步骤。

    基本要求: 了解因子分析的意义,数学模型和相关概念,掌握因子分析的基本内容,熟悉因子分析的基本步骤。

    5本课程实践教学环节要求

    本课程实践教学环节为课程实验,要求学生在教师指导下完成相关实验内容,体会spss的实际应用,并撰写实验报告。

    6 本课程学时分配序号内容讲课实验小计

    1spss统计分析软件概述22

    2spss数据文件的建立和管理347

    3spss数据文件的预处理33

    4spss基本统计分析347

    5spss的参数检验448

    6spss的方差分析347

    7spss的聚类分析347

    8spss的因子分析347

    合计242448

    7 其它说明

    7.1教学参考资料

    1卢纹岱,朱红兵. SPSS统计分析. 第5版.北京:电子工业出版社,2015.

    2薛薇.统计分析与spss的应用. 第4版.北京.电子工业出版社,2014.

    3张文彤.SPSS统计分析基础教程.第3版.北京.高等教育出版社,2017.

    7.2教学方法和手段

    使用多媒体或普通教学手段授课;尽量在课堂上多提问,多举案例,使学生有良好的学习氛围。

    7.3考核方式

    考查

    8 本大纲修订情况版    次1234

    执行时间2015

    执    笔朱洪云

    审    核董绍斌

    批    准范钦满

    展开全文
  • 学习过程亲身感受 目前为止已经学习了近4个月的课程,已经完Excel、数据分析思维、MySQL、Tableau、quickBI、神策、hive、统计学,每一阶段每一模块的知识都是在线自主学习,完成作业后解锁新课程,直播课会根据...

    08c8614e69d93019989c45f6d2af6343.png

    笔记内容来源:拉勾教育数据分析实战训练营

    我是一个在教育留学行业8年的老兵,受疫情的影响留学行业受挫严重,让我也不得不积极寻找新的职业出路。虽然我本身是留学行业,但对数据分析一直有浓厚的兴趣,日常工作中也会做一些数据的复盘分析项目。加上我在留学行业对于各专业的通透了解,自2016年起,在各国新兴的专业--商业分析、数据科学都是基于大数据分析的专业,受到留学生的火爆欢迎,可见各行各业对于数据分析的人才缺口比较大,所以数据分析被我作为跨领域/转岗的首选。对于已到而立之年的我,这是一个重要的转折点,所以我要反复对比课程内容选择最好的,在7月中旬接触刚拉勾教育的小静老师后,她给我详细介绍了数据分析实战训练营训练营的情况,但我并没有在一开始就直接作出决定。除了拉勾教育之外,我还同时对比了另外几个同期要开设的数据分析训练营的课程,但对比完之后,基于以下几点,我最终付费报名了拉勾教育的数据分析实战训练营:

    1、课程体系最全面:课程内容有分析方法论、分析方法、Excel、Mysql、Tableau、Quick BI、神策平台、Hive、统计学、Python、挖掘算法、Spss等,是目前我看到的最全面的。

    2、课程体系把握行业人才需求痛点:拉勾主营业务是招聘,最明白企业的人才需求,基于此设计的课程体系是比较贴近实际需求的。通过5个月周期10个阶段,从现状统计到预测分析、从业务数据到编程工具处理复杂业务逻辑数据,实现用数据驱动业务,辅助决策,提升公司业绩。

    3、课程学习模式灵活:大部分授课采用录播方式,学习完成后还有直播答疑。比直播打卡更容易安排自己的时间。

    4、课程学习过程和结果有保障:学习成果作业检测+实时答疑+班主任督导,每个阶段每个模块的知识学完的作业可以锻炼实操。

    5、项目实战内容丰富:也是我我最看好的一点,涵盖了在线教育、电商等多个领域多个项目实战。

    6、就业辅导+优秀内推:拉勾平台是互联网行业招聘大本营,这是天然优势。

    学习过程亲身感受

    目前为止已经学习了近4个月的课程,已经学完Excel、数据分析思维、MySQL、Tableau、quickBI、神策、hive、统计学,每一阶段每一模块的知识都是在线自主学习,完成作业后解锁新课程,直播课会根据全体学员进度,收集疑问然后进行在线直播内容回顾和答疑以及作业讲解。每位讲师都很优秀,都有自己的授课特色所在,内容都是很干货的录好的内容,有些内容导师还会重新录制,不断迭代让学员达到更好的学习体验。作业批改、答疑导师西蒙(我接触最多的,经常麻烦他帮我解决问题)和班主任团子比较nice,认真负责,他们分别负责技术答疑和服务类的问题,平时有问题可以在微信群里问,可以单独聊也可以群里问,他们全天非工作日也会答疑。

    这里面我印象最深刻的是SQL的授课老师应颠老师(也很遗憾只知道这位老师的名字),讲解由浅到深,思路非常清晰,对于代码的剖析过程有非常详细的注释,让我这样的小白能够很好的吸收知识。 最开始报名的时候说每周8-12小时足够,但现在看来我每周需要花更多的时间去攻克这些知识点,所以课程是性价比非常高了。每天松懈的时候一看到课表要求的进度,就不断促使我继续坚持学习按照进度来。

    统计- 学习笔记归纳

    一、卡方检验

    假设检验的结论:ρ<0.05,则研究假设成立;反之,p>0.05则研究假设不成立.

    卡方检验的重要性

    适用于不知道总体参数的检验,是最常用的一种非参数检验。 当不适用参数检验法时,第一个想到的就是卡方检验。

    卡方检验的应用场景

    以SPSS自带数据telco.sav为例:

    1、比例分布检验

    检验一个变量中取值的比例分布是否均匀,或者是否符合设定比例分布。

    原假设:变量的取值分布与均匀分布(或研究者设定的分布)没有显著差异

    研究假设:变量的取值分布与均匀分布(或研究者设定的分布)有显著差异

    p<0.05,则研究假设成立。

    例:确定一袋糖豆是否包含相等比例的蓝色、棕色、绿色、橙色红色和黄色糖果。也可以检验一袋糖豆是否包含5%蓝色、30%棕色、10%绿色、20%橙色、15%红色和15%黄色的糖果

    SPSS操作:分析-非参数检验-旧对话框-卡方

    如果只检验前3种,下限1,上限3

    58d0fc6243c2327fe6556782e5c4a86a.png

    4d125557551d56b6cf7d7cc3b7ffde8a.png

    b2e2a579a000093075efabb65071bd2e.png
    2、二项式检验

    检验一个变量取二分类两个值的概率是否符合设定的概率。

    原假设:变量的第一个取值比例与设定比例没有显著差异

    研究假设:变量的第一个取值比例与设定比例有显著差异

    p<0.05,则研究假设成立。

    例:当您掷出一枚硬币,正面朝上的概率为1/2。根据这一假设将硬币抛掷40次,并记录结果(正面朝上和反面朝上的情况)从二项式检验中,您可能发现,3/4的抛掷都是正面朝上,且观测的显著水平很小(0.0027)。这些结果表明,正面朝上的概率不可能等于1/2;硬币可能是有偏倚的。

    SPSS操作:分析-非参数检验-旧对话框-二项

    分割点:是将一个连续变量,选择一个值分割为大于该值和小于该值。

    02a34d229814ea23ba1fdfc6e656ff84.png
    3、K-S检验

    检验样本来自的总体中,一个变量的分布是否服从正态分布、均匀分布、泊松分布、指数分布

    原假设:变量来自总体的分布与正态分布(或均匀分布等)没有显著差异,即变量在总体中呈现正态分布(或均匀分布等)

    研究假设:变量来自总体的分布与正态分布(或均匀分布等)有显著差异,即变量在总体中不呈现正态分布(或均匀分布等)

    p<0.05,则研究假设成立。

    SPSS操作:分析-非参数检验-旧对话框-单样本K-S

    1010418cd47c923626970f3001bfe8ad.png
    4、游程检验

    检验一个变量的两个取值出现顺序是否随机。两个值出现比例各占50%

    检验场景:通常是检验随着时间变化而产生的两个数值,出现顺序是否随机。

    原假设:变量两个值出现顺序和随机出现没有差异,即变量两个值出现是随机的

    研究假设:变量两个值出现顺序不是随机的。

    p<0.05,则研究假设成立。

    SPSS操作:分析-非参数检验-旧对话框-游程

    分割点可以选择中位数,平均值,或定制

    3d998f831697b69b2ca663e2fdb63191.png
    5、独立样本非参数检验

    独立样本:两组不同不重叠的样本,比如男性和女性在收入、年龄等等分布上是否有差异,即检验不同人群在特定变量取值上是否有差异

    注意:分组变量是分类变量、比较变量是连续变量

    原假设:两组来自总体的变量数据在分布上没有差异,即两组数据在该变量的取值上没有显著差异

    研究假设:两组来自总体的变量数据在分布上有差异,即两组数据在该变量的取值上有显著差异

    操作:分析-非参数检验-旧对话框-2个独立样本

    9d6216604b6849d49eb27054c36c67b4.png

    039f865ba6e5a7a67a0f4cc4a0a5b5de.png

    12675c188d32c3fd36d85af3487df826.png
    6、配对样本非参数检验

    配对样本:同一组人群在不同时间采集的两组或多组数据;或者同一组人群不同身体部位采集的两组或多组数据。

    检验同一组人群在不同时间、不同部位采集的数据是否有差异。

    注意:t1、t2,比较的变量必须是连续变量

    原假设:来自总体的同一组人群的两组数据在分布上没有差异,即两组数据在该变量的取值上没有显著差异

    研究假设:来自总体的同一组人群的两组数据在分布上有差异,即两组数据在该变量的取值上有显著差异

    SPSS操作:分析-非参数检验-旧对话框-2个相关样本

    57bda04d5d2d3962b03813637e8394c6.png

    7fff97e1b3637bdbe87c13bd33613d9d.png
    7、交叉分析(列联表分析)

    检验两个分类变量(定类和定序)是否存在相关性。

    如果场景中需要对连续变量进行卡方检验,首先需要将连续变量转换为分类变量,如年龄分成70后、80后、90后、00后。.

    连续变量转成分类变量的操作:转换-重新编码为不同变量,收入分为0-50、51、400、401+

    如果两个变量都是定类变量,相关系数可通过卡方检验中“名义“里的四个相关系数;如果两个都是定序变量,则选择"有序"里的四个相关系数。

    问:如果两个变量中,一个为定类变量,一个为定序变量,相关系数应该选哪个?

    答:应该用“名义"中的四个相关系数。原因是定序变量可降级为定类变量,而定类变量不可以升为定序变量。

    SPSS操作步骤:

    082366f5ec47fd936fe1c26a2b57bc9d.png

    a7cd7444f0334550eeaf028d207f2dd3.png

    e9cd392eabecdea515efd06e16dd986e.png

    4a28b1d5da6991abd71a6c1d1ebb8d70.png

    结果解读

    第一步:看卡方统计结果,根据P值判断两个变量是否存在相关性,如p<0.05,则说明两者存在显著相关性。

    第二步:看相关系数,判断两者之间相关性到底有多大。0-0.2,较弱相关;0.2-0.4,弱相关;0.4-0.6,相关性一般:0.6-0.8,较强相关;0.8-1,极强相关。

    第三步,看频次分布,具体分析两者存在什么样相关。

    二、t检验

    t检验,方差检验都是参数检验,需要知道总体的参数情况,参数检验的前提是服从正态分布

    1、单样本t检验

    用来检验样本中某个连续变量均值与给定的总体均值是否存在差异

    原假设:样本来自总体的该变量均值与给定均值之间没有显著差异

    研究假设:样本来自总体的该变量均值与给定均值之间有显著差异I

    当p<0.05, 则研究假设成立

    用到的变量:一个连续变量

    例:

    1.周岁儿童的平均身高是否为75厘米

    2.居民平均存(取)款金额是否为2000元

    SPSS操作:分析-比较平均值-单样本t检验

    adc78ca3586f90262eee82dfdac33deb.png

    07a058e872d39e5662376429f53caeb6.png
    2、独立样本t检验

    用来检验两组独立样本在某个连续变量的均值是否有显著差异

    原假设:两组独立样本来自的总体在该变量的均值上没有显著差异

    研究假设:两组独立样本来自的总体在该变量的均值上有显著差异

    用到的变量:一个连续因变量和一个分类自变量(如果是连续变量,也可以将连续变量进行分组得到一个分类变量)

    方差齐性检验:

    原假设:两组总体中的方差是相等的

    研究假设:两组总体中的方差是不等的

    当p<0.05,则研究假设成立,即两组总体中的方差是不等的,需要看第二行的t值检验结果。反之则看第一行的t值结果。

    SPSS操作步骤:分析-比较平均值-独立样本t检验

    9d6216604b6849d49eb27054c36c67b4.png

    4e5c5d833b92e68b3481b32a41b79c8b.png

    039f865ba6e5a7a67a0f4cc4a0a5b5de.png

    3a333eb684848dd309b4d77880c1f0e6.png
    3、配对样本t检验

    用来检验同一组样本不同时间/部位/处理条件测量得到的两组数据均值是否存在差异

    原假设:两组配对数据之间没有显著差异

    研究假设:两组配对数据间有显著差异

    变量:两个连续变量(其实是针对同一组人群不同时间/部位/处理条件测量的两组数据)

    SPSS操作:分析-比较平均值-成对样本t检验

    0117b54242cd89ef5c6efa136434409f.png

    三、方差检验

    变量:自变量既可以是分类也可以连续变量,因变量必须是连续变量

    1、单因素方差检验

    检验3组及以上人群在某个连续变量均值上是否存在差异,或某个分类变量对某个连续变量是否存在显著相关。

    变量:因变量是一个,且为连续变量;自变量是一个,为分类变量

    原假设:自变量与因变量之间不存在显著相关(不同人群之间在该连续变量的均值上没有显著差异)

    研究假设:自变量与因变量之间存在显著相关(不同人群之间在该连续变量的均值上显著差异)

    例:

    1、考察不同学历是否对工资有显著影响

    2、考察不同的推销策略是否对销售额产生显著影响

    3、考察不同肥料对某农作物亩产量是否有显著差异

    SPSS操作:分析-比较平均值-单因素 ANOVA检验

    1)两两比较中根据方差齐性检验结果,来选择方差相等的比较结果或方差不等的检验结果

    2)方差齐性检验:选项-方差齐性检验。当方差不齐时,则通过非参数检验中的K个独立样本检验法进行检验

    9db1e466d54fa15caa76d50fa4d15d68.png

    277ea475ddb7b8cc2ca8d4d8c15976c3.png

    978de0f6645f68f9db77691c4ea24f42.png

    方差检验基于平均值,P=0.001<0.05,说明变量各总体方差不相等

    只能看不等方差的两两对比。如P=0.898>0.5, 原假设成立,高中毕业和高中未毕业在收入上没有显著差异

    429938828b801fdcdb56a7db2546460b.png

    由于方差不齐,不能用方差检验,只能两两比较,但要看学历整体对收入有无差异,就用非参数检验方法,分析-非参数检验-旧对话框-K个独立样本

    123a05a32a4c10d1ba434c5488e1a7f7.png

    9c7ee84a041a7a11edd7e8ba79e6acab.png

    79b28a9dccb5bfcd359c0ad499881fd2.png

    e1375f50c2aa92864211feab60046f8d.png

    p<0.05, 研究假设成立,不同学历的五个独立样本在收入的分布上有显著差异

    2、多因素方差检验

    检验多个变量在某个连续变量均值上是否存在差异,或多个变量对某个连续变量是否存在显著相关。

    变量:因变量是一个,且为连续变量;自变量是多个,既可以是分类变量也可以为连续变量

    原假设:多个自变量与因变量之间不存在显著相关

    研究假设:多个自变量与因变量之间存在显著相关

    SPSS操作:分析-一般线性模型-单变量

    如果自变量的取值未收集全,想推导所有的,就放入随机因子,取值收集全的变量或只想了解已知的取值影响,就放入固定因子

    协变量:需要加以控制的,或是连续变量

    全因子模型:既考虑所有自变量对于因变量直接效应,又考虑所有分类变量的交互作用对因变量的影响

    定制模型:可根据研究者自身需求,定制需要考虑的对因变量的影响因素。比如只考虑自变量的直接效应,或部分自变量的交互作用

    当自变量特别多时,尤其是分类自变量多时,且样本量不多时,应该使用定制模型。

    abef5d99bda0cc4e14c97c1e4cde9a21.png

    b095e14d2dd190dac485e221a8cf17bd.png

    767d4403a589edd66c7b5df6e556f493.png

    学历、退休、婚姻、年龄对于收入有显著影响

    四、多变量分析方法的选择

    1、方法选择:

    有因变量,则建立有监督模型

    有监督模型具有两大通用目的:

    1)分析哪些自变量对因变量存在显著影响作用

    2)通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型。

    方法选择:

    1)因变量为连续变量(建立的模型又称为回归预測模型),自变量为连续变量时,可选择回归分析、方差分析;自变量为分类变量或分类+连续变量,可选择带虚拟变量的回归分析、联合分析、方差分析。

    2)因变量为分类变量(建立的模型称为分类预测模型),当自变量为连续变量(或连续+分类变量)时,可选用判别分析、 LogistIc、 probit回归等;当自变量全部为分类变量时,可选用对数线性回归。

    无因变量,则建立无监督模型

    目的:1)对人进行分类,2)对变量/指标进行分类,3)分析变量与变量之间的测量关系

    方法选择:

    1)自变量为连续变量时,选择因子分析(对变量/指标分类)、聚类分析(对人分类、对变量/指标分类)

    2)自变量为分类变量时,对应分析(对人分类)、多维尺度分析(对人分类)

    其他分析

    1)当模型中需要加入潜在变量(通过多个客观指标测量的抽象概念)、或需要考虑多个变量之间的因果关系时,可选择结构方程模型、路径模型、协方差分析等。

    2)综合评价:通过多个指标对多个评价对象进行排名,可选择层次分析法、因子分析等

    2、相关分析:

    相关系数

    相关系数是衡量两个变量之间变化趋势的相似性

    不同变量类型的相关系数
    • 两个变量都为连续变量,则可用 pearson相关系数
    • 两个变量都为定序变量,则可用GMMA等相关系数
    • 两个变量都为定类变量,则可用 LAMMDA等相关系数
    • 一个变量为定类变量,一个变量为连续变量,可通过ETA系数来测量相关性
    三种重要相关系数

    1) pearson相关系数:参数检验,针对两个都是连续变量的数据进行相关性判断

    2) spearman相关系数:非参数检验,针对两个都是定序变量

    3) Kendals tau-b相关系数:非参数检验,针对两个都是定序变量

    相关分析的假设检验

    原假设:两个变量来自总体中不存在显著相关性

    研究假设:两个变量来自总体中存在显著相关性

    显著性检验目的:是用来判断两个变量在总体中是否存在相关性

    相关系数的目的:是计算两个变量在样本数据中的相关性强弱

    3、回归分析

    皮尔逊相关系数与简单回归分析之间的区别是,相关分析不区分自变量和因变量,而回归分析一定区分解释变量和因变量。这是因为回归分析的目的是,根据预测变量的给定值来对因变量取值进行预测。

    目的

    当需要用一个数学表达式(模型)表示多个因素(原因)与另外一个因素(因素)之间关系时,可选用回归分析法。

    应用

    1)分析哪些自变量对因变量存在显著影响作用,R方值可以不要求大于0.8: 2)通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型,模型R方值必须要求大于等于0.8

    但是,在人文社科领域,很多回归模型的R方值达不到0.8,也可以用来做预测。

    回归分析分类:
    • 因变量自变量都是定量变量的回归分析:普通回归分析
    • 因变量是定量变量,自变量中有定性变量的回归分析:含有哑变量/ 虚拟变量的回归分析
    • 因变量是定性变量的回归分析: Logistic回归分析

    虚拟变量

    原因:分类变量无法参与到回归模型中的加减乘除运算

    操作:将原先的分类编码统一转换为0、1数值

    回归分析前提

    线性趋势:自发量和因发量的关系是线性的,如果不是,则不能采用线性回归奎分析。可以通过散点图来加以判断

    独立性:因发量y的取值相互独立,之间没有联系。-反映到模型中要求残差闻相互独立,不存在自相关,否则应采用自回归模型分析

    正态性:自发量的任何一个线性组合,因发量y均服从正态分布。-反映到模型中要求残差服从正态分布

    方差齐性:就自发量的任何一个线性组合,因发量y的方差均相同。-反映到模型中要求残差的方差齐性。

    回归分析建立步骤

    1)选择变量 因变量:根据研究需求或问题推导出来 自变量:第一:前人的研究成果,第二:个人经验

    2)确定自变量与因变量之间的关系

    首先,挨个将自变量与因变量画散点图,判断每个自变量与因变量之间是线性还是非线性关系。 其次,通过卡方检验、T检验、F检验或相关分析法,挨个分析每个备选的自变量与因变量之间是否存在显著的相关性。将与因变量明显没有相关性的自变量剔除掉,不加入到后期模型中。

    3)选择对应的线性方程或非线性方程,进行各项参数的计算

    4)对模型进行全方位检验

    多元线性回归SPSS操作

    解决问题:分析影响人们家庭收入的因素有哪些,建立预测收入的回归方程

    因变量:家庭收入

    自变量:年龄、工作年限、性别、学历

    操作:

    首先,挨个将自变量与因变量画散点图,判断每个自变量与因变量之间是线性还是非线性关系。

    图形-图表构建器

    34eb2e76411c96ad3d44324341f215bc.png

    1、转换=重新编码为不同变量,定义旧值与新值的转换关系

    3d5385391403f058bd280cb1fd2d7001.png

    2、分析-回归-线性,输入:把所有自变量全部放入模型中

    84d301a5b851d149d2cffbfaecb25f3f.png

    3、统计-共线性诊断,残差-DW诊断检验

    7776effad6b3f5c1d58dfae6b22f6db5.png

    4、图-标准化残差图-直方图、正态概率图

    eba0454df8dc8fb73bead41a25bac26c.png

    5、结果解读:

    1)拟合优度检验R方值F值,F值对应的概率P值小于0.05,研究假设成立,即至少有一个自变量对因变量存在显著影响

    f0483f4da81690007c117c26f4dfc930.png

    2)参数显著性检验 根据每个自变量的t值对应的概率P值是否小于0.05,如小于0.05,则研究假设成立,即该自变量对因变量存在显著影响。

    根据下表得出,工作年龄和学历对收入显著影响,而年龄和性别没有。通过标准化系数来判断两者对影响程度大小,可知工作年限的影响明显大于学历。(标准化系数是-1-1之间)

    工作年限对收入影响程度:在其他变量不变的情况下,工作年限每增加一个单位(1年),则因变量家庭收入平均6.279个单位

    学历对收入的影响程度:Ed1=-51.042表示ed1代表的学历人群(高中以下)比对照的学历人群(大专)在因变量家庭收入上,平均低51.042个单位。

    03dfcce0487da266f6776fa3484381b8.png

    3)共线性检验 通常根据VIF>10,自变量之间存在共线性。

    如果存在共线性,需要采用逐步回归法,剔除应该剔除的自变量。容差和VIF是导数关系

    4)残差检验 DW(德宾-沃森)越接近2,表示残差不存在自相关性。DW在0~2或-2~0之间,表示残差存在自相关性。

    需要注意,上述建立的模型不是最终模型,因为模型里面存在对因变量没有产生显著影响的自变量,产生了一定的噪音,需要在模型里面把噪音删除掉。

    重新线性回归-步进

    fe8ad3e5f22310229a46c8e4d82a4efa.png

    1437ee365e619c3a6033f872c8259be4.png

    回归方程

    先通过逐步回归法,将对因变量没有显著影响的自变量从模型中删除,得到干净的模型。

    方程:y=34.601+6.021*工作年限-62.647*ed1-36.379*ed2

    4、Logistic回归

    应用场景:做分类预測模型,且为非参数检验方法。可以用于二分类、无序多分类、有序多分类

    二元Logistic回归SPSS操作

    分析-回归-二元Logistic

    例:预测是否退休

    209d1b94812f8902324949b3ccf6aca5.png

    分类变量转换为虚拟变量

    1aad323f97fb1925537aac4ca35b4a2f.png

    a3b20718f5fd6ac785887f65ee3303c9.png

    8729337d2b1beb2c789a224bd9287dde.png

    0342935aa95e520df8f4e0fbd4486474.png

    结果解读

    1)根据参数检验中的p<0.05,得到自变量对因变量存在显著影响,即年龄和学历3对退休有显著影响

    2)根据Wad值的大小,判断自变量对因变量的影响程度排名,瓦尔德值越大,自变量对因变量的影响程度越高(学历需要看7.838)

    3)优势比OR值即Exp(B)大于1,表示该自变量会增加因变量取1的概率;反之会降低因变量取1的概率。和B对应,正值对应Exp(B)大于1,负值对应Exp(B)小于1

    4)连续自变量对因变量的影响程度:在其他变量不变的情况下,当年龄增加一个单位(1岁)时,优势比增加1.385倍 (年龄越大,退休概率越高)

    5)分类自变量对因变量的影响程度:在其他变量不变的情况下,大专学历的优势比是研究生学历优势比的0.120倍(大专学历的概率高于研究生学历的退休概率)

    6)LogistIc公式:

    ln(p/(1-p))=-20.305-0.782*ed1-0.561*ed2-2.121*ed3-1.897*ed4-0.429*gender+0.326*age

    (这不是最终模型)

    7)计算出概率,p>0.5,预测退休

    a5d6bb23a0e701ef765117383b2539b7.png
    展开全文
  • 最近一直想入门数据分析的小伙伴问我,如果要入事数据分析一直来说要那些语言呢?其实小编跟企业部门与侯选人接触下来,给我的感觉是对于这个初级的数据分析师来,一般前二年做差不多都是老大让你做的是处理临时...
  • 牛津的SILL问卷经过改编并翻译成受访者的母语,并且SPSS 7.0版本用于数据分析。 这项研究的结果表明,练习策略是最常用的策略,而女学生则更倾向于采用策略来提高其口语能力。 该研究建议在语言课堂中采用其他策略...
  • 4.1 研究背景及意义 现在社会竞争激烈,对于即将走上社会工作岗位的大学生来说...影响学生身体素质下降的原因有很多,怎样可以提高学生的身体素质成为人们所关心的问题。 《学生体质健康标准》是《国家体育锻炼标准.
  • 应用SPSS软件对大学生课外阅读情况分析 【摘要】 在实施素质教育的今天,课外阅读更是提高学生素质的重要途径之一。众所周知,一个学生综合素质的提高,仅局限于课本知识的学习是远远不够的。因此,要想提高学生的...
  • 通过SPSS,调查结果表明,使用YouTube的学生在对应用程序的使用和自主学习的信念方面存在显着差异。 研究表明,YouTube应用程序在这些学生中得到了高度认可。 他们获得的经验也值得作为一种自学的方式来认可。
  • 目前有关SPSS统计分析的书籍较多,但针对心理专业教学方面的书籍几乎没有,使得教学过程中出现一些困难,如一些书上所举的例子、所练习的数据多适合医学等学科使用,和心理教育专业相差太远,所以,教学过程中,...
  • 本文通过问卷调查、观察、访谈和记录等方法对河南理工大学和英国朴茨茅斯大学的246名大学生社会称谓语的使用情况做了调查,用SPSS法对统计结果进行了分析,并主要从其构成和来源两方面分析了大学生使用社会称谓语的...
  • 目前有关SPSS统计分析的书籍较多,但针对心理专业教学方面的书籍几乎没有,使得教学过程中出现一些困难,如一些书上所举的例子、所练习的数据多适合医学等学科使用,和心理教育专业相差太远,所以,教学过程中,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,790
精华内容 716
关键字:

学生学spss