精华内容
下载资源
问答
  • SPSS因子分析法的操作步骤,深入浅出分析了SPSS因子分析法的基本原理,让初学者掌握和理解SPSS中因子分析。
  • 因子分析SPSS中的操作过程及结果解读

    万次阅读 多人点赞 2019-01-14 16:28:27
    因子分析SPSS中的操作过程及结果解读 笔者在做该项研究时在网络上查阅了大量资料,都写得不够十分完整,所以该篇文章将因子分析从前到后做一个通俗易懂的解释,全文并不涉及非常晦涩的公式原理。 一.因子分析是...

    因子分析在SPSS中的操作过程及结果解读

    笔者在做该项研究时在网络上查阅了大量资料,都写得比较专业,所以该篇文章将因子分析从前到后做一个通俗易懂的解释,全文并不涉及非常晦涩的公式原理。

    一.因子分析是什么:

    1.因子分析:

    因子分析模型中,假定每个原始变量由两部分组成:共同因子唯一因子共同因子是各个原始变量所共有的因子,解释变量之间的相关关系唯一因子顾名思义是每个原始变量所特有的因子,表示该变量不能被共同因子解释的部分。
    (帮助解读:举个例子,现在一个excel表有10个变量,因子分析可以将这10个变量通过某种算法变为3个,4个,5个等等因子,而每个因子都能表达一种涵义,从而达到了降维的效果,方便接下来的数据分析)

    2.因子分析与主成分分析的区别:

    主成分分析是试图寻找原有变量的一个线性组合。这个线性组合方差越大,那么该组合所携带的信息就越多。也就是说,主成分分析就是将原始数据的主要成分放大
    因子分析,它是假设原有变量的背后存在着一个个隐藏的因子,这个因子可以可以包括原有变量中的一个或者几个,因子分析并不是原有变量的线性组合。
    (帮助解读:主成分分析降维凸显变量中起主导作用的变量,因子分析寻找变量背后可以概括变量特征的因子)

    ---------------------------算法及原理就不介绍了,比较秃头-----------------------------

    二.因子分析怎么做(在spss中):

    1.数据准备:

    下图数据是一份某城市的空气质量数据,一共6个变量,分别是:二氧化硫、二氧化氮、可吸入颗粒物、一氧化碳、臭氧、细颗粒物。在SPSS中打开数据如下:
    图1

    2.操作步骤:

    1)打开因子分析工具:

    在这里插入图片描述

    2)选择要进行因子分析的变量:

    在这里插入图片描述

    3)设置因子分析模型:(可以按照以下截图设置模型,一般来说足够)

    a.描述:这里要说一下KMO和Bartlett的球形度检验,
    KMO检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。主要应用于多元统计的因子分析。KMO统计量是取值在0和1之间。Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。
    Bartlett’s球形检验用于检验相关阵中各变量间的相关性,是否为单位阵,即检验各个变量是否各自独立。如果变量间彼此独立,则无法从中提取公因子,也就无法应用因子分析法。Bartlett球形检验判断如果相关阵是单位阵,则各变量独立,因子分析法无效。由SPSS检验结果显示Sig.<0.05(即p值<0.05)时,说明各变量间具有相关性,因子分析有效

    在这里插入图片描述
    b.抽取:一般来说方法我们都选择主成分方法,但是在python中进行因子分析时用的不是这个方法。
    在这里插入图片描述
    c.旋转:旋转的作用是为了方便最后看什么变量属于哪个因子。
    在这里插入图片描述d.得分
    在这里插入图片描述
    e.选项
    在这里插入图片描述
    到此模型设置完毕,点击确定即可在SPSS窗口中看到分析结果。

    三.因子分析结果解读:

    主要看以下几部分的结果。

    1.KMO和Bartlett的检验结果:

    首先是KMO的值为0.733,大于阈值0.5,所以说明了变量之间是存在相关性的,符合要求;然后是Bartlett球形检验的结果,在这里只需要看Sig.这一项,其值为0.000,所以小于0.05。那么也就是说,这份数据是可以进行因子分析的。
    在这里插入图片描述

    2.公因子方差:

    公因子方差表的意思就是,每一个变量都可以用公因子表示,而公因子究竟能表达多少呢,其表达的大小就是公因子方差表中的“提取”,“提取”的值越大说明变量可以被公因子表达的越好,一般大于0.5即可以说是可以被表达,但是更好的是要求大于0.7才足以说明变量能被公因子表的很合理。在本例中可以看到,“提取”的值都是大于0.7的,所以变量可以被表达的很不错。
    在这里插入图片描述

    3.解释的总方差和碎石图:

    简单地说,解释地总方差就是看因子对于变量解释的贡献率(可以理解为究竟需要多少因子才能把变量表达为100%)。这张表只需要看图中红框的一列,表示的就是贡献率,蓝框则代表四个因子就可以将变量表达到了91.151%,说明表达的还是不错的,我觉得一般都要表达到90%以上才可以,否则就要调整因子数据。再看碎石图,也确实就是四个因子之后折线就变得平缓了。
    在这里插入图片描述
    在这里插入图片描述

    4.旋转成分矩阵:

    这一张表是用来看哪些变量可以包含在哪些因子里,一列一列地看:第一列,最大的值为0.917和0.772,分别对应的是细颗粒物和可吸入颗粒物,因此我们可以把因子归结为颗粒物。第二列,最大值为0.95对应着二氧化硫,因此我们可以把因子归结为硫化物。第三列,最大值为0.962,对应着臭氧,因此可以把因子归结为臭氧。第四列,最大值为0.754和0.571,分别对应着二氧化氮和一氧化碳,因子归结为什么这个我也不清楚,可能要请教一下环工环科的同学们,此处我选择滑稽…
    在这里插入图片描述

    四.总结:

    因子分析还是非常好用的一种降维方式的,在SPSS中进行操作十分简单方便,结果一目了然。喜好机器学习的同学们自然也知道,这么好的方法怎么能少得了python呢,没错python也可以做因子分析,代码量也并不是很大,但是,python做因子分析时会有一些功能需要自己根据算法写(头皮发麻),比如说KMO检验。喜欢本文的话请点赞或留言哦,接下来还会有一些数据分析和机器学习方面的知识与大家分享~

    展开全文
  • 主成分分析与因子分析SPSS实现

    万次阅读 多人点赞 2018-05-25 11:27:12
    主成分分析与因子分析SPSS实现一、主成分分析(1)问题提出在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进行分析。比如为了研究某种疾病的影响因素,我们可能会收集患者的人口学资料、...

    主成分分析与因子分析及SPSS实现

    一、主成分分析

    (1)问题提出
    在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进行分析。比如为了研究某种疾病的影响因素,我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标。如果将这些指标直接纳入多元统计分析,不仅会使模型变得复杂不稳定,而且还有可能因为变量之间的多重共线性引起较大的误差。有没有一种办法能对信息进行浓缩,减少变量的个数,同时消除多重共线性?
    这时,主成分分析隆重登场。
    (2)主成分分析的原理
    主成分分析的本质是坐标的旋转变换,将原始的n个变量进行重新的线性组合,生成n个新的变量,他们之间互不相关,称为n个“成分”。同时按照方差最大化的原则,保证第一个成分的方差最大,然后依次递减。这n个成分是按照方差从大到小排列的,其中前m个成分可能就包含了原始变量的大部分方差(及变异信息)。那么这m个成分就成为原始变量的“主成分”,他们包含了原始变量的大部分信息。
    注意得到的主成分不是原始变量筛选后的剩余变量,而是原始变量经过重新组合后的“综合变量”。
    我们以最简单的二维数据来直观的解释主成分分析的原理。假设现在有两个变量X1、X2,在坐标上画出散点图如下:

     

    可见,他们之间存在相关关系,如果我们将坐标轴整体逆时针旋转45°,变成新的坐标系Y1、Y2,如下图:
    根据坐标变化的原理,我们可以算出:
    Y1 = sqrt(2)/2 * X1 + sqrt(2)/2 * X2
    Y2 = sqrt(2)/2 * X1 – sqrt(2)/2 * X2
    其中sqrt(x)为x的平方根。
    通过对X1、X2的重新进行线性组合,得到了两个新的变量Y1、Y2。
    此时,Y1、Y2变得不再相关,而且Y1方向变异(方差)较大,Y2方向的变异(方差)较小,这时我们可以提取Y1作为X1、X2的主成分,参与后续的统计分析,因为它携带了原始变量的大部分信息。
    至此我们解决了两个问题:降维和消除共线性。
    对于二维以上的数据,就不能用上面的几何图形直观的表示了,只能通过矩阵变换求解,但是本质思想是一样的。
     
    二、因子分析
    (一)原理和方法:
    因子分析是主成分分析的扩展。
    在主成分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经过线性(坐标)变换得到新的变量。
    因子分析中,是对原始变量间的内在相关结构进行分组,相关性强的分在一组,组间相关性较弱,这样各组变量代表一个基本要素(公共因子)。通过原始变量之间的复杂关系对原始变量进行分解,得到公共因子和特殊因子。将原始变量表示成公共因子的线性组合。其中公共因子是所有原始变量中所共同具有的特征,而特殊因子则是原始变量所特有的部分。因子分析强调对新变量(因子)的实际意义的解释。
    举个例子:
    比如在市场调查中我们收集了食品的五项指标(x1-x5):味道、价格、风味、是否快餐、能量,经过因子分析,我们发现了:
    x1 = 0.02 * z1 + 0.99 * z2 + e1
    x2 = 0.94 * z1 – 0.01 * z2 + e2
    x3 = 0.13* z1 + 0.98 * z2 + e3
    x4 = 0.84 * z1 + 0.42 * z2 + e4
    x5 = 0.97 * z1 – 0.02 * z2 + e1
    (以上的数字代表实际为变量间的相关系数,值越大,相关性越大)
    第一个公因子z1主要与价格、是否快餐、能量有关,代表“价格与营养”
    第二个公因子z2主要与味道、风味有关,代表“口味”
    e1-5是特殊因子,是公因子中无法解释的,在分析中一般略去。
    同时,我们也可以将公因子z1、z2表示成原始变量的线性组合,用于后续分析。
    (二)使用条件:
    (1)样本量足够大。通常要求样本量是变量数目的5倍以上,且大于100例。
    (2)原始变量之间具有相关性。如果变量之间彼此独立,无法使用因子分析。在SPSS中可用KMO检验和Bartlett球形检验来判断。
    (3)生成的公因子要有实际的意义,必要时可通过因子旋转(坐标变化)来达到。
     
    三、主成分分析和因子分析的联系与区别
    联系:两者都是降维和信息浓缩的方法。生成的新变量均代表了原始变量的大部分信息且互相独立,都可以用于后续的回归分析、判别分析、聚类分析等等。
    区别:
    (1)主成分分析是按照方差最大化的方法生成的新变量,强调新变量贡献了多大比例的方差,不关心新变量是否有明确的实际意义。
    (2)因子分析着重要求新变量具有实际的意义,能解释原始变量间的内在结构。
     
    SPSS没有提供单独的主成分分析方法,而是混在因子分析当中,下面通过一个例子来讨论主成分分析与因子分析的实现方法及相关问题。
     
    一、问题提出
     
    男子十项全能比赛包含100米跑、跳远、跳高、撑杆跳、铅球、铁饼、标枪、400米跑、1500米跑、110米跨栏十个项目,总分为各个项目得分之和。为了分析十项全能主要考察哪些方面的能力,以便有针对性的进行训练,研究者收集了134个顶级运动员的十项全能成绩单,将通过因子分析来达到分析目的。
     
    二、分析过程
     
    变量视图:
     
    数据视图(部分):
    菜单选择(分析->降维->因子分析):

    打开因子分析的主界面,将十项成绩选入”变量“框中(不要包含总分),如下:
    点击”描述“按钮,打开对话框,选中”系数“和”KMO和Bartlett球形度检验“:

    上图相关解释:
    ”系数“:为变量之间的相关系数阵列,可以直观的分析相关性。
    ”KMO和Bartlett球形度检验“:用于定量的检验变量之间是否具有相关性。
    点击”继续“,回到主界面,点击”抽取“,打开对话框。
    ”方法“ =>”主成分“,”输出“=>”未旋转的因子解“和”碎石图“,”抽取“=>”基于特征值“,其余选择默认。

    解释:
    ①因子抽取的方法:选取默认的主成分法即可,其余方法的计算结果可能有所差异。
    ②输出:”未旋转的因子解”极为主成分分析结果。碎石图有助于我们判断因子的重要性(详细介绍见后面)。
    ③抽取:为抽取主成分(因子)的方法,一般是基于特征值大于1,默认即可。
    点击”继续“,回到主界面,点击”确定“,进入分析。
    输出的主要表格如下:
    (1)相关性检验
    因子分析要求变量之间有相关性,所以首先要进行相关性检验。首先输出的是变量之间的相关系数矩阵:

    可以直观的看到,变量之间有相关性。但需要检验,接着输出的是相关性检验:
    上图有两个指标:第一个是KMO值,一般大于0.7就说明不了之间有相关性了。第二个是Bartlett球形度检验,P值<0.001。综合两个指标,说明变量之间存在相关性,可以进行因子分析。否则,不能进行因子分析。
    (2)提取主成分和公因子
    接下来输出主成分结果:

    这就是主成分分析的结果,表中第一列为10个成分;第二列为对应的”特征值“,表示所解释的方差的大小;第三列为对应的成分所包含的方差占总方差的百分比;第四列为累计的百分比。一般来说,选择”特征值“大于1的成分作为主成分,这也是SPSS默认的选择。
    在本例中,成分1和2的特征值大于1,他们合计能解释71.034%的方差,还算不错。所以我们可以提取1和2作为主成分,抓住了主要矛盾,其余成分包含的信息较少,故弃去。
    下面,输出碎石图,如下:
    碎石图来源于地质学的概念。在岩层斜坡下方往往有很多小的碎石,其地质学意义不大。碎石图以特征值为纵轴,成分为横轴。前面陡峭的部分特征值大,包含的信息多,后面平坦的部分特征值小,包含的信息也小。
    由图直观的看出,成分1和2包含了大部分信息,从3开始就进入平台了。
    接下来,输出提取的成分矩阵:

    上表中的数值为公因子与原始变量之间的相关系数,绝对值越大,说明关系越密切。公因子1和9个运动项目都正相关(注意跑步运动运动的计分方式,时间越短,分数越高),看来只能称为“综合运动”因子了。公因子2与铁饼、铅球正相关,与1500米跑、400米跑负相关,这究竟代表什么意思呢?看来只能成为“不知所云”因子了。
    (三)因子旋转
    前面提取的两个公因子一个是大而全的“综合因子”,一个不知所云,得到这样的结果,无疑是分析的失败。不过,不要灰心,我们可以通过因子的旋转来获得更好的解释。在主界面中点击“旋转”按钮,打开对话框,“方法”=>“最大方差法”,“输出”=>“旋转解”。

    点击“继续”,回到主界面点击“确认”进行分析。输出结果如下:
    这是选择后的成分矩阵。经过旋转,可以看出:
    公因子1得分越高,所有的跑步和跨栏成绩越差,而跳远、撑杆跳等需要助跑类项目的成绩也越差,所以公因子1代表的是奔跑能力的反向指标,可称为“奔跑能力”。
    公因子2与铁饼和铅球的正相关性很高,与标枪、撑杆跳等需要上肢力量的项目也正相关,所以该因子可以成为“上肢力量”。
    经过旋转,可以看出公因子有了更合理的解释。
    (四)结果的保存
    在最后,我们还要将公因子储存下来供后续使用。点击“得分”按钮,打开对话框,选中“保存为变量”,方法采用默认的“回归”方法,同时选中“显示因子得分系数矩阵”。

    SPSS会自动生成2个新变量,分别为公因子的取值,放在数据的最后。同时会输出一个因子系数表格:

    由上图,我们可以写出公因子的表达式(用F1、F2代表两个公因子,Z1~Z10分别代表原始变量):

    F1 = -0.16*Z1+0.161*Z2+0.145*Z3+0.199*Z4-0.131*Z5-0.167*Z6+0.137*Z7+0.174*Z8+0.131*Z9-0.037*Z10
    F2同理,略去。
    注意,这里的变量Z1~Z10,F1、F2不再是原始变量,而是标准正态变换后的变量。
    展开全文
  • SPSS:因子分析步骤

    万次阅读 多人点赞 2018-10-15 22:37:33
    因子分析步骤  某对外汉语培训中心对在该中心学习的外国留学生进行了一项汉语学习动机问卷调查。使用李克特五级式量表。第一级为最不喜欢,第五级为最喜欢。随机抽取18人参加调查。其中—个项目调查的是“内在动机...

                                                                              因子分析步骤

               某对外汉语培训中心对在该中心学习的外国留学生进行了一项汉语学习动机问卷调查。使用李克特五级式量表。第一级为最不喜欢,第五级为最喜欢。随机抽取18人参加调查。其中—个项目调查的是“内在动机”或称“内在兴趣动机”,了解留学生对汉语语言、文化的兴迎与喜爱。该项目分为六个问题。

    整理数据如下

     

     

    一、在spss中建立数据集

    二、打开Factor analysis主对话框

    1. Analyze(分析)Deta reduction (数据化简)--factor (因素)

    2. 所有数据放入variable框内

    三、进入Factor analysis主对话框右边的子对话框

      (一) Descriptive子对话框

        1. 选择Univariables(单变量描述统计量):会输出每个变量的平均数、标准差和观测量

    2.选择Initial solution(初步结果):会输出原始分析结果:公因子方差、协方差、各因子的特征值、所占总方差的百分比、累计百分比。这是默认系统,应该保留。

        3. Correlation Matrix(相关矩阵)围栏,选项含可选择的相关指标与相关检验: 常常选择(1)(4)

     (1)coeffieient (相关系数),列出各变量间的相关系数矩阵。

    (2)Significance level(显著性水平),列出各变量单侧检验的P值。

    (3)Determinant(行列式)选项,输出相关系数矩阵的行列式。

    (4)KMO and Barletts tests of sphericity (开塞-梅耶-欧巴金和巴莱特球性检验)选项(K-Kaiser, M-Meyer, O-Olkin): 列出球性检验的结果,显示因素模型是否合理。    

    (5)Inverse (逆矩阵):列出相关系数的逆矩阵。

    (6)Reproduced (在生相关矩阵),列出因子分析后估计的相关矩阵与残差。

    (7)Anti(逆影像):列出包括相关系数的负值,包括方差 的负值的逆影像方差矩阵。

    (二)Extraction(提取因子) 子对话框。

    1. Method:七种方法区别不大。用默认Principal components (主成分分析法):从解释变量的变异出发,使变异的方差能够被主成分所解释,主要用于获得初始因子的结果。

    2. Analyze围栏:

    (1)Correlation matrix(变量间相关矩阵)。保留默认。

    (2)Covariance matrix (变量间协方差矩阵)

    3. Display围栏(输出结果)

    (1) a. Unrotated factor solution(显示未经旋转变化的因子提取结果)

      (2) Scree plot(碎石图):横轴为因子序号,纵轴表示特征值大小。该图按特征值大小依次排列因子,可以看出哪些是主要因子。Maximum Iterations for convergence (收敛最大迭代次数)

    4. Extract (设定公因子提取标准)围栏:

    (1)Eigenvalues over (以特征大于莫数值为提取标准)。保留默认选择系统默认值1.

      (2)Number of factors(自提取因子的数量)。保留默认选择值1.

         (3)Maximum iterations for convergence (收敛最大迭代次数),保留默认选择25.

    4. Rotation (旋转)

    (1)method. 选择Varimatrix(正交旋转法)

    (2)Display(输出结果显示)

    a. Rotated solution (旋转解法):正交旋转,输出旋转后的模式矩阵和因子转换矩阵。

    b. Loading plot (载荷散点图:三维图:坐标值为因子值,各个变量以三点形式分布其中,可以直观了解变量与因子之间的关系。

    5.  Scores(因子得分)。保留默认

    6.  Options,保留默认。保留默认

     

    表格说明Communalities (公因子方差表):表中给出了各变量中信息分别被提出的比例。提取比例最高的是汉语歌曲0.874,最低的是汉语戏剧0.652.

    图表说明Total Variance Explained (能解释的方差比例表),也称主成份列表 ,是一个非常重要的表格。一个因子所解释的方差比例越高,这个因子包含原有变量信息的量就越多。第一个成分的初始特征值为2.231,能解释的方差比例为31.621%,第二个与第三个分别为25.6%和21.4%。其余四个成分都小于1,说明这几个成分的解释力度还不如直接引入原变量大。这七个变量只需要提取出头三个成分即可。

     

    图表说明: Scree Plot 碎石图中,从第三个成分以后的特征值就降得非常低。第三个成分就是这一图形的“拐点”。这一之前是主要因子,这一之后是次要因子。因此,这一碎石图用直观的方法向我们显示,在我们这一实例中,只需要提取三个主要成分就行了。

    图表说明: Component Matrix 成分矩阵表,表中列出未使用旋转方法时使用因子能解释的各个变量的比例(各变量的信息被主成份提取了多少)。

    图表说明:表中列出了使用旋转方法后因子能解释的各个变量的比例。对比表5可以看出,旋转后,原先较大的比例变得更大,较小的比例则变得更小。

    Extraction Method: Principal Component Analysis:提取方法:主要成分分析法

    Rotation Method: Varimax with Kaiser Normalization:旋转方法:开塞正态方差最大变异法

     

    图表说明

    Component Transformation Matrix  成分转换矩阵表,用来说明旋转前后主成份间的系数对应关系。

    Extraction Method: Principal Component Analysis:提取方法:主要成分分析法

    Rotation Method: Varimax with Kaiser Normalization:旋转方法:开塞正态方差最大变异法

    图表说明

    Component Plot Rotated Space (旋转后的三维主成份图),从图中可见,我们的七个变量并没有在一个方位上,因此提取一个主成份并不能解释大部分信息。这就是系统提取了三个主成分的原因。

     

    展开全文
  • spss案例教程&主成分分析与因子分析SPSS实现

    万次阅读 多人点赞 2019-01-15 00:19:33
    spss案例教程 原文地址:... 主成分分析与因子分析SPSS实现一、主成分分析(1)问题提出在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进行分析。...

    spss案例教程
    原文地址:https://www.ixueshu.com/document/934cf7bb1ff99338318947a18e7f9386.html

    主成分分析与因子分析及SPSS实现

    一、主成分分析

    (1)问题提出
    在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进行分析。比如为了研究某种疾病的影响因素,我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标。如果将这些指标直接纳入多元统计分析,不仅会使模型变得复杂不稳定,而且还有可能因为变量之间的多重共线性引起较大的误差。有没有一种办法能对信息进行浓缩,减少变量的个数,同时消除多重共线性?
    这时,主成分分析隆重登场。
    (2)主成分分析的原理
    主成分分析的本质是坐标的旋转变换,将原始的n个变量进行重新的线性组合,生成n个新的变量,他们之间互不相关,称为n个“成分”。同时按照方差最大化的原则,保证第一个成分的方差最大,然后依次递减。这n个成分是按照方差从大到小排列的,其中前m个成分可能就包含了原始变量的大部分方差(及变异信息)。那么这m个成分就成为原始变量的“主成分”,他们包含了原始变量的大部分信息。
    注意得到的主成分不是原始变量筛选后的剩余变量,而是原始变量经过重新组合后的“综合变量”。
    我们以最简单的二维数据来直观的解释主成分分析的原理。假设现在有两个变量X1、X2,在坐标上画出散点图如下:

     

    可见,他们之间存在相关关系,如果我们将坐标轴整体逆时针旋转45°,变成新的坐标系Y1、Y2,如下图:
    根据坐标变化的原理,我们可以算出:
    Y1 = sqrt(2)/2 * X1 + sqrt(2)/2 * X2
    Y2 = sqrt(2)/2 * X1 – sqrt(2)/2 * X2
    其中sqrt(x)为x的平方根。
    通过对X1、X2的重新进行线性组合,得到了两个新的变量Y1、Y2。
    此时,Y1、Y2变得不再相关,而且Y1方向变异(方差)较大,Y2方向的变异(方差)较小,这时我们可以提取Y1作为X1、X2的主成分,参与后续的统计分析,因为它携带了原始变量的大部分信息。
    至此我们解决了两个问题:降维和消除共线性。
    对于二维以上的数据,就不能用上面的几何图形直观的表示了,只能通过矩阵变换求解,但是本质思想是一样的。
    二、因子分析
    (一)原理和方法:
    因子分析是主成分分析的扩展。
    在主成分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经过线性(坐标)变换得到新的变量。
    因子分析中,是对原始变量间的内在相关结构进行分组,相关性强的分在一组,组间相关性较弱,这样各组变量代表一个基本要素(公共因子)。通过原始变量之间的复杂关系对原始变量进行分解,得到公共因子和特殊因子。将原始变量表示成公共因子的线性组合。其中公共因子是所有原始变量中所共同具有的特征,而特殊因子则是原始变量所特有的部分。因子分析强调对新变量(因子)的实际意义的解释。
    举个例子:
    比如在市场调查中我们收集了食品的五项指标(x1-x5):味道、价格、风味、是否快餐、能量,经过因子分析,我们发现了:
    x1 = 0.02 * z1 + 0.99 * z2 + e1
    x2 = 0.94 * z1 – 0.01 * z2 + e2
    x3 = 0.13* z1 + 0.98 * z2 + e3
    x4 = 0.84 * z1 + 0.42 * z2 + e4
    x5 = 0.97 * z1 – 0.02 * z2 + e1
    (以上的数字代表实际为变量间的相关系数,值越大,相关性越大)
    第一个公因子z1主要与价格、是否快餐、能量有关,代表“价格与营养”
    第二个公因子z2主要与味道、风味有关,代表“口味”
    e1-5是特殊因子,是公因子中无法解释的,在分析中一般略去。
    同时,我们也可以将公因子z1、z2表示成原始变量的线性组合,用于后续分析。
    (二)使用条件:
    (1)样本量足够大。通常要求样本量是变量数目的5倍以上,且大于100例。
    (2)原始变量之间具有相关性。如果变量之间彼此独立,无法使用因子分析。在SPSS中可用KMO检验和Bartlett球形检验来判断。
    (3)生成的公因子要有实际的意义,必要时可通过因子旋转(坐标变化)来达到。
    三、主成分分析和因子分析的联系与区别
    联系:两者都是降维和信息浓缩的方法。生成的新变量均代表了原始变量的大部分信息且互相独立,都可以用于后续的回归分析、判别分析、聚类分析等等。
    区别:
    (1)主成分分析是按照方差最大化的方法生成的新变量,强调新变量贡献了多大比例的方差,不关心新变量是否有明确的实际意义。
    (2)因子分析着重要求新变量具有实际的意义,能解释原始变量间的内在结构。
    SPSS没有提供单独的主成分分析方法,而是混在因子分析当中,下面通过一个例子来讨论主成分分析与因子分析的实现方法及相关问题。
     
    一、问题提出
     
    男子十项全能比赛包含100米跑、跳远、跳高、撑杆跳、铅球、铁饼、标枪、400米跑、1500米跑、110米跨栏十个项目,总分为各个项目得分之和。为了分析十项全能主要考察哪些方面的能力,以便有针对性的进行训练,研究者收集了134个顶级运动员的十项全能成绩单,将通过因子分析来达到分析目的。
     
    二、分析过程
     
    变量视图:
     
    数据视图(部分):
    菜单选择(分析->降维->因子分析):

    打开因子分析的主界面,将十项成绩选入”变量“框中(不要包含总分),如下:
    点击”描述“按钮,打开对话框,选中”系数“和”KMO和Bartlett球形度检验“:

    上图相关解释:
    ”系数“:为变量之间的相关系数阵列,可以直观的分析相关性。
    ”KMO和Bartlett球形度检验“:用于定量的检验变量之间是否具有相关性。
    点击”继续“,回到主界面,点击”抽取“,打开对话框。
    ”方法“ =>”主成分“,”输出“=>”未旋转的因子解“和”碎石图“,”抽取“=>”基于特征值“,其余选择默认。

    解释:
    ①因子抽取的方法:选取默认的主成分法即可,其余方法的计算结果可能有所差异。
    ②输出:”未旋转的因子解”极为主成分分析结果。碎石图有助于我们判断因子的重要性(详细介绍见后面)。
    ③抽取:为抽取主成分(因子)的方法,一般是基于特征值大于1,默认即可。
    点击”继续“,回到主界面,点击”确定“,进入分析。
    输出的主要表格如下:
    (1)相关性检验
    因子分析要求变量之间有相关性,所以首先要进行相关性检验。首先输出的是变量之间的相关系数矩阵:

    可以直观的看到,变量之间有相关性。但需要检验,接着输出的是相关性检验:
    上图有两个指标:第一个是KMO值,一般大于0.7就说明不了之间有相关性了。第二个是Bartlett球形度检验,P值<0.001。综合两个指标,说明变量之间存在相关性,可以进行因子分析。否则,不能进行因子分析。
    (2)提取主成分和公因子
    接下来输出主成分结果:

    这就是主成分分析的结果,表中第一列为10个成分;第二列为对应的”特征值“,表示所解释的方差的大小;第三列为对应的成分所包含的方差占总方差的百分比;第四列为累计的百分比。一般来说,选择”特征值“大于1的成分作为主成分,这也是SPSS默认的选择。
    在本例中,成分1和2的特征值大于1,他们合计能解释71.034%的方差,还算不错。所以我们可以提取1和2作为主成分,抓住了主要矛盾,其余成分包含的信息较少,故弃去。
    下面,输出碎石图,如下:
    碎石图来源于地质学的概念。在岩层斜坡下方往往有很多小的碎石,其地质学意义不大。碎石图以特征值为纵轴,成分为横轴。前面陡峭的部分特征值大,包含的信息多,后面平坦的部分特征值小,包含的信息也小。
    由图直观的看出,成分1和2包含了大部分信息,从3开始就进入平台了。
    接下来,输出提取的成分矩阵:

    上表中的数值为公因子与原始变量之间的相关系数,绝对值越大,说明关系越密切。公因子1和9个运动项目都正相关(注意跑步运动运动的计分方式,时间越短,分数越高),看来只能称为“综合运动”因子了。公因子2与铁饼、铅球正相关,与1500米跑、400米跑负相关,这究竟代表什么意思呢?看来只能成为“不知所云”因子了。
    (三)因子旋转
    前面提取的两个公因子一个是大而全的“综合因子”,一个不知所云,得到这样的结果,无疑是分析的失败。不过,不要灰心,我们可以通过因子的旋转来获得更好的解释。在主界面中点击“旋转”按钮,打开对话框,“方法”=>“最大方差法”,“输出”=>“旋转解”。

    点击“继续”,回到主界面点击“确认”进行分析。输出结果如下:
    这是选择后的成分矩阵。经过旋转,可以看出:
    公因子1得分越高,所有的跑步和跨栏成绩越差,而跳远、撑杆跳等需要助跑类项目的成绩也越差,所以公因子1代表的是奔跑能力的反向指标,可称为“奔跑能力”。
    公因子2与铁饼和铅球的正相关性很高,与标枪、撑杆跳等需要上肢力量的项目也正相关,所以该因子可以成为“上肢力量”。
    经过旋转,可以看出公因子有了更合理的解释。
    (四)结果的保存
    在最后,我们还要将公因子储存下来供后续使用。点击“得分”按钮,打开对话框,选中“保存为变量”,方法采用默认的“回归”方法,同时选中“显示因子得分系数矩阵”。

    SPSS会自动生成2个新变量,分别为公因子的取值,放在数据的最后。同时会输出一个因子系数表格:

    由上图,我们可以写出公因子的表达式(用F1、F2代表两个公因子,Z1~Z10分别代表原始变量):

    F1 = -0.16*Z1+0.161*Z2+0.145*Z3+0.199*Z4-0.131*Z5-0.167*Z6+0.137*Z7+0.174*Z8+0.131*Z9-0.037*Z10
    F2同理,略去。
    注意,这里的变量Z1~Z10,F1、F2不再是原始变量,而是标准正态变换后的变量。

    将教程和案例整合在一起了,方便大家学习

    展开全文
  • SPSS因子分析案例

    万次阅读 多人点赞 2018-01-14 20:43:40
    一、SPSS中的因子分析。 具体操作步骤: (1)定义变量:x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重,x3-非农村人口比重,x4-乡村从业人员占农村人口的比重,x5-农业总产值占农林牧...
  • 因子分析SPSS中的应用

    千次阅读 2020-08-06 10:39:17
    因子分析就是在尽可能不损失信息或者少损失信息的情况下,将多个变量减少为少数几个因子的方法。这几个因子可以高度概括大量数据中的信息,这样,既减少了变量个数,又同样能再现变量之间的内在联系。
  • SPSS 因子分析求权重

    万次阅读 多人点赞 2019-04-15 17:56:28
    二、选择【分析】——【降维】——【因子分析】 三、导入变量 四、点击【描述】,勾选【KMO和巴特利特球形度检验】 KMO>0.8说明效度非常高; KMO>0.7说明效度较好; KMO>0.6说明效度可以接受; ...
  • 因子分析: 将除序号外的变量都移入变量框中: 打开“描述”选项卡,勾选原始分析结果,这个结果会给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。 选中“抽取”选项卡,方法选择主成分...
  • 就像关公离不开“赤兔”,因子分析如果想“日行千里、如履平地”,也需要赛(sai)跑(pao)神(shen)兽(shou),SPSS。就像每天的买菜-做饭-开吃,SPSS也可以分成三步:准备(数据)-分析(数据)-解读(结果)。一、准备第1步...
  • 因子分析spss可以简化数据结构,将具有错综复杂关系的变量综合为数据较少的因子,在信息损失最小的情况下对变量进行分类,不过有些朋友多spss因子分析不是很熟练,那么因子分析spss怎么做,下面小编就给大家带来spss...
  • SPSS案例分析3:因子分析

    万次阅读 多人点赞 2014-12-10 18:10:17
    因子分析在各行各业的...小兵也凑个热闹,参考《SPSS统计分析》书中的案例,运用SPSS进行因子分析,作为我博客 SPSS案例分析系列 的第三篇文章。 【一、概念】 探讨具有相关关系的变量之间,是否存在不能直
  • 以陕西26家A股上市公司为研究对象,建立了包含14个指标在内的企业财务绩效评价递阶层次结构体系,采用因子分析的方法从盈利能力,偿债能力,成长能力,营运能力四个方面对上市公司财务绩效进行了综合评价。结果证实,盈利...
  • 因子分析模型 - 案例按步骤详解 - (SPSS建模)

    万次阅读 多人点赞 2018-10-29 09:52:04
    一、SPSS中的因子分析。 具体操作步骤: (1)定义变量:x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重,x3-非农村人口比重,x4-乡村从业人员占农村人口的比重,x5-农业总产值占农林牧...
  • 材料主要是关于spss数据分析的相关内容,其中较为重点地介绍了因子分析这一章,即spss因子分析的基本步骤和概念分析。
  • 精品文档 因子分析作业 全国30个省市的8项经济指标如下 要求先对数据做标准化处理然后基于标准化数据进行以下操作 1给出原始变量的相关系数矩阵 2用主成分求公因子公因子的提取按照默认提取即特征值大于1给出公...
  • 为什么? SPSS 那么简单还免费,为什么还要用 Python 做因子分析(factor analysis)呢?工作狗表示,建模的目的是要卖...因子分析法(factor analysis)的核心是对若干综合指标进行因子分析并提取公共因子,再以每...
  • SPSS因子分析(非常细致的过程)

    万次阅读 多人点赞 2018-04-29 22:45:18
    SPSS案例分析3:因子分析 因子分析在各行各业的应用非常广泛,尤其是科研论文中因子分析更是频频出现。小兵也凑个热闹,参考《SPSS统计分析》书中的案例,运用SPSS进行因子分析,作为我博客 SPSS案例分析系列 的...
  • 基于SPSS因子分析法的数据挖掘的供应链绩效评价.pdf
  • 如何使用SPSS Amos进行验证性因子分析(CFA)和Bootstrap检验准备验证性因子分析Bootstrap检验中介效应相关链接 准备 分析前需要安装并激活SPSS Amos软件,这里以Amos 25 windows版本为例。 验证性因子分析 在社会...
  • SPSS因子分析法~例子解释.doc
  • 因子分析是一种降维、简化数据的技术,其基本思想是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性低.每组变量代表一个基本结构,这个基本结构称为公共因子.对于所研究的问题就可...
  • 8、spss因子分析及主成分分析

    万次阅读 2015-04-15 15:34:21
    在之前关于相关的内容里,我们就说过,做相关,回归等分析的时候,消除多重共线性是一个很复杂很复杂的问题,一次数据分析的变量多达三四十个是很正常的情况,这个时候调整变量的效果往往微乎其微,因此就需要用到一...
  • 当我们的研究数据集指标过多,不利于我们进行后期的分析和研究时,我们就可以通过因子分析法,对指标成分进行提取,进而减少总体的指标数目,同时也能去除一些相关性较小的指标,提高算法的分析准确率。 IBM SPSS ...
  • 使用SPSS的方法是,首先应用因子分析功能定义因子分析的变量,进行适切性量数(KMO)取样与巴特莱(Bartett)球形检验,通过后绘制碎石图,形成主成分列表,作方差最大化旋转,最后形成因子得分表。接着根据聚类分析...
  • 运用SPSS进行PCA主成分分析(因子分析

    万次阅读 多人点赞 2020-03-10 20:37:55
    PCA主成分分析是以降维方式提取主成分,提取出的主成分是原始变量的综合考量,可简化数据的复杂度,便于后期处理。本文记录了如何利用SPSS中自带的因子分析进行主成分分析。以及如何计算权重。
  • SPSS因子分析法-内容及案例.doc
  • SPSS最突出的特点就是操作界面极为友好,输出结果美观漂亮,它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以...
  • 5探索性因素分析(EFA)与验证性因素分析(CFA)的区别 5.1导读 因素分析是基于相关关系对众多数据进行降维(即简化)的...SPSS 只能进行探索性因素分析,而 AMOS 软件做的是验证性因素分析,这两者有什么区别呢? 5
  • 采用因子分析法处理各评价指标体,采用SPSS软件进行数据分析处理,能够全面反映影响矿井瓦斯爆炸的因素特征,做出科学、客观的评价。实例分析结果表明,评价结果准确,具有良好的实际应用价值。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,169
精华内容 467
关键字:

因子分析法spss