精华内容
下载资源
问答
  • 典型相关分析

    2017-08-10 21:01:36
    可以进行典型相关分析,注释很详细,可以直接调用 翻译
  • 点击“蓝字”关注我们典型相关分析一、典型相关分析概述1.1基本思想在一元统计分析中,两个随机变量X,Y之间的线性相关关系可用简单相关系数描述;一个随机变量Y和一组随机变量X之间的线性相关关系可用复相关系数...
    79b78eb8ce516096d672b713cb587e69.gif

    点击“蓝字”关注我们

    典型相关分析

     一、典型相关分析概述 

    1.1基本思想

     在一元统计分析中,两个随机变量X,Y之间的线性相关关系可用简单相关系数描述;一个随机变量Y和一组随机变量X之间的线性相关关系可用复相关系数描述;固定其他变量Xj(j≠i)条件下,Y与某个Xi之间的相关关系可用偏相关系数描述[1]。

          而在实际应用中,还会遇到研究两组随机变量X (X1,X2,X2,...,Xp)和Y (Y1,Y2,Y3,...,Yq)之间的相关关系,如运动员的体力测试指标(如反复横向跳、纵跳、背力、握力等)与运动能力测试指标(如耐力跑、跳远、投球等)之间的相关关系时,若仅用某个变量Yj(如耐力跑)和变量组X的复相关系数描述,则只能反应变量组X与Yj之间的关系,而不能完整地表达出两个变量组之间的关系。当同时研究两个变量组X和Y之间关系时候,不仅要考虑单个Xi和Yj之间的相关,也要考虑X和Y变量组内各个变量间的相关性,针对此类问题,Hotelling于1936年在主成分分析和因子分析的基础上提出典型相关分析(Canonical Correlation Analysis, CCA)方法[2]。

    作为研究两组随机变量之间整体线性相关关系的一种多元统计方法,CCA的基本思想是将每组变量作为一个整体进行研究,借助主成分分析降维的思想,针对每一变量组分别寻找其最佳线性组合,使新生成的综合变量提取了原始变量组的大部分信息,同时与另一变量组新生成的综合变量之间相关程度最大。

          CCA的具体过程为首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其依然最大化相关但与第一对变量组合不相关,如此继续下去,直到两组变量之间的相关性被提取完毕为止。这些综合变量被称为典型变量(又称典则变量),第I对典型变量间的相关系数则被称为第I典型相关系数。一般来说,只需要提取1~2对典型变量即可较为充分地概括变量信息。

    当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当一组变量只有一个变量时,典型相关系数即为复相关系数。因此可以认为典型相关系数是简单相关系数、复相关系数的推广。

    1.2基本原理

    基于主成分的降维思想,可以把多个变量之间的相关转化为两个变量之间的相关。

    设有两组互相关联的随机变量:X=(X1,X2,…,XP),Y=(Y1,Y2,…,Yq)(p≤q)。我们从中找到若干个具有代表性的综合变量U、V(分别为两个变量组中各变量的线性组合),用公式表示为:

    U=a1X1+a2X2+…+apXp

    V=b1Y1+b2Y2+…+bqXq

    它们之间的相关系数为典型相关系数,即:

    8d02cd64b531e22834de2c6f25c18f32.png

    由于随机变量U和V相关系数在线性变换下是不变的,故可设为标准化随机变量U、V,即:

    Var(U)=1

    Var(V)=1

    f27eb32f64250e33086aca99e855f4f3.png

    因此,寻找一组a、b使得ρ最大(U和V之间有着最大相关性),即为典型相关,此时(U1,V1)称之为第一对典型相关变量;依此类推,求得第二对典型相关变量(U2,V2),使其在与第一对线性组合不相关的线性组合中,相关性最大。如此下去,直到提取完毕。最终提取的典型变量对为(U1,V1),(U2,V2)…(Up,Vp)。

    1.3结果解释

    保留具有统计学意义的典型相关系数所对应的典型变量;当存在不只一个典型相关系数有统计学意义时,重点考虑的顺序按典型相关系数从大到小;根据各对典型相关系数对应的两组变量的因子载荷,有时需要根据标准化系数的大小,观察各个变量的作用大小和方向;结合专业实际,再给予合理的解释。

    d589765f3f9c70f673ef77871752b2b0.gif

    1.4重要概念

    (1) 典型相关系数:典型相关变量之间的简单线性相关系数称为典型相关系数。典型相关系数越大,说明该系数对应的典型变量越重要,越能体现原始变量组之间的相关关系。

    (2) 标准化系数:两组变量中的单位不同时,为消除量纲和数量级别的影响,必须对数据先进行标准化变换处理,对原始变量进行标化后所得典型变量的系数称为标准化系数。

    (3)  结构系数:依据原始变量与典型变量之间的相关关系矩阵,分析原始变量和典型变量之间的相关程度。原始变量与典型变量之间的相关系数称为结构系数,反应了每个原始变量对典型变量的相对贡献,可通过结构系数揭示典型相关变量的实际含义。

    2494a019029fa9b8d0f6a103338ebc90.png

    典型变量的典型结构示意图[3]

    d589765f3f9c70f673ef77871752b2b0.gif

    1.5应用条件[4]:

    (1)  原始变量服从多元正态分布;

    (2)  样本量要大于原始变量的个数;

    (3)  两组变量间具有非线性相关性;

    (4)  原始变量组内存在一定相关性,但又不能存在高度的多重共线性,相关系数<0.9。

    f812a27c6b7e0a58216f30d761084639.png

    二、典型相关分析的步骤 [1,4]

    2.1两样本总体相关性检验

    基于巴特利球形检验(Barlett Test of Sphericity)检验变量组内相关性;基于可决定系数和方差膨胀因子或病态指数法检验组内变量的多重共线性。之后,在正态性假定的前提下,使用Wilks似然比统计量进行两总体相关性的假设性检验。

    d589765f3f9c70f673ef77871752b2b0.gif

    2.2典型相关分析

    包括典型相关分析和典型结构,前者可得出典型相关系数和标准化典型相关系数。对于在使用时应该选择标准典型相关系数还是未标准典型相关系数,取决于研究变量的单位。如果单位相同,则看未标准化的典型相关系数,如果单位不同,则看标准化后的典型相关系数。

    d589765f3f9c70f673ef77871752b2b0.gif

    2.3典型相关系数检验

    典型相关系数近似服从F分布。在SAS统计软件中,对第一对典型相关系数有4种检验方法:Wilks’ Lambda、Pillai’s Trace、Hotelling-Lawley Trace和Roy’s Greatest Root。

    d589765f3f9c70f673ef77871752b2b0.gif

    2.4冗余分析(redundancy analysis)

    基于原始/实测变量与典型变量间的相关性,分析引起原始变量变异的原因。冗余指数代表了一组变量对另一组变量方差的解释能力。其值越大,表示一对典型变量分别解释对方原始变量的能力越强,代表性越好。

    d589765f3f9c70f673ef77871752b2b0.gif

    三、实例

    典型相关分析适用于很多临床或流行病学研究场景。比如研究病人各种临床症状与所患各种疾病之间的相关性;研究一组反映居民营养状况的指标与另一组反映其健康状况的指标之间的相关性等等。

    CCA分析可通过SPSS、Matlab、Stata和SAS等软件实现。下面以SAS9.4为例,演示CCA的具体分析过程。

    ●●●●●●

    示例:为了探讨小学生生长发育指标与身体素质变量之间的相互关系,对某市小学生进行了抽样调查。现仅对84例10岁男孩的4项生长发育指标(肺活量X1、身高X2、体重X3、胸围X4)与4项身体素质指标(50米跑Y1、跳高Y2、跳远Y3、实心球掷远Y4)进行典型相关分析。

    SAS程序如下:

    data CCA_example;/*数据文件*/

      input x1-x4 y1-y4;/*输入变量*/

    cards;

    1210    120.1    23.8    61.0    10.2    66.3    2.01    2.73

    1210    120.7    23.4    59.8    11.3    67.6    1.92    2.71

    1040    121.2    22.9    59.0    10.1    66.5    1.92    2.60

    ……

    ;

    proc cancorr;/*典型相关过程步*/

      var x1-x4;/*第一组变量*/

      with y1-y4;/*第二组变量*/

    run;

    运行结果如下:

    5026d638b831a94a81fd2100ab2b54ed.png

    这里输出的是各典型相关系数的近似F值及显著性检验结果。第一行第一列r1是第一对典型变量(V1,W1)之间的典型相关系数,r1=0.885844;同理,r2=0.279152,r3=0.194049,r4=0.037965。从上表可发现,在0.05检验水平下,只有第一个典型相关系数0.885844是显著的。

    8daa14cb39d8373a3bbcce292da55261.png

    第一典型相关系数的几种近似F检验。

    92383bc643ff5efdd313c65daf229852.png

    线性方程:

    V1=0.0005X1+0.0707X2+0.0316X3+0.1414X4

    W1=-0.2132Y1+0.0973Y2+0.2613Y3+0.6272Y4

    下图为标准典型相关系数(又称典型权重),本例中,单位不相同,我们选择标准化的典型相关系数。

    537941ae85a436821d4f60b6cf5596bd.png

    由上表可知,X4在V1上的典型权重较大,说明X4对典型变量V1的贡献较大。结合本问题的专业知识,可基于第1对“标准化部分所给出的系数”作为具体解释:生长发育方面主要的变量有X2(身高)、X3(体重)和X4(胸围);反映身体素质方面主要的变量有Y2(跳高)、Y3(跳远)和Y4(实心球掷远)。说明个子较为高大的男孩在跳高、跳远和实心球掷远这三个项目上的成绩较好。

    7d8b8510bd8fbcdbd2c98320b85a6413.png

    以上前两张表输出的是典型结构相关系数,是原始变量与其典型变量间的简单线性相关系数。

    054ef9904fb5f6f41b2e5f33e4c31b8d.png

    这里输出的是典型变量与原始变量的复相关系数,结果显示第一组(VAR)变量的第一典型变量对第二组(WITH)变量中的Y2的解释能力最强(85.61%),说明跳高最能体现身体素质。

    ● 参考文献 ●

    [1] 姜晶梅. 医学实用多元统计学[M]. 北京: 科学出版社, 2014.

    [2] HOTELLING H. RELATIONS BETWEEN TWO SETS OF VARIATES*[J]. Biometrika, 1936, 28(3-4): 321-377.

    [3] 王欢, 胡水清, 李一辰, 等. 学前儿童动作技能与身体素质水平的典型相关分析[J]. 中国体育科技, 2019, (6).

    [4] 傅德印,黄健. 典型相关分析中的统计检验问题[J]. 统计研究, 2008, 25(7): 110-112.

    3a34f024fed0d9e19f6fc25d9f03127d.png

    大话统计

    文稿:张愉涵 艾飞玲

    校稿:申郁冰;编辑:张瑞

    我们是由北京协和医学院流行病与卫生统计学专业及临床专业硕博研究生团体创建的一个创业小团体,团体成员的专业背景非常丰富,除了包括流行病与卫生统计学人才外、还包括临床各专业人才等。欢迎您的留言和分享!

    展开全文
  • 中实现典型相关分析 SPSS?11.0 15.1?典型相关分析 15.1.1?方法简介 在相关分析一章中我们主要研究的是两个变量间的相关顶多调整其他因素的作用而已 如果要研究一个变量和一组变量间的相关则可以使用多元线性回归方程...
  • 1 关键点:典型相关分析典型相关分析是用于分析两组随机变量之间的相关程度的一种统计方法,它能够有效地揭示两组随机变量之间的相互(线性依赖)关系例如 研究生入学考试成绩与本科阶段一些主要课程成绩的相关性将...

    1 关键点:典型相关分析

    典型相关分析是用于分析两组随机变量之间的相关程度的一种统计方法,它能够有效地揭示两组随机变量之间的相互(线性依赖)关系

    例如 研究生入学考试成绩与本科阶段一些主要课程成绩的相关性

    将研究两组变量的相关性问题转化为研究两个变量的相关性问题

    此类相关为典型相关#

    2 分类:

    总体典型相关

    样本典型相关

    3 R语言提供的计算函数:

    典型相关计算

    cancor(x,y,xcenter=TRUE,ycenter=TRUE)

    x,y是相应的数据矩阵 xcenter,ycenter是逻辑变量

    TRUE是将数据中心化 FALSE是不中心化

    4 分析结果含义

    cor是典型相关系数

    xcoef是对应于数据x的系数 又称关于数据x的典型载荷即样本典型变量U系数矩阵A的转置

    xcenter是数据X的中心 即数据X的样本均值

    y是对应于数据x的系数 又称关于数据y的典型载荷即样本典型变量V系数矩阵B的转置

    ycenter是数据Y的中心 即数据Y的样本均值

    5 分析步骤

    (1.)载入原始数据 data.frame

    (2.)原始数据标准化 scale

    (3.)典型相关分析 cancor

    (4.)相关系数显著性检验 corcoef.test.R

    I.典型相关分析的计算

    现对20名中年人测得三个生理指标:体重(X1) 腰围(X2)

    脉搏(X3);三个训练指标:引体向上(Y1) 起座次数(Y2) 跳跃次数(Y3) 试分析这组数据的相关性

    #用数据框的形式输入数据矩阵

    test

    X1=c(191, 193, 189, 211, 176, 169, 154, 193,

    176, 156,

    189, 162, 182, 167, 154, 166, 247, 202, 157, 138),

    X2=c(36, 38, 35, 38, 31, 34, 34, 36, 37,

    33,

    37, 35, 36, 34, 33, 33, 46, 37, 32, 33),

    X3=c(50, 58, 46, 56, 74, 50, 64, 46, 54,

    54,

    52, 62, 56, 60, 56, 52, 50, 62, 52, 68),

    Y1=c( 5, 12, 13, 8, 15, 17,

    14, 6, 4, 15,

    2, 12, 4, 6, 17,

    13, 1, 12, 11, 2),

    Y2=c(162, 101, 155, 101, 200, 120,

    215, 70, 60, 225,

    110, 105, 101, 125, 251, 210, 50, 210, 230,

    110),

    Y3=c(60, 101, 58, 38, 40, 38, 105, 31, 25,

    73,

    60, 37, 42, 40, 250, 115, 50, 120, 80, 43)

    )

    #为了消除数量级的影响 将数据标准化处理 调用scale函数

    test

    #对标准化的数据做典型相关分析

    ca

    #查看分析结果

    ca

    结果说明:

    1) cor给出了典型相关系数;xcoef是对应于数据X的系数,

    即为关于数据X的典型载荷; ycoef为关于数据Y的典型载荷;xcenter与$ycenter是数据X与Y的中心,

    即样本均值;

    2) 对于该问题, 第一对典型变量的表达式为

    U1 = -0.17788841x1 0.36232695x2 - 0.01356309x3

    U2 = -0.43230348x1 0.27085764x2 - 0.05301954x3

    U3 = -0.04381432x1 0.11608883x2 0.24106633x3

    V1 = -0.08018009y1 - 0.24180670y2 0.16435956y3

    V2 = -0.08615561y1 0.02833066y2 0.24367781y3

    V3 = -0.29745900y1 0.28373986y2 - 0.09608099y3

    相应的相关系数为:p(U1,V1)=0.79560815

    ,p(U2,V2)=0.20055604 ,p(U3,V3)=0.07257029

    可以进行典型相关系数的显著性检验, 经检验也只有第一组典型变量.

    下面计算样本数据在典型变量下的得分:

    #计算数据在典型变量下的得分 U=AX V=BY

    U

    V

    #调整图形

    opar

    #画出以相关变量U1、V1和U3、V3为坐标的数据散点图

    plot(U[,1], V[,1], xlab="U1", ylab="V1")

    plot(U[,3], V[,3], xlab="U3", ylab="V3")

    #调整图形

    par(opar)

    由散点图可知

    第一典型相关变量分布在一条直线附近;第三典型相关变量数据很分散。因为第一典型变量其相关系数为0.79560815,接近1,所以在一直线附近;第三典型变量的相关系数是0.07257029,接近于0,所以很分散。

    II.典型相关系数的显著性检验

    作为相关分析的目的

    就是选择多少对典型变量?因此需要做典型相关系数的显著性检验。若认为相关系数k为0 就没有必要考虑第k对典型变量了

    #相关系数检验R程序

    corcoef.test

    #r为相关系数 n为样本个数

    且n>p q

    m

    Q

    for (k in m:1){

    #检验统计量

    lambda

    #检验统计量取对数

    Q[k]

    s

    i

    for (k in 1:m){

    #统计量  Q[k]

    chi

    if (chi>alpha){

    i

    }

    s

    }

    #显示输出结果 选用第几对典型变量

    i

    }

    source("corcoef.test.R")

    #输入相关系数r,样本个数n,两个随机向量的维数p和q,置信水平a(缺省值为0.1)

    corcoef.test(r=ca$cor,n=20,p=3,q=3)

    #程序输出值为典型变量的对数

    最终程序运行结果显示选择第一对典型相关变量。我们只利用第一典型变量分析问题,达到降维的目的。

    write.csv(test,"test_test.csv")

    展开全文
  • 典型相关分析matlab源代码,直接运行即可,用于典型变化,图像处理中的多元变化检测等。 典型相关分析matlab源代码,直接运行即可,用于典型变化,图像处理中的多元变化检测等。
  • Canonical Correlation Analysis 典型相关分析介绍定义典型相关分析(Canonical Correlation Analysis)12利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。输入:两个随机变量组\(X =...

    Canonical Correlation Analysis 典型相关分析

    介绍

    定义

    典型相关分析(Canonical Correlation Analysis)12利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。

    输入:两个随机变量组\(X = (x_1, \dots, x_n)\)和\(Y = (y_1, \dots, y_m)\)

    输出:两个向量\(a\)和\(b\),第一对典型变量\(U = a'X\)和\(V = b'Y\)

    目标:\(a'X\)和\(b'Y\)的相关系数\(\rho = \operatorname{corr}(a' X, b' Y)\)最大

    起源

    1936年由哈罗德·霍特林在《生物统计》期刊上发表的一篇论文《两组变式之间的关系》3首次引入。

    优点

    既考虑\(Y\)中的每个特征与\(X\)的所有特征的关联,也考虑了\(Y\)中的每个特征之间的关联。

    缺点

    CCA是寻找\(X\)和\(Y\)投影后\(U\)和\(V\)的关系,显然不能通过该关系来还原出\(X\)和\(Y\),也就是找不到\(X\)到\(Y\)的直接映射。这也是使用CCA预测时大多配上KNN的原因。

    应用领域

    多元统计分析方法

    相关

    Kernel Canonical Correlation Analysis (KCCA)

    当\(X\)和\(Y\)的关系是非线性的时候,我们可以尝试核函数(Kernel)方法

    Generalized Canonical Correlation

    不止两个集合\(X\)和\(Y\),而是多个集合的关系。

    主成分分析

    奇异值分解

    Multilinear subspace learning

    RV coefficient

    Principal angles

    Regularized canonical correlation analysis

    Partial least squares regression

    解法

    设 \(\Sigma_{XX} = \operatorname{cov}(X, X)\) 和 \(\Sigma_{YY} = \operatorname{cov}(Y, Y)\)。

    需要最大化的参数为

    \(\rho = \frac{a' \Sigma_{XY} b}{\sqrt{a' \Sigma_{XX} a} \sqrt{b' \Sigma_{YY} b}}\).

    第一步是定义一个基变更以及

    \(c = \Sigma_{XX} ^{1/2} a\),

    \(d = \Sigma_{YY} ^{1/2} b\).

    因此我们有

    \(\rho = \frac{c' \Sigma_{XX} ^{-1/2} \Sigma_{XY} \Sigma_{YY} ^{-1/2} d}{\sqrt{c' c} \sqrt{d' d}}\).

    根据柯西-施瓦茨不等式,我们有

    \(\left(c' \Sigma_{XX} ^{-1/2} \Sigma_{XY} \Sigma_{YY} ^{-1/2} \right) d \leq \left(c' \Sigma_{XX} ^{-1/2} \Sigma_{XY} \Sigma_{YY} ^{-1/2} \Sigma_{YY} ^{-1/2} \Sigma_{YX} \Sigma_{XX} ^{-1/2} c \right)^{1/2} \left(d' d \right)^{1/2}\),

    \(\rho \leq \frac{\left(c' \Sigma_{XX} ^{-1/2} \Sigma_{XY} \Sigma_{YY} ^{-1} \Sigma_{YX} \Sigma_{XX} ^{-1/2} c \right)^{1/2}}{\left(c' c \right)^{1/2}}\).

    如果向量 \(d\) 和 \(\Sigma_{YY} ^{-1/2} \Sigma_{YX} \Sigma_{XX} ^{-1/2} c\) 共线,那么上式相等。此外,如果 \(c\) 是矩阵 \(\Sigma_{XX} ^{-1/2} \Sigma_{XY} \Sigma_{YY} ^{-1} \Sigma_{YX} \Sigma_{XX} ^{-1/2}\) (见Rayleigh quotient) 最大特征值对应的特征向量,那么就可以得到相关的最大值。随后的典型变量对可以通过减少特征值的量级来得到。正交性保证了相关矩阵的对称性。

    因此解法是:

    \(c\) 是 \(\Sigma_{XX} ^{-1/2} \Sigma_{XY} \Sigma_{YY} ^{-1} \Sigma_{YX} \Sigma_{XX} ^{-1/2}\) 的一个特征向量。

    \(d\) 是 \(\Sigma_{YY} ^{-1/2} \Sigma_{YX} \Sigma_{XX} ^{-1/2} c\) 的比例项。

    相反地,也有:

    \(d\) 是 \(\Sigma_{YY} ^{-1/2} \Sigma_{YX} \Sigma_{XX} ^{-1} \Sigma_{XY} \Sigma_{YY} ^{-1/2}\) 的一个特征向量。

    \(c\) 是 \(\Sigma_{XX} ^{-1/2} \Sigma_{XY} \Sigma_{YY} ^{-1/2} d\) 的比例项。

    把坐标反过来,我们有

    \(a\) 是 \(\Sigma_{XX} ^{-1} \Sigma_{XY} \Sigma_{YY} ^{-1} \Sigma_{YX}\) 的一个特征向量。

    \(b\) 是 \(\Sigma_{YY} ^{-1} \Sigma_{YX} \Sigma_{XX} ^{-1} \Sigma_{XY}\) 的一个特征向量。

    \(a\) 是 \(\Sigma_{XX} ^{-1} \Sigma_{XY} b\) 的比例项。

    \(b\) 是 \(\Sigma_{YY} ^{-1} \Sigma_{YX} a\) 的比例项。

    那么相关变量定义为:

    \(U = c' \Sigma_{XX} ^{-1/2} X = a' X\)\(V = d' \Sigma_{YY} ^{-1/2} Y = b' Y\)

    实现

    Python

    Scikit-Learn

    sklearn.cross_decomposition.CCA

    cca_example.py

    1

    2

    3

    4

    5

    6from sklearn.cross_decomposition import CCA

    X = [[0., 0., 1.], [1.,0.,0.], [2.,2.,2.], [3.,5.,4.]]

    Y = [[0.1, -0.2], [0.9, 1.1], [6.2, 5.9], [11.9, 12.3]]

    cca = CCA(n_components=1)

    cca.fit(X, Y)

    X_c, Y_c = cca.transform(X, Y)

    output

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10>>> X_c

    array([[-1.3373174 ],

    [-1.10847164],

    [ 0.40763151],

    [ 2.03815753]])

    >>> Y_c

    array([[-0.85511537],

    [-0.70878547],

    [ 0.26065014],

    [ 1.3032507 ]])

    Matlab

    R

    SAS

    应用

    典型相关分析的用途很广。在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。 例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。

    又如,为了研究宏观经济走势与股票市场走势之间的关系,就需要考察各种宏观经济指标如经济增长率、失业率、物价指数、进出口增长率等与各种反映股票市场状况的指标如股票价格指数、股票市场融资金额等两组变量之间的相关关系。再如,工厂要考察所使用的原料的质量对所生产的产品的质量的影响,就需要对所生产产品的各种质量指标与所使用的原料的各种质量指标之间的相关关系进行测度。

    又如,在分析评估某种经济投入与产出系统时,研究投入和产出情况之间的联系时,投入情况面可以从人力、物力等多个方面反映,产出情况也可以从产值、利税等方面反映。

    再如在分析影响居民消费因素时,我们可以将劳动者报酬、家庭经营收入、转移性收入等变量构成反映居民收入的变量组,而将食品支出、医疗保健支出、交通和通讯支出等变量构成反映居民支出情况的变量组,然后通过研究两变量组之间关系来分析影响居民消费因素情况。

    参考

    Knapp T R. Canonical correlation analysis: A general parametric significance-testing system[J]. Psychological Bulletin, 1978, 85(2): 410.↩︎

    展开全文
  • 典型相关分析.sas

    2020-09-02 15:35:10
    数学建模分析——SAS程序——典型相关分析问题模板,这里以五年前后各指标相应的数据进行对比,分析得出了相关的结论,用以之后的进一步分析。
  • 在之前的推文中我向大家介绍过双变量相关分析、偏相关关系等,今天我们来了解一种新的相关关系——典型相关。我们在进行相关性研究时,经常需要考察多个...典型相关分析在实证研究中有广泛的运用,常常被作为结构方...
    在之前的推文中我向大家介绍过双变量相关分析、偏相关关系等,今天我们来了解一种新的相关关系——典型相关我们在进行相关性研究时,经常需要考察多个变量与多个变量之间,即两组变量之间的相关性,并研究它们之间的相关系数1885e7e600c3b40752e9597ad7742c3f.png例如,某个城市的经济发展水平与居民生活水平间的相关关系;儿童生长发育与身体素质之间的相关关系;学习能力与自控力的相关关系等。典型相关分析在实证研究中有广泛的运用,常常被作为结构方程模型研究的基础步骤。典型相关分析方法的基本思想和主成分分析非常相似,即根据变量间的相关关系,寻找一个或少数几个综合变量(实际观察变量的线性组合)用来替代原变量,从而将二组变量的关系集中到少数几对综合变量的关系上,提取时要求第一对综合变量间的相关性最大,第二对次之,以此类推。这些综合变量被称为典型变量,第一对典型变量间的相关系数则被称为第一典型相关系数。典型相关系数度量了这两组变量之间联系的强度。典型相关模型的基本假设:两组变量间是线性关系,每对典型变量之间是线性关系,每个典型变量与本组变量之间也是线性关系;在所有的线性组合中,找一对相关系数最大的线性组合,用这个组合的单相关系数来表示两组变量的相关性,叫做两组变量的典型相关系数,而这两个线性组合叫做一对典型变量。典型相关还要求各组内变量间不能有高度的复共线性。典型相关分析的思路:7b14e0d552629907ba91c9d3c0de2f83.png典型相关分析需满足的条件:典型相关分析是在原始数据满足一定条件和假设的前提下进行的,这些条件包括原始变量要服从多元正态分布,样本容量至少要大于原始变量个数(一般为变量个数的10 ~20 倍),这些假设包括两组变量之间要具有相关性,每组原始变量中能够综合出典型变量, 即原始变量组内要有一定的相关性等。若这些条件和假设无法满足,就不能进行典型相关分析。

    案例操作演示

    下面我将用一个简单的案例向大家介绍如何在SPSS中进行典型相关分析。下图是案例数据截图:9decd2b1598e105e93d0300b942c33bc.png案例数据中记录了受访者对某城市各方面的满意程度,其中,现代建筑、多元文化、生态环境被归为了生态与人文维度(红色框选),舒适性和安全性被归为了安全与舒适维度(橙色框选)我希望对这两个维度的进行典型相关关系。注意事项:本操作使用的是SPSS25.0版本,SPSS老版本应该不能直接进行典型相关分析。如果新版本也不能进行典型相关分析,那可能是没有安装Python扩展。分析步骤:点击菜单分析 -> 相关 -> 典型相关性,将安全与舒适维度选入集合1,生态与人文维度选入集合2(两组变量的地位相等)点击选项复选按钮,勾选显示框中的所有选项;点击继续,点击确定对话框如下图所示:6b68d7e3fe1857ea3ce0c24135ff5555.png

    输出结果解析

    (1)相关系数矩阵d5b3d4d8bd29ed85cc1d16ce3a3afdc1.png上图反映了各变量间的相关系数,从中可以知道各变量间的相关程度。从整体相关系数矩阵来看,两组变量内部,以及各变量之间的相关系数都不小,相关系数在0.490~0.714之间。(2)典型相关的描述统计6c25876760c204cf38ee5b90f3e8c36d.png上图为典型相关系数表,其中给出了两个集合的具体变量,其中集合1内的元素有现代建筑、多元文化、生态环境,集合2内的元素有舒适性和安全性;其中进行典型相关性分析的有2个数据对。(3)典型相关系数及其检验72580e2e2f592ac8f653ecb72f1a3280.png上图给出的是典型相关系数及其检验,结果表明只有第一个典型相关系数是显著的(P=0.000<0.001),它的相关系数是0.720。因此,我们只需要对第一个典型相关变量进行解释。(4)典型变量系数844ef4b502df512ee15cd3854ecd15a6.png上图为典型变量的系数表,有标准典型相关系数和未标准典型相关系数两类。选择看哪种典型变量系数表,取决于研究变量的单位,如果单位相同,则看未标准化的典型相关系数,如果单位不同,则看标准化后的典型相关系数。本例中,这些变量的单位都相同,因此我们选择未标准化的典型相关系数,即橙色框选的部分。由此,我们可以得出第一对典型变量由标准化数据组成的计算公式:U1=-0.452*现代建筑-0.195*多元文化-0.690*生态环境V1=-0.891*舒适性-0.340*安全性并且u1和v1的相关系数为0.720,有较强的正相关性。通过以上表达式,可以看出U主要受生态环境的影响较大;V1主要受舒适性的影响较大。可以发现,标准典型相关系数都是负的,这导致典型变量的现实含义不好解释;出现这种情况可能是由于前面提到的变量内部的相关关系较大,导致本案例数据建立的典型相关模型的效果不佳。(5)典型负荷系数和交叉负荷系数典型负荷系数也称为结构相关系数,指的是一个典型变量与本组所有变量的简单相关系数。交叉负荷系数指的是一个典型变量与另一组变量各个变量的简单相关系数。5da8bac65be6c190f101d180e2c19bef.png上图的典型负荷系数表(红框)说明生态与人文维度的第一典型变量与现代建筑的相关系数为-0.836,与多元文化的相关系数为-0.779,与生态环境的相关系数为-0.928。从另一方面说明生态与人文维度与它的各变量之间均为负相关,其中与生态环境的相关性最强。安全与舒适维度同理。交叉负荷系数(橙框)说明现代建筑与集合2的第一个典型变量的相关性是-0.602,多元文化与集合2的第一个典型变量的相关性是-0.561,生态环境与集合2的第一个典型变量的相关性是-0.668。集合2的交叉负荷系数表解读方式同理。(6)已解释的方差比例3ee800de79833526c646f57ec3197ccf.png上图中包括组内代表比例和交叉解释比例,是典型相关分析中的重要组成部分。从该表可知,生态与人文维度被自身的第一典型变量解释了72.2%,安全与舒适维度被自身的第一典型变量解释了83.4%;生态与人文维度被安全与舒适维度的第一典型变量解释了37.4%,安全与舒适维度被生态与人文维度的第一典型变量解释了43.2%。总体来说,自变量的解释能力较好。
    展开全文
  • 典型相关分析笔记

    2020-07-07 17:22:09
    典型相关分析笔记
  • SPSS典型相关分析

    2013-08-24 08:55:41
    学习SPSS典型相关分析的好教程,利用spss进行典型相关分析
  • 典型相关分析在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。典型相关分析就是测度两组变量之间相关程度的一种多元...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,964
精华内容 1,185
关键字:

典型相关分析