精华内容
下载资源
问答
  • 王斌会《多元统计分析及R语言建模》第四版,该书系统论述多元统计分析基本理论和方法并结合R语言分析运算,具有基本统计知识的读者就可阅读本书,这里给出了该书的代码以及书中所需的数据。
  • 多元统计分析】课程总结

    千次阅读 2020-11-11 17:28:38
    参考文献:《多元统计分析》高慧璇 编著 ,北京大学出版社 刚考完,做个总结,意在搭个学习《多元统计分析》的简单架子,方便日后复习,虽然只学了一点皮毛,但是架不住老年人的脑子(“好记性,不如烂blog”)。...

    参考文献:《多元统计分析》高慧璇 编著 ,北京大学出版社
    刚考完,做个总结,意在搭个学习《多元统计分析》的简单架子,方便日后复习,虽然只学了一点皮毛,但是架不住老年人的脑子(“好记性,不如烂blog”)。其中,具体内容和公式不再一一陈述(据说,Latex是阻止人类文明进步的绊脚石。。)
    一句有用的废话:学习多元统计的时候,要多思考一元统计。
    一元统计里面正态分布是重中之重,这是因为后续的参数估计、假设检验等都是围绕它展开的,具体如:卡方分布、F分布、t分布等等。那么对应到多元中,多元正态分布也是核心,类似地衍生出威沙特(Wishart)分布、威尔克斯(Wilks)分布、霍特林(Hotelling) T 2 T^2 T2分布(对应于一元的卡方分布、F分布、t分布)。其中,会有很多细节,比如说霍特林分布是把一元的t统计量平方后再拓展到多元上的(这并不是很难理解,因为一元t统计量的分母需要开根号,对应到多元上是没有根号的,所以想到平方。

    关于似然比检验

    在一元统计里面,似然比检验似乎并不太重要,但是在多元统计里,它可以用来各种检验(均值向量的检验、协方差阵的检验等等),主要理论是似然比原理。似然比统计量的构造:顾名思义,要有似然函数和比值,分子和分母差不多是同一个似然函数,主要区别在于:似然函数中参数的取值范围,一个是原假设 H 0 H_0 H0成立时的子参数空间,另一个是全参数空间。
    在这里插入图片描述
    非中心的分布可以用来计算第二类错误( β \beta β,取伪错误);
    矩阵的分布是指把矩阵拉直之后向量的分布,也就是说其实是没有矩阵的分布,只有向量的分布……
    👻似然比统计量在样本容量n很大的时候,又会和卡方分布有着千丝万缕的联系……想不明白的话,可以想想一元做拟合优度检验的时候,峁诗松老师给了两种做法,一个是卡方,另一个就是似然比检验,两者等价,多元也适用。。。恕末将无能,只能解释到这里……

    关于回归分析

    在这里插入图片描述
    值得注意的是,上面(4.1.2)和(4.1.3)虽然都是经典多元线性回归模型,文书上又用“或”连接,但是二者并不等价。(4.1.3)明显是比(4.1.2)要强的,因为(4.1.3)有分布,而(4.1.2)只是给出一些数字特征。
    强有强的用处,(4.1.3)一般用于区间估计等(区间估计是需要知道分布才可以做的);
    弱有弱的好处,(4.1.2)一般用于简单的点估计。
    在这里插入图片描述
    参数的最小二乘估计中有个帽子矩阵,名字由来是那个红色的式子,H像是给Y加了一顶帽子变成了 Y ^ \widehat{Y} Y ,所以称为帽子矩阵……

    关于判别分析

    这里值得注意的是,判别分析是在分好类之后进行的,而且各类的分布特征已知。这是区别于聚类分析的地方。
    在这里插入图片描述
    做判别分析之前,要先看一下:类与类之间是否有显著差异,不然就像“纠结是吃番茄好还是吃西红柿好”一样……
    具体有距离判别法、贝叶斯判别法、费希尔判别法等。判别方法的结果是得到一个m维空间的划分,再看看新样品X是属于哪一个划分区域,然后可以知道它属于哪一个类。

    • 距离判别法的基本思想:样品和哪个总体距离近,就判它属于哪个总体,又称“直观判别法”。主要采用马氏距离。
      实际中,总体分布特征是未知的,于是一般会使用样本去估计未知参数(均指向量、协方差矩阵)。需要注意,像一元统计一样,总体方差是否齐性(是否相等) 会影响结果。于是,用来估计总体协方差的样本协方差也要分【 Σ 1 = Σ 2 \Sigma_1=\Sigma_2 Σ1=Σ2】和【 Σ 1 ≠ Σ 2 \Sigma_1\neq \Sigma_2 Σ1=Σ2】的情况。
      Σ 1 ≠ Σ 2 \Sigma_1\neq \Sigma_2 Σ1=Σ2】时:用合并的样本协方差阵去估计总体协方差阵;
      在这里插入图片描述
      Σ 1 = Σ 2 \Sigma_1=\Sigma_2 Σ1=Σ2】时:用各自的样本协方差阵即可。
    • 贝叶斯判别法:
      距离判别法只需要知道总体的一些参数或是特征(均指向量、协方差阵等)即可做,它没有考虑各个总体出现的机会(即先验概率)大小,也没有考虑错判损失。针对这些缺点,有了贝叶斯判别法,贝叶斯判别法需要先验概率、错判损失等等。
      贝叶斯判别法在一些特定的情况下,体现为广义平方距离判别法、后验概率判别法。具体来说,如果给定错判损失相等的前提,那么贝叶斯判别法就是后验概率判别法;进一步地,如果给定正态总体的前提,后验概率判别法就是广义平方距离法。
    • 费希尔判别法:
      主要思想是投影。将k组m元数据投影到某一个方向上,使得投影后组与组之间尽可能地分开。而衡量组与组之间是否分得开的方法借助于一元方差分析的思想。最后化简一下就是求组内离差阵和组间离差阵的广义特征值问题。

    关于聚类分析

    事先不知道研究问题应该分为几类,更不知道观测的个体的具体分类情况,聚类分析通过对观测数据分析处理,选定一个度量个体接近程度的量,确定分类数目,建立一种分类方法,并按照接近程度对观测对象给出合理的分类。
    对一批观测对象,先用聚类分析进行分类,然后用判别分析的方法建立判别准则,用以对新的观测对象进行判别归类。

    • 典型的有系统聚类法:开始每个对象各成一类,然后每次将最相似的两类合并(距离最近的两类),合并后重新计算新类与其他类的距离。这一过程一直继续直到所有对象归为一类为止。并类的过程可以用谱系聚类图描述。
      根据分类对象的不同,分为Q型(对样品)、R型(对变量)。
      类与类之间距离的定义有很多种,每一种都对应了不同的系统聚类法。

    关于主成分分析

    作用:降维,简化数据结构等。
    它的本质是对变量做线性变换,并没有模型可言,这是区别于因子分析的地方(因子分析是有模型的,之后会详细列一列二者的区别和联系)。值得注意的是,通常不会取全部的主成分,只需要特征值比较大的那几个主成分即可近似地反映全部原始变量的信息。

    • 为什么是特征值这个量呢?
      因为第i大的特征值对应第i个特征向量,也就是第i个主成分的系数向量。而第i个主成分的方差等于 λ i \lambda_i λi.主成分的方差反映了的信息量,越大越好。特征值的所占比例,称为“贡献率”,反映了该特征值对应的那个主成分提取了原始变量的多少信息。至于累计贡献率的概念,可想而知,就是前m个特征值所占比例,含义是前m个主成分提取了原始变量(⭐这里注意一下,是指全部的原始变量,视作一个整体)的多少信息。
      上面⭐那里,很容易使人思考到:是不是应该还有一个量,用来反映某(几个)主成分提取了某个特定原始变量的信息?于是,有了下面的定义(7.1.3).其中主成分和原始变量的相关系数,被定义为“因子载荷量”(又称,因子负荷量),emmm,我总觉得这个名称是根据后面的因子分析来的,毕竟因子分析是主成分分析的推广,随着叫也不能说人家乱辈分……
      在这里插入图片描述
      note:从上面的描述中,应该很容易看出主成分之间是互不相关的(因为不同特征值对应的特征向量是互不相关的),这是一个很好的性质(原始变量之间是有可能相关的),这表示各主成分的信息互不重叠。
    • 确定需要多少个主成分的要求
      m个主成分所反映的信息 和 p个原始变量( 就是全部原始变量,和,部分杰出主成分代表)所提供的信息差不多;
      m个主成分又能够对数据所具有的意义进行解释。(是能解释的,肯定句,不是否定句。。不要小看这句话,我就被大牛老师问到了,还挺自信地说错了哈哈哈哈,记住这个教训 。—from some old people👴👴);

    关于因子分析

    因子分析是主成分分析的推广和发展,把多个变量综合为少数几个因子,以再现原始变量与因子之间的关系。
    不过,具体写出来因子分析模型长得又很像 回归分析。。。
    X i = a i 1 F 1 + a i 2 F 2 + . . . . . . + a i m F m + ε i X_i=a_{i1}F_1+a_{i2}F_2+......+a_{im}F_m+\varepsilon_i Xi=ai1F1+ai2F2+......+aimFm+εi
    注意看上式的脚标,它暗示了很多东西: X i X_i Xi表示第i个变量; F 1 , . . . , F m F_1,...,F_m F1,...,Fm表示因子,脚标和i是无关的,也就是所有变量都会含他们(也可能不含,主要看系数),所以称他们为“公共因子”; ε i \varepsilon_i εi,也是因子,注意下脚标是依赖i的(也就是随变量的不同而不同,或者说一个变量有一个特殊因子),因此称作“特殊因子”。

    • 再说因子分析和回归分析有什么区别:
      回归分析模型: Y = β 0 + β 1 X 1 + β 2 X 2 + . . . . . . + β m X m + ε Y = \beta_0+\beta_1X_1+\beta_2X_2+......+\beta_mX_m+\varepsilon Y=β0+β1X1+β2X2+......+βmXm+ε
      因子分析模型中的因子是不可观测的,但也是随机的。而回归分析中的因变量和自变量都是可观测的,也是随机的。
    • 正交因子模型两个关键性的假设:
      特殊因子互不相关,故 D ( ε ) D(\varepsilon) D(ε)应该是一个对角阵;
      公共因子互不相关,且 D ( F ) = I m D(F)=I_m D(F)=Im(单位矩阵);
      特殊因子与公共因子互不相关,即 C O V ( ε , F ) = O p × m COV(\varepsilon,F)=O_{p\times m} COV(ε,F)=Op×m;(假设共有p个变量,m个公共因子)
      (虽然我是一只十足的菜鸟,但是我知道很多人用模型都是从来不管前提的,甚至不知道前提假设是什么……)
      在这里插入图片描述

    主成分分析&因子分析

    主成分分析一般不用数学模型来描述,它只是通常的变量变换,而因子分析需要构造因子模型(正交或是斜交);
    主成分分析中主成分的个数和变量个数相同,它是将一组具有相关性的变量变换为一组独立的综合变量(实际中,一般选取部分主成分),而因子分析目的是用尽可能少的公因子,以便构造一个简单的因子模型;
    主成分分析是将主成分表示为原变量的线性组合,而因子分析是将原始变量表示成公共因子和特殊因子的线性组合。


    一些乱七芭蕉的观察和想法……可以忽略不看
    样本资料阵X
    一般表示成n*p的矩阵,其中n是样本容量,p是特征(也就是一次观测需要看多少指标)。
    不好理解的话,可以想想SQL、SPSS中的表格,不同行表示不同case,不同列表示不同指标(学号、姓名、班级等等),又称“设计矩阵”。

    多元正态分布
    它有很多个定义,要注意的是定义之间的区别。
    比如说:下面这几种定义之中,联合密度函数的那个明显是较强的,因为它需要协方差矩阵是正定的,而其他的只需要非负定即可。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    • 在随机向量服从多维正态分布的前提下,各分量(也可以是分块的分量)不相关和独立是等价的。(注意前提)
      在这里插入图片描述
      感谢观看,欢迎批评指正。【❀❀】
    展开全文
  • 《应用多元统计分析》为北京大学数学科学学院概率统计系“应用多元统计分析”课程使用多年的教材,它主要介绍一些实用的多元统计分析方法的理论及其应用,并列举了各方面的应用实例,同时还以国际上著名的统计分析...
  • 文章目录因子分析基本理论因子载荷的求解因子旋转因子得分主成分分析与因子分析的区别因子分析的步骤与逻辑框图步骤逻辑框图 因子分析 因子分析( factor analysis)模型是主成分分析的推广。它也是利用降维的思想...

    鄙人学习笔记



    因子分析

    因子分析( factor analysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法

    相比主成分分析,因子分析更倾向于描述原始变量之间的相关关系,因此,因子分析的出发点是原始变量的相关矩阵。

    基本理论

    • 因子分析的基本思想

    因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。
    对于所研究的某一具体问题,原始变量可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
    因子分析还可用于对变量或样品的分类处理,我们在得出因子的表达式之后,可以把原始变量的数据代入表达式得出因子得分值,根据因子得分在因子所构成的空间中把变量或样品点画出来,形象直观地达到分类的目的。
    因子分析不仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常将前者称为 R型因子分析,后者称为 Q型因子分析。

    • 一般因子分析模型

    设有 n个样品,每个样品观测 p个指标,这 p个指标之间有较强的相关性(要求 p个指标相关性较强的理由是很明确的,只有相关性较强才能从原始变量中提取出“公共”因子)
    为了消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。
    为方便,把原始变量及标准化后的变量向量均用X 表示,用F1,F2,…,Fm(m <p)表示标准化的公共因子。

    如果:

    (1)X =(X1,X2,…,Xp)′是可观测随机向量,且均值向量E(X)=0,协方差矩阵cov(X)=∑,且协方差矩阵∑ 与相关阵R 相等;

    (2)F =(F1,F2,…,Fm)′(m <p)是不可观测的变量,其均值向量E(F)=0,协方差矩阵cov(F)=I,即向量F 的各分量是相互独立的
    (3)ε =(ε1,ε2,…,εp)′与F 相互独立,且E(ε)=0,ε 的协方差阵∑ ε 是对角方阵

    ε 的各分量之间也是相互独立的.

    则模型:

    称为因子模型


    其中:

    公共因子F1,F2,…,Fm 相互独立且不可测,是在原始变量的表达式中都出现的因子。公共因子的含义,必须结合实际问题的具体意义确定。

    ε1,ε2,…,εp 叫做特殊因子,是向量X的分量Xi(i =1,2,…,p)所特有的因子。各特殊因子之间以及特殊因子与所有公共因子之间也都是相互独立的。
    矩阵A 中的元素aij 称为因子载荷,aij 的绝对值越大(∣ aij ∣ ≤ 1),表明Xi 与Fj 的相依程度越大,或称公共因子Fj 对于Xi 的载荷量越大,进行因子分析的目的之一就是要求出各个因子载荷的值。
    经过后面的分析会看到,因子载荷的概念与上一章主成分分析中的因子负荷量相对等,实际上,由于因子分析与主成分分析非常类似,在上面的因子模型中,若把εi 看做ai(m+1)F(m+1) +ai(m+2)F(m+2) +…+aipFp 的综合作用,则除了此处的因子为不可测变量这一区别,因子载荷与主成分分析中的因子负荷量是一致的。很多人对这两个概念并不加以区分而都称作因子载荷。矩阵A 称为因子载荷矩阵

    为了更好地理解因子分析方法,有必要讨论一下载荷矩阵A的统计意义以及公共因子与原始变量之间的关系。
    (1)因子载荷aij 的统计意义:

    即aij 是Xi 与Fj 的协方差,而注意到,Xi 与Fj(i =1,2,…,p;j =1,2,…,m)都是均值为0,方差为1 的变量,因此,aij 同时也是Xi 与Fj 的相关系数。

    (2)变量共同度与剩余方差:
    称ai12+ai22+ … +aim2为变量Xi 的共同度,记为hi2(i =1,2,…,p)
    由因子分析模型的假设前提,易得:

    易得记var(ε i)=σi2,则:

    上式表明共同度hi2与剩余方差σi2有互补的关系,越大表明Xi 对公共因子的依赖程度越大,公共因子能解释Xi 方差的比例越大,因子分析的效果也就越好。

    (3)考虑某一个公共因子Fj 与所有原始变量X1,X2,…,Xp 的关系。记:

    则gj2表示的是公共因子Fj 对于X 的每一分量Xi(i =1,2,…,p)所提供的方差的总和,称为公共因子Fj 对原始变量向量X 的方差贡献,它是衡量公共因子相对重要性的指标。gj2越大,表明公共因子Fj 对X 的贡献越大,或者说对X 的影响和作用就越大。
    如果将因子载荷矩阵A 的所有gj2(j =1,2,…,m)都计算出来,并按其大小排序,就可以依此提炼出最有影响的公共因子。

    因子载荷的求解

    有很多方法可以完成求解因子载荷这项工作,如主成分法、主轴因子法、最小二乘法、极大似然法、 α因子提取法等。

    • 主成分法

    用主成分法确定因子载荷是在进行因子分析之前先对数据进行一次主成分分析,然后把前几个主成分作为未旋转的公共因子。
    但是,由于用这种方法所得的特殊因子 ε1, ε2,…, εp之间并不相互独立,因此,用主成分法确定因子载荷不完全符合因子模型的假设前提,也就是说所得的因子载荷并不完全正确。
    当共同度较大时,特殊因子所起的作用较小,特殊因子之间的相关性所带来的影响几乎可以忽略。
    事实上,很多有经验的分析人员在进行因子分析时,总是先用主成分法进行分析,然后再尝试其他的方法

    • 主轴因子法

    主轴因子法也比较简单,且在实际应用中比较普遍。用主轴因子法求解因子载荷矩阵的方法,其思路与主成分法有类似的地方,两者均是从分析矩阵的结构入手,不同的地方在于,主成分法是在所有的p个主成分都能解释标准化原始变量所有方差的基础之上进行分析的,而主轴因子法中,假定 m个公共因子只能解释原始变量的部分方差,利用公共因子方差(或共同度)来代替相关矩阵主对角线上的元素 1,并以新得到的这个矩阵(称为调整相关矩阵)为出发点,对其分别求解特征根与特征向量,从而得到因子解。

    • 极大似然法

    如果假定公共因子F和特殊因子ε服从正态分布,则能够得到因子载荷和特殊因子方差的极大似然估计。

    因子旋转

    不管用何种方法确定初始因子载荷矩阵A,它们都不是唯一的。设F1,F2,…,Fm 是初始公共因子,则可以建立它们的如下线性组合得到新的一组公共因子F1′,F2′,…,Fm′,使得F1′,F2′,…,Fm′彼此相互独立,同时也能很好地解释原始变量之间的相关关系。

    这样的线性组合可以找到无数组,由此便引出了因子分析的第二个步骤——因子旋转。

    建立因子分析模型的目的不仅在于找到公共因子,更重要的是知道每一个公共因子的意义,以便对实际问题进行分析。然而,我们得到的初始因子解各主因子的典型代表变量不是很突出,容易使因子的意义含糊不清,不便于对实际问题进行分析。出于这种考虑,可以对初始公共因子进行线性组合,即进行因子旋转,以期找到意义更为明确、实际意义更明显的公共因子。
    经过旋转后,公共因子对Xi 的贡献hi2并不改变,但由于载荷矩阵发生变化,公共因子本身就可能发生很大的变化,每一个公共因子对原始变量的贡献gj2不再与原来相同,经过适当的旋转,我们就可以得到比较令人满意的公共因子。

    • 正交旋转和斜交旋转

    因子旋转分为正交旋转与斜交旋转。正交旋转由初始载荷矩阵A 右乘一正交阵而得到。经过正交旋转而得到的新的公共因子仍然保持彼此独立的性质。而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的形式,其实际意义也更容易解释。但不论是正交旋转还是斜交旋转,都应当使新的因子载荷系数要么尽可能地接近于零,要么尽可能地远离零。
    对于一个具体问题要做因子旋转,有时需要进行多次才能得到满意效果。每一次旋转后,矩阵各列平方的相对方差之和总会比上一次有所增加。如此继续下去,当总方差的改变不大时,就可以停止旋转,这样就得到了新的一组公共因子及相应的因子载荷矩阵,使得其各列元素平方的相对方差之和最大。

    因子得分

    顾名思义,因子得分就是公共因子F1,F2,…,Fm在每一个样品点上的得分。

    这需要我们给出公共因子用原始变量表示的线性表达式,这样的表达式一旦能够得到,就可以很方便地把原始变量的取值代入表达式中,求出各因子的得分值。在此处,公共因子用原始变量线性表示的关系式并不易得到。

    在此处,公共因子用原始变量线性表示的关系式并不易得到。在主成分分析中,主成分是原始变量的线性组合,当取p 个主成分时,主成分与原始变量之间的变换关系是可逆的,只要知道了原始变量用主成分线性表示的表达式,就可以方便地得到用原始变量表示主成分的表达式;

    在因子模型中,公共因子的个数少于原始变量的个数,且公共因子是不可观测的隐变量,载荷矩阵A不可逆,因而不能直接求得公共因子用原始变量表示的精确线性组合。

    解决该问题的一种方法是用回归的思想求出线性组合系数的估计值,即建立如下以公共因子为因变量、原始变量为自变量的回归方程:


    此处因为原始变量与公共因子变量均为标准化变量,因此回归模型中不存在常数项。在最小二乘意义下,可以得到F的估计值:

    A 为因子载荷矩阵;R 为原始变量的相关阵;X 为原始变量

    主成分分析与因子分析的区别

    (1)因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子组合系数。主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量绝大部分变异的几组彼此不相关的主成分。

    (2)因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各变量的线性组合。

    (3)主成分分析中不需要有一些专门假设,因子分析则需要一些假设。因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

    (4)提取主因子的方法不仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同。而主成分只能用主成分法提取。

    (5)主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中,因子不是固定的,可以旋转得到不同的因子。

    (6)在因子分析中,因子个数需要分析者指定,随指定的因子数量不同而结果不同。在主成分分析中,主成分的数量是一定的,一般有几个变量就有几个主成分。

    (7)和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。

    因子分析的步骤与逻辑框图

    步骤

    进行因子分析应包括如下几步:
    (1)根据研究问题选取原始变量。
    (2)对原始变量进行标准化并求其相关阵,分析变量之间的相关性。
    (3)求解初始公共因子及因子载荷矩阵。
    (4)因子旋转。
    (5)因子得分。
    (6)根据因子得分值进行进一步分析。

    逻辑框图

    展开全文
  • 主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。 通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间...

    鄙人学习笔记



    主成分分析

    主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。
    通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。

    主成分分析的基本原理

    在对某一事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,另一方面考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。
    主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。
    既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素。根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。

    • 主成分分析的基本思想

    利用主成分分析得到的主成分与原始变量之间有如下基本关系:

    (1)每一个主成分都是各原始变量的线性组合。
    (2)主成分的数目大大少于原始变量的数目。
    (3)主成分保留了原始变量绝大多数信息。
    (4)各主成分之间互不相关。

    • 主成分分析的基本理论

    对 X进行线性变换,可以形成新的综合变量,用 Y表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:

    由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y 的统计特性也不尽相同。因此为了取得较好的效果,我们总是希望Yi=ui’X的方差尽可能大且各Yi 之间互相独立,由于:

    对于任意的常数c,有:

    因此对ui 不加限制时,可使var(Yi)任意增大,问题将变得没有意义。我们将线性变换约束在下面的原则之下:

    (1)ui’ui=1(i =1,2,…,p)。
    (2)Yi 与Yj 相互无关(i ≠ j;i,j =1,2,…,p)。
    (3)Y1 是X1,X2,…,Xp 的一切满足原则(1)的线性组合中方差最大者;Y2 是与Y1 不相关的X1,X2,…,Xp所有线性组合中方差最大者;…,Yp 是与Y1,Y2,…,Yp-1 都不相关的X1,X2,…,Xp 的所有线性组合中方差最大者。

    基于以上三条原则决定的综合变量 Y1, Y2,…, Yp分别称为原始变量的第一、第二……第 p个主成分。其中,各综合变量在总方差中所占的比重依次递减。

    • 主成分分析的几何意义

    主成分分析的过程无非就是坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向。

    总体主成分及其性质

    主成分分析的基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。
    而这里对于随机变量 X1, X2,…, Xp而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反映,而相关矩阵不过是将原始变量标准化后的协方差矩阵。
    我们所说的保留原始变量尽可能多的信息,也就是指生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。

    主成分

    • 引论

    设矩阵 A′= A,将 A的特征值 λ1, λ2,…, λn依大小顺序排列,不妨设 λ1 ≥ λ2 ≥… ≥ λn, γ1, γ2,…, γp为矩阵 A各特征值对应的标准正交特征向量,则对任意向量 x,有

    • 从协方差阵出发求解主成分

    设随机向量 X=( X1, X2,…, Xp)′的协方差矩阵为 ∑, λ1 ≥ λ2 ≥… ≥ λn为 ∑的特征值, γ1, γ2,…, γp为矩阵 A各特征值对应的标准正交特征向量,则第 i个主成分为:

    此时:

    Y的分量Y1,Y2,…,Yp依次是X的第一主成分、第二主成分……第p主成分的充分必要条件是:
    (1)Y= P′ X,即 P为 p阶正交阵;
    (2)Y的分量之间互不相关,即 D( Y)= diag( λ1, λ2,…, λp);
    (3)Y的 p个分量是按方差由大到小排列,即: λ1 ≥ λ2 ≥… ≥ λn

    主成分的性质

    性质1: Y的协方差阵为对角阵
    性质2:

    • 累计贡献率


    主成分分析是把 p个随机变量的总方差分解为 p个不相关的随机变量的方差之和,使第一主成分的方差达到最大。
    第一主成分是以变化最大的方向向量各分量为系数的原始变量的线性函数,最大方差为 λ1
    α1表明了 λ1的方差在全部方差中的比值,称 α1为第一主成分的贡献率。这个值越大,表明 Y1这个新变量综合 X1, X2,…, Xp信息的能力越强,也即由 Y1的差异来解释随机向量 X的差异的能力越强。

    进行主成分分析的目的之一是减少变量的个数,所以一般不会取 p个主成分,而是取 m< p个主成分。 m取多少比较合适,是一个很实际的问题,通常以所取 m使得累积贡献率达到 85%以上为宜。

    • 因子载荷量

    第 k个主成分 Yk与原始变量 Xi的相关系数 ρ( Yk, Xi)称为因子负荷量。

    因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。

    性质3:

    因子负荷量 ρ(Yk, Xi)与系数 γik成正比,与 Xi的标准差成反比关系,因此,绝不能将因子负荷量与系数向量混为一谈。在解释主成分的成因或第 i个变量对第 k个主成分的重要性时,应当根据因子负荷量而不能仅仅根据 Yk与 Xi的变换系数 γik

    性质4:

    性质5:

    Xi与 Y1, Y2,…, Yp的全相关系数的平方和等于 1。

    • 方差贡献率vi

    Xi与前 m个主成分 Y1, Y2,…, Ym的全相关系数平方和称为 Y1, Y2,…, Ym对原始变量 Xi的方差贡献率 vi,即:

    这一定义说明了前 m个主成分提取了原始变量 Xi中 vi的信息,由此可以判断我们提取的主成分说明原始变量的能力。

    • 从相关矩阵出发求解主成分

    考虑如下的数学变换:

    式中,μi与σii分别表示变量Xi的期望与方差。
    于是有 E(Zi)=0,  var(Zi)=1

    原始变量 X1, X2,…, Xp的相关阵实际上就是对原始变量标准化后的协方差矩阵。因此,由相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则相一致的。

    • 由相关性求主成分时主成分的简单形式

    (1)Y的协方差矩阵为对角阵ʌ。
    (2)

    (3)第 k个主成分的方差占总方差的比例,即第 k个主成分的方差贡献率为 αk= λk/ p,前 m个主成分的累积方差贡献率为:

    (4)

    相关问题讨论

    关于由协方差矩阵或相关矩阵出发求解主成分

    求解主成分的过程实际就是对矩阵结构进行分析的过程,也就是求解特征值的过程。从协方差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。
    一般而言,对于度量单位不同的指标或取值范围彼此差异非常大的指标,不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。
    但是,对原始数据进行标准化处理后倾向于各个指标的作用在主成分的构成中相等。对于取值范围相差不大或度量相同的指标进行标准化处理后,其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。
    其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为 1,而实际上方差也是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。
    由此看来,对同度量或取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。

    主成分分析不要求数据来自于正态总体

    也就是说,与很多多元统计方法不同,主成分分析不要求数据来自于正态总体。实际上,主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。我们知道,对多元随机变量而言,其协方差矩阵或相关矩阵均是非负定的,这样,就可以按照求解主成分的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到缩减数据维数的目的。

    主成分分析与重叠信息

    首先应当认识到,主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。
    一般认为,当原始数据大部分变量的相关系数都小于 0. 3时,运用主成分分析不会取得很好的效果。
    很多研究工作者在运用主成分分析方法时,都或多或少存在着对主成分分析消除原始变量重叠信息的期望,这样,在实际工作之初就可以把与某一研究问题相关而可能得到的变量(指标)都纳入分析过程,再用少数几个主成分浓缩这些有用信息(假定已剔除了重叠信息),然后对主成分进行深入分析。
    在对待重叠信息方面,生成的新的综合变量(主成分)是有效剔除了原始变量中的重叠信息,还是仅按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,这一点还有待讨论。

    • 多重共线性

    在实际工作中,在选取初始变量进入分析时应该小心,对原始变量存在多重共线性的问题,在应用主成分分析方法时一定要慎重。应该考虑所选取的初始变量是否合适,是否真实地反映了事物的本来面目,如果是出于避免遗漏某些信息而特意选取了过多的存在重叠信息的变量,就要特别注意应用主成分分析所得到的结果。

    如果所得到的样本协方差矩阵(或者相关阵)最小特征值接近于0,那么就意味着,中心化以后的原始变量之间存在着多重共线性,即原始变量存在着不可忽视的重叠信息。
    因此,在进行主成分分析得出协方差阵或是相关阵,发现最小特征根接近于零时,应该注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选。由此可以看出,虽然主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在重叠信息,这对减少分析中的失误是有帮助的。

    主成分分析步骤及逻辑框图

    步骤

    进行主成分分析的步骤,对此进行归纳如下:
    (1)根据研究问题选取初始分析变量;
    (2)根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;
    (3)求协方差阵或相关阵的特征根与相应标准特征向量;
    (4)判断是否存在明显的多重共线性,若存在,则回到第一步;
    (5)得到主成分的表达式并确定主成分个数,选取主成分;
    (6)结合主成分对研究问题进行分析并深入研究。

    逻辑框图

    展开全文
  • 鄙人学习笔记 文章目录判别分析判别分析的基本思想距离判别两总体情况多总体情况贝叶斯判别费歇判别逐步判别 判别分析 ...当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析...

    鄙人学习笔记



    判别分析

    本章介绍的判别分析适用于被解释变量是非度量变量的情形。在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。

    判别分析的基本思想

    • 基本思想

    当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。
    当包含两组时,称作两组判别分析。当包含三组或者三组以上时,称作多组判别分析。
    判别分析最基本的要求是:分组类型在两组以上;每组案例的规模必须至少在一个以上。解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。

    • 判别分析的假设

    假设之一是:
    每一个判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。有时一个判别变量与另外的判别变量高度相关,或与另外的判别变量的线性组合高度相关,虽然能求解,但参数估计的标准误将很大,以至于参数估计统计上不显著。这就是通常所说的多重共线性问题。

    假设之二是:
    各组变量的协方差矩阵相等。

    假设之三是:
    各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。

    距离判别

    两总体情况

    设有两个总体G1 和G2,x 是一个p 维样品,若能定义样品到总体G1 和G2 的距离d(x,G1)和d(x,G2),则可用如下的规则进行判别:若样品x 到总体G1 的距离小于到总体G2 的距离,则认为样品x 属于总体G1,反之,则认为样品x 属于总体G2;若样品x 到总体G1 和G2 的距离相等,则让它待判。这个准则的数学模型可作如下描述:


    当总体G1 和G2 为正态总体且协方差相等时,距离选用马氏距离,即

    当总体不是正态分布时,有时也可以用马氏距离来描述x 到总体的远近。
    若 ∑ 1= ∑2 = ∑,这时:


    令:

    于是判别规则可表示为:

    W( x)为判别函数,由于它是线性函数,又称为线性判别函数, α称为判别系数(类似于回归系数)。

    当两个总体协差阵∑1与∑2不等时,可用:

    作为判别函数,这时它是x的二次函数。

    当μ1,μ2,∑未知时,可通过样本来估计:

    设x1(1),…,xn1(1)是来自G1的样本,x1(2),…,xn2(2)是来自G2的样本,可以得到以下估计:

    其中,

    多总体情况

    • 协方差阵相等

    设有 k个总体 G1, G2,…, Gk,它们的均值分别是 µ1, µ2,…, µk,协差阵均为 ∑。类似于两总体的讨论,判别函数为:

    相应的判别规则是:

    当µ1,µ2,…,µk,∑ 未知时,设从Ga 中抽取的样本为x1(a),…,xna(a)(a = 1,2,…,k),则它们的估计为:

    式中:
    n =n1 +n2 +…+nk

    • 协方差阵不同

    这时判别函数为:

    判别规则为:

    当µ 1,µ 2,…,µ k,∑ 1,∑ 2,…,∑ k 未知时:

    贝叶斯判别

    • 贝叶斯统计的思想

    贝叶斯( Bayes)统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析,就得到贝叶斯判别。

    费歇判别

    费歇( Fisher)判别的思想是投影,将 k组 p维数据投影到某一个方向,使得它们的投影组与组之间尽可能地分开。

    如何衡量组与组之间尽可能地分开呢?他借用了一元方差分析的思想。
    设从k 个总体分别取得k 组p 维观察值如下:

    令a 为Rp 中的任一向量,u(x)=a′x 为x 向以a 为法线方向的投影,这时,上述数据的投影:

    它正好组成一元方差分析的数据。

    其组间平方和为:

    其组内平方和为:

    式中,

    如果 k组均值有显著差异,则:

    应该充分大,或者:

    应该充分大。

    所以我们可以求 a,使得∆( a)达到最大。显然,这个 a并不唯一,因为如果 a使 ∆(·)达到极大,则 ca也使 ∆(·)达到极大, c为任意不等于零的实数。
    由矩阵知识,我们知道 ∆(·)的极大值为 λ 1,它是 ∣ B-λ E ∣= 0的最大特征根, l1, l2,…, lr为相应的特征向量,当 a= l1时,可使 ∆(·)达到最大。

    费歇准则下的线性判别函数 u( x)= a′ x的解 a为方程 ∣ B-λ E ∣= 0的最大特征根 λ1所对应的特征向量 l1,且相应的判别效率为 ʌ(l1)= λ 1

    在有些问题中,仅用一个线性判别函数不能很好地区别各个总体,可取 λ 2对应的特征向量 l2,建立第二个判别函数。如还不够,可建立第三个线性判别函数 ,依次类推。

    在费歇准则下的判别函数并不唯一,若 u( x)= l′ x为判别函数,则 au( x)+ β也为具有与 u( x)相同判别效率的判别函数。。不唯一性对制定判别规则并没有任何妨碍,我们可从中任取一个。一旦取定了判别函数,根据它就可以确定判别规则。

    逐步判别

    在多元回归中熟知,变量选择的好坏直接影响回归的效果,而在判别分析中也有类似的问题。理论和实践证明,指标太多了,不仅带来大量的计算,同时许多对判别无作用的指标反而会干扰我们的视线。因此,适当筛选变量的问题就成为一件很重要的事情。

    • 逐步判别的原则

    逐步判别的原则为:
    (一)在 x1, x2,…, xm(即 m个自变量)中先选出一个自变量,它使维尔克斯统计量 ʌ i( i= 1, 2,…, m)达到最小。
    假定挑选的变量次序是按自然的次序,即第 r步正好选中 xr,第一步选中 x1,则有 ʌ1= min{ ʌi} (1≤ i ≤ m),并考察 ʌ1是否落入接受域,如不显著,则表明一个变量也选不中,不能用判别分析;如显著,则进入下一步。
    (二)在未选中的变量中,计算它们与已选中的变量 x1配合的 ʌ值。选择使 ʌ1i( 2 ≤ i ≤ m)达到最小的作为第二个变量。
    (三)在已选入的 r个变量中,要考虑较早选中的变量中其重要性有没有较大的变化,应及时把不能提供附加信息的变量剔除出去。剔除的原则等同于引进的原则。
    (四)这时既不能选进新变量,又不能剔除已选进的变量,将已选中的变量建立判别函数。

    展开全文
  • 1.1多元分布的基本概念 随机变量 假定所讨论的是多个变量的总体,所研究的数据是同时观测p 个指标(即变量),进行了n 次观测得到的,我们把这p 个指标表示为X1,X2,…,Xp,常用向量X =(X1,X2,…,Xp)′...
  • 多元统计分析及R语言建模 第12章 多维标度法MDS及R使用- -多元统计分析及R语言建模12 多维标度法MDS及R使用多元统计分析及R语言建模第12章 多维标度法MDS及R使用主要内容 多维标度法的基本理论方法 多维标度的古典解...
  • 本书系统论述多元统计分析基本理论和方法,力求理论与实际应用并重.只要具有一元统计的知识就可阅读本书.  本书主要内容是:多元正态分布、方差分析、回归分析、因子分析与线性模型、聚类分析和统计量的分布....
  • 多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点。其主要内容包括多元正态分布及其抽样分布、多元...
  • 第6章 多元统计分析 教案 课程名称大数据数学基础Python语言描述 课程类别必修 适用专业大数据技术类相关专业 总学时80学时其中理论58学时实验22学时 总学分5.0学分 本章学时24学时 材料清单 大数据数学基础Python...
  • 综合评价书籍3--《多元统计分析

    千次阅读 2016-09-04 18:52:19
    多元统计分析[M]. 北京:中国人民大学出版社, 2015 第1章 多元正态分布 1.1 多元分布的基本概念 1.2 统计距离 1.3 多元正态分布 1.4 均值向量和协方差阵的估计 1.5 常用分布及抽样分布 第2章 均值向量...
  • 一、因子分析(Factor Analysis ,FA) 1、因子分析与主成分分析的比较 区别: 因子分析需要构造因子模型,着重要求新变量具有实际的意义,能解释原始变量间的内在结构。 主成分分析仅仅是变量变换,是原始变量...
  • 研究多个自变量与因变量相互关系的一组...多元分析是单变量统计方法的发展和推广。人的心理和行为具有复杂的内在结构,受到多种因素的制约。仅采用单变量分析难以揭示其内在结构以及各种影响因素的主次作用和交互影响。
  • 实际上大部分学习统计分析和市场研究的人的都会用回归分析,操作也是比较简单的,但能够知道多元回归分析的适用条件或是如何将回归应用于实践,可能还要真正领会回归分析的基本思想和一些实际应用手法!下面我们就来...
  • 统计学基本统计分析

    千次阅读 2014-07-25 11:14:26
    logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。...
  • 1、,数学建模与数学实验,回归分析,.,实验目的,实验内容,1回归分析基本理论.,3实验作业.,2用数学软件求解回归分析问题.,.,一元线性回归,多元线性回归,回归分析,数学模型及定义,*模型参数估计,*检验、预测与控制,可...
  • 统计分析与软件SAS

    2009-11-27 15:22:19
    介绍了多元统计分析基本理论及其证明,内容包括矩阵代数、随机向量、多元正态分析、假设检验、回归分析、聚类分析、判别分析、因子分析、方差分析、主分量分析、相关分析;二是较详细地介绍了SAS软件的应用,有...
  • 多元线性回归分析理论详解及SPSS结果分析

    万次阅读 多人点赞 2017-05-17 16:23:23
    当影响因变量的因素是多个时候,这种一个变量同时与多个变量的回归问题就是多元回归,分为:多元线性回归和多元非线性回归。这里直说多元线性回归。对比一元线性回归: 1.1多元回归模型: y=β0+β1x1+β2x2+…+β...
  • 版本号:20171218导航页的文章将持续更新,如下图所示,获取最新版本请前往导航栏【理论基础】-【统计基础...草堂居还是那句话,数据分析的基础是统计分析理论。直接点击蓝色文章名称即可阅读:1 数据分析基础:统计学
  • 机器学习算法(8)之多元线性回归分析理论详解

    万次阅读 多人点赞 2018-08-29 16:28:27
    前言:当影响因变量的因素是多个时候,这种一个变量同时与多个变量的回归问题就是多元回归,分为:多元线性回归和多元非线性回归。线性回归(Linear regressions)和逻辑回归(Logistic regressions)是人们学习算法的第...
  • 空间分析多元分析

    万次阅读 2012-08-27 09:10:58
    通过多元统计分析可以探查许多不同类型的属性之间的关系。 有两种可用的多元分析:分类(监督分类与非监督分类/Supervised&Unsupervised))和主成分分析/Principal Component Analysis (PCA)。 ArcGIS 提供了如下...
  • 下面要介绍多元方差分析的内容,多元方差分析是研究多个自变量与多个因变量相互关系的一种统计理论方法,又称多变量分析多元方差分析实质上是单因变量方差分析(包括单因素和多因素方差分析)的发展和推广,适用于...
  • 一、多元回归分析简介 用回归方程定量地刻画一个应变量与多个自变量间的线性依存关系,称为...实际上大部分学习统计分析和市场研究的人的都会用回归分析,操作也是比较简单的,但能够知道多元回归分析的适用条件或...
  • python数据统计分析

    2020-07-17 11:12:37
    目录 1. 常用函数库 2. 小样本数据的正态性检验 3. 检验样本是否服务某一分布 ...14. 单变量统计分析 15. 多元线性回归 16. 逻辑回归 1. 常用函数库 scipy包中的stats模块和statsmodels包是py...
  • GIS基本理论系列是在《地理信息系统原理和应用》读书报告基础上完成的,当作自己对GIS理论的一次复习回顾。 1. 空间信息分析的内容包括哪些操作?有哪些功能?空间信息分析通常是指GIS为用户提供的解决问题的方法...
  • 多元正态分布在多元统计分析中所占的重要地位,如同一元统计分析中一元正态分布所占的重要地位一样,多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,887
精华内容 3,554
关键字:

多元统计分析的基本理论