
- 外文名
- Principal Component Analysis
- 又 称
- 主分量分析
- 简 称
- PCA
- 作 用
- 降维 [1]
- 中文名
- 主成分
- 学 科
- 数学
- 应 用
- 人口统计学、数量地理学等
-
主成分分析(PCA)原理详解
2018-06-09 15:08:25“微信公众号”本文同步更新在我的微信公众号里,地址:https://mp.weixin.qq.com/s/Xt1vLQfB20rTmtLjiLsmww本文同步更新在我的知乎专栏里面:主成分分析(PCA)原理详解 - Microstrong的文章 - 知乎...“微信公众号”
1.相关背景
在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。
因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析与因子分析就属于这类降维算法。
2. 数据降维
降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
降维具有如下一些优点:
- 1) 使得数据集更易使用。
- 2) 降低算法的计算开销。
- 3) 去除噪声。
- 4) 使得结果容易理解。
降维的算法有很多,比如奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。
3. PCA原理详解
3.1 PCA的概念
PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
思考:我们如何得到这些包含最大差异性的主成分方向呢?
答案:事实上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。
由于得到协方差矩阵的特征值特征向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩阵,所以PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。
既然提到协方差矩阵,那么就简单介绍一下方差和协方差的关系。然后概括介绍一下特征值分解矩阵原理、奇异值分解矩阵的原理。概括介绍是因为在我之前的《机器学习中SVD总结》文章中已经详细介绍了特征值分解原理和奇异值分解原理,这里就不再重复讲解了。可以看我的
《机器学习中SVD总结》文章。地址:机器学习中SVD总结
3.2 协方差和散度矩阵
样本均值:
样本方差:
样本X和样本Y的协方差:
由上面的公式,我们可以得到以下结论:
(1) 方差的计算公式是针对一维特征,即针对同一特征不同样本的取值来进行计算得到;而协方差则必须要求至少满足二维特征;方差是协方差的特殊情况。
(2) 方差和协方差的除数是n-1,这是为了得到方差和协方差的无偏估计。
协方差为正时,说明X和Y是正相关关系;协方差为负时,说明X和Y是负相关关系;协方差为0时,说明X和Y是相互独立。Cov(X,X)就是X的方差。当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵)。例如,对于3维数据(x,y,z),计算它的协方差就是:
散度矩阵定义为:
对于数据X的散度矩阵为
。其实协方差矩阵和散度矩阵关系密切,散度矩阵就是协方差矩阵乘以(总数据量-1)。因此它们的特征值和特征向量是一样的。这里值得注意的是,散度矩阵是SVD奇异值分解的一步,因此PCA和SVD是有很大联系。
3.3 特征值分解矩阵原理
(1) 特征值与特征向量
如果一个向量v是矩阵A的特征向量,将一定可以表示成下面的形式:
其中,λ是特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。(2) 特征值分解矩阵
对于矩阵A,有一组特征向量v,将这组向量进行正交化单位化,就能得到一组正交单位向量。特征值分解,就是将矩阵A分解为如下式:
其中,Q是矩阵A的特征向量组成的矩阵,
则是一个对角阵,对角线上的元素就是特征值。
具体了解这一部分内容看我的《机器学习中SVD总结》文章。地址:机器学习中SVD总结
3.4 SVD分解矩阵原理
奇异值分解是一个能适用于任意矩阵的一种分解的方法,对于任意矩阵A总是存在一个奇异值分解:
假设A是一个m*n的矩阵,那么得到的U是一个m*m的方阵,U里面的正交向量被称为左奇异向量。Σ是一个m*n的矩阵,Σ除了对角线其它元素都为0,对角线上的元素称为奇异值。
是v的转置矩阵,是一个n*n的矩阵,它里面的正交向量被称为右奇异值向量。而且一般来讲,我们会将Σ上的值按从大到小的顺序排列。
SVD分解矩阵A的步骤:
(1) 求
的特征值和特征向量,用单位化的特征向量构成 U。
(2) 求
的特征值和特征向量,用单位化的特征向量构成 V。
(3) 将
或者
的特征值求平方根,然后构成 Σ。
具体了解这一部分内容看我的《机器学习中SVD总结》文章。地址:机器学习中SVD总结
3.5 PCA算法两种实现方法
(1) 基于特征值分解协方差矩阵实现PCA算法
输入:数据集,需要降到k维。
1) 去平均值(即去中心化),即每一位特征减去各自的平均值。、
2) 计算协方差矩阵
,注:这里除或不除样本数量n或n-1,其实对求出的特征向量没有影响。
3) 用特征值分解方法求协方差矩阵
的特征值与特征向量。
4) 对特征值从大到小排序,选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。
5) 将数据转换到k个特征向量构建的新空间中,即Y=PX。
总结:
1)关于这一部分为什么用,这里面含有很复杂的线性代数理论推导,想了解具体细节的可以看下面这篇文章。
2)关于为什么用特征值分解矩阵,是因为
是方阵,能很轻松的求出特征值与特征向量。当然,用奇异值分解也可以,是求特征值与特征向量的另一种方法。
举个例子:
以X为例,我们用PCA方法将这两行数据降到一行。
1)因为X矩阵的每行已经是零均值,所以不需要去平均值。
2)求协方差矩阵:
3)求协方差矩阵的特征值与特征向量。
求解后的特征值为:
对应的特征向量为:
其中对应的特征向量分别是一个通解,
和
可以取任意实数。那么标准化后的特征向量为:
4)矩阵P为:
5)最后我们用P的第一行乘以数据矩阵X,就得到了降维后的表示:
结果如图1所示:
图1:数据矩阵X降维投影结果
注意:如果我们通过特征值分解协方差矩阵,那么我们只能得到一个方向的PCA降维。这个方向就是对数据矩阵X从行(或列)方向上压缩降维。
(2) 基于SVD分解协方差矩阵实现PCA算法
输入:数据集
,需要降到k维。
1) 去平均值,即每一位特征减去各自的平均值。
2) 计算协方差矩阵。
3) 通过SVD计算协方差矩阵的特征值与特征向量。
4) 对特征值从大到小排序,选择其中最大的k个。然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
5) 将数据转换到k个特征向量构建的新空间中。
在PCA降维中,我们需要找到样本协方差矩阵
的最大k个特征向量,然后用这最大的k个特征向量组成的矩阵来做低维投影降维。可以看出,在这个过程中需要先求出协方差矩阵
,当样本数多、样本特征数也多的时候,这个计算还是很大的。当我们用到SVD分解协方差矩阵的时候,SVD有两个好处:
1) 有一些SVD的实现算法可以先不求出协方差矩阵
也能求出我们的右奇异矩阵V。也就是说,我们的PCA算法可以不用做特征分解而是通过SVD来完成,这个方法在样本量很大的时候很有效。实际上,scikit-learn的PCA算法的背后真正的实现就是用的SVD,而不是特征值分解。
2)注意到PCA仅仅使用了我们SVD的左奇异矩阵,没有使用到右奇异值矩阵,那么右奇异值矩阵有什么用呢?
假设我们的样本是m*n的矩阵X,如果我们通过SVD找到了矩阵
最大的k个特征向量组成的k*n的矩阵
,则我们可以做如下处理:
可以得到一个m*k的矩阵X',这个矩阵和我们原来m*n的矩阵X相比,列数从n减到了k,可见对列数进行了压缩。也就是说,左奇异矩阵可以用于对行数的压缩;右奇异矩阵可以用于对列(即特征维度)的压缩。这就是我们用SVD分解协方差矩阵实现PCA可以得到两个方向的PCA降维(即行和列两个方向)。
4. PCA实例
(1)PCA的Python实现:
##Python实现PCA import numpy as np def pca(X,k):#k is the components you want #mean of each feature n_samples, n_features = X.shape mean=np.array([np.mean(X[:,i]) for i in range(n_features)]) #normalization norm_X=X-mean #scatter matrix scatter_matrix=np.dot(np.transpose(norm_X),norm_X) #Calculate the eigenvectors and eigenvalues eig_val, eig_vec = np.linalg.eig(scatter_matrix) eig_pairs = [(np.abs(eig_val[i]), eig_vec[:,i]) for i in range(n_features)] # sort eig_vec based on eig_val from highest to lowest eig_pairs.sort(reverse=True) # select the top k eig_vec feature=np.array([ele[1] for ele in eig_pairs[:k]]) #get new data data=np.dot(norm_X,np.transpose(feature)) return data X = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) print(pca(X,1))
上面代码实现了对数据X进行特征的降维。结果如下:
(2)用sklearn的PCA与我们的PCA做个比较:
##用sklearn的PCA from sklearn.decomposition import PCA import numpy as np X = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) pca=PCA(n_components=1)pca.fit(X) print(pca.transform(X))
结果如下:
搞了半天结果不是很一样啊!分析一下吧!
sklearn中的PCA是通过svd_flip函数实现的,sklearn对奇异值分解结果进行了一个处理,因为ui*σi*vi=(-ui)*σi*(-vi),也就是u和v同时取反得到的结果是一样的,而这会导致通过PCA降维得到不一样的结果(虽然都是正确的)。具体了解可以看参考文章9或者自己分析一下sklearn中关于PCA的源码。
5. PCA的理论推导
PCA有两种通俗易懂的解释:(1)最大方差理论;(2)最小化降维造成的损失。这两个思路都能推导出同样的结果。
我在这里只介绍最大方差理论:
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。样本在u1上的投影方差较大,在u2上的投影方差较小,那么可认为u2上的投影是由噪声引起的。
因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。
比如我们将下图中的5个点投影到某一维上,这里用一条过原点的直线表示(数据已经中心化):
假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大(也可以说是投影的绝对值之和最大)。
计算投影的方法见下图:
图中,红色点表示样例,蓝色点表示在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是在u上的投影点,离原点的距离是<x,u>(即
或者
)。
6. 选择降维后的维度K(主成分的个数)
如何选择主成分个数K呢?先来定义两个概念:
选择不同的K值,然后用下面的式子不断计算,选取能够满足下列式子条件的最小K值即可。其中t值可以由自己定,比如t值取0.01,则代表了该PCA算法保留了99%的主要信息。当你觉得误差需要更小,你可以把t值设置的更小。上式还可以用SVD分解时产生的S矩阵来表示,如下面的式子:Reference:
(1) 主成分分析(PCA)原理详解
http://blog.csdn.net/zhongkelee/article/details/44064401
(2) 机器学习之PCA主成分分析 - steed灬 - 博客园
https://www.cnblogs.com/steed/p/7454329.html
(3) 简单易学的机器学习算法——主成分分析(PCA)
https://blog.csdn.net/google19890102/article/details/27969459
(4) 机器学习实战之PCA - 笨鸟多学 - 博客园
https://www.cnblogs.com/zy230530/p/7074215.html
(5) 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用 - LeftNotEasy - 博客园
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html
(6) 从PCA和SVD的关系拾遗
https://blog.csdn.net/Dark_Scope/article/details/53150883
(7) CodingLabs - PCA的数学原理
http://blog.codinglabs.org/articles/pca-tutorial.html
(8) PCA(主成分分析)python实现
https://www.jianshu.com/p/4528aaa6dc48
(9) 主成分分析PCA(Principal Component Analysis)在sklearn中的应用及部分源码分析
https://www.cnblogs.com/lochan/p/7001907.html
-
主成分分析
2019-03-25 09:50:04Principal components analysis ... 我们在作数据分析处理时,数据往往包含多个变量,而较多的变量会带来...主成分分析(Principal components analysis,以下简称PCA)是一种通过降维技术把多个变量化为少数几个主...Principal components analysis
来源:http://blog.csdn.net/m0_37788308/article/details/78115209我们在作数据分析处理时,数据往往包含多个变量,而较多的变量会带来分析问题的复杂性。主成分分析(Principal components analysis,以下简称PCA)是一种通过降维技术把多个变量化为少数几个主成分的统计方法,是最重要的降维方法之一。它可以对高维数据进行降维减少预测变量的个数,同时经过降维除去噪声,其最直接的应用就是压缩数据,具体的应用有:信号处理中降噪,数据降维后可视化等。
PCA把原先的n个特征用数目更少的m个特征取代,新的m个特征一要保证最大化样本方差,二保证相互独立的。新特征是旧特征的线性组合,提供一个新的框架来解释结果。接下来分四部分来展开PCA的理论与实践:• 什么时候用PCA,即数据特点;
• 什么是主成分分析、主成分计算;
• 主成分分析为什可以,即主成分理论基础;
• python如何快速实现PCA;
一、数据特点
1.维度灾难维度灾难,简单来说就是变量的个数多。如果变量个数增加,随之需要估计的参数个数也在增加,在训练集保持不变的情况下待估参数的方差也会随之增加,导致参数估计质量下降。
2.变量关系不一般。
变量关系不一般,指的是变量彼此之间常常存在一定程度的、有时甚至是相当高的相关性,这说明数据是有冗余的,或者说观测数据中的信息是有重叠的,这是我们利用主成分进行降维的前提条件,也可以说这使得变量降维成为可能(观察变量的相关系数矩阵,一般来说相关系数矩阵中多数元素绝对值大于0.5,非常适合做主成分分析,但也不是说小于的就不可以用这种方法)。
在变量个数多,相互的相关性比较大的时候,我们会不会去寻找变量中的“精华”呢?,寻找个数相对较少的综合变量呢?这是我们利用主成分降维的动机。可参考被博文广传的例子:
•比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。
• 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢?
(为保证公式的显示规范,方便讨论,建议至原博客网页进行查看呦http://blog.csdn.net/m0_37788308/article/details/78115209)
二、什么是主成分分析
1.由来:
主成分分析(principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。2. 描述;
主成分分析是一种通过降维技术把多个变量化为少数几个主成分(综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
那为了主成分的为了是这些主成分所含的信息不互相重叠,应要求他们之间互不相关。
主成分的目的:
(1)变量的降维
(2)主成分的解释(在主成分有意义的情况下)3.计算步骤
例子:我们简单粗暴直接上例子,我们带着问题看例子,一步一步来。(例子来自《应用多元统计》,王学民老师著)在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样六项:身高(x1)、坐高(x2) 、胸围(x3) 、手臂长(x4) 、肋围(x5)和腰围(x6) 。
第一步,对原始数据标准化(减去对应变量的均值,再除以其方差),并计算相关矩阵(或协方差矩阵):
表1男子身材六项指标的样本相关矩阵
第二步,计算相关矩阵的特征值及特征向量。
表2的前三个特征值、特征向量以及贡献率
特征值从大到小排列,特征向量和特征值对应从大到小排列。前三个主成分分别为:
y^1=0.469x1∗+0.404x2∗+0.394x3∗+0.408x4∗+0.337x5∗+0.427x6y^2=−0.365x1∗−0.397x2∗+0.397x3∗−0.365x4∗+0.569x5∗+0.308x6
y^3=−0.092x1∗+0.613x2∗−0.279x3∗−0.705x4∗+0.164x5∗+0.119x6
第三步,根据累计贡献率(一般要求累积贡献率达到85%)可考虑取前面两个或三个主成分。第四步,解释主成分。观察系数发现第一主成分系数多为正数,且变量都与身材大小有关系,称第一主成分为(身材)大小成分;类似分析,称第二主成分为形状成分(或胖瘦成分),称第三主成分为臂长成分。
(结合一定的经验和猜想,解释主成分,不是所有的主成分都能被合理的解释)
称第一主成分为(身材)大小成分,称第二主成分为形状成分(或胖瘦成分),称第三主成分为臂长成分。
可考虑取前两个主成分。
由于λ6 非常小,所以存在共线性关系:
λ6^=0.126t6^=(−0.786,0.433,−0.125,0.371,0.034,0.179)
=−0.786x1∗+0.433x2∗−0.125x3∗+0.371x4∗+0.034x5∗+0.179x6∗≈0
第五步,计算主成分得分。即对每一个样本数据标准化后带入第三步的主成分公式中,计算第一主成分得分,第二主成分得分。第六步,将主成分可画图聚类,将主成分得分看成新的因变量可线性回归。
例子参考《多元统计分析》王学民老师著,上海财经大学出版社
总结一下PCA的算法步骤:
设有m条n维数据,m个样本,对原始数据标准化(减去对应变量的均值,再除以其方差),每个样本对应p个变量,x=(x∗1,x∗2,⋯,x∗n)′x=(x1∗,x2∗,⋯,xn∗)′。1.求出自变量的协方差矩阵(或相关系数矩阵);
2.求出协方差矩阵(或性关系数矩阵)的特征值及对应的特征向量;
3.将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵aa(为k*p维);
4.Y=aT∗XaT∗X (Y 为k*1维)即为降维到k维后的数据,此步算出每个样本的主成分得分;
5.可将每个样本的主成分得分画散点图及聚类,或将主成分得分看成新的因变量,对其做线性回归等。
4.主成分的应用
在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分都能够给出符合实际背景和意义的解释。但是主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则主成分维数降低的“利”,可能抵不过主成分含义不如原始变量清楚的“弊”。
在一些应用中,这些主成分本身就是分析的目的,此时我们需要给前几个主成分一个符合实际背景和意义的解释,以明白其大致的含义。
在更多的另一些应用中,主成分只是要达到目的的一个中间结果(或步骤),而非目的本身。例如,将主成分用于聚类(主成分聚类)、回归(主成分回归)、评估正态性、寻找异常值,以及通过方差接近于零的主成分发现原始变量间的多重共线性关系等,此时的主成分可不必给出解释。三、主成分为什么可以?(主成分的原理)
小节内容有:.PCA理论基础:方差最大理论、方差最大和协方差的关系、解释方差最大和主成分的关系、贡献率和累计贡献率概念、主成分取多少个呢?、几何意义。
经过主成分在压缩数据之后的数据(主成分得分数据),多个变量变为更少的综合变量,变量个数减少了,还能反映原有数据的信息吗?答案是可以的。为什么可以呢?解决以上疑问前我们需要了解PCA理论基础:1.PCA理论基础:方差最大理论
我们以一个二维数据为例:
图1:寻找主成分的正交旋转
将二维,降至一维
• a二维经过投影,变为一维;
• b要尽可能保留原始信息。直观的感受就是投影之后尽量分散,点分布差异相对较大,没有相关性。(相反的极端情况是投影后聚成一团,变量间的差别小,蕴含的信息就少了)所以样本间有变化,才有更多信息,变化就是差异;
• c如何体现差异呢?,可量化的方差。这就需要找一个方向使得投影后它们在投影方向上的方差尽可能达到最大,即在此方向上所含的有关原始信息样品间的差异信息是最多的;
• d降维在线性空间中就是基变换,换一种说法就是,找到一组新的基向量,在此向量空间上进行投影。在图中原本的基向量是(0,1),(1,0),现在基向量换成在横贯1,3象限的那条,为什么不选横贯2,4象限的呢,思考②条。我们由二维空间向一维空间的转换,如何才能尽可能的保留信息呢,这就需要找一个方向使得投影后它们在投影方向上的方差尽可能达到最大,即在此方向上所含的有关原始信息样品间的差异信息是最多的。
1.我们由二维空间向一维空间的转换,如何才能尽可能的保留信息呢,这就需要找一个方向使得投影后它们在投影方向上的方差尽可能达到最大,即在此方向上所含的有关原始信息样品间的差异信息是最多的。
(再问一遍:小伙伴会不会有为什么是方差最大的疑惑呢?从数据体现信息的多少出发。极端的情况是样本数据都是相同的,那就没有更多信息了。所以样本间有变化,才有更多信息,变化就是差异,差异就用方差体现)2.方差最大和协方差的关系
要解释方差最大和主成分的关系需要从方差和协方差的关系入手:设对原始数据标准化,减去对应变量的均值,再除以其方差,每个样本对应P个变量,设x=(x1,x2,⋯,xp)′x=(x1,x2,⋯,xp)′为P维随机变量,u=E(x),∑=V(x)u=E(x),∑=V(x),找其线性组合,即综合变量,进行线性变换:
首先,我们试图用综合变量y1y1来代表原始的P个变量,为使y1y1,在 x1,x2,⋯,xnx1,x2,⋯,xn的一切线性组合中最大限度的保留这组变量的信息,应使其方差最大化。在a1′a1=1的约束下,寻找a1,使得
V(y1)=a1′∑a1,
达到最大,就称为第一主成分。协方差矩阵 :
∑=V(x)为对称的,进行对称矩阵的谱分解,分解后的对角矩阵元素λi,tiλi,ti都有着特殊的含义,即特征值和对应的特征向量。
谱分解:
3. 解释方差最大和主成分的关系:计算要知道,T为正交矩阵。t为特征向量,T’T为1;a’t是一个数,不是向量;a’a已经设定为1,本人第一次看好多遍无果,想到前面一句后才顺利的推导上面的式子。
直接验证,当取a1=t1时,有t′1∑t1=t′1(λ1t1)=λ1,即此时y1=t′1x,具有最大方差值λ1。
如果第一主成分信息不够多,还不足以代表原始的p个变量,则需要再考虑第二主成y2,为了使与y2所含的信息与y1不重叠,要求第一主成分与第二主成分不相关 ,cov(y1,y2)=0。这里的重叠是指线性关系上的,如果有重叠则说明还有进一步降维的空间。
第二主成分的推理于第一主成分类似,可得到y2=t′2x,具有方差值λ2。
推理点拨:考虑到不同特征值的特征向量正交,相乘为0,推理亦是会畅通。4、 贡献率和累计贡献率概念:
从上面的推导,我们也可以发现特征值和主成分方差的关系,总方差中属于第i主成分yi的比例为
称为主成分yi的贡献率。累计贡献率就是多个主成分贡献率的加和啦。
5、主成分取多少个呢?
可人为指定固定个数,但是往往取相对于变量个数p较小的m个,使得累计贡献达到一个较高的百分比(80%——90%),此时y1,y2,y2……,ym可以来代替x1,x2,x3……xp,从而达到降为的目的,而信息的损失却不多。6、几何意义
通过第三部分的计算过程,假设我们得到所有的主成分:
y1,y2,y3,⋯,ypy1,y2,y3,⋯,yp,aiai为特征向量.在“方差最大和协方差的关系”小节内容中的的线性变换,是一个正交变换。
主成分几何意义是将原由(x1,x2,x3……xp)′构成的原p维RP空间的坐标轴作一正交旋转,,一组正交单位向量(t1,t2,⋯,tp)(t1,t2,⋯,tp)表明了p个新坐标轴的方向,这些新的坐标轴彼此仍保持正交,yi是在ti上的投影值,λiλi反映了在t1上投影点的分散程度。四、如何实现
内部服务器博客,或者CSDN 云南省高校数据化运营管理工程研究中心的博客.1.我们可以按步编程(见程序《PCA算法 python实现(法一)一步一步实现》)
http://blog.csdn.net/m0_37788308/article/details/781152292.快速代码实现(《PCA python实现(法2)scikit-learn 快速实现》)
http://blog.csdn.net/m0_37788308/article/details/78115229sklearn官方文档地址:http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html
-
主成分分析;介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍主成分分析,
2010-03-23 13:29:06介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍主成分分析,介绍...
-
jtpm1是什么接口
-
FastDFS 分布式文件系统部署
-
Shell学习计划——Shell 变量
-
比特币历史上3次暴涨暴跌 最高2000万倍涨幅 瞬间跌去93%
-
376. 摆动序列
-
百度网盘如何搭建搜索目录?
-
Employee_Tracker_ManageYourCompany:BCS家庭作业周12-源码
-
从设计到策划——我的成长经历
-
Mysql数据库面试直通车
-
NFS 网络文件系统
-
DevOps,不是一个传说!
-
浅谈用户引导设计
-
千伏、微微秒光电子开关及其应用
-
ValueError: Classification metrics can‘t handle a mix of binary and continuous targets
-
2021-02-27
-
自动化测试Python3+Selenium3+Unittest
-
SQLServer2005分区模板与实例
-
access应用的3个开发实例
-
斜光轴数字强度相关计量的像模糊容限
-
面向全球化的有效敏捷交付