精华内容
下载资源
问答
  • PCA算法原理

    2017-06-29 19:23:08
    PCA算法原理参考网址: http://blog.csdn.net/liulina603/article/details/7912950 http://blog.csdn.net/panhao762/article/details/55273789一. PCA算法简介:主成分分析(PCA)是多元统计分析中用来分析数据的...

    PCA算法原理

    参考网址:
    http://blog.csdn.net/liulina603/article/details/7912950
    http://blog.csdn.net/panhao762/article/details/55273789
    http://blog.csdn.net/zyh2004883/article/details/49765599


    一. PCA算法简介:

    主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,它是用一种较少数量的特征对样本进行描述以达到降低特征空间维数的方法,它的本质实际上是K-L变换。PCA方法最著名的应用应该是在人脸识别中特征提取及数据维,我们知道输入200*200大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到40000维,这给后面分类器的处理将带来极大的难度。著名的人脸识别Eigenface算法就是采用PCA算法,用一个低维子空间描述人脸图像,同时用保存了识别所需要的信息。

    PCA ( Principal Component Analysis , PCA )是主成分分析,主要 用于数据降维,对于一系列例子的特征组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的例子中都为1,或者与1差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是“精品”,而且计算量也变小了。

    所以我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。

    举一个例子:

    对于一个训练集,100个对象模板,特征是10维,那么它可以建立一个100*10的矩阵,作为样本。求这个样本的协方差矩阵,得到一个10*10的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有10个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个10*4的矩阵,这个矩阵就是我们要求的特征矩阵,100*10的样本矩阵乘以这个10*4的特征矩阵,就得到了一个100*4的新的降维之后的样本矩阵,每个特征的维数下降了。当给定一个测试的特征集之后,比如1*10维的特征,乘以上面得到的10*4的特征矩阵,便可以得到一个1*4的特征,用这个特征去分类。
    

    所以做PCA实际上是求得这个投影矩阵,用高维的特征乘以这个投影矩阵,便可以将高维特征的维数下降到指定的维数。

    二. PCA算法步骤:

    (1)原始特征矩阵归一化处理

    假设待观察变量有M个,其实相当于一个数据在M维各维度上的坐标,我们的目标是在保证比较数据之间相似性不失真的前提下,将描述数据的维度尽量减小至L维
    (L < M)。样本矩阵X在这里用x1,x2,…,xN共N个数据(这些数据都是以列向量的形式出现)来表示,那么X = [x1 x2 … xN]MxN显而易见。

    首先要对训练样本的特征进行归一化, 特别强调的是, 归一化操作只能在训练样本中进行, 不能才CV集合或者测试集合中进行, 也就是说归一化操作计算的各个参数只能由训练样本得到, 然后测试样本根据这里得到的参数进行归一化, 而不能直接和训练样本放在一起进行归一化。
    另外, 在训练PCA降维矩阵的过程中,也不能使用CV样本或者测试样本, 这样做是不对的。 有很多人在使用PCA训练降维矩阵的时候, 直接使用所有的样本进行训练, 这样实际上相当于作弊的, 这样的话降维矩阵是在包含训练样本和测试样本以及CV样本的情况下训练得到的, 在进行测试的时候, 测试样本会存在很大的优越性, 因为它已经知道了要降维到的空间情况。

    这里的X是一个m * n 的矩阵, 有 m 个样本, 每个样本包含 n 个特征, 每一行表示一个样本。 X_norm是最终得到的特征, 首先计算了所有训练样本每个特征的均值, 然后减去均值, 然后除以标准差。

        function [X_norm, mu, sigma] = featureNormalize(X)  
        %FEATURENORMALIZE Normalizes the features in X   
        %   FEATURENORMALIZE(X) returns a normalized version of X where  
        %   the mean value of each feature is 0 and the standard deviation  
        %   is 1. This is often a good preprocessing step to do when  
        %   working with learning algorithms.  
    
        mu = mean(X);  
        X_norm = bsxfun(@minus, X, mu);  
    
        sigma = std(X_norm);  
        X_norm = bsxfun(@rdivide, X_norm, sigma);  
    
    
        % ============================================================  
    
        end  
    (2)求取归一化处理后特征矩阵的协方差矩阵

    矩阵中的数据按行排列与按列排列求出的协方差矩阵是不同的,这里默认数据是按行排列。即每一行是一个observation(or sample),那么每一列就是一个随机变量。

    协方差矩阵:

    计算样本X的均值:
    计算第m维(m=1,2,…,M)的均值如下: 向量u是均值

    计算样本X与均值u的偏差
    在每一列上,用当前值X[m,n]减去u[m],用矩阵运算表示如下: 矩阵B是偏差,明显,h是一行向量,u是一列向量。


    A. 对于原始数据集X的样本是按列排列的,即:X = [x1 x2 … xN]MxN

    B. 对于原始数据集X的样本是按行排列的,即:X = [x1; x2; … ;xN]NxM

    不好意思,上述协方差公式错了,分母(m-1)应该是(n-1),是除以样本数目减一.协方差矩阵的维度等于随机变量的个数,即每一个 observation 的维度。在某些场合前边也会出现 1 / n,而不是 1 / (n - 1).

    举个例子求协方差矩阵,矩阵 X 按行排列:

    1. 求每个维度的平均值
    2. 将 X 的每一列减去平均值

      其中:

    3. 计算协方差矩阵


    (3)计算协方差矩阵的特征值及其对应的特征向量

    若XA=aA,其中A为一列向量,a为一实数。那么a就被称为矩阵X的特征值,而A则是特征值a对应的特征向量。
    顺便扯一下,在matlab里面,求解上述A以及a,使用eig函数。如[D,V] = eig(C),那么D就是n个列特征向量,而V是对角矩阵,对角线上的元素就是特征值。

    求出协方差矩阵的特征向量D[i]和对应的特征值V[i],这些特征向量组成的矩阵就是人脸空间的正交基底,用它们的线性组合可以重构出样本中任意的人脸图像,(如果有朋友不太理解这句话的意思,请看下面的总结2。)并且图像信息集中在特征值大的特征向量中,即使丢弃特征值小的向量也不会影响图像质量。


    (4)按照特征值从大到小排列特征向量D
    (5)从大到小,挑选出前L个特征值对应的特征向量组成降维后的低维基向量矩阵W,即为所求。

    实际上,W是D矩阵的前L列,所以W的大小就是 MxL 。


    (6)计算降维后的新样本矩阵

    A. 对于原始数据集X的样本是按列排列的,即:X = [x1 x2 … xN]MxN

    B. 对于原始数据集X的样本是按行排列的,即:X = [x1; x2; … ;xN]NxM

    W*表示W的转置的共轭矩阵,大小为 LxM , 而B的大小为 MxN , 所以Y的大小为 LxN , 即降维为 N 个 L 维向量。

    这样每一幅人脸图像都可以投影到W构成的特征脸子空间中,W的维数为M×L。有了这样一个降维的子空间,任何一幅人脸图像都可以向其作投影,即并获得一组坐标系数,即低维向量y,维数L×1,为称为KL分解系数。这组系数表明了图像在子空间的位置,从而可以作为人脸识别的依据。


    总结下:
    1、在人脸识别过程中,对输入的一个测试样本x,求出它与平均脸的偏差,则在特征脸空间U的投影,可以表示为系数向量y:

    U的维数为M×d,X-^-^X的维数为M×1,y的维数d×1。若M为200*200=40000维,取200个主成分,即200个特征向量,则最后投影的系数向量y维数降维200维。
    2、根据1中的式子,可以得出:

    这里的x就是根据投影系数向量y重构出的人脸图像,丢失了部分图像信息,但不会影响图像质量。

    注:在求取特征值和特征向量的过程中,借助了C++ Eigen库,需要自行安装和配置该库。

    展开全文
  • PCA算法原理与详细注解

    千次阅读 2017-06-05 15:50:50
    本篇博文从一个刚接触PCA算法小白的角度学习PCA算法,希望能帮助到你。 整体认知: PCA算法就是一个降维算法,比如10维数据降到7维数据,2维数据降到1维数据。通过降维,方便数据计算。在图像上更有直观

    http://blog.codinglabs.org/articles/pca-tutorial.html

    这篇博文非常详细的介绍了PCA算法的过程,但对数学基础较薄弱人来说,看的有些费劲。本篇博文从一个刚接触PCA算法小白的角度学习PCA算法,希望能帮助到你。

    整体认知

    PCA算法就是一个降维算法,比如10维数据降到7维数据,2维数据降到1维数据。通过降维,方便数据计算。在图像上更有直观的理解。


    PCA就是在寻找这条紫色的线,而这条紫色的线是有条件的,直观的理解就是希望红点投影到紫线点尽可能分散。而分散在数学上用方差表示。


    PCA算法涉及的数学知识

    1,向量的内积,投影。用于引导基的概念。

    2,基,基变化的矩阵表示。用于m维矩阵向k维矩阵变化。

    3,协方差矩阵。用于去除独立相关性。

    4,矩阵对角化。


    总结一下PCA的算法步骤:

    设有m条n维数据。

    1)将原始数据按列组成n行m列矩阵X

    2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值

    3)求出协方差矩阵 C=1mXXT

    4)求出协方差矩阵的特征值及对应的特征向量

    5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P

    6) Y=PX Y=PX即为降维到k维后的数据

    可以看出,PCA算法最终就是求协方差矩阵的特征向量,至于为什么是这样,下文逐步推倒


    向量的表示及基变换

    既然我们面对的数据被抽象为一组向量,那么下面有必要研究一些向量的数学性质。而这些数学性质将成为后续导出PCA的理论基础。

    内积与投影

    下面先来看一个高中就学过的向量运算:内积。两个维数相同的向量的内积被定义为:

    (a1,a2,,an)T(b1,b2,,bn)T=a1b1+a2b2++anbn (a1,a2,⋯,an)T⋅(b1,b2,⋯,bn)T=a1b1+a2b2+⋯+anbn

    内积运算将两个向量映射为一个实数。其计算方式非常容易理解,但是其意义并不明显。下面我们分析内积的几何意义。假设A和B是两个n维向量,我们知道n维向量可以等价表示为n维空间中的一条从原点发射的有向线段,为了简单起见我们假设A和B均为二维向量,则 A=(x1,y1) A=(x1,y1) B=(x2,y2) B=(x2,y2)。则在二维平面上A和B可以用两条发自原点的有向线段表示,见下图:


    现在我们从A点向B所在直线引一条垂线。我们知道垂线与B的交点叫做A在B上的投影,再设A与B的夹角是a,则投影的矢量长度为 |A|cos(a) |A|cos(a),其中 |A|=x21+y21 |A|=x12+y12是向量A的模,也就是A线段的标量长度。

    注意这里我们专门区分了矢量长度和标量长度,标量长度总是大于等于0,值就是线段的长度;而矢量长度可能为负,其绝对值是线段长度,而符号取决于其方向与标准方向相同或相反。

    到这里还是看不出内积和这东西有什么关系,不过如果我们将内积表示为另一种我们熟悉的形式:

    AB=|A||B|cos(a) A⋅B=|A||B|cos(a)

    现在事情似乎是有点眉目了:A与B的内积等于A到B的投影长度乘以B的模。再进一步,如果我们假设B的模为1,即让 |B|=1 |B|=1,那么就变成了:

    AB=|A|cos(a) A⋅B=|A|cos(a)

    也就是说,设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度!这就是内积的一种几何解释,也是我们得到的第一个重要结论。在后面的推导中,将反复使用这个结论。


    下面我们继续在二维空间内讨论向量。上文说过,一个二维向量可以对应二维笛卡尔直角坐标系中从原点出发的一个有向线段。例如下面这个向量:


    在代数表示方面,我们经常用线段终点的点坐标表示向量,例如上面的向量可以表示为(3,2),这是我们再熟悉不过的向量表示。

    不过我们常常忽略,只有一个(3,2)本身是不能够精确表示一个向量的。我们仔细看一下,这里的3实际表示的是向量在x轴上的投影值是3,在y轴上的投影值是2。也就是说我们其实隐式引入了一个定义:以x轴和y轴上正方向长度为1的向量为标准。那么一个向量(3,2)实际是说在x轴投影为3而y轴的投影为2。注意投影是一个矢量,所以可以为负。

    更正式的说,向量(x,y)实际上表示线性组合:

    x(1,0)T+y(0,1)T x(1,0)T+y(0,1)T

    不难证明所有二维向量都可以表示为这样的线性组合。此处(1,0)和(0,1)叫做二维空间中的一组基。



    所以,要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以了。只不过我们经常省略第一步,而默认以(1,0)和(0,1)为基。

    我们之所以默认选择(1,0)和(0,1)为基,当然是比较方便,因为它们分别是x和y轴正方向上的单位向量,因此就使得二维平面上点坐标和向量一一对应,非常方便。但实际上任何两个线性无关的二维向量都可以成为一组基,所谓线性无关在二维平面内可以直观认为是两个不在一条直线上的向量。

    例如,(1,1)和(-1,1)也可以成为一组基。一般来说,我们希望基的模是1,因为从内积的意义可以看到,如果基的模是1,那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了!实际上,对应任何一个向量我们总可以找到其同方向上模为1的向量,只要让两个分量分别除以模就好了。例如,上面的基可以变为:



    现在,我们想获得(3,2)在新基上的坐标,即在两个方向上的投影矢量值,那么根据内积的几何意义,我们只要分别计算(3,2)和两个基的内积,不难得到新的坐标,下图给出了新的基以及(3,2)在新基上坐标值的示意图:


    另外这里要注意的是,我们列举的例子中基是正交的(即内积为0,或直观说相互垂直),但可以成为一组基的唯一要求就是线性无关,非正交的基也是可以的。不过因为正交基有较好的性质,所以一般使用的基都是正交的。

    基变换的矩阵表示


    特别要注意的是,这里R可以小于N,而R决定了变换后数据的维数。也就是说,我们可以将一N维数据变换到更低维度的空间中去,变换后的维度取决于基的数量。因此这种矩阵相乘的表示也可以表示降维变换。

    最后,上述分析同时给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说,一个矩阵可以表示一种线性变换。很多同学在学线性代数时对矩阵相乘的方法感到奇怪,但是如果明白了矩阵相乘的物理意义,其合理性就一目了然了。

    协方差矩阵及优化目标


    现在问题来了:如果我们必须使用一维来表示这些数据,又希望尽量保留原始的信息,你要如何选择?

    通过上一节对基变换的讨论我们知道,这个问题实际上是要在二维平面中选择一个方向,将所有数据都投影到这个方向所在直线上,用投影值表示原始记录。这是一个实际的二维降到一维的问题。

    那么如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢?一种直观的看法是:希望投影后的投影值尽可能分散。

    以上图为例,可以看出如果向x轴投影,那么最左边的两个点会重叠在一起,中间的两个点也会重叠在一起,于是本身四个各不相同的二维点投影后只剩下两个不同的值了,这是一种严重的信息丢失,同理,如果向y轴投影最上面的两个点和分布在x轴上的两个点也会重叠。所以看来x和y轴都不是最好的投影选择。我们直观目测,如果向通过第一象限和第三象限的斜线投影,则五个点在投影后还是可以区分的。

    下面,我们用数学方法表述这个问题。


    优化目标A
         至此,我们得到了降维问题的优化目标:将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的K个方差)




    这里是刚接触PCA算法同学困惑的地方:X在通过基P转化后得到Y,Y的协方差矩阵D必须满足优化目标A(上文红色字体)。



    这里完全是一个“凑”的过程,因为x的协方差矩阵是一个对称矩阵,而对称矩阵的性质刚好符合上文推倒的D与C关系公式,这就有助于求出P,也就是那个基。

    实例




    直接拿结论来操作还是so easy,推倒过程也是很容易理解的。




    另一种推导方法





                 









    展开全文
  • PCA算法原理分析

    2020-04-29 15:26:15
    PCA即主成分分析算法,依赖于一个基本假设:人脸具有某些相似的特征,在图像空间中呈现出聚类性,形成一个子空间即特征子空间,PCA变换是最佳正交变换,利用变换基的线性组合可以来表述人脸,从而进行人脸识别。...

    PCA即主成分分析算法,依赖于一个基本假设:人脸具有某些相似的特征,在图像空间中呈现出聚类性,形成一个子空间即特征子空间,PCA变换是最佳正交变换,利用变换基的线性组合可以来表述人脸,从而进行人脸识别。

    训练阶段:

    1.计算平均脸;2.计算差值脸;3.构建协方差矩阵;4.计算矩阵的特征值和特征向量;5.将人脸的差值脸投影到特征空间,从而得到每张人脸的特征。

    识别阶段:

    1.将待检测人脸图像的差值脸投影到特微空间,得到人脸特征;2、从训练集中取出所有人脸的特征脸,利用欧氏距离做相似性判断

    Kyungnam Kim在其论文 Face Recognition using Principle Component Analysis

    PCA的基本思想是从人脸图像中找出最能代表人脸的特征空间,人脸照片映射到这个特征空间的系数如果差不多,就表示为同一个人。

    'Eigenface' Face Recognition System Written by: Amir Hossein Omidvarnia

    基于PCA人脸识别的方法Eigenface

    In general, you should follow this order:

    1. Select training and test database paths.
    2. Select path of the test image.
    3. Run 'CreateDatabase' function to create 2D matrix of all training images.
    4. Run 'EigenfaceCore' function to produce basis's of facespace.
    5. Run 'Recognition' function to get the name of equivalent image in training database.

    For your convenience, I have prepared sample training and test databases, which are parts 
    of 'face94' Essex face database [2]. You just need to copy the above functions, along with 
    the training and test databases into a specified path (for example 'work' path of your
    MATLAB root). Then follow dialog boxes, which will appear upon running 'example.m'

    展开全文
  • PCA算法原理(讲解非常清楚)

    万次阅读 多人点赞 2016-12-03 15:01:11
    PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的...

    PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。

    当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导。希望读者在看完这篇文章后能更好的明白PCA的工作原理。

    数据的向量表示及降维问题

    一般情况下,在数据挖掘和机器学习中,数据被表示为向量。例如某个淘宝店2012年全年的流量及交易情况可以看成一组记录的集合,其中每一天的数据是一条记录,格式如下:

    (日期, 浏览量, 访客数, 下单数, 成交数, 成交金额)

    其中“日期”是一个记录标志而非度量值,而数据挖掘关心的大多是度量值,因此如果我们忽略日期这个字段后,我们得到一组记录,每条记录可以被表示为一个五维向量,其中一条看起来大约是这个样子:

    (500,240,25,13,2312.15)^\mathsf{T}

    注意这里我用了转置,因为习惯上使用列向量表示一条记录(后面会看到原因),本文后面也会遵循这个准则。不过为了方便有时我会省略转置符号,但我们说到向量默认都是指列向量。

    我们当然可以对这一组五维向量进行分析和挖掘,不过我们知道,很多机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联。当然,这里区区五维的数据,也许还无所谓,但是实际机器学习中处理成千上万甚至几十万维的情况也并不罕见,在这种情况下,机器学习的资源消耗是不可接受的,因此我们必须对数据进行降维。

    降维当然意味着信息的丢失,不过鉴于实际数据本身常常存在的相关性,我们可以想办法在降维的同时将信息的损失尽量降低。

    举个例子,假如某学籍数据有两列M和F,其中M列的取值是如何此学生为男性取值1,为女性取值0;而F列是学生为女性取值1,男性取值0。此时如果我们统计全部学籍数据,会发现对于任何一条记录来说,当M为1时F必定为0,反之当M为0时F必定为1。在这种情况下,我们将M或F去掉实际上没有任何信息的损失,因为只要保留一列就可以完全还原另一列。

    当然上面是一个极端的情况,在现实中也许不会出现,不过类似的情况还是很常见的。例如上面淘宝店铺的数据,从经验我们可以知道,“浏览量”和“访客数”往往具有较强的相关关系,而“下单数”和“成交数”也具有较强的相关关系。这里我们非正式的使用“相关关系”这个词,可以直观理解为“当某一天这个店铺的浏览量较高(或较低)时,我们应该很大程度上认为这天的访客数也较高(或较低)”。后面的章节中我们会给出相关性的严格数学定义。

    这种情况表明,如果我们删除浏览量或访客数其中一个指标,我们应该期待并不会丢失太多信息。因此我们可以删除一个,以降低机器学习算法的复杂度。

    上面给出的是降维的朴素思想描述,可以有助于直观理解降维的动机和可行性,但并不具有操作指导意义。例如,我们到底删除哪一列损失的信息才最小?亦或根本不是单纯删除几列,而是通过某些变换将原始数据变为更少的列但又使得丢失的信息最小?到底如何度量丢失信息的多少?如何根据原始数据决定具体的降维操作步骤?

    要回答上面的问题,就要对降维问题进行数学化和形式化的讨论。而PCA是一种具有严格数学基础并且已被广泛采用的降维方法。下面我不会直接描述PCA,而是通过逐步分析问题,让我们一起重新“发明”一遍PCA。

    向量的表示及基变换

    既然我们面对的数据被抽象为一组向量,那么下面有必要研究一些向量的数学性质。而这些数学性质将成为后续导出PCA的理论基础。

    内积与投影

    下面先来看一个高中就学过的向量运算:内积。两个维数相同的向量的内积被定义为:

    (a_1,a_2,\cdots,a_n)^\mathsf{T}\cdot (b_1,b_2,\cdots,b_n)^\mathsf{T}=a_1b_1+a_2b_2+\cdots+a_nb_n

    内积运算将两个向量映射为一个实数。其计算方式非常容易理解,但是其意义并不明显。下面我们分析内积的几何意义。假设A和B是两个n维向量,我们知道n维向量可以等价表示为n维空间中的一条从原点发射的有向线段,为了简单起见我们假设A和B均为二维向量,则A=(x_1,y_1)B=(x_2,y_2)。则在二维平面上A和B可以用两条发自原点的有向线段表示,见下图:

    好,现在我们从A点向B所在直线引一条垂线。我们知道垂线与B的交点叫做A在B上的投影,再设A与B的夹角是a,则投影的矢量长度为|A|cos(a),其中|A|=\sqrt{x_1^2+y_1^2}是向量A的模,也就是A线段的标量长度。

    注意这里我们专门区分了矢量长度和标量长度,标量长度总是大于等于0,值就是线段的长度;而矢量长度可能为负,其绝对值是线段长度,而符号取决于其方向与标准方向相同或相反。

    到这里还是看不出内积和这东西有什么关系,不过如果我们将内积表示为另一种我们熟悉的形式:

    A\cdot B=|A||B|cos(a)

    现在事情似乎是有点眉目了:A与B的内积等于A到B的投影长度乘以B的模。再进一步,如果我们假设B的模为1,即让|B|=1,那么就变成了:

    A\cdot B=|A|cos(a)

    也就是说,设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度!这就是内积的一种几何解释,也是我们得到的第一个重要结论。在后面的推导中,将反复使用这个结论。

    下面我们继续在二维空间内讨论向量。上文说过,一个二维向量可以对应二维笛卡尔直角坐标系中从原点出发的一个有向线段。例如下面这个向量:

    在代数表示方面,我们经常用线段终点的点坐标表示向量,例如上面的向量可以表示为(3,2),这是我们再熟悉不过的向量表示。

    不过我们常常忽略,只有一个(3,2)本身是不能够精确表示一个向量的。我们仔细看一下,这里的3实际表示的是向量在x轴上的投影值是3,在y轴上的投影值是2。也就是说我们其实隐式引入了一个定义:以x轴和y轴上正方向长度为1的向量为标准。那么一个向量(3,2)实际是说在x轴投影为3而y轴的投影为2。注意投影是一个矢量,所以可以为负。

    更正式的说,向量(x,y)实际上表示线性组合:

    x(1,0)^\mathsf{T}+y(0,1)^\mathsf{T}

    不难证明所有二维向量都可以表示为这样的线性组合。此处(1,0)和(0,1)叫做二维空间中的一组基。

    所以,要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以了。只不过我们经常省略第一步,而默认以(1,0)和(0,1)为基。

    我们之所以默认选择(1,0)和(0,1)为基,当然是比较方便,因为它们分别是x和y轴正方向上的单位向量,因此就使得二维平面上点坐标和向量一一对应,非常方便。但实际上任何两个线性无关的二维向量都可以成为一组基,所谓线性无关在二维平面内可以直观认为是两个不在一条直线上的向量。

    例如,(1,1)和(-1,1)也可以成为一组基。一般来说,我们希望基的模是1,因为从内积的意义可以看到,如果基的模是1,那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了!实际上,对应任何一个向量我们总可以找到其同方向上模为1的向量,只要让两个分量分别除以模就好了。例如,上面的基可以变为(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}})(-\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}})

    现在,我们想获得(3,2)在新基上的坐标,即在两个方向上的投影矢量值,那么根据内积的几何意义,我们只要分别计算(3,2)和两个基的内积,不难得到新的坐标为(\frac{5}{\sqrt{2}},-\frac{1}{\sqrt{2}})。下图给出了新的基以及(3,2)在新基上坐标值的示意图:

    另外这里要注意的是,我们列举的例子中基是正交的(即内积为0,或直观说相互垂直),但可以成为一组基的唯一要求就是线性无关,非正交的基也是可以的。不过因为正交基有较好的性质,所以一般使用的基都是正交的。

    基变换的矩阵表示

    下面我们找一种简便的方式来表示基变换。还是拿上面的例子,想一下,将(3,2)变换为新基上的坐标,就是用(3,2)与第一个基做内积运算,作为第一个新的坐标分量,然后用(3,2)与第二个基做内积运算,作为第二个新坐标的分量。实际上,我们可以用矩阵相乘的形式简洁的表示这个变换:

    \begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix} \begin{pmatrix} 3 \\ 2 \end{pmatrix} = \begin{pmatrix} 5/\sqrt{2} \\ -1/\sqrt{2} \end{pmatrix}

    太漂亮了!其中矩阵的两行分别为两个基,乘以原向量,其结果刚好为新基的坐标。可以稍微推广一下,如果我们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵,然后用“基矩阵”乘以这个矩阵,就得到了所有这些向量在新基下的值。例如(1,1),(2,2),(3,3),想变换到刚才那组基上,则可以这样表示:

    \begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix} \begin{pmatrix} 1 & 2 & 3 \\ 1 & 2 & 3 \end{pmatrix} = \begin{pmatrix} 2/\sqrt{2} & 4/\sqrt{2} & 6/\sqrt{2} \\ 0 & 0 & 0 \end{pmatrix}

    于是一组向量的基变换被干净的表示为矩阵的相乘。

    一般的,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个基按行组成矩阵A,然后将向量按列组成矩阵B,那么两矩阵的乘积AB就是变换结果,其中AB的第m列为A中第m列变换后的结果

    数学表示为:

    \begin{pmatrix} p_1 \\ p_2 \\ \vdots \\ p_R \end{pmatrix} \begin{pmatrix} a_1 & a_2 & \cdots & a_M \end{pmatrix} = \begin{pmatrix} p_1a_1 & p_1a_2 & \cdots & p_1a_M \\ p_2a_1 & p_2a_2 & \cdots & p_2a_M \\ \vdots & \vdots & \ddots & \vdots \\ p_Ra_1 & p_Ra_2 & \cdots & p_Ra_M \end{pmatrix}

    其中p_i是一个行向量,表示第i个基,a_j是一个列向量,表示第j个原始数据记录。

    特别要注意的是,这里R可以小于N,而R决定了变换后数据的维数。也就是说,我们可以将一N维数据变换到更低维度的空间中去,变换后的维度取决于基的数量。因此这种矩阵相乘的表示也可以表示降维变换。

    最后,上述分析同时给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说,一个矩阵可以表示一种线性变换。很多同学在学线性代数时对矩阵相乘的方法感到奇怪,但是如果明白了矩阵相乘的物理意义,其合理性就一目了然了。

    协方差矩阵及优化目标

    上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,而且如果基的数量少于向量本身的维数,则可以达到降维的效果。但是我们还没有回答一个最最关键的问题:如何选择基才是最优的。或者说,如果我们有一组N维向量,现在要将其降到K维(K小于N),那么我们应该如何选择K个基才能最大程度保留原有的信息?

    要完全数学化这个问题非常繁杂,这里我们用一种非形式化的直观方法来看这个问题。

    为了避免过于抽象的讨论,我们仍以一个具体的例子展开。假设我们的数据由五条记录组成,将它们表示成矩阵形式:

    \begin{pmatrix} 1 & 1 & 2 & 4 & 2 \\ 1 & 3 & 3 & 4 & 4 \end{pmatrix}

    其中每一列为一条数据记录,而一行为一个字段。为了后续处理方便,我们首先将每个字段内所有值都减去字段均值,其结果是将每个字段都变为均值为0(这样做的道理和好处后面会看到)。

    我们看上面的数据,第一个字段均值为2,第二个字段均值为3,所以变换后:

    \begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}

    我们可以看下五条数据在平面直角坐标系内的样子:

    现在问题来了:如果我们必须使用一维来表示这些数据,又希望尽量保留原始的信息,你要如何选择?

    通过上一节对基变换的讨论我们知道,这个问题实际上是要在二维平面中选择一个方向,将所有数据都投影到这个方向所在直线上,用投影值表示原始记录。这是一个实际的二维降到一维的问题。

    那么如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢?一种直观的看法是:希望投影后的投影值尽可能分散。

    以上图为例,可以看出如果向x轴投影,那么最左边的两个点会重叠在一起,中间的两个点也会重叠在一起,于是本身四个各不相同的二维点投影后只剩下两个不同的值了,这是一种严重的信息丢失,同理,如果向y轴投影最上面的两个点和分布在x轴上的两个点也会重叠。所以看来x和y轴都不是最好的投影选择。我们直观目测,如果向通过第一象限和第三象限的斜线投影,则五个点在投影后还是可以区分的。

    下面,我们用数学方法表述这个问题。

    方差

    上文说到,我们希望投影后投影值尽可能分散,而这种分散程度,可以用数学上的方差来表述。此处,一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值,即:

    Var(a)=\frac{1}{m}\sum_{i=1}^m{(a_i-\mu)^2}

    由于上面我们已经将每个字段的均值都化为0了,因此方差可以直接用每个元素的平方和除以元素个数表示:

    Var(a)=\frac{1}{m}\sum_{i=1}^m{a_i^2}

    于是上面的问题被形式化表述为:寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。

    协方差

    对于上面二维降成一维的问题来说,找到那个使得方差最大的方向就可以了。不过对于更高维,还有一个问题需要解决。考虑三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而我们选择第二个投影方向。

    如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的,因此,应该有其他约束条件。从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。

    数学上可以用两个字段的协方差表示其相关性,由于已经让每个字段均值为0,则:

    Cov(a,b)=\frac{1}{m}\sum_{i=1}^m{a_ib_i}

    可以看到,在字段均值为0的情况下,两个字段的协方差简洁的表示为其内积除以元素数m。

    当协方差为0时,表示两个字段完全独立。为了让协方差为0,我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。

    至此,我们得到了降维问题的优化目标:将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的K个方差)

    协方差矩阵

    上面我们导出了优化目标,但是这个目标似乎不能直接作为操作指南(或者说算法),因为它只说要什么,但根本没有说怎么做。所以我们要继续在数学上研究计算方案。

    我们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。于是我们来了灵感:

    假设我们只有a和b两个字段,那么我们将它们按行组成矩阵X:

    X=\begin{pmatrix} a_1 & a_2 & \cdots & a_m \\ b_1 & b_2 & \cdots & b_m \end{pmatrix}

    然后我们用X乘以X的转置,并乘上系数1/m:

    \frac{1}{m}XX^\mathsf{T}=\begin{pmatrix} \frac{1}{m}\sum_{i=1}^m{a_i^2} & \frac{1}{m}\sum_{i=1}^m{a_ib_i} \\ \frac{1}{m}\sum_{i=1}^m{a_ib_i} & \frac{1}{m}\sum_{i=1}^m{b_i^2} \end{pmatrix}

    奇迹出现了!这个矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差。两者被统一到了一个矩阵的。

    根据矩阵相乘的运算法则,这个结论很容易被推广到一般情况:

    设我们有m个n维数据记录,将其按列排成n乘m的矩阵X,设C=\frac{1}{m}XX^\mathsf{T},则C是一个对称矩阵,其对角线分别个各个字段的方差,而第i行j列和j行i列元素相同,表示i和j两个字段的协方差

    协方差矩阵对角化

    根据上述推导,我们发现要达到优化目前,等价于将协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将元素按大小从上到下排列,这样我们就达到了优化目的。这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系:

    设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P做基变换后的数据。设Y的协方差矩阵为D,我们推导一下D与C的关系:

    \begin{array}{l l l} D & = & \frac{1}{m}YY^\mathsf{T} \\ & = & \frac{1}{m}(PX)(PX)^\mathsf{T} \\ & = & \frac{1}{m}PXX^\mathsf{T}P^\mathsf{T} \\ & = & P(\frac{1}{m}XX^\mathsf{T})P^\mathsf{T} \\ & = & PCP^\mathsf{T} \end{array}

    现在事情很明白了!我们要找的P不是别的,而是能让原始协方差矩阵对角化的P。换句话说,优化目标变成了寻找一个矩阵P,满足PCP^\mathsf{T}是一个对角矩阵,并且对角元素按从大到小依次排列,那么P的前K行就是要寻找的基,用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件

    至此,我们离“发明”PCA还有仅一步之遥!

    现在所有焦点都聚焦在了协方差矩阵对角化问题上,有时,我们真应该感谢数学家的先行,因为矩阵对角化在线性代数领域已经属于被玩烂了的东西,所以这在数学上根本不是问题。

    由上文知道,协方差矩阵C是一个是对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质:

    1)实对称矩阵不同特征值对应的特征向量必然正交。

    2)设特征向量\lambda重数为r,则必然存在r个线性无关的特征向量对应于\lambda,因此可以将这r个特征向量单位正交化。

    由上面两条可知,一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量,设这n个特征向量为e_1,e_2,\cdots,e_n,我们将其按列组成矩阵:

    E=\begin{pmatrix} e_1 & e_2 & \cdots & e_n \end{pmatrix}

    则对协方差矩阵C有如下结论:

    E^\mathsf{T}CE=\Lambda=\begin{pmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots & \\ & & & \lambda_n \end{pmatrix}

    其中\Lambda为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。

    以上结论不再给出严格的数学证明,对证明感兴趣的朋友可以参考线性代数书籍关于“实对称矩阵对角化”的内容。

    到这里,我们发现我们已经找到了需要的矩阵P:

    P=E^\mathsf{T}

    P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量。如果设P按照\Lambda中特征值的从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y。

    至此我们完成了整个PCA的数学原理讨论。在下面的一节,我们将给出PCA的一个实例。

    算法及实例

    为了巩固上面的理论,我们在这一节给出一个具体的PCA实例。

    PCA算法

    总结一下PCA的算法步骤:

    设有m条n维数据。

    1)将原始数据按列组成n行m列矩阵X

    2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值

    3)求出协方差矩阵C=\frac{1}{m}XX^\mathsf{T}

    4)求出协方差矩阵的特征值及对应的特征向量

    5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P

    6)Y=PX即为降维到k维后的数据

    实例

    这里以上文提到的

    \begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}

    为例,我们用PCA方法将这组二维数据其降到一维。

    因为这个矩阵的每行已经是零均值,这里我们直接求协方差矩阵:

    C=\frac{1}{5}\begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}\begin{pmatrix} -1 & -2 \\ -1 & 0 \\ 0 & 0 \\ 2 & 1 \\ 0 & 1 \end{pmatrix}=\begin{pmatrix} \frac{6}{5} & \frac{4}{5} \\ \frac{4}{5} & \frac{6}{5} \end{pmatrix}

    然后求其特征值和特征向量,具体求解方法不再详述,可以参考相关资料。求解后特征值为:

    \lambda_1=2,\lambda_2=2/5

    其对应的特征向量分别是:

    c_1\begin{pmatrix} 1 \\ 1 \end{pmatrix},c_2\begin{pmatrix} -1 \\ 1 \end{pmatrix}

    其中对应的特征向量分别是一个通解,c_1c_2可取任意实数。那么标准化后的特征向量为:

    \begin{pmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{pmatrix},\begin{pmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \end{pmatrix}

    因此我们的矩阵P是:

    P=\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}

    可以验证协方差矩阵C的对角化:

    PCP^\mathsf{T}=\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}\begin{pmatrix} 6/5 & 4/5 \\ 4/5 & 6/5 \end{pmatrix}\begin{pmatrix} 1/\sqrt{2} & -1/\sqrt{2} \\ 1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}=\begin{pmatrix} 2 & 0 \\ 0 & 2/5 \end{pmatrix}

    最后我们用P的第一行乘以数据矩阵,就得到了降维后的表示:

    Y=\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}\begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}=\begin{pmatrix} -3/\sqrt{2} & -1/\sqrt{2} & 0 & 3/\sqrt{2} & -1/\sqrt{2} \end{pmatrix}

    降维投影结果如下图:

    进一步讨论

    根据上面对PCA的数学原理的解释,我们可以了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性。

    因此,PCA也存在一些限制,例如它可以很好的解除线性相关,但是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关,关于这点就不展开讨论了。另外,PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。

    最后需要说明的是,PCA是一种无参数技术,也就是说面对同样的数据,如果不考虑清洗,谁来做结果都一样,没有主观参数的介入,所以PCA便于通用实现,但是本身无法个性化的优化。

    希望这篇文章能帮助朋友们了解PCA的数学理论基础和实现原理,借此了解PCA的适用场景和限制,从而更好的使用这个算法。

     http://blog.codinglabs.org/articles/pca-tutorial.html

    展开全文
  • PCA算法原理及实现

    2020-08-07 22:05:25
    来自:海边的拾遗者 众所周知,PCA(principal component analysis)是一种数据降维的方式,能够有效的将高维数据转换为低维数据,进而降低模型训练所需要的计...
  • PCA算法原理及实践

    2019-02-11 17:07:33
    它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,...
  • PCA算法原理及在人脸识别的应用

    千次阅读 2018-09-19 21:21:47
    PCA算法原理及在人脸识别的应用 1.概述 PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据...
  • PCA 算法 原理解析

    2013-12-04 15:31:11
    目前,pca算法已经广泛应用于各方面,就拿图像处理,经常做的一件事就是当提取的图像特征维度比较高时,为了简化计算量以及储存空间,需要对这些高维数据进行一定程度上的降维,并尽量保证数据的不失真。   先举...
  • 主成分分析 PCA算法原理

    万次阅读 2012-04-20 09:59:22
    主成分分析 PCA算法  (2010-05-11 19:59:26) 转载▼ 标签:  文化 分类: 系统生物学 对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp,它们都是的相关性...
  • 主成分分析 前言 近年来,随着互联网和信息行业的发展,数据已经渗透到各行...这些海量数据可能含有噪声或冗余信息,当数据集包含过多的数据噪声时,会导致算法的性能达不到预期的效果。移除信息量较少甚至无效信...
  • 尊重原创,转载自张洋-PCA数学的原理:...PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大...
  • PCL使用笔记——PCA算法原理(转)

    千次阅读 2019-05-27 12:04:15
    由于得到协方差矩阵的特征值特征向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩阵,所以PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。 既然提到...
  • 主成分分析(PCA)是最常见的降维算法 当主成分数量K=2时,我们的目的是找到一个低维的投影平面,当把所有的数据都投影到该低维平面上时,希望所有样本 平均投影误差 能尽可能地小。 投影平面 是一个...
  • PCA算法推导PCA原理概述样本中心化最小重构误差公式推导 PCA原理概述 PCA是主成分分析(Principal Components Analysis)的简称。这是一种数据降维技术,用于数据预处理。一般我们获取的原始数据维度都很高,那么我们...
  • pca算法,也叫主成分分析法,能够对一个多样本的多维特征向量构成的矩阵进行分析,分析主成分并去除维度之间的相关性,使线性相关的向量组变成线性无关的向量组。 并且可以对样本进行降维,降高维向量映射到低维度...
  • 主成分分析(PCA原理详解

    万次阅读 多人点赞 2018-06-09 15:08:25
    “微信公众号”本文同步更新在我的微信公众号里,地址:https://mp.weixin.qq.com/s/Xt1vLQfB20rTmtLjiLsmww本文同步更新在我的知乎专栏里面:主成分分析(PCA原理详解 - Microstrong的文章 - 知乎...
  • 文章目录pca主成分分析算法原理讲解一、...1、PCA算法 - 桂。 - 博客园 https://www.cnblogs.com/xingshansi/p/6445625.html 2、 https://zhuanlan.zhihu.com/p/32412043 一、基础概念 1、方差: 二、PCA讲解 ...
  • PCA算法的数学原理

    2017-05-03 14:41:13
    PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的...
  • PCA算法数学原理简析

    2020-03-24 23:06:26
    原文链接:https://blog.csdn.net/Murray_/article/details/79945148 文章分析脉络梳理: 1.... 希望这篇文章能帮助朋友们了解PCA的数学理论基础和实现原理,借此了解PCA的适用场景和限制,从而更好的使用这个算法
  • PCA算法详解

    万次阅读 多人点赞 2015-07-19 20:31:41
    PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的...
  • PCA的目的: pca算法,也叫主成分分析法,能够对一个多样本的多维特征向量构成的矩阵进行分析,分析主成分并去除维度之间的相关性,使线性相关的向量组变成线性无关的向量组。 并且可以对样本进行降维,降高维向量...
  • PCA算法

    千次阅读 2018-11-02 22:05:26
    1. PCA算法思想 在数据预处理过程中,为了降低计算计算复杂度,可删除相关性较大的特征,从而可以不用丢失太多的信息。通过基变换,将数据投影到新的坐标中,即可获得全新的K个正交特征。 2. 推导过程 ⑴给出...
  • 一、PCA算法原理 官方定义:PCA是一种常用的数学分析的方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 我的理解:PCA是在尽量不丢失原有...
  • PCA算法的数学原理,请查看这篇博客 博客中的笔记: 降维当然意味着信息的丢失,不过鉴于实际数据本身常常存在的相关性,我们可以想办法在降维的同时将信息的损失尽量降低。 根据相关性来讲信息的损失量降到...
  • 降维方法分为线性降维方法和非线性...在特征提取中,我们要找的是n个新的维度的集合,这些维度是由原来的维度结合而成的,当然,该方法可以是监督的(lda线性判别分析),也可以是非监督的(pca主成分分析)。 ...
  • PCA数学原理

    2016-11-16 10:00:12
    由浅入深、全面地推导PCA算法原理
  • 本文主要参考周志华老师的西瓜书,对PCA算法原理做简单总结。 1. 基本原理 一般来说,希望获得低维子空间,最简单的是对原始高维空间进行线性变换。给定d维空间中的样本X=(x1,x2,...,xm)∈Rd*m,变换之后得到d'...
  • PCA算法分析

    2018-08-04 11:02:48
    这个是在研一的概率论课上做的实验报告,PCA算法分析,对降维进行了一定程度的了解,并用PCA实现降维,具体语言是Python。 第一章 概率论与随机过程在降维中的应用——PCA算法分析 1.1 PCA背景 1.1.1降维的意义 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,737
精华内容 4,694
关键字:

线性pca算法原理