主成分分析法 订阅
主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。 展开全文
主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
信息
外文名
Principal Component Analysis
又    称
主分量分析
简    称
PCA
作    用
降维 [1]
中文名
主成分
学    科
数学
应    用
人口统计学、数量地理学等
主成分分析历史
1846年,Bracais提出的旋转多元正态椭球到“主坐标”上,使得新变量之间相互独立。 [2]  皮尔逊(Pearson)(1901)、霍特林(Hotelling)(1933)都对主成分的发展做出了贡献,霍特林的推导模式被视为主成分模型的成熟标志。 [2]  主成分分析被广泛应用于区域经济发展评价,服装标准制定,满意度测评,模式识别,图像压缩等许多领域。 [2] 
收起全文
精华内容
下载资源
问答
  • 主成分分析法

    2017-12-21 18:53:01
    主成分分析法
  • 主成分分析法 (Principal Component Analysis, PCA) 是一种数据压缩法,可以从数据中提取重要的部分并排除不重要的部分,是奇异值分解 (Singular Value Decomposition, SVD) 的重要应用。SVD 是线性代数的一个亮点。...

    6029b48db3608f01e7120e0688e6b594.png

    主成分分析法 (Principal Component Analysis, PCA) 是一种数据压缩法,可以从数据中提取重要的部分并排除不重要的部分,是奇异值分解 (Singular Value Decomposition, SVD) 的重要应用。

    SVD 是线性代数的一个亮点。

    是一个
    的列阵,矩阵秩
    , SVD 会提供四个子空间的正交基,按重要性排序。我们有两组奇异向量,
    里,
    里,把
    排列在
    矩阵
    ,把
    排列在
    矩阵

    c12ce22af7ea960712bbc5ad51320748.png

    SVD 不但找出正交基,还把

    对角化成
    的大小一样
    ,所以不一定是个方阵,可能右边和下边有零。但是我们可以丢掉零空间和左零空间的基向量,在
    里,
    是个
    的方阵,
    从大排到小。

    SVD 是

    是正交矩阵,有旋转作用。
    是对角矩阵,有伸展作用。SVD 把
    的变换分解成旋转、伸展、旋转。

    的特征向量,叫左奇异向量。
    的特征向量,叫右奇异向量。
    有共同的特征值
    ,都是
    的奇异值平方。用手的话可以用这个方法,但如果是很大的矩阵,要用计算机分解的话,我们不想乘
    ,太浪费计算力,最好直接用 svd() 。

    现在我们要把数据带到实数空间,所以只能有数字,不能有分类数据。(其实我觉得不应该叫“数据”,因为“分类数据”根本就没有数字。)表格中,一行代表一条记录,一列代表一个特征。

    表格里行比列多,每一列都减掉平均值,转换成矩阵,

    是又高又细的、中心化好的矩阵,样本协方差矩阵是
    的理由是求无偏估计。总方差是
    的跡(对角线的和),等于
    的特征值的和,也等于
    的奇异值平方的和,

    重要的是右奇异向量,

    指向第
    重要的方向,解释总方差的
    部分。我们选
    个最重要的
    是主成分,我们只保留
    的信息,降低了维数。

    用 python 来实践一下吧,用 iris 数据,中心化,做 svd() ,奇异值除以

    会把数据旋转到最好的方向,如果我们要用二维图表来看的话,
    会变成
    轴,
    会变成
    轴,丢掉
    。我们用行向量,所以旋转做
    就可以了,如果有一个行向量
    ,就做
    import numpy as np
    import matplotlib.pyplot as plt
    from sklearn import datasets
    from itertools import combinations
    
    # 准备数据
    iris = datasets.load_iris()
    
    # 四维数据分六个二维图表显示
    fig, axes = plt.subplots(2, 3)
    axes = axes.ravel()
    for i, (x, y) in enumerate(combinations(range(4), 2)):
        axes[i].scatter(iris.data[:50, x], iris.data[:50, y],
            label=iris.target_names[0])
        axes[i].scatter(iris.data[50:100, x], iris.data[50:100, y],
            label=iris.target_names[1])
        axes[i].scatter(iris.data[100:, x], iris.data[100:, y],
            label=iris.target_names[2])
        axes[i].legend()
        axes[i].set_xlabel(iris.feature_names[x])
        axes[i].set_ylabel(iris.feature_names[y])
    plt.show()
    
    # 做 SVD
    A = iris.data - iris.data.mean(axis=0)
    U, S, VT = np.linalg.svd(A, full_matrices=False)
    S /= np.sqrt(A.shape[1] - 1)
    print('如果从四维降到二维,会保留总方差的 {:.2%}。'
        .format((S**2)[:2].sum() / (S**2).sum()))
    
    # 从四维降到二维后图表显示
    A_t = (A @ VT.T)[:, :2]
    plt.scatter(A_t[:50, 0], A_t[:50, 1], label=iris.target_names[0])
    plt.scatter(A_t[50:100, 0], A_t[50:100, 1], label=iris.target_names[1])
    plt.scatter(A_t[100:, 0], A_t[100:, 1], label=iris.target_names[2])
    plt.legend()
    plt.xlabel(r'$vec v_1$')
    plt.ylabel(r'$vec v_2$')
    plt.show()

    四维数据,需要用六个二维图表来看,但这些都是截面,仍然不能想象四维空间里的样子。

    f13db4400180fd52152a6ea664517a14.png

    从四维降到二维后,保留 97.77% 的信息。

    f2a0a482a557e12dfb3ad47ce6d161f0.png

    PCA 的功能就是压缩数据,同时保留最重要的信息。在数据分析的领域里,我们可以用它来降维。高维不仅对我们的想象力造成劳损,对建模也是一种诅咒,在这里主成分分析法是一个很有用的降维技巧。

    展开全文
  • 主成分分析法matlab

    2020-10-17 13:45:38
    主成分分析法的详细matlab代码,提供给大家学习。主成分分析法的详细matlab代码,提供给大家学习。主成分分析法的详细matlab代码,提供给大家学习。
  • 主成分分析法(principal component analysis, PCA)是最常用的无监督高维数据降维方法之一,它旨在降维的过程中保留原数据中最重要的几个分量,从而达到最大化原数据方差的作用。几乎所有数据降维方面研究都要用来...

    e3eb30a7e076e74f4a70f995c850ae9e.png

    主成分分析法(principal component analysis, PCA)是最常用的无监督高维数据降维方法之一,它旨在降维的过程中保留原数据中最重要的几个分量,从而达到最大化原数据方差的作用。几乎所有数据降维方面研究都要用来作为比较重要的方法。


    原文: Ph0en1x Notebook

    主成分分析的基本思想就是在原有样本的n维空间内再建立一个d维线性空间,用n个标准正交基进行重新映射,然后选取其中的d'个正交基进行保留,而在这d'个坐标轴上的坐标值就是映射到低维后的坐标。而推导的目的就是为了确定如何确定这这d个标准正交基以及如何选取它们。就如下图(图片来自于网络)一样,将二维空间内的点映射至一维空间,最终选择较长的那条向量进行投影映射。

    88a3ac9146ca71c93a70739cfe2c4732.png
    1. 首先,需要将手头需要降维的数据进行中心化,使样本中心点为原点

    5c12aa72e738e1caf5a6aa26a424de31.png
    1. 然后假定选择的新的坐标系为

    a854b81005459419aaa29d037a605167.png

    其中W是标准正交基向量,即 (i != j)

    fa0a7bf3d41a32043900165bfca8090d.png
    1. 选取其中的d'个向量让原样本向新坐标系中映射WTxi,即:

    582dd9ce9987b433894d2d0539d701b2.png

    W是经过选取后的d'个标准正交基,z是低维中的坐标

    1. 选取的目标是使降维后的点尽量的分散,也就是方差尽量的大:

    717908af11d2daf6693c19a67662ff1a.png

    优化问题被归纳为

    9ba604121209770ab0f7f0509cc5ad0f.png
    1. 根据拉格朗日乘子法,来决定哪d'个w可以留下,优化目标就成为了:

    f0da85cf974f0b809a5d5ebc62afd598.png

    代入优化目标

    8a8302bebb7787199d8745338542148b.png

    所以求解的过程就是寻找原样本协方差矩阵XXT的最大的d'个特征值,而相应的标准正交基就是相应特征值的特征向量;

    如果觉得我的笔记内描述不准确,欢迎留言与我交流 ,如果觉得我的笔记写的还行,欢迎给我点个赞

    Transformer结构及其应用--GPT、BERT、MT-DNN、GPT-2zhuanlan.zhihu.com
    53992b89a860f35ce180cfce1e25573c.png
    网络表示学习(一)--DeepWalk、LINE、Node2Vec、HARP、GraphGANzhuanlan.zhihu.com
    9faef5c416b35293f629915157271a46.png
    展开全文
  • Hi~新朋友,记得点蓝字关注我们哟主成分分析法——线上讨论会新一轮的线上讨论会又要来啦~这次由我们实证会计板块与大家一起分享有关层次分析法的内容,也十分欢迎大家提前了解并与群内的各位学者研究讨论~感兴趣...
    8a1c3b7a2d4f34239b50a25c67b667da.gif

    Hi~新朋友,记得点蓝字关注我们哟

    57ab195c2e9a46f2bac763447b92acf1.gife23badb5b5301c197c38e9feb3e61768.png

    主成分分析法

    ——线上讨论会

    新一轮的线上讨论会又要来啦~这次由我们实证会计板块与大家一起分享有关层次分析法的内容,也十分欢迎大家提前了解并与群内的各位学者研究讨论~感兴趣的同学或学者欢迎加推送下方小助手微信,拉您入群,可以提前获得分享资料的PDF版哦!

    (1)内容:主成分分析法

    (2)时间:本周六(3月7日)晚20:00

    (3)时长:一小时左右

    (4)地点:会计名人堂交流群

    (5)形式:语音或文字等

    298661d5467083a539edd23fc439573a.gif

    让我们先来进入一个小场景,再做个小思考吧~

    设定场景

    假定你是一个公司的财务经理。掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧情况、职工人数、职工的分工和教育程度等等。

    如果让你向上级介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?当然不能。你必须对各个方面进行高度概括,用一两个指标简单明了地把情况说清楚。

    bf0dccfb7e994dd447652cb092c4ee73.gif

    案例思考

    05e68d9ff18cee5aff56ac243ea8297b.gif

    1. 到底哪方面才是影响公司价值增值的关键呢?针对不同的公司,关键因素是否不同呢?(对于企业内部创新动力、成长潜力、盈利能力、营运效率、规模实力和外部环境 6 个方面甄选的 15 个变量数据)

    参考文献:光伏产业价值链增值动因及应对策略研究——基于微笑曲线和主成分分析法[J]. 刘吉成,林湘敏,颜苏莉.  会计之友. 2019(10)

    2. 企业财务风险的影响因素如何确定呢?(对于反映企业盈利能力、发展能力、偿债能力、现金流量、经营能力的 21 个财务指标——资产报酬率、资本积累率、资产负债率、存货周转率等等)

    参考文献:基于PCA的DE-SVM资源型企业财务风险识别模式研究[J]. 严良,李淑雯,蒋梦婷,熊英楠.  会计之友. 2019(07)

    b1cef5f64bcfc04816c93feb928463d1.gif

    是不是勾起了你的好奇心呢?不防相约周六,加入我们的线上讨论会吧!

    acc2e7bba738878d67436a637121f6fa.gif

    线上讨论会:主成分分析法

    bb9832b3f55457b92643d1915cb4aeef.gif

    1.在会计领域的研究

    2.方法介绍:思想、步骤;软件操作

    3.论文讨论

    推荐文献

    [1]基于主成分分析法的企业会计信息质量评价研究[J]. 曹巍,金珺.  会计之友. 2014(21)

    [2]光伏产业价值链增值动因及应对策略研究——基于微笑曲线和主成分分析法[J]. 刘吉成,林湘敏,颜苏莉.  会计之友. 2019(10)

    [3]基于PCA的DE-SVM资源型企业财务风险识别模式研究[J]. 严良,李淑雯,蒋梦婷,熊英楠.  会计之友. 2019(07)

    ed379e9be617c106a420270a9a16430f.gif 

    请对本次线上讨论会感兴趣的同学或学者加任意一位小助手为好友,我们将会拉您入群参与讨论,更能提前获得PDF版的分享资料!

    85614426909b9f6d20546e1b665dc467.png 

    小贴士:进群后请将昵称修改为“学校 年级 专业 姓名”

    我们期待您的加入!

    a7c98324df6085e38c7c63662b37fe89.png

    想了解更多会计资讯

    欢迎关注月旦会评!

    bb271eb6d6dee7de830b4c006c6fd8aa.png

    排版:袁梦

    文案:刘含硕

    审核:易慧媛

    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,960
精华内容 784
关键字:

主成分分析法