精华内容
下载资源
问答
  • 矩阵特征值

    2019-10-07 22:58:18
    ...如何理解矩阵特征值? 想要理解特征值,首先要理解矩阵相似。什么是矩阵相似呢?从定义角度就是:存在可逆矩阵P...
     参考:https://www.zhihu.com/question/21874816


    想要理解特征值,首先要理解矩阵相似。什么是矩阵相似呢?从定义角度就是:存在可逆矩阵P满足B=P^{-1} AP则我们说A和B是相似的。让我们来回顾一下之前得出的重要结论:对于同一个线性空间,可以用两组不同的基[\alpha ]和基[\beta ]来描述,他们之间的过渡关系是这样的:[\beta ]=[\alpha ]P,而对应坐标之间的过渡关系是这样的:x_{2}=P^{-1}x_{1}。其中P是可逆矩阵,可逆的意义是我们能变换过去也要能变换回来,这一点很重要。


    我们知道,对于一个线性变换,只要你选定一组基,那么就可以用一个矩阵T1来描述这个线性变换。换一组基,就得到另一个不同的矩阵T2(之所以会不同,是因为选定了不同的基,也就是选定了不同的坐标系)。所有这些矩阵都是这同一个线性变换的描述,但又都不是线性变换本身。具体来说,有一个线性变换x_{1}\rightarrow y_{1},我们选择基[\alpha ]来描述,对应矩阵是T_{1} ;同样的道理,我们选择基[\beta ]来描述x_{2}\rightarrow y_{2},,对应矩阵是T_{2} ;我们知道基[\alpha ]和基[\beta ]是有联系的,那么他们之间的变换T_{1}T_{2} 有没有联系呢?


    当然有,T_{1}T_{2} 就是相似的关系,具体的请看下图:

    <img src="https://pic1.zhimg.com/6cf43eca0f26cb1752f8fbf2633b699c_b.jpg" data-rawwidth="721" data-rawheight="449" class="origin_image zh-lightbox-thumb" width="721" data-original="https://pic1.zhimg.com/6cf43eca0f26cb1752f8fbf2633b699c_r.jpg">

    没错,所谓相似矩阵,就是同一个线性变换的不同基的描述矩阵。这就是相似变换的几何意义。


    这个发现太重要了。原来一族相似矩阵都是同一个线性变换的描述啊!难怪这么重要!工科研究生课程中有矩阵论、矩阵分析等课程,其中讲了各种各样的相似变换,比如什么相似标准型,对角化之类的内容,都要求变换以后得到的那个矩阵与先前的那个矩阵式相似的,为什么这么要求?因为只有这样要求,才能保证变换前后的两个矩阵是描述同一个线性变换的。就像信号处理(积分变换)中将信号(函数)进行拉氏变换,在复数域处理完了之后又进行拉式反变换,回到实数域一样。信号处理中是主要是为了将复杂的卷积运算变成乘法运算。其实这样的变换还有好多,有兴趣可以看积分变换的教材。


    为什么这样做呢?矩阵的相似变换可以把一个比较丑的矩阵变成一个比较美的矩阵,而保证这两个矩阵都是描述了同一个线性变换。至于什么样的矩阵是“美”的,什么样的是“丑”的,我们说对角阵是美的。在线性代数中,我们会看到,如果把复杂的矩阵变换成对角矩阵,作用完了之后再变换回来,这种转换很有用处,比如求解矩阵的n次幂!而学了矩阵论之后你会发现,矩阵的n次幂是工程中非常常见的运算。这里顺便说一句,将矩阵对角化在控制工程和机械振动领域具有将复杂方程解耦的妙用!总而言之,相似变换是为了简化计算!


    从另一个角度理解矩阵就是:矩阵主对角线上的元素表示自身和自身的关系,其他位置的元素aij表示i位置和j位置元素之间的相互关系。那么好,特征值问题其实就是选取了一组很好的基,就把矩阵 i位置和j位置元素之间的相互关系消除了。而且因为是相似变换,并没有改变矩阵本身的特性。因此矩阵对角化才如此的重要!


    特征向量的引入是为了选取一组很好的基。空间中因为有了矩阵,才有了坐标的优劣。对角化的过程,实质上就是找特征向量的过程。如果一个矩阵在复数域不能对角化,我们还有办法把它化成比较优美的形式——Jordan标准型。高等代数理论已经证明:一个方阵在复数域一定可以化成Jordan标准型。这一点有兴趣的同学可以看一下高等代数后或者矩阵论。


    经过上面的分析相信你已经可以得出如下结论了:坐标有优劣,于是我们选取特征向量作为基底,那么一个线性变换最核心的部分就被揭露出来——当矩阵表示线性变换时,特征值就是变换的本质!特征值的几何意义前面的答主已经用很多图解释过了,接下来我们分析一下特征值的物理意义:特征值英文名eigen value。“特征”一词译自德语的eigen,由希尔伯特在1904年首先在这个意义下使用(赫尔曼·冯·亥姆霍兹在更早的时候也在类似意义下使用过这一概念)。eigen一词可翻译为“自身的”,“特定于...的”,“有特征的”或者“个体的”—这强调了特征值对于定义特定的变换上是很重要的。它还有好多名字,比如谱,本征值。为什么会有这么多名字呢?


    原因就在于他们应用的领域不同,中国人为了区分,给特不同的名字。你看英文文献就会发现,他们的名字都是同一个。当然,特征值的思想不仅仅局限于线性代数,它还延伸到其他领域。在数学物理方程的研究领域,我们就把特征值称为本征值。如在求解薛定谔波动方程时,在波函数满足单值、有限、连续性和归一化条件下,势场中运动粒子的总能量(正)所必须取的特定值,这些值就是正的本征值。


    前面我们讨论特征值问题面对的都是有限维度的特征向量,下面我们来看看特征值对应的特征向量都是无限维函数的例子。这时候的特征向量我们称为特征函数,或者本证函数。这还要从你熟悉的微分方程说起。方程本质是一种约束,微分方程就是在世界上各种各样的函数中,约束出一类函数。对于一阶微分方程

    \frac{dy}{dt} =\lambda y

    我们发现如果我将变量y用括号[]包围起来,微分运算的结构和线性代数中特征值特征向量的结构,即\frac{d}{dt}[ y]=\lambda yT[y] =\lambda y竟是如此相似。这就是一个求解特征向量的问题啊!只不过“特征向量”变成函数!我们知道只有e^{\lambda t}满足这个式子。这里出现了神奇的数e,一杯开水放在室内,它温度的下降是指数形式的;听说过放射性元素的原子核发生衰变么?随着放射的不断进行,放射强度将按指数曲线下降;化学反应的进程也可以用指数函数描述……类似的现象还有好多。


    为什么选择指数函数而不选择其他函数,因为指数函数是特征函数。为什么指数函数是特征?我们从线性代数的特征向量的角度来解释。这已经很明显了e^{\lambda t}就是“特征向量”。于是,很自然的将线性代数的理论应用到线性微分方程中。那么指数函数就是微分方程(实际物理系统)的特征向量。用特征向量作为基表示的矩阵最为简洁。就像你把一个方阵经过相似对角化变换,耦合的矩阵就变成不耦合的对角阵一样。在机械振动里面所说的模态空间也是同样的道理。如果你恰巧学过振动分析一类的课程,也可以来和我交流。


    同理,用特征函数解的方程也是最简洁的,不信你用级数的方法解方程,你会发现方程的解有无穷多项。解一些其他方程的时候(比如贝塞尔方程)我们目前没有找到特征函数,于是退而求其次才选择级数求解,至少级数具有完备性。实数的特征值代表能量的耗散或者扩散,比如空间中热量的传导、化学反应的扩散、放射性元素的衰变等。虚数的特征值(对应三角函数)代表能量的无损耗交换,比如空间中的电磁波传递、振动信号的动能势能等。复数的特征值代表既有交换又有耗散的过程,实际过程一般都是这样的。复特征值在电路领域以及振动领域将发挥重要的作用,可以说,没有复数,就没有现代的电气化时代!


    对于二阶微分方程方程,它的解都是指数形式或者复指数形式。可以通过欧拉公式将其写成三角函数的形式。复特征值体现最多的地方是在二阶系统,别小看这个方程,整本自动控制原理都在讲它,整个振动分析课程也在讲它、还有好多课程的基础都是以这个微分方程为基础,这里我就不详细说了,有兴趣可以学习先关课程。说了这么多只是想向你传达一个思想,就是复指数函数式系统的特征向量!


    如果将二阶微分方程转化成状态空间\frac{dx}{dt} =Ax的形式(具体转化方法见现代控制理论,很简单的)

    。则一个二阶线性微分方程就变成一个微分方程组的形式这时就出现了矩阵A,矩阵可以用来描述一个系统:如果是振动问题,矩阵A的特征值是虚数,对应系统的固有频率,也就是我们常说的,特征值代表振动的谱。如果含有耗散过程,特征值是负实数,对应指数衰减;特征值是正实数,对应指数发散过程,这时是不稳定的,说明系统极容易崩溃,如何抑制这种发散就是控制科学研究的内容。


    提到振动的谱,突然想到了这个经典的例子:美国数学家斯特让(G..Strang)在其经典教材《线性代数及其应用》中这样介绍了特征值作为频率的物理意义,他说:"大概最简单的例子(我从不相信其真实性,虽然据说1831年有一桥梁毁于此因)是一对士兵通过桥梁的例子。传统上,他们要停止齐步前进而要散步通过。这个理由是因为他们可能以等于桥的特征值之一的频率齐步行进,从而将发生共振。就像孩子的秋千那样,你一旦注意到一个秋千的频率,和此频率相配,你就使频率荡得更高。一个工程师总是试图使他的桥梁或他的火箭的自然频率远离风的频率或液体燃料的频率;而在另一种极端情况,一个证券经纪人则尽毕生精力于努力到达市场的自然频率线。特征值是几乎任何一个动力系统的最重要的特征。"

    <img src="https://pic2.zhimg.com/0a02c56afda30b25d653ae4e24629d5d_b.jpg" data-rawwidth="395" data-rawheight="216" class="content_image" width="395">

    对于一个线性系统,总可以把高阶的方程转化成一个方程组描述,这被称为状态空间描述。因此,他们之间是等价的。特征值还有好多用处,原因不在特征值本身,而在于特征值问题和你的物理现象有着某种一致的对应关系。学习特征值问题告诉你一种解决问题的方法:寻找事物的特征,然后特征分解。


    最后声明一下, 本文是在整理孟岩老师的《理解矩阵》和任广千、胡翠芳老师的《线性代数的几何意义》基础上形成的,只是出于一种对数学的爱好!有兴趣的读者建议阅读原文。也欢迎下载《神奇的矩阵》和《神奇的矩阵第二季》了解更多有关线性代数和矩阵的知识。

    41581 条评论
    分享
    收藏感谢
    收起

    补充:答主现在用到的多数是对称矩阵或酉矩阵的情况,有思维定势了,写了半天才发现主要讲的是对称矩阵,这答案就当科普用了。特征值在很多领域应该都有自己的用途,它的物理意义到了本科高年级或者研究生阶段涉及到具体问题的时候就容易理解了,刚学线性代数的话,确实抽象。

    ——————————————————以下为正文——————————————————

    从线性空间的角度看,在一个定义了内积的线性空间里,对一个N阶对称方阵进行特征分解,就是产生了该空间的N个标准正交基,然后把矩阵投影到这N个基上。N个特征向量就是N个标准正交基,而特征值的模则代表矩阵在每个基上的投影长度。
    特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多。

    应用到最优化中,意思就是对于R的二次型,自变量在这个方向上变化的时候,对函数值的影响最大,也就是该方向上的方向导数最大。
    应用到数据挖掘中,意思就是最大特征值对应的特征向量方向上包含最多的信息量,如果某几个特征值很小,说明这几个方向信息量很小,可以用来降维,也就是删除小特征值对应方向的数据,只保留大特征值方向对应的数据,这样做以后数据量减小,但有用信息量变化不大。

    ——————————————————举两个栗子——————————————————

    应用1 二次型最优化问题

    二次型y=x^{T} Rx,其中R是已知的二阶矩阵,R=[1,0.5;0.5,1],x是二维列向量,x=[x1;x2],求y的最小值。

    求解很简单,讲一下这个问题与特征值的关系。
    对R特征分解,特征向量是[-0.7071;0.7071]和[0.7071;0.7071],对应的特征值分别是0.5和1.5。
    然后把y的等高线图画一下
    <img src="https://pic4.zhimg.com/7274a04a7a947640122b225967a8385b_b.jpg" data-rawwidth="561" data-rawheight="420" class="origin_image zh-lightbox-thumb" width="561" data-original="https://pic4.zhimg.com/7274a04a7a947640122b225967a8385b_r.jpg">从图中看,函数值变化最快的方向,也就是曲面最陡峭的方向,归一化以后是[0.7071;0.7071],嗯哼,这恰好是矩阵R的一个特征值,而且它对应的特征向量是最大的。因为这个问题是二阶的,只有两个特征向量,所以另一个特征向量方向就是曲面最平滑的方向。这一点在分析最优化算法收敛性能的时候需要用到。

    从图中看,函数值变化最快的方向,也就是曲面最陡峭的方向,归一化以后是[0.7071;0.7071],嗯哼,这恰好是矩阵R的一个特征值,而且它对应的特征向量是最大的。因为这个问题是二阶的,只有两个特征向量,所以另一个特征向量方向就是曲面最平滑的方向。这一点在分析最优化算法收敛性能的时候需要用到。
    二阶问题比较直观,当R阶数升高时,也是一样的道理。

    应用2 数据降维

    兴趣不大的可以跳过问题,直接看后面降维方法。
    机器学习中的分类问题,给出178个葡萄酒样本,每个样本含有13个参数,比如酒精度、酸度、镁含量等,这些样本属于3个不同种类的葡萄酒。任务是提取3种葡萄酒的特征,以便下一次给出一个新的葡萄酒样本的时候,能根据已有数据判断出新样本是哪一种葡萄酒。
    问题详细描述:UCI Machine Learning Repository: Wine Data Set
    训练样本数据:archive.ics.uci.edu/ml/

    原数据有13维,但这之中含有冗余,减少数据量最直接的方法就是降维。
    做法:把数据集赋给一个178行13列的矩阵R,减掉均值并归一化,它的协方差矩阵C=R^{T}R,C是13行13列的矩阵,对C进行特征分解,对角化C=UDU^{T},其中U是特征向量组成的矩阵,D是特征之组成的对角矩阵,并按由大到小排列。然后,另R' =RU,就实现了数据集在特征向量这组正交基上的投影。嗯,重点来了,R’中的数据列是按照对应特征值的大小排列的,后面的列对应小特征值,去掉以后对整个数据集的影响比较小。比如,现在我们直接去掉后面的7列,只保留前6列,就完成了降维。这个降维方法叫PCA(Principal Component Analysis)。
    下面看结果:
    <img src="https://pic2.zhimg.com/1c59933649aa655b14d648300fd2c559_b.jpg" data-rawwidth="562" data-rawheight="413" class="origin_image zh-lightbox-thumb" width="562" data-original="https://pic2.zhimg.com/1c59933649aa655b14d648300fd2c559_r.jpg">这是不降维时候的分类错误率。这是不降维时候的分类错误率。<img src="https://pic2.zhimg.com/30b87d38961b880fca2fea790bf5f515_b.jpg" data-rawwidth="552" data-rawheight="408" class="origin_image zh-lightbox-thumb" width="552" data-original="https://pic2.zhimg.com/30b87d38961b880fca2fea790bf5f515_r.jpg">

    这是降维以后的分类错误率。

    结论:降维以后分类错误率与不降维的方法相差无几,但需要处理的数据量减小了一半(不降维需要处理13维,降维后只需要处理6维)。
    1073114 条评论
    分享
    收藏感谢
    收起

    特征值不仅仅是数学上的一个定义或是工具,特征值是有具体含义的,是完全看得见摸得着的。

    1. 比如说一个三维矩阵,理解成线性变换,作用在一个球体上:

    三个特征值决定了 对球体在三个维度上的拉伸/压缩,把球体塑造成一个橄榄球;

    剩下的部分决定了这个橄榄球在三维空间里面怎么旋转。


    2. 对于一个微分方程:

    <img src="https://pic1.zhimg.com/059f6f160cb805012c8266eccc575b10_b.jpg" data-rawwidth="230" data-rawheight="102" class="content_image" width="230">

    将系数提取出来

    <img src="https://pic1.zhimg.com/8a2685d051d47c7be0f0d062dee5eca4_b.jpg" data-rawwidth="187" data-rawheight="83" class="content_image" width="187">

    对角化:

    <img src="https://pic4.zhimg.com/d4438e57b29d86ccbe5acd8136ea5227_b.jpg" data-rawwidth="240" data-rawheight="90" class="content_image" width="240">

    其中

    <img src="https://pic1.zhimg.com/0ea72d53419fda40c8c4e08522eb0c20_b.jpg" data-rawwidth="228" data-rawheight="73" class="content_image" width="228">

    由于

    <img src="https://pic1.zhimg.com/0588de5107d6dd2331ae8c223616233c_b.jpg" data-rawwidth="221" data-rawheight="49" class="content_image" width="221">

    定义

    <img src="https://pic3.zhimg.com/0ea3ae6ed484e1c2b1a943044d9c8676_b.jpg" data-rawwidth="102" data-rawheight="23" class="content_image" width="102">

    于是有

    <img src="https://pic4.zhimg.com/a6e4c0e1755c7259ad10df312362c7ef_b.jpg" data-rawwidth="110" data-rawheight="25" class="content_image" width="110">

    因此y的变化率与特征值息息相关:

    <img src="https://pic2.zhimg.com/28211481cc93355c212a40f0c4fce039_b.jpg" data-rawwidth="210" data-rawheight="75" class="content_image" width="210">

    再将y由Q变换回x,我们就能得出x在不同时间的值。x的增长速度就是特征值λ,Q用来把x旋转成y。

    13512 条评论
    分享
    收藏感谢
    收起

    各位知友在点赞同之前请看一下评论区。这个例子有待讨论。

    -----------
    我举一个直观一点的例子吧...我也喜欢数学的直观之美。

    我们知道,一张图像的像素(如:320 x 320)到了计算机里面事实上就是320x320的矩阵,每一个元素都代表这个像素点的颜色..

    如果我们把基于特征值的应用,如PCA、向量奇异值分解SVD这种东西放到图像处理上,大概就可以提供一个看得到的、直观的感受。关于SVD的文章可以参考LeftNotEasy的文章:机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用


    简单的说,SVD的效果就是..用一个规模更小的矩阵去近似原矩阵...
    A_{m\times n} \approx U_{m\times r} \Sigma_{r\times r} V_{r\times n}
    这里A就是代表图像的原矩阵..其中的\Sigma_{r\times r}尤其值得关注,它是由A的特征值从大到小放到对角线上的..也就是说,我们可以选择其中的某些具有“代表性”的特征值去近似原矩阵!

    左边的是原始图片
    <img src="https://pic3.zhimg.com/58a5bda06fd38662cd0868efdc9e91a2_b.jpg" data-rawwidth="510" data-rawheight="384" class="origin_image zh-lightbox-thumb" width="510" data-original="https://pic3.zhimg.com/58a5bda06fd38662cd0868efdc9e91a2_r.jpg">当我把特征值的数量减少几个的时候...后面的图像变“模糊”了..当我把特征值的数量减少几个的时候...后面的图像变“模糊”了..
    <img src="https://pic3.zhimg.com/c9a2b470aec764ea8564c07f038ab46a_b.jpg" data-rawwidth="510" data-rawheight="384" class="origin_image zh-lightbox-thumb" width="510" data-original="https://pic3.zhimg.com/c9a2b470aec764ea8564c07f038ab46a_r.jpg">同样地...同样地...
    <img src="https://pic4.zhimg.com/d99db09dade1a9b7bb41b9190535d22f_b.jpg" data-rawwidth="510" data-rawheight="384" class="origin_image zh-lightbox-thumb" width="510" data-original="https://pic4.zhimg.com/d99db09dade1a9b7bb41b9190535d22f_r.jpg">
    关键的地方来了!如果我们只看到这里的模糊..而没有看到计算机(或者说数学)对于人脸的描述,那就太可惜了...我们看到,不论如何模糊,脸部的关键部位(我们人类认为的关键部位)——五官并没有变化太多...这能否说:数学揭示了世界的奥秘?
    19733 条评论
    分享
    收藏感谢
    收起
    前面的回答比较专业化,而且好像没说特征值是虚数的情况,并不是只有特征向量的伸缩。作为工科线代水平,我说下自己的理解。
    矩阵特征值是对特征向量进行伸缩和旋转程度的度量,实数是只进行伸缩,虚数是只进行旋转,复数就是有伸缩有旋转。其实最重要的是特征向量,从它的定义可以看出来,特征向量是在矩阵变换下只进行“规则”变换的向量,这个“规则”就是特征值。推荐教材linear algebra and its application
    7216 条评论
    分享
    收藏感谢
    特徵向量反映了線性變換的方向,在這幾個方向上線性變換只導致伸縮,沒有旋轉;特徵值反映線性變換在這幾個方向上導致的伸縮的大小。
    282 条评论
    分享
    收藏感谢

    定义很抽象我也一直搞不懂,但是最近开始在图像处理方面具体应用的时候就清晰很多了,用学渣的语言沟通一下吧我们。

    抛开学术研究不谈,其实根本不会,特征值eigenvalue和特征向量eigenvector的一大应用是用于大量数据的降维


    比如拿淘宝举个例子,每个淘宝店铺有N个统计数据:商品类型,日销量周销量月销量、好评率中评差评率……全淘宝有M家店铺,那么服务器需要记录的数据就是M*N的矩阵;

    这是一个很大的数据,实际上我们可以通过求这个矩阵的特征向量和对应的特征值来重新表示这个M*N的矩阵:
    我们可以用周销量来误差不大的表示日销量和月销量(除以七和乘以四),这个时候周销量就可以当作一个特征向量,它能够表示每个店铺销量这个空间方向的主要能量(也就是数据),这样我们就简略的把一个35维的向量简化成四维的(30个日销量加4个周销量加1个月销量);
    同理我们也可以把好评率中评率差评率用一个好评率来表示(剩余的百分比默认为差评率),这样的降维大致上也能反映一个店铺的诚信度;
    这样通过不断的降维我们可以提取到某系列数据最主要的几个特征向量(对应特征值最大的),这些向量反映了这个矩阵空间最主要的能量分布,所以我们可以用这几个特征向量来表示整个空间,实现空间的降维。

    这个方法叫做Principle Components Analysis,有兴趣的同学可以wiki一下。

    学渣飘过了
    5717 条评论
    分享
    收藏感谢

    作为一个线性代数考60+的学渣,我是这么直观地理解的:

    Ax = \lambda x 把式子中的A看作一个线性变换,那么这个定义式就表示对于 向量x而言,经过A变换之后该向量的方向没有变化(可能会反向),而只是长度变化了(乘以 \lambda)。

    也就是对于变换A来说,存在一些“不变”的量(比如特征向量x的方向),我想,“特征”的含义就是“不变”

    而特征值\lambda,如你所见,就是变换 A 在特征方向上的伸展系数吧(乱诹了个名词 :P)。

    嗯,觉得维基其实讲的就挺好的:zh.wikipedia.org/wiki/%
    454 条评论
    分享
    收藏感谢

    如果把矩阵理解为空间变换的参数,那特征值和特征向量可这样理解:

    现在将x(m*1)向量按照A(m*m)矩阵进行空间变换,A矩阵的特征向量为a1,a2,a3,...,am,特征值为b1,b2,b3,...,bm。
    可以把a1,a2,a3,...,am想象成m维坐标系下的m根柱子,每根柱子都相当于一个有刻度的轨道,上边有一个支点,空间系在这m个支点上,并且会因为支点的变化而变化。支点变化导致空间变化,空间变化导致空间中的向量变化。这个空间中的所有向量,都会随着任何支点的变化而变化,被拉伸旋转。

    在原始空间的情况下,每根柱子的支点都在刻度1上。现在要对向量b按照A矩阵进行空间变换,则每根柱子上的支点按照b1,b2,b3,...,bm进行伸缩,空间随之伸缩。而随着空间在不同维度上不同量的伸缩,向量b也随之被伸缩旋转。

    特征向量决定了空间变化时,空间伸缩的不同方向,特征值决定伸缩的程度。方向和特征值相配合,使空间中的任何向量都发生了该矩阵所代表的空间变化。
    1添加评论
    分享
    收藏感谢

    推荐一种看法吧,粗略描述如下:

    把矩阵看成线性变换,找特征值就是找这个线性变换下的不变自空间。

    然后一些好的矩阵、线性变换,就可以分成好多个简单的变换了。
    不好的矩阵也可以作进一步处理,也能分解。

    将复杂的东西变成很多简单的东西,这是数学很美的一点。

    很多应用也是基于这样的直观。
    有时间再补充一些细节吧。
    41 条评论
    分享
    收藏感谢

    什么是方阵?方阵就是n维线性空间上的线性变换。那么我们总要考虑最简单的情况:什么是一维的线性变换呢?就是简单的常数倍拉伸
    A: x -> ax

    在高维的时候,线性变换A的结构可能很复杂,但它总会保持某些一维子空间不变。在这些子空间上它的限制就是一个一维线性变换,这个变换的拉伸常数就是A在这个子空间上的特征值。
    11添加评论
    分享
    收藏感谢

    看了大部分的回答,基本都没有回答出为什么要求特征值。

    特征值和特征向量是为了研究向量在经过线性变换后的方向不变性而提出的,一个空间里的元素通过线性变换到另一个相同维数的空间,那么会有某些向量的方向在变换前后不会改变,方向不变但是这些向量的范数可能会改变,我这里说的都是实数空间的向量。

    定义x'=Ax,定义x为原始空间中的向量,x'为变换后空间的向量,简单起见令An阶方阵且特征值\lambda_{1}, \lambda_{2}, \cdot \cdot \cdot ,\lambda_{n}互不相同,对应的特征向量P_{1},P_{2},\cdot \cdot \cdot ,  P_{n}线性无关。那么原始空间中的任何一个向量都可以由A的特征向量表示,既x=k_{1}P_{1}+k_{2}P_{2}+\cdot \cdot \cdot +k_{n}P_{n}那么在变换到另一个空间时Ax=\lambda_{1}k_{1}P_{1}+\lambda_{2}k_{2}P_{2}+\cdot \cdot \cdot +\lambda_{n}k_{n}P_{n},这就求完了!

    好,下面再说更深层次的含义。

    在不同的领域特征值的大小与特征向量的方向所表示的含义也不同,但是从数学定义上来看,每一个原始空间中的向量都要变换到新空间中,所以他们之间的差异也会随之变化,但是为了保持相对位置,每个方向变换的幅度要随着向量的分散程度进行调整。

    你们体会一下拖拽图片使之放大缩小的感觉。

    如果A为样本的协方差矩阵,特征值的大小就反映了变换后在特征向量方向上变换的幅度,幅度越大,说明这个方向上的元素差异也越大,换句话说这个方向上的元素更分散。
    204 条评论
    分享
    收藏感谢
    就去让你给我接个人,她有很多特征,我会挑几个特典型如长发超级大美女、身材高挑皮肤好。。。其中特征值就是多高,多美,特征向量就是这些分类。。因为不需要给你所有信息,只要几个典型也不会让你找错人,所以能给你降维。
    如果你要找女友,只要几个典型如美,高之类的,估计你很快就能在100人中就能找到你心仪的,所以能寻优
    32添加评论
    分享
    收藏感谢

    /* 多图预警 */
    用特征向量作为基,线性变换会很简单,仅仅是伸缩变换,而特征值就是伸缩的大小。
    各位已经说的很清楚了,我就发几张用mathematica做的图吧。

    这里只给出一些“可视化”的2D线性变换。
    \mathbb{R}^{2}平面当中的一个向量(x,y)经过一个线性变换(乘上一个矩阵)之后变成了另一个\mathbb{R}^{2}的向量(x',y'),把它的起点接在(x,y),就可以表示线性变换的特性。再画出一组特征向量,我们就有下图:
    <img src="https://pic3.zhimg.com/77e42baa0d26fbfa31a364a59d97c09a_b.jpg" data-rawwidth="746" data-rawheight="746" class="origin_image zh-lightbox-thumb" width="746" data-original="https://pic3.zhimg.com/77e42baa0d26fbfa31a364a59d97c09a_r.jpg">

    颜色越深冷,代表向量长度越小。
    可以看出特征向量所在的直线上的向量经过变换之后方向不变,这意味着一个向量的分量是各自独立的,这对于我们分析矩阵、线性变换就方便了很多。


    (绿色箭头是矩阵的行向量,红色是特征向量)
    <img src="https://pic4.zhimg.com/4af4920e24c36091ca5d821ac03b68a3_b.jpg" data-rawwidth="643" data-rawheight="302" class="origin_image zh-lightbox-thumb" width="643" data-original="https://pic4.zhimg.com/4af4920e24c36091ca5d821ac03b68a3_r.jpg"><img src="https://pic3.zhimg.com/337980b9707cd3668eee3dbfe39e2a42_b.jpg" data-rawwidth="528" data-rawheight="302" class="origin_image zh-lightbox-thumb" width="528" data-original="https://pic3.zhimg.com/337980b9707cd3668eee3dbfe39e2a42_r.jpg">
    只有一个特征值-1的情况:
    <img src="https://pic1.zhimg.com/3b7cd76570f4fd6b0490806baacaec28_b.jpg" data-rawwidth="528" data-rawheight="302" class="origin_image zh-lightbox-thumb" width="528" data-original="https://pic1.zhimg.com/3b7cd76570f4fd6b0490806baacaec28_r.jpg">
    <img src="https://pic4.zhimg.com/309df13a20128f0c73f1fdc050ff8887_b.jpg" data-rawwidth="528" data-rawheight="302" class="origin_image zh-lightbox-thumb" width="528" data-original="https://pic4.zhimg.com/309df13a20128f0c73f1fdc050ff8887_r.jpg">
    特征值是虚数的反对称矩阵:
    <img src="https://pic1.zhimg.com/57d08d51668ba13a83a99ccba39447ec_b.jpg" data-rawwidth="787" data-rawheight="182" class="origin_image zh-lightbox-thumb" width="787" data-original="https://pic1.zhimg.com/57d08d51668ba13a83a99ccba39447ec_r.jpg">其实做的是动图,可惜知乎不支持动图。其实做的是动图,可惜知乎不支持动图。
    494 条评论
    分享
    收藏感谢
    收起
    站在线性变换的角度来看矩阵的话。
    矩阵(线性变换)作用在一个向量上无非是将该向量伸缩(包括反向伸缩)与旋转。
    忽略复杂的旋转变换,只考虑各个方向(特征方向)伸缩的比例,所提取出的最有用,最关键的信息就是特征值了。
    268 条评论
    分享
    收藏感谢
    特征向量可以看作坐标向量,特征值就是矩阵在该坐标方向上的分量大小值,特征分析相当于提取矩阵的信息出来吧。较大的特征值对应的特征向量就较为重要,矩阵降维就用的提取主特征向量思想。
    149 条评论
    分享
    收藏感谢

    从相似变换开始讲吧。
    A=PNP-1
    如果我们取N是对角阵,那主对角线上的三个数就是三个特征值,而P矩阵就是特征向量的排列。
    随便给一个向量x,有
    Ax=PNP-1x

    左边我们都知道是线性变换,而右边怎么看呢?
    首先我们看P-1x
    P的每一个列向量都是一个特征向量,也就是说P构成线性空间的一组基。那么P逆x即将x变换为特征向量为基表示的坐标。
    为便于直观理解,特殊的,如果P为单位正交阵(即几个特征向量互相垂直且模长为1),那么P逆等于P转置,即P逆是特征向量排列出来的,每一行元素其实是一个特征向量。由于特征向量无所谓尺度,我们把它的模长归一化一下。
    这样,P逆x相当于把每一个特征向量与x做内积。由于特征向量模长为1,内积得到的实际上是x在特征向量上的投影长度。整体而言,这一步得到的是x向量在特征向量坐标系下面的坐标值。
    再乘中间的对角矩阵N,实际上是把刚才得到的新坐标在每一个特征向量上放大或者缩小特征值倍。
    最后一步,再乘P,相当于把坐标还原到原来的坐标系下面。

    所以说,
    矩阵代表一个线性变换(在某几个方向放大或者缩小)。
    特征向量代表这个线性变换的几个方向。
    特征值代表放大或者缩小的倍数。
    以上。
    私以为这样理解是直观的。

    (这个答案已经和三个月前的回答很不一样了,当初啥都不懂强答的,后来学了点图像的知识理解深刻了以后重新回答了一下。)
    99 条评论
    分享
    收藏感谢

    找了几天, 这个视频(7分钟)是我见过讲解最为直观的, 强烈推荐.
    源视频在youtube上: youtube.com/watch?
    为了让国内的童鞋也可以看到, 我把它上传到youku了:
    introduction to Eigenvalues and Eigenvectors

    另外, 这个简单的网页也挺好的: File:Eigenvectors.gif

    不过真的是上面那个视频让我对特征值和特征向量真正有一个直观的认识. youtube上两万多收看, 两百多点up, 没有点down的.
    95 条评论
    分享
    收藏感谢
    假设有一个向量x(特征向量)和矩阵A,Ax的过程相当于矩阵A对向量x做各种 方向上的伸缩变换,变换后的向量为y。而存在特征值t(常数),即说明x通过各种变换得到的y正好与x在一个方向上,只有长度上的变化,中间相差的倍数则为t。Ax=tx
    84 条评论
    分享
    收藏感谢

    仅考虑非奇异矩阵。

    以3阶非奇异矩阵{A}为例,设它的3个特征值(多重特征值就重复写)分别为 \lambda_1,\lambda_2,\lambda_3, 对应的特征向量分别为X_1,X_2X_3,则X_1 X_2 X_3线性无关。

    此时任一向量X可表示为X_1 X_2 X_3的线性组合,设X=aX_1+bX_2+cX_3,则有

    AX=A(aX_1+bX_2+cX_3)=aAX_1+bAX_2+cAX_3=a\lambda_1X_1+b\lambda_2X_2+c\lambda_3X_3=\lambda_1(aX_1)+\lambda_2(bX_2)+\lambda_3(cX_3)

    正好是XA的各特征向量上分量乘以特征值之和。
    81 条评论
    分享
    收藏感谢
    更多
    人中的路
    人中的路
    计算机硕士编辑话题经验
    使用匿名身份回答
     
    写回答...
     
    相关 Live 推荐
    数分入门:极限与实数理论
    谈谈微积分的学习方法
    线性代数入门:从方程到映射
    从几何学看数学之美
    如何学好本科数学?

    转载于:https://www.cnblogs.com/hd-chenwei/p/6807978.html

    展开全文
  • 如何理解矩阵特征值的意义?

    千次阅读 2020-05-22 09:33:11
    如何理解矩阵特征值的意义? 毕业多年,曾经有同事问我该如何理解特征值的意义? 当时,实在羞愧,我一学数学的,真不知该如何回答。 ...... 多年后有点感悟了,就当还愿吧,本文将从几何、医学、物理三个视角试图...

    如何理解矩阵特征值的意义?

    毕业多年,曾经有同事问我该如何理解特征值的意义?

    当时,实在羞愧,我一学数学的,真不知该如何回答。

    极力回想,也只能以“特征值的求法、步骤…bla…bla…”应付了事,

    答非所问,简直了得!

    这样的答案教科书里写得清清楚楚,网上Google/百度一大堆,

    人家问的是意义,如何理解其意义?

    直扣灵魂,

    我真的曾经理解过它的意义吗???

    招了吧,真没有!

    原在数学系时,教室里,对着黑板一堆密密麻麻的公式,我也是时常神游天外的主…

    考试前,为了避免挂科才熬夜突击,对着书本一一比划,至少要演算两到三张稿纸,才能勉强记住方法、步骤,哪还管得着它的意义?

    这种突击式的训练记忆,忘得也快,就像写代码一样,过一阵就忘了!

    课堂上,老师大多是照本宣科。

    当年,

    也许是自己知识阅历不够,很难理解其意义,

    也许是努力不够,被足球耽误了。

    也许是天赋所致,不能顿悟!

    总之,确定那时我肯定是没有理解它的意义的。

    不知道现在有多少学生还是一样?

    在学习一些抽象的数学工具时,代换三、四步之后就不知所云了,往往只能靠记忆强撑,而这种记忆最多维持一周,年轻时可能长点,后来,说忘就忘了…。

    有极少数天才,能在抽象世界里面一直转,抽啊抽,一直抽…并最终以此为业。

    而大多数人(99+%),一到毕业,就尴尬,因为真的不理解其意义,

    看似学了一些高深的数学知识,只会做题,不会运用,根本不理解公式指代符号的现实映射!进而职场上,其它方面训练缺失的短板逐渐显现后,囧是必然!

    我想,这不单是数学教育的问题,也是其它各方面可能会尴尬的本源:

    不理解意义

    好,扯远了,回到正题,来看灵魂之问:

    如何理解特征值的意义?

    最近才有些感悟,和大家分享一下。

    说到特征值λ\lambda,数学上,基本上是指矩阵的特征值

    说到矩阵,高等代数几乎一整本书都在讲它,最著名的数学软件叫Matlab,直译为矩阵实验室,足见其高深、复杂!

    而这么复杂混乱的东西确有一个特征值, 难道不奇怪?

    再说,矩阵到底有多复杂混乱?看数学公式体会一下吧:

    这是一堆数,每一个数字都可以在实数域内取值(正、负、零),mnm或n可以无限的延伸,联想到现在的大数据,还有什么东西不能由它表示呢?如果您相信万物皆数,这儿都可以说万物皆矩阵了,万物,能不复杂?

    另外,这一堆数既可以表示数据记录,还可以表示某种不知名的抽象运算(物理上叫算子),这样的数学运算,对某些对象集,确仅仅以固有的方式伸缩,且不管它是数据记录还是抽象运算,全都一样!

    如此混乱复杂! 确有本征!

    这不神奇吗?

    数学就是这样,抽象、高级、有理

    如果这样说感觉虚,那么先来看一下它精确(枯燥)的数学定义


    特征值λ\lambda

    AA是一n×nn \times n矩阵,ξ\xi是一nn维非零列向量,若存在一数λ\lambda,使得
    Aξ=λξ A\xi=\lambda\xi
    则称λ\lambdaAA的一个特征值ξ\xiAA的属于特征值λ\lambda的一个特征向量。

    展开Aξ=λξA\xi=\lambda\xi

    [a11a12...a1na21a22...a2n............an1an2...ann][x1x2...xn]=λ[x1x2...xn]=[λx1λx2...λxn] \left [ \begin{array}{c} a_{11} & a_{12} & ... & a_{1n} \\ a_{21} & a_{22} & ... & a_{2n} \\ ... & ...& ...&... \\ a_{n1} & a_{n2} & ... & a_{nn} \\ \end{array} \right] \left [ \begin{array}{c} x_{1}\\ x_{2}\\ ...\\ x_{n}\\ \end{array}\right]=\lambda\left [ \begin{array}{c} x_{1}\\ x_{2}\\ ...\\ x_{n}\\ \end{array}\right]=\left [ \begin{array}{c} \lambda x_{1}\\ \lambda x_{2}\\ ...\\ \lambda x_{n}\\ \end{array}\right]

    若把矩阵的每一行理解为一个基向量εi\varepsilon_{i},则是表示基向量与该向量的内积εiξ(\varepsilon_{i}\bullet\xi) 等于λxi\lambda x_{i}


    感觉公式真的很枯燥的话,就先跳过上面吧。

    下面我将从三个方面来试图阐释其意义,以便大家更好的理解。

    • 几何上
    • 医学上
    • 物理上

    (一)几何上

    如果把矩阵理解为一个坐标系(不一定直角的,也可能是严重变形的“尺子”),有一类向量叫特征向量,其中的任一个向量,在该矩阵上的投影,都只是自身固定的伸缩!

    如何理解投影呢?且拿三维来理解吧,一根射线在另外一个坐标系(矩阵)下的影子,其每一轴都会有投影分量,把所有分量组合还原成影子,跟其自身共线,影子射线的长度比值永远固定,这个比值就是特征值,简如下图。

    而该比值对这条直线上的所有向量都适应,即无论射线长短。 那么有多少条这样的直线呢?nn维矩阵最多有nn条,每一条的比值(特征值)可能都不一样,有大有小,都代表这一维度的自身特征,故这里大、小意义就明显了。

    • 大可以理解为该维度上尺子的单位刻度大,比如99表示一个单位刻度
    • 小可以理解为该维度上尺子的单位刻度小,比如0.10.1表示一个单位刻度

    (二) 医学上

    如果把矩阵理解为中医祖传秘籍(乱不外传的),特征向量理解为秘方子(枸杞、百合、红花、童子尿…),特征值就是对该方子的用药量,温、热、寒不同方子特征值不一样, 这样也说得通,如下图!

    进一步,把西药制成品也类比为特征向量。比如新冠治疗中的瑞得西韦, 特征值就是该神药该服用多少?还有其它药方子,如莲花清瘟等,假设都能治疗新冠肺炎,但用量肯定是不一样的,即不同特征向量对应的特征值不一。

    如此看来,特征值可理解为医学上药物用量的一个刻度,也是中西医互相密而不宣的沟通桥梁,正如下图的λ0\lambda_{0}

    (三) 物理上

    “遇事不决,量子力学” 戏谑的表明了量子力学的高深、难懂!

    且看薛定谔方程的前半部分,就复杂得都让人头晕眼花…

    物理学家把这种神操作统称为算子(因为给您解释不清楚~),是不是有点巫师作法、道士占卜的感觉?

    不同的是那帮巫师(物理学家),在圈内对不同公式符号都给出了互相认可的解释!

    例如:量子力学把世界看成是波动的,如果一个波函数经过一个量子变换后,它仍是一同一个波函数乘一个常量(如上图C)。

    再看矩阵,它不也就是一个算子吗?而且还是线性的,如此简单,so easy!

    大巫师(物理学家)牛!

    这样,特征值的意义又从矩阵的线性上升到非线性统一了。

    还是大巫师(物理学家)牛~

    总之,就是一段复杂的操作,统称为算子特征值也叫算子的本征值,台湾人习惯这样称呼,同一个意思,英文词源其实来自德语(自身的)。

    本来很好理解的概念,几经"转手"之后就晦涩难懂了…

    遥想当年,若彼时能有这样的理解,就完美了!

    想记这点感悟很久了,

    若有缘遇上,能给您带来一点点共鸣,便是满足。

    最后附上特征值的求法,以便大家回忆。

    附:特征值求法


    特征多项式

    λEA=λa11a12...a1na21λa22...a2n............an1an2...λann=0 |\lambda E-A|=\left | \begin{array}{c} \lambda-a_{11} & -a_{12} &...&-a_{1n}\\ -a_{21} & \lambda-a_{22} &...&-a_{2n}\\ ... & ... &...&...\\ -a_{n1} & -a_{n2} &...&\lambda-a_{nn}\\ \end{array}\right |=0
    它是数域PP上的一个nn次多项式,若是复数域,必有nn个根。每一个根都是矩阵AA的一个特征值

    求特征值与特征向量方法步骤

    • 求出特征多项式λEA|\lambda E-A|的全部根
    • 把所求根代入方程组[λEA]X=0[\lambda E -A]X=0中求出一组基础解系,就得到属于相应特征值的线性无关的特征向量

    数学之水,更多干货,敬请点击详查~

    数学之水

    展开全文
  • 如何理解矩阵特征值

    2018-06-09 15:09:30
    对于运动而言,最重要的当然就是运动的速度和方向,那么(我后面会说明一下限制条件):特征值就是运动的速度特征向量就是运动的方向既然运动最重要的两方面都被描述了,特征值、特征向量自然可以称为运动(即矩阵)...

    (下面的回答只涉及实数范围)。
    关于特征值、特征向量可以讲的确实很多,我这里希望可以给大家建立一个直观的印象。
    先给一个简短的回答,如果把矩阵看作是运动,对于运动而言,最重要的当然就是运动的速度和方向,那么(我后面会说明一下限制条件):
    • 特征值就是运动的速度
    • 特征向量就是运动的方向
    既然运动最重要的两方面都被描述了,特征值、特征向量自然可以称为运动(即矩阵)的特征。
    注意,由于矩阵是数学概念,非常抽象,所以上面所谓的运动、运动的速度、运动的方向都是广义的,在现实不同的应用中有不同的指代。
    下面是详细的回答,我会先从几何上简单讲解下特征值、特征向量的定义指的是什么,然后再来解释为什么特征值、特征向量会是运动的速度和方向。

    1 几何意义
    说明下,因为线性变换总是在各种基之间变来变去,所以我下面画图都会把作图所用的基和原点给画出来。
    i,ji→,j→下面有个vv→
    随便左乘一个矩阵AA,图像看上去没有什么特殊的:
    我调整下vv→的方向,图像看上去有点特殊了:
    可以观察到,调整后的vv→AvAv→在同一根直线上,只是AvAv→的长度相对vv→的长度变长了。
    此时,我们就称vv→AA的特征向量,而AvAv→的长度是vv→的长度的λλ倍,λλ就是特征值。
    从而,特征值与特征向量的定义式就是这样的:
    其实之前的AA不止一个特征向量,还有一个特征向量:
    容易从AvAv→相对于vv→是变长了还是缩短看出,这两个特征向量对应的特征λλ值,一个大于1,一个小于1。
    从特征向量和特征值的定义式还可以看出,特征向量所在直线上的向量都是特征向量:
    你可以自己动手试试,可以改变vv→的位置,以及矩阵AA的值(特征空间会随着矩阵改变而改变):
    GeoGebra Loading ...
    Created with GeoGebra
    其中有些值构成的矩阵没有画出特征空间,可能是因为它的特征值、特征向量是复数,也可能是不存在。
    下面就要说下,特征值、特征向量与运动的关系

    2 运动的速度与方向
    2.1 从调色谈起
    我有一管不知道颜色的颜料,而且这管颜料有点特殊,我不能直接挤出来看颜色,只能通过调色来观察:
    为了分辨出它是什么颜色(记得它只能通过调色来辨别):
    因为反复混合之后,这管颜料的特征就凸显了出来,所以我们判断,这管颜料应该是蓝色。
    说这个干什么?矩阵也有类似的情况。
    2.2 矩阵的混合
    一般来说,矩阵我们可以看作某种运动,而二维向量可以看作平面上的一个点(或者说一个箭头)。对于点我们是可以观察的,但是运动我们是不能直接观察的。
    就好像,跑步这个动作,我们不附加到具体的某个事物上是观察不到的,我们只能观察到:人跑步、猪跑步、老虎跑步、......,然后从中总结出跑步的特点。
    就好像之前举的不能直接观察的颜料一样,要观察矩阵所代表的运动,需要把它附加到向量上才观察的出来:
    似乎还看不出什么。但是如果我反复运用矩阵乘法的话:
    就像之前颜料混合一样,反复运用矩阵乘法,矩阵所代表的运动的最明显的特征,即速度最大的方向,就由最大特征值对应的特征向量展现了出来。
    至于别的特征值对应的是什么速度,我后面会解释,这里先跳过。
    可以自己动手试试,我把λλ值也标注出来了,可以关注下最大λλ值对于运动的影响:
    GeoGebra Loading ...
    Created with GeoGebra
    顺便说下,对于复数的特征值、特征向量,在上面就没有画出特征空间,但可以观察到反复运用矩阵乘法的结果是围绕着原点在旋转。关于复数特征值和特征向量这里就不展开来说了。
    2.3 烧一壶斐波那契的水
    上面说的运动太抽象了,我来举一个具体点的例子:烧水。
    比如说我想烧一壶水,水的温度按照斐波那契数列升高,即下一秒的温度Tt+1Tt+1与当前温度TtTt以及上一秒的温度Tt1Tt−1的关系为:
    Tt+1=Tt+Tt1Tt+1=Tt+Tt−1
    要继续计算下去,我只需要Tt+1Tt+1以及TtTt就可以继续算下去。因此我可以写成下面的式子:
    [Tt+1Tt]=[1110][TtTt1][Tt+1Tt]=[1110][TtTt−1]
    因此烧水这个运动我们可以抽象为矩阵A=[1110]A=[1110],反复进行这个运动就可以烧开这壶水,根据斐波那契数列,让我们从[11][11]点开始(感兴趣的话,可以通过之前的互动调整下参数,可以得到下面的结果):
    就可以看出,这壶水的温度会沿着AA的特征值最大的特征向量方向飞快增长,我估计要不了多久,在理想的情况下,温度就会突破百万度、千万度、亿万度,然后地球说不定就爆炸了。我们就说这个矩阵不稳定。
    所以说,不要烧斐波那契的水。
    实际上历史也是这样,欧拉在研究刚体的运动时发现,有一个方向最为重要,后来拉格朗日发现,哦,原来就是特征向量的方向。
    我们知道特征值、特征向量有什么特点之后,下一步就想知道,为什么会这样?

    3 特征值分解
    下面讲解要用到矩阵乘法和相似矩阵的知识,我就不啰嗦了,可以参看我的回答: 行列式的本质是什么? 以及 相似矩阵是什么?
    我们知道,对于矩阵AA可以对角化的话,可以通过相似矩阵进行下面这样的特征值分解:
    A=PΛP1A=PΛP−1
    其中ΛΛ为对角阵,PP的列向量是单位化的特征向量。
    说的有点抽象,我们拿个具体的例子来讲:
    对于方阵而言,矩阵不会进行纬度的升降,所以矩阵代表的运动实际上只有两种:
    • 旋转
    • 拉伸
    最后的运动结果就是这两种的合成。
    我们再回头看下刚才的特征值分解,实际上把运动给分解开了:
    我们来看看在几何上的表现是什么,因此相似矩阵的讲解涉及到基的变换,所以大家注意观察基:
    左乘P=22222222P=[−22222222]
    如果旋转前的基不正交,旋转之后变为了标准基,那么实际会产生伸缩,所以之前说的正交很重要。
    继续左乘对角矩阵Λ=[3001]Λ=[3001]
    相当于,之前的旋转指明了拉伸的方向,所以我们理解了:
    • 特征值就是拉伸的大小
    • 特征向量指明了拉伸的方向
    回到我们之前说的运动上去,特征值就是运动的速度,特征向量就是运动的方向,而其余方向的运动就由特征向量方向的运动合成。所以最大的特征值对应的特征向量指明了运动速度的最大方向。
    但是,重申一下,上面的推论有一个重要的条件,特征向量正交,这样变换后才能保证变换最大的方向在基方向。如果特征向量不正交就有可能不是变化最大的方向,比如:
    所以我们在实际应用中,都要去找正交基。但是特征向量很可能不是正交的,那么我们就需要奇异值分解了,这里就不展开了。
    大家可以再回头去操作一下之前的动图,看看不正交的情况下有什么不一样。
    左乘P1=22222222P−1=[−22222222]
    说明下,如果大家把这个文章和之前提到的我写的“相似矩阵”的文章参照来看的话,“相似矩阵”那篇文章里面我把图像的坐标系换了,所以看着图像没有变换(就好像直角坐标系到极坐标系下,图像是不会变换的)。而这里我把图像的坐标系给旋转、拉伸了,所以看着图像变换了(就好像换元,会导致图像变换)。这其实是看待矩阵乘法的两种视角,是等价的,但是显示到图像上就有所不同。

    4 特征值、特征向量的应用
    4.1 控制系统
    之前的烧水系统是不稳定的。
    λ=1λ=1的,系统最终会趋于稳定:
    4.2 图片压缩
    比如说,有下面这么一副512×512512×512的图片(方阵才有特征值,所以找了张正方形的图):
    这个图片可以放到一个矩阵里面去,就是把每个像素的颜色值填入到一个512×512512×512AA矩阵中。
    根据之前描述的有:
    A=PΛP1A=PΛP−1
    其中,ΛΛ是对角阵,对角线上是从大到小排列的特征值。
    我们在ΛΛ中只保留前面50个的特征值(也就是最大的50个,其实也只占了所有特征值的百分之十),其它的都填0,重新计算矩阵后,恢复为下面这样的图像:
    效果还可以,其实一两百个特征值之和可能就占了所有特征值和的百分之九十了,其他的特征值都可以丢弃了。

    展开全文
  • 如何理解矩阵特征值

    万次阅读 2016-05-19 12:31:15
    李浩 ,FPA蓝色 / EE。...特征值在很多领域应该都有自己的用途,它的物理意义到了本科高年级或者研究生阶段涉及到具体问题的时候就容易理解了,刚学线性代数的话,确实抽象。 ——————————————————
    李浩 ,FPA蓝色 / EE。
    知乎用户、Tavion Fu雄哼哼 等人赞同
    未知 ,EE狗一条……
    知乎用户、Jerry Zhang张序 等人赞同
    Duanex ,电气工程,科幻迷
    燕南 ,物理学博士、愛好应用数学、读过一些纯数…
    郑梓豪 ,CS224d 学习中...
    张序啦啦知乎用户 等人赞同  收录于 编辑推荐
    江磊 ,大众点评码农
    Gilbert ,you know nothing
    董豪晨 ,做更好的算法
    黄苍杰 赞同
    单英晋 ,数学门外汉
    九铭书记 ,知道一点微末的数学知识,一直想还原有趣…
    李勇 赞同
    KevinSun ,机器学习博士在读,只关注神经网络方法!
    闫星光 ,这个定理的证明将留给读者作为练习
    知乎用户 ,随风奔跑自由是方向
    啦啦兔小灰知乎用户 赞同
    张涵 ,NLP/ML/ECG
    一碗酱油 赞同
    展开全文
  • 毕业多年,曾经有同事问我该如何理解特征值的意义?当时,实在羞愧,我一学数学的,真不知该如何回答。极力回想,也只能以“特征值的求法、步骤...bla...bla...”应付了事,答非所问,简直了得!这样的答案教科书里...
  • [矩阵计算]求解矩阵特征值的QR方法

    千次阅读 2016-07-29 05:45:00
    更新: 28 JUL 2016 求矩阵特征值问题的重要性自不待言,在此仅举一例,即在量子力学中解$\textbf{HC}=E\textbf{C}$特征方程求本征值(能量)和本征矢。本人目的就在于此,求矩阵特征值是一个总体思路。然而实际上...
  • 在数列、微分方程、矩阵三个不同的领域中都见到了“特征值”这个名字,难道仅仅是因为他们都刻画了问题的特征吗?当时我想,一定不是的。或许这些特征值是同一个特征值。因为本人水平较低,这个...
  • 第8章 矩阵特征值问题计算

    千次阅读 2012-06-05 21:59:08
    矩阵特征值问题计算 8.1 引 言 物理、力学和工程技术中的很多问题在数学上都归结为求矩阵特征值问题。例如,振动问题(大型桥梁或建筑物的振动、机械的振动、电磁振荡等),物理学中某些临界值的确定...
  • 从机器学习、量子计算、物理到许多数学和工程的问题,都可以通过找到一个矩阵特征值和特征向量来解决。根据定义(标量λ、向量v是特征值、特征向量A):视觉上,Av与特征向量v位于同一直线上。这里有些例子。然而,Ax...
  • c++使用Eigen库计算矩阵特征值

    千次阅读 2018-06-15 20:48:05
    下面的例子是计算矩阵特征值特征向量,并把特征向量矩阵实部和虚部分开。 #include <iostream> #include <Eigen/Dense> using namespace std; using namespace...
  • 如何理解特征值复数的情况

    万次阅读 多人点赞 2019-10-03 13:49:58
    如何理解特征值复数的情况 特征值与特征向量 特征值定义为,若有Ax=λxAx=\lambda xAx=λx,则称xxx为AAA的特征向量,λ\lambdaλ为相应的特征值。这时我们可以发现,如果λλλ是实数,那么矩阵AAA对向量xxx的...
  • 复数矩阵和快速傅里叶变换

    千次阅读 2014-07-30 10:44:41
    有时实矩阵会有复数特征值,当特征值变成复数时,特征向量也会变成复数,傅里叶矩阵是复矩阵里最重要的例子。先来讨论一般的复向量和复矩阵,如果给定复向量 , 则其不再属于Rn,而属于n维复空间Cn,z中每个元素都...
  • 若同阶矩阵A B的特征值之一分别为x ,y那么A+B的特征值是不是有一个为x+y答:特征值的个数不一定只有一个,故一般说A的特征值之一为x,或x是A的一个特征值,或x是A的特征值之一。因此我将题目略作了修改,同意不?...
  • 矩阵特征值分解

    千次阅读 2020-07-06 11:22:43
    特征值分解 物理意义: 矩阵可以表示一种变换; 特征向量表示矩阵变换的方向; 特征值表示矩阵变换在对应特征向量方向上的变换速度; 特征值与特征向量 ...从而,特征值与特征向量的定义式就是这样的:
  • 按照特征值定义: A =λλ - A = (λI-A) = 其中 I 表示单位矩阵。按照特征值定义, 不能是零向量。按照克莱姆法则,若|λI-A|≠0,则 必然是零向量。所以|λI-A|=0。不妨设 ,显然 即 = 0求特征值,可以把 λ ...
  • 毕业多年,曾经有同事问我该如何理解特征值的意义?当时,实在羞愧,我一学数学的,真不知该如何回答。极力回想,也只能以“特征值的求法、步骤...bla...bla...”应付了事,答非所问,简直了得!这样的答案教科书里...
  • 矩阵特征值和特征向量【转】

    千次阅读 2015-04-21 14:35:21
    第五章 矩阵特征值和特征向量 来源:线性代数精品课程组 作者:线性代数精品课程组 1.教学目的和要求: (1) 理解矩阵特征值和特征向量的概念及性质,会求矩阵特征值和特征向量. (2) 了解相似矩阵的概念...
  • 矩阵特征值和特征向量特征值的理解特征值 、特征向量、方阵的关系几何意义物理意义特征分解特征值和特征向量的含义的应用补充一点 特征值的理解 其实刚上大学的时候上的线性代数课上,也只是简单讲解了特征值和...
  • 矩阵特征值和特征向量 1.教学目的和要求: (1) 理解矩阵特征值和特征向量的概念及性质,会求矩阵特征值和特征向量. (2) 了解相似矩阵的概念、性质及矩阵可相似对角化的充分必要条件,会将矩阵化为...
  • 线性代数之——复数矩阵

    千次阅读 2019-11-29 14:00:52
    即使矩阵是实的,特征值和特征向量也经常会是复数。 1. 虚数回顾 虚数由实部和虚部组成,虚数相加时实部和实部相加,虚部和虚部相加,虚数相乘时则利用 i2=−1i^2=-1i2=−1。 在虚平面,虚数 3+2i3+2i3+2i 是位于...
  • 、求广义逆的奇异值分解法、约化对称矩阵为对称三对角阵的豪斯荷尔德变换法、实对称三对角阵的全部特征值与特征向量的计算、约化一般...矩阵特征值与特征向量的雅可比法、求实对称矩阵特征值与特征向量的雅可比过关法等...
  • //获取矩阵特征值 2*1 MatrixXd D_temp,D;//注意这里定义的MatrixXd里没有c D_temp = evals.real();//获取特征值实数部分 D = D_temp.asDiagonal(); cout ; cout ; //D cout ; //D MatrixXf::Index evalsMax; B....
  • 深入理解矩阵特征值和特征向量

    万次阅读 2019-09-16 16:29:40
    原 【数学基础】矩阵的特征向量、特征值及其含义 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,799
精华内容 1,919
关键字:

复数矩阵的特征值定义