精华内容
下载资源
问答
  • 特征值
    千次阅读
    2021-06-23 16:14:46

    特征值

    特征值及一些基本概念

    特征值:设A为n阶方阵,λ为变量,把 ∣ λ E − A ∣ = 0 |\lambda E-A|=0 λEA=0的根称为A的特征值(又称为特征根),其中单根称为单特征根;重根称为重特征根

    对角矩阵和三角形矩阵的特征值就是他们的对角元

    特别地,实方阵的特征值不一定都是实数,也可能是复数

    特征向量:设 λ i \lambda_i λi是A的特征值,则齐次线性方程组 ( λ i E − A ) x = 0 (\lambda_i E-A)x=0 (λiEA)x=0的非零解向量称为A的对应于(或属于) λ i \lambda_i λi的特征向量

    特征方程 ∣ λ E − A ∣ = 0 |\lambda E-A|=0 λEA=0称为A的特征方程

    求A的特征向量步骤:

    1. 写出A的特征方程并求A的特征根
    2. 将特征根带入特征方程,求其通解
    3. 减去通解中的零向量,剩下的就是A的特征向量

    :n阶方阵A的n个对角元之和,记作tr(A)

    特征多项式:特征方程的左半部分 ∣ λ E − A ∣ |\lambda E-A| λEA称为矩阵A的特征多项式,令其等于0即可得到特征方程

    特征向量的性质

    1. n阶方阵A在复数域中有且只有n个特征值(k重特征值看作k个)

    2. 若n阶方阵A的特征值为 λ 1 , λ 2 , ⋯   , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,,λn,则:

      1. λ 1 + λ 2 + ⋯ + λ n = t r ( A ) \lambda_1+\lambda_2+\cdots+\lambda_n=tr(A) λ1+λ2++λn=tr(A)
      2. λ 1 λ 2 ⋯ λ n = ∣ A ∣ \lambda_1 \lambda_2 \cdots \lambda_n=|A| λ1λ2λn=A
    3. 方阵A可逆 ⇔ \Leftrightarrow A的特征值都不为0,且 ∣ A ∣ ≠ 0 |A|\neq0 A=0

    4. 设A为n阶方阵,有

      λ \lambda λ是A的特征值且p是 λ \lambda λ对应的特征向量 ⇔ \Leftrightarrow λ \lambda λ和n元非零向量p满足 A p = λ p Ap=\lambda p Ap=λp

      表明:λ和A在“特征”方面呈现出等价的特性

      该特性可用于定义方阵的特征值及其特征向量

      若λ是方阵A的特征值,p是对应的特征向量,k是正整数,则 λ k \lambda^k λk A k A^k Ak的特征值,p仍是对应的特征向量

      A k p = λ k p A^k p=\lambda^k p Akp=λkp

      若λ是可逆矩阵A的特征值,p是对应的特征向量,则 λ − 1 \lambda^{-1} λ1 ∣ A ∣ λ − 1 |A|\lambda^{-1} Aλ1分别是 A − 1 A^{-1} A1 A ∗ A^* A的特征值,p仍是对应的特征向量

      除了以上结论,还有

      ( λ + 1 ) (\lambda +1) (λ+1) ( A + E ) (A+E) (A+E)的特征值

      E E E的特征值为1

      E n E_n En有n重特征值是1

      推广得:

      方阵满足某个矩阵方程 F ( A ) = 0 F(A)=0 F(A)=0,则A的特征值只能是这个矩阵方程对应解的特征根之中的值

      若λ是A的特征值,p是λ对应的特征向量,则 F ( λ ) = k m λ m + ⋯ + k 1 λ + k 0 F(\lambda)=k_m \lambda^m +\cdots+k_1 \lambda +k_0 F(λ)=kmλm++k1λ+k0 F ( A ) = k m A m + ⋯ + k 1 A + k 0 E F(A)=k_m A^m+\cdots+k_1A+k_0E F(A)=kmAm++k1A+k0E的特征值,p仍是其对应的特征向量

    5. 方阵A与AT的特征值相同

    6. λ 1 , λ 2 , ⋯   , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,,λn是方阵A的互异特征值,它们分别对应的特征向量 p 1 , p 2 , ⋯   , p n p_1,p_2,\cdots,p_n p1,p2,,pn一定线性无关

      互异特征根对应的特征向量线性无关

    7. λ 1 , λ 2 , ⋯   , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,,λn是方阵A的互异特征根, p i 1 , p i 2 , ⋯   , p i r i p_{i1},p_{i2},\cdots,p_{ir_i} pi1,pi2,,piri λ i ( i = 1 , 2 , ⋯   , m ) \lambda_i(i=1,2,\cdots,m) λi(i=1,2,,m)对应的线性无关的特征向量,则 p 11 , p 12 , ⋯   , p 1 r i , ⋯   , p m 1 , p m 2 , ⋯   , p m r m p_{11},p_{12},\cdots ,p_{1r_i},\cdots,p_{m1},p_{m2},\cdots,p_{mr_m} p11,p12,,p1ri,,pm1,pm2,,pmrm线性无关

      对于一般的向量组,如果各部分都线性无关,则合并起来不一定线性无关,这里的线性无关是特征向量独有的性质

    相似矩阵

    相似:设A、B为n阶方阵,如果存在n阶可逆矩阵P,使得 P − 1 A P = B P^{-1}AP=B P1AP=B,则称A与B相似, P − 1 A P P^{-1}AP P1AP称为对A进行相似变换,P称为相似变换矩阵。如果相似变换矩阵P是正交矩阵,则称A与B正交相似,对应地相似变换称为正交相似变换

    与等价矩阵的区别:

    • 两个相似矩阵一定等价;但两个等价矩阵不一定相似

    • 相似矩阵必须是方阵,但等价矩阵不一定都是方阵

    相似矩阵具有以下性质:

    1. 若A与B相似,则Ak与Bk相似(k为正整数)
    2. 若A与B相似,则A与B的特征多项式、特征值、行列式与迹均相同

    相似对角化

    对角矩阵主对角线之外的元素皆为0的矩阵

    用diag(a,b,c,…,n)表示,其中a,b,c,…,n都是对角线上的值

    如果矩阵A能与对角矩阵相似,则称A可相似对角化,当A可相似对角化时,与A相似的对角矩阵叫做A的相似标准型

    基本特征:如果A相似于对角矩阵,那么这个对角矩阵的所有对角元为A的全部特征值;不是所有方阵都能相似对角化

    相似对角化的判定条件:

    1. n阶方阵A可相似对角化的充要条件是A有n个线性无关的特征向量

      用来把A相似对角化的相似变换矩阵P是以A的n个线性无关的特征向量为列构成的矩阵,所化为的对角矩阵B的对角元恰为A的n个特征值,并且特征值在B中的排列与特征向量在P中的排列次序相对应

      求解时要注意一定要化成行最简矩阵在设自由未知量,P的构造不唯一

      方阵A的每个特征值所对应的线性无关特征向量的个数一定小于或等于它的重数

    2. 若n阶方阵A的特征值都是单特征值,则A可相似对角化

    3. n阶方阵A可相似对角化的充要条件是A的每个特征值所对应的线性无关特征向量的个数恰好等于其重数

    4. n阶方阵A可相似对角化的充要条件是每个特征值λi都满足 r ( λ i E − A ) = n − n i r(\lambda_i E-A)=n-n_i r(λiEA)=nni,其中ni为λi的重数

      讨论方阵A是否可以相似对角化时,但特征值不需讨论

    5. 实对称矩阵都可以相似对角化,并且可以用正交相似变换将其相似对角化

    共轭矩阵

    把复矩阵 A = [ a i j ] m × n A=[a_{ij}]_{m \times n} A=[aij]m×n中的每个元素用其共轭复数代替所得矩阵叫做A的共轭矩阵,记作 A ‾ = [ a ‾ i j ] m × n \overline{A}=[\overline{a}_{ij}]_{m \times n} A=[aij]m×n

    显然,A为实矩阵 <=> A ‾ = A \overline{A}=A A=A

    共轭矩阵具有如下性质:

    • 可逆律: A ‾ ‾ = A \overline{\overline{A}}=A A=A

    • 分配律: A + B ‾ = A ‾ + B ‾ \overline{A+B}=\overline{A}+\overline{B} A+B=A+B

    • 结合律: A B ‾ = A ‾ ⋅ B ‾ \overline{AB}=\overline{A} \cdot \overline{B} AB=AB

    • k A ‾ = k ‾ ⋅ A ‾ \overline{kA}=\overline{k} \cdot \overline{A} kA=kA

    • A T ‾ = A ‾ T \overline{A^T}=\overline{A}^T AT=AT

    • x与x共轭的内积一定不小于0: x ‾ T x ≥ 0 \overline{x}^T x \ge 0 xTx0,当 x ≠ 0 x\neq0 x=0时, x ‾ T x > 0 \overline{x}^T x \gt 0 xTx>0

      补充:内积 ( x ‾ , x ) (\overline{x},x) (x,x)可以用 x ‾ T x \overline{x}^T x xTx表示

    特别地, λ ‾ P ‾ T P = λ P ‾ T P \overline{\lambda}\overline{P}^TP=\lambda\overline{P}^TP λPTP=λPTP,则 λ ‾ = λ \overline{\lambda}=\lambda λ=λ

    实对称矩阵的性质

    对称矩阵: A T = A A^T=A AT=A

    反称矩阵: A T = − A A^T=-A AT=A

    1. 实对称矩阵A的特征值都是实数

      A = A T = A ‾ T = A T ‾ A=A^T=\overline{A}^T=\overline{A^T} A=AT=AT=AT

    2. λ i \lambda_i λi是实对称矩阵A的特征值,则 λ i \lambda_i λi为实数, λ i E − A \lambda_i E-A λiEA为实矩阵, ( λ i E − A ) x = 0 (\lambda_i E-A)x=0 (λiEA)x=0的基础解系,即 λ i \lambda_i λi对应的特征向量可取为实向量

    3. 实对称矩阵A的相异特征值λ和μ分别对应的特征向量p和q一定正交

    4. 实对称矩阵都可以相似对角化,并且可以用正交相似变换将其相似对角化

    5. 对于任意n阶实对称矩阵A,都存在正交矩阵Q,使得 Q − 1 A Q = d i a g ( λ 1 , λ 2 , ⋯   , λ n ) Q^{-1}AQ=diag(\lambda_1,\lambda_2,\cdots,\lambda_n) Q1AQ=diag(λ1,λ2,,λn),其中 i = 1 , 2 , ⋯   , n i=1,2,\cdots,n i=1,2,,n是A的特征值

      特别注意:这条性质是线性代数的核心性质之一

    6. 实对称矩阵的每个特征值所对应的线性无关特征向量的个数恰好等于其重数

    7. 两个同阶的实对称矩阵相似的充要条件是它们具有相同的特征值

      特征值反映了矩阵在“不变性”方面的核心性质

    8. 实对称矩阵A的非零特征值的个数等于其秩r(A)

    9. 将实对称矩阵的k(k>=2)重特征根λi对应的k个线性无关的特征向量正交化后得到的k个向量还是λi对应的特征向量,因为二者等价

    实对称矩阵的相似对角化特性

    实对称矩阵都可以相似对角化,并且可以用正交相似变换将其相似对角化

    一般的实方阵不具有实对称矩阵这样的性质,只能保证特征向量线性无关,需要使用施密特正交化来获得正交的特征向量

    这是实对称矩阵独有的性质

    若A不是实对称矩阵,不能使用正交相似变换将A化为对角矩阵

    正交相似变换矩阵的求法

    1. 实对称矩阵A的特征值都是单特征值时

      1. 求出每个特征值对应的方程组 ( λ i E − A ) x = 0 (\lambda_i E-A)x=0 (λiEA)x=0的基础解系(λi对应线性无关的特征向量)
      2. 将它们单位化,得到A的两两正交的单位特征向量
      3. 将这些特征向量作为Q的列向量
      4. Q就是所求的正交相似变换矩阵
    2. 实对称矩阵A有重特征值时

      1. 求出A的全部特征值

      2. 分别求出不同特征值对应的方程组 ( λ i E − A ) x = 0 (\lambda_i E-A)x=0 (λiEA)x=0的基础解系(λi对应线性无关的特征向量)

      3. 将它们正交化

        注意正交化是对各个特征值 λ i \lambda_i λi所对应的线性无关的特征向量分别进行的

      4. 将正交化的基础解系单位化

      5. 将得到的特征向量作为Q的列向量

      6. Q就是所求的正交相似变换矩阵

    相似对角化特征向量的组合问题

    若方阵A可相似对角化,有特征值 λ 1 = λ 2 ≠ λ 3 \lambda_1=\lambda_2\neq\lambda_3 λ1=λ2=λ3

    对应特征向量P= [ P 1 , P 2 , P 3 ] [P_1,P_2,P_3] [P1,P2,P3]

    可对A进行相似对角化: P − 1 A P = d i a g ( λ ) P^{-1}AP=diag(\lambda) P1AP=diag(λ)的情况如下:

    • P ′ = [ P 1 , P 1 + P 2 , P 3 ] P'=[P_1,P_1+P_2,P_3] P=[P1,P1+P2,P3] P − 1 A P = d i a g ( λ ) P^{-1}AP=diag(\lambda) P1AP=diag(λ)成立
    • P ′ ′ = [ P 1 , P 2 + P 3 , P 3 ] P''=[P_1,P_2+P_3,P_3] P=[P1,P2+P3,P3],不再有 P − 1 A P = d i a g ( λ ) P^{-1}AP=diag(\lambda) P1AP=diag(λ)
    • P ′ ′ ′ = [ k 1 P 1 + k 2 P 2 , k 3 P 2 + k 4 P 1 , k 5 P 3 ] P'''=[k_1 P_1+k_2P_2,k_3P_2+k_4P_1,k_5P_3] P=[k1P1+k2P2,k3P2+k4P1,k5P3] P − 1 A P = d i a g ( λ ) P^{-1}AP=diag(\lambda) P1AP=diag(λ)一直成立

    重点在于相似变换矩阵P中的组成列向量之间不能线性相关

    特征值和相似对角化的深入理解

    特征值

    特征值的另一种定义:A是n阶矩阵,λ是一个数,若存在n维非零列向量ξ,使得Aξ=λξ,则称λ是A的特征值,ξ是A的对应于特征值λ的特征向量

    由这个定义可以反推出特征方程|λE-A|=0,它的根就是特征值,也称为特征根,λE-A称为特征矩阵,|λE-A|称为特征多项式

    特征值具有以下性质:

    1. ∑ i = 1 n λ i = ∑ i = 1 n a i i \sum_{i=1}^n \lambda_i=\sum_{i=1}^n a_{ii} i=1nλi=i=1naii
    2. Π i = 1 n λ i = ∣ A ∣ \Pi_{i=1}^n \lambda_i=|A| Πi=1nλi=A
    3. k重特征值至多有k个对应的线性无关的特征向量
    4. 两个属于同一特征值的特征向量的线性组合仍是属于同一特征值的特征向量
    5. 两个属于不同特征值的特征向量之间线性无关
    6. 对角矩阵、上下三角形矩阵的特征值就是对角线元素

    求特征值的方法

    1. 通过特征方程 ∣ λ E − A ∣ = 0 |\lambda E-A|=0 λEA=0
    2. 通过 A ξ = λ ξ A\xi =\lambda \xi Aξ=λξ

    相似矩阵

    若存在n阶可逆矩阵P,使得n阶方阵A、B满足 P − 1 A P = B P^{-1}AP=B P1AP=B,则称A与B相似

    矩阵相似 ⇒ \Rightarrow 矩阵等价

    反之不一定成立

    相似矩阵的性质

    若A和B矩阵相似,则有以下结论:

    • 二者等秩 r ( A ) = r ( B ) r(A)=r(B) r(A)=r(B)
    • 二者等行列式 ∣ A ∣ = ∣ B ∣ |A|=|B| A=B
    • 二者等特征值
    • ∣ λ E − A ∣ = ∣ λ E − B ∣ |\lambda E-A|=|\lambda E-B| λEA=λEB
    • A m A^m Am B m B^m Bm相似, f ( A ) f(A) f(A) f ( B ) f(B) f(B)相似(其中f(x)为多项式)
    • 若有A可逆,则 A − 1 A^{-1} A1 B − 1 B^{-1} B1相似, f ( A − 1 ) f(A^{-1}) f(A1) f ( B − 1 ) f(B^{-1}) f(B1)相似(其中f(x)为多项式)

    以上结论反之不成立

    特别地,有

    • A1与B1相似,A2与B2相似,则有 A 1 A 2 A_1A_2 A1A2 B 1 B 2 B_1B_2 B1B2相似
    • P − 1 ( k 1 A 1 + k 2 A 2 ) P = k 1 P − 1 A 1 P + k 2 P − 1 A 2 P P^{-1}(k_1 A_1 + k_2 A_2)P=k_1 P^{-1}A_1 P+k_2 P^{-1}A_2 P P1(k1A1+k2A2)P=k1P1A1P+k2P1A2P

    可相似对角化的条件

    相似对角化:若存在可逆矩阵P,使得 P − 1 A P = Λ P^{-1}AP=\Lambda P1AP=Λ(Lambda),其中 Λ \Lambda Λ是对角矩阵,则称A可相似对角化, Λ \Lambda Λ是A的相似标准型

    n阶矩阵A可相似对角化的充要条件(满足一条即可):

    • A有n个线性无关的特征向量
    • A的每个k重特征值都有k个线性无关的对应特征向量

    如果n阶矩阵A有n个不同的特征值,对应A有n个线性无关的特征向量,则A可相似对角化

    核心结论:实对称矩阵必可相似对角化

    实对称矩阵的属于不同特征值的特征向量相互正交

    根据以上结论,可以推知n阶实对称矩阵的性质:

    • 必相似于对角矩阵

    • 必有n个线性无关的特征向量

    • 必正交相似于 Λ \Lambda Λ

      这个结论可以通过“必有可逆矩阵P,使得 P − 1 A P = Λ P^{-1}AP=\Lambda P1AP=Λ”和“必存在正交矩阵Q,使得 Q − 1 A Q = Q T A Q = Λ Q^{-1}AQ=Q^TAQ=\Lambda Q1AQ=QTAQ=Λ”来获得

    • 必合同于对角矩阵

      这个结论可通过上面的结论推知

    判别矩阵是否可相似对角化的基本方法

    1. 检查是否为实对称矩阵,若是则相似
    2. 检查特征值是否为实单根,若是则相似
    3. 检查特征根是否是k重根且对应有k个线性无关的特征向量,若是则相似

    必可相似对角化的矩阵

    • 实对称矩阵
    • n个特征值互异的n阶矩阵
    • 有n个线性无关特征向量的n阶矩阵
    • 每个r重特征值都对应有r个线性无关特征向量的矩阵

    典型问题:求使 P − 1 A P = Λ P^{-1}AP=\Lambda P1AP=Λ的可逆矩阵P

    若题式成立,则要求其中对角矩阵 Λ \Lambda Λ的对角元都是A的特征值,而P就是A的n个线性无关的特征向量,且特征向量 ξ i \xi_i ξi对应特征值 λ i \lambda_i λi

    这个问题就变成了求A的特征根和特征向量,然后把特征向量带入一个和A等阶的矩阵即可求出P

    用这个方法也可以解决“由特征值和特征向量反求A”的问题:

    一定存在可逆矩阵P,使得 P − 1 A P = Λ P^{-1}AP=\Lambda P1AP=Λ,这就可以求出 A = P Λ P − 1 A=P\Lambda P^{-1} A=PΛP1

    于是问题可以分解成:1. 使用特征向量求出P;2. 使用已知的特征值求出 Λ \Lambda Λ

    在正交矩阵的情况下可以用转置矩阵 P T P^T PT代替 P − 1 P^{-1} P1

    更多相关内容
  • 特征值和特征向量可能是线性代数中最重要的概念之一。从机器学习、量子计算、物理到许多数学和工程的问题,都可以通过找到一个矩阵的特征值和特征向量来解决。根据定义(标量λ、向量v是特征值、特征向量A):视觉上,...
    e6303f6fbe4bd4394cceeb124348d677.png

    特征值和特征向量可能是线性代数中最重要的概念之一。从机器学习、量子计算、物理到许多数学和工程的问题,都可以通过找到一个矩阵的特征值和特征向量来解决。

    根据定义(标量λ、向量v是特征值、特征向量A):

    d35c642139cd452ba9d199fd89cda929.png

    视觉上,Av与特征向量v位于同一直线上。

    8722c30179670a409db85946ff536720.png

    这里有些例子。

    0aa47847e216d3b9c7ff19f69e7b96ac.png

    然而,Ax通常不会等于λx。只有一些特殊的向量满足条件。

    应用

    许多问题可以用线性变换建模,其中解决方案来自特征值和特征向量。让我们先用一个抽象的例子来详细说明这个问题。在许多系统中,我们可以在向量中表达属性,其变化率线性地取决于当前属性(例如,人口增长率线性地取决于当前人口和GDP)。一般等式是

    0c7bc17fafee832f9e3e6df49d153271.png

    我们来猜一下满足上面方程的u(t)。因为一个指数函数的导数等于它本身,我们从一个t的指数函数开始然后乘以一个向量x,输出就是一个向量。

    645af0324b28972ab69d77a8e5dba4fa.png

    根据上面的计算,u(t)的解是

    dc5eb72e7874e855742389160ecc33a8.png

    接下来,我们将找到它的完全解。一阶导数方程是一个线性函数。

    8280463a02ec7b762fe36d6215728b4c.png

    对于线性函数,完全解是特定解的线性组合。如果u和v是解,则C₁u + C₂v也是解。从我们之前的特征值λ= 4,-2和-2的例子中,完全解将是

    98e36c008ad78c40b034e94bee80f256.png

    在t = 0时,我们可以测量初始状态u(0),比如说[u₀₁,u₀₂,u₀₃]ᵀ,并求解常数C₁,C₂,C₃。

    45179e12451681ea65576040a549fb8c.png

    让我们用谐振子来说明这个想法。我们选择这个例子是因为谐波振荡器及其近亲(量子谐振子)在研究粒子物理学,量子力学或物理学方面几乎无处不在。我们从著名的F=ma方程开始用特征值和特征向量来解二阶导数。由于我们确实可以自由选择质量单位,物理学家通常设m = 1来简化讨论,即

    0ce7b5c3ef806dca2258496d4c17cd5c.png

    我们把谐振子问题重新写成矩阵的形式。

    fa1eaa3837aa353a4ce48d9dea09066a.png

    阻尼谐振子

    这与我们上一个例子的形式相同,因此,我们可以使用A的特征值和特征向量来形成完全解。

    这不是一个证明特征值能力的孤立例子。著名的定态(time-independent)薛定谔方程用特征值和特征向量表示。所有观察到的属性都是通过量子力学中的特征值建模的。还有很多其他的例子,包括机器学习。

    8f7e420581c5cb6fb0b06bd9d6d1d458.png

    从根本上说,许多系统都可以建模为

    41c769040ebdcf713653ae613ce75153.png

    让我们再研究时间序列模型。

    ee880ef1a3e0c2a5219ca0936475da97.png

    首先,我们假设初始状态u 0是A的特征向量。因此,未来状态可以计算为

    5f17433f0c0c5bed136820d291f91bfa.png

    简而言之,我们可以通过用标量的幂代替矩阵(Aᵏ)的幂来简化计算。 接下来,考虑A具有n个线性独立的特征向量,它们构成Rⁿ的basis 。 我们可以将Rⁿ的任何向量分解为该basis,并通过再次计算特征值的幂来简化计算。

    26a873caa38d6cd0ac4c59d24a0b8161.png

    让我们简化讨论,假设整个互联网只包含三个网页。矩阵A的元素Aᵢⱼ是当用户在页面j上时用户去页面i的概率。

    90762209fb13b5a77627406c3b9b8815.png

    如果我们总结给定特定页面的下一页的所有可能性,它等于1。因此,A的所有列总和为1.0,这种矩阵称为随机矩阵(转移矩阵或马尔可夫矩阵)。

    b22cb878784874b6d4c0c7b464e61c9c.png

    马尔可夫矩阵具有一些重要的性质。Ax或Aᵏx的结果总是其列相加的和为1。此结果表示每次点击后分别位于第1,2和3页的可能性。所以很明显它的和应该是1。

    59f02103261a6d4da7672c746dad1206.png

    任何马尔可夫矩阵A的特征值都是1,其他特征值(正或负)的绝对值都小于1。这种行为非常重要。在我们的例子中,

    4d51653ddeea4a496b0b7f427c9261b8.png

    对于马尔可夫矩阵,我们可以选择λ= 1的特征向量,使元素总和达到1.0。 元素总和为1的向量v也可以使用A的特征向量进行分解,其中c 1等于1。

    87ed649c3237c5a83911b4a7b10c69ae.png

    由于u 1,u 2,...和un是特征向量,所以Aᵏ可以用λᵏ代替。除了特征值λ= 1之外,马尔可夫矩阵的特征值(λᵏ)的幂将减小,因为这些特征值的绝对值小于1。 因此,无论初始状态如何,系统都达到接近特征向量u 1的稳态。 Aᵏ和稳态都可以从特征向量u 1导出,如下所示。

    d1d703f462ab9d7fdf3bf797bdf71a35.png

    在我们的例子中,我们到达第1、2和3页的概率分别是0.41、0.34和0.44。这个概念有许多潜在的应用。许多问题可以用马尔可夫过程和马尔可夫/转移矩阵来建模。

    b5b18e97d4c68679e3cdc3afef65a5c3.png

    马尔可夫过程和转移矩阵

    PageRank

    以谷歌联合创始人拉里佩奇命名的PageRanking算法也有类似的概念。它是第一个谷歌搜索排名算法,即使它现在经过大量修改,增加了排名算法,以改善用户体验并避免人们操纵系统。 核心概念可视化如下。PageRanking通过跟踪到其他页面的Web链接,输出您在随机游走后可能点击页面的概率分布。该概率充当网页的排名。当很多页面链接到您的网页时,谷歌会将它排序更高,因为链接到网页的页面数量是其受欢迎程度的指标。 这意味着在随机游走中点击页面的机会。

    从概念上讲,我们计算一个页面排名,它等于链接到这个页面的其他页面排名的总和,除以经过某种归一化后的出站页面总数。

    2530001868ef77657e005a193bd81b2f.png

    我们迭代地执行计算,直到它达到稳态。在数学上,PageRank尝试在以下等式中求解PageRank R.

    d239ad0c493f0a1a14e2025f84d0f33d.png

    这与我们之前讨论的例子有很大的相似之处,如果我们忽略阻尼因子d。引入这个因子是因为随机游走不会永远持续。

    对于Google,他们不直接计算特征向量。在我们前面的例子中,A的幂收敛得很快,A3的列已经收敛到本征向量u 1 。

    19ba845602841c5fcc74ee72adb7a9c1.png

    PageRank论文证明,有3.22亿个页面链接,该解决方案在52次迭代中收敛到一个可容忍的极限。

    马尔可夫矩阵使我们得到下面的方程,其中稳态依赖于一个主成分。

    bab7ac6f30ecfb7a00b02019c718c01e.png

    在机器学习中,信息与原始数据纠缠在一起。 在数学上,特征值和特征向量提供了识别它们的方法。 特征向量识别成分,特征值量化其重要性。 下面的等式将A中的信息分解为成分。 我们可以基于特征值的平方根对它们进行优先级排序,并忽略具有小α值的项。 这样可以降低噪声并帮助我们在A中提取核心信息。

    6b9b2d0574b30be3c81290edb1d11c1c.png

    希望你现在可以看到Ax =λx的美感。 特征值和特征向量可以通过求解(A-λI)v = 0来计算。对于Ax =λx,对于v = 0以外的解,矩阵(A-λI)是不可逆的。 即它是单数的。 即它的行列式是零。 det(A - λI)= 0称为特征多项式。 特征值是该多项式的根。

    d9895d59d221039503b140c5354a2afa.png

    20e3aee974ba44c25ea072bd7da06329.png

    特征值是:

    47dbc2f502312ba095ee5cc686ad2a1d.png

    应用Av =λv:

    5315c63e7709d1b594b13a0b8d5d3b3c.png

    让我们通过一个更复杂的例子详细说明这一步骤,

    1194efe90f1036b258ca42b6d9cf8c92.png

    要找到特征值λ,

    a917905087b1f89dd0929443cd5213dd.png

    16的可能因数是1 2 4 8 16。

    912e39bc04beb773d6819a37765b4d58.png

    让我们计算特征值λ= 4的特征向量,通过减少行。

    691241d15646c46f7cb20b94b9806a3c.png

    我们有三个变量,有2个方程。我们将x 3任意设置为1并计算其他两个变量。因此,对于λ= 4,特征向量是:

    a6773f04a47f8c74383b0511d0c9129c.png

    我们重复计算λ= -2并得到

    649a686644276edcbe1d2b000e0ce2b8.png

    通过3个变量和1个方程,我们的解决方案中有2个自由度。让我们在与其他(多个)时间设定为1〜自由之一的一个度为0而设定为X 2 = 1时,X 3 = 0,和X 2 = 0,X 3 = 1分开,所计算出的特征向量是:

    有3个变量和1个方程,解有2个自由度。让我们一次把一个自由度设为1,另一个自由度设为0。 即设置x 2 = 1,x 3 = 0,x 2 = 0,x 3 = 1,计算出的特征向量为:

    aa21a885c297f903558d73adb01e9fcc.png

    请注意,特征值和特征向量的解集不是唯一的。我们可以重新缩放特征向量。我们还可以为上面的x 2,x 3设置不同的值。因此,选择我们的特征向量以满足某些条件是可能的,也是可取的。例如,对于对称矩阵,总是可以选择具有单位长度并且彼此正交的特征向量。

    在我们的例子中,我们有一个重复的特征值“-2”。它生成两个不同的特征向量。然而,情况并非总是如此 - 有些情况下重复的特征值不具有多个特征向量。

    对角化

    假设矩阵A具有两个特征值和特征向量。

    f04eff28bf61340d3ff9c9d7981d250b.png

    我们可以将它们连接在一起并以矩阵形式重写方程式。

    df8aa0af1fce2ff90b8dd88873cb27a0.png

    我们可以将它推广到任意数量的特征向量:

    aec059fc496c3d30890ab337952d71f9.png

    其中V连接所有特征向量,Λ(λ的大写字母)是包含特征值的对角矩阵。

    da77f57eb2f2e60104704d6f6423bca7.png

    矩阵A一个是可对角化的(如果我们可以把它转换成一个对角矩阵),

    5754fa7439b5812a1b1d549b689948e7.png

    89f3cedd792b04d32f61c3a0e91cf516.png

    如果n×n矩阵具有n个线性独立的特征向量,则它是可对角化的。如果矩阵是对称的,则它是可对角化的。如果矩阵没有重复的特征值,它总是生成足够的特征向量来对向量进行对角化。如果没有,则无法保证。

    特征分解

    如果A是一个具有N个线性独立特征向量的矩形矩阵(v 1,v 2,...&vn和相应的特征值λ1,λ2,...和λn),我们可以重新排列

    4556f7d363e7d8ff92e37853a1f515c4.png

    0956d8af08608dd510b93eeb8adfb340.png

    例如,

    f579ae714021074f67d9f743d21f3c89.png

    特征值和特征向量的性质

    • Ax与特征向量x在同一直线上(方向相同或相反)。
    • 特征值的和等于矩阵的迹(对角元素的和)。
    • 特征值的乘积等于行列式。
    • 如果没有特征值重复,所有特征向量都是线性无关的。
    • 如果特征值是重复的,我们可能有也可能没有足够的线性无关的特征向量来对角化一个方阵。
    • 正特征值的数量等于正pivots的数量。
    • 对于Ax =λx,
    2a4e3e844eabfadb910adfd93e654474.png
    • 如果A是奇异的,它的特征值是0。可逆矩阵的所有特征值都是非零的。
    • 特征值和特征向量可以是复数。
    • 投影矩阵的特征值始终仅为1和0。反射矩阵的特征值为1和-1。

    可视化

    因为很难看到超过3个维度的任何东西。 此处的示例保留2维。 假设v 1和v 2是2×2矩阵A的线性无关特征向量。任何向量都可以在v 1和v 2方向上分解为components 。 当我们将A与特征向量相乘时,结果在特征向量的同一条线上。 如果特征值为正,则它将向量按特征值在相同方向上缩放。 否则,它会向相反方向缩放向量。

    1dec6b6c3e2970cdbf9bf91d57bada89.png

    因此,对于下面红色单位圆上的所有点,都将转换为椭圆上的点。但是对于非特征向量,它不会在原向量的同一条直线上。当我们继续将结果与A相乘时,结果会更接近特征向量。

    0afc05482ef93d5f8974e722eb8f68ac.png

    在这种可视化中有一件非常重要的事情。变换后的单位向量(Ax)的最大范数(长度)小于或等于最大特征值。另一方面,范数大于或等于最小特征值,即

    2fe939fb008c4db5217cf00ce5c738a4.png

    事实上,这可以很容易地在下面看到。

    4e8693e68832f81782853aa4918b1cac.png

    目标或成本函数通常以xᵀAx的二次形式表示。假设m×n矩阵A保持n个主体的属性。AAᵀ保持这些属性之间的关系,这个矩阵S是对称的。

    893a23db4615e28a5e7c63677cfe5408.png

    特征值和特征向量可以帮助我们改变不同方向的特征。具有最大值的特征向量向我们显示这些属性之间的相关性。这些概念可以在SVD和PCA看到。

    展开全文
  • 线性代数学习之特征值与特征向量

    千次阅读 2021-10-22 17:02:44
    什么是特征值和特征向量: 在上一次线性代数学习之行列式 - cexo - 博客园学习了行列式相关的一些概念,其中也多次提到学好行列式是为了学习“特征值和特征向量”的基础,所以此次就正式进入这块内容的学习,也是...

    什么是特征值和特征向量:

    在上一次线性代数学习之行列式学习了行列式相关的一些概念,其中也多次提到学好行列式是为了学习“特征值和特征向量”的基础,所以此次就正式进入这块内容的学习,也是线性代数中非常重要的概念,因为它又是线性代数其它重要概念的基石比如矩阵的相似性等等,当然这一块的学习也是比较抽象的,得耐住性子一点点来挼,也是就一定得要慢!!!

    也是方阵的一个属性:

    在正式学习特征值和特征向量之前,先站在一个更高的角度来看一下它们是一个什么?在上一次学习行列式时就说它是方阵的一个属性:

    同样,对于特征值和特征向量也是方阵的一个属性,其实它们描述的是方阵的“特征”,而对于一个矩阵既可把它理解成变换又可以把它理解成一个空间,而对于特征值和特征向量更主要是用变换这个视角来看待方阵,当把方阵理解成一个变换的时候,这个变换就拥有一些特征,这些特征就被特征值和特征向量所表示,也就是说它是把方阵当成变换的时候的一个“特征”。

    下面具体来看一个矩阵:

    我们可以把它理解是二维空间的一组基,如下:

    同时它也可以表示这个基所对应的坐标系相应的一个坐标转换矩阵,所以如下:

    而这个矩阵可以任意一个点转换到另外一个位置,比如:

    可以把(1,4)这个蓝色的点转换成(-4,5)绿色的点,如下:

    当然这个转换可以理解是这个基和标准基之间的坐标转换,不管怎样,矩阵A是可以做到变换的,它可以把二维坐标中的任意一点通过一个固定的规则转换到另外一点,而在这个变换的过程中比较关心一些“特殊”的向量,比如说(2,2)这个向量,经转换的结果为:

    回到坐标系上来观察也就是对于蓝色的这根向量:

    经过矩阵A的转换之后则为(4,4)了,如绿色所示向量:

    这个转换有啥特点呢?原来的向量经过转换之后方向并没有变,区别只是转换后的这个向量是原来向量的常数倍而已,同理再来看一个转换:

    在坐标平面上看就是(2,1)这根蓝色的向量:

    经过矩阵A转换之后就变成了(6,3):

    同样是方向没有变, 只是过结果向量是原来向量的常数倍。

    也就是说对于一个矩阵A来说,我们对这样的向量比较感兴趣:在矩阵A的转换下得到的结果向量其方向并没有发生改变,只不过结果向量变为某一个向量的的常数倍了,用数学式子来表达这样的一个特点的话就是:

    其中“λ”读作“lambda兰姆达”,代表一个常数,其中它可为负数的,好,接下来就可以概念定义啦:

    其中λ称为A的特征值(eigenvalue)

    而u向量称为A对应于λ的特征向量(eigenvector)

    这概念还是挺难理解的,可以多多记一下。

    关于它们的用处,之后再见分晓,先有个概念上的理解。

    求解特征徝和特征向量:

    那对于

    这么个式子,特征值和特征向量具体是怎么求的呢?对于这个式子很显然我们关心2个未知数,一个是u特征向量,一个是λ这个特征值,所以要求解还是不容易的,不过这里先从最简单的情况看起。

    情况一:零向量平凡解:

    很显然,零向量肯定是满足上面等式的,把它叫做平凡解,但是很显然它不能反应A的特征呀,因为A不管是谁u向量是零向量都是解,所以,特征向量不考虑零向量

    那如果λ这个特征值为0呢?是不是也是平凡解?答案不是的!!!此时的式子就会为:

    而由于u向量不能为零向量,所以此式子就变成了一个齐次线性方程组了, 而对于它肯定存在非零解的,显然对于这种情况A是比较特殊的,如果A可逆的话,则这个齐次线性方程组只有零解,而由于u向量期望不是零解,很显然A是不可逆的,那么当λ=0是矩阵A的特征值,就意味着A不可逆,也就是λ这个特征值反映了矩阵A的特征了,所以:特征值可以为0

    所以要知道上述标红的:“特征向量不考虑零向量;特征值可以为0。

    情况二:非零量的非平凡解【需瞪大眼睛】:

    除了情况一,当然就是正常的求解过程了,下面来看一下如何推演出整个式子的特征值和特征向量的求解,对于这个式子:

    1、全挪到左边就为:

    2、将u向量提出来:

    对于等号左边的其实是可以将u向量提出来,但是一提出来,发现是一个矩阵A和一个常数λ,很明显不能做减法,所以此时在提之前需要先做一下变形,如下:

    因为单位矩阵可以充当数字1的作用嘛,所以此时就要提一把了,如下:

    3、找到方程的关键求解点:求行列式

    接下来就是对于上面变形的这个式子求非零解了:

    因为对于u向量来说不希望为零向量,因为特征向量是不考虑这种零向量的情况的,那怎么求这个非零解呢?此时又得将方阵的各种等价命题拿出来了,其中有一条:

    标红的这个命题,对于Ax=0如果只有唯一解,那么x=0,但是!!!我们期望的是Ax=0不只有唯一解,所以很显然我们要用的命题是这个标红命题的逆命题,而对于上述这么多方阵等价命题来说,就只有一个不是叙述性的命题,那就是:

    所以此时可以利用它的逆命题为我们推导解提供方便,也就是:"det(A)=0,A的行列式为0", 所以按照这个等价命题来看,是不是对于式子的求解又可以变成:

    此时也就是将特征值和特征向量的求解问题转化到上一次咱们学习的行列式上的求解上来了,这也就是为啥说行列式是进一步学习特征值和特征向量非常重要的基础的原因之所在了,而此时这个行列式的求解方程就只有一个未知数λ就可以进行方程的求解了,而且这个方程对于任意的一个A都是适用的,所以管这个A叫做“特征方程”,因为通过这个特征方程就可以求解出λ这个特征值了,而进一步将这个λ特征值就可以代入Au=λu求出特征向量u了。

    4、求特征向量进而最终求解特征值和特征向量:

    特征值:

    这里以这么一个方阵为例:

    对于这个行列式子:

    可以变为:

    对于上述变换不太清楚的可以回忆一下矩阵的乘法,一下就能明白了,这里不做过多解释,而回忆一下行列式的求解公式 :

    所以式子可以演变为:

    再根据因式分解,又可能变为:

    特征向量:

    知道了特征值之后,再代入这个式子就可以求得对应的特征向量:

    很显然有两个,具体如下:

    1、当λ1=2,就有:

    此时就是来求解这个线性系统了,先将它进行高斯约旦消元法为:

    那这个u的非零解是啥呢?这里可以回忆一下之前线性代数学习之向量空间,维度,和四大子空间 - cexo - 博客园求解矩阵的零空间的方法,提到零空间的基有这么一个规律:

    很显然此时的u的特征向量就可以求解如下了:

    2、当λ1=3,就有:

    类似的,其特征向量为:

    所以对于矩阵:

    它的特征值有两个:

    而它所对应的特征向量也有对应的两个:

    其中对于这两个特征向量,其实都是有无数个,因为有一个系数s对吧。

    特征值和特征向量的相关概念:

    1、对应一个λ的特征向量不唯一,有无数个:

    在上面求解特征值与特征向量也能看出这个特性:

    因为向量u有一个系数,可以随便取无数个值,对应的向量也就有无数个了。

    2、如果u是A对应于λ的一个特征向量,则ku也是一个特征向量。

    啥意思?也就是说一旦一个向量是特征向量了,那么给这个特征向量前面乘以一个系数,相应得到的结果向量还是一个特征向量, 当然此时需要限定一下:

    因为特征向量不能包括零向量,下面来证明一下:

    由于u已经是A对应于λ的一个特征向量了,所以此式子肯定是满足了:

    那下面就是来看一下它是否也满足:

    如果满足,那咱们这个特性也就得证了,下面来看一下其实很容易证明:

    这也证明了,一旦知道了λ是A的一个特征值的话,它所对应的特征向量一定是有无数个的。

    3、特征向量组成了A-λI零空间:特征空间

    其实关于“λ是A的一个特征值的话,它所对应的特征向量一定是有无数个的”还可以有另外一个思考的角度,如之前所示,当求解出了λ之后,再求解这个齐次线性系统所对应的非零解:

    很显然如果这个方程有唯一解的话肯定u就是零解,而由于u不能为零解,所以肯定此方程就不唯一,解肯定也就有无数个,另外也可以从之前学习的零空间的角度来看待这个问题,其实特征向量组成了A-λI零空间,回忆一下零空间的定义:

    而对于零空间,它是一个空间,并且对于这个空间不可能只含有0那一个元素,所以空间中一定就含有无数个元素,这是因为对于一个空间肯定能找到它的一组基,而一旦找到了一组基那么这组基下的所有线性组合都在这个空间中,而一组基对应的线性组合有无数个,也就是一旦λ确定了,相应的特征向量就有无数个,实际上这无数个特征向量就组成了(A-λI)的零空间,但是!!!这话说得不够严谨,因为任何一个空间都包含零空间,所以!!!这个零空间是需要刨除零向量的,所以:

    0向量以及λ对应的所有的特征向量并起来,就构成了A-λI的零空间了,接下来新概念就来了:

    也就是一个特征值所对应的所有的特征向量所组成的空间,然后再加上零向量本身形成的向量空间就是特征空间,简单来说就是(A-λI)的零空间。

    4、更多特征值

    简单特征值:

    在我们求解特征值和特征向量的时候,其实特征值是一个取决定性作用的一个属性,因为一旦特征值确定的话,相应的特征空间就确认了,在这个特征空间中有无数个特征向量,而这些特征向量都是这一个特征值所对应的特征向量,那下面就来看一下对于特征值它对应有哪些可能性。

    回忆一下在之前求解特征值和特征向量时,首先就是求出特征值λ,其求解办法就是转到求行列式上来:

    而它本身是一个关于λ的n次方程,其中n就是矩阵A的阶数,如果A是一个n阶方阵的话,那么λ有n个解【注意是在复数空间中】,下面还是拿之前求特征值和向量相关的矩阵为例子看一下,“λ有n个解”的含义:

    它是一个2【突出它是为了看之的特征值的解的个数也是为2】阶方阵对吧,而它所对应的特征方程为:

    此时就求得λ的解了,有2个解,分别为:

    这两个解均为实数,且各不相同,称之为简单特征值,那这个“简单”表现在哪在之后再来看,目前先有一个概念就是如果对于一个方阵来说,它的特征值都是实数且各不相同的话, 这种情况是最简单的。

    多重特征值:

    除了上面的简单特征值,还有其它两个非简单的特征值,首先第一种是特征值中有相同的情况,比如:

    看到木有,有2个特征值,但是呢是一样的值,而具体重复了几次有时也把它叫做重数,而对于咱们这个例子,如果一个矩阵A对应的特征方程求解出来两个解相同,值为1,我们就可以说这个矩阵A的特征值为1,而它的重数为2。

    复数特征值:

    有可能特征方程可能在实数范围里没有解,比如特征方程是一个关于λ的n次方程:

    当然有可能是这个样子的呀:

    也就是λ^2+1 = 0,很明显在实数范围里是无解的,但是!!!如果扩展到复数的范围就有解了,关于实数和复数的区别可以参考实数、虚数和复数_Never Limit-CSDN博客_实数和虚数,这个特征值也是有2个,为:

    关于复数特征值这里不会讨论,而对于多重特征值的情况也只是点到为止,也就是这俩特征值不重点讨论,是因为可以通过一些技巧使得在真正使用特征值和特征向量的时候规避掉这两种情况,而只去应用简单的特征值,这块之后再说,总之在实际使用时都会想尽办法来使用简单特征值,而去避免使用多重和复数特征值。 

    特征值与特征向量的性质:

    性质一:矩阵不可逆

    关于这个性质其实在之前学习特征值和特征向量时已经有学过了,当复习, 对于式子:

    当λ=0时,就有:

    需要让这个线性系统不仅有零解,还需要有其它的解,那就是0这个特征值所对应的特征向量,根据方阵的等价命题就可以知道:

    反过来,如果λ=0不是A的一个特征值的话,则A是可逆的。所以,对于方阵的等价命题中就可以被充最后一个命题了,如下:

    至此,关于矩阵的所有等价命题就已经学完了。 

    性质二:

    上三角矩阵的特征值是其对角线上的元素:

    下面来看一些特殊的方阵的特征值和特征向量的求法,目前我们所知的求解方阵的特征值和特征向量的步骤是先求解特征值,然后再求解特征方程,而求解特征方程就是让矩阵的行列式等于0:

    一说到行列式,是不是就可以联想到当时学习的一些特殊的矩阵了,简单回忆一下:

    对角矩阵:

    也就是这种对角矩阵的行列式就是对角线元素的乘积,那它对应的特征值是咋样的呢?其实也就是:

    它也是一个对角线,很显然它的行列式的值也是等于对角线元素的乘积对吧?

    而要求解特征值就是让上面这个式子为0,所以此时这个特殊方阵的特征值就有如下解了:

    此时针对对角方阵求它的特征值就变得极其简单了,不需要再求线性系统的解了,其实就是各个对角线上的元素。

    下三角矩阵的特征值是其对角线上的元素:

    有了上面上三角矩阵的性质,类似的对于下三角矩阵也是一样的,求解它的特征值也非常的简单,因为对于下三角矩阵来说它的行列式也是对角元素的乘积:

    相应的下三角矩阵的特征值的求法如同上三角矩阵一样:

    同样的特征值也为:

    性质三:

    关于这个矩阵的幂,在很多应用中都会对它感兴趣的,所以有必要研究一下特征值跟矩阵幂的关系,由于这个m木有定,所以下面用数学归纳法来对上面的这个性质进行一个论证:

    1、当m=1时,很显然成立,所以就有如下式子:

    2、假设m=k成立,很显然就有如下等价的式子成立:

    3、当m=k+1时,就有:

    而由于:

    所以等号右侧就可以写为:

    再将右侧进行变换:

    而:

    所以此时又可以化为:

    那是不是就可以说:

    所以得证。不过要注意!!!这里的m是>=1,对于<0的情况是不满足这种性质的,这点一定要清楚。其实也是成立的,下面就来证明一下为-1的情况。

    性质四:

    下面来证明一下,由于λ是A的特征值,所以就有:

    然后两边都乘以A的逆,如下:

    此时就又可以化为:

    再做转换,其结果就证明出来了:

    所以核心就是要理解,如果λ是A的特征值,就有这个等式:

    直观理解特征值与特征向量:

    简单特征值:

    在上面咱们都是以代表的角度来学习特征值与特征向量的,接下来则回到几何角度直观的理解一下特征值与特征向量。

    示例一:投影变换

    这里还是回到二维空间中,假设研究的投影变换是指把任何向量投影到(2,1)所在的直线,如蓝色直线所示:

    然后把二维空间中的任何一个向量都投影到(2,1)这根蓝色的直线上,比如:

    然后向蓝色直线引垂线,其中绿色所示的则为投影向量:

    再在空间中随便弄一个向量:

    往蓝色直线进行投影,得到的向量既为投影向量:

    接下来研究一下投影变换所对应的矩阵的特征值和特征向量是多少,不过在正式求解之前,先来复习一下之前的知识,就是看这个变换是否是真的对应一个矩阵,因为变换这个词是非常广的,并非随便给一个变换就能求出特征值和特征向量的,需要保证这个变换对应的是一个矩阵才行,此时就需要看投影变换是不是一种线性变换,关于这块可以参考线性代数学习之坐标转换和线性变换 - cexo - 博客园,其中回忆这么一句话:

    那根据线性变化的两个性质:

    很明显投影变换是完全满足这两条的,对于第一条是说对uv两个向量相加的变换等于u和v分别进行变换之和,从二维坐标就可以看出来肯定满足,而另一条是对cu进行变换它就等于先对u进行变换,然后再乘以c倍,从二维坐标上也能看出来,所以对于投影变换肯定是线性变换的,而线性变换肯定是对应一个矩阵的,而咱们这个例子中就是二维空间向二维空间的变换,所以它是一个(2x2)的方阵,所以就可以来看一下它的特征值和特征向量了。

    而用几何的视角来看特征值和特征向量,其先研究特征向量是比较方便的【从代表的角度是先研究特征值】,先来回忆一下特征向量的定义:经过这样的变换之后所得到的结果向量和原向量还是在一条直线上,它们之间只相差某一个常数倍,常数就是特征值,那回到咱们这个二维空间中的变换,哪些向量是经过投影之后所得到的结果向量和原向量还在同一根直线上呢?很显然就是在这根蓝色向量上经过投影之后得到的结果还是蓝色的直线上,如下:

    所以这根蓝色直线上的所有向量经过投影之后的结果还是它本身,还在蓝色直线上,所以在这蓝色直线上的所有向量都是特征向量,那它们对应的特征值是多少呢?其实是:

    为啥呢?因为经过投影在蓝色直线上后的向量还是它自身,这里看一下,是不是在这个过程压根不知道投影变换所对应的矩阵是谁,只通过几何含义就推导出了一组特征向量和特征值。

    那在这二维空间中还有木有其它的向量也满足投影到这根蓝色直线上所得到的结果和原来的向量在同样一根直线上呢?这第二组特征向量就稍微有点难想了,其实就是和蓝色直线相垂直的向量,如下:

    把它投影到蓝色的直线上,结果向量是零向量,也就是投影到蓝色直线上之后的结果向量是原来向量的0倍,所以和蓝色直线垂直的这根直线上的所有向量也是投影变换的特征向量, 它所对应的特征值为0:

    这样就通过几何的角度就求解出了投影变换所对应矩阵的特征值和特征向量了,另外还可以找到这两个特征值所对应的特征空间,一个就是投影变换要投影到蓝色直线上,这个直线是一上空间,这个空间中的所有向量则是投影变换对于λ=1的特征向量,另外一个特征空间则是和蓝色直线相垂直的那根直线,它形成了一个空间,也称之为特征空间,这个空间中的所有向量则是投影变换对于λ=0的特征向量。

    示例二:矩阵A

    接下来再来看这么一个矩阵在几何意义上的特征值和特征空间:

    如果矩阵A表示一个变换,它其实就是单位矩阵做了一下行交换,所以是一个初等矩阵,相当于这个矩阵就可以将所有的(x,y)坐标进行一个变换(y,x),回到坐标系来看,其实这个A所表示的变换就是将所有的向量沿y=x这根蓝色的直线,做一次翻转:

    比如说这根向量:

    经过这个矩阵的变换之后,就会沿这条蓝色直线进行翻转了,如蓝色向量下:

    而这俩向量是关于这根蓝色直线对称的:

    这就是这个矩阵所对应的变换的几何含义是什么,那知道了它的几何含义了是不是就可以找到了它的特征值和特征向量了呢? 那就要看经过这个变换之后得到的结果向量还在向量原来的方向,很显然在y=x这根直线上的所有的向量经过翻转之后依然还在这根直线上,如:

    而所对应的特征值为:

    同样的和这根直线垂直的向量:

    而它们只差一个常数倍,很显然这个常数为-1,所以另一个特征值为:

    同样也找到了对应的特征空间,分别是y=x这根直线形成了一个空间和该直线垂直的直线所形成的一个空间,好,以上是针对这个矩阵从几何意义上的分析,由于这是一个具体代数,所以咱们具体求解一下看是否如几何角度分析所示:

    重要性质:

    对于目前所举的例子来看特征值和特征空间都是两种,再回忆一下之前所举的也是一样的:

    其中有一个特点,就是这两个特征值所对应的特征向量它们不会重合,所以一个重要的性质要出来了:

    如果矩阵A含有两个不同的特征值,则他们对应的特征向量线性无关。

    下面来证明一下,假设:

    现在就是要证明u和v是线性无关的了,这里可以用反证法:

    假设线性相关,就有:

    所以就有:

    然后再来替换就有:

    就有:

    而由于:

    所以这个等式左右都可以乘以λ1为:

    然后两个式子相减就有:

    其中k!=0了,而λ2-λ1肯定也不等于0,因为它们是两个不同的特征值,那么对于最后化的这个方程:

    只有v向量为0了,但是!!!v是一个特征向量,不可能为零向量呀,很显然矛盾了,咱们的假设就是错误的,也就反证了两个不同的特征值所对应的特征向量肯定是线性无关的。

    “不简单”的特征值:

    在上面直观理解特征值与特征向量举的都是“简单特征值”,也证明一个非常重要的结论就是两个不同的特征值所对应的特征向量肯定是线性无关的,还记得关于特征值还有另外两种类型么,回忆一下:

    也就是还有“不简单”的特征值,那怎么个“不简单”法呢?下面也是通用直观的角度来简直一下:

    示例一:旋转矩阵【复数特征值】

    关于旋转矩阵的例子在之前已经举过n次了,长这样:

    也就是正的F逆时针旋转90,其对应的旋转矩阵为:

    也就是旋转的F就是y轴为(0,1),而轴为(-1,0),下面则来从几何的角度来看一下这个矩阵所对应的特征值和特征向量,同样还是先从特征向量看起,也就是通过旋转之后哪些向量在旋转以后它和这个向量原来的这个向量处在同一个直线上,用大脑一想貌似没有这样的向量吧,因为任何向量一旋转肯定就没有跟原来的向量在同一直线上了呀,所以从几何角度来看没有任何一个向量满足这个矩阵的特征向量,为啥会这样呢?下面来求一下这个矩阵的特征方程:

    它是一个二阶行列式,为主对角线元素的乘积-非主对角线元素的乘积,所以最终方程就变为了:

    很显然在实数范围内肯定这个方程是没有解的呀,但是!!!在复数范围内是有解的,为i和-i,也就是说对于复数特征值的几何含义已经消失了,因为在几何角度已经无法直观的理解特征值和特征向量了。

    示例二:单位矩阵【多重特征值】

    下面再来看另外一个"不简单"特征值,先来看这么一个单位矩阵:

    那看一下这个单位矩阵所对应的特征值和特征向量,想一下对于单位矩阵其实就是把原来的向量还转换为自己,向量根本不动,那从几何的含义来看一下什么样的向量在单位矩阵的转换下还在原来这个向量自己的方向上呢?很显然在二维平面上所有的向量经过单位矩阵的变换之后还是它自己,所以也还在它自己所在的直线上,并且相应的特征值为1,虽说特征值只有1个,但是呢特征向量在二维平面上的任意方向,怎么会出现这样的情况呢?还是用代表的角度来看一下,其实在之前也已经看过了:

    就是求下面这个方程:

    而λ很显然就是:

    然后此时再来求一下它所对应的特征向量,将λ代入如下方程:

    为:

    也就是求解矩阵的零空间了,很明显这个矩阵压根就木有主元列,有2个自由列,所以这个向量u有两个维度,两个维度都任意取,也就是二维平面上所有向量都是特征向量,当然也可以找到二维平面上的一组基,用这组基可以更加好的描述特征向量,也就是需要求λ=1所对应的特征空间,其实也就是特征空间中对应的一组基,这组基为:

    这里需要注意了:当λ是多重特征值时,λ它所对应的特征空间不一定是一根直线了,有可能是一个高维空间,比如这个λ所对应的空间是一个二维空间,在二维空间中可以找到一组基,由这组基的线性组合所表示的所有向量都是λ=1所对应的特征向量,貌似这结果挺好的呀,对于之前的简单特征值都是2个不同的,所对应的特征向量一定是线性无关的,现在虽说λ是相同的2个特征值,特征空间是一个平面,又找到了两组基是线性无关的,貌似挺不错的,但是关键在于对于多重特征值来说是不能保证重数为2,相应的特征空间就是2维的,就能找到2个基向量,下面再来看这么个矩阵:

    很显然此时的特征值也是相同的值,为:

    那此时看好了,对于它的特征向量看一下:

    很显然此时没有2个自由列了,而是只有一个,当然对应的零空间的维度一定为1,也就是u对应的向量为:

    是不是对于这样的矩阵它有二重的特征值,但是呢它对应线性无关的相向只有1个,也就是λ=3虽说是2重特征值,可以这个2重特征值所对应的特征空间是一维的,我们找不到两个线性无关的特征向量,这就是多重特征值复杂的地方,也就是对于多重特征值所对应的特征向量也是多重的,但是也有可以数目会更少。

    重要性质:

    实际上,从数学的角度是存在这么一个非常重要的性质的:

    如果矩阵A的某个特征值的重数=k,则对应的特征空间的维度<=k。

    而通常又把这两处重数用两个专有名词定义如下:

    所以一个非常重要的数学定理就出来了:

    几何重数不大于代数重数,若重数为1,则很简单,其特征空间维度为1

    当重数一旦不为1的话,事情会复杂,这个复杂的点其实就在于相应的特征向量所处的维度,也就是这个维度变得不固定了,可能<=代数重数的任意一个值,这就为进一步研究特征值和特征向量的性质制造了麻烦,也就是为啥在之前说更喜欢"简单"特征值的原因,因为对于简单特征值来说重数为1所对应的特征向量一定是在1维空间中,这个特征空间就一定是1维的。

    最后再对三种特征值总结一下:

    1、复数特征值它的几何意义丢失了,因为在几何意义上无法直观的理解特征值和特征向量了。

    2、多重特征值之所以复杂, 是因为特征值所对应的特征空间的维度不固定。

    3、简单的特征值每一个特征值对应于一个特征空间,这个特征空间一定是一维的,相应的特征向量可以随意的缩放,而且不同的特征值对应的特征向量还是线性无关的,这也是喜欢它的原因。

    实践Numpy中求解特征值和特征向量:

    接下来则回到python的世界中实现对一个矩阵的特征值和特征向量的求解, 先回忆一下整个的求解过程:

    由于咱们现在为止手动编写的线性库中并木有涉及到n次方程的求解,所以这里采用Numpy数学库来实现。

    新建文件:

    示例一:

    先来对之前学习的这个矩阵进行一下求解:

    具体求解也非常简单,直接调用一个函数既可:

    其中可以看到对于求出来的特征值eig函数对其进行了一个排序。另外对于特征向量它是一列列进行组合的:

    呃,为啥跟我们之前理论描述的特征向量不一致呢?这是(4,-2)向量和(1,1)向量经过规一化处理了,而这种规一化本身是很有意义的,在后续的学习中也能看到,就会将所有的特征向量这样一列列排起来形成一个特征向量矩阵,用这个特征向量矩阵作为空间的基将会看到很多重要的性质,而这组基要想得到它的单位基的话【也就是每一个向量所对应的模为1】,则每一个向量需进行规一化的处理。

    示例二:关于y=x翻转

    接下来再来验证一下之前所举的y=x翻转变换矩阵的情况:

    示例三:旋转90度

    接下来看一下复数特征值的情况:

    示例三:单位矩阵

    接下来再来看一下多重特征值的情况:

    示例四:代数重数为2,几何重数为1

    矩阵相似和背后的重要含义:

    接下来则来揭示一下学习特征值和特征向量具体有啥用,既然是“特征”值和“特征”向量,那到底反应了矩阵的什么特征呢?

    矩阵相似型:

    为了搞清楚这个问题,首先得来理解矩阵的相似性,相似矩阵,先来看一下它的定义:

    如果矩阵A,B满足:

    则称A和B矩阵相似。

    说实话看到这个定义还是非常抽象的,其实从几何的角度还是比较容易理解的,这里先来回忆一下初中几何的相似三角形的数学知识,怎么判断两个三角形相似呢?

    课本的定义是对于三角形的三个内角如果都相同则就可以说这俩三角形是相似的,直观的来看就是两个三角形的大小是不一样而形状是一样的,怎么理解?其实可以以这样的视角来理解:“不同的视角观察相同的内容”,也就是说可以想象成这两个三角形就是一个三角形,只是观察它的视角可能是远近不一样就造成了所看到的大小不同但是它们的形状却是一样的,此时就可以说这两个三角形是相似的,同样的视角也可以用来理解什么是矩阵的相似,两个矩阵相似其实本质也是我们从不同的视角去观察相同的内容,由于视角不同看到的矩阵也不同,其实本质是一样的,此时就可以说A,B是相似的,具体怎样通过不同的视角来观察相同的内容,这个视角就藏在矩阵P当中,我们如果将P当成是一个坐标转换矩阵的话,而矩阵A和B对应两个线性变换的矩阵,这个式子其实在反应这样的一个事实:

    P是一个坐标系,则A变换是在P坐标系下观察的B变换。

    换句话说就是这个式子所反应的意思是A和B两个矩阵所表示的变换是同一个变换,只不过观察它所在的坐标系是不同的,我们观察B这个变换就是在我们通常所在的那个标准坐标系下,而我们观察A的坐标系则是在P这个矩阵所定义的坐标系下,在两个不同的坐标系下观察同一个变换得到的结果不同的,结果就是矩阵A和矩阵B,但是本质是同一个变换,此时就可以称A和B是相似的。接下来咱们来证明一下这个结论,此时就需要用到之前线性代数学习之坐标转换和线性变换 - cexo - 博客园所学的坐标转换的知识了,照这样的理论用式子可以这样表示:

    下面具体来看一下式子,先来看等式左边:

    等式左边表示在p坐标系下的向量x进行A变换,而等式右边:

    其实就是x在标准坐标系下的坐标:

    接下来:

    其实就是再进行一个B变换,如下:

    也就是x坐标在标准坐标系下经过B变换得到的坐标,该坐标依然在标准坐标系下,那如果想要将这个坐标转换到P坐标系下呢?根据当时学习任意坐标系下的转换:

    只需要用P的逆矩阵乘以在标准坐标基下所表示的坐标既为在p坐标系下的向量x进行A变换,如下:

    这图说明了一个p坐标系下的坐标先转换到标准坐标系:

    再进行B变换之后还是在标准坐标系下:

    此时再转回p这个坐标系下:

    这个结果其实在p这个坐标系下直接对坐标x进行A变换得到的结果是一致的:

    也就说明了A和B这两个变换本质是一个变换,只不过我们所观察的坐标系不同,上面我们观察A变换是在P这个坐标系下,而下面B变换是在标准坐标系下:

    所以上面这个图要记住这个结论:

    A和B本质是一个变换,只是观察的坐标系不同!

    有了这个结论之后,接下来就可以对式子进行一下变换了:

    变形的方法很简单:

    1、等号两边都左乘一个P;

    2、等号两边都右乘一个P逆;

    所以对于这个变换式子,在阐述“A变换是在P坐标系下观察的B变换”是不是这样来理解更加的顺畅,因为A这个变换是在P坐标系下观察的,所以将P这个坐标系下的项都放到等号右边,而将B单独拿出来,因为B这个变换就是在标准坐标系下看的,所以就有了同在所看到在标准坐标系下变换的B到了P这个坐标系下看和等号中的A这个变换是一样的,这里要注意!!!当我们说矩阵相似的时候,A和B相似,B和A也相似,此时用这两个式子都是可以的;

    在这种情况下,P逆和P谁在前谁在后其实不重要:

    但是!!!一旦有了几何解释的时候就得非常注意啦,P逆和P谁在前谁在后决定了到底把哪个变换放在P坐标系下观察,P逆在前P在后:

    我们是把夹在P之外的那个变换,也就是A变换放在P坐标系下观察,而如果P在前P逆在后:

    我们是把夹在P之内的那个变换,也就是A变换放在P坐标系下观察,对于这个结论不需要背,而是要理解,那怎么理解呢?其实可以这样理解:

    等号的两边同时乘以一个坐标,关键是在有几何解释的时候乘以哪个坐标系下的坐标有意义,像P在最后的话肯定要乘以在P坐标系下的坐标才有意义,所以:

    A这个变换是在P坐标系下进行的,相应的B这个变换就是在标准坐标系下进行的;同样的像P逆在最后的话肯定要乘以在标准坐标系下的坐标才有意义,所以:

    B这个变换是在标准坐标系下进行的,相应的A这个变换就是在P坐标系下进行的;同样的像P逆在最后的话肯定要乘以在标准坐标系下的坐标才有意义。

    上面这个理解说实话有点绕,记住关键的结论是:“A和B本质是一个变换,只是观察的坐标系不同!!”,另外一定要注意小陷阱,怎么写式子代表哪个坐标系下来观察A和B两个变换,其实这个跟之前学习坐标变换是一样的,一定要知道是谁变到谁,关于坐标变换这块不太清楚的一定得要提前打好基础把这一个知识理解透了再来对这里进行理解就会容易很多。

    那这个矩阵的相似型跟我们此次学习的特征有啥关系呢?下面就准备要跟它牵扯上联系了,既然A和B本质是一个变换,它们肯定有一些东西是相同的,就像两个三角形相似,相似背后它们的角肯定是相同的,那么A和B相似本质是一个变换,它们是什么相同呢?其实是A和B的特征方程相同,特征值相同!!!这也是为啥管之前的特征值和特征向量叫“特征”的原因之所在,这是因为这些特征是永远不会变的,不管我们是在哪个坐标系下来观察A和B矩阵的样子可能已经变了,但是它们的特征方程是相同的,既然特征方程相同了其特征值也就相同啦,所以在之后会学习特征值的作用了:完全可以使用特征值构造出一个矩阵,这个矩阵就来表示A和B所对应的那个变换,只不过需要从一个特殊的坐标系中来看。

    下面则来证明一下此观点:

    如果矩阵A,B满足:

    则称A和B相似,A和B的特征方程相同!特征值相同!!

    证明:

    A的特征方程为:

    而为了能跟P逆BP进行结合,可以把I写为:

    然后它又可能变为:

    而根据行列式的矩阵相乘就又可变为:

    再进一步:

    看到木有,也就是A和B的特征方程是相同的,前提是矩阵A,B满足:

     这也就是特征值和特征向量所真正表达的特征,当我们把矩阵当作是一个变换的时候,这个变换不管从哪个角度去看,不管从哪个坐标系下去看,它们都拥有相同的特征,这些相同的特征都被特征值表达了出来,那么有个问题就来了,既然我们已经知道了对于一个变换我们可以从不同的角度去看它,肯定就希望找到一个最好的角度去看它让变换的理解是最为容易的,那这个“最好的角度”其实也隐藏在特征值和特征向量中,具体往下学习便知。

    矩阵对角化:

    先来再阐述一下上面所述的结论:

    如果矩阵A,B满足:

    则称A和B相似,也可以表达成:

    P是一个坐标系,则A变换是在P坐标系下观察的B变换【这也就是几何含义,表示在P这个坐标系下观察B变换观察到的结果其实就是A这个矩阵所表示的样子 】,A和B本质是一个变换,只是观察的坐标系不同!

    那既然式子:

    表达的是“在P这个坐标系下观察B变换观察到的结果其实就是A这个矩阵所表示的样子”,那就可以变换坐标系P,相应的A这个矩阵的样子就会发生变换,我们想找一个最好的A,使得B这个变换非常之简单,其实就是矩阵对角化所做的任务,其实矩阵对角化是指可能把A写成是:

    表达的意思就是对于A这个变换我们在P这个坐标系下观察,观察到的结果是D,在这里要注意在P的坐标系下观察谁得到谁不要搞淆,根据之前所述:

    所以A的变换是在标准基下的变换,在P这个坐标系下观察A这个变换, 得到的是结果是D变换的样子,其中A、D本质是一个变换,只是观察的坐标系不同而已,那为啥这里用了一个D矩阵呢?因为它代表一个对角矩阵:

    而对角矩阵代表啥呢?其实它就代表对于一个向量x每一个维度的向量伸缩di倍就好了,不牵扯到和其它维度的向量进行线性组合,换言之,就是在D这个变换下,对向量(x1,x2,x3...,xn)进行变换,结果就是(d1x1,d2x2,...,dnxn),所以对角矩阵所表示的变换是最简单的,而矩阵的对角化所做的事情就是对于任意一个变换A,试图找到一个合适的坐标系P,在这个坐标系下观察A变换变成了一个对角矩阵的样子,这个样子是非常方便我们进行很多操作的,那么问题的关健就是对于方阵A能不能在某一个坐标系P下观察看到的结果是一个对角矩阵的样子呢?不一样!!!因为需要有如下条件:

    如果A有n个线性无关的特征向量,则A和某个D【对角矩阵】相似。

    也就是可以写成这个形式:

    这个式子就叫做把A这个矩阵进行了对角化,所以对于矩阵的对角化也可以理解是矩阵的分解的一种形式,把矩阵A分解成了三部分:

    它表示D变换是P坐标系下观察到的A,而A怎么能分解成这种形式呢?答案就隐藏在特征值和特征向量当中,下面直接给结论,也就是如果矩阵A可以进行对角化的话,其中D对角矩阵就是主对角元素是矩阵A对应的所有的特征值,如下:

    而P这个坐标系就是把这些特征值所对应的特征向量依次按列排列出来的结果就是P这个矩阵,如下:

    由于P是由所有的特征向量组成的矩阵,所以也叫特征向量矩阵,换言之,如果矩阵A可以被对角化的话,A这个矩阵和对角矩阵D相似,就可以在这个特征向量矩阵所代表的坐标系才能看到这个结果,而我们看到的这个结果对角矩阵D的主对角线上就全都是特征值,通过这个结论现在就明白为啥有这么一个前提了:

    这是因为这n个线性无关的特征向量要组成特征向量矩阵,而这个特征向量矩阵中所有的列元素构成了一个空间的基,它是我们观察A另外的一个坐标系,如果A木有n个线性无关的特征向量的话,就不能构成矩阵P,A对应的也就不能对角化。我们也可以从另外一个视角来思考,由于P需要使用逆矩阵:

    所以对于P这个矩阵的列元素一定是线性无关的,这是矩阵N个命题中的一条,回忆一下:

    接下来证明一下为啥有n个线性无关的向量的矩阵A满足这个式子:

    先左右乘以一个P,如下:

    此时则左右两边进行变换,看最终左右两边是否相等那么也就论证了此式子了,如下:

    而由于所有的u都是矩阵A的特征向量,所以Au等于λu,回忆一下:

    所以:

    接下来再来看一下等式右侧,如下:

    所以:

    就成立了,所以它也成立:

    此时就可以称A可以被对角化。

    另外回忆一下上面的一个结论:

    如果矩阵A含有两个不同的特征值,则他们对应的特征向量线性无关,而回到对角化的概念就可以进一步推导出:如果A有n个不相同的特征值,则A可以被对角化,但是要注意:如果A没有n个不相同的特征值,A不一定不能被对角化。比如说:

    再来看一个:

    这也是当特征值存在重数的时候,事情变得复杂的原因,这是因为所有的特征值重数为1,矩阵A只含有简单特征值的话,它一定可以对角化,因为A就可以从P的视角:

    来看是一个对角矩阵所代表的那个变换,这也是为啥叫它简单值的原因,但是如果含有重数的特征值,它能不能对角化我们就不知道了,至少我们不能一眼就看出来而是需要具体的求一求对于有重复的特征值它所对应的特征空间的维度是多少,不管怎样,如果A能找到n个无关的特征向量,A就一定能够被对角化。最后再来总结一下:

    实现属于自己的矩阵对角化:

    接下来编程来实现一下矩阵的对角化。

    新建文件:

    断言A为方阵:

    求出A的特征值和特征向量:

    求出矩阵对角化:

    对角化的式子为:

    测试:

    用例一:

    为了验证其求解的对角化是正确的,就可以把三个相乘,如下:

    用例二:

    由于该矩阵不能被对角化,所以照道理P的逆应该不存在,但是nmpy也对其进行了一个逆的计算,只是计算出来的结果比较离普而已。

    增加是否可对角化的判断:

    对于用例二来说,很显然矩阵是不能被对角化的,但是呢其结论我们看不出来,所以有必要增加一个矩阵是否可逆的状态输出,如下:

    再运行:

    矩阵对角化的应用:求解矩阵的幂和动态系统【了解】:

    最后再来探讨一下矩阵的对角化,先来回忆一下相关定义:

    如果A有n个线性无关的特征向量,则A可以被对角化,就有如下式了:

    其中可以说D变换是P坐标系下观察到的A。也就是D变换和A变换本质是一个变换,只不过观察的坐标系不同,而由于D是一个对角矩阵,所以这个变换是非常简单的,只不过是在每一个维度上伸缩对角矩阵对角线上元素那么多倍。

    而如果把D变换看作是A变换,很多时候就会变得非常简单,下面举相应的一些例子:

    求解矩阵的幂:

    比如要求矩阵A的平方:

    当然直接用A*A既可,但是如果将A以对角化视角来看待的话:

    此时就可以变换为:

    再变换就为:

    以对角化视角下面再来看一下A的立方就如下:

    进而可以得到矩阵求幂的新视角:

    也就是把A的n次方问题转换成了D的n次方问题,而其中D是一个对角矩阵,下面来看一下为啥把A的变换看成D的话会很方便了,比如对于一个对角矩阵D:

    而它的平方为:

    也就是对于对角矩阵求它的幂也就是对角元素的幂再放回到对角矩阵上,推到n次晕就有如下式子:

    也就是对于对角矩阵的幂的求法根本不需要进行矩阵的乘法操作,直接对数字进行n次幂的运算既可,很显然相对矩阵的乘法就大大的化简了,相应的,如果求解A的n次冪就为:

    这样通过矩阵的对角化对于整个矩阵的幂计算时间复杂度也大大的降低, 

    求解矩阵的动态系统:

    我们为啥要关心矩阵的幂呢?实际上矩阵的幂在大量的实际应用中都有着非常重要的作用,因为大量问题的形式都是:

    为啥向量有一个下标呢?这是因为处理的是动态系统,也就是随着时间的变换u这个向量所表示的状态也在不断的变化,这个变化是被A所表示的,比如第一个时间点【一个时间点在经济系统中有可能是一年,一个月之类的,而在生物学观察细胞时是以秒或分钟为单位】表示u这个状态就变成了Au,而到了第二个时间点u这个状态又变成了A方u,第三个时间点就变成了A的立方u...以此类推。

    而动态系统这个方程的形式被用于很多的领域,比如说:

    经济系统:

    比如u这个向量表示的是各个不同的行业不同的领域所对应的经济的生态值,而这个经济的生态值随着时间的推移,会产生变化,这个变化就可以被矩阵A所表示,这个A矩阵可能就表示一种经济策略,我们要想看这个经济策略在若干时间后所起到的效果是怎样的,我们就可以使用这个式子。

    粒子系统:

    比如在物理学中,很多粒子系统也都满足这样的式子,粒子运动具有一定的规律,而这个规律被矩阵A所表示,相应的某一个粒子在若干时间后它所对应的状态是怎样的,就可以用这么一个方程所表示。

    生态系统:

    在生态系统中也是如此,生态系统中无论是动植物的数量还是各种环境的参数,比如氧气,二氧化碳,氮气等等它们都是互相制约的,而在生态系统中这些参数会怎样变化也可以被一个矩阵A来表示,而若干时间后生态系统这些参数会怎样变化也可以被矩阵A所表示,而若干时间后生态系统会变成什么样子也可以被这样的一个方程所表示。

    而对于这么一个式子:

    核心就是求A的k次幂,根据这个式子:

    此时就可以变换为:

    更重要的是,一旦有了对角化视角,其实对于想研究的系统还可以有一个更深刻的认识,这是因为A这个变化本质就是D这个变化,只不过需要在P这个坐标系下观察而已,而D这个矩阵表示的就是对于u这个向量各个维度它随着时间的推移每走一个时间点相应怎样变化,那么D这个矩阵对角线上的元素又都是A这个矩阵的特征值,所以特征值反应系统的各个分量的变化速率!只不过这个变化是发生在P这个坐标系下的,这也是特征值隐藏的另一层含义,就会对动态系统有更加深刻的认识,延生出稳定的系统、不稳定的系统等相应的概念。

    但是!!!上面所说的得具备一个前提条件,如下:

    如果A有n个线性无关的特征向量,则A可以被对角化。

    而目前对于A只是对方阵有作用,而实际生活中经常要处理非方阵或长方阵,那对于这种情况的探讨下次再来。

    关注个人公众号,获得实时推送

    展开全文
  • 矩阵的特征值和特征向量

    千次阅读 2021-03-27 14:47:19
    矩阵的特征值和特征向量特征值的理解特征值 、特征向量、方阵的关系几何意义物理意义特征分解特征值和特征向量的含义的应用补充一点 特征值的理解 其实刚上大学的时候上的线性代数课上,也只是简单讲解了特征值和...

    特征值的理解

    其实刚上大学的时候上的线性代数课上,也只是简单讲解了特征值和特征向量是怎么求的。但是并不知道特征值和特征向量有什么含义,能做什么,也就是我为什么要求它们。
    这几天抽空查了很多的资料,在这里记录一下学习心得吧!

    特征值 、特征向量、方阵的关系

    我们都知道,它们三者满足如下的关系
    A ∗ X = λ ∗ X A* X=\lambda*X AX=λX
    其中,A是方正,一般是已知的。 X是特征向量, λ \lambda λ是特征值,这两个是捆绑存在的,待定的。
    从整个式子上看,可以简单的理解:X特征向量在经过 转换矩阵A的转化后,在另一个空间维度和方向不变,只是被拉伸或缩短了。

    几何意义

    说明下,矩阵和向量线性变换总是在不同的基对之间变化的。所以下面我会申明一下基是什么。

    • 从V不动,A不断变化的角度看:
      i ⃗ \vec{i} i j ⃗ \vec{j} j 向量为基的坐标系中,存在一个 向量 v ⃗ \vec{v} v ,
    1. 先用转化矩阵对 向量进行位移, A 1 ∗ v ⃗ A_1*\vec{v} A1v 如下,没有发现和 v ⃗ \vec{v} v 有什么特殊的关系。
    2. 变化矩阵A,不断调整 A ∗ v ⃗ A*\vec{v} Av 的位置,可以发现出现如下情况。
      3. A 2 ∗ v ⃗ A_2*\vec{v} A2v v ⃗ \vec{v} v 重合了。可以观察到, v ⃗ \vec{v} v A 2 A_2 A2的特征向量, A 2 ∗ v ⃗ A_2*\vec{v} A2v 的长度是 v ⃗ \vec{v} v λ \lambda λ
      在这里插入图片描述
    • 从A不变,V不断变化的角度看

    依旧是在 i ⃗ 、 j ⃗ \vec{i}、\vec{j} i j 的坐标系下,存在一个 v ⃗ \vec{v} v ,给v左乘一个矩阵 A A A,位置关系如下,也没什么特殊的
    在这里插入图片描述
    调整了一下KaTeX parse error: Expected '}', got 'EOF' at end of input: \vec{v]的方向,图像渐渐特殊了:
    在这里插入图片描述
    可以观察到, v ⃗ \vec{v} v A ∗ v ⃗ A*\vec{v} Av 重合了。此时我们称 v ⃗ \vec{v} v A A A的特征向量, A ∗ v ⃗ A*\vec{v} Av 的长度是 v ⃗ \vec{v} v λ \lambda λ
    其实,向量v就是一个方向,表示在这个方向上,矩阵A(运动)相对稳定,因为方向不变化。
    在这个方向上的所有特征都是特征向量。
    在这里插入图片描述

    这也就说明了,为什么 λ \lambda λ和v是一对的,因为 有了长度和方向,这个向量的也就确定了,即特征向量就是固定的了。

    物理意义

    一般来说,矩阵我们可以看成是一种运动,而向量可以看作是平面上的一个方向。而在这里,特征值和特征向量就像是 运动 的速度和 方向。

    • 特征值就是运动的速度
    • 特征向量就是运动的方向

    既然运动最重要的两方面都被描述了,特征值、特征向量自然可以称为运动(即矩阵)的特征。而运动是不能直接观察的,例如走路,我们只会人在走,猪在走,熊再走… 只有了载体我们才会说这个动作。
    上面说的运动太抽象了,我来举一个具体点的例子:烧水。

    • 烧一壶斐波那契的水
      如果我要烧一壶水,且水得温度假设 按照斐波那契数列增加,那么就有 下一秒的水温度 T t + ! T_{t+!} Tt+!,当前水温 T T T,前一秒水温 T t − 1 T_t{-1} Tt1的关系为:
      T t + 1 = T t + T t − 1 T_{t+1}=T_t+T_{t-1} Tt+1=Tt+Tt1
      因为每次计算,我都需要连续两个时间片的温度,因此可以用矩阵表示为
      [ T t + 1 T t ] = [ 1 1 1 0 ] [ T t T t − 1 ] \begin{bmatrix} T_{t+1}\\ T_t \end{bmatrix} = \begin{bmatrix} 1&1\\ 1&0 \end{bmatrix} \begin{bmatrix} T_t\\ T_{t-1} \end{bmatrix} [Tt+1Tt]=[1110][TtTt1]
      其中,烧水这个动作我们抽象为 A = [ 1 1 1 0 ] A=\begin{bmatrix}1&1\\ 1&0\end{bmatrix} A=[1110],反复这个运动就可以把水烧开。根据斐波那契数列, T 1 = 1 , T 2 = 1 T_1=1,T_2=1 T1=1,T2=1开始,通过之前的相互调整阐述,可以得到如下结果:
      在这里插入图片描述
      实际上,这壶水会沿着 A A A 的特征值最大的特征向量方向飞快增长,在理想情况下,温度会不断突破,甚至上百亿度。这时,我们就说 这个矩阵是不稳定。

    拉格朗日发现,原来特征向量就是方向

    我们知道了特征向量和特征值的含以后,会想为什么会这样??

    特征分解

    从某种层面来看,特征就是“不变”。不管v怎么变,都满足这样一个式子
    A ∗ X = λ ∗ X A* X=\lambda*X AX=λX
    共线。
    一般来说,一个向量在某个矩阵的作用下,其空间变换体现为 长度和 方向 的变化,即旋转和、平移和拉伸,有些情况下,向量的维度都会发生变化。而 这里的特殊指出在于,矩阵作用与它的特征向量,只是导致它的长度发生变化。
    对于方阵而言,它的维度不会变化,所以矩阵作用到特征向量上的运动实际上只有两种:

    • 拉伸
    • 旋转

    特征值也就是对特征向量 进行伸缩和旋转程度的度量。 如果 λ \lambda λ

    • 实数R那么特征向量就只进行了 伸缩
    • 虚数那么特征向量就只进行了 旋转
    • 复数C那么特征向量就只进行了 伸缩和旋转
    • 推荐教材 《linear algebra and its application》

    其实矩阵的分解,就用有一个现成的知识点:对角化
    A = P Λ P − 1 A=P\Lambda P^{-1} A=PΛP1
    其中 Λ \Lambda Λ是对角阵,由特征值组成。 P − 1 P^{-1} P1的列向量是单位化的特征向量
    我们再回头看下刚才的特征值分解,实际上把运动给分解开了:
    在这里插入图片描述
    我们来看几何上做了什么:观察基的变化。
    初始时
    在这里插入图片描述
    左乘 P = [ − 2 2 2 2 2 2 2 2 ] P=\begin{bmatrix} -\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2}\\ \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \end{bmatrix} P=[22 22 22 22 ]
    在这里插入图片描述
    继续左乘 Λ = [ 3 0 0 1 ] \Lambda =\begin{bmatrix} 3&0\\ 0&1\end{bmatrix} Λ=[3001]
    在这里插入图片描述
    相当于,之前的旋转是指明了拉伸的方向,所以我们理解了:特征值就是拉伸的大小,特征向量指明了拉伸的方向
    之前说的运动,特征值就是运动的速度,而特征向量就是运动的方向,而其余方向的运动就由 特征向量方向的运动合成。所以最大的特征值 对于的特征向量指明了运动速度的最大方向。

    最后左乘 P − 1 = [ − 2 2 2 2 2 2 2 2 ] P^{-1}=\begin{bmatrix} -\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2}\\ \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \end{bmatrix} P1=[22 22 22 22 ]

    在这里插入图片描述

    特征值和特征向量的含义的应用

    从线性空间的角度上看,在一个定义了内积的线性空间里,对一个N阶对称的方阵进行 特征分解,就是产生了该空间 的N个标准正交基,然后把矩阵投影在N个基上。
    N个特征向量就是N个正交基,而特征值的绝对值 则是代表矩阵在每个基上的投影长度
    一般而言,特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多。
    应用到 最优化中,意思就是 R的二次型。 自变量在这个方向上变化的时候,对函数值的影响最大,也就是在该方向上的导数最大。
    应用到数据挖掘中,意思就是最大的特征值 对应的特征向量的方向上包含的信息量度,而特征值小的对应的特征向量方向上的信息很小,可以删除,从而达到降维的目的。也就是保留特征值大的方向对于的数据。
    可以查看我的另一篇:数据降维的一个栗子:葡萄酒分类

    补充一点

    准确地来说,所有的方阵都有特征值和特征向量。
    矩阵特征值的求法是写出特征方程lλE-Al=0
    左边解出含有λ的特征多项式,比如说是含有λ的2次多项式,我们学过,是可能没有实数解的,(Δ<0)
    这个时候我们说这个矩阵没有【实特征值】
    但是如果考虑比如Δ<0时,有虚数的解,,也就是有虚数的特征值的
    这样说来就必有特征值啦!

    展开全文
  • 特征值分解和奇异值分解

    千次阅读 2020-12-09 07:42:33
    特征值分解特征值分解是将一个方阵A分解为如下形式: 其中,Q是方阵A的特征向量组成的矩阵, 是一个对角矩阵,对角线元素是特征值。通过特征值分解得到的前N个特征向量,表示矩阵A最主要的N个变化方向。利用这前N个...
  • 特征值

    千次阅读 2017-03-15 11:27:35
    特征值是线性代数中的一个重要概念。在数学、物理学、化学、计算机等领域有着广泛的应用。设 A 是n阶方阵,如果存在数m和非零n维列向量 x,使得 Ax=mx 成立,则称 m 是A的一个特征值(characteristic value)或本征...
  • 对于只能约当块对角化的n维方阵A,当它有0特征值时,如果0特征值的Jordan block有a个,也就是0特征值的eigenspace的维数为a,0特征值的a个Jordan block广义特征向量的维数加起来为b,其他各个非零特征值的...
  • 【矩阵论】特征值的估计(上下界和盖尔圆)

    千次阅读 多人点赞 2020-06-04 22:38:43
    前言:为什么不直接求特征值而是去估计特征值? 当我们遇到的不是书本上的3阶或4阶矩阵,而是高阶矩阵时(如图像中的256×256),我们再使用特征方程det⁡(λI−A)=0\det(\lambda I -A)=0det(λI−A)=0来求特征值就...
  • A为n阶矩阵,若数和向量x满足,那么数称为A的特征值,x称为A对应于特征值的特征向量。如果把式子改写成,那么就叫做A的特征多项式。 在MATLAB中,求解特征值和特征向量,格式如下: [V,D]=eig(A) 备注:该函数也...
  • 如何理解特征值为复数的情况

    万次阅读 多人点赞 2019-10-03 13:49:58
    如何理解特征值为复数的情况 特征值与特征向量 特征值可定义为,若有Ax=λxAx=\lambda xAx=λx,则称xxx为AAA的特征向量,λ\lambdaλ为相应的特征值。这时我们可以发现,如果λλλ是实数,那么矩阵AAA对向量xxx的...
  • 二、举个例子1、计算特征值与特征向量2、用特征向量表示任意向量三、理解其他结论1、对角化分解2、矩阵的特征值分别是原矩阵特征值的倒数3、特征值为0,意味着不可逆4、通过解Ax⃗=λx⃗A\vec{x}=\lambda \vec{x}Ax=...
  • 特征值和特征向量具有良好的性质,是线性代数中的重要概念之一,在多元统计分析方法中也具有重要的应用。在数学上,特别是线性代数中, A为n阶矩阵,若数λ和n维非0列向量v,满足Av=λv,那么数λ称为A的特征值,v...
  • 【矩阵论】广义特征值问题

    千次阅读 2020-06-05 13:47:31
    前言:什么是广义特征值问题? 【广义特征值问题】设A=(aij)∈Rn×nA=(a_{ij})\in \mathbb{R}^{n\times n}A=(aij​)∈Rn×n是nnn阶实对称矩阵,B=(bij)∈Rn×nB=(b_{ij})\in \mathbb{R}^{n\times n}B=(bij​)∈Rn×...
  • 特征值分解

    千次阅读 2021-03-23 18:39:39
    文章目录特征值和特征向量的几何意义数学语言描述特征值和特征向量特征值分解特征值分解的过程参考资料 特征值和特征向量的几何意义 矩阵和向量作乘法,向量会变成另一个方向或长度的新向量,主要会发生旋转、伸缩的...
  • matlab怎么求特征值

    千次阅读 2021-04-18 03:22:51
    matlab怎么求特征值?求矩阵的特征值和特征向量方法方法/步骤第一步我们首先需要知道计算矩阵的特征值和特征向量要用eig函数,可以在命令行窗口中输入help eig,查看一下eig函数的用法,如下图所示:第二步在命令行...
  • MATLAB求解矩阵特征值的六种方法

    万次阅读 多人点赞 2021-02-04 15:22:56
    矩阵特征值的求解 关于这个特征值的求解一共六种方法 幂法 反幂法 QR方法 对称QR方法 jacobi方法 二分法 接下来就着重讲解这些算法的是如何使用的 幂法 算法如下, 输入: 矩阵A、非零矢量x0、maxit(2000)、tol(1.0...
  • 矩阵的特征值和特征向量的性质

    千次阅读 2022-03-22 17:00:08
    什么是特征值和特征向量 A为一个N阶方阵,为一个向量,为一个值。 满足上述等式,则称为一个特征向量,为一个特征值 注:1、方阵才有特征值、特征向量,非方阵没有 2、特征向量 3、设,则复数范围内,A恰有...
  • 什么是特征向量和特征值

    千次阅读 2019-07-05 10:24:45
    就有特征值 1 特征值和特征向量的由来 谈到线性代数课本里面的一些概念,比如行列式、矩阵乘积、线性变换、二次型等,或许很少人知道它们是谁发现的,这不像高数/数分课本上那么明显:柯西收敛准则、拉格朗日...
  • 如何求矩阵的特征值和特征向量

    万次阅读 多人点赞 2020-10-30 16:41:47
    举例求解矩阵的特征值和特征向量 (先明确:只有方阵才能求出特征值,非方阵只能求奇异值)   直接举一个例子:求下面矩阵M的特征值和特征向量。 M=[460−3−50−3−61] M =\begin{bmatrix} 4 & 6 &...
  • import numpy as np ...print ("eigsh elapsed time: ", elapsed) 输出: eigh elapsed time: 12.561862699999999 eigsh elapsed time: 2.3652462000000014 可见,对于 5000 维的对称矩阵,求解其最大特征值只需 2 秒
  • python求矩阵的最大特征值及对应的特征向量

    千次阅读 多人点赞 2021-07-11 22:47:34
    直接看下面的代码就行啦! import numpy as np #输入矩阵 A = np.array([[1, 1/2, 4, 3, 3], [2, 1, 7, 5, 5], [1/4, 1/7, 1, 1/2, 1/3], ...#求解特征值即特征向量 lamda = np.linalg.eig(A) fo.
  • 特征值与特征向量

    万次阅读 2019-08-23 16:58:11
    本文参考《Linear Algebra and Its Applications》——...一:特征值,特征向量 定义如下: A为n*n的矩阵,x为非零向量,若存在数λ使Ax=λx有非平凡解x,则称λ为A的特征值,x称为对应于λ的特征向量。 例:设,...
  • 深入理解矩阵的特征值和特征向量

    万次阅读 多人点赞 2019-09-16 16:29:40
    原 【数学基础】矩阵的特征向量、特征值及其含义 ...
  • 线性代数教程 矩阵的特征值

    千次阅读 2020-11-26 19:00:49
    CSDN 的文档显示有一些问题,一些数学符号显示不正确,想看 word文档 的可以移步到 github:...矩阵的特征值与特征向量 特征值与特征向量 对于n阶矩阵A,如果存在数值 λ和非0向...
  • QR法求解特征值特征向量

    千次阅读 2021-04-05 20:58:48
    当Ak基本收敛到为上三角矩阵时,迭代完成,此时主对角元素就是特征值。 特别地:当A是对称阵的时候,Ak是对角阵Λ,Q=Qk-1Qk-2…Q1就是其正交特征向量矩,有QTAQ=Ak=Λ,即A正交对角化与Ak。 如何理解?我们看下图...
  • 特征值篇1——特征值和特征向量特征值篇1--特征值和特征向量_thompson的博客-CSDN博客​blog.csdn.net特征值篇2——特征子空间特征值篇2--特征子空间_thompson的博客-CSDN博客​blog.csdn.net特征值篇3——矩阵可...
  • 如何理解矩阵特征值的意义?

    千次阅读 2020-05-22 09:33:11
    如何理解矩阵特征值的意义? 毕业多年,曾经有同事问我该如何理解特征值的意义? 当时,实在羞愧,我一学数学的,真不知该如何回答。 ...... 多年后有点感悟了,就当还愿吧,本文将从几何、医学、物理三个视角试图...
  • 矩阵的特征值与特征向量1 基本定义2 性质3 计算例1例2例34 特征值与特征向量的性质 注意:由于已经过了大学要考线性代数的年纪,关于矩阵的初等变化、齐次与非齐次方程的求解这种期末考试要计算的问题没有进行梳理 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 948,832
精华内容 379,532
关键字:

特征值

友情链接: 3. katz2018.rar