精华内容
下载资源
问答
  • 谱范数
    千次阅读
    2020-04-03 11:26:32

    矩阵 A A A 的谱范数,即矩阵的最大奇异值,也是矩阵 A ⊤ A A^\top A AA 的最大特征值:

    σ ( A ) = λ m a x ( A ⊤ A ) \sigma(A) = \lambda_{max}(A^\top A) σ(A)=λmax(AA)

    所以矩阵的谱范数求解问题,转化成了对称半正定矩阵的最大特征值求解问题。

    原理

    先不说了,任何一本介绍数值计算(计算方法)的书中都有。

    代码

    随便找一个矩阵

    W = np.random.random((4,5))
    '''
    array([[0.59831567, 0.52058437, 0.6581224 , 0.24755064, 0.76784419],
           [0.8476122 , 0.13131183, 0.95134737, 0.92981774, 0.54269405],
           [0.25306079, 0.08213006, 0.40735018, 0.43146165, 0.01608871],
           [0.52482861, 0.29573845, 0.05674297, 0.89071016, 0.61763677]])
    '''
    

    看看标准答案是什么

    u, s, vh = np.linalg.svd(W, full_matrices=False)
    '''
    (array([[-0.50077818, -0.70142922,  0.47600239,  0.17504283],
            [-0.68886379,  0.00167538, -0.54757631, -0.47499901],
            [-0.24157433,  0.08735425, -0.44155668,  0.85967365],
            [-0.4651126 ,  0.70736375,  0.52783484,  0.06853589]]),
     array([2.37713955, 0.65264543, 0.61477236, 0.14909502]),
     array([[-0.50007589, -0.21393168, -0.46682969, -0.53972276, -0.44150507],
            [-0.03816062, -0.22763359, -0.58885071,  0.75947001, -0.15227234],
            [-0.02285485,  0.48104331, -0.58165387, -0.18165811,  0.62988419],
            [-0.2975606 ,  0.80234279,  0.1166215 ,  0.22556939, -0.45080109]]))
    '''
    

    最大奇异值为
    σ = 2.37713955 \sigma = 2.37713955 σ=2.37713955

    对应的左奇异向量为 u = [ 0.50077818 , 0.68886379 , 0.24157433 , 0.4651126 ] ⊤ u = [0.50077818, 0.68886379, 0.24157433, 0.4651126 ]^\top u=[0.50077818,0.68886379,0.24157433,0.4651126]

    对应的右奇异向量为 v = [ 0.50007589 , 0.21393168 , 0.46682969 , 0.53972276 , 0.44150507 ] ⊤ v = [0.50007589, 0.21393168, 0.46682969, 0.53972276, 0.44150507]^\top v=[0.50007589,0.21393168,0.46682969,0.53972276,0.44150507]

    迭代法求解

    v = np.random.random((W.shape[1],1))
    v /= np.linalg.norm(v)
    for i in range(10):
        u = W @ v
        v = W.T @ u
        sig = np.linalg.norm(v)/np.linalg.norm(u)
        u, v = u/np.linalg.norm(u), v/np.linalg.norm(v)
    

    只需迭代几次就可以达到相当的精度了,实际上上面的数值就是迭代计算的结果。

    当矩阵维数很大,迭代法比直接计算特征值有显著的优势!!

    更多相关内容
  • 矩阵谱范数

    千次阅读 2021-03-12 22:24:16
    1.半径 定义:设A∈Cn×n\boldsymbol{A} \in \mathbf{C}^{n \times n}A∈Cn×n的n\boldsymbol{n}n个特征值为λ1\lambda_1λ1​,λ2\lambda_2λ2​,⋯\cdots⋯,λn\lambda_nλn​,称ρ...2.矩阵半径与矩阵范数

    1.谱半径


    定义:设 A ∈ C n × n \boldsymbol{A} \in \mathbf{C}^{n \times n} ACn×n n \boldsymbol{n} n个特征值为 λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2 ⋯ \cdots λ n \lambda_n λn,称 ρ ( A ) = max ⁡ i ∣ λ i ∣ \rho(\boldsymbol{A})=\max_i \left|\lambda_i\right| ρ(A)=imaxλi A \boldsymbol{A} A的谱半径。

    2.矩阵谱半径与矩阵范数的关系


    A ∈ C n × n \boldsymbol{A} \in \boldsymbol{C}^{n \times n} ACn×n,则对 C n × n \boldsymbol{C}^{n \times n} Cn×n上任何一种矩阵范数 ∥ ⋅ ∥ \| \cdot \| ,都有 ρ ( A ) ≤ ∥ A ∥ \rho(\boldsymbol{A}) \leq \|\boldsymbol{A}\| ρ(A)A

    证明: 设矩阵 A \boldsymbol{A} A的特征值 λ \lambda λ的特征向量为 x \boldsymbol{x} x,取与矩阵范数 ∥ ⋅ ∥ \|\cdot\| 相容的向量范数 ∥ ⋅ ∥ V \|\cdot\|_V V,则由 A x = λ x \boldsymbol{Ax}=\lambda \boldsymbol{x} Ax=λx,可得 ∣ λ ∣ ∥ x ∥ V = ∥ λ x ∥ V = ∥ A x ∥ V ≤ ∥ A ∥ ∥ x ∥ V |\lambda|\|\boldsymbol{x}\|_V=\|\lambda \boldsymbol{x}\|_V= \|\boldsymbol{Ax}\|_V \leq\|\boldsymbol{A}\|\|\boldsymbol{x}\|_V λxV=λxV=AxVAxV因为 x ≠ 0 \boldsymbol{x} \neq \boldsymbol{0} x=0,所以 ∣ λ ∣ ≤ ∥ A ∥ |\lambda| \leq \|\boldsymbol{A}\| λA A \boldsymbol{A} A的任一特征值成立,从而 ρ ( A ) ≤ ∥ A ∥ \rho(\boldsymbol{A}) \leq \|\boldsymbol{A}\| ρ(A)A

    3.矩阵谱半径


     设 A ∈ C n × n \boldsymbol{A} \in \boldsymbol{C}^{n \times n} ACn×n,且记 λ \lambda λ为矩阵 A \boldsymbol{A} A的谱半径(最大特征值), x x x为其对应的右特征向量,需要证明 ρ ( A ) \rho(\boldsymbol{A}) ρ(A)不是矩阵的范数。
    证明:已知 A x = λ x \boldsymbol{Ax}=\lambda \boldsymbol{x} Ax=λx,则有:
    ( A x ) ⊤ ⋅ A x = ∣ λ ∣ 2 x ⊤ x \boldsymbol{(Ax)}^{\top}\cdot \boldsymbol{Ax}=|\lambda|^2\boldsymbol{x}^{\top}\boldsymbol{x} (Ax)Ax=λ2xx从而可以推知 ∣ λ ∣ 2 = ∥ A x ∥ 2 2 ∥ x ∥ 2 2 |\lambda|^2=\frac{\|\boldsymbol{Ax}\|_2^2}{\|\boldsymbol{x}\|_2^2} λ2=x22Ax22等式两边化简可得 ∣ λ ∣ = ∥ A x ∥ 2 ∥ x ∥ 2 |\lambda|=\frac{\|\boldsymbol{Ax}\|_2}{\|\boldsymbol{x}\|_2} λ=x2Ax2

    展开全文
  • A - 矩阵完成B - 二进制矩阵表示 A 中的值或缺失条目(相同大小,1 - 已知值,0 - 缺失值) N - 迭代次数mode - 工作模式:可以是“核”、“光谱” lambda_tol - 核/谱范数最小值的容差值tol - 对已知条目的容忍度...
  • 正规矩阵的半径等于谱范数

    千次阅读 2020-08-09 22:57:18
    文章目录正规矩阵半径谱范数证明参考资料 这里有三个定义:正规矩阵、半径、谱范数 正规矩阵 有一类矩阵 AAA,如:对角矩阵、实对称矩阵(A⊤=AA^\top = AA⊤=A)、实反对称矩阵(A⊤=−AA^\top = -AA⊤=−A)、...


    这里有三个定义:正规矩阵、谱半径、谱范数

    正规矩阵

    有一类矩阵 A A A,如:对角矩阵、实对称矩阵( A ⊤ = A A^\top = A A=A)、实反对称矩阵( A ⊤ = − A A^\top = -A A=A)、厄米特矩阵( A H = A A^H = A AH=A)、反厄米特矩阵( A H = − A A^H = -A AH=A)、正交矩阵( A T A = A A T = I A^T A = AA^T= I ATA=AAT=I)以及酉矩阵( A H A = A A H = I A^H A = AA^H = I AHA=AAH=I)等,都有一个共同的性质:
    A A H = A A H AA^H = AA^H AAH=AAH为了能够用统一的方法研究他们的相似标准型,我们引入正规矩阵的概念。
    A ∈ C n × n A \in C^{n \times n} ACn×n,且 A A H = A H A AA^H = A^HA AAH=AHA,则称 A A A 为正规矩阵。

    • 当正规矩阵的全部特征值为实数时,是厄米特矩阵;
    • 当正规矩阵的全部特征值为零或虚数时,是反厄米特矩阵;
    • 当正规矩阵的全部特征值的模为1时,是酉矩阵。

    上面提到的几个特殊矩阵都是正规矩阵,但正规矩阵并不限于以上几种。

    谱半径

    A是n阶方阵,λi是其特征值,i=1,2,…,n。则称特征值的绝对值的最大值为A的谱半径,记为ρ(A)

    谱范数

    注意要将谱半径与谱范数(2-范数)区别开来,谱范数是指A的最大奇异值,即 A H A A^HA AHA 最大特征值的算术平方根。

    谱半径是矩阵的函数,但不是矩阵范数。

    证明

    命题:A是正规阵,必然存在酉阵Q满足: Q ′ ∗ A ∗ Q = D Q' * A * Q = D QAQ=D,D为对角阵且每个对角元zhi为A的特征值。

    1. A的二范数 <=> A的最大奇异值 <=> max(sqrt(eig(A’ * A))) <=> max(sqrt(eig(D’ * D))) <=> D的模最大对角元 <=> A的谱半径,证毕!
    2. 记D = diag{λ1, λ2, …, λn}满足|λ1| ≥ |λ2| ≥ … ≥ |λn|,则|λ1|为A的谱半径。
      2.1 令x1为λ1对应的右特征向量满足A * x1 = λ1 * x1,必然有:||Ax1||₂/ ||x1||₂= |λ1| ≤ ||A||₂
      2.2 令y1为A的2范数对应的单位向量,即:||y1||₂= 1且||A||₂= ||A
      y1||₂。y1可以被Q线性表出为y1 = Q * z1,且z1也为单位向量。不难得出:||A||₂= ||Ay1||₂= ||AQz1||₂= ||Dz1||₂≤ |λ1|
      综合2.1和2.2可得:||A||₂= |λ1|,证毕!

    参考资料

    1. https://baike.baidu.com/item/%E6%AD%A3%E8%A7%84%E7%9F%A9%E9%98%B5/5982147
    2. https://zhidao.baidu.com/question/505550281.html
    3. https://www.zhihu.com/question/40181430/answer/85446211
    4. http://blog.sina.com.cn/s/blog_6edc8c0d0102wdl9.html
    展开全文
  • 谱范数正则(Spectral Norm Regularization)的理解

    万次阅读 多人点赞 2018-10-30 20:06:44
    近来,DeepMind的一篇论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(arXiv:...其中,为保证其大批次(batch够大)Gan训练的稳定性,[1]引入了谱范数正则技术(Spectral Norm Re...

    近来,DeepMind的一篇论文《LARGE SCALE GAN TRAINING FOR
    HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(arXiv:1809.11096v1)[1](通过大规模Gan训练,得到高精度的合成自然图像)引起了广泛的关注。其中,为保证其大批次(batch够大)Gan训练的稳定性,[1]引入了谱范数正则技术(Spectral Norm Regularization)。该技术从每层神经网络的参数矩阵的谱范数角度,引入正则约束,使神经网络对输入扰动具有较好的非敏感性,从而使训练过程更稳定,更容易收敛。
    谱范数正则(Spectral Norm Regularization,简称为SNR)最早来自于2017年5月日本国立信息研究所Yoshida的一篇论文[2],他们后续又于2018年2月再再arXiv发了一篇SNR用于Gan的论文[3],以阐明SNR的有效性。因为当SGD(统计梯度下降)的批次(Batch size)一大的时候,其泛化性能却会降低,SNR能有效地解决这一问题。

    SNR的讨论是从网络的泛化((Generalizability))开始的。对于Deep Learning而言,泛化是一个重要的性能指标,直觉上它与扰动(Perturbation)的影响有关。我们可以这样理解:局部最小点附近如果是平坦(flatness)的话,那么其泛化的性能将较好,反之,若是不平坦(sharpness)的话,稍微一点变动,将产生较大变化,则其泛化性能就不好。因此,我们可以从网络对抗扰动的性能入手来提升网络的泛化能力。

    一、扰动的表示

    对应多层神经网络而言,扰动(Perturbation)的来源主要有两个:1)参数的扰动;2)输入的扰动。[2]是从输入扰动的角度来进行讨论的。假设一个前馈网络的第 l l l 层有如下关系:
    x l = f l ( W l x l − 1 + b l ) ( 1 ) \mathbf x^l=f^l(W^l\mathbf x^{l-1}+\mathbf b^l)\qquad(1) xl=fl(Wlxl1+bl)(1)
    (1)中, x l \mathbf x^l xl 表示第 l l l 层的输出, x l − 1 \mathbf x^{l-1} xl1 表示第 l l l 层的输入, W l , b l W^l,\mathbf b^l Wl,bl 分别表示该层神经网络的参数矩阵和偏置向量, f l ( ⋅ ) f^l(\cdot) fl() 表示网络的非线性激活函数, l = 1 , ⋯ &ThinSpace; , L l=1,\cdots,L l=1,,L 即整个网络有L层。于是,整个网络的参数集合可用 Θ = { W l , b l } l = 1 L \Theta = \{ W^l,\mathbf b^l\}^L_{l=1} Θ={Wl,bl}l=1L 表示。
    对于给定训练集: ( x i , y i ) i = 1 K (\mathbf x_i, \mathbf y_i)^K_{i=1} (xi,yi)i=1K,其中 x i ∈ R n 0 , y i ∈ R n L \mathbf x_i \in \mathbb R^{n_0},\mathbf y_i \in \mathbb R^{n_L} xiRn0,yiRnL,则Loss 函数可以表示为:
    L o s s = 1 K ∑ i = 1 K L ( f Θ ( x i ) , y i ) ( 2 ) Loss=\frac{1}{K}\sum^K_{i=1}L(f_{\Theta}(\mathbf x_i),\mathbf y_i)\qquad(2) Loss=K1i=1KL(fΘ(xi),yi)(2)
    其中, L ( ⋅ ) L(\cdot) L() 表示我们常用的优化目标函数,如:交叉熵用于分类(Classification)任务、最小平方差 l 2 l_2 l2用于回归(Regression)任务。
    所谓输入扰动,就指:输入有一个很小的变化,引起的输出变化:
    x → x + ξ f ( x ) → f ( x + ξ ) So we define: P = ∥ f ( x + ξ ) − f ( x ) ∥ ∥ ξ ∥ ( 3 ) \mathbf x\rightarrow \mathbf x+\mathbf \xi \\ f(\mathbf x) \rightarrow f(\mathbf x +\mathbf \xi )\\ \text{So we define:}\\ P=\frac{\Vert f(\mathbf x +\mathbf \xi )-f(\mathbf x)\Vert}{\Vert \mathbf \xi \Vert} \qquad(3) xx+ξf(x)f(x+ξ)So we define:P=ξf(x+ξ)f(x)(3)
    我们要考察输入扰动的影响,可通过扰动指数—— P P P,定量分析。对于多层神经网络,其非线性的引入是由于非线性激活函数。对于常见的非线性函数,如:ReLU、maxout、maxpooling等,我们可以将它看作是分段线性函数,因此,对于 x \mathbf x x 的邻域来说,可看成是线性函数,如:ReLu。输入扰动发生在 x \mathbf x x 的邻域中,对于单层神经网络(未经激活函数)有以下关系:
    ∥ f ( x + ξ ) − f ( x ) ∥ ∥ ξ ∥ = ∥ W Θ , x ( x + ξ ) + b Θ , x − W Θ , x x − b Θ , x ∥ ∥ ξ ∥ = ∥ W Θ , x ξ ∥ ∥ ξ ∥ ≤ σ ( W Θ , x ) ( 4 ) \frac{\Vert f(\mathbf x +\mathbf \xi )-f(\mathbf x)\Vert}{\Vert \mathbf \xi \Vert} = \frac{\Vert W_{\Theta,x}(\mathbf x +\mathbf \xi )+\mathbf b_{\Theta,x}-W_{\Theta,x}\mathbf x -\mathbf b_{\Theta,x}\Vert}{\Vert \mathbf \xi \Vert}\\ =\frac{\Vert W_{\Theta,x} \xi \Vert}{\Vert \mathbf \xi \Vert} \le \sigma(W_{\Theta,x}) \qquad(4) ξf(x+ξ)f(x)=ξWΘ,x(x+ξ)+bΘ,xWΘ,xxbΘ,x=ξWΘ,xξσ(WΘ,x)(4)
    其中, σ ( W Θ , x ) \sigma(W_{\Theta,x}) σ(WΘ,x) 是矩阵 W Θ , x W_{\Theta,x} WΘ,x 的谱范数,谱范数的定义为:
     A is a matrix,  A ∈ R m × n σ ( A ) = m a x ξ ∈ R n × 1 , ξ ≠ 0 ∥ A ξ ∥ 2 ∥ ξ ∥ 2 ( 5 ) \text{ A is a matrix, } A \in \mathbb R^{m\times n}\\ \sigma(A) = max_{\xi \in R^{n\times1},\xi \neq0} \frac{\Vert A \xi \Vert_2}{\Vert\xi\Vert_2} \qquad(5)  A is a matrix, ARm×nσ(A)=maxξRn×1,ξ̸=0ξ2Aξ2(5)
    所谓谱范数,就是它所对应矩阵 A A A 的最大奇异值(Singular Value)。
    若选择网络的激活函数为ReLU,函数的作用相当于一个对角矩阵,其对角元素在输入为正时,等于1;输入为负时,等于0。于是,第 l l l 层的激活函数可表示为对角矩阵: D Θ , x l ∈ R n l × n l D_{\Theta,x}^l \in \mathbb R^{n^l\times n^l} DΘ,xlRnl×nl。由此,多层网络映射可表示为矩阵相乘,于是有:
    y = W Θ , x x . W Θ , x = D Θ , x L W L D Θ , x L − 1 W L − 1 ⋯ D Θ , x 1 W 1 ( 6 ) \mathbf y = W_{\Theta,x} \mathbf x \\ . \\ W_{\Theta,x}=D_{\Theta,x}^L W^L D_{\Theta,x}^{L-1} W^{L-1}\cdots D_{\Theta,x}^1 W^1 \qquad(6) y=WΘ,xx.WΘ,x=DΘ,xLWLDΘ,xL1WL1DΘ,x1W1(6)
    因此有:
    σ ( W Θ , x ) ≤ σ ( D Θ , x L ) σ ( W Θ , x L ) σ ( D Θ , x L − 1 ) σ ( W Θ , x L − 1 ) ⋯ σ ( D Θ , x 1 ) σ ( W Θ , x 1 ) ≤ ∏ l = 1 L σ ( W l ) ( 7 ) \sigma(W_{\Theta,x} )\le \sigma(D_{\Theta,x}^L)\sigma(W_{\Theta,x}^L)\sigma(D_{\Theta,x}^{L-1})\sigma(W_{\Theta,x}^{L-1})\cdots\sigma(D_{\Theta,x}^1)\sigma(W_{\Theta,x}^1)\le \prod_{l=1}^L \sigma(W^l)\qquad(7) σ(WΘ,x)σ(DΘ,xL)σ(WΘ,xL)σ(DΘ,xL1)σ(WΘ,xL1)σ(DΘ,x1)σ(WΘ,x1)l=1Lσ(Wl)(7)
    公式(7)给出了整个神经网络的扰动指数的上限,它是各层子网络谱范数的乘积。为限制扰动带来的影响,可将谱范数作为正则项加在传统的Loss中,于是寻优过程变为:
    Θ = arg ⁡ min ⁡ Θ ( 1 K ∑ i = 1 K L ( f Θ ( x i ) , y i ) + λ 2 ∑ i = 1 K σ ( W l ) 2 ) ( 8 ) \Theta = \arg\min_{\Theta}\left(\frac 1 K \sum_{i=1}^K L(f_{\Theta}(\mathbf x_i),\mathbf y_i) + \frac {\lambda}{2} \sum_{i=1}^K \sigma(W^l)^2 \right) \qquad(8) Θ=argΘmin(K1i=1KL(fΘ(xi),yi)+2λi=1Kσ(Wl)2)(8)
    (8)式通过惩罚各层的谱范数总和,以实现对整个网络的谱范数的限制。

    二、谱范数正则项

    在通过SGD(统计梯度下降)的方法求最优值时,需要(8)式对 Θ \Theta Θ 求梯度,在实践时,需要求出各层的最大奇异值,这将涉及大量的计算,我们可以用”幂迭代“法来近似它:
    u n ← W v n − 1 v n ← W T u n and  σ ( W l ) = ∥ u ∥ 2 ∥ v ∥ 2 ( 9 ) u_{n} \leftarrow W v_{n-1}\\ v_{n}\leftarrow W^T u_n\\ \text{and } \sigma(W^l) = \frac{\Vert u \Vert_2} {\Vert v \Vert_2} \qquad(9) unWvn1vnWTunand σ(Wl)=v2u2(9)
    v 0 v_0 v0 可以是一个随机矢量(比如:高斯矢量),通过迭代,可得到谱范数的近似值。(9)式为什么可以求出谱范数呢?[4]给出了一个推导过程,为本文的完整性,我在此重抄了一次。
    A = W T W A=W^TW A=WTW 是一个对称阵,形状为 n × n n\times n n×n,并可对角化,令其特征根为: λ 1 , ⋯ &ThinSpace; , λ n \lambda_1,\cdots,\lambda_n λ1,,λn,它们对应的归一化特征向量为: η 1 , ⋯ &ThinSpace; , η n \eta_1,\cdots,\eta_n η1,,ηn,它们相互正交,模为1。这些特征向量构成A的列矢量空间的一个基。令:
    u ( 0 ) = c 1 η 1 + ⋯ + c n η n A u ( 0 ) = A ( c 1 η 1 + ⋯ + c n η n ) = c 1 λ 1 η 1 + ⋯ + c n λ n η n A A u ( 0 ) = A A ( c 1 η 1 + ⋯ + c n η n ) = c 1 λ 1 2 η 1 + ⋯ + c n λ n 2 η n ⋯ A r u ( 0 ) = A r ( c 1 η 1 + ⋯ + c n η n ) = c 1 λ 1 r η 1 + ⋯ + c n λ n r η n u^{(0)}=c_1\eta_1+\cdots+c_n\eta_n \\ Au^{(0)}=A(c_1\eta_1+\cdots+c_n\eta_n)=c_1\lambda_1\eta_1+\cdots+c_n\lambda_n\eta_n\\ AAu^{(0)}=AA(c_1\eta_1+\cdots+c_n\eta_n)=c_1\lambda_1^2\eta_1+\cdots+c_n\lambda_n^2\eta_n\\ \cdots \\ A^ru^{(0)}=A^r(c_1\eta_1+\cdots+c_n\eta_n)=c_1\lambda_1^r\eta_1+\cdots+c_n\lambda_n^r\eta_n u(0)=c1η1++cnηnAu(0)=A(c1η1++cnηn)=c1λ1η1++cnλnηnAAu(0)=AA(c1η1++cnηn)=c1λ12η1++cnλn2ηnAru(0)=Ar(c1η1++cnηn)=c1λ1rη1++cnλnrηn
    λ 1 \lambda_1 λ1 为最大者,有:
    A r u ( 0 ) λ 1 r = c 1 η 1 + ⋯ + c n ( λ n λ 1 ) r η n ∵ λ k λ 1 &lt; 1 , ∴ lim ⁡ r → ∞ A r u ( 0 ) λ 1 r = c 1 η 1 \frac{A^ru^{(0)}}{\lambda_1^r}=c_1\eta_1+\cdots+c_n(\frac {\lambda_n} {\lambda_1})^r\eta_n \\ \because \frac{\lambda_k}{\lambda_1}\lt 1,\therefore \lim_{r\rightarrow\infty}\frac{A^ru^{(0)}}{\lambda_1^r}=c_1\eta_1 λ1rAru(0)=c1η1++cn(λ1λn)rηnλ1λk<1,rlimλ1rAru(0)=c1η1

    u = A r u ( 0 ) ∥ A r u ( 0 ) ∥ 2 ,  so . A u = A A r u ( 0 ) ∥ A r u ( 0 ) ∥ 2 ≈ A r + 1 c 1 η 1 ∥ A r u ( 0 ) ∥ 2 = λ 1 η 1 u = \frac{A^ru^{(0)}}{\Vert A^ru^{(0)}\Vert_2},\text{ so}\\ . \\ Au=A\frac{A^ru^{(0)}}{\Vert A^ru^{(0)}\Vert_2}\approx \frac{A^{r+1}c_1\eta_1}{\Vert A^ru^{(0)}\Vert_2}=\lambda_1\eta_1 u=Aru(0)2Aru(0), so.Au=AAru(0)2Aru(0)Aru(0)2Ar+1c1η1=λ1η1
    即:当r足够大时, u = η 1 u=\eta_1 u=η1 是最大特征值对应的特征向量。此时, u T A u = λ 1 u^TAu=\lambda_1 uTAu=λ1。以上(9)式所表达的迭代过程就是产生 u u u的过程。
    最后,谱正则项的实现算法如下:
    在这里插入图片描述

    小结:

    谱正则来自于一个朴素的直觉:局部最小值处平坦,则泛化能力强。然后,[2]从前馈网络入手,导出以矩阵相乘形式的近似网络函数,让我们能够用矩阵进行奇异值方法去分析,从而说明局部平坦与奇异值之间的关系,最后,在此基础上给出一个可行的正则项设计。
    这个推导过程值得我们去学习。


    参考文献:
    [1] 《LARGE SCALE GAN TRAINING FOR
    HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(arXiv:1809.11096v1)
    [2] Spectral Norm Regularization for Improving the Generalizability of Deep Learning, Yuchi Yoshida, National Institute of Informatics, 2017. 5, (arXiv: 1705.10941v1)
    [3] Spectral Normalization for Generative Adversarial Networks, Takeru Miyato, Yuchi Yoshida, 2018.2(arXiv: 1802.05957v1)
    [4] 苏剑林. (2018, Oct 07). 《深度学习中的Lipschitz约束:泛化与生成模型 》[Blog post]. Retrieved from https://kexue.fm/archives/6051

    展开全文
  • 提出了一种直接序列扩频信号(Direct Sequence Spread Spectrum,DS-SS)的盲同步算法,该算法采用自相关矩阵的谱范数进行失步点估计,简单有效、误差小。理论分析及计算机仿真结果表明,该算法在低信噪比条件下可...
  • 利用矩阵的一般理论和Gamma函数的性质,给出了r-循环矩阵A= Cr C0n ,1 2 C 1 n ,…,1 nC n-1 n 和B= Cr(0 ,C1n ,…,( n-1)Cnn -1)的谱范数的上界与下界,这里Ckn是二项式系数;得到了矩阵A与B的Kronecker积与Hadamard积...
  • 谱范数的理解与论述

    万次阅读 多人点赞 2016-09-25 21:06:09
    在数学上,一般将高维空间的点表示为一个多维向量,而任意一个点到原点的直线距离则称为该点的二范数。对于诸多的计算机或数学相关的应用领域而言,向量的二范数往往都是最为普遍而且重要的概念之一。简而言之,它...
  • 利用广义逆A(2)T,S与 Moore-Penrose逆的关系,给出广义逆 A(2)T,S在谱范数下的扰动界,推广了广义 MoorePenrose逆在谱范数下的一些结果.
  • 谱范数的证明

    千次阅读 2013-04-06 23:11:18
    谱范数证明 由于不支持word里公式的格式只能截图了,见谅!
  • 范数(Norm)和半径(Spectral Radii)

    万次阅读 2017-10-03 23:28:55
    向量(vector) x=[x1,x2,⋯,xn]Tx=[x_1,x_2,\cdots,x_n]^T ...x∗=[x1¯,x2¯,⋯,xn¯]x^*=[\bar{x_1},\bar{x_2},\cdots,\bar{x_n}]向量2范数(vector norm) ||x||2=(∑i=1n|xi|2)1/2||x||_2=(\sum_{i=1}
  • 矩阵半径与矩阵范数的关系

    万次阅读 2020-12-22 15:44:41
    矩阵半径与范数的关系
  • 2-范数 其中 是矩阵(A转置乘A)的最大特征值 F范数
  • 【矩阵论】范数和矩阵函数(1)

    千次阅读 2020-11-10 12:18:44
    说明了常见的向量范数和矩阵范数的定义与性质,结合例题给出了一些常用结论。
  • 文章目录前言环境常见范数向量范数矩阵范数Numpy 实现函数介绍 np.linalg.norm()用法示例正则化Reference 前言 本文总结描述了几种常见类型的范数,并利用 Numpy 中的计算函数加以实现。 环境 Windows 10 Python ...
  • 一、范数、条件数与半径 1. 半径ρ(A) 是矩阵A特征值模的最大值 半径小于1,矩阵序列{Ak}收敛; 半径是矩阵范数的下界 ,即 ||A||>= max(λi) = ρ(A) 2.矩阵条件数 判断矩阵病态与否的一种度量,条件...
  • 向量的范数 证明: 证明: 那么 证明: 证明: 证明: 证明: 第二节 矩阵范数 证明: 这个证明很重要!考过 矩阵二范数酉不变性证明: 证明: 第三节 算子范数 将向量x视为列矩阵,再用第二节...
  • 2.2 范数

    千次阅读 2019-01-15 20:31:55
    矩阵向量范数 我们说行列式是对矩阵变换的整体一个度量,比如他等于特征值的乘积(特征空间的体积)等等性质都能表明他确实是一个度量。我们还需要其他的度量诸如矩阵非方阵时,这种整体“大小”的度量有利于描述...
  • math:范数的物理意义-1范数,2范数

    千次阅读 2019-06-18 14:14:32
    范数,是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,范数是一个函数,是矢量空间内的所有矢量赋予非零的正长度或大小。半范数可以为非零的矢量赋予零长度。 - 向量范数 1-范数: ∣∣x∣∣1...
  • 矩阵范数//条件数

    万次阅读 2012-08-17 09:59:16
    一、向量和矩阵范数直观概念  在实数域中,数的大小和两个数之间的距离是通过绝对值来度量的。在解析几何中,向量的大小和两个向量之差的大小是“长度”和“距离”的概念来度量的。为了对矩阵运算进行数值分析,...
  • 向量范数: 向量范数定义了向量的距离,而距离满足正定,齐次,三角不等式。范数的使用可以帮助特征选择,使得模型更具解释性。 向量的范数一般有L0, L1, L2与L_infinity范数, L0范数: 定义:∥x∥0=∑i=1k∣xi∣0\...
  • 【3】最小二范数谱估计; 【适应对象】: 雷达专业、阵列信号处理专业学生; 【资源特点】: 编程规范,注释明细; 【使用建议】: 此资源为较基础的空域信号处理算法,建议结合算法的理论知识,了解代码实现的技巧...
  • 目的 研究Corach-Porta-Recht不等式的推广以及有界线性算子乘积与和的半径与范数之间的不等式关系,并且讨论初等算子的范数不等式及酉算子常数倍的一个充要条件。方法 利用算子半径的基本性质和算子矩阵理论,给...
  • 范数 引入范数 我们很容易比较两个数的大小, 2< 3 , 4<9。 但是如果想比较的是向量怎么比较呢?例如(0,0,7,8) 和 (1,2,3,4)谁的长度大? 其实这个问题很不严谨, 因为我们现在还没有定义什么是这...
  • 归一化(Spectral Normalization)的理解

    万次阅读 多人点赞 2018-11-02 11:48:12
    《Spectral Normalization for Generative Adversarial Networks》【1】是Takeru Miyato在2018年2月发表的一篇将理论应用于Gan上的文章,在2017年,本文的第3作者Yuichi Yoshida就发表了一篇著名的谱范数正则...
  • 第1章 什么是范数 1.1 常见的范数与定义 1.2 代码演示的前置条件 1.3 范数的函数说明:torch.norm(input, p='fro', dim=None) 第3章 多阶范数 3.1 一阶范数 3.2 二阶范数 3.3 无穷阶范数..
  • 矩阵论笔记(五)——向量范数与矩阵范数

    万次阅读 多人点赞 2017-03-16 11:14:57
    范数是距离在向量和矩阵上的推广,在...(4)半径; (5)矩阵的非奇异条件。1 向量范数从向量到实数的映射/函数。定义(1)条件:非负性、齐次性、三角不等式(∥x+y∥≤∥x∥+∥y∥\|x+y\| \leq \|x\| + \|y\|)。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 48,571
精华内容 19,428
关键字:

谱范数

友情链接: power_wind_dfig_avg.zip