精华内容
下载资源
问答
  • 自适应Tikhonov正则化参数估计方法
  • Tikhonov正则化算法.m

    2020-06-10 10:12:59
    利用MATLAB,对方程的病态性进行正则化,利用Tikhonov正则化算法,将真实值与正则化后的值进行对比
  • 关于解决病态方程组常用的Tikhonov正则化方法,对开始学习求解不适定问题有比较大的意义。
  • 基于Tikhonov正则化的模糊系统辨识方法
  • 具有Tikhonov正则化的收敛非负反卷积算法
  • Tikhonov正则化选取的方法

    万次阅读 2018-12-20 09:28:30
    Tikhonov正则化方法由Andrey Tikhonov命名,最常用来进行不适定问题的正则化。在统计学中,这种方法称为“岭回归”,在机器学习领域,被称为“weight decay”。在更多的独立研究中,同样称为Tikhonov-Miller方法、...

    1.1 Tikhonov Regularization

    Tikhonov正则化方法由Andrey Tikhonov命名,最常用来进行不适定问题的正则化。在统计学中,这种方法称为“岭回归”,在机器学习领域,被称为“weight decay”。在更多的独立研究中,同样称为Tikhonov-Miller方法、Phillips-Twomey方法、约束线性反演方法和线性正则化方法。Tikhonov正则化方法与非线性最小二乘问题的Levenberg-marquardt算法紧密相关的。

    假设一个已知的矩阵A和向量b,我们希望求得一个向量x,如下表示:

    Ax=b                                                     (1)

    求解x的标准方法为线性回归经典最小二乘。但是,如果没有x满足该等式或者不止一组x满足,这就意味着解不唯一,即该问题称为不适定问题(ill-posed problems)。像这样的案例中,经典最小二乘估计值会导致过拟合或者获得方程的欠定解。很多的现实世界中的现象都具有正向低通滤波的效果,其中x通过A映射到b。因此,在求解反演问题时,反演问题的解决方法就存在类似高通滤波器放大噪声的趋势(特征值/奇异值在反向映射中值很大而在正向映射中值很小)。经典最小二乘的方法的基本原理是:残差平方和最小,因此可表示为如下形式:

    min:Ax-b22                                               (2)

    为了获得具有理想性质的特解,可以在此最小化中包含了正则化项:

    Ax-b22x22                           (3)

    在很多的案例中,直接将Tikhonov矩阵Γ作为一个确定的矩阵(Γ=αI),这可以获得一个较小的范数解,这是著名的L2正则化。这种正则化改进了问题的条件,从而获得直接的数值解。这种解的显示表达为:

    x=(ATA+ΓTΓ)-1ATb                                                 (4)

    这种正则化的结果最终受到矩阵Γ的影响。如果矩阵Γ=0的话,上述的正则化解就是经典最小二乘的解。

    L2正则化方法除了分解在线性回归中使用外,也被应用与其他的领域:基于逻辑回归或支持向量机的分类和矩阵中。

    1.2 Generalized Tikhonov regularization

    对于x和数据误差的多元正态分布,可以通过应用变量转化使误差减小。同样地,可以获得以下x的最小目标方程:

    Ax-bp2+x-x0Q2                                    (5)

    其中,x-x0Q2表示含权范数xTQx(Mahalanobis distance)。基于贝叶斯解释,P是b的协方差矩阵的逆阵,x0是x的期望值,Q是x的协方差矩阵的逆阵。Tikhonov矩阵的因式分解式为:Q=ΓTΓ(Cholesky 分解)并且认为其为白化滤波器。

           这种广义问题的最优化解可以显示地表示为:

    x*=(ATPA+Q)-1(ATPb+Qx0)                                 (6a)

    或者等价为:

    x*=x0+ATPA+Q-1ATPb-Ax0                             (6b)

     

    1.3 Relation to singular-value decomposition and Wiener filter

           当Γ=αI时,可以使用奇异值分解对最小二乘解进行分析。则Tikhonov正则化解可以奇异值分解为以下形式:

    x=VDUTb                                                            (7)

    其中,D是一个对角阵:Dii=σiσi2+α2

    最后,其维纳滤波器(Wiener Filter)的相关表达式为:

    x=i=1qfiuiTbσivi                                                           (8)

    其中,fi=σi2σi2+α2表示为维纳权重,q为A矩阵的秩。

     

    1.4 Determination of the Tikhonov factor

    正则化参数a通常是未知的,经常需要根据实际问题使用特殊的方法进行确定。一种可能的方法依赖于下面描绘的贝叶斯解释(Bayesian interpretation)。其他的方法包含:偏差原理(discrepancy Principle)、交叉验证(cross-validation)、L曲线法(L_Curve Method)、限制性最大似然估计(restricted maximum likelihood)和无偏预测风险估计(Unbiased predictive risk estimator)。Grace Wahba证明了这种最优参数,去一法交叉验证最小(leave-one-out cross-validation):

    G=RSSτ2=Ax-y2TrI-A(ATA+α2I)-1AT2                                           (9)

    其中RSS表示残差平方和,t表示自由度。

           使用之前的SVD方法,我们可以讲话上述的表达式:

    RSS=y-i=1q(ui'b)ui2+i=1qα2α2+σi2(ui'b)ui2                            (10a)

    RSS=RSS0+i=1qα2α2+σi2(ui'b)ui2                                    (10b)

    τ=m-i=1qσi2α2+σi2=m-q+i=1qα2α2+σi2                              (10c)

    2单参数正则化(方法整理)

           根据上述可知,这种在统计意义上的线性模型(1),通过观测值求解出未知参数,在工程和物理科学中被称作为反演问题。繁衍问题分为两种:1)如果正定阵(ATPA)是数值上稳定可逆的,解是良态的;2)如果正定阵(ATPA)是奇异的和病态的,解是病态的。在我们的研究中主要是针对后者病态的问题。经过诸多学者们长时间的研究,求解反演问题的方法主要分为以下5种方法:(1)Tikhonov正则化;(2)岭估计;(3)贝叶斯和/或随机方法;(4)条件约束解;(5)截断奇异值法。

           根据式(4)和(6)我们可以发现正则化的结果的影响受到正则化矩阵Γ或Q的变化而变化。根据Xu et al.(2006),我们可以将式(4)和(6)重写成如下的形式:

    xα=(ATA+αK)-1ATL                                                (11)

    其中,α表示非负的正则化参数,K表示为一个正定阵(或者为非负定阵),是一个可以根据实际的应用背景确定的方阵。如果α等于0,那么上述的正则化参数解即为经典最小二乘解。在卫星大地测量领域,K可以通过使用Kaula准则或者他的修正的Kaula准则进行确定[2][3]。正则化解的好坏取决于正则化参数α选取的恰当性。

           目前,最常用来求解正则化参数α有以下的三种方法:1)使用GCV(Generalized Cross-Validation)准则进行求解;2)L-曲线法;3)均方差(Mean Square of Estimation,MSE)最小准则进行求解。三种方法基于不同的指标确定正则化参数,所选取的正则化参数也是不尽相同的。下面我们将会阐述这三种方法求解正则化参数的方法。

    2.1 GCV方法

           对于正则化参数α的选取方法,统计学家们提出了多种方法,在这些方法中,比较常用的方法为岭迹法和GCV法。

        岭迹法悬着正则化参数的原理是:使α在一定步长下遍历[0,+∞)之间所有的值,将x对应的各个值绘制在同一张图上,选择岭迹大体都稳定的点所对应的α值作为正则化参数。这种方法比较直观,但是缺少严格的理论依据,并且正则化参数的选择具有一定程度上的主观随意性。

        而GCV方法选取正则化参数时,需要求解GCV函数的最小值。根据Golub et al.(1979)提出的方法,我们可以得到关于α的函数为

    GCVα=1nI-HαL2[1ntr(I-H(α))]2                         (12)

    其中,Hα=A(ATPA+αI)-1ATP,n为观测值的个数;tr表示矩阵的迹。

        根据式(12)求解出的函数的最小值对应的α即为GCV法获取的最优的正则化参数解。这种方法的缺点是:GCV函数的变化过于平缓,此时定位其最小值比较困难。但是其仅仅利用了观测值的信息,不需要更多的附加信息。

    2.2 L-曲线法

           由式(3)可知,Ax-Lx都是正则化参数α的函数,选择不同的α值,以Ax-L为横坐标,x为纵坐标画图,得到许多的(Ax-L,x)点,经过曲线拟合得到一条曲线。这条曲线恰好为“L”形状,利用这条曲线来选择正则化参数的方法称为“L-曲线”法。

           L-曲线法的关键是定位L-曲线上曲率最大的点,选择其对应的α值作为正则化参数。常用的都使用对数的形式推导公式:

           令η=2logx,ρ=2logAx-L则L-曲线是由许多点ρ2,η2拟合而成。分别用η',η'',ρ',ρ''表示η,ρ的一阶、二阶导数。η,η',η'',ρ,ρ',ρ'' 都是关于正则化参数α的函数(Hansen et al.,1993;Hansen,1992)。那么L-曲线上点的曲率k的计算公式为:

    k=2(ρ'η''-ρ''η')(ρ')2+(η')23/2                                             (13)

         式(13)求的最大值,可以得到最大的曲率kmax,其对应的点即为所求。这样,就能够定位到曲率最大的那个点,这个点所对应的α值就是L-曲线法所确定的正则化参数。上式应用L-曲线法选择的正则化参数的合理性在于这种方法强调数据拟合度部分Ax-L2和解x2之间的平衡,这种平衡是通过正则化参数α来实现的。L-曲线选择的正则化参数不是最优的,而是近似最优的。

    2.3 MSE

           众所周知,最小二乘估计是方差最小无偏估计,而基于最小二乘估计的正则化方法的结果是有偏的(Xu,1992a,1992b,1998,2009,Xu & Rummel,1994,1995,Xu et al.,2006a,2006b, Shen et al.,2012)。对式(11)求取其的数学期望,则正则化的最小二乘估计可以被重新写成以下形式:

    Exα=xN+αk-1x                                            (14)

    其中,x表示待估参数的真值。因此,最小二乘的正则化解的偏差向量为:

    bα=-αN-αI-1x                                              (15)

    由于偏差bα的存在,不能根据式(11)通过方差协方差传播率来获得xα的误差估值。定义关于xα的MSE包含了观测值误差和偏差项引起的xα的方差:

    MSExα=σ02N+αk-1NN+αk-1                                       

    +α2N+αk-1xxTN+αk-1                                      (16)

    当MSExα的迹最小时,所对应的α值被选取作为最优的正则化参数。但是,由于x很难被获或者说不能够被获取,但可以使用xα的估值代替(Xu, 1992)。为了获取最优的正则化参数α值,我们将式(16)进行如下的整理变换:

    MSExα=σ02N+αk-1-αN+αk-1σ02                                      

    +α2N+αk-1xxTN+αk-1                                      (17)

    并对正定矩阵N进行谱分解(特征分解),则MSExα的迹可以表示为以下的形式:

    trMSExα=σ021λi-σ02αλi+α2+α2yi2λi2

    =σ02α2λi+α2+α2yi2λi+α2                                           (18)

    其中yi表示Y=GTxα第i个元素。

           对式(18)中的正则化参数α求一阶和二阶导,可以获得如下的式子[15]:

    trMSExα∂α=σ02-2λiλi+α3+2yi2αλi2+-2yi2α2λi3

    =2λiyi2α-σ02λi+α3=f(α)                                                  (19)

    2trMSExαα2=2λiλiyi2-2yi2α+3σ02λi4                                              (20)

    尽管式(19)是非线性等式,很难获得精确的结果。因此,可以使用数值分析的方法进行正则化参数的求解。由式(20)分析,无法判断λi-2α的正负号,所以不能够给出一阶导数的曲线的增减趋势。已知正则化参数是大于零的,又根据经验可知正则化参数的值一定不大于法矩阵N的最大特征值λmax的。当α=0时,式(19)始终是个小于零的值,即MSExα的迹在[0,λmax]的最左端的局部区域是单调递减的趋势,如果在0的右端存在一个数使得一阶导数的值大于零,则MSExα存在局部极小值点,通过判断极小值与端点的最值的大小选取对应点的正则化参数。根据Xu(1992)提出的正则化参数的选取方法,总结如下:

    1. 若最小二乘解xLS存在,为了加快迭代速度可采用起始值α0=nσ02/xLSTxLS作为迭代的起始数据。若最小二乘解xLS不存在,任何α0R+都可以作为迭代的起始数据。
    2. fα0>0,取α2=α0,α1=cα00<c<1, c的选择只需要满足条件fα1>0;反之,若fα2<0,取α1=α0,α2=cα0c>1, c的选择只需要满足条件fα2<0
    3. 取α=(α2+α1)/2作为解的近似解;
    4. fα>0α2=α,否则取α1
    5. 重复步骤3)和4),直至闭区间1,α2]的长度小于给定的限值。

     参考文献

    Barry D (1986) Nonparametric Bayesian regression. Ann Stat 14:934–953

    Hadamard, Jacques (1902). Sur les problèmes aux dérivées partielles et leur signification physique. Princeton University Bulletin. pp. 49–52.

    Tikhonov A N, Arsenin V Y. Solutions of Ill-posed problems[M]. John F, trans. New York:Halsted Press, 1977.

    Tikhonov AN (1963a) Regularization of ill-posed problems. Dokl Akad Nauk SSSR 151(1):49–52

    Tikhonov AN (1963b) Solution of incorrectly formulated problems and the regularization method. Dokl Akad Nauk SSSR 151(3):501–504

    Golub G H, Heath M, Wahba G. Generalized Gross-Validation as a Method for Choosing a Good Ridge Parameter[J]. Technometrics, 1979, 21, 215-223.

    KaulaWM(1961) A geoid and world geodetic system based on a combination of gravimetric, astrogeodetic and satellite data. J Geophys Res B66:1799–1811

    Hansen P C. 1987. The truncated SVD as a method for regularization. BIT,(27):534~553.

    Gui Q M et al. 2002. Biased estimation based on SVD and its application in geodetic adjustment. Bollettino di Geodesiae Science Affini,(2):99~106.

    Kaula WM (1966) Theory of satellite geodesy. Blaisdell London

    Hansen P C. 1992. Analysis of discrete ill-posed problems by mean of the L-Curve. SIAM Review,34(4),:561~580.

    Hansen P C., O’Leary D P. 1993. The Use of the L-Curve in the regularization of discrete ill-posed problems. SIAM J. Sci. Comput., 14(6):1487~1503

    Xu PL (1992) Determination of surface gravity anomalies using gradiometric observables. Geophys J Int 110:321–332

    Xu PL (1998) Truncated SVD methods for discrete linear ill-posed problems. Geophys J Int 135:505–514

    Xu PL, Shen YZ, Fukuda Y, Liu YM (2006a) Variance components estimation in linear inverse ill-posed models. J Geod 80:69–81

    Xu PL, Fukuda Y, Liu YM (2006b) Multiple parameter regularization: numerical solution and application to the determination of geopotential from precise satellite orbits. J Geod 80:17–27

    Xu PL (2009) Iterative generalized cross-validation for fusing heteroscedastic data of inverse ill-posed problems. Geophys J Int 179:182–200. doi:10.1111/j.1365-246X.2009.04280.x

    Xu PL, Rummel R (1994) A generalized ridge regression method with applications in determination of potential fields. Manus Geod 20:8–20

    Shen Y. Xu P.L., Li B.F.(2012). Bias-corrected regularized solution to inverse ill-posed models. Journal of Geodesy, 86(8), 597-608.

    Hoerl AE, Kennard RW (1970) Ridge regression: biased estimation for nonorthogonal problems. Technometrics 12:55–67

    Hemmerle W (1975) An explicit solution for generalized ridge regression. Technometrics 17:309–314

    Hemmerle W, Brantle TF (1978) Explicit and constrained generalized ridge estimation. Technometrics 20:109–120

    展开全文
  • 不适定算子方程的预测-校正迭代Tikhonov正则化方法,吴传生,刘文,迭代Tikhonov正则化方法是求解不适定问题最重要的正则化方法之一,有效解决了Tikhonov正则化方法中存在的饱和效应,但其依然存在迭代�
  • 研究了周期边界条件下Tikhonov正则化的预处理共轭梯度算法,提出了新的预处理矩阵和变化正则化参数的方法。正则化参数先取较大值,抑制复原图像中的噪声,得出收敛的结果来修正初始梯度;再取较小值,用来增强复原...
  • 结合Tikhonov正则化方法的近红外漫射光血流成像技术
  • 从不适定问题的求解思想出发,建立了使用Tikhonov正则化方法计算流场参量分布的光偏折层析重建技术。理论上详细讨论了偏折信息的转化、投影方程组的正则化、以及由共轭梯度法实现求解等三个主要步骤。用数值模拟考察...
  • 带有强大的自适应tikhonov正则化的谱去卷积和特征提取
  • 通过对反问题的病态性问题进行分析,将Tikhonov正则化方法引入到同步电机参数的辨识中。在仿真中设置多个测试场景,仿真结果表明,与传统的最小二乘参数辨识法相比,所提方法能克服系统的病态性并有效地对电机参数...
  • 针对计算鬼成像采样过程中出现的数据扰动及采样次数不易较多所引起的鬼图像质量较差的问题,提出了一种基于Tikhonov正则化的计算鬼成像方法。该方法利用一个表征噪声强度的约束项,将计算鬼成像问题转化为信号误差与...
  • 实例:Tikhonov 正则化模型用于图片去噪对于真实图片 和带噪声的图片 (其中 是高斯白噪声)。 Tikhonov 正则化模型为:其中 , 分别表示 在水平和竖直方向上的向前差分, 为正则化系数。 上述优化问题的目标函数中,第...

    实例:Tikhonov 正则化模型用于图片去噪

    对于真实图片 eacd7769198d1a8ad053c268137e4827.png 和带噪声的图片 05a2ea0e2b7dccd81d40d331aa3d8484.png(其中 b3852625d9522fbf7dc5cfc01a307776.png 是高斯白噪声)。 Tikhonov 正则化模型为:

    5eb301be8238d0568ff38a9e35f89612.png

    其中 031ba23be7b15de4bb6b10f0c72f7674.png, 3b4dbbf002c8876308e9847488031dc5.png 分别表示 97dda86a6e3af778b43c762653693c06.png 在水平和竖直方向上的向前差分, 2ee3f8d82988928e818cc49099aed902.png 为正则化系数。 上述优化问题的目标函数中,第二项要求恢复的 97dda86a6e3af778b43c762653693c06.png 有较好的光滑性,以达到去噪的目的。 注意到上述目标函数是可微的,我们利用结合BB步长和非精确搜索的 的梯度下降对其进行求解。

    目录

    图片和参数准备

    设定随机种子。clear;

    seed = 97006855;

    ss = RandStream('mt19937ar','Seed',seed);

    RandStream.setGlobalStream(ss);

    载入未加噪的原图作为参考,记录为 u0 。u = load ('tower.mat');

    u = u.B1;

    u = double(u);

    [m,n] = size(u);

    u0 = u;

    生成加噪的图片,噪声 b3852625d9522fbf7dc5cfc01a307776.png的每个元素服从独立的高斯分布 b1f86337f3c4d2f835dc5a85b7eba082.png ,并对每个像素进行归一化处理(将像素值转化到[0,1]区间内)。注意到 MATLAB 的 imshow 函数(当第二个参数设定为空矩阵时),能够自动将矩阵中最小的元素对应到黑色,将最大的元素对应为白色。u = u + 20*randn(m,n);

    maxu = max(u(:)); minu = min(u(:));

    u = (u - minu)/(maxu - minu);

    参数设定,以一个结构体提供各参数,分别表示 97dda86a6e3af778b43c762653693c06.png,梯度和函数值的停机标准,输出的详细程度,和最大迭代次数。opts = struct();

    opts.xtol = 1e-8;

    opts.gtol = 1e-6;

    opts.ftol = 1e-16;

    opts.record = 1;

    opts.maxit = 200;

    求解正则化优化问题

    分别取正则化系数为 26e972974475f0fef36ae8be67fb0b54.pngc91641544762a9f73af89daae34890a6.png ,利用带BB 步长的梯度下降求解对应的优化问题,见 。lambda = 0.5;

    fun = @(x) TV(x,u,lambda);

    [x1,~,out1] = fminGBB(u,fun,opts);

    lambda = 2;

    fun = @(x) TV(x,u,lambda);

    [x2,~,out2] = fminGBB(u,fun,opts);

    结果可视化,将不同正则化系数的去噪结果以图片形式展示。subplot(2,2,1);

    imshow(u0,[]);

    title('原图')

    subplot(2,2,2);

    imshow(u,[]);

    title('高斯噪声')

    subplot(2,2,3);

    imshow(x1,[]);

    title('\lambda = 0.5')

    subplot(2,2,4);

    imshow(x2,[]);

    title('\lambda = 2')

    print(gcf,'-depsc','tv.eps')

    Tikhonov 正则化模型的目标函数值和梯度计算

    该无约束优化问题的目标函数为:

    9e0f00fdf1527c10d9e4e8b998074177.pngfunction [f,g] = TV(x,y,lambda)

    % $y, \lambda$ 分别表示带噪声图片和正则化参数, |f| , |g| 表示在 |x| 点处的目标函数值和梯度。

    %

    % 第一项 $\frac{1}{2}\|x-y\|_F^2$ 用于控制去噪后的图片 $x$和带噪声的图片 $y$之间的距离。

    f = .5*norm(x - y, 'fro')^2;

    计算两个方向上的离散差分, 89d5ca5d627d00f90e04d777c4a630c0.png, 2023bd11f01b9e0f506d4e30b6b63818.png。[m,n] = size(y);

    dx = zeros(m,n); dy = zeros(m,n); d2x = zeros(m,n);

    for i = 1:m

    for j = 1:n

    ip1 = min(i+1,m); jp1 = min(j+1,n);

    im1 = max(i-1,1); jm1 = max(j-1,1);

    dx(i,j) = x(ip1,j) - x(i,j);

    dy(i,j) = x(i,jp1) - x(i,j);

    离散的拉普拉斯算子 d2x : a245936d8349ad263b5168ff2c71ac03.png。d2x(i,j) = x(ip1,j) + x(im1,j) + x(i,jp1) + x(i,jm1) - 4*x(i,j);

    end

    end

    计算目标函数的第二项(Tikhonov 正则化)并与第一项合并得到当前点处的目标函数值。f = f + lambda * (norm(dx,'fro')^2 + norm(dy,'fro')^2);

    目标函数的梯度可以解析地写出:

    84aaa282e54b8148078524fea28933eb.pngg = x - y - 2*lambda*d2x;

    end----------- fminBB -----------

    Iter tau f(X) nrmG XDiff FDiff ls-Iter

    1 1.00e-03 2.629222e+03 1.45e+02 5.95e-03 8.00e-03 1

    2 1.51e-01 9.175358e+02 4.11e+01 8.91e-01 6.51e-01 1

    3 1.64e-01 7.462106e+02 1.84e+01 2.75e-01 1.87e-01 1

    4 1.72e-01 7.065740e+02 1.01e+01 1.29e-01 5.30e-02 1

    5 2.69e-01 6.907343e+02 6.47e+00 1.11e-01 2.24e-02 1

    6 2.07e-01 6.873219e+02 4.80e+00 5.47e-02 4.93e-03 1

    7 1.71e-01 6.855923e+02 2.75e+00 3.34e-02 2.51e-03 1

    8 1.22e-01 6.849654e+02 1.56e+00 1.37e-02 9.13e-04 1

    9 1.90e-01 6.845722e+02 1.11e+00 1.21e-02 5.73e-04 1

    10 5.10e-01 6.841900e+02 4.77e-01 2.31e-02 5.57e-04 1

    11 6.50e-01 6.843040e+02 1.69e+00 1.27e-02 1.66e-04 1

    12 1.24e-01 6.841453e+02 1.81e-01 8.52e-03 2.32e-04 1

    13 1.13e-01 6.841432e+02 5.07e-02 8.32e-04 2.93e-06 1

    14 1.14e-01 6.841430e+02 4.34e-02 2.35e-04 3.96e-07 1

    15 7.89e-01 6.841422e+02 1.17e-02 1.40e-03 1.13e-06 1

    16 7.62e-01 6.841422e+02 1.12e-02 3.65e-04 1.64e-08 1

    17 4.27e-01 6.841422e+02 4.78e-03 1.94e-04 3.00e-08 1

    18 3.20e-01 6.841422e+02 7.08e-03 6.24e-05 1.23e-09 1

    19 1.43e-01 6.841422e+02 1.85e-03 4.14e-05 3.98e-09 1

    20 1.15e-01 6.841422e+02 2.94e-04 8.64e-06 2.88e-10 1

    21 1.16e-01 6.841422e+02 2.48e-04 1.39e-06 1.33e-11 1

    22 3.12e-01 6.841422e+02 1.63e-04 3.16e-06 2.30e-11 1

    23 8.69e-01 6.841422e+02 4.40e-05 5.76e-06 1.80e-11 1

    24 8.68e-01 6.841422e+02 2.26e-04 1.56e-06 4.33e-12 1

    25 1.57e-01 6.841422e+02 7.42e-05 1.45e-06 4.21e-12 1

    26 1.21e-01 6.841422e+02 1.10e-05 3.65e-07 4.72e-13 1

    27 1.18e-01 6.841422e+02 5.44e-06 5.26e-08 1.44e-14 1

    28 1.58e-01 6.841422e+02 2.77e-06 3.51e-08 4.98e-15 1

    29 3.05e-01 6.841422e+02 9.32e-07 3.45e-08 1.99e-15 1

    ----------- fminBB -----------

    Iter tau f(X) nrmG XDiff FDiff ls-Iter

    1 1.00e-03 1.026495e+04 5.71e+02 2.38e-02 3.18e-02 1

    2 4.19e-02 2.703994e+03 1.83e+02 9.77e-01 7.37e-01 1

    3 4.69e-02 1.686197e+03 9.35e+01 3.51e-01 3.76e-01 1

    4 4.92e-02 1.377296e+03 5.89e+01 1.88e-01 1.83e-01 1

    5 8.74e-02 1.192642e+03 4.67e+01 2.10e-01 1.34e-01 1

    6 5.73e-02 1.140369e+03 3.76e+01 1.09e-01 4.38e-02 1

    7 4.92e-02 1.106747e+03 2.57e+01 7.54e-02 2.95e-02 1

    8 3.31e-02 1.090588e+03 1.73e+01 3.47e-02 1.46e-02 1

    9 6.35e-02 1.073568e+03 1.40e+01 4.48e-02 1.56e-02 1

    10 1.99e-01 1.046828e+03 9.63e+00 1.13e-01 2.49e-02 1

    11 3.21e-01 1.100469e+03 6.46e+01 1.26e-01 5.12e-02 1

    12 3.26e-02 1.036404e+03 4.77e+00 8.59e-02 5.82e-02 1

    13 3.08e-02 1.035957e+03 2.45e+00 5.99e-03 4.31e-04 1

    14 3.13e-02 1.035775e+03 2.30e+00 3.13e-03 1.75e-04 1

    15 5.25e-01 1.034289e+03 1.39e+00 4.94e-02 1.43e-03 1

    16 3.98e-01 1.034501e+03 2.67e+00 2.26e-02 2.05e-04 1

    17 1.56e-01 1.034173e+03 2.23e+00 1.70e-02 3.17e-04 1

    18 8.73e-02 1.034226e+03 3.13e+00 7.95e-03 5.09e-05 1

    19 3.89e-02 1.034060e+03 5.86e-01 4.96e-03 1.60e-04 1

    20 3.39e-02 1.034054e+03 2.25e-01 8.11e-04 6.05e-06 1

    21 3.67e-02 1.034052e+03 2.01e-01 3.37e-04 1.66e-06 1

    22 5.22e-02 1.034050e+03 1.83e-01 4.27e-04 1.93e-06 1

    23 5.19e-01 1.034040e+03 1.89e-01 3.86e-03 1.02e-05 1

    24 2.48e-01 1.034053e+03 9.94e-01 1.91e-03 1.30e-05 1

    25 4.91e-02 1.034043e+03 6.13e-01 1.99e-03 9.47e-06 1

    26 3.05e-02 1.034038e+03 6.78e-02 7.62e-04 5.60e-06 1

    27 3.08e-02 1.034038e+03 5.74e-02 8.52e-05 1.26e-07 1

    28 1.24e-01 1.034037e+03 3.79e-02 2.91e-04 2.93e-07 1

    29 2.39e-01 1.034037e+03 2.80e-02 3.69e-04 2.82e-07 1

    30 4.92e-01 1.034037e+03 3.50e-02 5.62e-04 2.21e-07 1

    31 6.05e-01 1.034039e+03 3.63e-01 8.63e-04 2.69e-06 1

    32 4.59e-02 1.034037e+03 1.54e-01 6.79e-04 2.29e-06 1

    33 3.77e-02 1.034037e+03 4.97e-02 2.36e-04 4.17e-07 1

    34 3.33e-02 1.034037e+03 2.53e-02 6.76e-05 5.49e-08 1

    35 5.37e-02 1.034037e+03 1.11e-02 5.55e-05 2.33e-08 1

    36 8.19e-02 1.034037e+03 5.12e-03 3.71e-05 5.67e-09 1

    37 9.77e-02 1.034037e+03 8.37e-03 2.04e-05 2.64e-10 1

    38 3.33e-02 1.034037e+03 2.60e-03 1.14e-05 1.13e-09 1

    39 3.34e-02 1.034037e+03 2.39e-03 3.55e-06 2.04e-10 1

    40 4.07e-02 1.034037e+03 2.27e-03 3.96e-06 2.18e-10 1

    41 8.42e-01 1.034037e+03 1.01e-03 7.81e-05 2.19e-09 1

    42 7.26e-01 1.034037e+03 1.70e-02 2.98e-05 4.70e-09 1

    43 4.77e-02 1.034037e+03 9.71e-03 3.31e-05 3.19e-09 1

    44 3.06e-02 1.034037e+03 1.46e-03 1.21e-05 1.42e-09 1

    45 3.13e-02 1.034037e+03 1.08e-03 1.87e-06 5.61e-11 1

    46 1.10e-01 1.034037e+03 2.20e-04 4.85e-06 6.90e-11 1

    47 1.24e-01 1.034037e+03 9.48e-05 1.11e-06 2.73e-12 1

    48 1.01e-01 1.034037e+03 6.96e-05 3.89e-07 2.97e-13 1

    49 7.62e-02 1.034037e+03 8.56e-05 2.16e-07 3.25e-14 1

    50 3.34e-02 1.034037e+03 2.35e-05 1.17e-07 1.16e-13 1

    51 3.26e-02 1.034037e+03 2.10e-05 3.13e-08 1.58e-14 1

    52 3.88e-02 1.034037e+03 1.99e-05 3.32e-08 1.63e-14 1

    53 7.31e-01 1.034037e+03 1.41e-05 5.94e-07 1.53e-13 1

    54 5.04e-01 1.034037e+03 7.10e-05 2.90e-07 9.95e-14 1

    55 1.24e-01 1.034037e+03 1.97e-04 3.60e-07 4.57e-13 1

    56 3.18e-02 1.034037e+03 1.43e-05 2.56e-07 5.71e-13 1

    57 3.05e-02 1.034037e+03 6.92e-06 1.78e-08 4.17e-15 1

    58 3.75e-02 1.034037e+03 4.43e-06 1.06e-08 1.32e-15 1

    59 9.71e-02 1.034037e+03 2.37e-06 1.76e-08 1.32e-15 1

    60 9.63e-02 1.034037e+03 1.60e-06 9.32e-09 2.20e-16 1

    61 1.92e-01 1.034037e+03 1.36e-06 1.25e-08 6.59e-16 1

    62 1.28e-01 1.034037e+03 1.53e-06 7.12e-09 0.00e+00 1

    92bc127b884585392d876202669b81ae.png

    结果分析

    首先针对图片去噪的效果进行分析。我们发现利用 Tikhonov 正则化模型可以有效地去除图片中的噪声。 当正则化系数 2ee3f8d82988928e818cc49099aed902.png 增大时,去噪的效果逐渐增强,但是图片中的物体边界也逐渐模糊。

    同时我们也对带BB 步长的梯度下降法在其中的表现进行分析:在这两个问题中 BB 步长的梯度下降法都以非常迅速地速度收敛到了最优值。当最终收敛时,我们看到梯度的范数 nrmG 已经很小,这表明算法有较好的收敛性。同时注意到,虽然我们采用了回退法的线搜索方法, 但是在上面的应用中 BB 步长总是自然地满足了线搜索准则的要求,因此没有进行额外的步长衰减 (每一步的步长试探次数 ls-Iter 均为1)。

    参考页面

    在此页面中我们利用梯度法求解模型,算法详见 带BB步长线搜索的梯度法 。

    版权声明

    此页面为《最优化:建模、算法与理论》、《最优化计算方法》配套代码。 代码作者:文再文、刘浩洋、户将,代码整理与页面制作:杨昊桐。

    著作权所有 (C) 2020 文再文、刘浩洋、户将

    展开全文
  • 传统的红外与可见光图像融方法将图像分解为多个频域分量后分别融合再相加,存在边缘模糊、对比度低等问题,为此提出了一种基于Tikhonov正则化和细节重建的融合方法。首先,利用Tikhonov正则化将图像分解为基本层和细节...
  • 关于具Robin边值的反向热传导问题的一种改进的Tikhonov正则化方法,张卫华,冯晓莉,反向热传导问题是经典的严重不适定问题,即问题的解(如果存在)不连续依赖于定解数据。本文 用一种改进的Tikhonov正则化方法处理具...
  • Tikhonov正则化 包含运动匹配 有效解决反问题。
  • 提出了只利用少数历元的GPS单频相位数据快速定位的新方法,主要从两方面考虑:一方面基于TIKHONOV正则化原理,通过构造合理正则化矩阵来减弱法方程的病态性,得到较准确的模糊度浮动解及其相应的均方误差阵;另一方面采用...
  • 针对移动最小二乘算法在图像变形过程中,求解的线性方程组系数矩阵会出现不可逆、求解不稳定的问题,通过引入Tikhonov正则化,运用L-曲线法求解正则参数,对系数矩阵施加约束项从而得到精确解,避免病态方程组的形成;...
  • 介绍了Tikhonov正则化超分辨率重建算法的基本原理和特点,在原有正则化空域图像复原方法的基础上,根据多帧序列图像之间的互补信息,提出一种改进的正则化空域图像复原的新方法,该算法直接将正则化函数作用于图像超...
  • Tikhonov正则化和L曲线

    万次阅读 多人点赞 2017-01-04 18:26:10
    先谈谈我的理解和总结,然后附上资料截图:总结Tikhonov正则化是为了求解反问题的一种退而求其次的逼近方法,这些反问题无法或者难以求得精确解,因此通过施加约束,使得问题在约束允许误差内可求解。这个施加的约束...

    先谈谈我的理解和总结,然后附上资料截图:

    总结

    Tikhonov正则化是为了求解反问题的一种退而求其次的逼近方法,这些反问题无法或者难以求得精确解,因此通过施加约束,使得问题在约束允许误差内可求解。

    这个施加的约束值为多少?就是L曲线想要解决的问题,L曲线通过平衡约束值带来的放大误差以及近似解与精确解的误差来获取适合的参数值(最终两类误差相互制约,因此寻求拐点)

    资料

    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述

    定理2.3下面的证明不容易懂,其他都比较简洁明了

    参考:几种不适定问题的正则化方法及其数值实现_郑恩希

    展开全文
  • 文章算法来自王彦飞的论文《数值求解迭代Tikhonov正则化方法的一点注记》
  • 节点定位是无线传感器网络实现检测和跟踪的一个重要前提。针对多边定位中的不适定问题,提出了一种基于Tikhonov正则化的WSN多边定位算法研究。
  • 基于Tikhonov正则化方法进行求解,在三维空间中建立了定位模型,利用偏差原理解决了最 优正则化参数选择问题。室内定位实验结果表明三维空间定位正则化参数可以选取55,定位误差可以控制在2 in左右,优于 经典的极大...
  • 直接可用,包括曲线估计,gcv估计,岭估计,适用于解决最小二乘中的过拟合问题。可以被用于参数识别,模态识别等多参数识别及优化问题
  • 机器学习中的各种范数与正则化 对于统计机器学习算法一般为缓解过拟合现象的发生需要在进行正则化操作,通过正则化以偏差的增加换取方差的减小,因此优秀的正则化操作即是在保证方差较小的情况下,偏差尽可能的小。...

    机器学习中的各种范数与正则化

    对于统计机器学习算法一般为缓解过拟合现象的发生需要在进行正则化操作,通过正则化以偏差的增加换取方差的减小,因此优秀的正则化操作即是在保证方差较小的情况下,偏差尽可能的小。有关偏差与方差的介绍可以参考我的这篇笔记

    PoderLee:Bias - Variance Dilemma(偏差-方差窘境)zhuanlan.zhihu.com
    f991242efd4afdaf248a581f365ac90f.png

    最常见的方法即为在损失函数中引入矩阵范数,以对模型的复杂程度做出惩罚,即模型的权值参数(一般不考虑惩罚偏置,这主要是因为惩罚偏置首先不会有明显效果,其次惩罚偏置可能会造成模型欠拟合),其目标函数一般如下式所示:

    equation?tex=min%5Cquad+%5Ctilde+J%28%5Ctheta%3BX%2Cy%29%3D%5Cunderbrace%7BJ%28%5Ctheta%3BX%2Cy%29%7D_%7B%281%29%7D%2B%5Cunderbrace%7B%5Calpha+%5COmega%28%5Ctheta%29%7D_%7B%282%29%7D%5Ctag%7B1%7D

    上式中,第一项即为经验风险,第二项即为正则化项。其中

    equation?tex=%5Calpha%5Cgeq0 ,为调整两者之间关系的系数。当
    equation?tex=%5Calpha%3D0 时,则表示无正则化项,
    equation?tex=%5Calpha 越大则表示对应正则化惩罚越大。
    • equation?tex=L%5E2
      范数正则化

    equation?tex=+L_2%3A%5Cqquad+%5COmega%28%5Ctheta%29%3D%5Cfrac12%7C%7Cw%7C%7C%5E2_2%5Ctag%7B2%7D

    这里我们假设模型的偏置参数均为0,则参数

    equation?tex=%5Ctheta 即为
    equation?tex=w ,因此其目标函数为:

    equation?tex=+%5Ctilde+J%28w%3BX%2Cy%29%3DJ%28w%3BX%2Cy%29%2B%5Cfrac%7B%5Calpha%7D%7B2%7Dw%5ETw%5Ctag%7B3%7D+

    对上式求其梯度有:

    equation?tex=+%5Cnabla_w%5Ctilde+J%28w%3BX%2Cy%29%3D%5Cnabla_wJ%28w%3BX%2Cy%29%2B%5Calpha+w%5Ctag%7B4%7D+

    使用梯度下降法更新权重

    equation?tex=w ,则
    equation?tex=w 将向负梯度方向收敛,如下:

    equation?tex=+w%5C%3B%5Cleftarrow%5C%3Bw-%5Cepsilon%28%5Cnabla_wJ%28w%3BX%2Cy%29%2B%5Calpha+w%29%3D%281-%5Cepsilon%5Calpha%29w-%5Cepsilon%5Cnabla_wJ%28w%3BX%2Cy%29%5Ctag%7B5%7D+

    从中可以看出每次权值

    equation?tex=w 更新时都将乘以
    equation?tex=%281-%5Cepsilon%5Calpha%29 ,该常数因子小于0,即权重将会逐渐收缩,趋近于0。

    进一步地,这里令

    equation?tex=w%5E%2A%3Darg%5C%2Cmin_wJ%28w%29 (将
    equation?tex=J%28w%3BX%2Cy%29 简记为
    equation?tex=J%28w%29 ),即
    equation?tex=w%5E%2A 为损失函数
    equation?tex=J%28w%3BX%2Cy%29 取得最小训练误差的权值。并在
    equation?tex=w%5E%2A 的邻域对损失函数
    equation?tex=J%28w%29 做二次近似(泰勒展开),记为
    equation?tex=%5Chat+J%28w%29 ,如下:

    equation?tex=%5Chat+J%28w%29%3DJ%28w%5E%2A%29%2B%5Cfrac12%28w-w%5E%2A%29%5ETH%28w-w%5E%2A%29%5Ctag%7B6%7D

    上式中

    equation?tex=H
    equation?tex=J
    equation?tex=w%5E%2A 处计算的Hessian矩阵,且该矩阵为半正定矩阵。由上述知,
    equation?tex=w%5E%2A 为损失函数的最优解,因此
    equation?tex=%5Chat+J%28w%29 的梯度将为0,即式(6)对
    equation?tex=w 求偏导为0,如下所示:

    equation?tex=+%5Cnabla_w+%5Chat+J%28w%29%3D%28w-w%5E%2A%29H%3D0%5Ctag%7B7%7D+

    equation?tex=%5Cwidetilde+w 为最优权值
    equation?tex=w ,将式(7)代入式(4):

    equation?tex=%5Cnabla_w%5Ctilde+J%28%5Ctilde+w%29%3D%5Calpha+%5Ctilde+w%2B%28%5Ctilde+w-w%5E%2A%29H%3D0%5Ctag%7B8%7D+

    故:

    equation?tex=+%28H%2B%5Calpha+I%29%5Ctilde+w%3DHw%5E%2A%5C%5C++%5Ctilde+w%3D%28H%2B%5Calpha+I%29%5E%7B-1%7DHw%5E%2A%5Ctag%7B9%7D

    (由于Hesian矩阵为半正定矩阵,故其为实对称阵。因此有

    equation?tex=%28%5Ctilde+w-w%5E%2A%29H%3DH%28%5Ctilde+w-w%5E%2A%29

    equation?tex=%5Calpha 趋向于0时,
    equation?tex=%5Ctilde+w 将趋近于
    equation?tex=w 。我们将实对称Hesian矩阵
    equation?tex=H 分解为一个对角矩阵
    equation?tex=%5Cwedge 和一组特征向量的标准正交基
    equation?tex=Q ,因此有
    equation?tex=H%3DQ%5Cwedge+Q%5ET ,代入式(9),可得

    equation?tex=+%5Ctilde+w%3D%28Q%5Cwedge+Q%5ET%2B%5Calpha+I%29%5E%7B-1%7DQ%5Cwedge+Q%5ETw%5E%2A%3D%5BQ%28%5Cwedge+%2B%5Calpha+I%29Q%5ET%5D%5E%7B-1%7DQ%5Cwedge+Q%5ETw%5E%2A%3D%5C%5C+Q%5E%7BT%5E%7B-1%7D%7D%28%5Cwedge%2B%5Calpha+I%29%5E%7B-1%7DQ%5E%7B-1%7DQ%5Cwedge+Q%5ETw%5E%2A%3DQ%28%5Cwedge+%2B%5Calpha+I%29%5E%7B-1%7D%5Cwedge+Q%5ETw%5E%2A%5Ctag%7B10%7D+

    从上式中可以看出经过正则化后,权重

    equation?tex=%5Ctilde+w 将会沿着由
    equation?tex=H 特征向量所定义的轴缩放未经标准化的损失函数最优解
    equation?tex=w%5E%2A
    具体来说,我们会根据
    equation?tex=%5Cfrac%7B%5Clambda_i+%7D%7B%5Clambda_i%2B%5Calpha%7D 因子收缩与
    equation?tex=H
    equation?tex=i 个特征向量对齐的
    equation?tex=w%5E%2A 的分量。如下图所示。

    429f2b2018e715eb6ab009a5a7a8a343.png
    图1. 特征向量作用效果图

    上图为特征向量的作用效果图,这里矩阵有两个标准正交特征向量,对应的特征值分别为

    equation?tex=v%5E%7B%281%29%7D
    equation?tex=v%5E%7B%282%29%7D 。其中左图为所有单位向量
    equation?tex=%5Cmu%5Cin%5CBbb+R%5E2 集合构成的单位圆。右图为特征值的拉伸结果。

    由于特征向量的缩放因子为

    equation?tex=%5Cfrac%7B%5Clambda_i+%7D%7B%5Clambda_i%2B%5Calpha%7D ,故沿着特征值较大的方向(如
    equation?tex=%5Clambda_i+%3E%3E%5Calpha )正则化影响较小。而
    equation?tex=%5Clambda_i+%3C%3C%5Calpha 将会收缩至几乎为零。因此
    equation?tex=L%5E2 范数将使模型的参数趋近于0附近。

    通过

    equation?tex=L%5E2 正则化,在显著减小目标函数方向上的参数会被相对完整的保留,而对于无助于目标函数减小的方向(对应Hessian矩阵较小的特征值),其参数的改变将不会显著参加梯度,因此其在训练过程中会因正则化项而衰减至0。

    此外,在线性回归的平方误差损失函数中引入二范数,即在原来逆矩阵的基础上加入对角阵,使得矩阵求逆可行,同时缓解过拟合的问题。而由于加入的对角矩阵,其就像一条“山岭”一样,因此,

    equation?tex=L%5E2 在统计学中也被称为岭回归或Tikhonov正则。

    线性回归目标函数一般为:

    equation?tex=+L%28w%29%3D%28Xw-y%29%5ET%28Xw-y%29%5Ctag%7Ba%7D
    equation?tex=+%5Cnabla_wL%28w%29%3DX%5ET%28Xw-y%29%3D0%5Ctag%7Bb%7D 固有:
    equation?tex=X%5ETXw%3DX%5ETy+%5Ctag%7Bc%7D 即:
    equation?tex=w%3D%28X%5ETX%29%5E%7B-1%7DX%5ETy+%5Ctag%7Bd%7D 当引入
    equation?tex=L%5E2 正则项后,目标函数变为:
    equation?tex=L%28w%29%3D%28Xw-y%29%5ET%28Xw-y%29%2B%5Cfrac12%5Calpha+w%5ETw%5Ctag%7Be%7D 则:
    equation?tex=%5Cnabla_wL%28w%29%3DX%5ET%28Xw-y%29%2B%5Calpha+w%5ET%3D0%5Ctag%7Bf%7D
    equation?tex=w%3D%28X%5ETX%2B%5Calpha+I%29%5E%7B-1%7DX%5ETy+%5Ctag%7Bg%7D 此即为岭回归。

    上式中第(1)项

    equation?tex=X%5ETX 即为线性回归标准最小二乘项,第(2)项
    equation?tex=%5Calpha+I 即为正则化项,为一对角阵。

    另外从另一个角度理解,当

    equation?tex=X%5ETX 非正定时(某些参数线性相关),其无法求逆。此时解决的方法一般包括两种:(a)通过PCA构建线性无关组,进行降维处理,删除无关特征,求逆;(b)二范数正则化,即通过增加取值较小的对角阵使得矩阵求逆可行。由于PCA方法处理后其剔除了一些贡献程度较小的特征,而二范数只是将部分无关特征权值缩放置0附近,因此二范数也被称为Soft-PCA。
    • equation?tex=L%5E1
      范数正则化

    equation?tex=L%5E1 范数形式如下:

    equation?tex=+%5COmega%28%5Ctheta%29%3D%7C%7Cw%7C%7C_1%3D%5Csum_i%7Cw_i%7C%5Ctag%7B11%7D+

    如上式所示,

    equation?tex=L%5E1 范数为各参数的绝对值之和。(
    equation?tex=L%5E1 范数求导、优化困难,因此较
    equation?tex=L%5E2 范数相比使用较少)对于,
    equation?tex=L%5E1 范数其目标函数如下所示:

    equation?tex=+%5Ctilde+J%28w%3BX%2Cy%29%3DJ%28w%3BX%2Cy%29%2B%5Calpha+%7C%7Cw%7C%7C_1%5Ctag%7B12%7D+

    其对应的梯度如下:

    equation?tex=%5Cnabla_w%5Ctilde+J%28fw%3BX.y%29%3D%5Cnabla_wJ%28w%3BX%2Cy%29%2B%5Calpha+sign%28w%29%5Ctag%7B13%7D+

    上式中,

    equation?tex=sign%28w%29 为符号函数,其取值结果只与个权值
    equation?tex=w 的正负号有关。

    同理,这里令

    equation?tex=w%5E%2A%3Darg%5C%2Cmin_wJ%28w%29 ,我们可以将
    equation?tex=L%5E1 正则化目标函数的二次近似解分解为关于各参数求和的形式:

    equation?tex=+%5Chat+J%28w%29%3DJ%28w%5E%2A%29%2B%5Csum_i%5B%5Cfrac12H_%7Bi%2Ci%7D%28w_i-w_i%5E%2A%29%5E2%2B%5Calpha+%7Cw_i%7C%5D%5Ctag%7B14%7D+

    对每一维

    equation?tex=w_i 求梯度,以最小化式(14)。由于
    equation?tex=W%5E%2A
    equation?tex=J%28w%29 的最优解,因此有
    equation?tex=%5Cnabla_wJ%28w%29%3D0 ,故:

    equation?tex=%5Cnabla_%7Bw_i%7D+%5Chat+J%28w%29%3D%5BH_%7Bi%2Ci%7D%28w_i-w_i%5E%2A%29%2B%5Calpha+sign%28w_i%5E%2A%29%5D%3D0%5Ctag%7B15%7D 即:
    equation?tex=+w_i%3Dw_i%5E%2A-%5Cfrac%7B%5Calpha%7D%7BH_%7Bi%2Ci%7D%7Dsign%28w_i%5E%2A%29

    equation?tex=w_i%5E%2A 的正负号分类讨论,则上式将等价于:

    equation?tex=+w_i%3Dsign%28w_i%5E%2A%29max%5Clbrace%7Cw_i%5E%2A%7C-%5Cfrac%7B%5Calpha%7D%7BH_%7Bi%2Ci%7D%7D%2C0%5Crbrace%5Ctag%7B16%7D+

    equation?tex=w_i%3E0 时,会有两种结果:

    a.

    equation?tex=w_i%5E%2A%5Cleq%5Cfrac%7B%5Calpha%7D%7BH_%7Bi%2Ci%7D%7D 。此时式(16)的最优值为
    equation?tex=w_i%3D0

    b.

    equation?tex=w_i%5E%2A%3E%5Cfrac%7B%5Calpha%7D%7BH_%7Bi%2Ci%7D%7D
    此时则有
    equation?tex=w_i%3Dw_i%5E%2A-%5Cfrac%7B%5Calpha%7D%7BH_%7Bi%2Ci%7D%7D ,即
    equation?tex=w_i 在此方向上向0收缩
    equation?tex=%5Cfrac%7B%5Calpha%7D%7BH_%7Bi%2Ci%7D%7D 个距离。

    同理,当

    equation?tex=w_i%3C0 时,
    equation?tex=w_i 也将等于0或向0收缩。

    equation?tex=L%5E2 范数相比,
    equation?tex=L%5E1 范数正则化使得部分参数为0。因此,
    equation?tex=L%5E1 范数会产生更稀疏的解,该性质已被大量应用于特征的选择机制。著名的LASSO回归即将
    equation?tex=L%5E1 范数引入至线性模型中,并使用最小二乘代价函数。通过
    equation?tex=L%5E1 正则化使得部分权值为零,而忽略相应的特征。如图2所示。

    95ab9ab5dd352b341d9b137757431e9a.png
    图2. 一范数与二范数示意图

    上图中,蓝色的圆圈表示原问题可能的解范围,橘色的表示正则项可能的解范围。而整个目标函数(原问题(损失函数)+正则项)有解当且仅当两个解范围相切。从上图可以很容易地看出,由于

    equation?tex=L%5E2 范数解范围是圆,所以相切的点有很大可能不在坐标轴上,而由于
    equation?tex=L%5E1 范数是菱形,其相切的点更可能在坐标轴上。因此其只有一个坐标分量不为零,其它坐标分量为零,即
    equation?tex=L%5E1 的解是稀疏的。

    equation?tex=L%5E2 范数正则化,模型权重服从高斯分布,
    equation?tex=L%5E1 范数正则化,模型参数服从各向同性的拉普拉斯分布。即
    equation?tex=L%5E1 正则化项
    equation?tex=%5Calpha+%5COmega%28w%29%3D%5Calpha+%5Csum_i%7Cw_i%7C 与通过MAP贝叶斯推断最大化对数先验项等价。此外,相较于
    equation?tex=L%5E2 而言,采用
    equation?tex=L%5E1 模型的鲁棒性较差(每次至零的权值均不相同)。

    equation?tex=log%28p%28w%29%29%3D%5Csum_ilogLaplace%28w_i%3B0%2C%5Cfrac1%7B%5Calpha%7D%29%3D%5Csum_ilog%28%5Cfrac%7B1%7D%7B%5Cfrac%7B2%7D%7B%5Calpha%7D%7D%28%5Cfrac%7B-%7Cw_i%7C%7D%7B%5Cfrac%7B1%7D%7B%5Calpha%7D%7D%29%29%3D%5Csum_ilog%28%5Cfrac%7B%5Calpha%7D%7B2%7D%5Ccdot%28-%5Calpha%7Cw_i%7C%29%29%5C%5C%3D%5Csum_ilog%28%5Cfrac%7B%5Calpha%7D%7B2%7D%29%2B%5Csum_ilog%28-%5Calpha%7Cw_i%7C%29%3D-%5Calpha%7C%7Cw%7C%7C_1%2Bnlog%5Calpha-nlog2%5Ctag%7B17%7D+

    (拉普拉斯分布:

    equation?tex=Laplace%28x%3B%5Cmu%2C%5Cgamma%29%3D%5Cfrac%7B1%7D%7B2%5Cgamma%7Dexp%28%5Cfrac%7B-%7Cx-%5Cmu%7C%7D%7B%5Cgamma%7D%29 )

    由于目标函数是关于

    equation?tex=w 的最大化进行学习,因此可以忽略
    equation?tex=nlog%5Calpha-nlog2
    • equation?tex=L%5E0
      范数

    equation?tex=L%5E0 范数如下所示:

    equation?tex=+%7C%7Cw%7C%7C_0%3D%5C%23%28i%29%5C%3Bwith%5C%3Bw_i%5Cneq+0%5Ctag%7B18%7D

    equation?tex=L%5E0 范数即为模型参数中不为0的数目。在实际问题中,模型一般较为复杂,参数数目较多,因此求解
    equation?tex=L%5E0 范数为NP难问题,故一般不使用。在过去的前几年做压缩感知即稀疏表达时一般会使用0范数,但由于其优化困难因此会用1范替代。
    • Frobenius范数

    Frobenius范数如下所示:

    equation?tex=+%7C%7Cw%7C%7CF%3D%28tr%28w%5Etw%29%29%5E%7B%5Cfrac12%7D%3D%28%5Csum_i%5Em%5Csum_j%5En%7Cw%7Bi%2Cj%7D%7C%5E2%29%5E%7B%5Cfrac12%7D%5Ctag%7B19%7D

    从上式可以明显看出,矩阵的Frobenius范数就是将矩阵张成向量后的

    equation?tex=L%5E2 范数。(在此就不做推导了)

    各类范数一般作为各类机器学习模型权值的约束项(惩罚项)出现在目标函数中,训练过程以使得结构风险最小化,防止过拟合的发生。

    此外有关泛化的其它方法如下:

    • 数据增强

    数据增强也能增加模型的泛化性能,如对图像的彩色通道进行一定程度的抖动(FancyPCA),对图像进行水平翻转(镜像处理),但这里需要注意的是水平翻转不应改变数据类别(如对于文字,字符的识别一般不会进行horizontal flipping)。

    2551c5849c0dfd89c117ae03acc73a52.png
    图像彩色通道随机抖动

    e233fcdacd666b65aa3107a5acc32e66.png
    水平翻转
    • 随机噪声

    随机噪声的注入也是一种正则化的方法,其等价于权值正则操作(Bishop,1995)。我们可以将噪声注入至模型的任意部分(当然一般选择将其添加至隐层而非输出),通过噪声的注入虽然无法保证能找到最优解,但我们可以将参数更新至一个相对平坦的区域,使其对于数据的随机扰动更加鲁棒。

    • 标签平滑操作

    在图像识别中,其标签一般为one-hot值,如[1,0,0,0,0],而模型的预测输出结果一般为经过softmax处理后的概率值如[0.9,0.03,0.01,0.005,0.055]。这样在训练过程中,我们需要让网络尽可能的去拟合one-hot编码,此时将会导致weights的调整越来越大。故一种简单的想法是对label进行smoothing,如下:

    equation?tex=y_%7Blabel%7D%3D%5B1-%5Cepsilon%2C%5Cfrac%7B%5Cepsilon%7D%7BK-1%7D%2C%5Cfrac%7B%5Cepsilon%7D%7BK-1%7D%2C...%2C%5Cfrac%7B%5Cepsilon%7D%7BK-1%7D%5D

    上式中,

    equation?tex=%5Cepsilon 即为标签的随机噪声,通过引入平滑操作改变one-hot label使训练更加平稳。

    Early Stopping

    在网络的训练过程中,经常会遇到过训练的问题,即模型通过不断训练,其在训练集上的损失不断减小而验证集的误差将不断增加。

    69ffcc84ab365c3ec62ac4d43558b1cc.png
    loss

    从上图可以看出,Validation set loss呈现出一种非对称的"U"形,因此我们期望在validation loss上升前终止迭代,即early stopping。然而在实际的操作中我们一般是通过划分出一部分数据集在每个epoch中计算validation loss,其并非generalization,即其并不能solid的反映数据的整体情况,因此一般情况下是在loss没有较大下降时停止。Early stopping在实际训练中十分常见。

    • Dropout

    Dropout操作即在训练时随机将部分参数置零(一般为全连接层),在减少训成本的同时提高模型的泛化性能。Dropout本质上也可以理解为多个subnetworks的ensemble且不需要进行votes。此外对于较大规模的数据集,regularization operation对于generalization error 的减少效果并非十分明显,而Dropout则能有效减少计算代价,因此dropout更加实用。

    cabcbf907adca9a3632dd5d011fc5029.png
    • 对抗样本

    对于图像的识别任务,虽然目前深度网在ImageNet上的精度已经超过了人类水平,但是我们只要在原始图片中掺杂一些随机的小扰动,对于人类其并不能察觉,而深度网络的输出将会变得十分的ridiculous,即fool network。因此我们可以利用对抗数据,进行对抗训练。

    240878502b57ed3a694405b0ae5b841a.png
    对抗样本

    Reference

    [1] Liang Wang. Regulaarization and Optimization. 中科院自动化研究所.

    展开全文
  • 在WRIM基础上, 结合传统的单尺度Tikhonov、 截断奇异值分解(TSVD)正则化在动态光散射反演中的优点, 提出了一种Tikhonov-TSVD-WRIM(TTWRIM)多尺度动态光散射反演方法。该方法首先将Tikhonov用于粗尺度反演范围的...
  • 针对复杂通风网络易构造病态测风求阻模型的问题,提出了基于贪婪进化算法的Tik-honov正则化参数求解方法,对模型进行修正处理。应用结果表明,该方法可以减轻模型病态的严重程度,求解复杂通风网络分支风阻,并能发挥监测...
  • 韩冰,徐彦斌*,董风

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 125
精华内容 50
关键字:

tikhonov正则化