精华内容
下载资源
问答
  • Weight Decay 权值衰减

    千次阅读 2017-03-22 09:21:43
    分别转载自不同的博客: 之一: 在机器学习中,常常会出现overfitting,网络权值越大往往overfitting的程度越高,因此...权值衰减惩罚项使得权值收敛到较小的绝对值,而惩罚大的权值。从而避免overfitting的出现

    分别转载自不同的博客:


    之一

    在机器学习中,常常会出现overfitting,网络权值越大往往overfitting的程度越高,因此,为了避免出现overfitting,会给误差函数添加一个惩罚项,常用的惩罚项是所有权重的平方乘以一个衰减常量之和。


    右边项即用来惩罚大权值。权值衰减惩罚项使得权值收敛到较小的绝对值,而惩罚大的权值。从而避免overfitting的出现。


    之二
    假设我们原来的损失函数没有weight decay项,设为E(w),这种情况下的权值更新如下:

    带有weight decay项后,损失函数变为:

    此时的更新函数为:

    这样则会使权重衰减。

    之三



    展开全文
  • [work] Weight Decay 权值衰减

    千次阅读 2018-09-09 13:03:16
    之一: 在机器学习中,常常会出现overfitting,网络权值越大往往overfitting的程度越...权值衰减惩罚项使得权值收敛到较小的绝对值,而惩罚大的权值。从而避免overfitting的出现。   之二: 假设我们原来的损失...

    之一

    在机器学习中,常常会出现overfitting,网络权值越大往往overfitting的程度越高,因此,为了避免出现overfitting,会给误差函数添加一个惩罚项,常用的惩罚项是所有权重的平方乘以一个衰减常量之和。

     

    右边项即用来惩罚大权值。权值衰减惩罚项使得权值收敛到较小的绝对值,而惩罚大的权值。从而避免overfitting的出现。

     

    之二

    假设我们原来的损失函数没有weight decay项,设为E(w),这种情况下的权值更新如下:

    带有weight decay项后,损失函数变为:

    此时的更新函数为:

    这样则会使权重衰减。

     

    之三

    展开全文
  • weight decay 权值衰减

    万次阅读 2015-03-26 20:03:36
    原文地址~::点我 在机器学习中,常常会出现overfitting,网络权值越大往往overfitting的程度越高,因此,为了避免...权值衰减惩罚项使得权值收敛到较小的绝对值,而惩罚大的权值。从而避免overfitting的出现。

    原文地址~::点我


    在机器学习中,常常会出现overfitting,网络权值越大往往overfitting的程度越高,因此,为了避免出现overfitting,会给误差函数添加一个惩罚项,常用的惩罚项是所有权重的平方乘以一个衰减常量之和。

    \begin{align}J(W,b)&= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right]                       + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\&= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right]                       + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2\end{align}


    右边项即用来惩罚大权值。权值衰减惩罚项使得权值收敛到较小的绝对值,而惩罚大的权值。从而避免overfitting的出现。



    展开全文
  • 作者 | Divyanshu Mishra编译 | ronghuaiyang转自 | AI公园导读权值衰减和L2正则化,到底是不是同一个东西,这篇文章给你答案。神经网络是伟大的函数逼近器...

    作者 | Divyanshu Mishra 

    编译 | ronghuaiyang

    转自 | AI公园

    导读

    权值衰减和L2正则化,到底是不是同一个东西,这篇文章给你答案。

    神经网络是伟大的函数逼近器和特征提取器,但有时它们的权值变得过于特定化,导致过拟合。这就是正则化概念出现的地方,我们将讨论两种主要权重正则化技术之间的细微差别,它们经常被错误地认为是相同的。

    介绍

    1943年,Warren McCulloch和Walter Pitts首先提出了神经网络,但当时还不够流行,因为神经网络需要大量数据和计算能力,这在当时是不可行的。但随着上述约束条件和其他训练技术的进步(如参数初始化和更好的激活函数)变得可行,它们再次开始主导各种比赛,并在各种人类辅助技术中找到了它的应用。

    如今,神经网络构成了许多著名应用的最主要的部分,如自动驾驶汽车、谷歌翻译、人脸识别系统等,并应用于几乎所有人类发展所使用的技术。

    神经网络非常擅长于将函数近似为线性或非线性,在从输入数据中提取特征时也非常出色。这种能力使他们在大量的任务中表现出色,无论是计算机视觉领域还是语言建模。但我们都听过这句名言:

    “能力越大,责任越大。”

    这句话也适用于全能的神经网络。它们作为强大的函数近似器的能力有时会导致它们通过逼近一个函数来过拟合数据集,这个函数在它被训练过的数据上表现得非常好,但在测试它之前从未见过的数据时却败得很惨。更有技术意义的是,神经网络学习的权值对给定的数据更加专门化,而不能学习可以一般化的特征。为了解决过拟合的问题,应用了一类称为正则化的技术来降低模型的复杂性和约束权值,迫使神经网络学习可泛化的特征。

    正则化

    正则化可以定义为我们为了减少泛化误差而不是减少训练误差而对训练算法所做的任何改变。有许多正规化策略。有的对模型添加额外的约束,如对参数值添加约束,有的对目标函数添加额外的项,可以认为是对参数值添加间接或软约束。如果我们仔细使用这些技术,这可以改善测试集的性能。在深度学习的环境中,大多数正则化技术都基于正则化估计器。当正则化一个估计量时,有一个折衷,我们必须选择一个增加偏差和减少方差的模型。一个有效的正规化是使一个有利可图的交易,显著减少方差,而不过度增加偏差。

    在实践中使用的主要正规化技术有:

    1. L2正则化

    2. L1正则化

    3. 数据增强

    4. Dropout

    5. Early Stopping

    在这篇文章中,我们主要关注L2正则化,并讨论我们是否可以将L2正则化和权重衰减作为同一枚硬币的两面。

    L2 正则化

    L2正则化属于正则化技术的一类,称为参数范数惩罚。之所以提到这类技术,是因为在这类技术中,特定参数的范数(主要是权重)被添加到被优化的目标函数中。在L2范数中,在网络的损失函数中加入一个额外的项,通常称为正则化项。例如:

    交叉熵损失函数的定义如下所示。

    为了将L2正则化应用于任何有交叉熵损失的网络,我们将正则化项添加到损失函数中,其中正则化项如下所示:

    在上式中,λ是正则化参数,与应用的正则化量成正比。如果λ=0,则不应用正则化,当λ= 1时,对网络应用最大正则化。λ是一个超参数,这意味着它不是在训练期间学习的,而是由用户手动调整或使用一些超参数调整技术,如随机搜索。

    现在让我们把这些放在一起,形成L2正则化的最终方程,应用于下式所给出的交叉熵损失函数。

    上面的例子展示了L2正则化应用于交叉熵损失函数,但这一概念可以推广到所有可用的损失函数。下式给出了L2正则化更一般的公式,其中C0为非正则化损失函数,C为加入正则化项的正则化损失函数。

    :我们在对网络进行正则化时不考虑网络的bias,原因如下:

    1、与权重相比,bias通常需要更少的数据来精确拟合。每个权重指定了两个变量如何相互作用(w和x),因此要想很好地拟合权重,就需要在各种条件下观察两个变量,而每个bias只控制一个单一变量(b)。因此,我们对bias不使用正则化,以免引入太多的方差。2、对bias进行正则化可能引入大量的欠拟合。

    为什么L2 正则化有用?

    实践推理

    让我们试着理解L2正则化基于损失函数的梯度的工作原理。如果我们对网络中所有权重和偏差取上面式子中所示方程的偏导数或梯度,即∂C/∂w和∂C/∂b。求偏导数,我们得到:

    我们可以使用backpropagation算法计算上述方程中提到的∂C0/∂w和∂C0/∂b项。由于没有应用正则化项,偏置参数的偏导将不变,而权重参数将包含额外的(λ/n)*w)正则化项。

    偏置和权重的学习规则由此变为:

    上面的权值方程类似于通常的梯度下降学习规则,除了现在我们首先通过 (1−(η*λ)/n)重新调整权值w。这就是L2正则化经常被称为权重衰减的原因,因为它使权重变小。因此,你可以看到为什么正则化工作的时候,它使网络的权值更小。权值变小意味着,如果我们在这里或那里改变一些随机输入,网络的行为不会有太大的变化,这反过来使正则化的网络很难学习数据中的局部噪声。这迫使网络只学习那些在训练集中经常看到的特征。

    个人的直觉

    简单地从优化损失函数的角度来考虑L2正则化,当我们把正则化项添加到损失函数中我们实际上增加了损失函数的值。因此,如果权值越大,损失也就越高,训练算法会试图通过惩罚权值来降低损失函数,迫使它们取更小的值,从而使网络正则化。

    L2 正则化和权值衰减是一样的吗?

    L2正则化和权值衰减并不是一回事,但是可以根据学习率对权值衰减因子进行重新参数化,从而使SGD等价。不明白?让我给你详细解释一下。

    以λ为衰减因子,给出了权值衰减方程。

    在以下证明中可以证明L2正则化等价于SGD情况下的权值衰减:

    1. 让我们首先考虑下面图中给出的L2正则化方程。我们的目标是对它进行重新参数化,使其等价于上式中给出的权值衰减方程。

    1. 首先,我们找到L2正则化损失函数相对于参数w的偏导数(梯度),如下式所示。

    注意:上图中这两种符号的意思是一样的。

    1. 得到损失函数的偏导数结果后,将结果代入梯度下降学习规则中,如下式所示。代入后,打开括号,重新排列,使其等价于在一定假设下的权值衰减方程。

    1. 你可以注意到,最终重新排列的L2正则化方程和权值衰减方程之间的唯一区别是α(学习率)乘以λ(正则化项)。为了得到两个方程,我们用λ来重新参数化L2正则化方程。

    1. 将λ'替换为λ,对L2正则化方程进行重新参数化,将其等价于权值衰减方程,如下式所示。

    从上面的证明中,你必须理解为什么L2正则化在SGD情况下被认为等同于权值衰减,但对于其他基于自适应梯度的优化算法,如Adam, AdaGrad等,却不是这样。特别是,当与自适应梯度相结合时,L2正则化导致具有较大历史参数和/或梯度振幅的权值比使用权值衰减时正则化得更少。这导致与SGD相比,当使用L2正则化时adam表现不佳。另一方面,权值衰减在SGD和Adam身上表现得一样好。

    一个令人震惊的结果是,带有动量的SGD优于像Adam这样的自适应梯度方法,因为常见的深度学习库实现了L2正则化,而不是原始的权重衰减。因此,在使用L2正则化有利于SGD的任务上,Adam的结果要比使用动量的SGD差。

    总结

    因此,我们得出结论,尽管权值衰减和L2正则化在某些条件下可以达到等价,但概念上还是有细微的不同,应该区别对待,否则可能导致无法解释的性能下降或其他实际问题。

    英文原文:https://towardsdatascience.com/weight-decay-l2-regularization-90a9e17713cd


    更多精彩内容(请点击图片进行阅读)

    公众号:AI蜗牛车

    保持谦逊、保持自律、保持进步

    个人微信

    备注:昵称+学校/公司+方向

    如果没有备注不拉群!

    拉你进AI蜗牛车交流群

    展开全文
  • weight decay (权值衰减

    千次阅读 2017-03-24 11:20:36
    原文地址:decay (权值衰减)">weight decay (权值衰减)作者:招展如桦   在机器学习或者模式识别中,会出现overfitting,而当网络逐渐overfitting时网络权值逐渐变大,因此,为了避免出现overfitting,会给误差...
  • 在机器学习或者模式识别中,会出现overfitting,而当网络逐渐overfitting时网络权值逐渐变大,因此,为了避免出现overfitting,会给误差函数添加一个惩罚项,常用的惩罚项是所有权重的平方乘以一... 权值衰减惩罚项...
  • 有一种抑制过拟合,提高泛化能力的技术,叫做权值衰减,weight decay, 它的目的是减小NN的权重参数。 但是虽然较小权值参数可以获得好的学习效果避免过拟合,我们却不可以把权重的初始值设置为0!!! 这...
  • Pytorch 解决过拟合问题(L2 权值衰减和 Dropout) 本方法总结自《动手学深度学习》(Pytorch版)github项目 部分内容延续 Pytorch 学习(五):Pytorch 实现多层感知机(MLP) 实现方法 上一节用 Pytorch 实现...
  • 作者:Divyanshu Mishra编译:ronghuaiyang导读权值衰减和L2正则化,到底是不是同一个东西,这篇文章给你答案。神经网络是伟大的函数逼近器和特征提取器,但有时它们...
  • 【学习笔记】Pytorch深度学习—正则化之weight decay权值衰减正则化与偏差—方差分解`正则化Regularization定义``什么是方差?``正则化Regularization`Pytorch中的L2正则项—weight decay 本节的主要内容分为2大部分...
  • 一、weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示...
  • 寻找最优权重参数的方法(超参数设定、dropout、权值衰减、不同的优化器) 寻找最优权重参数的最优化方法、权重参数的初始值、超参数的设定方法等 还有权值衰减、DroPout等正则化方法 最优化optimization 沿梯度...
  • 我们在神经网络的训练中经常会遇到权重衰减和正则化这两个概念。尤其是L2正则化,它跟权重衰减是不是一回事。我在这篇文章得到了解释Weight Decay == L2 Regularization? 正则化 正则化可以定义为我们为了减少泛化...
  • 2、Pytorch中的L2正则项—weight decay 理论:L2 Regularization = weight decay (权值衰减)。 3、实验 在回归模型中,使用随机梯度下降法分别对两个带有weight decay和不带weight decay网络模型进行迭代训练 -----...
  • 权值衰减的系数, α \alpha α 是学习率。 对于有L2 Regulation的参数更新规则如下: θ t + 1 = θ t − α ∇ f ( θ t ) − α λ ′ θ t , \theta_{t+1}=\theta_{t}-\alpha \nabla_{f}\left(\theta_{t}...
  • 第三个参数,对于权值衰减α,是相当不同的,权值衰减明显不是一阶的。我们认为,对于具有尺度对称性的权重,相对于权重范数的梯度消失,二阶效应,在动态中处于主导。更糟糕的是,我们认为,虽然权重范数与网络的...
  • 正则化: 上面这条曲线表示验证集...在参数更新中多了一个(1-lamda),lamda大于0小于1,故因此L2正则化又称为权值衰减。 权值不断减小,以至于模型没那么复杂 在pytorch中,L2正则化加载在optimizer中实现 optim_weig
  • 15天共读深度学习Day10

    2019-05-01 16:05:49
    1.正则化 ...权值衰减通过在学习的过程中对大的权重进行惩罚,来抑制过拟合;为损失函数加上权重的L2范数的权值衰减方法; 但是如果网络的模型变得很复杂,只用权值衰减就难以应对了。Dropout...
  • 2021-09-07

    2021-09-07 19:28:06
    DECOUPLED WEIGHT DECAY REGULARIZATION解耦权值衰减正则化 摘要 L2正则化和权值衰减正则化对于标准随机梯度下降是等价的(当按学习率重新调整时),但是在自适应梯度算法的情况下确并非如此,如Adam。虽然这些算法的...
  • 正则化 过拟合问题指的是只能拟合训练数据,...- 权值衰减是一种抑制过拟合的方法。 - 该方法通过在学习的过程中加大权重进行惩罚,来抑制过拟合。 (权值衰减方法都会为损失函数加上权重的L2范数 1/2*C*W**2) (2). ...
  • 用正则化来抑制过拟合,正则化有两种方法:权值衰减和Dropout。 (1)发生过拟合的原因: ——权重参数取值过大 ——模型拥有大量的参数,表现力强 ——训练数据少 (2)权值衰减 将上式加入到损失函数中,λ是控制...
  • 权值衰减 权值衰减的变异 增广误差的一般形式 完美的正则器 神经网络正则器 正则器的早停法 完整课件下载地址: http://page5.dfpan.com/fs/9l4c5je282b12249166/ 更多精彩文章请关注微信号: ...
  • PyTorch中添加L2正则:PyTorch的优化器中自带一个参数weight_decay,用于指定权值衰减率,相当于L2正则化中的λ参数。 权值未衰减的更新公式: 权值衰减的更新公式: 下面,分别通过不添加L2正则与添加L2...
  • 一、如何使用Weight Decay权值衰减或者Dropout技术缓解过拟合? 过拟合现象是指在训练集中表现优秀,但是在其他未知的数据集上表现很差的现象。 由于很多过拟合原本就是因为权重参数取值过大才发生的。Weight ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,076
精华内容 3,230
关键字:

权值衰减