精华内容
下载资源
问答
  • L1和L2正则化

    2020-10-15 07:37:59
    为什么L1正则化具有稀疏性。 L1和L2正则化的贝叶斯解释。 为什么正则化可以降低过拟合?
    • 为什么L1正则化具有稀疏性。
    • L1和L2正则化的贝叶斯解释。
    • 为什么正则化可以降低过拟合?
    展开全文
  • l1和l2正则化

    2019-09-29 14:29:21
    以上是莫烦对L1和L2的理解 l2正则:权重的平方和,也就是一个圆 l1正则:权重的绝对值之和,等价与一个正方形。 图中,正则项和损失项的交点就是最优解的位置,我们可以看到,在只有2个参数的情况下,l1倾向...

    https://blog.csdn.net/tianguiyuyu/article/details/80438630

    以上是莫烦对L1和L2的理解

    l2正则:权重的平方和,也就是一个圆

    l1正则:权重的绝对值之和,等价与一个正方形。

    图中,正则项和损失项的交点就是最优解的位置,我们可以看到,在只有2个参数的情况下,l1倾向使得某个参数直接为0;l2倾向使得某些参数逼近0

     

    再看下吴恩达的理解

    正则化的意义:在于让高阶的参数逼近0,使其对拟合函数的贡献变小;可以看到theta3和theta4,我们给他很高的系数,在求解最小值的过程中,我们更倾向给theta3和theta4更大的惩罚,使之变得很小很小。

     

    这是某个损失函数增加了L2正则化后的loss

    下面是针对加了L2损失函数的梯度下降求解过程

     

    转载于:https://www.cnblogs.com/ivyharding/p/11404202.html

    展开全文
  • 详解L1和L2正则化

    2020-11-24 20:23:14
    对参数进行L1和L2正则化的作用与区别 pytorch实现L1与L2正则化 对特征进行L2正则化的作用 L1和L2的区别以及范数   使用机器学习方法解决实际问题时,我们通常要用L1或L2范数做正则化(regularization),从而限制...

    大纲:

    • L1和L2的区别以及范数相关知识
    • 对参数进行L1和L2正则化的作用与区别
    • pytorch实现L1与L2正则化
    • 对特征进行L2正则化的作用

    L1和L2的区别以及范数

      使用机器学习方法解决实际问题时,我们通常要用L1或L2范数做正则化(regularization),从而限制权值大小,减少过拟合风险,故其又称为权重衰减。特别是在使用梯度下降来做目标函数优化时。

    L1和L2的区别
    在机器学习中,

    • L1范数(L2 normalization)是指向量中各个元素绝对值之和,通常表述为wi1\|\boldsymbol{w_i}\|_1,线性回归中使用L1正则的模型也叫Lasso regularization
      比如 向量A=[1,-1,3], 那么A的L1范数为 |1|+|-1|+|3|.

    • L2范数指权值向量w中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号),通常表示为wi2\|\boldsymbol{w_i}\|_2, 线性回归中使用L2正则的模型又叫岭回归(Ringe regularization)。

    简单总结一下就是:

    • L1范数: 为x向量各个元素绝对值之和。
    • L2范数: 为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或者Frobenius范数
    • Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.

    下图为p从无穷到0变化时,三维空间中到原点的距离(范数)为1的点构成的图形的变化情况。以常见的L-2范数(p=2)为例,此时的范数也即欧氏距离,空间中到原点的欧氏距离为1的点构成了一个球面
    在这里插入图片描述

    参数正则化作用

    • L1: 为模型加入先验, 简化模型, 使权值稀疏,由于权值的稀疏,从而过滤掉一些无用特征,防止过拟合
    • L2: 根据L2的特性,它会使得权值减小,即使平滑权值,一定程度上也能和L1一样起到简化模型,加速训练的作用,同时可防止模型过拟合

    关于为什么L1会使得权重稀疏,而L2会使得权值平滑,可以参考知乎上一位答主的台大林轩田老师人工智能基石课笔记,从凸优化,梯度更新,概率分布三个角度诠释L1和L2正则化的原理和区别。我把笔记搬运到这:

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    pytorch实现L1与L2正则化

    网上很多关于L2和L1正则化的对象都是针对参数的,或者说权重,即权重衰减,可以用pytorch很简单的实现L2惩罚:

    class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)
    

    如上,weight_decay参数即为L2惩罚项前的系数
    举个栗子,对模型中的某些参数进行惩罚时

    #定义一层感知机
    net = nn.Linear(num_inputs, 1)
    #自定义参数初始化
    nn.init.normal_(net.weight, mean=0, std=1)
    nn.init.normal_(net.bias, mean=0, std=1)
    optimizer_w = torch.optim.SGD(params=[net.weight], lr=lr, weight_decay=wd) # 对权重参数衰减,惩罚项前的系数为wd
    optimizer_b = torch.optim.SGD(params=[net.bias], lr=lr)  # 不对偏差参数衰减
    

    而对于L1正则化或者其他的就比较麻烦了,因为pytorch优化器只封装了L2惩罚功能,参考pytorch实现L2和L1正则化regularization的方法

    class Regularization(torch.nn.Module):
        def __init__(self,model,weight_decay,p=2):
            '''
            :param model 模型
            :param weight_decay:正则化参数
            :param p: 范数计算中的幂指数值,默认求2范数,
                      当p=0为L2正则化,p=1为L1正则化
            '''
            super(Regularization, self).__init__()
            if weight_decay <= 0:
                print("param weight_decay can not <=0")
                exit(0)
            self.model=model
            self.weight_decay=weight_decay
            self.p=p
            self.weight_list=self.get_weight(model)
            self.weight_info(self.weight_list)
     
        def to(self,device):
            '''
            指定运行模式
            :param device: cude or cpu
            :return:
            '''
            self.device=device
            super().to(device)
            return self
     
        def forward(self, model):
            self.weight_list=self.get_weight(model)#获得最新的权重
            reg_loss = self.regularization_loss(self.weight_list, self.weight_decay, p=self.p)
            return reg_loss
     
        def get_weight(self,model):
            '''
            获得模型的权重列表
            :param model:
            :return:
            '''
            weight_list = []
            for name, param in model.named_parameters():
                if 'weight' in name:
                    weight = (name, param)
                    weight_list.append(weight)
            return weight_list
     
        def regularization_loss(self,weight_list, weight_decay, p=2):
            '''
            计算张量范数
            :param weight_list:
            :param p: 范数计算中的幂指数值,默认求2范数
            :param weight_decay:
            :return:
            '''
            # weight_decay=Variable(torch.FloatTensor([weight_decay]).to(self.device),requires_grad=True)
            # reg_loss=Variable(torch.FloatTensor([0.]).to(self.device),requires_grad=True)
            # weight_decay=torch.FloatTensor([weight_decay]).to(self.device)
            # reg_loss=torch.FloatTensor([0.]).to(self.device)
            reg_loss=0
            for name, w in weight_list:
                l2_reg = torch.norm(w, p=p)
                reg_loss = reg_loss + l2_reg
     
            reg_loss=weight_decay*reg_loss
            return reg_loss
     
        def weight_info(self,weight_list):
            '''
            打印权重列表信息
            :param weight_list:
            :return:
            '''
            print("---------------regularization weight---------------")
            for name ,w in weight_list:
                print(name)
            print("---------------------------------------------------")
    

    class Regularization的使用

    
    # 检查GPU是否可用
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     
    print("-----device:{}".format(device))
    print("-----Pytorch version:{}".format(torch.__version__))
     
    weight_decay=100.0 # 正则化参数
     
    model = my_net().to(device)
    # 初始化正则化
    if weight_decay>0:
       reg_loss=Regularization(model, weight_decay, p=2).to(device)
    else:
       print("no regularization")
     
     
    criterion= nn.CrossEntropyLoss().to(device) # CrossEntropyLoss=softmax+cross entropy
    optimizer = optim.Adam(model.parameters(),lr=learning_rate)#不需要指定参数weight_decay
     
    # train
    batch_train_data=...
    batch_train_label=...
     
    out = model(batch_train_data)
     
    # loss and regularization
    loss = criterion(input=out, target=batch_train_label)
    if weight_decay > 0:
       loss = loss + reg_loss(model)
    total_loss = loss.item()
     
    # backprop
    optimizer.zero_grad()#清除当前所有的累积梯度
    total_loss.backward()
    optimizer.step()
    

    特征正则化作用

    上面介绍了对于权重进行正则化的作用以及具体实现,其实在很多模型中,也会对特征采用L2归一化,有的时候在训练模型时,经过几个batch后,loss会变成nan,此时,如果你在特征后面加上L2归一化,可能可以很好的解决这个问题,而且有时会影响训练的效果,深有体会。
    L2正则的原理比较简单,如下公式:
    y=xii=0Dxi2\boldsymbol{y} = \frac{\boldsymbol{x_i}}{\sum_{i=0}^D\boldsymbol{{x_i}}^2 }
    其中D为向量的长度,经过l2正则后xi\boldsymbol{x_i}向量的元素平方和等于1

    python实现

    def l2norm(X, dim=-1, eps=1e-12):
        """L2-normalize columns of X
        """
        norm = torch.pow(X, 2).sum(dim=dim, keepdim=True).sqrt() + eps
        X = torch.div(X, norm)
        return X
    

    在SSD目标检测的conv4_3层便使用了L2Norm

    对特征进行L2正则的具体作用如下:

    • 防止梯度消失或者梯度爆炸
    • 统一量纲,加快模型收敛

    参考:

    机器学习中L1和L2的直观理解
    几种范数的介绍

    展开全文
  • 正则化的作用以及L1和L2正则化的区别

    万次阅读 多人点赞 2019-08-21 20:06:16
    常用的正则化方法有L1正则化和L2正则化L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。 L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归...

    0 正则化的作用

    正则化的主要作用是防止过拟合,对模型添加正则化项可以限制模型的复杂度,使得模型在复杂度和性能达到平衡。
    常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。 L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归。但是使用正则化来防止过拟合的原理是什么?L1和L2正则化有什么区别呢?

    1 L1正则化与L2正则化

    L1正则化的表达如下,其中αw1\alpha||w||_1为L1正则化项,L1正则化是指权值向量w 中各个元素的绝对值之和。
    在这里插入图片描述
    L2正则化项表达式如下,其中αw22\alpha||w||_2^2为L2正则化项,L2正则化是指权值向量w 中各个元素的平方和然后再求平方根。
    在这里插入图片描述
    L1和L2正则化的作用:

    • L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择,一定程度上,L1也可以防止过拟合
    • L2正则化可以防止模型过拟合(overfitting)

    下面看李飞飞在CS2312中给的更为详细的解释:

    • L2正则化可以直观理解为它对于大数值的权重向量进行严厉惩罚,倾向于更加分散的权重向量。由于输入和权重之间的乘法操作,这样就有了一个优良的特性:使网络更倾向于使用所有输入特征,而不是严重依赖输入特征中某些小部分特征。 L2惩罚倾向于更小更分散的权重向量,这就会鼓励分类器最终将所有维度上的特征都用起来,而不是强烈依赖其中少数几个维度。。这样做可以提高模型的泛化能力,降低过拟合的风险。
    • L1正则化有一个有趣的性质,它会让权重向量在最优化的过程中变得稀疏(即非常接近0)。也就是说,使用L1正则化的神经元最后使用的是它们最重要的输入数据的稀疏子集,同时对于噪音输入则几乎是不变的了。相较L1正则化,L2正则化中的权重向量大多是分散的小数字。
    • 在实践中,如果不是特别关注某些明确的特征选择,一般说来L2正则化都会比L1正则化效果好。

    2 L1和L2正则化的原理

    上面讲到L1倾向于学得稀疏的权重矩阵,L2倾向于学得更小更分散的权重?但是L1和L2是怎样起到这样的作用的呢?背后的数学原理是什么呢?
    模型的学习优化的目标是最小化损失函数,学习的结果是模型参数。在原始目标函数的基础上添加正则化相当于,在参数原始的解空间添加了额外的约束。
    L1正则化对解空间添加的约束是:
    w1&lt;=C\sum||w||_1 &lt;= C
    L2正则化对解空间添加的约束是:
    w22&lt;=C\sum||w||_2^2 &lt;= C
    为了形象化的说明以假设有两个空间,以二维参数空间为例,假设有两个参数W1和W2。
    则L1正则化对解空间的约束为:
    w1+w2&lt;=C|w1| + |w2| &lt;= C
    L2对解空间的约束为:
    w12+w22&lt;=Cw1^2 + w2^2 &lt;= C
    在二维平面上绘制以上两个式子的图像,可得L1约束的范围是一个顶点在坐标轴上的菱形,L2约束的范围是一个圆形。
    在这里插入图片描述
    上面的图,左面是L2约束下解空间的图像,右面是L1约束下解空间的图像。
    蓝色的圆圈表示损失函数的等值线。同一个圆上的损失函数值相等的,圆的半径越大表示损失值越大,由外到内,损失函数值越来越小,中间最小。
    如果没有L1和L2正则化约束的话,w1和w2是可以任意取值的,损失函数可以优化到中心的最小值的,此时中心对应的w1和w2的取值就是模型最终求得的参数。
    但是填了L1和L2正则化约束就把解空间约束在了黄色的平面内。黄色图像的边缘与损失函数等值线的交点,便是满足约束条件的损失函数最小化的模型的参数的解。 由于L1正则化约束的解空间是一个菱形,所以等值线与菱形端点相交的概率比与线的中间相交的概率要大很多,端点在坐标轴上,一些参数的取值便为0。L2正则化约束的解空间是圆形,所以等值线与圆的任何部分相交的概率都是一样的,所以也就不会产生稀疏的参数。
    但是L2为什么倾向于产生分散而小的参数呢?那是因为求解模型的时候要求,在约束条件满足的情况下最小化损失函数,w22\sum||w||_2^2也应该尽可能的小。
    看这样一个例子:
    设输入向量x=[1,1,1,1],两个权重向量w_1=[1,0,0,0],w_2=[0.25,0.25,0.25,0.25]。那么w1Tx=w2Tx=1w^T_1x=w^T_2x=1,两个权重向量都得到同样的内积,但是w1w_1的L2惩罚是1.0,而w2w_2的L2惩罚是0.25。因此,根据L2惩罚来看,w2w_2更好,因为它的正则化损失更小。从直观上来看,这是因为w2w_2的权重值更小且更分散。所以L2正则化倾向于是特征分散,更小。

    3 正则化参数 λ

    我们一般会为正则项参数添加一个超参数λ或者α,用来平衡经验风险和结构风险(正则项表示结构风险)。
    在这里插入图片描述以 L2 为例,若 λ 很小,就是说我们考虑经验风险更多一些,对于结构风险没有那么重视,约束条件更为宽松。对应上文中的 C 值就很大。这时候,圆形区域很大,能够让 w 更接近中心最优解的位置。若 λ 近似为 0,相当于圆形区域覆盖了最优解位置,这时候,正则化失效,容易造成过拟合。
    相反,若 λ 很大,约束条件更为严格,对应上文中的 C 值就很小。这时候,圆形区域很小,w 离中心最优解的位置较远。w 被限制在一个很小的区域内变化,w 普遍较小且接近 0,起到了正则化的效果。但是,λ 过大容易造成欠拟合。欠拟合和过拟合是两种对立的状态。

    4 总结

    1. 添加正则化相当于参数的解空间添加了约束,限制了模型的复杂度
    2. L1正则化的形式是添加参数的绝对值之和作为结构风险项,L2正则化的形式添加参数的平方和作为结构风险项
    3. L1正则化鼓励产生稀疏的权重,即使得一部分权重为0,用于特征选择;L2鼓励产生小而分散的权重,鼓励让模型做决策的时候考虑更多的特征,而不是仅仅依赖强依赖某几个特征,可以增强模型的泛化能力,防止过拟合。
    4. 正则化参数 λ越大,约束越严格,太大容易产生欠拟合。正则化参数 λ越小,约束宽松,太小起不到约束作用,容易产生过拟合。
    5. 如果不是为了进行特征选择,一般使用L2正则化模型效果更好。

    参考文章:
    1.【通俗易懂】机器学习中 L1 和 L2 正则化的直观解释
    2. 机器学习中正则化项L1和L2的直观理解

    展开全文
  • L1和L2正则化(regularization)

    万次阅读 2020-04-07 09:54:24
    L1和L2正则化   理论上来说,只要参数足够多,而且参数之间的关系足够复杂,模型就可以拟合任意的函数。如果连噪声也都拟合了,这就是过拟合。事实上,我们在学习的时候,需要学习的是数据的普遍特征,但是除了...
  • L1和L2正则化的作用: 防止网络过拟合,网络更简单(给极端值惩罚),网络的泛化能力越强。 正则化的对象是网络的参数,在深度学习中就是网络的权重。L1正则是参数的绝对值求和,L2正则是参数的平方和。 使用方法:...
  • 正则化 - 搜索结果 - 知乎​www.zhihu.comL0范数:...加入L1和L2正则的等高线从上边两幅图中我们可以看出:如果不加L1和L2正则化的时候,对于线性回归这种目标函数凸函数的话,我们最终的结果就是最里边的紫色的小圈...
  • L1和L2正则化介绍   Overfitting怎么解决? Regularizatin(L1、L2正则化)、dropout、Batch Normalization、Early Stopping   L2正则化:(权重衰减惩罚)   对b没有更新,W有更新。 【为学习率...
  • 机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备...L2正则化 L2 正则化公式非常简单,直接在原来的损失函数基础上...
  • 为什么L1和L2正则化可防止过拟合 线性模型常用来处理回归和分类任务,为了防止模型处于过拟合状态,需要用L1正则化和L2正则化降低模型的复杂度,很多线性回归模型正则化的文章会提到L1是通过稀疏参数(减少参数的...
  • 前面通过学习大致知道了L1和L2正则化的作用: L1正则化:会使权重中的某些值在训练过程中变为0,从而达到使网络稀疏化的效果 L2正则化:极小的概率会使权重变为0,但是同样能够使权重相比他拟合数据集后应该成为的...
  • L1和L2正则化效果的区别 一直想不明白:为什么L1正则化使模型稀疏,L2正则化在防止过拟合方面效果明显。L1和L2正则化的区别和效果也是面试经常考到的问题。所以通过查阅一些资料,对这两个正则化的效果做了一些简单...
  • L1和L2正则化部分比较

    2017-03-31 14:43:25
    L1和L2正则化: 比方说,有几个特征的共线性很高,并且它们对于分类都很重要,这时L1的做法是随机选择其中一个特征,而扔掉其它的特征。试想,如果训练数据中有很多这样类似的特征,那么经过L1正则化后的模型将会...
  • 为了避免过拟合,最常用的一种方法是使用使用正则化,例如 L1 L2 正则化。但是,正则化项是如何得来的?其背后的数学原理是什么?L1 正则化和 L2 正则化之间有何区别?本文将给出直观的解释。 1. L2 正则化直观...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,575
精华内容 630
关键字:

l1和l2正则化