精华内容
下载资源
问答
  • 【直观详解】什么正则化

    千次阅读 2018-11-10 20:54:26
    【内容简介】主要解决什么是正则化为什么使用正则化,如何实现正则化,外加一些对范数的直观理解并进行知识整理以供查阅 Why & What 正则化 我们总会在各种地方遇到正则化这个看起来很难理解的名词,...

    【内容简介】主要解决什么是正则化,为什么使用正则化,如何实现正则化,外加一些对范数的直观理解并进行知识整理以供查阅

    Why & What 正则化


    我们总会在各种地方遇到正则化这个看起来很难理解的名词,其实它并没有那么高冷,是很好理解的

    首先,从使用正则化解决了一个什么问题的角度来看:正则化是为了防止过拟合, 进而增强泛化能力。用白话文转义,泛化误差(generalization error)= 测试误差(test error),其实就是使用训练数据训练的模型在测试集上的表现(或说性能 performance)好不好

    过拟合

    如上图,红色这条“想象力”过于丰富上下横跳的曲线就是过拟合情形。结合上图和正则化的英文 Regularizaiton-Regular-Regularize,直译应该是:规则化(加个“化”字变动词,自豪一下中文还是强)。什么是规则?你妈喊你6点前回家吃饭,这就是规则,一个限制。同理,在这里,规则化就是说给需要训练的目标函数加上一些规则(限制),让他们不要自我膨胀。正则化,看起来,挺不好理解的,追其根源,还是“正则”这两字在中文中实在没有一个直观的对应,如果能翻译成规则化,更好理解。但我们一定要明白,搞学术,概念名词的准确是十分重要,对于一个重要唯一确定的概念,为它安上一个不会产生歧义的名词是必须的,正则化的名称没毛病,只是从如何理解的角度,要灵活和类比。

    我的思考模式的中心有一个理念:每一个概念被定义就是为了去解决一个实际问题(问Why&What),接着寻找解决问题的方法(问How),这个“方法”在计算机领域被称为“算法”(非常多的人在研究)。我们无法真正衡量到底是提出问题重要,还是解决问题重要,但我们可以从不同的解决问题的角度来思考问题。一方面,重复以加深印象。另一方面,具有多角度的视野,能让我们获得更多的灵感,真正做到链接并健壮自己的知识图谱

    How 线性模型角度


    对于线性模型来说,无论是Logistic Regression、SVM或是简单的线性模型,都有一个基函数 ϕ()ϕ(),其中有很多 ww (参数)需要通过对损失函数 E()E() 求极小值(或最大似然估计)来确定,求的过程,也就是使用训练集的训练过程:梯度下降到最小值点。最终,找到最合适的 ww 确定模型。从这个角度来看,正则化是怎么做的呢?

    二次正则项


    我们看一个线性的损失函数(真实值和预测值的误差)

    E(w) 是损失函数(又称误差函数)E即Evaluate,有时候写成L即Loss
    tn 是测试集的真实输出,又称目标变量【对应第一幅图中的蓝色点】
    ww 是权重(需要训练的部分,未知数)
    ϕ()是基函数,例如多项式函数,核函数
    测试样本有n个数据
    整个函数直观解释就是误差方差和,1/2 只是为了求导后消去方便计算

    正则化项,得到最终的误差函数(Error function)

    (2)式被称为目标函数(评价函数)= 误差函数(损失函数) + 正则化项
    λ 被称为正则化系数,越大,这个限制越强

    2式对 ww 求导,并令为0(使误差最小),可以解得

    这是最小二乘法的解形式,所以在题目中写的是从“最小二乘角度”。至于为何正则化项是 在之后马上解释

    一般正则项


    直观的详解为什么要选择二次正则项。首先,需要从一般推特例,然后分析特例情况的互相优劣条件,可洞若观火。一般正则项是以下公式的形式

    M是模型的阶次(表现形式是数据的维度),比如M=2,就是一个平面(二维)内的点

    q=2就是二次正则项。高维度没有图像表征非常难以理解,那就使用二维作为特例来理解。这里令M=2,即 x={x1,x2} w={w1,w2}x={x1,x2}w={w1,w2} ,令q=0.5 q=1 q=2 q=4 有

    正则项的边缘直观表示

    横坐标是w1
    纵坐标是w2
    绿线是等高线的其中一条,换言之是一个俯视图,而z轴代表的是 的值

    空间想象力不足无法理解的读者希望下方的三维图像能给你一个直观的领悟(与绿线图一一对应)

    正则项的边缘直观表示

    q=2是一个圆非常好理解,考虑就是抛物面,俯视图是一个圆。其他几项同理(必须强调俯视图和等高线的概念,z轴表示的是正则项项的值)

    正则项的边缘直观表示

    蓝色的圆圈表示没有经过限制的损失函数在寻找最小值过程中,w的不断迭代(随最小二乘法,最终目的还是使损失函数最小)变化情况,表示的方法是等高线,z轴的值就是 E(w)
    w∗ 最小值取到的点

    可以直观的理解为(帮助理解正则化),我们的目标函数(误差函数)就是求蓝圈+红圈的和的最小值(回想等高线的概念并参照3式),而这个值通在很多情况下是两个曲面相交的地方

    可以看到二次正则项的优势,处处可导,方便计算,限制模型的复杂度,即 w 中M的大小,M是模型的阶次M越大意味着需要决定的权重越多,所以模型越复杂。在多项式模型多,直观理解是每一个不同幂次的 x 前的系数,0(或很小的值)越多,模型越简单。这就从数学角度解释了,为什么正则化(规则化)可以限制模型的复杂度,进而避免过拟合

    不知道有没有人发现一次正则项的优势,w∗ 的位置恰好是 w1=0 的位置,意味着从另一种角度来说,使用一次正则项可以降低维度(降低模型复杂度,防止过拟合)二次正则项也做到了这一点,但是一次正则项做的更加彻底,更稀疏。不幸的是,一次正则项有拐点,不是处处可微,给计算带来了难度,很多厉害的论文都是巧妙的使用了一次正则项写出来的,效果十分强大

    How 神经网络模型角度


    我们已经知道,最简单的单层神经网,可以实现简单的线性模型。而多隐含层的神经网络模型如何来实现正则化?(毕竟神经网络模型没有目标函数)

    M表示单层神经网中隐含层中的神经元的数量

    上图展示了神经网络模型过拟合的直观表示

    我们可以通过一系列的推导得知,未来保持神经网络的一致性(即输出的值不能被尺缩变换,或平移变换),在线性模型中的加入正则项无法奏效

    所以我们只能通过建立验证集(Validation Set),拉网搜索来确定M的取值(迭代停止的时间),又称为【提前停止】

    这里有一个尾巴,即神经网络的不变量(invariance),我们并不希望加入正则项后出现不在掌控范围内的变化(即所谓图像还是那个图像,不能乱变)。而机器学习的其中一个核心目的也是去寻找不同事物(对象)的中包含信息的这个不变量(特征)。卷积神经网络从结构上恰恰实现了这种不变性,这也是它强大的一个原因

    范数


    我并不是数学专业的学生,但是我发现在讲完线性模型角度后,有几个概念可以很轻松的解答,就在这里献丑把它们串联起来,并做一些总结以供查阅和对照。

    我们知道,范数(norm)的概念来源于泛函分析与测度理论,wiki中的定义相当简单明了:范数是具有“长度”概念的函数,用于衡量一个矢量的大小(测量矢量的测度)

    我们常说测度测度,测量长度,也就是为了表征这个长度。而如何表达“长度”这个概念也是不同的,也就对应了不同的范数,本质上说,还是观察问题的方式和角度不同,比如那个经典问题,为什么矩形的面积是长乘以宽?这背后的关键是欧式空间的平移不变性,换句话说,就是面积和长成正比,所以才有这个

    没有测度论就没有(现代)概率论。而概率论也是整个机器学习学科的基石之一。测度就像尺子,由于测量对象不同,我们需要直尺量布匹、皮尺量身披、卷尺量房间、游标卡尺量工件等等。注意,“尺子”与刻度(寸、米等)是两回事,不能混淆。

    范数分为向量范数(二维坐标系)和矩阵范数(多维空间,一般化表达),如果不希望太数学化的解释,那么可以直观的理解为:0-范数:向量中非零元素的数量;1-范数:向量的元素的绝对值;2-范数:是通常意义上的模(距离)

    向量范数

    关于向量范数,先再把这个图放着,让大家体会到构建知识图谱并串联知识间的本质(根)联系的好处

    正则项的边缘直观表示

    p-范数

    向量元素绝对值的p次方和的 1/p 次幂。可以敏捷的发现,这个p和之前的q从是一个东西,随着p越大,等高线图越接近正方形(正无穷范数);越小,曲线弯曲越接近原点(负无穷范数)

    而之前已经说明,q的含义是一般化正则项的幂指数,也就是我们常说的2范数,两者在形式上是完全等同的。结合范数的定义,我们可以解释一般化正则项为一种对待求参数 ww 的测度,可以用来限制模型不至于过于复杂

    −∞-范数


    所有向量元素中绝对值的最小值

    1-范数


    向量元素绝对值之和,也称街区距离(city-block)

    2-范数

    向量元素的平方和再开方Euclid范数,也称欧几里得范数,欧氏距离

    ∞-范数


    所有向量元素中绝对值的最大值,也称棋盘距离(chessboard),切比雪夫距离

    矩阵范数


    1-范数


    列和范数,即所有矩阵列向量绝对值之和的最大值

    ∞-范数


    行和范数,即所有矩阵行向量绝对值之和的最大值

    2-范数


    p=2m=n方阵时,称为谱范数。矩阵 A 的谱范数是 A 最大的奇异值或半正定矩阵 ATA 的最大特征值的平方根

    A∗为 A 的共轭转置,实数域等同于 AT

    F-范数


    Frobenius范数(希尔伯特-施密特范数,这个称呼只在希尔伯特空间),即矩阵元素绝对值的平方和再开平方

    核范数


    若 AA 矩阵是方阵,称为本征值。若不是方阵,称为奇异值,即奇异值/本征值之和

    总结

    相信每个人在学习过程中都有过看书时,遇到0-范数正则化,或者1-范数正则化,2-范数正则化的表达时很迷惑。写到这里,希望大家能对这些看起来无法理解的晦涩名词有一个融会贯通的理解和感知!

    Learning with intuitive and get Insight

    以上!鞠躬!

     

    转自 https://charlesliuyx.github.io/2017/10/03/【直观详解】什么是正则化/

    展开全文
  • 为什么正则化能够解决过拟合问题一. 正则化的解释二. 拉格朗日乘数法三. 正则化是怎么解决过拟合问题的1. 引出范数1.1 L_0范数1.2 L_1范数1.3 L_2范数2. L_2范式正则项如何解决过拟合问题 一. 正则化的解释 为防止...

    如果觉得不想看前两大点,可以直接看第三点公式推导或图像观察,个人觉得特别好理解。

    一. 正则化的解释

    为防止模型过拟合,提高模型的泛化能力,通常会在损失函数的后面添加一个正则化项。
    L1正则化L2正则化可以看做是损失函数的惩罚项。所谓惩罚是指对损失函数中的某些参数做一些约束, 使得参数的自由度变小。

    正则化在深度学习中含义是指什么?正则化其实是一种策略
    以增大训练误差为代价来减少测试误差的所有策略我们都可以称作为正则化。换句话说就是正则化是为了防止模型过拟合。L2范数就是最常用的正则化方法之一。1

    二. 拉格朗日乘数法

    为什么引出拉格朗日乘数法呢?因为就是这么巧,原理真的是特别像
    拉格朗日乘数法1
    拉格朗日乘数法2
    因为有很多人已经写过一遍了,找了两篇比较易懂的链接
    这两个链接任看一个即可,大概想起来他的含义就可直接看第三点。

    三. 正则化是怎么解决过拟合问题的

    1. 引出范数

    1.1 L_0范数

    求出向量中非零元素的个数.

    如果用L0规则化一个参数矩阵W,就是希望W中大部分元素是零,实现稀疏。
    在这里插入图片描述
    L0范数的应用:

    1)特征选择
    ​实现特征的自动选择,去除无用特征。稀疏化可以去掉这些无用特征,将特征对应的权重置为零。
    2)可解释性(interpretability)​
    例如判断某种病的患病率时,最初有1000个特征,建模后参数经过稀疏化,最终只有5个特征的参数是非零的,那么就可以说影响患病率的主要就是这5个特征。

    1.2 L_1范数

    是指向量中各个元素的绝对值之和,也叫"系数规则算子(Lasso regularization)"。
    L_1范式
    L1范数也可以实现稀疏,通过将无用特征对应的参数W置为零实现。
    L0和L1都可以实现稀疏化,不过一般选用L1而不用L0,原因包括:

    • L0范数很难优化求解(NP难);
    • L1是L0的最优凸近似,比L0更容易优化求解。

    1.3 L_2范数

    L2范数的定义其实是一个数学概念,其定义如下:
    在这里插入图片描述
    这个公式看着相当熟悉吧,用的最多的欧式距离就是一种L2范数,表示向量元素的平方和再开方。

    2. L_2范式正则项如何解决过拟合问题

    有两种方式:

    • 一种公式推导,
    • 一种是图像观察

    2.1 公式推导

    那就让我们直接推导公式证明一下吧!
    个人觉得能推导,就别描述,说不清楚,哈哈哈哈!

    设模型函数为 :
                                 模型函数
    W1、W2分别表示两个自变量的权重, 引入L2正则项之前,我们的损失函数为:
                             在这里插入图片描述
    引入L2正则项之后:
    在这里插入图片描述
    为什么它会使得我们的权重减小呢!

    求偏导试试看,但是我们这里只有两个参数W1、W2,求偏导结果过如下:
    求偏导结果

    可以发现,添加正则项之后,w相比原来在减小,即靠近0

    2.2 图像推导2

    2.2.1 L1正则化

    设有如下带L1正则项的损失函数:
                          带L1正则项的损失函数
    其中J0是原始的损失函数,加号后面的一项是L1正则化项α是正则化系数。注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此J不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。

    当我们在原始损失函数J0后添加L1正则化项时,相当于对J0做了一个约束。令L=αwL=α∑∣w∣ ,则J=J0+LJ = J0+L此时我们的任务变成在LL约束下求出J0J0​取最小值的解。(来啦来啦,有条件求极值——拉格朗日乘数法,是不是原理一模一样)3

    考虑二维的情况,即只有两个权值w1w2w^1w^2,此时L=w1+w2L = |w^1|+|w^2|对于梯度下降法,求解J0J0 的过程可以画出等值线,同时L1L1正则化的函数LL也可以在w1w2w^1w^2 的二维平面上画出来。

    如下图:
    在这里插入图片描述
    图中等值线是J0J0的等值线,黑色方形是LL函数的图形。在图中,当J0J0等值线与LL图形首次相交的地方就是最优解。上图中J0J0LLLL的一个顶点处相交,这个顶点就是最优解
    注意到这个顶点的值是(w1,w2)=(0,w)(w^1, w^2) = (0, w)。可以直观想象,因为LL函数有很多棱角(二维情况下四个,多维情况下更多),J0J0 与这些角接触的机率会远大于与LL其它部位接触的机率,而在这些角上,会有很多权值等于0

    这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。

    而正则化前面的系数αα,可以控制LL图形的大小。αα越小,LL的图形越大(上图中的黑色方框);αα越大,LL的图形就越小,可以小到黑色方框只超出原点范围一点点,这是最优点的值(w1,w2)=(0,w)(w^1, w^2) = (0, w)中的ww可以取到很小的值。

    2.2.2 L2正则化

    设有如下带L2正则化的损失函数:
               在这里插入图片描述
    同样可以画出在二维平面上的图形,如下:
    L2正则化
    二维平面下L2L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此J0J0LL相交时使得w1w1w2w2等于零的机率小了许多,这就是为什么L2正则化不具有稀疏性的原因

    四. 结论

    相比添加正则项之前来说,添加了正则项之后,更新w参数将会使得w更小

    李宏毅4老师在他的课程有提到:函数的平滑性

    w很小,意味着该function是一个比较平滑的函数

    平滑性:对输入有较大变化,但是输出的变化很小,这该函数是一个平滑的function

    而我们的model当然是更加平滑,那么稳定性就越好,那么当输入变化过大,预测的结果那么仍然保持保持高效,这和模型的泛化能力是不是就联系上了呢?


    当然,以上仅为个人和前人的一点总结,可能个人说的会存在不好的地方。
    大家可以在留言中call我,我会积极探讨,相互进步。


    1. 一文搞懂深度学习正则化的L2范数 ↩︎

    2. 机器学习中正则化项L1和L2的直观理解 ↩︎

    3. 拉格朗日乘数法 ↩︎

    4. 李宏毅老师课程b站链接提到平滑性 ↩︎

    展开全文
  • 在解决实际问题的过程中,我们会倾向于用复杂的模型来拟合复杂的数据,但是使用复杂模型会产生过拟合(overfitting)的风险,而正则化就是常用的减少过拟合风险的工具之一。 过拟合是指模型在训练集上误差很小,但是在...

    ps: 本文文字摘自网络

    在解决实际问题的过程中,我们会倾向于用复杂的模型来拟合复杂的数据,但是使用复杂模型会产生过拟合(overfitting)的风险,而正则化就是常用的减少过拟合风险的工具之一。

    过拟合是指模型在训练集上误差很小,但是在测试集上表现很差(即泛化能力 [generalization ability] 差),过拟合的原因一般是由于数据中存在噪声或者用了过于复杂的模型拟合数据,而模型却过于复杂,过分地拟合噪声(noise)和异常值(outliers)。

    在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。

    为了防止过拟合,可以用的方法有很多。
    有一个概念需要先说明,在机器学习算法中,我们常常将原始数据集分为三部分:(1)training data、(2)validation data,(3)testing data。这个validation data是什么?它其实就是用来避免过拟合的,在训练过程中,我们通常用它来确定一些超参数(比如根据validation data上的accuracy来确定early stopping的epoch大小、根据validation data确定learning rate等等)。那为啥不直接在testing data上做这些呢?因为如果在testing data做这些,那么随着训练的进行,我们的网络实际上就是在一点一点地overfitting我们的testing data,导致最后得到的testing accuracy没有任何参考意义。因此,training data的作用是计算梯度更新权重,validation data如上所述,testing data则给出一个accuracy以判断网络的好坏。

    避免过拟合的方法有很多:

    • 提前退出(early stopping);
    • 数据集扩增(Data augmentation);
    • 正则化(Regularization)包括L1、L2(L2 regularization也叫weight decay);
    • dropout.

    正则化的作用:

    • 控制参数幅度,不让模型过于复杂

    • 限制参数搜索空间

    接下来简单介绍L1正则化和L2正则化:
    L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Loss回归,使用L2正则化的模型叫做Ridge回归(岭回归)。下图是Python中Loss回归的损失函数,式中加号后面一项αw1\alpha ||w||_1即为L1正则化项;
    在这里插入图片描述
    Ridge回归的损失函数,式中加号后面一项αw22\alpha||w||_2^2即为L2正则化项。
    在这里插入图片描述
    最后再补充一个角度:正则化其实就是对模型的参数设定一个先验,这是贝叶斯学派的观点。L1正则是拉普拉斯先验,l2是高斯先验,分别由参数σ\sigma确定。在数据少的时候,先验知识可以防止过拟合。

    举两个最简单的例子。

    1. 抛硬币,推断正面朝上的概率。如果只能抛5次,很可能5次全正面朝上,这样你就得出错误的结论:正面朝上的概率是1——过拟合!如果你在模型里加正面朝上概率是0.5的先验,结果就不会那么离谱。这其实就是正则。

    2. 最小二乘回归问题:加L2范数正则等价于加了高斯分布的先验,加L1范数正则相当于加拉普拉斯分布先验。

    文字来源

    [1] https://www.julyedu.com/question/big/kp_id/23/ques_id/988

    [2] 正则化为什么能防止过拟合:https://www.cnblogs.com/alexanderkun/p/6922428.html

    [3] 机器学习中使用正则化来防止过拟合是什么原理?https://www.zhihu.com/question/20700829

    [4] 机器学习中正则化项L1和L2的直观理解:https://blog.csdn.net/jinping_shi/article/details/52433975

    展开全文
  • 正则化

    2021-03-16 20:24:37
    * `decays` * we adopt L2 regularization and use the decays to control the penalty strength. ...啥叫正则化?用来干啥的?啥是L1、L2?我将在这篇博文做一个综合性整理。 1.正则化 引入惩罚因子/正则化参数,
    * `decays`
      * we adopt L2 regularization and use the decays to control the penalty strength.
      * L2 regularization term is tuned in {1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 1e-2}.
    

    顶会看多了,模型跑多了,知识 要自学的东西 也变多了。

    啥叫正则化?用来干啥的?啥是L1、L2?我将在这篇博文做一个综合性整理。

    1.正则化

    引入惩罚因子/正则化参数,减小特征变量的数量级,以避免过拟合。具体原理见这篇博文

    我觉得这句话总结得很好:正则化参数要做的就是控制两个目标之间的平衡关系:在最小化训练误差的同时正则化参数使模型简单(正则化)。

    2.L1、L2正则化

    知道正则化是想干啥之后,问题就来了——正则化参数如何计算?常用的有L1、L2两种算法。

    在介绍这两种正则化之前,需要知道何为范数:来自博文

    0 范数:向量中非零元素的个数
    1 范数: 向量中各个元素绝对值之和。
    2 范数: 向量中各个元素平方和的 1/2 次方,L2 范数又称 Euclidean 范数或者 Frobenius 范数
    p 范数: 为 x 向量各个元素绝对值 p 次方和的 1/p 次方

    范数与正则化的关系见这篇博文

    接下来正式介绍这两种正则化。公选课老师的课件解释得很好(包含对应的python实战):
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    3.选啥好?

    参考这篇博文

    L_1会趋向于产生少量的特征,而其他的特征都为0,而L_2会选择更多的特征,特征值都趋近于0.Lasso在选择特征时非常有用,而Ridge就只是规则化而已。所以在所有特征中只有少数特征起重要作用的情况下,选择Lasso进行特征选择。而所有特征中大部分特征都能起作用,而且作用很平均,那么使用Ridge会更合适。

    在机器学习领域,前辈的经验真的很有启发。

    4.回到开篇

    • 采用L2正则化并使用衰减因子来控制惩罚强度。
    • L2正则化项在{1e-7、1e-6、1e-5、1e-4、1e-3、1e-2}中进行了调整。

    现在看这两句话就很明了了,此处的参数选择实际上在L2正则化的基础上,根据数据集的特征,对L2正则化进行定制,即调整。

    展开全文
  • 正则化方法:防止过拟合,提高泛化能力 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐...
  • 归一化、正则化、BN、IN、LN、GN原理 feature scaling 特征缩放、归一化、标准化、中心化 批量归一化 BN、IN、Ln、GN 拟合问题、正则化、dropout 归一化、正则化、BN、IN、LN、GN原理 参考了很多博客,转载的 ...
  • 正则化为什么可以降低过拟合 在进行机器学习的模型训练的时候,如果我们的训练数据不够,或者迭代的次数太多等等原因,可能会使我们的训练误差非常小,但是对测试集的误差会很大,我们把这称为过拟合,如图: 为了...
  • 2 正则化 过拟合现象很普遍,根本原因还是数据量不足以支撑复杂度高的模型,因此最直接的解决过拟合问题的办法是增加训练数据量。另一种直接的方法是降低模型复杂度。 如果我们能通过正则化,在固定训练集大小和...
  • 2.1.2 Dropout正则化以及其他正则化

    千次阅读 2018-04-16 21:23:00
    除了L2正则化之外,还有一个很重要的正则化方法随机失活(Dropout),下面,我们来了解一下。 如图所示,假设网络中的每一层的节点都以抛硬币的形式来设置概率,每一个节点得以保留和消除的概率都是0.5。 设置...
  • 为什么要引入正则化惩罚项? 在训练数据不够多时,或者过度训练模型(overtrainingovertrainingovertraining)时,常常会导致过拟合(overfittingoverfittingoverfitting)。正则化方法即为在此时向原始模型引入...
  • L1正则化和L2正则化

    2019-09-27 07:26:19
    L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择 L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合 一、L0正则化  通过引入L0正则项,我们可以使模型稀疏化...
  • Pytorch Note35 正则化

    多人点赞 热门讨论 2021-07-27 01:19:59
    前面我们讲了数据增强和 dropout,而在实际使用中,现在的网络往往不使用 dropout,而是用另外一个技术,叫正则化。 正则化是机器学习中提出来的一种方法,有 L1 和 L2 正则化,目前使用较多的是 L2 正则化,引入...
  • 正则化正则化项的理解        首先了解一下正则性(regularity),正则性衡量了函数光滑的程度,正则性越高,函数越光滑。(光滑衡量了函数的可导性,如果一个函数是光滑函数,则该函数无穷可...
  • 首先了解一下正则性(regularity),正则性衡量了函数光滑... 正则化是为了解决过拟合问题。在Andrew Ng的机器学习视频中有提到(详见http://www.cnblogs.com/jianxinzhou/p/4083921.html)。解决过拟合的两种方法:...
  • 正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm,中文称作L1正则化和L2正则化,...对于线性回归模型,使用L1正则化的模型建...
  • 正则化处理

    2019-04-08 20:59:17
    我们为什么要进行正则化处理?在什么情况下我们使用正则化? 当我们使用线性回归建模来进行预测时,可能会发生过拟合现象,而正则化正是解决这种过拟合现象而诞生的,在这里我们列举两个正则化方法。 1.L2正则化 L2 ...
  • L1正则化和L2正则化比较

    千次阅读 2018-05-11 16:11:35
    机器学习监督算法的基本思路是 让拟合的模型尽量接近真实数据, 换句更通俗的话, 要让我们的模型尽量简单又能很好的反应已知... 而正则化则是探讨过拟合的问题(当然正则化还能改善ill-posed(condition)等问题,本文...
  • 深入理解正则化

    千次阅读 2018-09-05 21:58:47
    刚开始接触机器学习就提到了正则化,一直没有把里面东西搞清楚。今天决定写一篇关于正则化的文章将里面的问题讲讲清楚。 从多种角度认识正则化 正则化的作用 正则化作用补充 正则化参数选择 从多种角度认识正则...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 55,679
精华内容 22,271
关键字:

为什么叫正则化