-
常见的二范数是什么意思?有什么用?
2020-09-22 21:11:18#记录一下: 参考博文写的很清楚了: 在优化一个变换矩阵T时,常常用到这样的公式: 意思是:现在总共有N个...这就是二范数的作用。 /分割线/ 参考博文很详细,方便起见,给点博文的一部分内容: 这里的矩阵就是表征#记录一下:
参考博文写的很清楚了,忘了一定要看参考博文!
在优化一个变换矩阵T时,常常用到这样的公式:
意思是:现在总共有N个三维点p和相机观测值z,那么我们的目标就是寻找一个最佳的位姿T,使得整体误差最小化。这时候我们的误差函数(等式右边)是一个矩阵呀,这怎么优化,起码也有一个目标值才能优化吧??
这就是范数登场的时候了,他就是用来描述等式右边的“误差矩阵”,到底ok不ok。“误差矩阵”的二范数越小表示越逼近实际值。这就是二范数的作用。
/分割线/
一个比较常用常用的公式:
参考博文很详细,方便起见,给点博文的一部分内容:
这里的矩阵就是表征上述空间映射的线性关系。而通过向量来表示上述映射中所说的这个集合,而我们通常所说的基,就是这个集合的最一般关系。于是,我们可以这样理解,一个集合(向量),通过一种映射关系(矩阵),得到另外一个几何(另外一个向量)。
那么向量的范数,就是表示这个原有集合的大小。
而矩阵的范数,就是表示这个变化过程的大小的一个度量。具体怎么用,看不同的领域,看你来自计算机领域 用的比较多的就是迭代过程中收敛性质的判断,如果理解上述的意义,在计算机领域,一般迭代前后步骤的差值的范数表示其大小,常用的是二范数,差值越小表示越逼近实际值,可以认为达到要求的精度,收敛。
总的来说,范数的本质是距离,存在的意义是为了实现比较。比如,在一维实数集合中,我们随便取两个点4和9,我们知道9比4大,但是到了二维实数空间中,取两个点(1,1)和(0,3),这个时候我们就没办法比较它们之间的大小,因为它们不是可以比较的实数,于是我们引入范数这个概念,把我们的(1,1)和(0,3)通过范数分别映射到实数\sqrt{2} 和 3 ,这样我们就比较这两个点了。所以你可以看到,范数它其实是一个函数,它把不能比较的向量转换成可以比较的实数。
参考博文:
https://blog.csdn.net/yangpan011/article/details/79461846 -
机器学习中的范数规则化之L21范数
2018-12-12 14:49:40在矩阵稀疏表示模型中,把它作为正则化项有什么作用呢?前面说到它是每一行的l2范数之和,在最小化问题中,只有每一行的l2范数都最小总问题才最小。而每一个行范数取得最小的含义是,当行内尽可能多的元素为0时,约....
先看上面l21范数的定义,注意原始矩阵是n行t列的,根号下平方是对列求和,也就是说是在同一行中进行操作的,根号部分就相当于一个l2范数,由此可以看出l21范数实则为矩阵X每一行的l2范数之和。在矩阵稀疏表示模型中,把它作为正则化项有什么作用呢?前面说到它是每一行的l2范数之和,在最小化问题中,只有每一行的l2范数都最小总问题才最小。而每一个行范数取得最小的含义是,当行内尽可能多的元素为0时,约束才可能取得最小。而行内尽可能地取0意思是说行稀疏!
综上可以这样解释,不同于l1范数(矩阵元素绝对值之和)的稀疏要求,l21范数还要求行稀疏!
-
对于正则化项L1,L2范数的理解
2019-03-12 11:04:26对于正则化项L1,L2范数的理解L2范数正则化L1范数正则化L1范数正则化与L2范数正则化的作用区别L1范数正则化为什么比L2范数正则化更容易获得稀疏解 之前讲到了利用正则化项降低过拟合,这里再总结一下L1,L2这两种范数...对于正则化项L1,L2范数的理解
之前讲到了利用正则化项降低过拟合,这里再总结一下L1,L2这两种范数作为正则化项各自的特点及区别
L2范数正则化
在深度学习一书中,带有L2范数的正则化项的目标函数如下:
其中 =,即为L2范数,其实运用仔细一看这个就是带有不等式约束的拉格朗日函数最优化问题即:minJ(w;X,y)
s.t. <=C
用图表示(来自PRML,假设是二维的)如下;
其中蓝色代表未添加正则化项的经验损失函数J的等高线,橙色即为约束条件区域,我们可以看到在满足约束条件时J的最小值就是两者的只有一个交点的相交处
怎么理解呢,其实当没有约束时,J的最小值应该在A处,但是添加了约束,那我们现在不仅J要小(越来越接近中心的A),还要使得这个圆形越小越好。那么还和原来一样取最优值为A的话,过中心A的那个圆形明显很大,即代表模型复杂度过高容易过拟合,因此我们要取到一个恰好的值,怎么确定就是为最优值呢?
看上图,我们选择J的最外层那个等值线,对于这条曲线上的每个点都可以做一个圆形,根据
上图可知,当这个圆形与某条等高线相切(仅有一个交点)的时候,这个圆形最小,也就是说在相同的J取值下,由于小红圆形代表的 小,所以使得最终的目标函数取得值最小。L1范数正则化
带有L1范数的目标函数如下:
类似上面的分析,上式等价于:
minJ(w;X,y)
s.t. <=C
同样有下图:
其中蓝色代表未添加正则化项的经验损失函数J的等高线,橙色即为约束条件区域,我们可以看到在满足约束条件时J的最小值就是两者的只有一个交点的相交处,关于为最优点的解释同上。L1范数正则化与L2范数正则化的作用区别
通过观察上面两个图,我们便可以发现L1范数约束的图形中只有一个交点的最优值处很容易相交在坐标轴处,这也就使得L1范数的正则化很容易使某些维度的参数为0,从而得到稀疏解,达到了所谓的特征选择的作用。
L2范数约束的图形只有一个交点的最优值处,不容易交在坐标轴上,但是仍然比较靠近坐标轴。因此这也就是L2范数能让解比较小(靠近0),但是比较平滑(不等于0),也就是权重衰减的概念。
两者都可以降低过拟合,L1还可以用于特征选择L1范数正则化为什么比L2范数正则化更容易获得稀疏解
此处图片来源自https://www.zhihu.com/question/37096933中曹荣禹的回答
-
深入理解L1、L2范数
2018-11-28 22:17:57关于作者 ... 前言 说起L1、L2范数,大家会立马想到这是机器学习中常用的正则化方法,一般添加在损失函数后面,...那添加L1和L2正则化后到底有什么具体作用呢?为什么会产生这样的作用?本篇博文将和大家一起去探讨L1范...关于作者
作者小硕一枚,研究方向为机器学习与自然语言处理,欢迎大家关注我的个人博客https://wangjie-users.github.io/,相互交流,一起学习成长。
前言
说起L1、L2范数,大家会立马想到这是机器学习中常用的正则化方法,一般添加在损失函数后面,可以看作是损失函数的惩罚项。那添加L1和L2正则化后到底有什么具体作用呢?为什么会产生这样的作用?本篇博文将和大家一起去探讨L1范数、L2范数背后的原理。
先说结论
L1和L2的作用如下:
- L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;一定程度上可以防止过拟合
- L2正则化可以防止模型过拟合
理解L1范数
理解L1,主要需要理解两个问题。第一是L1产生稀疏矩阵的作用,第二是为什么L1可以产生稀疏模型。
稀疏模型与特征选择
稀疏矩阵指的是很多元素为0、只有少数元素是非零值的矩阵。以线性回归为例,即得到的线性回归模型的大部分系数都是0,这表示只有少数特征对这个模型有贡献,从而实现了特征选择。总而言之,稀疏模型有助于进行特征选择。
为什么L1正则化能产生稀疏模型?
这部分重点讨论为什么L1可以产生稀疏模型,即L1是怎么让系数等于0的。首先要从目标函数讲起,假设带有L1正则化的损失函数如下:
其中J0是损失函数,后边是L1正则化项,是正则化系数,是模型的参数。现在我们的目标是求解argmin(J),换句话说,我们的任务是在L1的约束下求出J0取最小值的解。假设只考虑二维的情况,即只有两个权值1和2,此时的L1正则化公式即为:L1 = |1| + |2|。对J使用梯度下降法求解,则求解J0的过程可以画出等值线,同时L1正则化的函数也可以在二维平面上画出来。如下图:
图1 L1正则化图中等值线是J0的等值线,黑色方形是L1函数的图形,J0等值线与L1图形首次相交的地方就是最优解,我们很容易发现黑色方形必然首先与等值线相交于方形顶点处。可以直观想象,因为L1函数有很多"突出的角"(二维情况下有四个,多维情况下更多),J0与这些角接触的概率远大于与其它部分接触的概率。而这些点某些维度为0(以上图为例,交点处1为0),从而会使部分特征等于0,产生稀疏模型,进而可以用于特征选择。
理解L2范数
为什么L2范数可以防止过拟合呢?
要想知道L2范数为什么可以防止过拟合,首先就要知道什么是过拟合。通俗讲,过拟合是指模型参数较大,模型过于复杂,模型抗扰动能力弱。只要测试数据偏移一点点,就会对结果造成很大的影响。因此,要防止过拟合,其中一种方法就是让参数尽可能的小一些。同L1范数分析一样,我们做出图像,如下图所示:
图2 L2正则化
二维平面下L2正则化的函数图形是个圆,与方形相比,没有突出的棱角。因此交点在坐标轴的概率很低,即使得1或2等于零的概率小了许多。由上图可知,L2中得到的两个权值倾向于均为非零的较小数。 这也就是L1稀疏、L2平滑的原因。下面我从公式的角度解释一下,为什么L2正则化可以获得值很小的参数?
以线性回归中的梯度下降法为例。假设要求的参数为, h(x)是我们的model,那么LR的损失函数如下:
那么在梯度下降法中,最终用于迭代计算参数的迭代式为:
当对损失函数加上L2正则化以后,迭代公式会变成下面的样子:
从上式可以看出,与未添加L2正则化的迭代公式相比,每一次迭代,j都要乘以一个小于1的因子,从而使得j不断减小,因此总的来看,是不断减小的。总结
L1会趋向于产生少量的特征,而其它特征都是0。L2会选择更多的特征,这些特征都会趋近于0。L1在特征选择时非常有用,而L2只是一种防止过拟合的方法。在所有特征中只有少数特征起重要作用的情况下,选择L1范数比较合适,因为它能自动选择特征。而如果所有特征中,大部分特征都能起作用,而且起的作用很平均,那么使用L2范数也许更合适。
-
【机器学习】正则化项L1范数与L2范数的关系
2018-05-03 14:27:09在学习机器学习过程中,我自己纠结了很久的一个问题是 L1 norm 和 L2 norm 到底是什么关系,有什么区别。L1 和 L2 都是深度学习中常用的正则化项(regularizer),描述的是模型的复杂度,它的作用在于模型越复杂,... -
【转载】深入理解L1、L2范数
2019-07-12 17:51:26前言 说起L1、L2范数,大家会立马想到这是机器学习中常用的正则化方法,一般...那添加L1和L2正则化后到底有什么具体作用呢?为什么会产生这样的作用?本篇博文将和大家一起去探讨L1范数、L2范数背后的原理。 先说结... -
优化问题中的正则项作用
2020-10-10 12:34:02一个例子是,图像去噪的目标函数,如果只考虑一项(去噪后的图像的像素平均值和原图像一致),问题就有无穷多组解。但是,加上正则项(一般的是BV范数)以后,问题的解就变成唯一的了。 剩下的问题就是什么是适定... -
L1正则L2正则的公式是什么?他们各自的特点是什么(适用场景)?
2020-02-01 09:55:25这样可以有效的降低有依赖的特征,起到特征选择的作用,同时特征维度降低后模型的复杂度也随之降低。所以L1正则适用于特征有相互依赖,且对权重是0或者非0相当敏感的模型。 L2正则能降低模型结构风险,防止模型过... -
机器学习知识点笔记(一)
2019-02-13 23:05:03目录 什么是机器学习? 如何寻找这个函数? 机器学习三板斧 ...参数稀疏有什么好处呢? 为什么L2范数可以防止过拟合? 什么是模型过拟合,列举模型过拟合的原因及解决办法? 对特征进行挑选的方法有哪些... -
机器学习中的L1、L2正则化
2019-04-04 15:23:00目录 1. 什么是正则化?正则化有什么作用? 1.1 什么是正则化? 1.2 正则化有什么作用? 2. L1,L2正则化? 2.1 L1、L2范数 2.2 监督学习中的L1、L2正则化 3. L1、L2正则化的作用... -
深度学习:L1和L2正则化
2018-08-17 09:37:11L1和L2正则化,也有很多称为L1和L2范数,其实本质就是范数,主要作用是降低机器学习的过拟合,具体为在原有的损失函数J0的基础上加上一个正则项L,即J=J0+L 带有L1范数的损失函数如下: 带有L2范数的损失函数... -
L1与L2区别?L1为啥具有稀疏性?
2019-08-01 20:00:11实现参数稀疏有什么好处?参数值越小代表模型越简单么?L1与L2区别?L1为啥具有稀疏性? 范数正则化有两个作用? 1、保证模型尽可能简单、避免过拟合 2、约束模型特性,加入一些先验知识,例如稀疏、低秩 实现参数... -
python机器学习——正则化
2020-08-25 13:58:13范数正则化理论及具体案例操作1、正则化(1)什么是正则化(2)为什么要进行正则化(3)正则化原理2、范数(1)L0 范数(2)L1 范数参考文献 1、正则化 (1)什么是正则化 正则化( Regularization )就是对最小化... -
机器学习&深度学习常见问题
2019-02-03 00:28:34说一说有哪些常用正则项,分别有什么作用 一般有L1,L2正则, L1正则是在模型中加入L1范数,也就是模型参数的绝对值和,L1范数可以是稀疏权值,所有有特征选择的作用(画图解释,优化函数是个圆,条件是直线来的)... -
机器学习中L1 L2正则化项(范式,惩罚项)
2020-01-28 19:33:171. 什么是L1 L2? 正则化项,范式,惩罚项是不同学科范畴的学者的不同叫法,具体如下: 在机器学习称作正则化; 统计学领域称作惩罚项; 数学界会称作范数。 L1范数:L1范数就是曼哈顿距离,向量中每个元素... -
一文弄懂L0、L1和L2正则化范式
2019-04-28 19:21:31实现参数的稀疏有什么好处吗?参数值越小代表模型越简单吗?正则式的应用场景 正则化 正则化的作用实际上就是防止模型过拟合,提高模型的泛化能力。 正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化... -
L1和L2正则化
2019-03-20 08:53:34什么是正则化? 正则化就是在损失函数后加上一个正则化项(惩罚项),其实就是常说的结构风险最小化策略,即经验风险(损失函数)加上正则化...正则化有什么作用: L1正则化可以产生稀疏权重矩阵,即大部分w为0,只... -
正则化-L0,L1,L2
2019-09-29 00:20:014、L1,L2正则化有什么不同; 1、什么是L0、L1、L2正则化; L0正则化 L0范数指的是向量中非零元素的个数; L0正则化就是限制非零元素的个数在一定的范围,这很明显会带来稀疏。一般而言,用L0范数实现稀疏是一... -
文献阅读+L1正则和L2正则+softmaxL1正则
2018-04-02 16:40:47导入:一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。... -
机器学习笔记:正则化
2018-06-25 11:23:10有这么几个问题:1、什么是正则化?2、为什么要用正则化?3、正则化分为哪几类? 在机器学习中我们经常看到在损失函数后会有一个正则化项,正则化项一般分为两种L1正则化和L2正则化,可以看做是损失函数的惩罚项。... -
正则化的简单介绍
2020-09-19 21:02:41通常该项为L1范数或者是L2范数组成,又称为L1正则化项和L2正则化项。(注:也有其他形式的正则化) L1正则化项:权值向量w中各个元素的绝对值之和,再乘以系数 L2正则化项:权值向量w中各个元素的平方和开平方根,... -
L0,L1,L2范式的区别?岭回归,Lasso回归
2020-04-07 19:58:571)实现参数的稀疏有什么好处吗? 一个好处是可以简化模型,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,那么可以对训练数据可以预测的很好,但是对测试数据就只能呵呵了。另一... -
【动手学深度学习】Task03笔记汇总
2021-01-06 18:51:10第一反应是训练数据集大小带来的影响,或许有很多研究怎么丰富数据集的文献吧,数据集大,那么复杂的模型就更好发挥作用。 1.过拟合常用的模型层面的应对方法: 权重衰减,也即L2-Norm Regularization。从公式和名字... -
2.26.2 朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别? 76 2.26.4 朴素与半朴素贝叶斯分类器 76 2.26.5 贝叶斯网三种典型结构 76 2.26.6 什么是贝叶斯错误率 76 2.26.7 什么是贝叶斯最优错误率 76 2.27 EM算法...
-
历届试题 分考场
-
远程桌面多窗口工具.rar
-
MySQL 索引
-
graphics的lib-ok.7z
-
app软件测试全栈系列精品课程
-
JAVA01
-
access应用的3个开发实例
-
牛牛量化策略交易
-
NFC-host-card-emulation-Android-master.zip
-
基于小波技术进行图像融合.zip
-
【写作技巧】毕业论文如何写目录?
-
IEXPath.zip
-
Dockerfile:Deeplearning_Playland
-
Educational Codeforces Round 105 (Rated for Div. 2) D题-Dogeforces(构造+并查集)
-
2021-03-03
-
CISA培训与认证精讲全套视频.txt
-
CentOS7安装Python3环境(无需修复yum命令)
-
MySQL 高可用工具 DRBD 实战部署详解
-
微软Exchange多个高危漏洞通告
-
海泰新光首次公开发行股票并在科创板上市招股说明书.pdf