精华内容
下载资源
问答
  • 拉普拉斯分布,高斯分布,L1 L2
    千次阅读
    2018-02-05 18:04:00

    之前那篇文章里提到,L1其实是加上服从拉普拉斯分布的先验,L2是加上服从高斯分布的先验:

    http://www.cnblogs.com/charlesblc/p/7977732.html

     

    那么记住拉普拉斯的公式和高斯的公式:

     

    拉普拉斯(Laplace)

     

     

    高斯(Gaussian)分布

     

    更多相关内容
  • Laplace分布Laplace概率密度函数分布为: 一般μ的取值为0,所以形式如下: 分布的图像如下所示可以看到Laplace分布集中在μ附近,而且b越小,数据的分布就越集中L2正则先验分布是高斯分布L1正则先验分布是Laplace...

    Laplace分布

    Laplace概率密度函数分布为:

    equation?tex=P%28x%7C%CE%BC%2C%CE%BB%29+%3D+%5Cfrac%7B1%7D%7B2+%5Clambda%7D+e%5E%7B-%5Cfrac%7B%5Cvert+x+%E2%80%93%5Cmu+%5Cvert%7D%7B%5Clambda%7D%7D 一般μ的取值为0,所以形式如下:

    equation?tex=P%28x%7C%CE%BB%29+%3D+%5Cfrac%7B1%7D%7B2+%5Clambda%7D+e%5E%7B-%5Cfrac%7B%5Cvert+x+%5Cvert%7D%7B%5Clambda%7D%7D 分布的图像如下所示

    可以看到Laplace分布集中在μ附近,而且b越小,数据的分布就越集中

    L2正则先验分布是高斯分布

    L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布。接下来从最大后验概率的角度进行推导和分析。在机器学习建模中,知道了 x和 y 以后,需要对参数 w 进行建模。那么后验概率表达式如下:

    根据条件概率:

    equation?tex=P%28%CE%B8%7CX%29%3D%7BP%28X%CE%B8%29%5Cover+P%28X%29%7D

    因为:

    equation?tex=P%28X%CE%B8%29%3DP%28X%29P%28%CE%B8%7CX%29%3DP%28%CE%B8%29P%28X%7C%CE%B8%29

    所以:

    equation?tex=P%28%CE%B8%7CX%29%3D%7BP%28%CE%B8%29P%28X%7C%CE%B8%29%5Cover+P%28X%29%7D

    因为根据最大化后验概率的时候,由于P(A)的结果是知道的(这是一个固定的值,观测到的),因此,最大化后验概率其实就是:

    equation?tex=max%5C%7BP%28%CE%B8%29P%28X%7C%CE%B8%29%5C%7D 此时可见,后验概率受到两个部分的影响,P(X|θ)类似于似然函数和P(θ)先验分布。当假设先验分布是1的时候,此时的后验概率和似然函数就等价了

    equation?tex=argmax%5C%3Bp%28%CE%B8%7CX%29%3Dargmax%5C%3B%7Bp%28X%7C%CE%B8%29p%28%CE%B8%29%5Cover+p%28X%29%7D ,由于P(x)的结果是知道的,所以可以省略分母P(X)

    式子可以写成:

    equation?tex=argmax%5C%3Bp%28%CE%B8%7CX%29%3Dargmax%5C%3B%7Bp%28X%7C%CE%B8%29p%28%CE%B8%29%7D

    因为:

    equation?tex=X%3D%5Bx_1%2Cx_2%E2%80%A6x_n%5D%5ET 是一个向量,向量中每个变量的出现的概率为:

    equation?tex=p%28x_i%7C%CE%B8%29

    equation?tex=x_1%E3%80%81x_2%E2%80%A6%E3%80%81x_n 同时出现的联合概率为

    equation?tex=p%28X%29%3Dp%28x_1%7C%CE%B8%29p%28x_2%7C%CE%B8%29%5Ccdots+p%28x_n%7C%CE%B8%29

    所以式子可以写成:

    上两边取log,则上面公式可以表达为:P(Y=y|x;w),Y表示一个随机变量,那么x和w呢?则分别是两个随机变量X和W的取值为x和w,所以,换句话说,P(Y=y|x;w)实际上就是P(Y=y|X=x;W=w)的一个简写形式,P(Y=y|x;w)的意思即为在X = x;W = w的条件下,Y = y 的概率

    可以看出来后验概率函数为在似然函数的基础上增加了

    equation?tex=logP%28w%29 ​,P(w) 的意义是对权重系数w 的概率分布的先验假设,在收集到训练样本X,y后,则可根据w 在 X,y下的后验概率对 w进行修正,从而做出对 w 的更好地估计。若假设w的先验分布为0均值的高斯分布,即

    equation?tex=w+%5Csim+N%280%2C+%5Cdelta%5E2%29 则有;可以看到,在高斯分布下

    equation?tex=logP%28w%29 的效果等价于在代价函数中增加L2正则项。若假设 w 服从均值为0,参数为 α的拉普拉斯分布,即

    取对数

    等价于:​

    也就是说加入了L2正则化,W服从高斯分布

    L1正则先验分布是Laplace分布

    误差属于正态分布

    equation?tex=%E2%88%B5f%28X%29++%3D+W%5ETX+%2B+%5Cepsilon+%5C%5C+%E2%88%B4+%5Cepsilon_i%3Df%28x_i%29-+w_ix%5ET_i

    其中

    equation?tex=X%3D%28x_1%2C+x_2...x_n%29 ,ϵ是白噪声,即

    equation?tex=%5Cepsilon+%5Csim+N%280%2C+%5Cdelta%5E2%29 ​那么于一对数据集

    equation?tex=%28X_i%2C+Y_i%29 服从正态分布

    equation?tex=Y_i+%5Csim+N%28w_i%5ETx_i%2C+%5Cdelta%5E2%29 ​为了计算方便令

    equation?tex=%5Cdelta_t%5E2%3D%CE%B2%5E%7B-1%7D

    equation?tex=Y_i%5Csim+N%28w%5ETx%2C%CE%B2%5E%7B-1%7D%29

    equation?tex=p%28%CE%B5%5E%7Bi%7D%29%3D%7B1%5Cover+%CE%B4+%5Csqrt%7B2%CF%80%7D+%7De%5E%7B-%7B%28%CE%B5%5E%7Bi%7D%29%5E2%5Cover+2%CE%B4%5E2%7D%7D+%5Crightarrow+p%28y%5Ei%7Cx%5E%7Bi%7D%3Bw%29%3D%7B1%5Cover+%CE%B4+%5Csqrt%7B2%CF%80%7D+%7De%5E%7B-%7B%28y%5E%7Bi%7D-w%5ETx%5Ei%29%5E2%5Cover+2%CE%B4%5E2%7D%7D+P(Y=y|x;w)的含义为:Y表示一个随机变量,那么x和w呢?则分别是两个随机变量X和W的取值为x和w,所以,换句话说,P(Y=y|x;w)实际上就是P(Y=y|X=x;W=w)的一个简写形式,P(Y=y|x;w)的意思即为在X = x;W = w的条件下,Y = y 的概率

    equation?tex=+p%28y%5Ei%7Cx%5E%7Bi%7D%3Bw%29%3D%7B1%5Cover+%CE%B4+%5Csqrt%7B2%CF%80%7D+%7De%5E%7B-%7B%28y%5E%7Bi%7D-w%5ETx%5Ei%29%5E2%5Cover+2%CE%B4%5E2%7D%7D+ 表示为:在X = x;W = w的条件下(w为待估参数),Y = y 的概率服从

    equation?tex=Y_i+%5Csim+N%28w_i%5Ctheta%5ET_i%2C+%5Cdelta%5E2%29 的正态分布,即:

    equation?tex=+%5Cepsilon_i%3Df%28x_i%29-+w_i%5Ctheta%5ET_i 的结果ε服从

    equation?tex=Y_i+%5Csim+N%28w_i%5Ctheta%5ET_i%2C+%5Cdelta%5E2%29 的正态分布

    ​记误差

    equation?tex=%CE%B5+%5Csim+N%280%2C%CF%83_%CE%B5%5E2%29%5Csim+N%280%2C%CE%B1%5E%7B-1%7D%29

    equation?tex=t+%5Csim+N%28y%3Dh_%CE%B8%28x%29%2C%CF%83_t%5E2%29%5Csim+N%28w%5ETx%2C%CE%B2%5E%7B-1%7D%29

    为w与x相互独立,对于两个独立事件A与B有P(x|w)=P(x),即w与x是相互独立的,则w在x这个前提下的条件概率为x自身的概率:

    所以:

    equation?tex=p%28w%7Cx%2Cy%29%3D%7B%7Bp%28w%2Cx%29p%28y%7Cw%2Cx%29%7D%5Cover+p%28x%2Cy%29%7D%3D%7B%7Bp%28w%29p%28x%7Cw%29p%28y%7Cw%2Cx%29%7D%5Cover+p%28x%2Cy%29%7D%3D%7B%7Bp%28w%29p%28x%29p%28y%7Cw%2Cx%29%7D%5Cover+p%28x%2Cy%29%7D多元向量的条件分布计算公式

    equation?tex=p%28x%2Cy%2Cw%29%3Dp%28x%2Cy%29p%28w%7Cx%2Cy%29%3Dp%28w%2Cx%29p%28y%7Cw%2Cx%29%5C%5C+p%28x%2Cy%29p%28w%7Cx%2Cy%29%3Dp%28t%2Cx%29p%28y%7Cw%2Cx%29%5C%5C+p%28w%7Cx%2Cy%29%3D%7B%7Bp%28w%2Cx%29p%28y%7Cw%2Cx%29%7D%5Cover+p%28x%2Cy%29%7D+

    因为p(x)与p(x,y)是固定值,所以当

    equation?tex=%5Cmathop%7Bargmax%7D%5Climits_w+%5C%3B+L%28w%29%3D%5Cmathop%7Bargmax%7D%5Climits_w%5C%3B+p%28w%7Cx%2Cy%29%3D%5Cmathop%7Bargmax%7D%5Climits_w%5C%3Bp%28w%29p%28y%7Cw%2Cx%29

    时,p(w,x)值最大。通过后验概率;可以看出来后验概率函数为在似然函数的基础上增加了logP(w),P(w)的意义是对权重系数w的概率分布的先验假设,在收集到训练样本{X,y}后,则可根据w在{X,y}下的后验概率对w进行修正,从而做出对w的更好地估计。

    对参数w的分布加入先验分布信息(注不加任何先验就是普通的线性回归,频率派认为参数为固定的值,是指真实世界中,参数值就是某个定值。贝叶斯派认为参数是随机变量,是指取这个值是有一定概率的)

    equation?tex=w+%5Csim+Laplace%280%2C%7B1%5Cover+%5Clambda%7D%29 ​(Laplace概率密度函数分布为:

    equation?tex=P%28x%7C%CE%BC%2C%CE%BB%29+%3D+%5Cfrac%7B1%7D%7B2+%5Clambda%7D+e%5E%7B-%5Cfrac%7B%5Cvert+x+%E2%80%93%5Cmu+%5Cvert%7D%7B%5Clambda%7D%7D ​一般μ的取值为0,所以形式如下:

    equation?tex=P%28x%7C%CE%BB%29+%3D+%5Cfrac%7B1%7D%7B2+%5Clambda%7D+e%5E%7B-%5Cfrac%7B%5Cvert+x+%5Cvert%7D%7B%5Clambda%7D%7D )

    equation?tex=%5Cmathop%7Bargmax%7D%5Climits_w+%5C%3B+L%28w%29%3D%5Cmathop%7Bargmax%7D%5Climits_w%5C%3B+p%28w%7Cx%2Cy%29%5C%5C%3D%5Cmathop%7Bargmax%7D%5Climits_w%5C%3Bp%28w%29p%28y%7Cw%2Cx%29%3D%5Cdisplaystyle+%5Cprod_%7Bi%3D1%7D%5E%7Bn%7D+%5Csqrt%7B%CE%B2%5Cover+2%CF%80%7De%5E%7B%28%7B%7B-%CE%B2%28y_i-w_i%5ETx_i%29%5E2%7D%5Cover%7B2%7D%7D%29%7D%5Ccdot+%5Cprod_%7Bj%3D1%7D%5E%7Bn%7D%7B%5Clambda+%5Cover+2%7De%5E%7B%28-%CE%BB%7Cw_j%7C%29%7D

    取对数得

    equation?tex=%5Cmathop%7Bargmax%7D%5Climits_w+%5C%3B+L%28w%29%3Dln+l%28w%29%3Dln%5B%5Cdisplaystyle+%5Cprod_%7Bi%3D1%7D%5E%7Bn%7D+%5Csqrt%7B%CE%B2%5Cover+2%CF%80%7De%5E%7B%28%7B%7B-%CE%B2%28y_i-w_i%5ETx_i%29%5E2%7D%5Cover%7B2%7D%7D%29%7D%5Ccdot+%5Cprod_%7Bj%3D1%7D%5E%7Bn%7D%7B%5Clambda+%5Cover+2%7De%5E%7B%28-%CE%BB%7Cw_j%7C%29%7D%5D+%5C%5C+%5Cqquad+%5Cqquad+%5Cqquad%3Dln%5B%5Cdisplaystyle+%5Cprod_%7Bi%3D1%7D%5E%7Bn%7D+%5Csqrt%7B%CE%B2%5Cover+2%CF%80%7De%5E%7B%28%7B%7B-%CE%B2%28y_i-w_i%5ETx_i%29%5E2%7D%5Cover%7B2%7D%7D%29%7D%5D%2Bln+%5B%5Cprod_%7Bj%3D1%7D%5E%7Bn%7D%7B%5Clambda+%5Cover+2%7De%5E%7B%28-%CE%BB%7Cw_j%7C%29%7D%5D+%5C%5C%3D%5Cdisplaystyle+%5Csum_i%5Emln%5Csqrt%7B%CE%B2%5Cover+2%CF%80%7De%5E%7B%28%7B%7B-%CE%B2%28y_i-w_i%5ETx_i%29%5E2%7D%5Cover%7B2%7D%7D%29%7D%2B%5Csum_j%5Enln%7B%5Clambda+%5Cover+2%7De%5E%7B%28-%CE%BB%7Cw_j%7C%29%7D+%5C%5C%3D%5Cdisplaystyle+%5Csum_i%5Em%5B%7B1%5Cover+2%7Dln%7B%CE%B2%5Cover+2%CF%80%7D-%7B%CE%B2%5Cover+2%CF%80%7D%28y_i-w_i%5ETx_i%29%5E2%5D%2B%5Csum_j%5En%5Bln%7B%CE%BB%5Cover+2%7D-%CE%BB%7Cw_j%7C%5D+%5C%5C%3D%5Cdisplaystyle+-%7B%CE%B2%5Cover+2%7D%5Csum_i%5Em%28y_i-w_i%5ETx_i%29%5E2-%5Clambda+%5Csum_j%5En%7Cw_j%7C%2B%5Csum_i%5Em%7B1%5Cover+2%7Dln%7B%CE%B2%5Cover+2%CF%80%7D%2B%5Csum_j%5En+ln%7B%CE%B2%5Cover+2%7D+%5C%5C%3D%5Cdisplaystyle+-%7B%CE%B2%5Cover+2%7D%5Csum_i%5Em%28y_i-w_i%5ETx_i%29%5E2-%5Clambda+%5Csum_j%5En%7Cw_j%7C%2Bconstant

    等价于:

    equation?tex=%5Cdisplaystyle+%5Cmathop%7Bargmin%7D%5Climits_w+%5C%3B+L%28w%29%3D%5Csum_i%5Em%28y_i-w_i%5ETx_i%29%5E2-%5Clambda+%5Csum_j%5En%7Cw_j%7C+%5C%5C%3D%28y-XW%29%5E2%2B%5Clambda%7C%7CW%7C%7C_1+%5C%5C%3D%7C%7Cy-XW%7C%7C%5E2_2%2B%5Clambda%7C%7CW%7C%7C_1

    L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。

    展开全文
  • L1、L2正则化知识详解

    2021-01-17 13:45:16
    高斯分布 又叫正态分布,若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:X∼N(μ,σ2),其概率密度函数为: 其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。...

    正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束、调整或缩小。也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险。

    一、数学基础

    1. 范数

    范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。范数的一般化定义:对实数p>=1, 范数定义如下:

    c9bb6f89cfcc

    L1范数

    当p=1时,是L1范数,其表示某个向量中所有元素绝对值的和。

    L2范数

    当p=2时,是L2范数, 表示某个向量中所有元素平方和再开根, 也就是欧几里得距离公式。

    2. 拉普拉斯分布

    如果随机变量的概率密度函数分布为:

    c9bb6f89cfcc那么它就是拉普拉斯分布。其中,μ 是数学期望,b > 0 是振幅。如果 μ = 0,那么,正半部分恰好是尺度为 1/2 的指数分布。

    c9bb6f89cfcc

    拉普拉斯分布的概率密度函数

    3. 高斯分布

    又叫正态分布,若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:X∼N(μ,σ2),其概率密度函数为:

    c9bb6f89cfcc

    其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

    c9bb6f89cfcc

    高斯分布的概率密度函数

    还有涉及极大似然估计、概率论相关的先验和后验相关概率, 为了控制篇幅, 本文就不详细介绍, wiki百科和百度百科都讲得很清楚。

    二、正则化解决过拟合问题

    正则化通过降低模型的复杂性, 达到避免过拟合的问题。 正则化是如何解决过拟合的问题的呢?从网上找了很多相关文章, 下面列举两个主流的解释方式。

    原因1:来自知乎上一种比较直观和简单的理解, 模型过于复杂是因为模型尝试去兼顾各个测试数据点, 导致模型函数如下图,处于一种动荡的状态, 每个点的到时在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。

    c9bb6f89cfcc而加入正则能抑制系数过大的问题。如下公式, 是岭回归的计算公式。

    c9bb6f89cfcc

    如果发生过拟合, 参数θ一般是比较大的值, 加入惩罚项后, 只要控制λ的大小,当λ很大时,θ1到θn就会很小,即达到了约束数量庞大的特征的目的。

    原因二:从贝叶斯的角度来分析, 正则化是为模型参数估计增加一个先验知识,先验知识会引导损失函数最小值过程朝着约束方向迭代。 L1正则是拉普拉斯先验,L2是高斯先验。整个最优化问题可以看做是一个最大后验估计,其中正则化项对应后验估计中的先验信息,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计。

    给定训练数据, 贝叶斯方法通过最大化后验概率估计参数θ:

    c9bb6f89cfcc说明:P(θ)是参数向量θ的先验概率。

    下面我们从最大后验估计(MAP)的方式, 推导下加入L1和L2惩罚项的Lasso和岭回归的公式。

    首先我们看下最小二乘公式的推导(公式推导截图来自知乎大神)

    c9bb6f89cfcc这个是通过最大似然估计的方法, 推导出线性回归最小二乘计算公式。

    假设1: w参数向量服从高斯分布

    以下为贝叶斯最大后验估计推导:

    c9bb6f89cfcc最终的公式就是岭回归计算公式。与上面最大似然估计推导出的最小二乘相比,最大后验估计就是在最大似然估计公式乘以高斯先验, 这里就理解前面L2正则就是加入高斯先验知识。

    假设2: w参数服从拉普拉斯分布

    以下为贝叶斯最大后验估计推导:

    c9bb6f89cfcc最终的公式就是Lasso计算公式。与上面最大似然估计推导出的最小二乘相比,最大后验估计就是在最大似然估计公式乘以拉普拉斯先验, 这里就理解前面L1正则就是加入拉普拉斯先验知识。

    L1和L2正则化的比较

    为了帮助理解,我们来看一个直观的例子:假定x仅有两个属性,于是无论岭回归还是Lasso接触的w都只有两个分量,即w1,w2,我们将其作为两个坐标轴,然后在图中绘制出两个式子的第一项的”等值线”,即在(w1,w2)空间中平方误差项取值相同的点的连线。再分别绘制出L1范数和L2范数的等值线,即在(w1,w2)空间中L1范数取值相同的点的连线,以及L2范数取值相同的点的连线(如下图所示)。

    292a4c7c6cc96e69c7e91499138882fe.png

    L1正则化比L2正则化更易于得到稀疏解

    岭回归与Lasso的解都要在平方误差项与正则化项之间折中,即出现在图中平方误差项等值线与正则化项等值线相交处。而由上图可以看出,采用L1范数时平方误差项等值线与正则化项等值线的交点常出现在坐标轴上,即w1或w2为0,而在采用L2范数时,两者的交点常出现在某个象限中,即w1或w2均非0。

    这说明了岭回归的一个明显缺点:模型的可解释性。它将把不重要的预测因子的系数缩小到趋近于 0,但永不达到 0。也就是说,最终的模型会包含所有的预测因子。但是,在 Lasso 中,如果将调整因子 λ 调整得足够大,L1 范数惩罚可以迫使一些系数估计值完全等于 0。因此,Lasso 可以进行变量选择,产生稀疏模型。注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,于是求解L1范数正则化的结果时得到了仅采用一部分初始特征的模型;换言之,基于L1正则化的学习方法就是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。

    总结

    L2 regularizer :使得模型的解偏向于范数较小的 W,通过限制 W 范数的大小实现了对模型空间的限制,从而在一定程度上避免了 overfitting 。不过 ridge regression 并不具有产生稀疏解的能力,得到的系数仍然需要数据中的所有特征才能计算预测结果,从计算量上来说并没有得到改观。

    L1 regularizer :它的优良性质是能产生稀疏性,导致 W 中许多项变成零。 稀疏的解除了计算量上的好处之外,更重要的是更具有“可解释性”。

    展开全文
  • L1与L2分别服从什么分布

    千次阅读 2020-03-04 11:40:19
    L1是拉普拉斯分布,L2高斯分布。 正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束、调整或缩小。也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合...

    L1是拉普拉斯分布,L2是高斯分布。

    正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束、调整或缩小。也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险。

     

    一、数学基础

    1. 范数

     

     

    范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。范数的一般化定义:对实数p>=1, 范数定义如下:

     

     

    • L1范数
      当p=1时,是L1范数,其表示某个向量中所有元素绝对值的和。
    • L2范数
      当p=2时,是L2范数, 表示某个向量中所有元素平方和再开根, 也就是欧几里得距离公式。

    2. 拉普拉斯分布

    如果随机变量的概率密度函数分布为:

     

     

    那么它就是拉普拉斯分布。其中,μ 是数学期望,b > 0 是振幅。如果 μ = 0,那么,正半部分恰好是尺度为 1/2 的指数分布。

     

    拉普拉斯分布的概率密度函数

     

    3. 高斯分布

     

     

    又叫正态分布,若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:X∼N(μ,σ2),其概率密度函数为:

     

     

     

    其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

     

    高斯分布的概率密度函数

    还有涉及极大似然估计、概率论相关的先验和后验相关概率, 为了控制篇幅, 本文就不详细介绍, wiki百科和百度百科都讲得很清楚。

    二、正则化解决过拟合问题

    正则化通过降低模型的复杂性, 达到避免过拟合的问题。 正则化是如何解决过拟合的问题的呢?从网上找了很多相关文章, 下面列举两个主流的解释方式。

     

    原因1:来自知乎上一种比较直观和简单的理解, 模型过于复杂是因为模型尝试去兼顾各个测试数据点, 导致模型函数如下图,处于一种动荡的状态, 每个点的到时在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。

     

     

    而加入正则能抑制系数过大的问题。如下公式, 是岭回归的计算公式。

     

     

    如果发生过拟合, 参数θ一般是比较大的值, 加入惩罚项后, 只要控制λ的大小,当λ很大时,θ1到θn就会很小,即达到了约束数量庞大的特征的目的。

    原因二:从贝叶斯的角度来分析, 正则化是为模型参数估计增加一个先验知识,先验知识会引导损失函数最小值过程朝着约束方向迭代。 L1正则是拉普拉斯先验,L2是高斯先验。整个最优化问题可以看做是一个最大后验估计,其中正则化项对应后验估计中的先验信息,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计。
    给定训练数据, 贝叶斯方法通过最大化后验概率估计参数θ:

     

     

    说明:P(θ)是参数向量θ的先验概率。

     

    下面我们从最大后验估计(MAP)的方式, 推导下加入L1和L2惩罚项的Lasso和岭回归的公式。
    首先我们看下最小二乘公式的推导(公式推导截图来自知乎大神)

     

     

    这个是通过最大似然估计的方法, 推导出线性回归最小二乘计算公式。

     

    • 假设1: w参数向量服从高斯分布
      以下为贝叶斯最大后验估计推导:

       

       

      最终的公式就是岭回归计算公式。与上面最大似然估计推导出的最小二乘相比,最大后验估计就是在最大似然估计公式乘以高斯先验, 这里就理解前面L2正则就是加入高斯先验知识。

       

    • 假设2: w参数服从拉普拉斯分布
      以下为贝叶斯最大后验估计推导:

       

       

      最终的公式就是Lasso计算公式。与上面最大似然估计推导出的最小二乘相比,最大后验估计就是在最大似然估计公式乘以拉普拉斯先验, 这里就理解前面L1正则就是加入拉普拉斯先验知识。

       

    L1和L2正则化的比较

    为了帮助理解,我们来看一个直观的例子:假定x仅有两个属性,于是无论岭回归还是Lasso接触的w都只有两个分量,即w1,w2,我们将其作为两个坐标轴,然后在图中绘制出两个式子的第一项的”等值线”,即在(w1,w2)空间中平方误差项取值相同的点的连线。再分别绘制出L1范数和L2范数的等值线,即在(w1,w2)空间中L1范数取值相同的点的连线,以及L2范数取值相同的点的连线(如下图所示)。

     

    L1正则化比L2正则化更易于得到稀疏解

    L1正则化比L2正则化更易于得到稀疏解

    岭回归与Lasso的解都要在平方误差项与正则化项之间折中,即出现在图中平方误差项等值线与正则化项等值线相交处。而由上图可以看出,采用L1范数时平方误差项等值线与正则化项等值线的交点常出现在坐标轴上,即w1或w2为0,而在采用L2范数时,两者的交点常出现在某个象限中,即w1或w2均非0。

    这说明了岭回归的一个明显缺点:模型的可解释性。它将把不重要的预测因子的系数缩小到趋近于 0,但永不达到 0。也就是说,最终的模型会包含所有的预测因子。但是,在 Lasso 中,如果将调整因子 λ 调整得足够大,L1 范数惩罚可以迫使一些系数估计值完全等于 0。因此,Lasso 可以进行变量选择,产生稀疏模型。注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,于是求解L1范数正则化的结果时得到了仅采用一部分初始特征的模型;换言之,基于L1正则化的学习方法就是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。

    总结

    1. L2 regularizer :使得模型的解偏向于范数较小的 W,通过限制 W 范数的大小实现了对模型空间的限制,从而在一定程度上避免了 overfitting 。不过 ridge regression 并不具有产生稀疏解的能力,得到的系数仍然需要数据中的所有特征才能计算预测结果,从计算量上来说并没有得到改观。
    2. L1 regularizer :它的优良性质是能产生稀疏性,导致 W 中许多项变成零。 稀疏的解除了计算量上的好处之外,更重要的是更具有“可解释性”。

     

    转自

    作者:suwi
    链接:https://www.jianshu.com/p/c9bb6f89cfcc

    展开全文
  • 实数上最常用的分布就是正态分布,也称为高斯分布: N(x∣μ,σ2)=12πσ2e−(x−μ)22σ2N(x|\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}N(x∣μ,σ2)=2πσ21​​e−2σ2(x−μ...
  • 1. 广义高斯分布,generalized Gaussian distribution,GGD1.1 描述零均值的广义高斯分布如下:其中而 Γ(·) 是gamma函数。形状参数 γ 控制分布的“形状”,而 σ² 控制方差。例如另 γ = 2 就会得到零均值的高.....
  • L1、L2正则化来源推导 L1L2的推导可以从两个角度: 带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率 1.1 基于约束条件的最优化 对于模型权重系数w的求解释通过最小化目标函数实现的,也就是...
  • 高斯分布(正态分布)是一个常见的连续概率分布。 正态分布的数学期望值或期望值μμμ等于位置参数,决定了分布的位置;其方差σ2\sigma^{2}σ2的开平方或标准差σ等于尺度参数,决定了分布的幅度。正态分布的概率...
  • L2正则化为什么有效无论是学过机器学习还是深度学习的同学一定知道正则化可以缓解过拟合,最常用的就是L2正则化,即在损失函数上加上参数的L2范数,不过一般也不开根号了,也就是直接加,是正则化因子,它的大小决定...
  • 两种群决策变量高斯分布的KL散度和WD距离 觉得有用的话,欢迎一起讨论相互学习~ 以下来自文章: Multisource Selective Transfer Framework in Multiobjective Optimization Problems, TEVC,2020 假设一个种群决策...
  • 系列关于线性模型你可能还不知道的二三事(一、样本)关于线性模型你可能还不知道的二三事(二、也谈民主)关于线性模型你可能还不知道的二三事(三、特征值与奇异值的魔力)目录1 L2惩罚项1.1 惩罚项1.2 L2惩罚项与过拟合...
  • L1、L2正则化来源推导 L1L2的推导可以从两个角度: 带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率 1.1 基于约束条件的最优化 对于模型权重系数w的求解释通过最小化目标函数实现的,也...
  • L1正则和L2正则的推导

    2021-01-17 13:45:08
    高斯分布 又叫正态分布,若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:X∼N(μ,σ2),其概率密度函数为: 其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。...
  • 广义高斯分布(generalized Gaussian distribution,GGD)和非对称广义高斯分布( asymmetric generalized Gaussian distribution,AGGD)被经常使用与图像/视频信号的统计分析,其形状参数常被用为图像的特征进行分类或...
  • 两个高斯分布乘积的推导及解释,BPMF 公式推导

    万次阅读 热门讨论 2018-03-31 17:59:13
    1. 两个高斯分布的乘积 2. BPMF 公式推导 两个高斯分布乘积服从高斯分布 BPMF模型中公式推导 高斯先验+ 高斯似然=高斯后验分布 然而,很多时候, 化简成 标准的形式是困难的。 本文考虑从一阶导数...
  • 高斯,拉普拉斯分布

    千次阅读 2020-06-08 08:46:08
    一般来说我们可以使用正则化来避免过度拟合。但是实际上什么是正则化,什么是通用技术,以及它们有何不同?...可以证明L2高斯或L1和拉普拉斯正则化对算法具有同等影响。获得正则化效果的方法有两种.
  • 为什么拉普拉斯对应L1,高斯对应L2回到书上 写在前面的话 有一段时间没更新这个系列了,今天组会完晚上休息一下,再看看这本书。纯属个人笔记,如有问题请看原文或者留下评论。 Laplace versus Gauss 什么是先验...
  • 注: 本文是作者的自我总结,主要作为个人总结记录, 欢迎大家批评,交流. https://zhouxiaowei1120.github.io/#blogs ...Topic 1:L2 norm and Gaussian Distribution n...
  • 逻辑回归最详尽解释

    2021-01-27 04:09:26
    1.5.2 L2 正则化回归,相当于为模型添加了这样一个先验知识:服从零均值正态分布。首先看看正态分布长什么样子:由于引入了先验知识,所以似然函数这样写:取 再取负,得到目标函数:等价于原始的损失函数后面加上...
  • L1、L2正则化来源推导 L1L2的推导可以从两个角度: 带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率 1.1 基于约束条件的最优化 对于模型权重系数w的求解释通过最小化目标函数实现的,也就是...
  • L1和L2正则先验分别服从什么分布?

    千次阅读 2020-11-10 21:10:13
    首先回答这个问题:L1是拉普拉斯分布,L2高斯分布。我们先来看看什么是拉普拉斯分布和高斯分布 拉普拉斯分布         在概率论与统计学中,拉普拉斯分布是一种连续概率分布。由于它可以看作...
  • 这是不现实的,因为任何这样的模型的编码长度都是无限的,但如果我们对权值使用高斯先验并忽略常数因子,我们发现编码长度目标完全匹配的逻辑回归与l2范数正则化惩罚。通过这种理解,我们可以看到折衷参数是高斯先验...
  • 高斯高斯判别分析(GDA)对于高维空间中的一般似然和先验函数,很难用...假设分布p(x | y = apple)和p(x | y = orange)都可以用多元高斯分布建模。对于100×100的图像,x将包含100×100×3的特征(像素颜色RGB)。这是多...
  • 摘要:本文解读了《Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection》,该论文针对目标检测任务,提出了新的高斯检测框(GBB),及新的计算目标相似性的方法(ProbIoU)。
  • Regularization and variable selection via the elastic net: ...%20Hastie.pdf 高斯分布L2正则: http://qwone.com/~jason/writing/l2gaussian.pdf MLE;MAP;贝叶斯估计: https://zhuanlan.zhihu.com/p
  • 在上一篇的极限搜索与块匹配中,提到了深度滤波器这个概念,下面我来详细的记录一下关于高斯分布的深度滤波器的相关内容。 高斯分布的深度滤波器 对像素点深度的估计,本身亦可建模为一个状态估计问题,于是就...
  • 使用高斯混合模型的点云配准

    千次阅读 2020-08-17 17:04:33
    今天读了另一篇论文《Robust Point Set Registration Using Gaussian Mixture Models》,这篇论文也是基于概率模型进行点云配准,论文实现的关键思想是将输入点集用高斯混合模型进行表示,由于高斯函数和正态分布在...
  • 如果x∈Rk×1{\bf x}\in \mathbb{R}^{k\times 1}x∈Rk×1和y∈Rl×1{\bf y}\in \mathbb{R}^{l\times 1}y∈Rl×1为联合高斯分布随机向量,均值向量为[E(x) E(x)]T[{\rm E}({\bf x})\ {\rm E}({\bf x})]^{\rm T}...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,663
精华内容 4,265
关键字:

l2高斯分布

友情链接: tabHostDe.zip