精华内容
下载资源
问答
  • 拉普拉斯分布,高斯分布,L1 L2

    千次阅读 2018-02-05 18:04:00
    之前那篇文章里提到,L1其实是加上服从拉普拉斯分布的先验,L2是加上服从高斯分布的先验: http://www.cnblogs.com/charlesblc/p/7977732.html   那么记住拉普拉斯的公式和高斯的公式:   拉普拉斯(Laplace)  ...

    之前那篇文章里提到,L1其实是加上服从拉普拉斯分布的先验,L2是加上服从高斯分布的先验:

    http://www.cnblogs.com/charlesblc/p/7977732.html

     

    那么记住拉普拉斯的公式和高斯的公式:

     

    拉普拉斯(Laplace)

     

     

    高斯(Gaussian)分布

     

    展开全文
  • 高斯分布&拉普拉斯分布

    万次阅读 多人点赞 2019-08-04 21:49:00
    N(μ,σ2),则称变量X服从均值为μ\muμ,方差为σ2\sigma^2σ2的正态分布。如X代表高三一班的数学成绩,则表明高三一班n名同学的数学成绩均值为μ\muμ,方差为σ2\sigma^2σ2。 高斯分布的概率密度函数为:...

    1. 一元高斯分布

    高斯分布(一般指一元高斯分布)又称为正态分布,是常见的连续概率分布。
    假设随机变量X~N(μ,σ2)N(\mu,\sigma^2),则称变量X服从均值为μ\mu,方差为σ2\sigma^2的正态分布。如X代表高三一班的数学成绩,则表明高三一班n名同学的数学成绩均值为μ\mu,方差为σ2\sigma^2
    高斯分布的概率密度函数为:
    f(x)=1σ2πe(xμ)22σ2f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
    正态分布的概率密度函数为钟形,因为被称为钟形曲线。标准正态分布是位置参数μ=0\mu=0,尺度参数σ2=1\sigma^2=1的正态分布。
    在这里插入图片描述
    高斯分布的重要性质:

    • 密度函数关于平均值对称
    • 平均值与他的众数、中位数为同一值
    • 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内
    • 95.449974%的面积在平均数左右两个标准差2σ2 \sigma的范围内
    • 99.730020%的面积在平均数左右三个标准差3σ3 \sigma的范围内
    • 函数曲线的拐点(inflection point)为离平均数一个标准差距离的位置。

    2. 多元高斯分布

    2.1 独立多元正态分布

    假设n个变量X=[X1,X2,...,Xn]X=[X_1, X_2,...,X_n]互不相关,且服从正态分布(维度不相关多元正态分布),各个维度的均值E(X)=[μ1,μ2,...,μn]TE(X)=[\mu_1, \mu_2,..., \mu_n]^T,标准差为σ(X)=[σ1,σ2,...,σn]T\sigma(X)=[\sigma_1, \sigma_2, ..., \sigma_n]^T
    联合概率密度公式:(独立分布假设下)
    f(x)=p(x1,x2,...xn)=p(x1)p(x2)...p(xn)=12πσ1σ2...σne(x1μ1)22σ12(x2μ2)22σ22...(xnμn)22σn2f(x)=p(x_1, x_2,...x_n)=p(x_1)p(x_2)...p(x_n)=\frac{1}{\sqrt2\pi \sigma_1\sigma_2...\sigma_n}e^{-\frac{(x_1-\mu_1)^2}{2\sigma_1^2}-\frac{(x_2-\mu_2)^2}{2\sigma_2^2}-...-\frac{(x_n-\mu_n)^2}{2\sigma_n^2}}
    如果令σ1σ2...σn=σz\sigma_1\sigma_2...\sigma_n=\sigma_z
    (x1μ1)2σ12+(x2μ2)2σ22+...+(xnμn)2σn2=z2\frac{(x_1-\mu_1)^2}{\sigma_1^2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}+...+\frac{(x_n-\mu_n)^2}{\sigma_n^2}=z^2
    那么独立多元高斯分布的密度函数可以简写如下:
    f(x)=1(2π)nσze12z2f(x)=\frac{1}{(\sqrt{2\pi})^n\sigma_z}e^{-\frac{1}{2}z^2}
    对上述做一个小结:
    在这里插入图片描述

    在这里插入图片描述
    此外,多元独立高斯分布还有明显的几何思想,可以从矩阵的角度考虑
    在这里插入图片描述
    将以上等式做变量替换:
    在这里插入图片描述
    在这里插入图片描述
    对角阵的行列式=对角元素相乘,因此
    σz=12=σ1σ2...σn\sigma_z = |\sum|^{\frac{1}{2}}=\sigma_1\sigma_2...\sigma_n
    替换变量后,等式可以简写为:
    zTz=(xμx)T1(xμx)z^Tz=(x-\mu_x)^T\sum^{-1}(x-\mu_x)
    在这里插入图片描述

    2.2 相关多元正态分布

    相关多元正态分布不太常用,简单思想为:转换坐标轴,使其成为不相关的,然后套用公式,具体可见链接:https://www.cnblogs.com/bingjianing/p/9117330.html

    3. 一元拉普拉斯分布

    一元拉普拉斯(laplace)也叫双指数分布,可以和正态分布进行对比,其密度函数为:
    12σexuσ\frac{1}{2\sigma}e^{-{|\frac{x-u}{\sigma}|}}
    其中σ\sigma为尺度参数;μ\mu为位置参数

    在这里插入图片描述

    • 拉普拉斯分布关于μ\mu对称,并达到最大值12σ\frac{1}{2\sigma},因此是众数

    在这里插入图片描述
    多元laplace分布推导参照多元正态分布,此处不再叙述。

    展开全文
  • 首先回答这个问题:L1是拉普拉斯分布,L2是高斯分布。我们先来看看什么是拉普拉斯分布和高斯分布 拉普拉斯分布         在概率论与统计学中,拉普拉斯分布是一种连续概率分布。由于它可以看作...

            关于L1和L2正则化可以看我的另一篇文章一篇文章搞懂:岭回归和Lasso回归
            首先回答这个问题:L1是拉普拉斯分布,L2是高斯分布。我们先来看看什么是拉普拉斯分布和高斯分布

    拉普拉斯分布

            在概率论与统计学中,拉普拉斯分布是一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动,所以它遵循拉普拉斯分布。
    在这里插入图片描述

    高斯分布

            正态分布(Normaldistribution),也称“常态分布”,又名高斯分布。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。公式为:

    在这里插入图片描述


    在这里插入图片描述

    为何L2服从高斯分布?

    在这里插入图片描述

    为何L1服从拉普拉斯分布?

    在这里插入图片描述

    展开全文
  • L1与L2分别服从什么分布

    千次阅读 2020-03-04 11:40:19
    L1是拉普拉斯分布,L2是高斯分布。 正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束、调整或缩小。也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合...

    L1是拉普拉斯分布,L2是高斯分布。

    正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束、调整或缩小。也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险。

     

    一、数学基础

    1. 范数

     

     

    范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。范数的一般化定义:对实数p>=1, 范数定义如下:

     

     

    • L1范数
      当p=1时,是L1范数,其表示某个向量中所有元素绝对值的和。
    • L2范数
      当p=2时,是L2范数, 表示某个向量中所有元素平方和再开根, 也就是欧几里得距离公式。

    2. 拉普拉斯分布

    如果随机变量的概率密度函数分布为:

     

     

    那么它就是拉普拉斯分布。其中,μ 是数学期望,b > 0 是振幅。如果 μ = 0,那么,正半部分恰好是尺度为 1/2 的指数分布。

     

    拉普拉斯分布的概率密度函数

     

    3. 高斯分布

     

     

    又叫正态分布,若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:X∼N(μ,σ2),其概率密度函数为:

     

     

     

    其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

     

    高斯分布的概率密度函数

    还有涉及极大似然估计、概率论相关的先验和后验相关概率, 为了控制篇幅, 本文就不详细介绍, wiki百科和百度百科都讲得很清楚。

    二、正则化解决过拟合问题

    正则化通过降低模型的复杂性, 达到避免过拟合的问题。 正则化是如何解决过拟合的问题的呢?从网上找了很多相关文章, 下面列举两个主流的解释方式。

     

    原因1:来自知乎上一种比较直观和简单的理解, 模型过于复杂是因为模型尝试去兼顾各个测试数据点, 导致模型函数如下图,处于一种动荡的状态, 每个点的到时在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。

     

     

    而加入正则能抑制系数过大的问题。如下公式, 是岭回归的计算公式。

     

     

    如果发生过拟合, 参数θ一般是比较大的值, 加入惩罚项后, 只要控制λ的大小,当λ很大时,θ1到θn就会很小,即达到了约束数量庞大的特征的目的。

    原因二:从贝叶斯的角度来分析, 正则化是为模型参数估计增加一个先验知识,先验知识会引导损失函数最小值过程朝着约束方向迭代。 L1正则是拉普拉斯先验,L2是高斯先验。整个最优化问题可以看做是一个最大后验估计,其中正则化项对应后验估计中的先验信息,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计。
    给定训练数据, 贝叶斯方法通过最大化后验概率估计参数θ:

     

     

    说明:P(θ)是参数向量θ的先验概率。

     

    下面我们从最大后验估计(MAP)的方式, 推导下加入L1和L2惩罚项的Lasso和岭回归的公式。
    首先我们看下最小二乘公式的推导(公式推导截图来自知乎大神)

     

     

    这个是通过最大似然估计的方法, 推导出线性回归最小二乘计算公式。

     

    • 假设1: w参数向量服从高斯分布
      以下为贝叶斯最大后验估计推导:

       

       

      最终的公式就是岭回归计算公式。与上面最大似然估计推导出的最小二乘相比,最大后验估计就是在最大似然估计公式乘以高斯先验, 这里就理解前面L2正则就是加入高斯先验知识。

       

    • 假设2: w参数服从拉普拉斯分布
      以下为贝叶斯最大后验估计推导:

       

       

      最终的公式就是Lasso计算公式。与上面最大似然估计推导出的最小二乘相比,最大后验估计就是在最大似然估计公式乘以拉普拉斯先验, 这里就理解前面L1正则就是加入拉普拉斯先验知识。

       

    L1和L2正则化的比较

    为了帮助理解,我们来看一个直观的例子:假定x仅有两个属性,于是无论岭回归还是Lasso接触的w都只有两个分量,即w1,w2,我们将其作为两个坐标轴,然后在图中绘制出两个式子的第一项的”等值线”,即在(w1,w2)空间中平方误差项取值相同的点的连线。再分别绘制出L1范数和L2范数的等值线,即在(w1,w2)空间中L1范数取值相同的点的连线,以及L2范数取值相同的点的连线(如下图所示)。

     

    L1正则化比L2正则化更易于得到稀疏解

    L1正则化比L2正则化更易于得到稀疏解

    岭回归与Lasso的解都要在平方误差项与正则化项之间折中,即出现在图中平方误差项等值线与正则化项等值线相交处。而由上图可以看出,采用L1范数时平方误差项等值线与正则化项等值线的交点常出现在坐标轴上,即w1或w2为0,而在采用L2范数时,两者的交点常出现在某个象限中,即w1或w2均非0。

    这说明了岭回归的一个明显缺点:模型的可解释性。它将把不重要的预测因子的系数缩小到趋近于 0,但永不达到 0。也就是说,最终的模型会包含所有的预测因子。但是,在 Lasso 中,如果将调整因子 λ 调整得足够大,L1 范数惩罚可以迫使一些系数估计值完全等于 0。因此,Lasso 可以进行变量选择,产生稀疏模型。注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,于是求解L1范数正则化的结果时得到了仅采用一部分初始特征的模型;换言之,基于L1正则化的学习方法就是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。

    总结

    1. L2 regularizer :使得模型的解偏向于范数较小的 W,通过限制 W 范数的大小实现了对模型空间的限制,从而在一定程度上避免了 overfitting 。不过 ridge regression 并不具有产生稀疏解的能力,得到的系数仍然需要数据中的所有特征才能计算预测结果,从计算量上来说并没有得到改观。
    2. L1 regularizer :它的优良性质是能产生稀疏性,导致 W 中许多项变成零。 稀疏的解除了计算量上的好处之外,更重要的是更具有“可解释性”。

     

    转自

    作者:suwi
    链接:https://www.jianshu.com/p/c9bb6f89cfcc

    展开全文
  • 为什么随机误差服从正态分布

    千次阅读 2020-08-17 08:22:15
    前言正态分布的导出python绘制图像前言正态分布分布在概率论与数理统计中处于核心地位。它最初作为二项分布计算的渐近公式由棣莫弗引进,后被拉普拉斯发展成系统的理论,但把它作为一个分布来进...
  • 分析了图像复小波变换的特点,根据复小波系数服从拉普拉斯分布的特性,采用最大后验概率估计,推导出一种复小波域的软阀值去噪方法。在实验中,分别与图像小波域、复小波域的高斯概率分布模型的去噪方法进行对比分析。...
  • L1与L2范数的区别

    2018-12-19 11:33:35
    L1与L2范数的区别: L1 范数的模型假设是服从拉普拉斯分布 L2范数的模型假设是服从高斯分布。 L1 范数可以得到稀疏解。
  • 各种算法的优缺点:

    千次阅读 2019-09-21 02:55:02
    L1误差分布服从拉普拉斯分布,L2误差分布服从高斯分布。 一个信息相似矩阵需要含有如下三个特性:高鉴别能力,自适应邻域,高稀疏性。 https://www.52ml.net/15063.html,整理了朴树贝叶斯,逻辑回归,决策树,SVM...
  • 用来评价模型训练损失,必须是任意的可微凸函数,r(x)为规范化约束因子,用来对模型进行限制,根据模型参数的概率分布不同,r(x)一般有:L1范式约束(模型服从高斯分布),L2范式约束(模型服从拉普拉斯分布);...
  • 正则化(L1和L2正则)

    2019-10-06 14:39:23
    对于损失函数后面加入惩罚函数可以降低过拟合的风险,惩罚函数使用L2范数,则称为岭回归,L2范数相当与给w加入先验,需要要求w满足某一分布,L2范数表示数据服从高斯分布,而L1范数表示数据服从拉普拉斯分布。...
  • L1L1L1服从拉普拉斯分布,L2L2L2服从高斯分布。 所谓先验就是优化的起跑线,有先验的好处就是可以在较小的数据集中有良好的泛化性能,当然这是在先验分布是接近真实分布的情况下得到的了,从信息论的角度看,向系统...
  • 最小绝对偏差(LAD)

    千次阅读 2020-05-05 17:54:19
    最小绝对偏差 (Least Absolute Deviations, LAD) 与最小二乘法(假设误差服从高斯分布)类似:当假设线性回归的误差服从拉普拉斯分布时,最小绝对偏差回归是对参数的最大似然估计。 问题描述 min⁡x∣∣Wx−y∣∣1 \...
  • 接着推导了天线阵列沿不同方向摆放、电磁波水平和俯仰功率角度谱分布服从拉普拉斯分布情况下空间相关性的数学表达式,建立起空间相关性与信道参数的数学关系。最后通过3个仿真实验从不同角度验证了理论分析的准确性...
  • 用来评价模型训练损失,必须是任意的可微凸函数,r(x)为规范化约束因子,用来对模型进行限制,根据模型参数的概率分布不同,r(x)一般有:L1范式约束(模型服从高斯分布),L2范式约束(模型服从拉普拉斯分布);...
  • 首先假设参数服从拉普拉斯分布,然后求参数的最大似然估计,L1的形式。 从梯度的更新角度上说。L1对参数求导,梯度为1或-1。在0出梯度可以赋值为0。然后梯度乘以学习率,随着学习率减小,参数更可能更新为0。 ...
  • 2018.08.19更新 1.中心极限定理:大量独立随机变量的和经过适当标准化后趋近于正态分布,这与变量的原分布无关,有独立同分布的中心极限定理和独立不同...当n很大时,近似服从标准正态分布N(0,1),即服从N(nµ,nσ...
  • 德莫弗-拉普拉斯定理

    2008-03-27 20:52:00
    设在独立试验重复序列中,事件A在各次试验中发生的概率为p(0<p<1),随机变量ηn表示事件...证:设随机变量ξi表示事件A在第i次试验中发生的次数(i=1,2,…,n,…),则ξi服从“0-1”分布, 相互独立,且有 直接...
  • Python说来简单也简单,但是也不简单,尤其是再跟高数结合起来的时候。。。 正态分布(Normaldistribution),也称“常态分布”,又名...若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为 N(μ,σ^2) 其
  • Regularization

    2019-02-25 22:23:37
    概述 L1和L2正则项本质上是对参数进行先验分布假设,具体来说L1对应拉普拉斯先验,L2对应高斯先验。 ML与MAP的不同 maximum likelihood (ML) 极...L1正则化对应假设每个参数服从均值为0的拉普拉斯分布。 b越小,越...
  • 记录一些已经看过的题目。...@齐同学:面试中遇到的,L1和L2正则先验分别服从什么分布,L1是拉普拉斯分布,L2是高斯分布。@AntZ: 先验就是优化的起跑线, 有先验的好处就是可以在较小的数据集中有良好的泛...
  • 研究了常利率下基于对偶复合泊松模型带阈值的分红策略,给出了公司在破产时累积红利期望现值函数的两个积分微分方程,分情况讨论了收益服从指数分布时的显示表达式,以及服从一般分布时的拉普拉斯变换表达式。
  • 一个基本的逻辑: ...线性回归中,L1(参数先验分布为拉普拉斯分布)和(L2参数先验分布为正态分布)都是最大后验估计推导的结果。 1.目标函数(损失函数)(重点1) ①线性回归(损失函数为均方误差...

空空如也

空空如也

1 2 3
收藏数 51
精华内容 20
关键字:

服从拉普拉斯分布