精华内容
下载资源
问答
  • 这篇文章是我对我们MAPLE实验室(MAPLE),最近一年半来和GAN相关研究的一个简要的总结。本来是回答一个知乎上的问题的,现在做个简单的整理,做为一篇独立的...主要集中在:GAN是否能生成新的样本(泛化性)、如何去...

    这篇文章是我对我们MAPLE实验室(MAPLE),最近一年半来和GAN相关研究的一个简要的总结。本来是回答一个知乎上的问题的,现在做个简单的整理,做为一篇独立的文章发在这里。

    (我们今后会持续分享更多的技术和理论,敢兴趣的朋友可以关注这个知乎帐号)

    GAN的研究在最近1-2年内吸引了大量的工作,特别是和应用相关的研究。但相关的理论相对来说还比较少。主要集中在:GAN是否能生成新的样本(泛化性)、如何去评价、比较和量化这种泛化性?以及造成GAN的mode collapse的原因是什么?怎么解?

    进一步来说,泛化性和mode collapse这两个问题是独立,还是有本质的联系?

    首先,前一个问题“泛化性”是个非常重要的问题,这关系到GAN这类生成模型本身是不是有意义的 -- 它能不能生成和发现新的样本和变化模式,而不仅仅是记住已有的样本和模式。

    同时,这种泛化能力对提高基于GAN的半监督模型的性能也是非常重要的,因为只要具有泛化能力的模型,才能产生有价值的新样本来增强训练集,并帮助模型通过挖掘出更有信息的类内和类间变化来提高小样本情况下的分类准确度。

    第二个问题mode collapse,是在实际应用中真实发生的现象,如何去刻画这个现象的本质,并找出应对之道,也是我们重点关注的。另外,找出mode collapse 和泛化性的关系,通过现象去认识本质,也是今后需要重点关注的方向。

    ===================================

    以下是原文。

    目录

    一、理论

    二、评价指标论

    三、基于GAN的流型分析和半监督学习中的应用

    四、从几何角度研究Mode collapse问题

    五、泛化性和mode collapse 的关系

    ====================================

    一、理论

    关于GAN的理论,可以把GAN模型按照正则化、非正则化模型分成两大类。

    非正则化包括经典GAN模型以及大部分变种,如f-GAN,Least Square GAN,EBGAN等等。这些模型的共同特点是不对要生成的样本的分布做任何先验假设,尝试去解决一般性的数据样本生成问题。然而,由于缺少正则化的先验条件,其模型的泛化性是存疑的。

    换句话来说,泛化性说的是:所有模型都是需要先用有限的训练样本来训练的,那么由这些有限样本训练得到的模型可不可以从这些有限训练样本中生成出新的样本,而非简单地记着训练集?

    目前看来,无论从理论上还是实践上,非正则化的模型都无法证明他们的泛化能力。

    这时候,如果我们给要生成的数据加入一些先验的条件,比如这些“数据的分布密度在空间中变化速度是有限”的这样的条件,是不是就可以解决泛化性的问题。这就是构建正则化GAN的动机。

    目前看来,正则化模型的从理论上是成功的,已经从理论上证明了他们的泛化性能。这些模型包括Loss-Sensitive GAN, WGAN等。他们都是基于Lipschitz正则条件。对严格证明感兴趣的朋友可以参看论文 Loss-Sensitive Generative Adversarial Networks on Lipschitz Densities [pdf] 和我们的系列分享齐国君:条条大路通罗马LS-GAN:把GAN建立在Lipschitz密度上​zhuanlan.zhihu.com

    齐国君:广义LS-GAN(GLS-GAN) :现在 LS-GAN和WGAN都是这个超模型的特例了​zhuanlan.zhihu.com

    随之而来的可以进一步研究的问题是:除了Lipschitz正则化条件,还有没有其他的正则化先验条件,可以从理论上保证泛化性?这个问题比较理论,但对深入理解GAN模型可以做什么和不可以做什么具有非常重要的意义。这点就像很多物理定理一样,都有其适用范围。宣称适用一切条件的方法肯定是不存在的。理解算法的适用范围就是 GAN理论要回答的问题。

    二、评价指标

    当然,仅仅从理论上分析GAN模型的泛化性是不够的。我们还需要实验去验证他们。很遗憾的是,目前用来衡量不同GAN模型的实验指标都存在很大的问题。比如Inception Score,它用来衡量生成图片的质量,基于的假设是:高质量的图片,用一个分类网络(inception)对它进行分类后得到的类别应该是明确的。遗憾的是,任何一个分类器都很难覆盖所有可能的图片类别、而它的分类准确度也不可能是完美的。而且,即便有这么一个分类器,高inception score从逻辑上也只是个高质量图片的必要非充分条件。

    更重要的是,inception score完全不反应模型的泛化性,即生成正式新图片的能力。所有第二个可以研究的问题是:我们如何设计一个指标去比较不同GAN模型的泛化能力,这点也是至关重要的。

    目前,已经有了一些有益的尝试。比如,同样地在Loss-Sensitive Generative Adversarial Networks on Lipschitz

    Densities [pdf]这篇论文里,提出了一个MRE(Minimum Reconstruction

    Error)的指标来度量泛化性。

    它是这样工作的。在一个数据集上,比如CIFAR-10,把它分成训练集、验证集和测试集三个部分。我们在训练集上训练一个GAN模型,在验证集上调试超参数,这样模型在训练过程中就没有用到任何测试样本。那么,如果GAN有泛化性,它就有能力比较好地去生成这些未见到的测试样本。

    下面这份图给出了MRE的测试结果。可以看到,正则化的GAN,包括LS-GAN, GLS-GAN, WGAN, WGAN-GP比非正则话的结果DCGAN要好,而且训练过程更加得稳定,不像DCGAN那里存在不稳定地波动。

    图:随训练过程,在测试集上MRE的变化。

    同时,如下图结果,从数值上看,GLS-GAN (Generalized Loss-Sensitive GAN),比其他GAN模型,不管正则化的还是非正则化的,就要有更小的MRE误差。这点不难理解,因为其他正则化模型都是它的一个特例。

    图:在tiny ImageNet上,最终在测试集上的MRE。越小泛化性越高。

    换句话来说,也回到理论问题上,目前的正则化都是基于Lipschiz条件的,GLS-GAN是Lipschiz正则化里最大的一个超类。如下图所示。

    图:正则化与非正则化GAN模型。

    那么有没有其他的,同样基于Lipschiz正则条件的,不包含在GLS-GAN里的模型,也是一个未解答的问题。

    显然MRE的思路秉承了一般机器学习问题的评测思路,基于对训练数据、验证数据和测试数据集的划分。

    那么,一个新的问题是,有没有更加直接的指标可以不依赖于具体数据集,可以对GAN模型的泛化性进行更加直接地度量?

    今天先写到这里,后面有时间接着谈一谈GAN在算法和应用方面的可能方向,特别是小训练样本下的思路。

    三、基于GAN的流型分析和半监督学习中的作用

    接着昨天的讨论。

    具有泛化能力GAN的一个重要作用是:我们第一次有了一个比较理想的工具,可以用来表示和描述数据流型(manifold)。之前,如果我们想表示流型,一般是借助于一个图模型(Graph)。在图模型里,我们用节点表示数据点,用边表示数据直接的相似性。有了Graph,我们可以定量计算数据点上函数的变化。比如,在分类问题中,我们感兴趣的函数是分类函数,输出的是数据点的标签。有了基于Graph的流型,我们就可以建立一个分类模型:它输出的分类标签在相似样本上具有最小的变化。这个就是一种平滑性的假设,是基于图的半监督方法的核心假设。

    图:基于图的流型表示和半监督分类。

    尽管这种基于图的半监督方法取得了很大的成功,但是它的缺点也是很明显的。当数据点数量非常巨大的时候,构建这样一个Graph的代价会非常大。为了解决这个问题, Graph为我们提供了一个很好的基础。通过训练得到的生成器G(z),其实就是一个非常好的流型模型。这里z就是流型上的参数坐标,通过不断变化z,我们就可以在高维空间中划出一个流型结构。

    有了这样一个流型和它的描述G,我们可以在数据流型上研究各种几何结构。比如切向量空间、曲率,进而去定义在流型上,沿着各个切向量,函数会如何变化等等。好了,这里GAN就和半监督学习联系起来了。以前我们是用Graph这种离散的结果去研究分类函数的变化,并通过最小化这种变化去得到平滑性假设。

    现在,有了流型直接的参数化描述G(z),我们就能直接去刻画一个函数(比如分类问题中的分类器)在流型上的变化,进而去建立一个基于这种参数化流型的半监督分类理论,而非去借助基于图的流型模型。

    具体来说,半监督图流型中,我们常用到Laplacian矩阵来做训练;现在,有了参数化的流型后,我们就可以直接定义Laplace-Beltrami算子,从而实现半监督的训练。下面是基于这个方法在一些数据集上得到的结果。更多的结果可以参考这篇论文“Global versus Localized Generative Adversarial Networks”[pdf]。

    这里,有个比较精细的问题。通常的GAN模型,得到的是一个全局的参数话模型:我们只有一个z变量去参数化整个流型。事实上,在数学上,这种整体的参数化王是不存在的,比如我们无法用一个参数坐标去覆盖整个球面。这时我们往往要借助于通过若干个局部的坐标系去覆盖整个流型。

    同时,使用局部坐标系的另一个更加实际的好处是,我们给定一个目标数据点x后,整体坐标系G(z)要求我们必须知道对应的一个参数坐标z;而使用局部坐标系后,我们就直接可以在x附近去建立一个局部坐标系G(x,z)去研究流型周围的几何结构,而不用去解一个逆问题去去它对应的z了。这个极大地方便了我们处理流型上不同数据点。

    图:流型的局部化参数表示。(“Global versus Localized Generative Adversarial Networks”[pdf])

    沿着这个思路,我们可以利用参数化的局部坐标和它表示的流型来研究一系列问题。

    1. 比较理论的研究可以专注于,有了这些局部参数表示,如何去定义出一整套黎曼流型的数学结构,比如局部的曲率,黎曼度量,和如果沿着流型去算测地线和两个数据点之间的测地距离。

    2. 从应用的角度,给定了一个图像x,用局部表示G(x,z)可以对这个x在它的局部领域中做各种编辑操作或者控制图像的各种属性。这个可以结合有监督的对局部参数的意义进行训练。

    当然,从几何和流型参数化的角度还可以给出对GAN更深入的理解,比如对mode collapse问题。今天先写到这里,后面继续讨论如何从流型collapse 的角度来解释和避免GAN的mode collapse。

    四、从几何角度研究Mode collapse问题

    当然,从几何和流型参数化的角度还可以给出对GAN更深入的理解,比如对mode collapse问题。在GAN的相关研究中,mode collapse是一个被广泛关注的问题。有很多相关的论文在从不同角度来研究和解决这个问题。

    而基于Localized GAN所揭示的几何方法,我们可以从流型局部崩溃的角度来

    解释和避免GAN的mode

    collapse。具体来说,给定了一个z,当z发生变化的时候,对应的G(z)没有变化,那么在这个局部,GAN就发生了mode collapse,也就是不能产生不断连续变化的样本。这个现象从几何上来看,就是对应的流型在这个局部点处,沿着不同的切向量方向不再有变化。换言之,所有切向量不再彼此相互独立--某些切向量要么消失,要么相互之间变得线性相关,从而导致流型的维度在局部出现缺陷(dimension

    deficient)。

    为了解决这个问题,最直接的是我们可以给流型的切向量加上一个正交约束(Orthonormal

    constraint),从而避免这种局部的维度缺陷。下图是在CelebA 数据集上得到的结果。可以看到,通过对不同的切向量加上正交化的约束,我们可以在不同参数方向上成功地得到不同的变化。上图:在给定输入图像的局部坐标系下对人脸的不同属性进行编辑。

    上图:在给定输入图像的局部坐标系下对人脸的不同属性进行编辑。

    值得注意的是,尽管我们是从局部GAN的角度推导和实现了对切向量的正交化约束,这个思路和方法同样适用于传统的整体GAN模型。我们只需要在训练整体GAN模型的同时,在每个训练数据样本或者一个batch的子集上也加上这个约束来求取相应的下降梯度就同样可以训练整体GAN模型;这个方向可以引申出未来的相关工作。

    五、泛化性和mode collapse 的关系

    表面看来,这两个问题是不同的,一个是在研究能不能生成新样本,一个是研究生成样本的多样性。

    但从道理上来说,有良好泛化性的模型,因为可以较好的逼近真实样本的分布,所以应该不存在生成样本多样性不足的问题的。

    但反之则不然:即便没有mode collapse,也不能保证生成器模型的泛化性。所以从这点让来看,泛化性是个更广义的问题。

    从某种意义上,泛化性可以看作是因,而mode collapse是它表现出来的现象。

    但是不是研究mode collapse 就不重要了呢?这个也不是这样子的。对mode collapse这个典型想象的理解,可以有助于为研究生成器的泛化性提供非常有价值的样本。

    比如,在发生mode collapse的地方,该点的密度函数显然会存在一个很高的峰值,在这个峰附近,密度函数的Lipschitz常数会变得很大。这个提示我们,通过对生成密度做Lipschitz正则化,是有利于帮助我们解决mode collapse问题,同时提高生成器的泛化性的。LS-GAN的成功也证实了这点。

    而另一方面,我们上面介绍的通过对切向量做正交约束,进而防止流型维度缺陷和mode collapse的方法, 是不是也能为我们打开一扇从几何角度提高生成器泛化性的思路呢?这个可以留待后续的研究来揭示。

    展开全文
  • 3D目标检测被广泛用于自动驾驶,但在德国收集的数据训练的检测器可以在美国的道路上表现的好吗?实验证明,这种情况会精度下降严重,作者进一步发现主要是不同场景中汽车的大小差异过大导致的,通过...

    3D目标检测被广泛用于自动驾驶,但在德国收集的数据训练的检测器可以在美国的道路上表现的好吗?实验证明,这种情况会精度下降严重,作者进一步发现主要是不同场景中汽车的大小差异过大导致的,通过简单的尺度归一化,使得跨国家的3D目标检测泛化能力更好。

    Train in Germany, Test in The USA: Making 3D Object Detectors Generalize

    作者:Yan Wang, Xiangyu Chen, Yurong You, Li Erran, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger, Wei-Lun Chao

    作者单位:康奈尔大学、Scale AI、哥伦比亚大学、俄亥俄州立大学

    地址:https://arxiv.org/abs/2005.08139v1

    代码地址:https://github.com/cxy1997/3D_adapt_auto_driving

    (尚未开源)

    END

    备注:目标检测

    目标检测交流群

    2D、3D目标检测等最新资讯,若已为CV君其他账号好友请直接私信。

    我爱计算机视觉

    微信号:aicvml

    QQ群:805388940

    微博知乎:@我爱计算机视觉

    投稿:amos@52cv.net

    网站:www.52cv.net

    在看,让更多人看到  

    展开全文
  • 提出一种安全域概念下的堆叠降噪自动编码器和支持向量机集成模型相结合的暂态...算例结果表明,所提暂态稳定评估方法具有更高的评估准确率和一定的泛化能力;所提严重度分级方法能够直观表现不同运行方式的危险程度。
  • 机器学习常用术语

    2020-04-04 23:38:11
    机器学习常用术语解释 ** 泛化能力,过拟合,欠拟合,性能度量 ** ...比如决策树算法中,ID3算法中的编号会被该算法认为是信息增益最大的属性,但是若是新增编号,就会严重过拟合,泛化能力很差。 欠拟合...

    机器学习常用术语解释

    ** 泛化能力,过拟合,欠拟合,性能度量 **

    泛化能力

    泛化能力指的是机器学习算法对新鲜样本的适应能力。机器能从训练样本中学到适用于所有潜在样本的普遍规律,在遇到新样本中能做出正确判别的能力

    过拟合

    把样本中的一些噪声特性也学习下来了,泛化能力差
    比如决策树算法中,ID3算法中的编号会被该算法认为是信息增益最大的属性,但是若是新增编号,就会严重过拟合,泛化能力很差。

    欠拟合

    模型没有很好地捕捉数据特征,不能很好地拟合数据。
    可能会遗漏一些重要的拟合因素。
    比如买瓜,只考虑色泽,不考虑敲击声与根茎。
    比如衡量一个人是否适合一项工作,只考虑经验,不考虑具备的技术。

    性能度量

    衡量模型泛化能力的数值评价标准
    性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果。
    这也意味着模型的好坏不仅取决于算法和数据,还取决于任务需求。

    展开全文
  • 过拟合 及 解决方法

    2018-07-03 21:01:56
    什么是过拟合?网络对当前训练的数据分类效果特别好...图一过拟合现象非常严重泛化能力比较弱,主要是惩罚因子比较小,多网络权重参数惩罚力度过小导致的,图二稍微过拟合,图三的效果就比较好,泛化能力比较强。...

    什么是过拟合?

    网络对当前训练的数据分类效果特别好;但是对测试数据的分类效果却不好的现象。

    神经网络过拟合的现象非常非常普遍,而这种现象导致的结果也是非常严重的。


    解决方法:正则化  对网络的权重参数进行惩罚。


    图一过拟合现象非常严重,泛化能力比较弱,主要是惩罚因子比较小,多网络权重参数惩罚力度过小导致的,图二稍微过拟合,图三的效果就比较好,泛化能力比较强。


    展开全文
  • 使用large-batch训练得到的网络具有较差的泛化能力。...batch_size太大,相邻mini-batch间的差异相对过大,那么相邻两次迭代的梯度震荡情况会比较严重,不利于收敛。就如下图示的后半部分一样。 ...
  • 轨迹数据的发布能够为政府部门进行城市规划或商业机构进行决策制定提供有力支持,但存在着严重的隐私泄露风险。在现有的基于差分隐私机制的轨迹发布技术基础上,提出以TFIDF统计值作为参考指标的AC_...
  • 图像数据增广

    2019-07-10 09:53:06
    图像数据准备对神经网络与卷积神经网络模型训练有重要影响,当样本空间不够或者样本数量不足的时候会严重影响训练或者导致训练出来的模型泛化程度不够,识别率与准确率不高!本文将会带你学会如何对已有的图像数据...
  • 虽然有transformer但是LSTM并没有过时 在一些小数据集和短文本上里面lstm是由于transformer的,transformer模型太大了,吃...如果小数据少的话,用BERT参数这么大的模型,训练会产生严重过拟合,泛化能力也差。 ...
  • 针对现有视频图像火灾检测算法前景信息丢失严重、误报率高、泛化能力弱等问题,提出一种新的火灾检测算法。其主要由前景提取和分类决策两大模块组成。在前景提取模块中改进ViBe算法,实现对运动区域的选择性更新;...
  • 机器学习:对决策树剪枝

    千次阅读 2017-11-20 00:00:00
    昨天推送中介绍了决策树的基本思想,包括从众多特征中找出最佳的分裂点,刚开始大家都是用选择这个特征后带来的信息增益为基本方法,后来发现它存在一个严重的bug,因此提出来了信息增益率(即还要除以分裂出来的...
  • 再论颜色校正

    2019-01-23 15:56:47
    起因:基于上一篇的颜色校正算法基本没什么问题,一部分情况下也能很好的工做,但是有相当一部分...颜色与原来的颜色偏色严重肯定是因为校正矩阵的泛化能力太弱,或者说严重过拟合;其实,仔细想想也对,上一篇文章...
  • 一棵完全生长的决策树会面临一个很严重的问题,即过拟合。当模型过拟合进行预测时,在测试集上的效果将会很差。因此我们需要对决策树进行剪枝, 剪掉一些枝叶,提升模型的泛化能力。 决策树的剪枝通常有两种方法,预...
  • 4.1 不含有特征向量相同但标记不同的冲突数据 and 决策树按照属性特征来划分,相同属性特征的样本最终会进入同一个叶子...简单的使用最小误差原理会导致机器学习产生严重的过拟合,严重影响机器学习的泛化能力。...
  • 如果用正常曝光的图像去合成带噪点的暗光图像作为训练集,很可能导致最终应用在真实世界中的测试出的图片人工伪影严重泛化性差。 所以作者利用无监督的GAN技术,设计了暗光增强领域中第一个训练数据不成对的无监督...
  • #主题 参加的比赛中,很多都有类别失衡的情况,会使得训练器总是倾向于将目标识别为数目过多的那一类, 严重影响模型的准确性和泛化性,这里记录一下遇到这种问题,如何采用适当的训练策略: 1. ...
  • 模型过拟合严重泛化能力弱。最终带来的结果是,用户体验不佳。 改进的方面:  1)改变字符向量为词向量。实际发现,以字符为单元的模型,在数据量少的情况下(10W以下),更容易过拟合,词向量因具有最小语义...
  • 对于深度学习模型,过拟合是一个比较严重的问题,特别是当你的训练数据集没有足够的大,模型在训练数据集合上表现的很好,但是在训练集合之外的模型没有见过的样本上时,泛化的效果不是很理想. reg_utils中的函数...
  • 日趋流行的基于位置服务(LBS, location-based service)在为人们日常生活带来便利的同时也严重威胁到用户隐私。位置隐私保护技术逐渐成为研究热点,并涌现出大批研究成果。首先介绍位置隐私保护背景知识,包括位置...
  • 仿真结果表明,泛化复指数基扩展模型比多项式基扩展模型和复指数基扩展模型具有更好的均方误差性能。此外,随着基函数个数的增加,复指数基扩展模型的均方误差逐渐减小。在信道衰落较严重时,三种基扩展模型均表现出...
  • SVM原理 (转载)

    2019-04-17 18:15:00
    1. 线性分类SVM面临的问题  有时候本来数据的确是可分的,也就是说可以用线性分类SVM的... 另外一种情况没有这么糟糕到不可分,但是会严重影响我们模型的泛化预测效果,比如下图,本来如果我们不考虑异常点,S...
  • 1. 线性分类SVM面临的问题  有时候本来数据的确是可分的,也就是说可以用 线性分类SVM的学习方法来求解,但是却因为混入了... 另外一种情况没有这么糟糕到不可分,但是会严重影响我们模型的泛化预测效果,比如...
  • 因近红外光谱具有波长点多、谱带归属困难、光谱重叠严重及光谱分布结构未知等问题,在进行近红外光谱关键特征提取和数据特征空间映射时难以准确获知合适降维方法。为了解决该问题,本文对比分析了典型线性和非线性...
  • 非法入侵者通过伪装人脸欺骗识别系统, 给人脸识别应用带来严重威胁。现有人脸活体检测方法多为在同一数据集内进行训练和测试,当应用在跨数据集场景中时效果并不理想。针对这一问题,提出了利用HOG等算法对上下文...
  • 即使可分,也会因异常点(蓝色的)影响模型的泛化效果。 不考虑蓝色异常点,分类超平面为橙色。加入蓝色点。分离超平面为黑色。这样会严重影响模型的预测效果。 二、线性SVM与软间隔最大化 线性不可分...
  • 因为原始数据存在不完整、不一致、有异常的数据,而这些“错误”的数据会严重影响到数据挖掘建模的执行效率甚至导致挖掘结果出现偏差。可以说数据的质量,直接决定了模型的预测和泛化能力的好坏。数据清洗完成之后...
  • 觉得文章对你有用,请戳底部广告支持图像数据增强方法概述图像数据准备对神经网络与卷积神经网络模型训练有重要影响,当样本空间不够或者样本数量不足的时候会严重影响训练或者导致训练出来的模型泛化程度不够,识别...
  • 神经网络中的dropout

    2019-10-14 22:17:23
    在机器学习中存在两类比较严重的问题(解决方法):过拟合(dropout)和学习时间开销非常大(学习率衰减) 一、神经网络中的dropout dropout是一种针对神经网络模型的正则化方法。是在训练过程中,随机的忽略部分...
  • 决策树生成算法: 是递归地生成决策树,它往往分类精细,对训练数据集分类准确,但是对未知数据集却没有那么准确,有比较严重的过拟合问题。因此,为了简化模型的复杂度,使模型的泛化能力更强,需要对已生成的决策...
  • nlp应用——简记

    2019-11-11 11:37:38
    这意味着模型严重依赖于训练数据的表面相关性,缺乏组合性,导致结果出现偏差。 解决思路 1: 模型依赖训练数据的表面相关性,实质上是当前深度学习技术在序列建模过程中的共性问题,本质上属于模型的泛化性问题。 ...

空空如也

空空如也

1 2 3
收藏数 56
精华内容 22
关键字:

严重泛化