精华内容
下载资源
问答
  • 2016-05-15 22:58:31

    无论是在遥感图像还是红外图像的目标识别中,由于机载雷达,遥感卫星图像采集的高成本和高难度使得不容易采集到大量的图像用于训练模板;并且,在实际应用中,目标识别过程千变万化,无论建立的模板与实际情况有多么接近,考虑的情况多么完整,也有考虑不周全的情况,这就要求所建立的识别系统有较强的学习能力、泛化能力和鲁棒性。在目标识别中,对小样本的探讨,主要是通过分析样本数目和识别率关系来分析目标识别的泛化能力。

    在模式识别领域中,通常情况会避免一种情况,即与特征数目相比,训练当样本不充足的情况。特征维数 k 与训练样本数目 n 的关系是 n=αk,α 一般选择 2、5 或 10 等。

    当 α<1,即 n<k 时,自相关函数定义为:

    S=(i=1nXiXTi)/n

    其中 Xi 是第 i个样本。这样,S 是小于等于 n 的独立向量,协方差矩阵也是小于等于n的独立向量。设m是样本均值,由于 (Xim) 不是线性独立的,则 ni=1(Xim)=0 ,假设有 n 类问题,类内散布矩阵 Sw 定义为:
    SW=i=1n(Xim)(XiM)T

    这样 SW 是奇异值。对于线性分类器,这类样本是不可分的。这就是小样本问题。然而,具体多少数目的样本称为小样本,并没有统一的定数,需要根据具体的识别情况而定。在目标识别中,小样本问题是经常发生的,特别是对于 k 非常大的高维数据,例如人脸、高光谱和医学等领域的识别。但是,在激光雷达目标识别中,还未见到对小样本问题讨论的报道。

    在小样本时,如果利用现有的特征设计出的分类器效果不令人满意,那么考虑增加新的特征就是一个很自然的解决方法,特别有助于分开那些常常被混淆的类别。虽然新增加的特征导致负面影响增加了特征提取与分类器的计算复杂度,但通常分类器的性能在一定程度上能够得到改善。但是,在实际应用中,特征维数增加到某一个临界点后,继续增加反而会导致分类器的性能变差。这种现象称为“休斯(Hughes)”现象或者“休斯”效应。“休斯”现象的出现通常与训练样本数目的多少和特征的维数有关。如果不限定训练样本数目,适当的增加新的特征,这种现象可能不会发生。同样,如果训练样本的数目是一个固定数,但是这个数值很大时,以致于利用许多特征表示目标,“休斯”现象也可能不会发生。可是,当训练样本数目是一个固定数,而且这个数不满足特征维数任意的增加时,就会发生“休斯”现象。

    为了缓解“休斯”现象,人们提出了许多方法,其中一个方法是增加一些无标签的训练样本。可是,在实际应用中,再增加训练样本的条件不是总能满足的。还有人提出更换分类器,其中支持向量机(Support Vector Machine,SVM)是人们首选的分类器。这是由于 SVM 通过少量的支持向量确定最优超平面,从而认为 SVM 不受到样本数目的影响,即与“休斯”现象是无关的目标识别中小样本问题 在激光雷达目标识别中,尤其是机载雷达,图像采集的高成本和高难度使得不容易采集到大量的图像用于训练模板;并且,在实际应用中,目标识别过程千变万化,无论建立的模板与实际情况有多么接近,考虑的情况多么完整,也有考虑不周全的情况,这就要求所建立的识别系统有较强的学习能力、泛化能力和鲁棒性。在激光雷达目标识别中,对小样本的探讨,主要是通过分析样本数目和识别率关系来分析目标识别的泛化能力。 在模式识别领域中,通常情况会避免一种情况,即与特征数目相比,训练,常用于高维数据和小样本的分类和识别。可是,Bengio 等人认为利用SVM 识别,也可能发生“休斯”现象。他认为 SVM 发生“休斯”现象与使用局部核有关。Francois 等人也认为 SVM 敏感于“休斯”现象,但是他们认为局部核比全局核有更好的泛化能力,可以避免发生“休斯”现象。对于SVM 是否与“休斯”现象有关,本论文将在第二章和第三章中用数据验证。

    除了这两个方法外,特征选择和分类器集成是两种最为常用的方法。特征选择是解决这个问题最直接有效的方法。通过特征选择方法不但能提高分类的速度,还可以减少对数据存储的需求;分类器集成通过结合多个分类器的输出来增强分类器的准确率。另外,随机子空间集成(Random subspace ensemble, RSE)算法也是一种很好的选择,该算法属于特征选择和分类器集成相结合的方法。

    更多相关内容
  • 基于元学习处理小样本问题

    千次阅读 2019-05-07 16:11:42
    元学习论文总结||小样本学习论文总结 2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV...基于元学习处理小样本问题 元学习 通过大量的数据,现在的AI系统能从0开始学习一个复杂的...

    元学习论文总结||小样本学习论文总结

    2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017-2019 NIPS2017-2019


    参考:当小样本遇上机器学习 fewshot learning

    基于元学习处理小样本问题

    元学习

    通过大量的数据,现在的AI系统能从0开始学习一个复杂的技能。我们希望AI系统能获得多种技能并能适应各种环境,但针对每种技能都从0开始训练是无法承受的。因此,我们希望它能够从之前的经验快速地学习新的技能,而不是把新的任务孤立地考虑。这个方法,我们称为元学习(learning to learn,或meta learning), 使得我们的系统在它的整个生命周期中可以持续地学习各种各样的任务。(基于先验)

    meta learning是机器学习的一个子领域,它自动学习一些应用于机器学习实验的元数据,主要目的是使用这些元数据来自动学习如何在解决不同类型的学习问题时变得灵活,从而提高现有的学习算法。灵活性是非常重要的,因为每个学习算法都是基于一组有关数据的假设,即它是归纳偏(bias)的。这意味着如果bias与学习问题中的数据相匹配,那么学习就会很好。学习算法在一个学习问题上表现得非常好,但在下一个学习问题上表现得非常糟糕。这对机器学习或数据挖掘技术的使用造成了很大的限制,因为学习问题与不同学习算法的有效性之间的关系尚不清楚。

    通过使用不同类型的元数据,如学习问题的属性,算法属性(如性能测量)或从之前数据推导出的模式,可以选择、更改或组合不同的学习算法,以有效地解决给定的学习问题。(基于已经学到的元数据,快速解决新问题的能力

    元学习一般有两级,第一级是快速地获得每个任务中的知识,第二级是较慢地提取所有任务中学到的信息。(?)下面从不同角度解释了元学习的方法

    • 通过知识诱导来表达每种学习方法如何在不同的学习问题上执行,从而发现元知识。元数据是由学习问题中的数据特征(一般的,统计的,信息论的......)以及学习算法的特征(类型,参数设置,性能测量...)形成的。然后,另一个学习算法学习数据特征如何与算法特征相关。给定一个新的学习问题,测量数据特征,并且可以预测不同学习算法的性能。因此,至少在诱导关系成立的情况下,可以选择最适合新问题的算法

    • stacking. 通过组合一些(不同的)学习算法,即堆叠泛化。元数据是由这些不同算法的预测而形成的。然后,另一个学习算法从这个元数据中学习,以预测哪些算法的组合会给出好的结果。在给定新的学习问题的情况下,所选择的一组算法的预测被组合(例如通过加权投票)以提供最终的预测。由于每种算法都被认为是在一个问题子集上工作,所以希望这种组合能够更加灵活,并且能够做出好的预测。

    • boosting(结合多次预测). 多次使用相同的算法,训练数据中的示例在每次运行中获得不同的权重。这产生了不同的预测,每个预测都集中于正确预测数据的一个子集,并且结合这些预测导致更好(但更昂贵)的结果。

    • 动态偏选择(Dynamic bias selection)通过改变学习算法的感应偏来匹配给定的问题。这通过改变学习算法的关键方面来完成,例如假设表示,启发式公式或参数。

    • learning to learn,研究如何随着时间的推移改进学习过程。元数据由关于以前的学习事件的知识组成,并被用于高效地开发新任务的有效假设。其目标是使用从一个领域获得的知识来帮助其他领域的学习。

     在meta learning中,我们在训练集训练一个训练过程(meta learner)来生产生一个分类器(learner)使得learner在测试集上获得高的精度。如下图(在数据训练集上训练一个分类器)


     下面介绍几个经典的解决fewshot的meta learning的方法。

    递归记忆模型 (Memory-Augmented Neural Networks)

    • 论文:Meta-learning with memory-augmented neural networks

    基于记忆的神经网络方法早在2001年被证明可以用于meta-learning。他们通过权重更新来调节bias,并且通过学习将表达快速缓存到记忆中来调节输出。然而,利用循环神经网络的内部记忆单元无法扩展到需要对大量新信息进行编码的新任务上。因此,我们需要让存储在记忆中的表达既要稳定又要是元素粒度访问的,前者是说当需要时就能可靠地访问,后者是说可选择性地访问相关的信息;另外,参数数量不能被内存的大小束缚。像神经图灵机(NTMs)和记忆网络就符合这种必要条件。

    文章基于神经网络图灵机(NTMs)的思想,因为NTMs能通过外部存储(external memory)进行短时记忆,并能通过缓慢权值更新来进行长时记忆,NTMs可以学习将表达存入记忆的策略,并如何用这些表达来进行预测。由此,文章方法可以快速准确地预测那些只出现过一次的数据。文章基于LSTM等RNN的模型,将数据看成序列来训练,在测试时输入新的类的样本进行分类。具体地,网络的输入把上一次的y (label)也作为输入,并且添加了external memory存储上一次的x输入,这使得下一次输入后进行反向传播时,可以让y (label)和x建立联系,使得之后的x能够通过外部记忆获取相关图像进行比对来实现更好的预测这里的RNN就是meta-learner


    优化器学习  (meta-learning LSTM)

    • 论文:Optimization as a model for few-shot learning

    文章研究了在少量数据下,基于梯度的优化算法失败的原因,即无法直接用于meta learning。首先,这些梯度优化算法包括momentum, adagrad, adadelta, ADAM等,无法在几步内完成优化,特别是在非凸的问题上,多种超参的选取无法保证收敛的速度。其次,不同任务分别随机初始化会影响任务收敛到好的解上。虽然finetune这种迁移学习能缓解这个问题,但当新数据相对原始数据偏差比较大时,迁移学习的性能会大大下降。我们需要一个系统的通用初始化,使得训练从一个好的点开始,它和迁移学习不同的是,它能保证该初始化能让finetune从一个好的点开始

    文章学习的是一个模型新参数的更新函数或更新规则。它不是在多轮的episodes学习一个单模型,而是在每个episode学习特定的模型。具体地,学习基于梯度下降的参数更新算法,采用LSTM表达meta learner,用其状态表达目标分类器的参数的更新,最终学会如何在新的分类任务上,对分类器网络(learner)进行初始化和参数更新!!!。这个优化算法同时考虑一个任务的短时知识和跨多个任务的长时知识。文章设定目标为通过少量的迭代步骤捕获优化算法的泛化能力,由此meta learner可以训练让learner在每个任务上收敛到一个好的解。另外,通过捕获所有任务之前共享的基础知识,进而更好地初始化learner。

    基于梯度下降的参数更新公式如公式5所示,θt-1 是learner在第t-1次updates后的模型参数,αt 是学习率,Lt是损失函数。θt是learner的参数。

     (公式5)

     

      这个形式和lstm是一样的,如公式6,

     (公式6)

      状态Ct为模型参数。it是学习率,如公式7,学习率是当前参数、当前梯度、当前损失和上一次学习率的函数。由此,meta learner 可以精细地控制学习率,从而可以快速地学习而不会发散。

     (公式7)

      ft为忘记门,当learner陷入局部最优,需要大的改变才能逃脱的时候,即梯度为0但损失很大。我们需要忘记以前的值,因此ft 应该是这个信息的函数:

    (公式8)

      c0是learner的初始化参数。好的初始值是让优化快速收敛的关键。

    以训练miniImagenet数据集为例,训练过程中,我们从Dmeta-train的训练集(64个类,每类600个样本)中随机采样5个类,每个类5个样本,构成训练集,去学习learner;然后从Dmeta-train测集的样本(64个类,每类剩下的样本)中采样构成测试集,集合中每类有15个样本,用来获得learner的loss,去学习meta leaner。评估过程一样,我们从Dmeta-test的训练集(16个类,每类600个样本)中随机采样5个类,每个类5个样本,构成训练集,去学习learner;然后从Dmeta-test测集的样本(16个类,每类剩下的样本)中采样构成测试集,集合中每类有15个样本,用来获得learner的loss,去学习meta leaner。这两个过程分别如图13的虚线左侧和右侧。


    图13

    对meta-learner的训练过程进行可视化,把gate的值画出来,观察其在不同的数据之间是否存在变化。在1-shot上,meta learner学了10步,5-shot上学了5步。对于遗忘门,meta-leanrer采用一个简单的权值衰减策略,而且每层都比较一致。输入门在不同数据上的变化比较大,说明meta learner没有采用一个固定的优化策略,而且1-shot和5-shot的表现也不同,说明meta learner对两者采用了不同的方法。如图14:


    图14


    模型无关自适应(Model-Agnostic)[7]

    •  Model-agnostic meta-learning for fast adaptation of deep networks

    meta learning 的目标是在各种不同的学习任务上学出一个模型,使得可以仅用少量的样本就能解决一些新的学习任务。这种任务的挑战是模型需要结合之前的经验和当前新任务的少量样本信息,并避免在新数据上过拟合。

    文章提出的方法使得可以在小量样本上,用少量的迭代步骤就可以获得较好的泛化性能,而且模型是容易fine-tine的。而且这个方法无需关心模型的形式,也不需要为meta learning增加新的参数,直接用梯度下降来训练learner。文章的核心思想是学习模型的初始化参数使得在一步或几步迭代后在新任务上的精度最大化。它学的不是模型参数的更新函数或是规则,它不局限于参数的规模和模型架构(比如用RNN或siamese)。它本质上也是学习一个好的特征使得可以适合很多任务(包括分类、回归、增强学习),并通过fine-tune来获得好的效果。

    文章提出的方法,可以学习任意标准模型的参数,并让该模型能快速适配。方法认为,一些中间表达更加适合迁移,比如神经网络的内部特征。因此面向泛化性的表达是有益的。因为我们会基于梯度下降策略在新的任务上进行finetune,所以目标是学习这样一个模型,它能对新的任务从之前任务上快速地进行梯度下降,而不会过拟合。事实上,是要找到一些对任务变化敏感的参数,使得当改变梯度方向,小的参数改动也会产生较大的loss,如图15。


    图15

    该方法的目标函数如公式9,即训练关于全局模型参数θ的具体任务参数θ‘,使其在从p(T )上采样的各个任务上误差最小。

     (公式9)

    整个训练的流程如下伪代码,有内外两个循环,外循环是训练meta learner的参数θ,即一个全局的模型,内循环对每个采样任务分别做梯度下降,进而在全局模型上做梯度下降(a gradient through a gradient)。

     

    展开全文
  • 本科毕设记录(一)————小样本综述综述问题定义相关的领域核心问题**经验风险最小化**(Empirical Risk Minimization)不可靠的经验风险最小化(Unreliable Empirical Risk Minimizer)解决方法数据增强模型算法...

    论文链接[1904.05046] Generalizing from a Few Examples: A Survey on Few-Shot Learning (arxiv.org)

    综述

    问题定义

    • 机器学习定义:A computer program is said to learn from experience E with respect to some classes of task T and performance measure P if its performance can improve with E on T measured by P.

      计算机程序可以通过使用方法P在任务T中获得经验E来使它的表现变好。但是总是需要大量的数据,这是比较困难的。

    • 小样本学习:Few-Shot Learning(FSL) is a type of machine learning problems (specified by E, T and P), where E contains only a limited number of examples with supervised information for the target T.

      使用少量样本数据进行训练完成目标任务的一种机器学习方法。

    使用小样本学习典型的几种场景

    • 字符生成:学习(E)由给定示例和监督信息以及预先训练的概念(如零件和关系)组成的知识,作为先验知识。生成的字符通过视觉图灵测试(P)的通过率进行评估,该测试可区分图像是由人类还是机器生成的。
    • 罕见案例学习:当不能获得充足的训练集来进行训练时,如,考虑一个药物发现任务(T),它试图预测一个新分子是否具有毒性作用。正确分配为有毒或无毒(P)的分子百分比随着(E)的增加而提高,(E)通过新分子的有限分析和许多类似分子的分析作为先验知识获得。
    • 减轻样本收集的负担:考虑少量镜头图像分类任务(T)。图像分类精度(P)通过为每个类别的target提取一些标记图像,以及从其他类别(如原始图像)提取先验知识(E)来提高。成功完成此任务的方法通常具有较高的通用性。因此,它们可以很容易地应用于许多样本的任务。

    例如下表

    在这里插入图片描述

    Remark 1.When there is only one example with supervised information inE, FSL is calledone-shot
    learning[14,35,138]. When E does not contain any example with supervised information for the
    targetT, FSL becomes azero-shot learningproblem (ZSL). As the target class does not contain
    examples with supervised information, ZSL requires E to contain information from other modalities
    (such as attributes, WordNet, and word embeddings used in rare object recognition tasks), so as to
    transfer some supervised information and make learning possible.

    当只有一个有监督信息的样本称为单样本学习,没有办法从监督学习获得信息的时候成为0样本学习,0样本要求从其他地方获得信息。

    相关的领域

    • Weakly supervised learning弱监督学习:仅从包含弱监督(如不完整、不精确、不准确或有噪声的监督信息)的经验中学习。根据人工干预的不同又分为以下几类:

      • Semi-supervised learning半监督学习:从少量有标签数据和大量无标签数据,通常应用文本分类和网页分类。还有一种Positive-unlabeled learning正未学习,只判断样本是未知的还是正向。
      • Active learning主动学习,它选择信息性的未标记数据来查询oracle的输出。这通常用于注释标签昂贵的应用程序,如行人检测。

      FSL也包括强化学习问题,只有当先验知识是未标记数据且任务是分类或回归时,FSL才成为弱监督学习问题。

    • Imbalanced learning不平衡学习:不平衡学习是从经验中学习的,它的分布是偏态的。在欺诈检测和灾难预测应用程序中,当一些值很少被采用时,就会发生这种情况。

    • 迁移学习:将知识从训练数据丰富的源域/任务转移到训练数据稀缺的目标域/任务。它可以用于跨域推荐、跨时间段、跨空间和跨移动设备的WiFi定位等应用。

      小样本学习中经常使用迁移学习的方法

    • 元学习:元学习者在任务中逐渐学习通用信息(元知识),学习者通过任务特定信息概括元学习者的新任务

      元学习者被视为指导每个特定FSL任务的先验知识。

    核心问题

    经验风险最小化(Empirical Risk Minimization)

    假设一个任务h,我们想最小化他的风险R,损失函数用 p ( x , y ) p(x,y) p(x,y)进行计算。得到如下公式

    R ( h ) = ∫ ℓ ( h ( x ) , y ) d p ( x , y ) = E [ ℓ ( h ( x ) , y ) ] R(h)=\int \ell(h(x),y)dp(x,y)=\mathbb{E}[\ell(h(x),y)] R(h)=(h(x),y)dp(x,y)=E[(h(x),y)]

    因为 p ( x , y ) 是 未 知 的 , 经 验 风 险 在 有 I 个 样 本 的 训 练 集 上 的 平 均 值 p(x,y)是未知的,经验风险在有I个样本的训练集上的平均值 p(x,y)I来代理经验风险值 R I ( h ) R_I(h) RI(h)

    R I ( h ) = 1 I ∑ i = 1 i ℓ ( h ( x i ) , y i ) R_I(h)= \frac{1}I\sum_{i=1}^i \ell(h(x_i),y_i) RI(h)=I1i=1i(h(xi),yi)

    为方便说明做以下三种假设,

    • h ^ = a r g   m i n h ( R ( h ) ) \hat{h} = arg {\ } min_h(R(h)) h^=arg minh(R(h))期望最小值函数
    • h ∗ = a r g   m i n h ∈ H R ( h ) h^* = arg{\ }min_{h \in \mathcal{H}}R(h) h=arg minhHR(h) H \mathcal{H} H中期望最小值函数
    • h I = a r g   m i n h ∈ H R I ( h ) h_I=arg {\ }min_{h\in\mathcal{H}}R_I(h) hI=arg minhHRI(h) H \mathcal{H} H中经验最小值函数

    因为 h ^ \hat{h} h^是未知的,但是在 H \mathcal{H} H h ∗ h^* h h ^ \hat{h} h^最好的近似值,所以可以得到误差为

    E [ R ( h I ) − R ( h ^ ) ] = E [ R ( h ∗ ) − R ( h ^ ) ] ⏟ ξ a p p ( H ) + E [ R ( h I ) − R ( h ∗ ) ] ⏟ ξ e s t ( H , I ) \mathbb{E}[R(h_I)-R(\hat h)]=\underbrace{\mathbb{E}[R(h^*)-R(\hat h)]}_{\xi_{app}(\mathcal H)}+\underbrace{\mathbb{E}[R(h_I)-R( h^*)]}_{\xi_{est}(\mathcal H,I)} E[R(hI)R(h^)]=ξapp(H) E[R(h)R(h^)]+ξest(H,I) E[R(hI)R(h)]

    ξ a p p ( H ) \xi_{app}(\mathcal H) ξapp(H)计算的是在 H \mathcal H H能多接近期望最小是 h ^ , ξ e s t ( H , I ) \hat h, \xi_{est}(\mathcal H,I) h^ξest(H,I)计算的是经验风险可以多接近在 H \mathcal H H上的期望风险。

    不可靠的经验风险最小化(Unreliable Empirical Risk Minimizer)

    h ^ , ξ e s t ( H , I ) \hat h, \xi_{est}(\mathcal H,I) h^ξest(H,I)可以通过增大I来进行减少,但是在小样本学习中I很小,所以经验风险离期望风险很远,这就是小样本学习中的核心问题,用下图进行表示。

    在这里插入图片描述

    解决方法

    根据上面的误差计算公式,我们可以发现,减少误差有三种方法

    1. 增大I样本数量
    2. 改善模型,缩小 H \mathcal H H的范围
    3. 改进算法,使搜索 h I ∈ H h_I \in \mathcal H hIH更优,初始化 h ∗ h^* h更接近 h ^ \hat h h^

    在这里插入图片描述

    下表为文章中总结的方法

    在这里插入图片描述

    数据增强

    • 从训练集中转换样本

      • 早期的方法,通过迭代地将每个样本与其他样本对齐,从类似的类中学习一组几何变换。将学习到的转换应用于每个(xi,yi)以形成一个大型数据集,然后可以通过标准机器学习方法学习这些数据集。
      • 从类似的类中学习一组自动编码器,每个编码器代表一个类内可变性。通过添加学习的变化toxi生成新样本。
      • 通过假设所有类别在样本之间共享一些可转换的可变性,学习单个转换函数,以将从其他类别学习的样本对之间的变化转换为(xi,yi)
      • 从大量场景图像中学习的一组独立属性强度回归器将每个样本转换为多个样本,并将原始样本的标签指定给这些新样本。
    • 从弱标记或者无标记的数据集中转换样本

      • 为每个训练集的目标标签学习一个样本SVM,然后用于预测弱标签数据集中样本的标签。然后将具有目标标签的样本添加到训练集中。
      • 直接使用标签传播来标记未标记的数据集。
      • 使用渐进策略选择信息性未标记样本。然后为选定的样本指定伪标签,并用于更新CNN。
    • 从相似的样本中转换样本

      该策略通过聚合和调整来自相似但较大数据集的输入-输出对来增强性能。

    选择使用哪种增强策略取决于应用程序。有时,目标任务(或类)存在大量弱监督或未标记的样本,但由于收集注释数据和/或计算成本高,因此小样本学习是首选的。现有的方法主要是针对图像设计的,因为生成的图像可以很容易地由人类进行视觉评估。相比之下,文本和音频涉及语法和结构,更难生成。

    模型

    • 多任务学习:

      • 参数共享。此策略在任务之间直接共享一些参数。eg:两个任务网络共享通用信息的前几层,并学习不同的最终层以处理不同的输出。
      • 参数绑定:正则化对齐不同任务。
    • 嵌入学习:将每一个例子embed(嵌入)一个低维,这样相似的样本靠的很近,而不同的样本则更容易区分。同时可以构造更小的假设空间KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲ ̲H。嵌入学习主要从先验知识中学习。

      根据嵌入函数和参数是否随任务改变,将FSL分为三种

      • 特定于任务的嵌入模型

      • 任务不变了嵌入模型

      • 混合嵌入模型

      在这里插入图片描述

    • 用外部记忆学习:使用额外的存储器从训练集中学习知识并保存起来(key-value的键值槽)。与嵌入学习不同的是,测试集不直接用这种方式表示,只基于额外存储的内存的相似性,进行预测。在这里插入图片描述

    • 生成模型:从先验知识中观察到的x估计的概率分布P(x)。

    在这里插入图片描述

    算法

    假设 θ \theta θ是在 H \mathcal H H上能获得最好的 h ∗ h^{*} h,算法通过(i)提供良好的初始化参数 θ 0 θ_0 θ0,或(ii)直接学习优化器以输出搜索步骤,使用先验知识来影响θ的获取方式。根据先验知识对搜索策略的影响,分为以下三类

    • 细化现存参数

      • 通过正则化微调现有参数

      • 早停

      • 选择性更新 θ 0 \theta_0 θ0:仅更新一部分 θ 0 \theta_0 θ0防止过拟合

      • 一起更新 θ 0 \theta_0 θ0相关部分:可以将 θ 0 θ_0 θ0的元素分组(例如深层神经网络中的神经元),并使用相同的更新信息对每组进行联合更新。

      • 使用模型回归网络:捕获了任务不可知变换,该变换映射了通过对几个示例进行训练获得的参数值。

      在这里插入图片描述

      • 聚合一组参数:有时,我们没有一个合适的θ0开始。相反,我们有许多从相关任务中学习的模型。例如,在人脸识别中,我们可能已经有了眼睛、鼻子和耳朵的识别模型。因此,可以将这些模型参数聚合到一个合适的模型中,然后直接使用该模型或通过训练集进行细化(img-Ko80GD2k-1637941610952)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20211126233009988.png)]
      • 使用新参数微调现有参数:使用新参数微调现有参数。预先训练的θ0可能不足以完全编码新的FSL任务。因此,使用一个附加参数δ来考虑特殊性。具体来说,该策略将模型参数扩展为θ={θ0,δ},并在学习δ的同时微调θ0。在这里插入图片描述
    • 细化元学习参数:使用元学习来细化参数 θ 0 \theta_0 θ0,它持续被元学习器更新。

      一种代表性的方法是模型不可知元学习(MAML)
      在这里插入图片描述

      • 包含特定于任务的信息:一般MAML为所有任务提供相同的初始化。但是,这忽略了特定于任务的信息,只有当任务集非常相似时才适用。
      • 使用元学习 θ 0 θ_0 θ0建模不确定性:通过几个例子学习不可避免地会导致模型具有更高的不确定性。因此,所学习的模型可能无法以高置信度对新任务执行预测。测量这种不确定性的能力为主动学习和进一步的数据收集提供了提示。
      • 改进精炼程序:通过几个梯度下降步骤进行细化可能不可靠。正则化可用于纠正下降方向。
    • 学习优化器:不使用梯度下降,而是学习一个优化器,该优化器可以直接输出更新。这样就不需要调整步长α或找到搜索方向,因为学习算法会自动完成这项工作。在这里插入图片描述

      在第t次迭代中,这一行的工作学习一个元学习器,它接受在(t-1)处计算的错误信号,并直接输出更新 △ ϕ t − 1 \triangle\phi_{t-1} ϕt1,更新特定于任务的参数 ϕ t = ϕ t − 1 + △ ϕ t − 1 \phi_{t}=\phi_{t-1}+\triangle\phi_{t-1} ϕt=ϕt1+ϕt1

    未来工作

    问题

    大多使用数据增强的方式,

    可能的方向是多模态在FSL中的设计

    技术

    元学习

    避免灾难性遗忘

    自动机器学习(Automated machine learning)

    应用

    1. 计算机视觉(除了字符识别和图像分类外,还考虑了其他图像应用。其中包括物体识别[35,36,82]、字体样式转换[7]、短语基础[162]、图像检索[130]、物体跟踪[14]、图像中的特定物体计数[162]、场景位置识别[74]、手势识别[102]、部分标记[24]、图像生成[34,76,107,109]、跨域图像翻译[12],三维对象的形状视图重建[47],以及图像字幕和视觉问答[31]。FSL还成功地应用于视频应用,包括运动预测[50]、视频分类[164]、动作定位[152]、人员重新识别[148]、事件检测[151]和对象分割)

    2. 机器人学:机器仿生,模仿人的动作等。

    3. 自然语言处理(解析[64]、翻译[65]、句子完成(使用从提供的集合中选择的单词填空)[97138]、简短评论中的情感分类[150157]、对话系统的用户意图分类[157]、刑事指控预测[61]、词语相似性任务,如nonce定义[56125]和多标签文本分类[110]。最近,发布了一个名为FewRel[52]的新关系分类数据集。这弥补了自然语言处理中FSL任务基准数据集的不足)

    4. 声音信号处理:最近的努力是语音合成。一项流行的任务是从用户的几个音频样本中克隆语音

    5. 其他:曲线拟合,医疗,推理方面

    理论

    通过考虑一种特定的元学习方法,在中考察了将一项任务中训练的模型转移到另一项任务中的风险。然而,到目前为止,只有少数方法得到了研究。还有很多理论问题需要探讨。

    元学习者学习深层网络的较低层,而学习者学习最后一层,全部使用梯度下降。对元学习方法的收敛性进行更全面的分析将非常有用

    论文总结

    这篇文章总结了近年来小样本领域的各项工作,取得的成就,研究的多种方法,并介绍了未来的发展和研究难点,让我对小样本学习产生了浓厚的兴趣,以上内容纯属自己记录,如有不对请读者指出,如有同志欢迎一起积极探讨。

    展开全文
  • 点击上方,选择星标或置顶,每天给你送干货!阅读大概需要5分钟跟随博主,每天进步一丢丢来自 |知乎地址 |https://www.zhihu.com/question/3891555...

    点击上方,选择星标置顶,每天给你送干货

    阅读大概需要5分钟

    跟随小博主,每天进步一丢丢

    来自 | 知乎

    地址 | https://www.zhihu.com/question/389155523/answer/1175157989

    作者 | ICOZ

    编辑 | 机器学习算法与自然语言处理公众号

    本文仅作学术分享,若侵权,请联系后台删文处理

    这个就是典型的few shot classification的问题,经常被包装成玄学的meta learning。

    目前市面上效果最好的模型反而是最简单的模型,简单来说就是一个pre-trained feature encoder + 一个distance metric就可以直接比较样本来做分类了。

    如果一个类里有多个图怎么办?

    1.可以fuse一下同类里不同图片的feature,作为此类的prototype,然后用distance metric。

    2.也可以直接取nearest neighbour

    3.也可以和这一类里的每个数据都求一个distance,然后平均一下,作为和这一类的distance。

    4.当你每个类的数据都很多的时候,你其实就可以考虑训练一个classifier了,你可以固定住feature encoder不动,去学习每个类的prototype。当然,如果每个类数据数量差别太大,可以考虑long tail的问题。

    具体来说feature encoder怎么来呢?很简单,把你能有的数据全部用上,训练一个CNN,然后把fc layer扔掉,你就得到一个feature encoder了。

    那distance metric呢?可以是 欧氏距离 (prototypical network), cosine distance (matching network),还有EMD距离 (DeepEMD)。基于此种方法的few shot classification miniimagenet 1shot5way的task已经可以达到68%+的正确率了,目前最好的结果。

    再补充两句关于feature encoder的渊源。最开始matching network提出了一种训练模式,叫做episode learning,就是每次sample一个classification task,比如5张训练图片,10张测试图片,然后去做分类,cross entropy 作为loss来训练。这样做的目的就是想通过这种方式学习到那些比较general的feature,希望可以在unseen class上也能用到的feature。但是这种方法显然很低效,因为每次训练的图片太少。后来一众fancy的meta learning算法都是基于这种训练方式来学习,编出了各种美丽的故事。

    后来有人发现直接把所有training class拿来训个分类器,再把fc layer扔了,用来提取feature,效果巨好,吊打各种meta learning算法。最早期的paper,prototypical network 和matching network就远比SOA的方法好很多。所以现在最好的训练方法一般是一个feature pre-training的环节(训练一个普通分类cnn),再扔掉fc layer,然后用episode training。这个时候episode training的角色就变了,从学习feature变成了调整feature,效率就高很多了。

    以后有空可以整理一下市面上这些又简单效果又巨好的few shot 方法,作为baseline模型供大家使用。


    投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

    记得备注呦

    让更多的人知道你“在看”

    展开全文
  • 【思维导图】小样本问题的迁移学习解决思路

    千次阅读 多人点赞 2020-07-16 16:13:30
    一年前总结的关于“小样本问题的迁移学习解决思路”,搜集了相关文章,做了简单的笔记,希望给有相关需要的同学提供一点便利。
  • 深度学习之小样本学习

    千次阅读 2021-03-29 07:06:53
    深 度 学 习 之 小 样 本 学 习 深度学习之小样本学习 深度学习之小样本学习 百度网盘 提取码:1234 《零样本图像分类综述 : 十年进展》 零样本也称作零样本学习 零样本图像分类指训练集和测试集在数据的类别上没有...
  • 浅述小样本学习以及元学习

    万次阅读 多人点赞 2019-03-11 22:59:51
    这种情况下,如果训练数据较少时给深度学习器加以训练,会出现过拟合的现象,这是不利于应用的,所以对于此随之而来的便是小样本学习问题,即针对样本量较少的任务,需要有一个学习器能够成功应用少量的数据进行好的...
  • 本文借鉴了NLP中的少样本困境问题探究,记录读后笔记和感想。 目标:我们希望采取相关数据增强或弱监督技术后 在少样本场景下,比起同等标注量的无增强监督学习模型,性能有较大幅度的提升; 在少样本场景下,能够...
  • 目录一、基于模型微调的小样本学习二、基于数据增强的小样本学习1.基于无标签数据的方法2.基于数据合成的方法3.基于特征增强的方法三、基于迁移学习的小样本学习1.基于度量学习的方法2.基于元学习的方法3.基于图神经...
  • 目录小样本学习研究现状Are Large-scale Datasets Necessary for Self-Supervised Pre-training? 小样本学习 研究现状 目前,计算机视觉神经网络被大量参数化:它们通常有数千万或数亿个参数,这是它们成功利用大型...
  • 小样本学习简介

    千次阅读 2020-10-26 17:58:17
    小样本学习(Few-Shot Learning)简介。
  • 什么是样本不均衡问题?如何解决

    千次阅读 2020-12-21 15:19:24
    样本不均衡将导致样本量少的分类所包含的特征过少,很难从中提取规律,即使得到分类模型,也容易产生过度依赖于有限的数量样本而导致过拟合问题,当模型应用到新的数据上时,模型的准确性和健壮性将
  • 本篇博客对元学习 N-way K-shot 模式进行了介绍,通过具体的例子说明了取值问题等细节。
  • A survey on Few-shot Learning (小样本学习) ...首先给出FSL一个形式化的定义,其次根据相关机器学习的问题进行分类,同时指出一个核心的关键问题小样本学习不能依赖于传统的经验风险最小化的
  • 小样本学习

    万次阅读 2020-10-30 20:38:46
    通过知识诱导来表达每种学习方法如何在不同的学习问题上执行,从而发现元知识。元数据是由学习问题中的数据特征(一般的,统计的,信息论的......)以及学习算法的特征(类型,参数设置,性能测量...)形成的。然后...
  • 假设数据总体数量是N,总体均值u,总体标准差σ,样本大小是n,样本均值u’,样本标准差σ’,样本中符合条件A的占比(比如推荐系统中点击占比):p’ 点估计 从总体中抽取一个样本(batchsize=n),得到样本均值u’,...
  • 小样本学习研究综述

    千次阅读 2020-12-11 16:34:30
    小样本学习目标:从少量样本中学习到解决问题的方法。 本文将小样本学习分为基于模型微调、基于数据增强、基于迁移学习三种。 基于模型微调的小样本学习方法      在大规模数据上预训练...
  • 小样本学习(one/few-shot learning)

    万次阅读 多人点赞 2019-04-03 19:42:14
    原文:...小样本学习 来源:我们人类是具有快速从少量(单)样本中快速学习能力的,其实在我们学习的过程中,人类的大脑将对象和类别组成有用的信息将之分类。 首先需要声明的是,小样...
  • 为引入间隔, 本文根据小样本场景特点提出了多路对比损失, 使得小样本学习模型可以学习到一个更加具有判别性的度量空间,同时泛化误差可以减小。带间隔的小样本学习是一个通用的框架,可以同各种基于度量的小样本...
  • 小样本学习概述

    万次阅读 多人点赞 2020-12-09 16:44:05
    小样本学习(Few-Shot Learning)是近几年兴起的一个研究领域,小样本学习旨在解决在数据有限的机器学习任务。 小样本学习存在的意义? 近些年,以深度卷积神经网络为代表的深度学习方法在各类机器学习任务上...
  • 小样本学习之半监督的小样本分类

    千次阅读 2019-03-13 21:59:57
    在上篇博客中介绍了原型网络,一种基于度量的小样本分类方法,核心思想便是在一个嵌入空间中将所有同类的样本拉到较近的位置,然后通过距离度量的方式来判断一个样本x属于哪一个类。对于原型网络,这是一个监督学习...
  • 小样本学习,路在何方?

    千次阅读 2020-05-15 13:51:11
    因此,小样本问题成为了机器学习领域中重要的研究方向之一。目前已有基于度量学习、语义信息以及数据增强等多种方法,而至于大小样本的边界、小样本学习的方法论等问题还备受关注。在本文中,复旦大学付彦伟、上海...
  • 样本类别不均衡的问题

    千次阅读 2018-06-11 16:47:36
    通常为某类别的样本数量较少,导致模型忽略了小样本的特征,由大样本主导。 面对样本数量不均的情况,常用的方法如下: 抽样 常规的包含过抽样、欠抽样、组合抽样 过抽样:将样本较少的一类sample补齐 欠抽样...
  • 今天学习了关于样本类别分布不均衡的处理的一些知识,在此和...样本不均衡指的是给定数据集中有的类别数据多,有的数据类别少,且数据占比较多的数据类别样本与占比较的数据类别样本两者之间达到较大的比例。 样本...
  • 小样本算法库LibFewShot

    千次阅读 2021-10-24 09:18:50
    小样本学习算法库LibFewShot包含了17个2017年到2020年具有代表性的小样本学习算法,为小样本学习领域中算法对比采用统一框架、统一设置、实现公平对比等提供便利。 论文链接:https://arxiv.org/abs/2109.04898...
  • 小样本学习综述

    千次阅读 2019-04-02 11:02:32
    人类非常擅长通过极少量的样本识别一个新物体,比如孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,...
  • 小样本分割综述

    千次阅读 2020-05-19 14:35:56
    ©PaperWeekly·作者|艾超义学校|中国矿业大学本科生研究方向|小样本分割介绍深度卷积神经网络在图像分类、目标检测、语义分割等许多视觉理解任务上都取得了重大突破。一个关键的原...
  • 小样本图像分类

    千次阅读 2021-03-30 09:56:06
    小样本图像分类流程 数据集处理 让模型适应数据, 针对数据的特点进行建模 数据增强 量级扩增 数据量级的扩大 模式扩增 包含更多的语义特性 方式 旋转、加噪、裁剪、压缩等操作 利用生成模型生成新的样本或生成新的...
  • 最小样本量计算

    万次阅读 2019-11-23 11:02:32
    总第179篇/张俊红这一篇我们讲讲统计中的最小样本量计算。大家先想想为什么叫最小样本量,而不是最大或者直接叫样本量计算呢?这是因为最小样本量这个概念主要用在抽样统计中,抽样统计为了研究某一事物的情况而从...
  • 小样本物体检测

    千次阅读 2020-11-04 15:16:17
    关键:提出了一个小样本数据集:数据集 步骤: 提取support img为一过滤特征 使用support img的特征来过滤query img,最后将过滤后的特征输入RPN网络中 RPN网络层的输出,会进行多头判断,使用全局信息检测,使用...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 278,443
精华内容 111,377
关键字:

小样本问题

友情链接: MATLAB_7-1_GUI.zip