精华内容
下载资源
问答
  • 主动学习(Active Learning,AL): 原论文详细介绍Active Learning Literature Surve Introduction 主动学习背后的关键思想是,如果允许机器学习算法选择要学习的数据,那么它可以用更少的标记训练实例实现更高的...

    主动学习(Active Learning,AL):

    原论文详细介绍Active Learning Literature Surve

    Introduction

    主动学习背后的关键思想是,如果允许机器学习算法选择要学习的数据,那么它可以用更少的标记训练实例实现更高的准确性。也就是说主动学习的应用场景是数据量大二标签少的场景,动机是减少人工标注的成本,提高学习的效率。一个积极的学习者可能会以未标记的实例的形式提出问题,比如在我们中学时代或者日常的学习过程中,总有一些理解不到位学不透的地方,所以我们会针对这些我们还没有搞懂的知识主动积极的向老师和同学寻求帮助,已达到解惑的目的,主动的学习的思想就与这个过程相似。在许多现代机器学习问题中,主动学习具有良好的动机,在这些问题中,未标记数据可能很丰富,但标签很难获得、耗时或昂贵。
    主动学习(也被称为“查询学习”,在统计学文献中有时被称为“最佳实验设计”)是机器学习的一个子领域,更普遍地说,是人工智能的一个子领域。关键的假设是,如果允许学习算法选择它学习的数据——如果你愿意的话,可以让它“好奇”——它将在较少的训练下表现得更好。

    主动学习的例子

    在这里插入图片描述
    在这里插入图片描述
    主动学习又叫查询学习,顾名思义,有一些不同的查询策略用于决定哪些实例提供的信息最多。以上都是两种pool-based的主动学习实例,选用的查询策略为不确定抽样查询策略(选择池中模型最不确定如何标记的实例)。

    【图1】展示了基于池的主动学习循环。学习者可以从有标签的训练数据集 L \mathcal{L} L中开始,为一个或者多个精心选择的实例查询标签,从查询结果中学习,然后利用它的新知识选择下一个要查询的实例。一旦进行了查询,学习算法部分通常就没有额外的假设了。新的有标签的实例被简单地添加至有标签的数据集 L \mathcal{L} L中,学习者一标准的监督学习方式继续学习。但也有一些例外情况,比如允许学习者进行其他类型的查询,或者当主动学习与半监督学习相结合时。

    【图2】展示了以一种容易想象的方式进行主动学习的潜力。这是一个玩具数据集,由两个以(-2,0)和(2,0)为中心的高斯函数生成,标准差σ=1,每个代表一个不同的类分布。图2(a)显示了抽样400个实例(每个类200个)后的结果数据集;实例被表示为二维特征空间中的点。在现实环境中,这些实例可能是可用的,但它们的标签通常是不可用的。图2(b)显示了传统的监督学习方法,在随机选择30个实例进行标记后,从未标记的池中抽取 U \mathcal{U} U。这条线显示了使用这30个点训练的logistic回归模型(即后验值等于0.5)的线性决策边界。注意,在这个训练集中,大多数已标记的实例在水平轴上都远不是零,就是贝叶斯最优决策边界的位置。因此,该分类器在剩余未标记点上只能达到精度=0.7。然而,图2©讲述了一个非常不同的故事。主动学习者使用不确定性采样来关注最接近其决策边界的实例,假设它能充分解释以u为特征的输入空间的其他部分。因此,它避免了为冗余或不相关的实例请求标签,并且仅用30个已标记实例就实现了精度=0.9。与“被动”监督学习(即随机抽样)相比,这减少了67%的错误,而且只有不到10%的数据被标记。

    应用场景

    在这里插入图片描述
    学习者提出查询的场景有很多种,这里主要讲3种:

    1. 成员查询合成;
    2. 流式选择抽样;
    3. 基于池的主动学习。

    成员查询合成

    在这种设置下,学习者可以为输入空间中任何未标记的实例请求标签,包括(通常是假设)学习者重新生成的查询,而不是从某些潜在的自然分布中采样的查询。对于有限的问题域,高效的查询合成通常是易于处理和高效的。综合查询的思想也被扩展到回归学习任务中,例如学习预测机器人手的绝对坐标,给定其机械臂的关节角度作为输入。
    (这一块的英文原作没有理解透,也没有十分清楚到底什么是成员查询合成)

    流式选择抽样

    综合查询的另一种选择是选择性抽样。关键的假设是获得一个未标记的实例是免费的(或廉价的),所以它可以首先从实际分布中取样,然后学习者可以决定是否请求它的标签。这种方法被称作流式主动学习或者顺序主动学习(stream-basedorsequentialactive learning),因为每个未标记的实例通常一次从数据源中提取一个,学习者必须决定是查询还是丢弃它。如果输入分布是均匀的,选择抽样可以很好地表现为成员查询学习。然而,如果分布是非均匀的(更重要的是)未知的,我们可以保证查询仍然是合理的,因为它们来自真实的底层分布。

    决定是否查询一个实例的方式:

    1. 使用一些“信息量测量”或者“查询策略”来评估样本,信息量越多的样本就越有可能被查询;
    2. 计算一个显示的不确定区域,即实例空间中对学习者来说仍然不明确的部分,并且只查询属于它的实例。一个朴素的方法是为定义该区域的信息度量设置一个最低门槛。然后查询评估值高于此阈值的实例。另一种更有原则的方法是定义整个模型类仍然未知的区域,即与当前标记的训练集一致的假设集,称为版本空间(version space)。换句话说,如果同一模型类的任意两个模型(但不同的参数设置)有一致的标签,但是在一些未标注的实例上存在分歧,那么该实例就属于不确定范围。但是,完全且显式地计算这个区域的计算开销很大,并且在每次新的查询之后都必须维护它。因此,在实践中使用近似法。

    基于池的主动学习

    对于许多现实世界中的学习问题,可以一次性收集大量未标记的数据。基于这种动机,基于池的主动学习,假设有一小组标记数据和大量的未标记数据可用。查询是有选择地从池中提取的,池通常被假定为关闭的(即静态的或不变的),尽管这并不是严格必需的。通常,根据用于评估池中所有实例(或者,如果 U \mathcal{U} U非常大,则可能是其中的一些子样本)的信息性度量,以一种贪婪的方式查询实例。

    基于池的场景已经在现实应用中被广泛研究,如:文本分类、信息提取、图像分类与检索、视频分类与检索、语音识别、癌症诊断等等。

    基于流的主动学习和基于池的主动学习的主要区别在于前者顺序地扫描数据并单独做出查询决定,而后者在选择最佳查询之前对整个集合进行评估和排名。虽然基于池的场景似乎在应用程序论文中更常见,但可以想象,在哪些设置中基于流的方法更合适。例如,当内存或处理能力可能受到限制时,如移动和嵌入式设备。

    查询策略框架

    所有的主动学习场景都需要评估未标记实例的信息量,这些实例既可以从头生成,也可以从给定的分布中取样。在文献中已经提出了许多构建此类查询策略的方法。
    以下 x A ∗ x_A^{\ast} xA表示某些查询选择算法 A A A中的信息量最丰富的实例。

    不确定性抽样Uncertainty Sampling

    不确定性抽样也许是最简单最常用的查询框架。在这个框架中,主动学习者会查询最不确定如何标注的实例。对于概率学习模型来说,这种方法通常是直接的。例如,当使用概率模型进行二元分类时,不确定性抽样策略简单地查询后验概率为正的最接近0.5的实例

    更一般的不确定性抽样策略使用熵作为不确定性度量:
    在这里插入图片描述
    y i y_i yi涵盖了所有可能的标签。信息理论中的熵,表示“编码”一个分布所需的信息量。因此,它通常被认为是机器学习中不确定性或杂质的衡量标准。对于二分类问题,基于熵的不确定抽样与选择后验最接近0.5的实例相同。然而,基于熵的方法可以很容易地推广到更复杂的结构化实例的概率多标签分类器和概率模型,如序列和树。在这些更复杂的设置中,熵的替代方法包括查询最佳标记最小置信度的实例:
    在这里插入图片描述
    其中, y ∗ = a r g m a x y P ( y ∣ x ; θ ) y^{\ast} = argmax_yP(y|x;\theta) y=argmaxyP(yx;θ)是最可能的类标记。

    不确定性抽样策略也可用于非概率模型。探索不确定性采样的第一个工作是使用决策树分类器,修改它以具有概率输出。类似的方法也被用于最近邻(也就是“基于记忆的”或“基于实例的”)分类器的主动学习,允许每个邻居对x的类标签进行投票,这些投票的比例代表后验标签概率。Tong和Koller(2000)还试验了支持向量机或支持向量机的不确定性采样策略(Cortes和V apnik,1995),其中涉及查询最接近线性决策边界的实例。最后一种方法类似于使用概率二元线性分类器的不确定性采样,如逻辑回归或朴素贝叶斯。

    基于委员会的查询Query-By-Committee

    QBC方法包括维持一个委员会 C = θ ( 1 ) , . . . , θ ( C ) \mathcal{C}={\theta^{(1)},...,\theta^{(C)}} C=θ(1),...,θ(C),这些模型都是在当前标记的数据集 L \mathcal{L} L上训练的,但代表了相互竞争的假设。然后,每个委员会成员都被允许对提问候选人的标签进行投票。最有信息量的问题被认为是他们最不同意的问题。
    QBC框架背后的基本前提是最小化版本空间,这是(如2.2节所述)与当前标记的训练数据 L \mathcal{L} L一致的一组假设。
    在这里插入图片描述
    【图5】给出了(a)线性函数和(b)轴平行箱式分类器在不同的二元分类任务中的版本空间概念。如果我们将机器学习视为在版本空间中搜索“最佳”模型,那么主动学习的目标就是尽可能地限制这个空间的大小(以便搜索能够更精确),使用尽可能少的标记实例。这正是QBC所做的,通过查询输入空间中有争议的区域。为了实现QBC选择算法,必须:

    1. 能够构建一个代表版本空间不同区域的模型委员会,并且
    2. 委员会成员之间存在一定程度的分歧。

    为了测量分歧的程度,提出了两种主要的方法。第一个是投票熵:

    在这里插入图片描述
    其中, y i y_i yi也涵盖了所有可能的标签。 V ( y i ) V(y_i) V(yi)是一个标签从委员会成员的预测中获得的“票数”。这可以被认为是基于熵的不确定性抽样的QBC推广。另一个被提出的分歧度量是平均分歧(KL) (平均KL散度):
    在这里插入图片描述
    其中:
    在这里插入图片描述

    θ ( c ) \theta^{(c)} θ(c)表示委员会中的一个特定模型, C \mathcal{C} C表示整体委员会。因此:
    在这里插入图片描述
    y i y_i yi是正确标签的“共识”概率。KL散度是两种概率分布差异的信息理论度量。因此,这个分歧衡量标准认为,任何一个委员会成员的标签分布与共识之间的平均差异最大的问题,信息最丰富。

    基于模型变化期望的查询

    另一个通用的主动学习框架是查询实例,如果我们知道它的标签,它将给当前模型带来最大的变化。该框架中的一个查询策略示例是用于鉴别概率模型类的“期望梯度长度”(EGL)方法。该策略由赛德斯等人引入,用于多实例环境下的主动学习(见第5.4节),并已应用于CRFs等概率序列模型。

    由于判别概率模型通常使用基于梯度的优化来训练,因此模型的“变化”可以通过训练梯度的长度(即用于重新估计参数值的向量)来衡量。换而言之,学习者应该查询的情况是:如果实例被标记或者加入 L \mathcal{L} L,将会新的最大幅度幅度的训练梯度。
    假设 ∇ l ( L ; θ ) \nabla{\mathcal{l}(\mathcal{L};\theta)} l(L;θ)是目标函数 l \mathcal{l} l的梯度, θ \theta θ为模型参数。现在让 ∇ l ( L ⋃ ⟨ x , y ⟩ ; θ ) \nabla{\mathcal{l}(\mathcal{L}\bigcup \langle{x,y}\rangle;\theta)} l(Lx,y;θ)作为 L \mathcal{L} L加上训练元组 ⟨ x , y ⟩ \langle{x,y}\rangle x,y得到的新的梯度。由于查询算法事先不知道真正的标签,我们必须计算长度作为对可能标签的期望:
    在这里插入图片描述
    其中 ∥ ⋅ ∥ \Vert {\cdot} \Vert 每个梯度向量的欧几里得范数。注意,对于查询时间, ∥ ∇ l ( L ; θ ) ∥ \Vert {\nabla{\mathcal{l}(\mathcal{L};\theta)}} \Vert l(L;θ)应该是接近于0的,因为 l \mathcal{l} l在上一轮训练中是收敛的。因此,可以近似:
    ∇ l ( L ⋃ ⟨ x , y ⟩ ; θ ) ≈ ∇ l ( ⟨ x , y ⟩ ; θ ) \nabla{\mathcal{l}(\mathcal{L}\bigcup \langle{x,y}\rangle;\theta)} \approx \nabla{\mathcal{l}(\langle{x,y}\rangle;\theta)} l(Lx,y;θ)l(x,y;θ)
    考虑到计算效率,因为假设训练实例是独立的。

    这个框架背后的直觉是,它更喜欢那些可能对模型影响最大的实例(即对其参数影响最大的实例),而不管结果是什么查询标签。这种方法已经在实证研究中被证明工作得很好,但是如果特征空间和标签集都非常大,就会在计算上非常昂贵。’’

    基于方差减少的查询(Variance Reduction and Fisher Information Ratio)

    • 通过最小化未来方差确定;
    • 使Fisher信息比率最小化,
      缺点是计算复杂度较高。

    估计误差减少

    估计误差减少框架具有接近最优和不依赖于模型类的双重优势。但是计算效率非常昂贵,所以常常使用增量学习或者近似技术。

    基于密度权重的选择方法

    有人指出,不确定性抽样和QBC策略容易查询离群点,这是Fisher信息和估计误差减少框架背后的主要激励因素。【图6】说明了使用不确定抽样的二元线性分类器的这个问题。最不确定的实例位于分类边界,但不是分布中其他实例的“代表性”,因此知道它的标签不太可能提高数据的整体准确性。QBC和EGL可能会表现出类似的行为,通过花费时间查询可能的离群值,仅仅是因为它们有争议,或者期望在模型中进行重大更改。Fisher信息和估计误差减少策略通过在估计比率和未来误差时使用未标记池 U \mathcal{U} U (分别)隐式地避免了这些陷阱。我们还可以对查询选择策略中的输入分布进行显式建模。

    在这里插入图片描述

    settle和Craven(2008)提出的信息密度框架是一种密度加权技术,在settle(2008)的第4章中进行了进一步分析。其主要思想是,信息性实例不仅应该是那些不确定的实例,还应该是那些“代表”输入分布的实例(即位于输入空间的密集区域)。因此,我们希望以如下方式查询实例:

    在这里插入图片描述
    其中, ϕ A ( x ) \phi_{A}(x) ϕA(x)某个不确定性采样方法或者QBC,表示 x x x的信息量。 β \beta β表示是控制密度项相对重要性的指数参数。

    Settles和Craven(2008)表明,如果密度可以有效地预先计算并缓存以备用,则选择下一个查询所需的时间基本上与基本信息度量(例如,不确定性采样)没有什么不同。

    主动学习的分析

    本节讨论了主动学习在实践中如何以及何时起作用的一些经验和理论证据。

    主动学习的相关研究领域

    主动学习的研究是由两个关键思想驱动的:(i)学习者应该被允许提出问题,(ii)未标记的数据经常是现成的或很容易获得的。也有一些相关的研究领域,有丰富的文献。

    • 半监督学习Semi-Supervised Learning
    • 强化学习Reinforcement Learning
    • 等价查询学习Equivalence Query Learning
    • 主动类选择Equivalence Query Learning
    • 主动特征获取与分类Active Feature Acquisition and Classification
    • Model Parroting and Compression
    展开全文
  • 主动学习1、定义2、步骤3、分类3.1 Membership Query Synthesis3.2 Stream-Based Selective Sampling3.3 Pool-Based Sampling4、Query Strategy Frameworks4.1 Uncertainty Sampling4.1.1 least confident4.1.2 ...

    1、定义

    主动学习的主要目的是通过减少标注成本的情况下,得到模型的performance也不差。
    

    在整个机器学习建模的过程中有人工参与的部分和环节,并且通过机器学习的方法筛选出合适的候选集给人工标注。其主要思路是:通过机器学习的方法获取那些比较‘难’分类的样本数据,交给人工进行标注,然后将人工标注的数据加入到训练集中重新训练机器学习的model,迭代进行下去,逐步提升模型的效果,将人工经验融入到机器学习的模型中。

    在没有使用Active Learning的时候,通常来说系统会从样本中随机抽样一部分数据或者使用一些人工定义的规则来提供一些待标记的样本让人工进行标注。这样的做法或许会带来一定的效果提升,但其需要的标注数据量也会很大,标注的成本也是极高的。

    2、步骤

    在机器学习是建模过程中,通常包括样本选择,模型训练,模型预测,模型更新这几个步骤。在主动学习这个领域需要把标注候选集提取和人工标注这两个步骤加入整体的流程中。

    1、机器学习模型:包括模型训练和预测两部分
    2、待标注的数据候选集提取:依赖主动学习中的查询函数(Query Function)
    3、人工标注:将标注候选集交给专家或者有业务经验的标注
    4、获得标注后的数据:获得更有价值的样本数据
    5、机器学习模型更新:将标注数据加入training data,更新模型,从而将人工标注的数据融入机器学习模型中,提升模型效果。
    

    The pool-based active learning cycle
    比较一下使用active learning的方式和random sample的方式所得到的模型
    在这里插入图片描述
    a是我们的两个类别的数据,b是随机选取30个样本数据做标注,并在训练逻辑回归模型,蓝色的线代表分类器的决策边界,其准确率为70%。c是利用active learning的方式选取的30个标注数据,然后再训练逻辑回归模型,其准确率达到90%。

    所以可以看出,active learning具有的一定的优势,因为它在选取样本的时候,会优先选择分类器比较难分类的样本,将其作为标注数据的候选集,提高模型的性能。

    3、分类

    在这里插入图片描述

    3.1 Membership Query Synthesis

    学习者可以为输入空间中任何未标记实例请求标签,包括学习者从头生成的query,而不是从某些基本自然分布中采样的查询。

    3.2 Stream-Based Selective Sampling

    合成查询的替代方法是选择性抽样。关键的假设时获取为标记的实例是免费的(或便宜的),因此可以首先从实际分布中对其进行采样,然后学习者可以决定是否请求其标签。这种方法有时被称为基于流的顺序学习(stream-based or sequential active learning),因为通常每个未标记的实例通常一次从数据源中提取一个,学习者必须决定是查询还是放弃。如果输入分布是均匀的,则选择性采样可能表现的项membership query。但是如果分布是非均匀的并且(更重要的)未知的,我们可以保证查询仍然是合理的,因为它们来自真实的底层分布。

    应用场景:词性标记、传感器调度、信息检索的学习排名函数

    是否查询实例的决定可以通过以下几种方式确定:

    一、使用“信息性度量”或“查询策略”评估样本,并作出有偏差的随机决策,这样信息量越大的实例越有可能被查询。
    二、计算不确定性的明确区域。
    即实例空间中对学习者仍不明确的部分,并且只查询属于该部分的实例。
    这样做的一个简单方法是为定义区域的信息性度量设置一个最小阈值,然后查询其计算值高于阈值的实例
    三、定义整个模型类仍然未知的区域。
    例如相同模型类别(但不同参数设置)的任何两个模型所在的标记数据上一直,但在某些未标记实例上不一致,则该实例位于不确定性区域内。但是完全且显式地计算此区域比较昂贵,并且必须在每次新查询后对其进行维护。因此,在实践中使用近似值。

    3.3 Pool-Based Sampling

    对于许多实际的学习问题,可以一次性收集大量未标记的数据。这激发了pool-based的抽样,该抽样假设存在一组小的标记数据和一个大的未标记的数据池。查询是有选择性地从池中提取的,通常假设池是关闭的(静态的或者非更改的),尽管这并不是严格必要的。通常,根据用于评估池中所有实例(或者,如果未标记池非常大,可能是其中的一些子样本)的信息性度量,以贪婪的方式查询实例。

    应用场景:text classification、information extraction,image classification and retrieval,video classification and retrieval,speech recognition, cancer diagnosis

    基于流和基于池的主动学习的主要区别在于前者按顺序扫描数据并单独做出查询决策,而后者在选择最佳查询之前对整个集合进行评估和排序。
    虽然基于池的场景在应用论文中似乎更为常见,但可以想象基于流的方法更为合适的设置。例如,当内存或处理能力可能受到限制时,如移动和嵌入式设备。
    

    4、Query Strategy Frameworks

    所有主动学习场景都涉及评估未标记实例的信息量,这些实例可以从头生成,也可以从给定分布中采样。

    4.1 Uncertainty Sampling

    最简单和最常用的查询框架是不确定性抽样。在此框架中,主动学习者查询最不确定如何标记的实例。对于概率学习模型,这种方法通常很简单。例如,当使用概率模型进行二元分类时,不确定性抽样只是查询后验概率为正且最接近0.5的实例。
    不确定性采样的方法的关键就是如何描述样本或者数据的不确定性,通常有以下几种思路:
    1、置信度最低(Least Confident)
    2、边缘采样(Margin Sampling)
    3、熵方法(Entropy)

    4.1.1 least confident

    对于二分类或多分类的模型,通常它们能够对每一个数据进行打分,判断它究竟更像哪一类。例如,在二分类的场景下,有两个数据分别被某一个分类器预测,其对两个类别的预测概率分别为:(0.9,0.1),和(0.51,0.49)。在此情况下,第一个数据被判定为第一类的概率是0.9,第二个数据被判定为第一类的概率是0.51.于是第二个数据明显更“难”区分,因此更有被继续标注的价值。

    所谓Least Confident就是选择那些最大概率最小的样本进行标注。
    

    在这里插入图片描述
    在这里插入图片描述

    4.1.2 Margin Sampling

    边缘采样指的是选择那些极容易被判定为两类的样本数据,或者说这些数据被判定为两类的概率相差不大。边缘采样就是选择模型预测最大和第二大的概率差值最小的样本。用数学公式来描述就是:
    在这里插入图片描述

    4.1.3 Entropy

    在数学中,可以用熵(Entropy)来衡量一个系统的不确定性,熵越大表示系统的不确定性越大,熵越小表示系统的不确定性越小。因此,在二分类或者多分类的场景下,可以选择那些熵比较大的样本数据作为待定标注数据。用数学公式表示就是:
    在这里插入图片描述
    其中y_i是所有可能标签的范围。熵是一种信息论度量,表示对分布进行“编码”所需的信息量。因此,它通常被认为是机器学习中不确定性或杂质的度量。对于二元分类,基于熵的抽样减少到上述边缘和最小置信度策略。事实上,这三种方法都相当于使用最接近0.5的类查询实例。
    下图可视化这些不确定性度量之间的隐含关系。在所有情况下,信息量最大的实例都位于三角形的中心,因为这表示标签分布最均匀的位置(因此在模型下最不确定)。类似的,信息量少的实例位于三个角,其中一个类的概率非常高(因此模型的不确定性很小)。
    在这里插入图片描述
    相较于least confident和margin sample而言,entropy的方法考虑了该模型对某个x的所有类别判定结果。而least confident只考虑了最大的概率,margin sample考虑了最大和次最大的两个概率。

    4.2 Query-By-Committee

    在这里插入图片描述
    为了实现QBC算法,必须:
    (1)能够构建代表版本空间不同区域的模型委员会;
    (2)委员会成员之间存在一定程度的分歧。

    为了衡量分歧程度,提出了两种主要方法:
    1、投票熵(Vote Entropy):选择这些模型都无法区分的样本数据
    2、平均KL散度(Average Kullback-Leibler Divergence):选择KL散度比较大的样本数据

    4.2.1 Vote Entropy(投票熵)

    在这里插入图片描述

    4.2.2 Average KL Divergence(平均KL散度)

    KL散度可以衡量两个概率之间的“距离”,因此,可以用KL散度计算出那些偏差较大的数据样本。用数学公式来描述就是:
    在这里插入图片描述

    5、期望模型改变(Expected Model Change)

    模型变化最大其实可以选择那些使得梯度变化最大的样本数据
    在这里插入图片描述
    在这里插入图片描述
    该框架背后的直觉是,它更喜欢那些可能对模型影响最大(即对其参数影响最大)的实例,而不管结果查询标签如何。这种方法在实证研究中表现良好,但如果特征空间和标签集都非常大,则计算成本可能会比较高。

    6、期望误差减小(Expected Error Reduction)

    选择那些通过增加一个样本就使得loss函数减少最多的样本数据

    7、方差减小(Variance Reductin)

    选择方差减少最多的样本数据

    8、基于密度权重的选择方法(Density-Weighted Methods)

    有的时候,某个数据点可能是异常点或者与大多数数据偏差较大,不太适合做样本选择或者区分,某些时候考虑那些稠密的,难以区分的数据反而价值更大。于是,可以在使用不确定性采样或者QBC方法的时候,将样本数据的稠密性考虑进去。用数学公式表示就是:

    在这里插入图片描述
    在这里插入图片描述

    举例说明不确定性抽样何时可能是一种糟糕的分类策略。彩色为L中已经标记的实例,圆圈表示U中未标记的实例。A是在决策边界上,这将被认为是最不确定的。可是,查询B可能会得到更多关于整个数据分布的信息。

    总结

    在主动学习(Active Learning)领域,其关键在于如何选择出合适的标注候选集给人工进行标注,而选择的方法就是所谓的查询策略(Query Strategy)。查询策略基本上可以基于单个模型,也可以基于多个模型,在实际使用的时候可以根据情况来决定。主动学习的目标主要是在减少人工标注的成本的情况下,performance尽可能好。

    展开全文
  • 主动学习研究现状

    2021-08-24 12:02:06
    主动学习研究现状 一. 传统查询策略(Query Strategy) 二. 在图像分类的应用 三. 在目标检测的研究 3.1.《Localization-Aware Active Learning for Object Detection 》(ACCV, 2018) 3.2. 《Active Learning for ...

    一. 传统查询策略(Query Strategy)

    主动学习介绍和传统查询策略看两篇就够了:
    知乎:循环智能的主动学习(Active Learning)技术探索与实践:减少 80% 标注量
    知乎:主动学习(ACTIVE LEARNING)
    CSDN:主动学习入门篇:如何能够显著地减少标注代价

    这里只做简单的罗列:

    • (1)不确定性采样的查询(Uncertainty Sampling):

      • 1.置信度最低(Least Confident)
      • 2.边缘采样(Margin Sampling)
      • 3.熵方法(Entropy)
    • (2)基于委员会的查询(Query-By-Committee):

      • 1.投票熵(Vote Entropy):选择这些模型都无法区分的样本数据;
      • 2.平均 KL 散度(Average Kullback-Leibler Divergence):选择 KL 散度较大的样本数据。
    • (3)基于模型变化期望的查询(Expected Model Change);

    • (4)基于误差减少的查询(Expected Error Reduction);

    • (5)基于方差减少的查询(Variance Reduction);

    • (6)基于密度权重的查询(Density-Weighted Methods)。

    这些方法在Alipy,modAL,libact库里面都有集成:

    • Alipy(比较推荐):
      • 官网:http://parnec.nuaa.edu.cn/huangsj/alipy/
      • github:https://github.com/NUAA-AL/ALiPy
      • csdn:https://blog.csdn.net/weixin_44575152/article/details/100783835
    • modAL:
      • 官网:https://modal-python.readthedocs.io/en/latest/index.html
      • github:https://github.com/modAL-python/modAL
    • libact:

    二. 在图像分类的应用

    参考下面的10篇文章,但是遗憾的是作者没有提供源码:
    CSDN:主动学习:Active Learning
    对于理解怎么将主动学习实践、流程有帮助

    三. 在目标检测的研究

    3.1.《Localization-Aware Active Learning for Object Detection 》(ACCV, 2018)

    论文链接:https://arxiv.org/pdf/1801.05124v1.pdf
    论文解读:知乎:【论文】 Active Learning for Object Detection

         核心操作:作者提出了两个查询策略,分别为: Localization Tightness (TL) 和 Localization Stability (LS)。

    • Localization Tightness (TL) :
      这个指标顾名思义就是描述预测的 bounding box 能多大紧密程度框住目标物。对于预测的 bounding box [公式] 的紧密度 [公式] 的定于如下:
      在这里插入图片描述
      其中, [公式] 为 detector 对应的 region proposal,即当网络预测未经 scale 调整前的推荐 region

    在这里插入图片描述
    (a) 为置信度很高(即预测得很准 Pmax=1),但紧密程度很低( T(Bj)=0);(b)为置信度很低(即预测得很不准 Pmax=0 ), 但紧密程度很高( T(Bj)=1)。因此,选择策略如下图所示:
    在这里插入图片描述

    • Localization Stability
      一个假设为:如果当前模型对噪声是稳定的,这意味着即使输入的未标记图像被噪声破坏,检测结果也不会发生显著变化,则当前模型已经很好地理解了该未标记图像,因此无需对该未标记图像进行注释。
      在这里插入图片描述
          如上图所示,红色框为原图所预测的 bounding box,绿色框为不断增加噪声后模型所预测的bounding box。如果模型能对这张图片学得很好,则红色框和绿色框的变化不会太大;反之,如果模型的预测随噪声的增加发生显著变化,则说明该图片的信息量大需要进行标注。
      在这里插入图片描述
      在这里插入图片描述

    3.2. 《Active Learning for Deep Object Detection via Probabilistic Modeling》

    论文链接:https://arxiv.org/abs/2103.16130
    论文翻译:CSDN:【论文阅读】Active Learning for Deep Object Detection via Probabilistic Modeling

         出发点:不确定性的预测可以拆分为偶然不确定性和认知不确定性两个方面。偶然不确定性是指数据的固有噪音,比如传感器噪音或是图像特征的遮挡或是缺失。认知不确定性是由于模型本身的能力所限并且与训练数据的密度成反比。在主动学习中建模并且区分这两种不确定性是十分重要的。为了计算这两种不确定性,学者们会用基于多模型的方法,比如集成方法或者MC dropout。然后对于基于多模型的方法往往需要较高的计算代价,而对于集成来说,这更增加了网络的参数量。另外,这些方法只依赖于分类的不确定性,完全无视了定位的不确定性。
         创新点:本文的方法通过单模型的单次前向传播,通过结合图像中每一个目标的基于定位和分类的不确定性来评估每张图像的信息量得分。
    在这里插入图片描述
         我的理解:对于每个目标Ground True都会有很多个预测框Bounding Box,这些Bounding Box的概率分布即代表了目标的偶然不确定度和认知不确定度,而这些分布可以用GMM来确定(一个分布可以由K个高斯分布来表达,比如下图的分布就可以用2个高斯函数要表达)
    在这里插入图片描述
         据此,作者在文末也展现了消融实验,说明在K=4的时候IOU>0.75的mAP效果最好
    在这里插入图片描述

         不确定性计算公式:其中输出网络由 GMM的参数组成:均值µk、方差 Σ k和第 k 个的混合权重 πk对于GMM 的第k个组成部分。给定这些参数,我们可以估计任意 ual偶然不确定性和uep认知不确定性。
    在这里插入图片描述
         混合模型:我的理解是,GMM是在Locloss和Clsloss后增加的新网络,只用来预测不确定度,用来筛选主动学习的图片,用于下一个batch训练,不参加反向传播;而定位和分类损失是独立于不确定性,单独定义用于反向传播的,用于更新参数后参加(上一个batch+上一个batch参数的模型来预测筛选出下一个batch的其中一部分数据)的下一轮训练
    在这里插入图片描述
    至于定位目标损失等可以自己看看论文

    3.3. MI-AOD——《Multiple Instance Active Learning for Object Detection》

         出发点:尽管主动学习在图像识别方面取得了长足的进步,但仍然缺乏一种专门适用于目标检测的示例级的主动学习方法。

         核心操作:本文提出了多示例主动目标检测(MI-AOD),通过观察示例级的不确定性来选择信息量最大的图像用于检测器的训练。MI-AOD定义了示例不确定性学习模块,该模块利用在已标注集上训练的两个对抗性示例分类器的差异来预测未标注集的示例不确定性。MI-AOD将未标注的图像视为示例包,并将图像中的特征锚视为示例,并通过以多示例学习(MIL)方式对示例重加权的方法来估计图像的不确定性。反复进行示例不确定性的学习和重加权有助于抑制噪声高的示例,来缩小示例不确定性和图像级不确定性之间的差距。实验证明,MI-AOD为示例级的主动学习设置了坚实的基线。在常用的目标检测数据集上,MI-AOD和最新方法相比具有明显的优势,尤其是在已标注集很小的情况下。
    在这里插入图片描述

    展开全文
  • 什么是主动学习?

    2021-09-01 11:28:23
    主动学习是一种优化构建有效机器学习系统所需人力的策略。 主动学习定义 主动学习是一种机器学习训练策略,它使算法能够主动识别可能最有效地提高性能的训练数据子集。更简单地说,主动学习是一种策略,用于识别我们...

    机器学习算法特别需要数据,需要成千上万的例子才能做出明智的决定。为我们的算法提供高质量的训练数据是一项昂贵的任务。主动学习是一种优化构建有效机器学习系统所需人力的策略。

    主动学习定义

    主动学习是一种机器学习训练策略,它使算法能够主动识别可能最有效地提高性能的训练数据子集。更简单地说,主动学习是一种策略,用于识别我们的训练数据中哪些特定的例子可以最好地提高模型性能。

    实践中主动学习的一个例子

    假设您正在构建一个计算机视觉模型来识别放在家门口的包裹,以便向您发送"您已收到邮件"的推送警报。包裹有各种各样的形状、大小和颜色。假设您的训练数据包含10,00张示例图像:600张是棕色纸板箱的包裹图像,300张白色信封图像,以及100张黄色盒子图像。
    在这里插入图片描述
    设 想 构 建 一 个 计 算 机 视 觉 模 型 来 识 别 包 裹 设想构建一个计算机视觉模型来识别包裹
    此外,每个盒子都可以放在你的门廊的不同位置,天气可以改变一天的亮度和黑暗,盒子本身的大小也可以不同。一个理想的数据集应该有一个多样性的变化,以捕捉所有可能的情况:白天门廊左侧的一个黄色包裹到阴天右侧的一个白色信封(以及在这两者之间的一切,理论上)。

    我们会说,你想快速而准确地开发一个模型,所以你错误地在给你的全部10000张图像中的1000张图像子集贴上标签,评估模型性能,然后再标记额外的数据。
    你应该先标记哪1000张图片?
    直观上,您可以选择为我们假设的每个包类的一些编号进行标记:棕色的盒子、白色的信封和黄色的盒子。因为我们的模型不可能在没有任何例子的情况下知道一个棕色盒子是什么,所以我们需要确保在我们的训练数据中包含一些棕色盒子。

    直觉上,为确保我们的前1000张图片包括我们希望模型学习每个类别的例子,实际上,就是一种主动学习。我们已经将我们的训练数据缩小到一组能够最好地提高模型性能的图像。

    同样的概念扩展到我们图像数据集中的框的其他属性。如果我们选择300个棕色盒子的例子,但每个棕色盒子的例子都是一个完美的立方体呢?如果我们选择了所有100个黄色盒子的样品,但我们的黄色盒子总是在阳光明媚的日子送达,那会怎么样?同样,我们的目标应该是创建一个包含每个类的变化的数据集,以便我们的模型能够最好地了解在任何尺寸、任何位置和任何天气条件下送达的包裹。

    主动学习的类型

    有多种方法可以帮助我们的模型从初始训练数据中学习。这些方法可能包括从我们的训练数据生成额外的示例,或者确定哪个示例子集对我们的模型最有用。我们的目标是从一个完整的总体(我们的训练数据)中确定哪些样本(子集)可以最好地帮助提高模型性能。

    对我们的模型最有帮助的示例的抽样可以遵循以下几种策略:基于池的抽样、基于流的选择抽样和成员查询合成。

    所有的主动学习技术都依赖于我们利用一些具有准确标签的例子。也就是说,我们不可避免地需要人为地给一些例子贴上标签。主动学习技术的不同之处在于,我们如何使用这些已知的、准确的例子来从我们的数据集中识别其他未知的、有用的例子。

    为了评估这些不同的主动学习技术,假设我们有一些“主动学习预算”,我们可以花钱给我们的包数据集标注。
    包裹标注示例
    因此,问题是:我们应该如何确定最有帮助的例子,以改进我们的模型的性能。

    (1)基于池的抽样(Pool-Based Sampling)

    基于池的抽样是一种主动的学习技术,我们识别所有给定示例的“信息有用性”,然后选择排名前N的示例来训练我们的模型。换句话说,我们想要确定哪些例子对我们的模型最有帮助,然后包括最好的例子。

    基于池的抽样可能是主动学习中最常见的技术,尽管它相当占用内存。

    我们已经拥有了1000个标注好的包裹样本。我们可以在800个标注好的样本上训练一个模型,并在剩下的200个标注的样本上进行验证。有了这个模型,我们可以假设模型中预测精度最低的例子将对提高性能最有帮助。也就是说,我们的模型在验证集中预测精度最低的例子可能是对未来训练最有用的图像。

    我们可以在剩下的9000个包裹图像上运行我们的模型。然后,我们将根据最低的预测标签概率对图像进行排名:没有发现包裹的图像(精确度为0%)或低可信度发现包裹的图像(精确度低于50%)。然后,我们对这些图片进行标注。我们可能还想评估每个类的mAP,以选择性能较低的包裹类别。

    (2)基于流的选择性抽样(Stream-Based Selective Sampling)

    基于流的选择性抽样是一种主动学习技术,当模型在训练时,主动学习系统决定是查询真实标签还是根据某个阈值分配模型预测的标签。更简单地说,对于每个未标记的例子,主动学习会说,“我是否有足够的信心自己将模型预测的标签分配给这个例子,还是我应该问这个例子的答案?”

    基于流的选择抽样可以是彻底的搜索——因为每个未标记的例子都被逐个检查——但它会耗费更多的资源,这取决于模型是否多次查询真实标签。

    我们从开始我们训练了前1000个标记的样本。然后,基于流的主动学习将逐个遍历我们数据集中剩余的9000个样本,并基于预测标签的置信阈值,主动学习系统将决定是否为给定的图像使用真实标记。

    如果主动学习者要求给超过1000个例子加上标签怎么办?这正是基于流的选择性抽样的缺点。

    (3)会员查询合成(Membership Query Synthesis)

    成员查询合成是一种主动学习技术,这种主动学习技术能够根据我们的训练示例创建自己的示例,以获得最大的有效学习。在某种意义上,这种主动学习技术确定它可能是最有用的,比如,在我们标记的训练数据中创建图像的子集,并使用新创建的子集图像进行额外的训练。

    当我们的初始训练数据集特别小时,成员查询合成可以非常有效。然而,生成更多示例可能并不总是可行的。幸运的是,在计算机视觉中,这是数据增强可以发挥巨大作用的地方。

    例如,假设我们的包裹数据集缺少在黑暗和阴天的黄色包裹。我们可以使用亮度增强来模拟低光照条件下的图像。或者,想象一下,我们的许多棕色盒子图像总是在门廊的左边,靠近我们的相机。我们可以模拟缩小或随机裁剪图像,以改变训练数据中的视角。

    在数据集上应用主动学习

    幸运的是,这里回顾的许多主动学习技术并不是相互排斥的。例如,我们既可以为所有图像创建一个“信息有用性”评分,也可以生成有助于模型性能的额外图像。

    就像大多数机器学习问题一样,对数据有一个清晰的理解,并能够基于添加的真实标签快速创建一个新模型,这是至关重要的。

    参考目录

    https://blog.roboflow.com/what-is-active-learning/

    展开全文
  • Active Learning 主动学习

    2021-07-29 10:40:28
    Active Learning主动学习 机器学习的任务中,主要包含以下几类:监督学习(supervised learning)、无监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement ...
  • 先简单介绍下主动学习主动学习(Active learning or query learning)作为机器学习的一个分支其主要是针对数据标签较少或打标签“代价”较高这一场景而设计的,在统计学中主动学习又被称为最优实验设计...
  • 主动学习

    2020-12-18 21:25:25
    *主动学习就像学生(分类器)学习一样,专门学习自己不会的(最有价值的未标记样本),然后再通过老师讲解(专家标注),不断提高自己成绩 Active Learning,即主动学习,通过一定的算法查询最有用的未标记...
  • 一、自主学习教学模式的理论基础自主学习,是指在教学活动中以学生个体为主体,发挥其主观能动性和创造性,即学习呈现自主、主动、创造三个层次并相互依存。皮亚杰的建构主义学习理论提出:以学生为中心,强调学生对...
  • 小学信息技术自主学习方法探究研究课题研究报告一、课题提出的背景我们学校处于城乡结合部,软硬件都比较落后,教学资源短缺,教学中往往是两个学生共用一台电脑,而且信息技术课一个星期中仅有一节,不能保证充足的...
  • 计算机应用基础络自主学习平台使用说明《计算机应用基础》课程网络自主学习平台操作说明插件安装安装.NET,下载地址:/download/7/0/3/703455EE-A747-4CC8-BD3E-98A615C3AEDB/dotNetFx35setup.exe安装客户端,下载...
  • 这是第一个使用 GAN的主动学习工作,在它之后的GAN主动学习有不少,所以是首创性的工作,部分涉及分类的内容一笔带过。 背景1:主动学习 拿来了当初介绍主动学习的ppt,总得来说可以帮助我们用少量的标记获得...
  • 到目前为止看了不少主动学习的文献,简单做一下一些目前为止了解到的主动学习方法的整理吧。 起初是精读的文献中整理的,后来发现在精读文献的方法比较里也有一些比较经典的主动学习方法,附有略写名字和一些文献...
  • C语言自主学习系统

    2021-05-25 08:30:39
    内容介绍C语言自主学习系统【开题报告+论文正文+任务书+外文翻译+外文原文+文献综述】摘 要本系统采用目前普遍的C / S结构,主要形式是学生和管理员操作各种数据库,服务器端的客户端的运行结果送回显示在客户端的...
  • 网络自主学习平台课程资源简介——广东省高等学校教学考试管理中心由广东省高等学校教学考试管理中心自主研发的网络自主学习平台自2008年推广使用以来,深受我省高校老师和学生欢迎。目前,网络学习平台有8个课程,...
  • 摘要:《大学计算机基础自主学习教程》以Windows XP操作系统为平台,以Office软件为主要载体,深入讲解计算机应用知识和操作技能.主要内容包括Windows XP操作系统,字处理软件Word 2003,电子表格处理软件Excel 2003,...
  • 命名实体识别主动学习1. 什么是主动学习2. 主动学习的指标计算3. 代码实现3.1 环境3.2 数据的格式3.3 建立tokenizer和model3.4 数据生成器和数据预处理3.5 建立数据池3.6 定义模型训练相关类和方法3.7 开启主动学习...
  • 本资料可供职业中学、高职及初学计算机基础的学生参考也可以供授课教师参考《计算机应用基础》自主学习指导一、课程内容、要求、目的1、本课程是一门有关计算机知识的入门课程,主要着重计算机的基础知识、基本概念...
  • 《医学计算机自主学习模式的运用》由会员分享,可在线阅读,更多相关《医学计算机自主学习模式的运用(5页珍藏版)》请在人人文库网上搜索。1、医学计算机自主学习模式的运用 创设自主学习氛围 提供数字化学习环境 ....
  • 计算机应用基础教学中如何培养学生的自主学习能力时间:2013-10-19栏目:计算机应用基础教学中如何培养学生的自主学习能力自主学习主动建构 ——计算机应用基础教学中如何培养学生的自主学习能力作者/ 金敏娇摘 要...
  • 主动学习介绍

    2021-02-04 15:28:15
    关于主动学习介绍: 主动学习是一个循环的过程,通过一定的手段从未标记样本中选择出有效的标记样本作为标记样本,当达到一定的条件或者准则时停止循环,该过程可以用如下图来表示: 针对传统的主动学习单一策略...
  • AMiner平台(https://www.aminer.cn)由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化...
  • 布鲁姆学习理论里面关于如何促进学生主动学习中都谈到,学生的学习动力是触发主动学习最直接相关的,不管是内在动力和外在动力,都能促进学生主动学习,比如学生通过主动发现问题、思考后得出答案,完成挑战并获得了...
  • 谈小学计算机课中自主学习的重要性只有切实加强教育教学中的素质教育,方能真正提高学生的创造能力。而素质教育的核心就是激发学生学习的主动性、创造性,让他们自主地去学习。众所周知,所有的教学过程都是教师和学生...
  • ICCV 2019 【论文笔记04】Ranked Batch-Mode Active Learning, ICCV 2016 主动学习的文章有好多都没防,明年有时间的时候好好更新。 【Transfer Learning】 【论文笔记05】Active Transfer Learning, IEEE T CIRC ...
  • 面向可视解释的零样本分类主动学习1 文章概要1.1 摘要1.2 引言1.3 组织结构 1 文章概要 1.1 摘要 问题:零样本分类是解决训练类和测试类不相交问题的一种很有前景的范例。实现这一点通常需要专家通过手动指定类属性...
  • 计算机应用基础自主学习系统说明计算机应用基础自主学习系统使 用 说 明一、软件使用环境1.硬件环境计算机内存512MB以上、主频3.0GHz以上,硬盘有500MB以上的剩余空间。显示属性的DPI必须设置为“正常尺寸(96 DPI)...
  • 主动学习模型从未标注样例集中根据设定的规则挑选高质量样例交由人工标注,低标注成本、高质量样例是优化主动学习算法的主要目标。简而言之,主动学习目的是优先选择最有价值的未标注样本进行人工标注,以尽可能少的...
  • 摘要:主动学习通过人机交互,使用更少的标签获得良好的分类能力。代价敏感主动学习则旨在获得标签查询代价、误分类代价之间良好的折衷。三支主动学习方法使用聚类算法,将样本分为查询、分类、待处理三个区域,并在...
  • 如何学会自主学习?(精品)

    千次阅读 2021-01-04 20:32:57
    这也可能就是为什么考上大学之后很多人都不再好好学习了,因为好好学习就是为了考大学,也可能是为什么很多人找到心仪的工作之后就不在好好学习了,因为好好学习就是为了找到心仪的工作。 自我奖励能让自己充满激情...
  • 疫情中自主学习讨论

    2021-01-15 16:37:58
    首先我感觉这种自主学习还是很有好处的,因为在传统的教学方式中,学生是教育的对象,学生的发展是被动的,发展目标,发展目的,发展方向,学生心中没有底。学生只是栓着绳索的羊,教师牵到哪,学生就跟到哪。在这种...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 370,628
精华内容 148,251
关键字:

主动学习