精华内容
下载资源
问答
  • Windows下基于挂钩技术的数据标注,王丽艳,张志斌,清晰标注网络数据对研究和实际工程都有很重要的意义,现阶段的研究主要是采用人工模拟和DPI分析。人工模拟引入人为因素,受到实验
  • 将VEDAI数据集的标注转为VOC和COCO格式。图片只能包含可见光或红外,且命名需要对应上。有需要其他数据集转VOC或COCO的可以联系我。附加:可见光图像集512也已上传。
  • 通过主动学习解决数据标注难题

    万次阅读 多人点赞 2021-04-19 16:31:17
      数据标注通常是机器学习中的最大瓶颈,为了训练效果不错的模型,搜寻、管理和标注大量数据需要大量的人力成本和时间。主动学习可以让我们用更少的标记数据来训练机器学习模型。一些优秀的人工智能驱动的公司,...

    1. 主动学习介绍

      数据标注通常是机器学习中的最大瓶颈,为了训练效果不错的模型,搜寻、管理和标注大量数据需要大量的人力成本和时间。主动学习可以让我们用更少的标记数据来训练机器学习模型。一些优秀的人工智能驱动的公司,例如特斯拉,已经使用主动学习。

      为了更清楚的说明传统方法与主动学习之间的差别,我们以过滤垃圾邮件为例。传统的机器学习方法是先收集大量的电子邮件,并将每封电子邮件标记为“垃圾邮件”或“正常邮件”,然后训练机器学习模型来对这两类邮件进行分类。传统的方法有一个假设,就是默认所有数据对应的价值是相同的。但在实际工作中,往往存在类别不均衡、噪声数据和大量冗余数据等情况。

      传统的方法可能会花费很多时间标注数据,但是部分数据并不能提高模型的效果。但是直到标注完完所有的数据,才知道模型的可用性究竟如何。

      如果我们能够标注少量有价值的数据,在这些数据上快速学习,那就比在大量数据上进行标注的成本要少得多。主动学习的动机就在于此,使用模型来发现和标注最有价值的数据。

      在主动学习中,首先要准备一小部分有标注的数据,并在这个“种子”数据集上训练模型。然后,模型通过选择它不确定的未标注数据点来“提问”,需要人工标注这些数据点来“回答”问题。再次更新模型,并重复该过程,直到效果足够好为止。通过人工迭代教会模型,可以用更少的标注数据,在更短的时间内构建更好的模型。

      那么模型如何找到后续需要标注的数据呢?常用的方法如下:

    1. 选择模型的预测分布中最大熵对应的数据
    2. 选择模型的预测置信度最低的数据
    3. 训练多个不同的模型,选择预测不一致的数据

      在Humanloop中,我们使用基于贝叶斯的深度学习方法来获得模型的不确定性估计。

    2. 使用主动学习的三大好处

    1. 在标记数据上花费的时间和钱更少

      主动学习可以节省标注的数据量,适用于计算机视觉以及自然语言处理(NLP)等领域中。数据标注是构建机器学习模型的过程中费时费力的一部分,所以使用主动学习后,在标记数据上花费的时间和钱会更少。
    在这里插入图片描述

    1. 您可以更快地获得有关模型效果的反馈

      通常,人们都是先进行数据标记,然后训练模型,从而得到模型的效果反馈。得到反馈之后,如果发现效果远远低于需求,就需要重新思考下一步计划,例如继续进行数据标注或者修改方案等。但由于主动学习在数据标注过程中经常对模型进行训练,因此可以及时获得反馈,从而及早纠偏。

    1. 提高模型的准确率

      让人惊讶的是,经过主动学习训练的模型不仅训练速度更快,而且实际上可以收敛到一个更好的最终模型(使用更少的数据)。数据并不是越多越好,数据的质量和数量同样重要。如果数据集包含难以准确标注的模糊示例,这实际上会降低最终模型的效果。

      模型学习例子的顺序也很重要。机器学习有一个子领域,叫做课程学习(curriculum learning),研究的是如何通过先教简单的概念,然后再教复杂的概念,来提高模型的性能。主动学习自然而然地在你的模型上实现了课程学习,帮助模型取得更好的效果。

    3. 如果主动学习真的很好,那为什么每个人都不用呢?

      大多数构建机器学习模型的工具和过程都没有考虑到主动学习。通常由不同的团队分别负责数据标注和模型训练,但主动学习需要将这些过程相互耦合。如果让这些团队一起工作,你仍然需要做大量的工作,来连接模型训练接口和数据标注接口。大多数软件都假定在训练模型之前,所有数据都已标标注,因此要使用主动学习,您还需要弄清楚如何让模型与标注模块通信,并在从不同的标注模块异步获取数据,然后进行模型更新。

      除此之外,训练深度学习模型往往非常慢,因此频繁地重新训练模型是痛苦的。没人愿意标注100个数据,然后等待24小时,等模型完全重新训练之后,然后再标注100个例子。大型的深度学习模型往往有数百万或数十亿个参数,从这些模型中获得良好的不确定性估计是一个开放的研究问题。

      如果你读过关于主动学习的论文,你可能会认为主动学习会让你在数据标注上省下一小笔钱,但却能节省大量的工作量。不过,这些论文具有误导性,因为它们使用的学术数据集往往是平衡/干净的。然而,现实中,数据集往往类别失衡、包含噪声,标注成本存在差异(并非每个数据点都同样容易标注),因此,主动学习带来的好处可能比文献所说的要大得多。在某些情况下,甚至可以将标注成本降低10倍。

    4. 如何使用主动学习

      目前出现了一些新的工具,使得主动学习更容易,比如modAL。ModAL基于sklearn,您可以将不同的模型与您喜欢的任何主动学习策略相结合,ModAL的优点在于它提供了一系列现成的方法,而且它是开源的。像ModAL这样的库的缺点是,需要大量的工作量来实现不同的不确定性度量,不包含任何数据标注接口,您仍然需要自己实现连接模型和数据标接口。

      这就引出了数据标注接口:

      对于个人数据科学家来说,最流行的工具可能是Prodigy。Prodigy是基于Spacy构建的数据标注接口,因此可以与Spacy的NLP库结合来使用主动学习。Prodigy不是开源的,但您可以下载之后使用pip在本地安装Prodigy。虽然Prodigy对于个人来说是一个很好的工具,但它并不是为了支持数据标注团队而设计的,只是实现了最基本的主动学习形式。

      Labelbox为各种图像标注提供了接口,最近还增加了对文本数据标注的支持。与Prodigy不同的是,Labelbox的设计考虑到了数据标注,并且有更多的工具来确保标签的正确性。Labelbox对主动学习或模型训练没有提供任何本地支持,但您可以通过API将预测从模型上传到标注接口。这意味着,如果您已经实现了主动学习获取数据的功能,并且正在训练模型,则可以设置主动学习的循环过程,但是仍需你自己去实现大部分工作。

    5. Humanloop

      我们构建了Humanloop来解决现有工具的许多问题。我们的目标是使部署和维护自然语言模型比以前更快更容易。

      Humanloop为NLP任务提供了一个数据标注的接口,您可以在数据标注时训练模型,并使用开箱即用的主动学习。我们采用最先进的技术进行主动学习,并且保证训练质量。这使得在训练期间获得实时反馈成为可能,使用深度学习模型时也是如此。
    在这里插入图片描述

    6. 小结

    主动学习的好处包括:

    • 减少需要标记的数据量,显著降低成本。
    • 为您的模型性能提供更快的反馈。
    • 提高模型性能。

      主动学习未来将成为数据科学家的标准工具。Humanloop的官方网站为https://humanloop.com/

    展开全文
  • 讨论了语义Web上用XML或RDF/XML标注元数据的方法以及元数据标注在语义Web上的两种存在形式:单一文件或XML包。在此基础上,介绍了从这些单独文件或XML包宿主文件中抽取元数据的方法,包括XML解析器SAX和DOM以及XML包...
  • 编译 | 核子可乐、钰莹 最新论文指出,AI 行业正在残酷压榨刚刚兴起的全球零工经济体系。 现代人工智能依赖各种算法处理规模达数百万的示例、图像或文本素材。...数据标注是人工智能发展中至关重要的

    编译 | 核子可乐、钰莹

    最新论文指出,AI 行业正在残酷压榨刚刚兴起的全球零工经济体系。

    现代人工智能依赖各种算法处理规模达数百万的示例、图像或文本素材。但在此之前,首先需要由工作人员在图片数据集中手动标记出对象,再将标记完成的大量图像交付给算法以学习模式,掌握如何准确识别对象。这类工作量极大、过程极其枯燥且耗时的手动数据标记过程,已经成为 AI 经济体系中的重要组成部分。

    AI 数据标注大量依赖廉价外包

    在数据标注行业流行着一句话,“有多少智能,就有多少人工”。数据标注是人工智能发展中至关重要的一环,却常常容易被人忽视。

    相对而言,数据标注是人工智能领域“入门级”的工种,单从工作流程看,其技术含量较低,人是这项工作中最大的影响“因素”,久而久之,“劳动密集型”成为外界给数据标注行业贴上的一个标签。低门槛吸引了众多农民、学生、残疾人群体加入到数据标注大军中,在我国河南、河北、贵州、山西等地的四五线城市还出现了一些特色的“数据标注村”。

    不止中国,向劳动力更充足、成本更低的地方迁移也是全球数据标注行业的发展趋势。印度涌现了不少数据标注村,他们为美国、欧洲、澳洲和亚洲的 AI 公司服务,Facebook 就曾将部分社交内容标注的工作外包给了一家印度公司。

    近日,普林斯顿大学、康奈尔大学、蒙特利尔大学以及美国国家统计科学研究院共同发表的最新论文指出,这部分手动标记工作大多在美国及其他西方国家之外完成,并对全球各地的工人施以残酷剥削。

    以 Sama(原 Samasource)、Mighty AI 以及 Scale AI 等数据标记公司为例,他们主要使用 来自撒哈拉以南非洲以及东南亚地区的劳动力每天支付给员工的薪酬仅为 8 美元(折合成人民币为 51.6 元)。 但与此同时,这些企业每年却能赚取数千万美元的巨额收益。

    再来看在线零工平台 Amazon Mechanical Turk,世界各地的任何人都能够在此登录并执行简单任务,快速赚取相应收益。在 2019 年之前,Mechanical Turk 仅支持使用美国本地银行账户收付款,就是说在该平台上工作、但无法使用美国银行业务的员工根本拿不到应得的收入,而只能用自己的劳动换取 Amazon 商城礼品卡。

    根据论文调查,ImageNet 已经成为人工智能历史上最具影响力的数据集之一,但其实现基础依靠的却是时薪只有区区 2 美元的零工。

    此外,由于待标记数据已经由美国或其他西方国家的开发者及程序员进行过初筛,因此外部标记人员的介入并不能在数据集中充分体现全球文化背景。

    论文提到,“同样是拍摄自婚礼现场的新郎照片,算法识别美国新郎的准确率就远远高于对埃塞俄比亚或巴基斯坦的新郎图像分类水平。虽然这些地区有很多工人都在为 AI 系统默默做出贡献,但系统本身对这些代表性较低的群体仍存在严重偏见。他们的努力付出,并不能直接令所处本地社群受益。

    研究人员们还写道,应对这方面问题的潜在解决方案可能是将数据标记人员真正纳入到 AI 开发流程当中。在破除毫无话语权的零工身份之后,工人们有望得到更公平的报酬,并凭借自己的洞见与专业知识解决数据收集过程中的种种差异,最终提高算法产品的整体准确率。

    论文还提到 Masakhane,一家致力于通过人工智能技术保护非洲语言的组织。作为公平 AI 的典型案例,Masakhane 不会为 AI 研究人员特别创建数据,而是建立起一个扎根于非洲大陆、汇聚数据标记 - 技术研究 - 算法构建人才的整体社区。

    该组织在官方网站上写道,“我们要做的不仅仅是让非洲民众参与到数据生产或消费当中,而是将需求方、标记方乃至翻译方紧密联系起来。”

    论文指出,如果企业决定将数据标记工作纳入业务流程,就应该给标记人员提供内部成长机会。

    论文最后建议,“我们应该将 AI 开发视为经济发展的前进之路。这样一项开发活动不该只关注数据标记这类低生产率活动,而应更多强调模型开发 / 部署及研究等高生产率活动。”

    机器标注比重提升,但很难取代人工

    虽然整个行业已经开始向着机器标注的方向前进,但这很难取代人工。

    《2019 年中国人工智能基础数据服务行业白皮书》分析指出,2010-2016 年为数据服务行业的“初生期”,早期数据标注需求激增,加之入行门槛低,涌入了大量玩家,鱼龙混杂。自 2017 年以来,伴随着 AI 深入落地到各个应用场景中,数据标注行业了进入成长期,上层应用端的厂商对数据标注质的要求不断提高,如自动驾驶、运动图像、计算机视觉等领域的数据标注难度很高。

    行业格局渐渐清晰,马太效应明显。据了解,国内从事数据标注业务公司 / 团队约有几百家,其中独立做整个数据质量服务的约百余家,能够提供数据采标服务一体化的有几十家,能够提供高标准基础数据服务的仅有十几家。现阶段,下游 AI 算法研发单位多将业务分流给不同数据服务公司加之数据标注相关标准待完善,该行业还没有出现大的巨头公司。

    这是一个尚未饱和的市场,同样,这也意味着巨大的发展空间。数据标注行业已经开始进入到人机协作的阶段,数据标注市场需求量仍旧很大,需要更加专业的人及高效的机器协助,机器标注所占的比重会不断提升,AI 技术与数据互补,通过 AI 技术提升数据效率,数据反过来服务于技术。

    为降低人工成本,提高效率,不少互联网技术公司及第三方数据服务商在开发自己的标注工具。2019 年 10 月,Google 发布了用于完整图像标注的人机协作接口 Fluid Annotation,利用它标注图像中每个对象和背景区域的类标签与轮廓,可将标注数据集的创建速度提高三倍。数据标注众包平台也不断涌现,京东众智、百度众测、figure-eight、亚马逊的 Mechanical Turk 等。

    未来,机器标注、人工辅助将成为可以预见的发展趋势。这对“数据标注村”来说或许并不是一件好事,但机器很难完全取代人工。现阶段人工标注的准确度要高于机器,机器只能跑出有一定比例的正确结果,更精确的结果仍需要人工来标注,且发挥的作用更关键。此外,在质检环节,人的作用也无可替代,最终的结果要靠精细化的人工校对。

    参考链接:

    https://onezero.medium.com/the-a-i-industry-is-exploiting-gig-workers-around-the-world-sometimes-for-just-8-a-day-288dcce9c047

    展开全文
  • 论文前奏 线程微博数据标注平台。 去做:
  • 如果你曾经使用过诸如 CIFAR、MNIST、ImageNet 或 IMDB 之类的数据集,那么你可能会假设类标签是正确的。令人吃惊的是,ImageNet 中可能至少有 10 万个标签有问题。为什么我们不早点找到它们?在海量数据集...
    2019-12-29 18:15

    导语:本文讨论了一个新兴的、原则性的框架,用于识别标签错误、描述标签噪声,并使用被称为置信学习(CL)的噪声标签进行学习。

     

    如果你曾经使用过诸如 CIFAR、MNIST、ImageNet 或 IMDB 之类的数据集,那么你可能会假设类标签是正确的。令人吃惊的是,ImageNet 中可能至少有 10 万个标签有问题。为什么我们不早点找到它们?在海量数据集中描述和发现标签错误的原则性方法非常具有挑战性,解决方案也很有限。

     

    在这篇文章中,作者讨论了一个新兴的、原则性的框架,用于识别标签错误、描述标签噪声,并使用被称为置信学习(CL)的噪声标签进行学习,该框架是开源的 cleanlab Python 包。

     

    cleanlab 是一个带有标签错误的机器学习和深度学习框架,和 PyTorch 类似。在 cleanlab 文档中了解更多信息。

     

    cleanlab 加上 confidentlearning-reproduce repo 就可以重现 CL 论文中的结果。

     

    数据集中存在错误标注怎么办? 置信学习帮你解决

     

    2012 年 ILSVRC ImageNet 训练集中通过置信学习确定的前 32 个标签问题。标签错误用红色框表示,绿色表示本体论问题,蓝色表示多标签图像

     

    上图显示了使用置信学习发现的 2012 ILSVRC ImageNet 训练集中的标签错误的例子。为了便于解释,我们将使用 CL 在 ImageNet 中发现的标签问题分为三类:

    • 多标签图像(蓝色):在图像中有多个标签

    • 本体论问题(绿色):包括“是”或 “有”两种关系,在这些情况下,数据集应该包含其中一类

    • 标签错误(红色):数据集别的类的标签比给定的类标签更适合于某个示例

     

    使用置信学习,我们可以使用任何合适的模型在任何数据集中找到标签错误。下面是常见数据集中的其他三个实际示例。

     

    数据集中存在错误标注怎么办? 置信学习帮你解决

     

    在 Amazon 评论中存在的标签错误的例子,使用置信学习来识别不同的数据模式和模型

     

     

    什么是置信学习?

     

    置信学习(CL)已成为监督学习和弱监督的一个子领域,可以被用于:

    • 描述标签噪声

    • 查找标签错误

    • 学习噪声标签

    • 发现本体论问题

     

    CL 基于噪声数据剪枝的原理,通过计数对噪声进行评估,并对实例进行排序以进行置信训练。在这里,我们在 Angluin 和 Laird 分类噪声的假设基础上,将 CL 泛化到直接估计给定噪声标签和无噪声标签之间的联合分布。

    数据集中存在错误标注怎么办? 置信学习帮你解决

    带噪标签与不带噪标签置信联合与估计联合分布的置信学习过程及实例,其中,y~ 表示观察到的噪声标签,y* 表示潜在的未损坏标签

     

    从上图可以看出,CL 需要两个输入:

    • 样本外预测概率(矩阵大小:类的样本数)

    • 噪声标签(矢量长度:示例数)

     

    出于弱监督的目的,CL 包括三个步骤:

    1. 估计给定噪声标签和潜在(未知)未损坏标签的联合分布,以充分描述类条件标签噪声

    2. 查找并删除带有标签问题的噪音示例

    3. 去除训练误差,通过估计潜在先验重新加权实例

     

     

    置信学习的优点

    与大多数机器学习方法不同,置信学习不需要超参数。我们使用交叉验证从样本中获得预测概率。置信学习还有许多其他优点:

    • 直接估计噪声和真标签的联合分布

    • 适用于多类数据集

    • 查找标签错误(错误按最有可能到最不可能的顺序排列)

    • 是非迭代的(在 ImageNet 中查找训练标签错误需要 3 分钟)

    • 在理论上是合理的(现实条件下准确地找到标签误差和联合分布的一致估计)

    • 不假设标签噪声是随机均匀的(在实践中通常行不通)

    • 只需要预测概率和噪声标签(可以使用任何模型)

    • 不需要任何真实(保证不损坏)的标签

    • 自然扩展到多标签数据集

    • 作为 cleanlab Python 包,它是免费、开源的,用于描述、查找和学习标签错误

     

     

    置信学习的原则

    CL 是在处理噪音标签的文献中制定的原则之上建立起来的:

    • 剪枝以搜索标签错误。例如,通过损失重加权使用软剪枝,以避免迭代重标记的收敛陷阱。

    • 对干净数据进行统计训练,避免在不完全预测概率的情况下重新加权损失(Natarajan et al.,2017),从而避免学习模型权重中的错误传播。

    • 对训练期间使用的示例进行排序,以允许使用不规范概率或 SVM 决策边界距离进行学习。

     

     

    置信学习的理论发现

    有关 CL 算法、理论和证明的全部内容,请阅读这篇论文。这里,我总结一下论文的主要观点。

    理论上,论文给出了 CL(定理 2:一般的逐例稳健性)准确地发现标签错误并一致地估计噪声和真实标签的联合分布的现实条件。我们的条件允许每个例子和每个类的预测概率中有错误出现。

     

     

    置信学习是如何工作的?

    为了了解 CL 是如何工作的,让我们假设我们有一个包含狗、狐狸和牛的图像的数据集。CL 通过估计噪声标签和真标签的联合分布(下图右侧的 Q 矩阵)来工作。

    数据集中存在错误标注怎么办? 置信学习帮你解决

    左:置信计数示例,这是一个不正常的联合估计;右:有三类数据的数据集的噪声标签和真标签的联合分布示例

    继续我们的示例,CL 统计 100 个标记为 dog 的图像,这些图像很可能属于 dog 类,如上图左侧的 C 矩阵所示。CL 还统计了 56 幅高概率标记为 fox 的图像和 32 幅高概率标记为 cow 的图像。

    你可能对它的数学过程比较好奇,好吧,这个计数过程采用的是下面的公式:

    数据集中存在错误标注怎么办? 置信学习帮你解决

    置信联合方程

     

     

    我们鼓励阅读论文原文来理解公式中的符号,这里的中心思想是,当一个例子的预测概率大于每个类的阈值时,我们自信地认为这个例子实际上属于该阈值的类。每个类的阈值是该类中示例的平均预测概率。这种阈值形式将 PU 学习中众所周知的鲁棒性结果(Elkan&Noto,2008)推广到多类弱监督。

     

    使用标签噪声的联合分布查找标签问题

    从上图右侧的矩阵中,估计标签问题:

    • 将联合分布矩阵乘以示例数。让我们假设我们的数据集中有 100 个示例。所以,在上图中(右边的 Q 矩阵),有 10 个标记为 dog 的图像实际上是狐狸的图像。

    • 将 10 张标记为 dog 的图片标记为标签问题,其中属于 fox 类的可能性最大。

    • 对矩阵中的所有非对角项重复此操作。

    注意:虽然这简化了本文中使用的方法,但抓住了本质。

     

     

    置信学习的实际应用

    在高噪音和高稀疏的情况下,平均来说,CL 提高了 10% 以上高噪声学习水平和 30% 以上的高稀疏学习水平。

    数据集中存在错误标注怎么办? 置信学习帮你解决

     

    上表显示了 CIFAR-10 上带噪声标签的多类学习的 CL 与最新方法的比较。在高稀疏性(见下一段)和 40%、70% 的标签噪声的情况下,CL 的表现优于 Google 表现最好的 MentorNet、Co-Teaching 和 Facebook 研究院的 Mix-up,性能超过它们 30%。在使用置信学习之前,对这一基准的改进要小得多(大约只有几个百分点)。

     

    稀疏性(Q 中零的分数)概括了这样一个概念,即现实世界中的数据集,如 ImageNet,有一些类不太可能被错误地标记为其他类,例如 p(tiger,oscilloscope) ~ 0 in Q。如上表中突出显示的单元格所示,与 Mixup、MentorNet、SCE-loss 和 Co-Teaching 等最新方法相比,CL 显著增强了对稀疏性的鲁棒性。这种鲁棒性来自于直接建模 Q,即噪声和真实标签的联合分布。

     

     

    CL 清洗 ImageNet 提高 ResNet 测试精度

     

    数据集中存在错误标注怎么办? 置信学习帮你解决

     

    在上图中,每种方法的直线上的每个点,从左到右,描述了训练的准确性,去除了 20%、40%…、100% 的估计标签错误。黑色虚线用所有例子描述了训练时的准确性。当移除少于 100k 个训练示例时,使用 CL 在清洗过的 ImageNet 训练集上训练(不添加合成噪声),观察 ResNet 验证精度的提高。当超过 100k 个训练实例被移除时,观察使用 CL 相对于随机移除的改善,如红色虚线所示。

     

     

    在添加标签噪声的 CIFAR 中标签噪声的良好表征

     

    数据集中存在错误标注怎么办? 置信学习帮你解决

     

    上图显示了 CIFAR 中标签噪声联合分布的 CL 估计,标签噪声增加了 40%。观察(b)中的 CL 估计与(a)中的真实分布有多接近,以及(c)中矩阵中每个项的绝对差的低误差。概率被放大 100 倍。

     

     

    ImageNet 本体论问题中类命名问题的自动发现

     

    数据集中存在错误标注怎么办? 置信学习帮你解决

    CL 通过直接估计标签噪声的联合分布,自动发现数据集中类的本体论问题。在上表中,我们显示了在我们估计单类数据集 ImageNet 的标签噪声联合分布时最大的偏离对角线。每行都列出了噪声标签、真标签、图像 id、计数和联合概率。因为这些是非对角的,所以噪声类和真类必须是不同的,但是在第 7 行中,我们看到 ImageNet 实际上有两个不同的类,它们都被称为 maillot。

     

     

    最后的想法

     

    论文的理论和实验结果强调了置信学习的实用性,例如识别 ImageNet 和 CIFAR 中的许多标签问题,并通过在清洗过的数据集上进行训练来提高标准 ResNet 的性能。置信学习促使人们需要进一步了解数据集标签中的不确定性估计、清洗训练集和测试集的方法以及识别数据集中本体论问题和标签问题的方法。

     

    via:https://l7.curtisnorthcutt.com/confident-learning

     

    展开全文
  • 数据标注师:人工智能背后的人工力量.pdf
  • 词性标注器被广泛用于为文本数据中的每个单词分配一个最佳词性,随机方法的准确率高达 96% 到 97% (Jurafsky & Martin, 2000)。 在构建 POS 标注器时,人类需要对设计决策做出一系列选择,其中一些选择会显着影响...
  • 最后分别在Flickr30k和MS-COCO两个数据集上进行验证,通过可视化显示该模型如何自动学习显著区域并生成相应的词汇输出序列。实验结果表明,该方法能较好地提取注意力区域并给出标注,与其他模型对比能够得到更好的...
  • 众包数据标注中的隐类别分析

    千次阅读 2017-04-13 21:22:56
    0. 写在前面这时一篇关于田天、朱军的一篇论文的读后感和自己的一点思考。1. 众包众包(crowdsourcing)这个词,第一次听到还是众包数据库,是从老班长那里听到的。细想起来,我对外包(outsourcing)这个词更加熟悉。...

    0. 写在前面

    这时一篇关于田天、朱军的一篇论文的读后感和自己的一点思考。

    1. 众包

    众包(crowdsourcing)这个词,第一次听到还是众包数据库,是从老班长那里听到的。细想起来,我对外包(outsourcing)这个词更加熟悉。

    其实众包就是大家一起外包,把部分工作交给一批人去做,这就是众包。准确来说,“众包”一词最早由Howe和Mark Robingson在2006年美国《连线》发表的文章中提出,它的描述正是一种基于网络的商业模式:公司或组织公开地把自己遇到的问题发布到一个分布式公共网络中,使得来自网络的各个个体可以协作地解决问题。

    而这篇文章里,主要提到的是众包数据标注,这其实是非常必要的,尤其是对于大量数据的标注,单靠研究人员是很难标注完成的。

    2. 众包标注的困难

    众包标注由于是非专业标注,自然会遇到很多问题。这困难主要由以下三个方面组成:
    1. 标注者的复杂程度
    由于标注者是众包标注,因此其标注者的水平也参差不齐,其背景知识和行为习惯可能有较大的差异。这就相当于是给若干个已训练好的模型来做预测一样,其不同的模型有不同的输出结果。那么这种情况下,基本上使用多数投票的方法来解决。
    2. 评价困难
    标注的内容可以分为两类,一类是有明确标签的,就好比是试卷里的客观题一样,尽管各个标注都不同,但是还是在有限集合内的。另一类是开放式回答,这种标注如同试卷里的主观题一样,可能会有无限种可能的结果。甚至是截然相反的结果,比如什么是美,什么是丑,每个人的评价标准是不同的。
    3. 标注稀疏性
    如果一个需要标注的训练集中的数据本身就比较稀疏,而我们又需要把它们分割成一个个小块,这就有可能造成数据稀疏。比如,我们要进行鸟类图片标注,如果本身鸟类种类很多,而分给每个人的鸟的种类也很多的话,由于每个人认识的鸟的种类是不多的,因此可能存在每个人的标注都会有很高的错误率。这时候我们可能就需要让标注者之间有重叠的部分,然后使用多数表决来解决。

    3. 标注整合基本模型

    整合众包标注问题实际上可以分为两部分,第一部分是对标注行为的假设,第二部分是根据假设给出整合结果。这里我们给出2类模型。

    第一类是多数投票模型,这种整合我们最熟悉,无论是在什么领域,多数表决都是一种高效而又简单的决策方法。但是这个表决法太过简单,以至于正确的标注很容易被噪声所掩盖。

    第二类是混淆矩阵模型,这也是非常常见的整合模型,下面是一个混淆矩阵示例:

    下观察值右真实值水果蔬菜
    水果0.40.1
    蔬菜0.20.3

    也就是说,把预测对的值和预测错的值都给出,这样才称为是混淆矩阵。混淆矩阵比多数投票法要进步的多,但是仍然有一些缺陷。首先它对于标注者出错的来源有了一个初步的假设,并且通过概率的方法给出了一个较为严谨的问题表述,最终还提出了通过期望最大化算法求解问题的方法,总的来说是一套比较完整的思路。

    但是它仍然存在两个问题:
    1. 它对于正确的估量值更多的依赖跟它同出现的其他种情况。例如,对于黄色标注时,给他红色或者绿色作为对比时,其变化趋势是不同的。
    2. 这一模型没有考虑标注者本身的倾向性。在同一类型的标注问题中,每个数据都可能有不同的要素来组成,因此标注者再给出标注时,对其产生影响的内容可能来自于多个方面,因此模型中仅仅把它用混淆矩阵来描述,事实上忽视了许多分类信息。

    不过最近也有人提出了新的模型,例如Raykar是将训练分类器与标注整合相对模型,而zhou则使用基于最小最大化熵学习的整合模型,还有的提出了针对特定假设的模型。

    4. 分类标注中的隐类别结构

    所谓的隐类别,就是没有被标注的类别,就像是给出一个图片,我们去标注是水果还是蔬菜的时候,实际上也是包含了像香蕉-水果,黄瓜-蔬菜这种隐含的二级分类。但是对于这些二级分类,我们之前的方法并不能给出一个很好的描述,例如番茄,有的人认为是水果,有的人认为是蔬菜。而像南瓜这种,更多的人会被认为是蔬菜,因此这些隐含变量对于标注的结果也有相当大的影响。

    因此,我们就对于这种未知的问题,提出两条新的假设:
    1. 数据集中每一个项目属于一个特定的隐类别。
    2. 每个隐类别属于一个特定的标注类别。

    展开全文
  • 全面准确地标注Deep Web查询结果是Deep Web数据集成的关键问题,但现有的Web数据库标注方法还不能较好地解决该问题,为此提出一种基于结果模式的Deep Web数据标注方法。首先通过结果页面解析和抽取结构化数据来完成...
  • 莲花山数据集采用与或图作为视觉知识模型,实现对客观世界中视觉模式的多层次表达,从而将多种标注任务统一到图像语法模型框架下。配套数据库通过两层模型分别管理视觉模型与标注数据,提供了灵活方便的数据导入、...
  • 摘要:解决深度学习对数据的依赖问题和减少数据标注成本成为了业界的研究热点。本文将介绍以下几个研究方向:半监督/弱监督学习、数据合成、主动学习、自监督。 1. 引言 得益于深度学习的发展,许多计算机视觉任务...
  • 数据标注工具

    万次阅读 2018-03-23 16:12:47
    在我们学习深度学习的时候,经常阅读大牛的论文,并从网上下载对应的数据集和代码,在自己运行网络并调节网路结构或者超参数中理解网络的运作。  但是我们始终无法接触到数据本身是怎么制作的~  随着对深度学习...
  • 论文梳理(图像标注

    千次阅读 2020-02-04 20:47:30
    自动图像标注总述: 是图像语义理解的热点,是 无标注图像内容的语义关键词 属于图像检索领域,是图像 语义检索(成熟 )关键 涉及计算机视觉,机器学习,信息检索 总实现思路:用(已标注图像集)或 关联,...
  • 物联网多源异构数据的自动语义标注方法研究
  • News: 最近开始论文实验,需要重新整理一下数据集,顺便整理一下这个代码仓库。 简介 仓库中的脚本用于将Labelme标注数据转换为PASCAL VOC格式或MS COCO格式的标准数据集,便于直接利用现有的训练框架进行训练。 ...
  • 数据标注

    千次阅读 2020-04-20 10:43:14
    数据标注如何自己建立数据数据标注 如何自己建立数据集 ...数据集是验证算法的关键,而在论文中万一没有现成的 数据标注 标注数据集的软件很多,labelme是很常用的一个,可在python3上使用, ...
  • 该算法通过未标注样本点与所有已标注样本点之间的余弦相似度之和来度量未标注样本与所有已标注样本点之间的相似性,通过选择与已选择的所有样本不相似的样本点进行标注就可以实现对于数据多样性的充分考虑;...
  • “大数据时代”,数据为...但是数据标注是个耗时耗力的工作。 在深度学习领域,培训数据对培训结果具有重要影响。在计算机视觉领域,除了开放数据集之外,许多应用场景还需要专门的数据集来进行迁移学习或端到端培...
  • 基于Python的训练集数据标注修改方法研究.pdf
  • 基于隐马尔可夫模型(HMM)的藏语语音合成系统中,语料数据标注是训练声学模型的基础和关键。文章结合藏语独有的语音特点对语料数据设计套标注规则,并以Praat为标注环境实现语料的标注
  • 三维模型语义自动标注的目标是自动给出最适合描述模型的标注词集合,是基于文本的三维...在PSB(Princeton Shape Benchmark)数据集上的测试表明,该方法利用了大量未标注样本参与标注过程,取得了比较好的标注效果。
  • 缩小图像低层视觉特征与高层语义之间的鸿沟,以提高图像语义自动标注的精度,是研究大规模图像数据管理的关键。提出一种融合多特征的深度学习图像自动标注方法,将图像视觉特征以不同权重组合成词包,根据输入输出...
  • 数据集与标注等工具

    万次阅读 2017-07-28 17:41:44
    BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。以下是利用该工具进行...
  • 来源:《构想:中文文本标注工具(附开源文本标注工具列表)》 Chinese-Annotator 来源:https://github.com/crownpku/Chinese-Annotator 能不能构建一个中文文本的标注工具,可以达到以下两个特点...
  • 论文MWEC支撑数据.zip

    2021-09-20 21:26:31
    数据分析与知识发现期刊论文MWEC:一种基于多语义词向量的中文新词发现方法,论文支撑数据,包括: [1] 张乐,冷基栋,袁梦龙. Newworddiscovery_data.zip. 新浪产经、搜狐体育、马蜂窝旅游和网易云音乐网络文本数据...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 36,605
精华内容 14,642
关键字:

数据标注的论文