精华内容
下载资源
问答
  • 事件抽取综述

    2019-07-17 14:48:13
    参考博文:事件抽取综述

    参考博文:事件抽取综述

    展开全文
  • https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等...NLP事件抽取综述下: ...

    https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型

    NLP事件抽取综述下

    展开全文
  • 知识图谱-事件抽取综述

    万次阅读 2018-07-10 16:28:06
    事件抽取综述一.基本概念1.1 事件 1.定义 作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实。一般是句子级的。在TDT ( Topic Detection Tracking) 中,事件是指关于某一主题...

    事件抽取综述

    一.基本概念

    1.1 事件

      1.定义

            作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实。一般是句子级的。在TDT ( Topic Detection Tracking) 中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。

     2.组成元素

         组成事件的各元素包括: 触发词、事件类型、论元及论元角色。

    • 事件触发词:表示事件发生的核心词,多为动词或名词;

    • 事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33 种事件类型。 事件识别是基于词的34 类( 33类事件类型+None) 多元分类任务,角色分类是基于词对的36 类( 35 类角色类型+None) 多元分类任务;
    • 事件论元:事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位 ;
    • 论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者 、受害者等。

       如下例句:在 Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。

    1.2 事件抽取

          1.定义

           事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

          2.分类

           事件抽取任务总体可以分为两个大类:元事件抽取及主题事件抽取。事件表示一个动作的发生或状态的变化。往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。当前主要是面对元事件抽取,关于主题事件抽取的研究较少

    二.主流技术分析

            元事件抽取的主要研究方法有模式匹配和机器学习两大类。模式匹配在特定领域内能取得较高的性能,但移植性较差。相对于模式匹配,机器学习与领域无关,无需太多领域专家的指导,系统移植性较好。随着相关语料库的建设和互联网上各种文本资源的不断丰富,语料的获取不再是束缚机器学习的瓶颈。目前,机器学习已成为元事件抽取的主流研究方法。

    2.1 元数据抽取

             1.基于模式匹配的元事件抽取

            模式匹配方法是在一些模式的指导下进行事件的识别和抽取。模式主要用于指明构成目标信息的上下文约束环,集中体现了领域知识和语言知识的融合。抽取时只要通过各种模式匹配算法找出符合模式约束条件的信息即可。由此可见,其核心是抽取模式的构建。典型的基于模式匹配的事件抽取系统有 ExDisco ,GenPAM等。 起初,模式主要是通过手工方法来建立的,但这种方式费时费力,要求用户具有较高的技能水平。由于人工构造规则工作量极大,为了快捷方便地获取模式,提高系统的可移植性,采用机器学习来自动获取模式成为新的研究趋势。

            2.基于机器学习的元事件抽取

            神经网络事件抽取方法作为一种有监督多元分类任务,事件抽取方法包括2个步骤:特征选择和分类模型。本文根据使用特征的范围不同、模型学习方式不同和外部资源的使用与否对不同的事件抽取方法进行分类。各类方法的研究内容可详见如下:

         (1)根据所使用特征的范围,事件抽取方法可以分为句子级的事件抽取方法和篇章级的事件抽取方法。总地来说,句子级的事件抽取方法只使用句子内部获取的特征。而篇章级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下,句子级特征是所有事件抽取方法通用的特征,而篇章级特征则属于面向实际任务挖掘的特效特征。

        (2)根据学习方式不同,可以分为基于流水线模型的事件抽取方法和基于联合模型的事件抽取方法。事件抽取任务分为事件识别和论元角色分类任务。其中,后者输入依赖于前者输出。论元角色分类任务的输入是识别出的触发词和所有候选实体。大部分事件抽取方法都是流水线模型学习方式,先进行事件识别模型的学习,再转入论元角色分类模型的学习。而经仿真验证基于联合模型的学习方式的效果要优于流水线模型学习方式,故而也随即产生了基于联合模型的事件抽取工作。

        (3)ACE05 数据是现有的为数不多的有标记事件数据之一,是在新闻、博客、访谈等数据上进行人工标注得到的。ACE 数据的标注质量不高以及规模较小的问题,也在很大程度上影响了事件抽取任务的发展。为此很多工作尝试借助外部资源辅助事件抽取任务的功能达成。根据是否使用外部资源,可以分为基于同源数据( 即ACE 数据) 的事件抽取方法和融合外部资源的事件抽取方法。

           A.句子事件抽取

           句子事件抽取仍然有两种方法可以选择,一种是传统方法,一种是基于神经网络模型,两者在特征表示、学习方式、分类模型上均有不同,但两者都在触发词特征上做出了比较多的研究说明。


                 特征表示
                        学习方式
                      分类模型
    传统方法
       传统离散型特征

    最大熵和支持向量基模型
    神经网络模型
       连续向量型为特征
    用初试向量表示候选触发词
    神经网络模型自动更新组合特征
    通过softmax模型输出分类
    softmax模型

           基于词的传统离散特征包括:

    • 词法特征:例如当前词及周边词的一元/ 二元语法、词性标签、词干、同义词等。
    • 句法特征:例如当前词的依存词和核心词、涉及的依存关系、是否是未被引用的代词、句法分析树中路径等。
    • 实体信息:例如实体类型、距离最近的实体类型、是否是相同类型论元候选中距离触发词最近的等等。

           基于词对的特征有:

    •  触发词-触发词之间的共现关系
    • 触发词-论元的多种依赖关系。

          基于神经网络的主要发展历程如下:

            Chen 等人和 Nguyen 等人率先尝试将神经网络方法分别应用于事件抽取、识别任务中,并取得了很好的效果,验证了神经网络特征的有效性。初始特征表示方面,二者均采用了预训练的词向量作为每个单词的初始表示,而且还融入了单词的语义和语法信息的建模研究。特殊而必要地,二者还都使用了位置信息来建模当前词和候选触发词的距离。受传统特征启发,常用的特征还包括当前词的事件类型向量和实体类型向量。

            Nguyen 等人利用实体类型特征来辅助事件识别任务,而Chen 等人使用事件类型特征用于角色分类任务。在上层特征学习模型方面,研究中均使用了卷积神经网络模型来自动抽取有效特征进行事件抽取或识别任务。更进一步地, Chen 等人改进了传统的CNN 模型,增配了动态多池机制( dynamic multi-pooling) 来提高事件抽取任务性能。研究认为,相比于最大池机制,通过候选触发词和候选实体位置分割成 3 部分的动态多池机制,能够获取更为精细、有效的特征用于角色分类。Nguyen 等则提出了一种基于离散短语( skip-gram) 的卷积神经网络模型来辅助事件识别。相比于传统的连续词袋模型,基于离散短语的卷积神经网络模型能够获取更丰富的非连续短语上特征,而无需再限定于局部连续短语特征。

           除了基于卷积神经网络的特征学习模型外,还有研究者采用递归神经网络( Recurrent Neural Network,RNN) 对文本中的序列信息进行建模,从而为事件抽取任务提供助益支持。Feng 等人采 用一个基于 RNN 的模型来获取文本中的序列信息,并采用一个卷积层来获取文本中的短语块信息,将 2 种信息合并后进行事件触发词识别。由于没有使用额外特征,该混合模型是语言无关模型,在多种语言的事件识别任务中取得了良好效果。

            以往的传统事件抽取工作和上述神经网络事件抽取方法均尝试了将触发词的相关特征,如事件类别信息、位置信息等用于辅助论元角色分类任务,但却尚未探索论元的信息对触发词识别任务的作用。借助于注意力模型( Attention) , Liu 等人独家采用了有监督的论元注意力模型将论元信息输入至事件识别模型中,其效果验证了论元信息能够高效地辅助事件触发词识别任务。不同于联合模型中触发词和论元信息相互辅助的间接方式,该方法提出的论元注意力模型最直接地将论元信息用于辅助识别触发词。

            B.基于联合模型的神经网络事件抽取方法

            在基于传统特征的事件抽取方法中,联合地学习事件识别任务和论元角色分类任务首推 Li 等的工作。该研究通过结构化感知机模型( structured perceptron) 进行2个任务的联合学习,以柱搜索策略搜索得到最优结果。特征表示方面,该工作设计了一系列高效的离散特征,包括:表示触发词和论元本身词性、语法、句法、语义信息的局部特征和能够进行触发词-论元信息交互的全局特征。该工作证明了联合学习方法比流水线方式更趋有效,对于论元角色分类任务提升尤为明显( F1值48.3% - > 52.7%) 。 基于联合模型的神经网络事件抽取方法则采用了神经网络模型进行特征学习和联合学习,避免了复杂的特征工程。

             Nguyen 等人提出一种基于 RNN 的模型进行事件识别和论元角色分类的联合学习。同时,文献中也构建了局部特征和全局特征来着重用于特征表示。局部特征包括文本序列特征和局部窗口特征。由预训练词向量、实体类型向量、 二元依存关系向量组成的句子表示被传递给 RNN 模型,用以获得序列特征。由窗口内的词向量组成了局部窗口特征。特别地,研究提出利用记忆网络模型( Memory Network) 来建模触发词-触发词之间、论元-论元之间和触发词-论元之间的全局特征,进而同时提高2个任务性能。此外,该工作还加入了文献中使用的论元局部特征来辅助角色分类。该联合模型获得了论元角色分类任务的state-of-the-art效果( F1 值 55.4%) 。

            除了联合学习事件识别和论元角色分类任务外,Yang 等人首次尝试了联合学习实体识别任务。为减轻任务复杂度,以往方法均将带有实体标记的 ACE 数据集作为输入.是一个完全的端到端学习模型,即以纯文本为输入,以最终事件为输出。过程中,通过采用联合因子图模型 ( Factor Graph) 来联合学习每个事件内部的结构化信息、篇章内不同事件间的关系和实体信息。除了人工定义的传统特征外,该工作使用的特征还包括由词向量表示的语义特征。虽然文献用了非神经特征和非神经网络模型,本文推介该工作的目的在于阐述其端到端的学习模式。端到端学习模式的输入/输出更加直接、合理,能够通过联合学习抽取更全面的特征和减少错误传播。在此基础上,若采用神经网络模型进行端到端学习还能够减少特征工程,这也将是一个亟待学界深度探索的研究方向。

           C.融合外部资源的神经网络事件抽取方法

            由于ACE05 数据集规模小,且存在较严重的事件类型稀疏问题,因而衍生了一些相关工作以解决上述问题。传统方法有自动构建大规模事件数据集、引入框架语义学知识库 FrameNet、引入语义资源库 WordNet/HowNet、借助机器翻译对中英文事件抽取语料互译以扩展数据集等方式。现阶段,融合外部资源的神经网络事件抽取方法的研究尝试还集中于构建大规模事件数据集上。由于神经网络方法依赖于大量的有标记数据,而ACE05 数据集的规模比较小,使得事件抽取遭遇了一定的瓶颈。Liu 等人尝试借助 FrameNet 数据集缓解 ACE05 数据集中的若干类别事件的稀疏问题。研究中通过将 FrameNet 中的框架( Frame) 匹配到 ACE05 定义的事件类型上,从而构建一个基于FrameNet 的新事件识别数据集。首先,基于ACE05训练得到的事件识别模型识别出 FrameNet 中的可能触发词。然后,通过基于概率软逻辑模型 ( Probabilistic Soft Logic,PSL) 的限制条件选择出置信度较高的触发词组成 Event-FN 数据集。Event- FN 数据集和 ACE05 数据集将联合训练,设计得到最终的事件识别模型。

             Chen 等人通过远距离监督方法构建了大规模事件抽取数据集,从而帮助事件抽取任务的实效提升。研究给出通过 Freebase 构建一个基于Wikipedia 的事件数据集。Freebase 由一系列元数据 ( Compound Value Types,CVT) 组成。每条元数据包括一个类型和一系列 CVT 实例,其中每个实例包括很多论元和角色。因此,每个元数据实例可以被认为是一个事件实例,包含一个事件类型、一组论元及其角色。该工作首先通过统计方法选择Freebase 中每个事件类型的关键论元集合。然后对于 Wikipedia 中每个句子,通过判断其是否包含 Freebase中任一事件实例的所有关键论元来甄别其中是否包含事件。在包含事件的 Wikipedia 句子中,通过统计方法选择出每个Freebase 事件类型的关键触发词。而后借助FrameNet 进行触发词筛选和名词性触发词扩展。最后通过远距离监督方法从 Wikipedia 中获得有标记的事件数据集。构建的大规模事件数据集和 ACE05 数据集将共同训练基于CNN 的事件抽取模型。

            Zeng 等人采取一种新颖的思路从 Wikipedia 和 Freebase 中构建大规模事件数据集。和 ACE 评测中通过触发词判断事件发生的模式不同,该次研究认为可以通过是否包含关键论元来判断事件发生与否。同时,也通过统计方法从 Freebase中抽取每个事件类型的关键论元集合。研究又将包含了 Freebase 中任一事件实例的所有关键论元的Wikipedia 句子作为事件抽取正例。该工作还通过时间和语法规则对远距离监督过程进行约束,以期获得更高质量的有标注数据集。Zeng 等人采用2个序列标注模型抽取关键论元和非关键论元。其中,2个序列标注模型均是双向长短时记忆模型( Bi -LSTM) 和条件随机场模型( CRF) 的融合模型。若句子s的论元序列标注结果包含某一事件类型 t 的所有关键论元,则s的事件类型定义为 t。

    2.2主题事件提取

            一个主题事件由多个动作或状态组成,其描述信息通常分散在一个或多个文档中,而元事件抽取的方法局限在句子层级,显然无法满足对主题事件的抽取。主题事件抽取的关键是如何确定描述同一个主题事件的文档集合,以及如何通过篇章内或跨篇章的理解技术将这些集合中分散的主题事件片段进行归并。在研究中通常采用事件框架或本体来表示主题事件的基本组成以及各成分间的联系。

      (1)基于事件框架的主题事件抽取

            基于事件框架的主题事件抽取方法通过定义结构化、层次化的事件框架来指导主题事件的抽取,利用框架来概括事件信息,表达主题事件的不同侧面。框架是一种常用的知识表示方法,可用于描述相关概念的轮廓框架。M. Minsky 在 “A Framework for Representing Knowledge”一 文中提出了框架的概念,引起了学者的关注。当人们面临一个新的情景时,会从头脑中已存在的大量典型情景中搜索一个情景来认识新事物,这些典型的情景就是知识框架。例如针对一个会议事件,人们在头脑里自然会想到,会议发生的时间、地点、主办机构、参会者、政府的反映以及会议带来的影响等不同的侧面。事件的侧面在语义上可以进行分离,所以这里的框架结构其实是一种分类体系,用于分隔一个事件涉及的不同侧面。用来描述事件不同侧面的词语为事件的 “侧面词”,事件框架是由 “侧面词”构成的一个分类体系。生成完整的事件框架体系是框架方法的关键,如何提高框架构建的全面性以及自动化程度是学者们研究的重点。

      (2)基于本体的主题事件抽取

            本体是知识工程和人工智能研究领域的一个重要课题,其目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇 (术语) 之间的相互关系。本体的这些特点很好地符合了主题事件抽取的要求。基于本体的主题事件抽取,一般根据本体所描述的概念、关系、层次结构、实例等来抽取待抽取文本中所包含的侧面事件及相关实体信息,主要分为3个步骤: 领域本体的构建,这是后续工作的基础; 基于领域本体的文本内容的自动语义标注; 基于语义标注的事件抽取。Cheng 等介绍了一种基于本体的模糊事件抽取代理系统。在本体的构建中提出了一种 4 层本体构建模型,分别为 Domain 层、Category 层、Event 层、Extended Concept层。其中 Domain 代表本体所处的领域名称,并由若干个由领域专家定义的 Category 组成; 每个 Category 包含一组事件的集合; Event 层定义了每个 Category 包含事件类型; Extended Concept 层包含事件概念与对象概念,定义了每类事件对应的角色与概念及相应的子事件。将该模型构建的本体应用于新闻事件的抽取,并应用于自动文摘,实验证明该系统能较好地实现中文气象新闻事件的抽取。文献详细介绍一个基于本体的金融事件跟踪体系,并取得了较好的统计结果,印证了通过本体进行金融事件跟踪的可行性及该方法的优势。

            综合国内外研究可见主题事件抽取的研究并不成熟,篇章内及跨篇章语义理解技术的缺失,致使信息的有效归并与融合成为瓶颈。如何对事件信息的高效融合,将是主题事件抽取下一步的工作重点。

    三.已知问题

        (1)底层技术研究不够成熟,导致错误级联。事件抽取对底层的子任务结果有很大的依赖性,但由于实体识别、深层句法分析等底层技术还不成熟,给事件抽取带来了级联错误。并且,目前缺乏对子任务输出结果的评估及矫正技术。

         (2)事件抽取系统的领域可扩展性和可移植性不够理 想。目前的研究大多是基于 MUC 或 ACE 展开,只针对某个特定领域或几个类型的事件进行研究。系统的应用受到领域的限制,不能随着领域的变化进行简单快速的移植或扩展。

        (3)语料有待进一步完善。机器学习方法的引入提高了事件抽取系统的可移植性,但由于缺乏大规模的成熟语料库和标准语料,目前该类系统的效果不够理想,由此可见语料的完善是一个亟待解决的问题。

        (4)如何设计神经网络模型以实现多任务联合是一大难点。

    四.研究趋势

       (1)进一步提高事件抽取的精度和召回率,改进抽取的方法,加强底层技术攻关,开展对中间结果的可信度评估研究。要使事件抽取技术取得突破,必须改进其所依赖的底层技术。

       (2)跨文档、跨语言的事件抽取研究将更为广泛。目前,事件抽取的水平还局限在对独立文本的处理上,跨文档的研究尚处于探索阶段,随着跨文档语义理解及信息归并技术和多语言文本处理技术的发展,跨文档、跨语言的事件抽取必然成为新的研究热点。

       (3)面向开放领域的事件抽取将广受重视。事件抽取系统的领域可扩展性和可移植性仍将是研究的重点。未来的事件抽取研究将以应用为需求,面向开放领域而不再局限于某个具体领域,为此需要探究各种方式提高系统的移植性。

       (4)融合外部资源的神经网络方法当前集中于构建大规模数据集,已取得良好效果。由于事件抽取数据集的构建难度、现有数据集的局限和不同应用领域数据的差异,如何有效地借助外部资源进行事件抽取的方法也是一个亟待研究的发展方向。例如,鉴于语义角色标注任务( Semantic Role Labelling,SRL) 和事件抽取任务的相似之处,借助大规模语义角色标注相关资源辅助事件抽取。利用迁移学习方法解决数据缺失问题也将成为后续具备学术前瞻性的重点研究方向。

     

    注:本人刚刚接触知识图谱相关的内容,如果有前辈看到了,希望能推荐一些事件抽取方面的文章和技术,感激不尽!








     




    展开全文
  • 点击上方,选择星标或置顶,每天给你送干货!NewBeeNLP公众号原创出品公众号专栏作者@lucy北航博士在读·文本挖掘/事件抽取方向本系列文章主要总结近年来事件抽取方...

    点击上方,选择星标置顶,每天给你送干货!


    NewBeeNLP公众号原创出品     

    公众号专栏作者 @lucy 

    北航博士在读 · 文本挖掘/事件抽取方向

    本系列文章主要总结近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等。主要包括以下几大部分:

    • 定义(Define)

    • 综述(Survey)

    • 模型(Models)

    • 数据集(Datasets)

    • 挑战与展望(Future Research Challenges)

    Github地址: https://github.com/xiaoqian19940510/Event-Extraction

    全文数万字,分几篇整理,后续会同之前的 文本分类综述 一样整理成PDF分享给大家,欢迎持续关注!

    综述内涉及的所有事件抽取必读论文清单,我们已经提前为大家整理打包好啦,订阅号后台回复『事件抽取』即可获取喔~

    任务定义

    Closed-domain

    Closed-domain事件抽取使用预定义的事件模式从文本中发现和提取所需的特定类型的事件。事件模式包含多个事件类型及其相应的事件结构。D.Ahn首先提出将ACE事件抽取任务分成四个子任务:触发词检测、事件/触发词类型识别、事件论元检测和参数角色识别。我们使用ACE术语来介绍如下事件结构:

    • 「事件提及」:描述事件的短语或句子,包括触发词和几个参数。

    • 「事件触发词」:最清楚地表达事件发生的主要词,一般指动词或名词。

    • 「事件论元」:一个实体,时间表达式,作为参与者的值和在事件中具有特定角色的属性。

    • 「论元角色」:论元与它所参与的事件之间的关系

    Open domain

    在没有预定义的事件模式的情况下,开放域事件抽取的目的是从文本中检测事件,在大多数情况下,还可以通过提取的事件关键词聚类相似的事件。事件关键词指的是那些主要描述事件的词/短语,有时关键词还进一步分为触发器和参数。

    • 「故事分割」:从新闻中检测故事的边界。

    • 「第一个故事检测」:检测新闻流中讨论新话题的故事。

    • 「话题检测」:根据讨论的主题将故事分组。

    • 「话题追踪」:检测讨论先前已知话题的故事。

    • 「故事链检测」:决定两个故事是否讨论同一个主题。

    前两个任务主要关注事件检测;其余三个任务用于事件集群。虽然这五项任务之间的关系很明显,但每一项任务都需要一个不同的评价过程,并鼓励采用不同的方法来解决特定问题。

    综述

    元事件抽取研究综述, 2019[1]

    事件抽取是信息抽取领域的一个重要研究方向,在情报收集、知识提取、文档摘要、知识问答等领域有着广泛应用。写了一篇对当前事件抽取领域研究得较多的元事件抽取任务的综述。

    首先,简要介绍了元事件和元事件抽取的基本概念,以及元事件抽取的主要实现方法。然后,重点阐述了元事件抽取的主要任务,详细介绍了元事件检测过程,并对其他相关任务进行了概述。最后,总结了元事件抽取面临的问题,在此基础上展望了元事件抽取的发展趋势。

    An Overview of Event Extraction from Text, 2019[2]

    文本挖掘的一个常见应用是事件抽取,它包括推导出与事件相关的特定知识,这些知识重新映射到文本中。事件抽取可处理各种类型的文本,如(在线)新闻消息、博客和手稿。本文献回顾了用于各种事件抽取目的的文本挖掘技术。它提供了关于如何根据用户、可用内容和使用场景选择特定事件抽取技术的一般指南。

    A Survey of Event Extraction from Text, 2019[3]

    事件抽取的任务定义、数据源和性能评估,还为其解决方案方法提供了分类。在每个解决方案组中,提供了最具代表性的方法的详细分析,特别是它们的起源、基础、优势和弱点。最后,对未来的研究方向进行了展望。

    A Survey of Textual Event Extraction from Social Networks, 2017[4]

    过去的十年中,在社交网络上挖掘文本内容以抽取相关数据和有用的知识已成为无所不在的任务。文本挖掘的一种常见应用是事件抽取,它被认为是一个复杂的任务,分为不同难度的多个子任务。

    在本文中,对现有的主要文本挖掘技术进行了概述,这些技术可用于许多不同的事件抽取目标。首先,介绍基于统计模型将数据转换为知识的主要数据驱动方法。其次,介绍了基于专家知识的知识驱动方法,通常通过基于模式的方法来抽取知识。然后,介绍结合了数据驱动和知识驱动方法的主要现有混合方法。最后,比较社交网络事件抽取研究,概括了每种提出的方法的主要特征。

    A Survey of event extraction methods from text for decision support systems, 2016[5]

    事件抽取是一种可以追溯到20世纪80年代的专门的信息抽取流程,由于大数据的出现以及文本挖掘和自然语言处理等相关领域的发展,事件抽取技术得到了极大的普及。然而,到目前为止,对这一特殊领域的概述仍然是难以捉摸的。

    因此,总结了文本数据的事件抽取技术,划分成数据驱动、知识驱动和混合方法三类,并对这些方法进行了定性评价。此外,还讨论了从文本语料库中抽取事件的常见决策支持应用。最后,对事件抽取系统的评价进行了阐述,并指出了当前的研究问题。

    数据集

    英文数据集

    ACE2005 English Corpus[6]

    ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语和汉语训练数据集。语料库由语言数据联盟(LDC)为实体、关系和事件注释的各种类型的数据组成,该联盟得到了ACE计划的支持和LDC的额外帮助。

    Rich ERE[7]

    Rich ERE扩展了实体、关系和事件本体,并扩展了什么是taggable的概念。Rich ERE还引入了事件跳跃的概念,以解决普遍存在的事件共引用的挑战,特别是关于在文档内和文档之间的事件提及和事件参数粒度变化,从而为创建(分层的或嵌套的)跨文档的事件表示铺平了道路。

    TAC2015[8]

    TAC KBP事件跟踪的目标是提取关于事件的信息,以便这些信息适合作为知识库的输入。轨迹包括用于检测和链接事件的事件块任务,以及用于提取属于同一事件的事件参数和链接参数的事件参数(EA)任务。2015年TAC KBP赛事轨迹分为5个子任务

    KBP2017[9]

    TAC知识库填充(KBP)的目标是开发和评估从非结构化文本中填充知识库的技术。KBP包括为KBP开发特定组件和功能的组件跟踪,以及称为“冷启动”的端到端KB构建任务,该任务通过在技术成熟时集成选定的组件从头开始构建KB。与在冷启动KB任务中执行的功能相比,组件跟踪中所需的功能可以“更多”,也可以“更少”。组件轨道比冷启动“更多”,因为每个轨道可能探索未立即集成到冷启动任务中的试点任务; 他们是“少”,将组件集成到一个KB需要额外协调与和解各个组件之间的不匹配,这样KB符合知识库模式(例如,知识库不能断言一个实体是一个事件的“地方”如果它还断言,实体是一个“人”)。

    其他的还有,Genia2011 dataset, Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等

    中文数据集

    ACE2005 Chinese Corpus[10]

    ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语和汉语训练数据集。语料库由语言数据联盟(LDC)为实体、关系和事件注释的各种类型的数据组成,该联盟得到了ACE计划的支持和LDC的额外帮助。

    未来展望与挑战

    数据层面

    • 领域数据难构造,标注成本大

    • 生成标注数据 or 无标注式事件抽取论元

    模型层面

    • pipeline方式存在错误信息的传递,如何减小错误信息传递

    • 论元之间的关联关系的有效利用

    性能评估层面

    • 无标注数据的评价指标设计


    2020年即将结束!快到元旦节了,特别赠送【NLPer学术与技术圈】(知识星球)优惠券!年底最大的半折优惠活动,仅剩30张,先抢先得!

    本星球主要用于每天发布论文解读、NLP技巧、学术研究、NLP面试经验以及NLP入门等。

    展开全文
  • 点击上方,选择星标或置顶,每天给你送干货!NewBeeNLP公众号原创出品公众号专栏作者@lucy北航博士在读·文本挖掘/事件抽取方向本系列文章主要分享近年来事件抽...
  • 点击上方,选择星标或置顶,每天给你送干货!NewBeeNLP公众号原创出品公众号专栏作者@lucy北航博士在读·文本挖掘/事件抽取方向本系列文章主要分享近年来事...
  • 事件抽取

    2020-12-28 10:06:15
    事件抽取综述 一、研究背景 信息时代背景下,随着互联网的发展,商业部门、政府机构以及个人正面对着越来越多与工作、生活密切相关的文本信息,而如何从这些大量文本中挖掘潜在的有使用价值的信息,仍是一个难题。...
  • 综述 | 事件抽取及推理 (下)

    千次阅读 2019-01-14 21:28:34
    本文转载在公众号:知识工场 。 上篇事件抽取及推理的推文已经介绍了事件抽取的基本方法,本篇主要介绍事件推理的相关工作。就目前来看,事件方向相关的研究还是以事件抽取为主流任...
  • 事件是一种重要的知识,近年来,越来越多的工作关注于从开放域或领域文本中抽取结构化事件知识。...以下给出由复旦大学知识工厂给出的上下系列综述论文“事件抽取及推理”。欢迎相关研究人员下载学习。
  • 综述:信息抽取研究领域的事件抽取技术 目录Survey on Event Extraction Technology in Information Extraction Research Area综述:信息抽取研究领域的事件抽取技术摘要关键词I.引言II.事件抽取问题的描述A.事件...
  • 综述:开放域事件抽取 目录A Survey of Open Domain Event Extraction综述:开放域事件抽取摘要1.引言2.事件提取的类型2.1按方法提取事件的类型2.2按目标分类的事件提取类型3.数据和本体3.1事件提取的数据资源3.1.1 ...
  • 综述 | 事件抽取及推理 (上)

    千次阅读 2019-01-09 21:09:45
    接下来,结合几篇具体比较经典的事件抽取工作介绍一下一些基本的事件抽取的想法。 Dynamic Multi-Pooling Convolutional Neural Networks Paper 原文: [Y Chen, 2015] Event Extraction via DynamicMulti-...
  • 1.关系抽取之远程监督算法综述 该文章介绍了PCNN、基于远程监督的关系抽取、多实例学习等。关系抽取之远程监督算法
  • 信息抽取主要包括3项子任务:实体抽取、关系抽取和事件抽取,而关系抽取是信息抽取领域的核心任务和重要环节.实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这为智能检索、语义分析...
  • 目录A Survey of Textual Event Extraction from Social Networks综述:从社交媒体中抽取文本事件摘要关键字1 简介2 从文本内容中抽取事件ACE计划中的事件2.1 数据驱动的事件抽取方法2.2 知识驱...
  • 一、 关系抽取综述 ... 信息抽取是自然语言处理中非常重要的一块内容,包括实体抽取(命名实体识别,Named Entity Recognition)、关系抽取(Relation Extraction)和事件抽取(Event Extraction)。  ...
  • 学习笔记(1) 参考论文: 基于深度学习的事件因果关系抽取综述_王朱君 性能比较:
  • 知识图谱综述

    2020-03-10 09:06:55
    从知识覆盖面分为两种:通用知识图谱和行业知识图谱(垂直知识图谱:面向特定领域)。行业知识图谱基于行业...知识抽取分为实体抽取、关系抽取、和事件抽取。抽取方法分为基于规则和基于学习两类 知识图谱相关技术...
  • NewBeeNLP公众号原创出品 公众号专栏作者@lucy北航博士在读 · 文本挖掘/事件抽取方向本系列文章总结自然语言处理(NLP)中最基础最常用的「文本分类」任务,主要包括以...
  • 包括关系抽取 命名实体识别 实体消歧 事件抽取 问答系统 知识表示 和 综述及报告。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
  • 知识图谱相关文献 综述报告 事件抽取、关系抽取、命名实体识别、实体消歧、知识表示、问答系统 链接:https://pan.baidu.com/s/12mOP67Hsq1VoOh5_xO7ayQ 提取码:m2j2
  • 事理图谱资料小结1.0

    2019-12-13 18:11:44
    研究综述|事件抽取及推理(下) GGNN: GATED GRAPH SEQUENCE NEURAL NETWORKS Event2Mind: Commonsense Inference on Events, Intents, and Reactions Integrating Order Information and Event Relation for...
  • 2005年-2019年ACL、COLING、EMNLP等顶级会议上知识图谱领域的80篇经典论文:综述类(3篇)、知识表示(10篇)、命名实体识别(19篇)、实体消歧(12篇)、关系抽取(10篇)、事件抽取(8篇)、问答系统(17篇)。...
  • 计算机听觉综述声音的分类计算机听觉CA(computer Audition)一个完整CA算法系统音频事件检测 声音的分类 计算机听觉CA(computer Audition) 一个完整CA算法系统 采集声音数据 预处理: 转换成单声道、重采样、解...
  • funNLP_fighting41love.tar.gz

    2019-10-20 15:05:11
    BertNER、新闻事件线索抽取、2019年百度的三元组抽取比赛:“科学空间队”源码、基于依存句法的开放域文本知识三元组抽取和知识库构建、中文的GPT2训练代码、ML-NLP - 机器学习(Machine Learning)NLP面试中常考到的...
  • 综述线性判别分析 (LDA)是对费舍尔的线性鉴别方法(FLD)的归纳,属于监督学习的方法。LDA使用统计学,模式识别和机器学习方法,试图找到两类物体或事件的特征的一个线性组合,以能够特征化或区分它们。所得的组合可...
  • BertNER、新闻事件线索抽取、2019年百度的三元组抽取比赛:“科学空间队”源码、基于依存句法的开放域文本知识三元组抽取和知识库构建、中文的GPT2训练代码、ML-NLP - 机器学习(Machine Learning)NLP面试中常考到的...
  • 中文事件抽取技术研究 赵妍妍,秦兵,车万翔,刘挺·········································································115 ...

空空如也

空空如也

1 2
收藏数 31
精华内容 12
关键字:

事件抽取综述