精华内容
下载资源
问答
  • 事件抽取

    千次阅读 2020-05-11 23:41:45
    文章目录一、事件抽取的定义二、ACE2005数据集事件类型 一、事件抽取的定义 命名实体识别、关系抽取、事件抽取是NLP中信息抽取的主要任务。 事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动...

    一、事件抽取的定义

    命名实体识别、关系抽取、事件抽取是NLP中信息抽取的主要任务。

    事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来在自动文摘、自动问答、信息检索等领域有着广泛的应用。近些年来 ,事件抽取一直吸引着许多研究机构和研究者的注意力。MUC (Message Understanding Conference) 会议、ACE ( Automatic Content Extraction) 会议是典型的含有事件抽取任务的评测会议。在调研中发现,ACE 2005作为论文数据集占据了主流,ACE 2005的事件抽取数据集包括英文、中文和阿拉伯语。因此我们围绕ACE来介绍事件抽取的定义、事件类型等,我们以ACE 2005为例对事件进行介绍。

    ACE定义中的事件由事件触发词(Event Trigger)和描述事件结构的元素(Argument)构成。事件触发词事件触发词(trigger)是能够触动事件发生的词,是决定事件类型最重要的特征词,决定了事件类别/子类别。元素用于填充事件模版,两者完整的描述了事件本身。

    在这里插入图片描述
    上图包含了两个事件,一个是Die,一个是Attack,分别是:
    其中第一个事件是死亡事件(Die), 触发词为died,其argument包括:

    • Victim cameraman
    • Place Baghdad
    • Instrument American tank
      第二个事件是攻击事件(Attack), 触发词为fired, 其argument包括:
    • Target Palestine Hotel
    • Place Baghdad
    • Target cameraman
    • Attacker American tank

    事件抽取任务可以由下面两个步骤主要组成:

    事件检测(Event Detection):主要是根据上下文识别出触发词以及代表的事件类型和子类型,ACE2005定义了8种事件类别以及33种子类别,每种事件类别/子类别 对应唯一的事件模版。

    事件元素识别(Argument Detection):事件元素是指事件的参与者。根据所属的事件模版,抽取相应的元素,并为其标上正确的元素标签。

    二、ACE2005数据集事件类型

    ACE数据集一共定义了8种大类,33个子类,每个子类都有一个事件的模板。
    在这里插入图片描述
    比如:Life/Marry 是结婚事件,Marry事件是官方活动,两人在法律定义下结婚。其模版包括一个participate slot和两个attribute slot,如下图3所示
    在这里插入图片描述
    例如Conflict/Attack是攻击事件,ATTACK事件被定义为导致伤害或损害的暴力行为。ATTACK事件包括INJURE或DIE亚型未涵盖的任何此类事件,包括没有指定代理的事件。ATTACK事件类型包括较少具体的暴力相关名词,如“冲突”,“冲突”和“战斗”。如果只是为了保持一致性,那么具有事件和武器品质的’枪火’应该总是被标记为ATTACK事件。“政变”是一种攻击(也是一场“战争”)。事件模版包括3个participate slot和2个attribute slot,如下表所示。
    在这里插入图片描述

    三、技术思路

    现在已经明确了事件抽取的两个步骤:一个是trigger token的识别,另一个是事件要素的提取。
    所以主要的思路与关系抽取类似,可以是pipeline的形式,也可以是Joint的形式。

    百度AI2020事件抽取提供的baseline是使用pipeline的形式,第一步识别触发词,第二步再识别事件要素。使用预训练模型,第一步的tragger token的识别看作是序列标注问题,触发词与标注的类别对应。比如“求婚”对应类别“结婚”。
    在这里插入图片描述
    第二步也是序列标注问题。
    在这里插入图片描述
    用了两个序列标注把问题解决了,好像都没有用到关系抽取相关的。

    参考:
    https://zhuanlan.zhihu.com/p/42135074
    https://blog.csdn.net/muumian123/article/details/81746583

    展开全文
  • https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型 NLP事件抽取综述下: ...

    https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型

    NLP事件抽取综述下

    展开全文
  • 事件抽取综述

    万次阅读 多人点赞 2018-08-16 18:21:18
    1.2 事件抽取... 1 2 主流技术分析... 2 2.1 元事件抽取... 2 2.1.1 基于模式匹配的元事件抽取... 3 2.1.2 基于机器学习的元事件抽取... 3 2.1.3 基于神经网络的抽取方法... 4 2.2 主题事件抽取... 8 2.2.1...

    1  基本概念... 1

    1.1  事件... 1

    1.2 事件抽取... 1

    2  主流技术分析... 2

    2.1 元事件抽取... 2

    2.1.1 基于模式匹配的元事件抽取... 3

    2.1.2 基于机器学习的元事件抽取... 3

    2.1.3 基于神经网络的抽取方法... 4

    2.2 主题事件抽取... 8

    2.2.1  基于事件框架的主题事件抽取... 8

    2.2.2 基于本体的主题事件抽取... 9

    3  中文事件抽取算法分析... 9

    3.1 事件抽取算法效果分析... 10

    3.2 算法时间复杂度分析... 12

    3.3 目前前沿联合模型方法... 12

    4 已知问题... 14

    5 研究趋势... 15

    参考文献... 15

     

    1  基本概念

    1.1  事件

    1)  定义

    作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。在TDT ( Topic Detection Tracking) 中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。

    2) 组成元素

    组成事件的各元素包括: 触发词、事件类型、论元及论元角色。

    • 事件触发词:表示事件发生的核心词,多为动词或名词;
    • 事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33 种事件类型。事件识别是基于词的34 类(33类事件类型+None) 多元分类任务,角色分类是基于词对的36 类(35类角色类型+None) 多元分类任务;
    • 事件论元:事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位 ;
    • 论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者 、受害者等。

    如下例句:在Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。

    图1 Examples of ACE events

    1.2 事件抽取

    1)  定义

    事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

    2)  分类

    事件抽取任务总体可以分为两个大类:元事件抽取和主题事件抽取。元事件表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。当前主要是面对元事件抽取,关于主题事件抽取的研究较少。

    3)  效果评测

    在事件抽取应用中通常采用两种不同的效果评价方法:基于召回率 (记为 R) 准确率 (记为 P) 的微平均 (记为F) 值法,或基于丢失率 (记为 L) 误报率 (记为 M) 的错误识别代价 (记为 C) 法。其中,

    F=2\times PR/\left ( P+R \right )

    C=Cmiss\times L\times Ltar+Cfa\times M\times \left ( 1-Ltar \right )

    Cmiss为一 次 丢 失 的 代 价, Cfa为一次误报的代价,Ltar为系统作出肯定判断的先验概率, 通常根据具体应用设定为常值。上述公式表明,两种效果测评方法之间不存在简单的逆反关系,因此在分析不同评价方法下的两种不同算法的效果时应进行适当的换算。

    微平均值法一般多用于单一事件抽取任务中,如: 突发事件、门户网站、金融资讯的事件抽取。对于话题追踪任务而言,相对于正确率,人们对系统作出的错误判断往往更为敏感,这些错误包括:本应为是的判断为否 (丢失) ,本应为否的判断为是 (误报) ,因此常采用错误识别代价作为效果评价方法。另外,事件抽取的各种算法在实际应用中,除考虑其识别结果的正确率外,还应该考虑算法的复杂程度及其可实现性。一些抽取效果好的算法往往是以牺牲时间为代价的。一些算法可能由于硬件要求太高,或训练时间太长而不具备可行性。

    2  主流技术分析

    2.1 元事件抽取

    元事件抽取的主要研究方法有模式匹配和机器学习两大类。模式匹配在特定领域内能取得较高的性能,但移植性较差。在机器学习的抽取方法中,机器学习与领域无关,无需太多领域专家的指导,系统移植性较好。随着相关语料库的建设和互联网上各种文本资源的不断丰富,语料的获取不再是束缚机器学习的瓶颈。目前,机器学习已成为元事件抽取的主流研究方法。

    2.1.1 基于模式匹配的元事件抽取

    模式匹配方法是在一些模式的指导下进行事件的识别和抽取。模式主要用于指明构成目标信息的上下文约束环,集中体现了领域知识和语言知识的融合。抽取时只要通过各种模式匹配算法找出符合模式约束条件的信息即可。由此可见,其核心是抽取模式的构建。典型的基于模式匹配的事件抽取系统有 ExDisco,GenPAM等。

    起初,模式主要是通过手工方法来建立的。中国科学院的姜吉发在其博士论文中对模式的自动获取做了深入的研究,提出了一种基于领域无关概念知识库的事件抽取模式学习方法GenPAM,在模式的学习过程中,用户只需定义 IE 任务,无需提供种子模式及对语料分类和标注,系统就能自动从未经分类和标准的语料中学习出 IE 模式,大大降低了用户的劳动量和技能要求。

    总的来说,基于模式匹配的方法在特定领域内可以取得比较好的效果,但是系统的可移植性差,从一个领域移植到另一个领域时,需要重新构建模式。而模式的构建费时费力,需要领域专家的指导。虽然机器学习方法的引入可以从一定程度上加速模式的获取,但是不同模式之间造成的冲突也是一个棘手的问题。并且,现有研究的语义程度大多停留在句法层级上,需要进一步提高其语义程度。

    2.1.2 基于机器学习的元事件抽取

    采用机器学习的方法识别事件,就是借鉴文本分类的思想,将事件类别及事件元素的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。但事件分类与文本分类又有所区别,主要表现在以下方面: 分类的文本短,大部分都是一个完整的句子; 因为是事件表述语句,所以语句中包含的信息量大。

    对元事件的识别主要包括事件类别的识别与分类以及  事件元素识别两大核心任务。Chieu 等首次在事件抽取中引入最大熵模型用于事件元素的识别,实现了对讲座通告和人事管理事件的抽取。H. Llorens 等通过 CRF 模型进行语义角色标注,并应用于TimeML的事件抽取,提升了系统的性能。为了提高识别效果,有时将多种机器学习算法混合使用或将机器学习与模型匹配相结合。D. Ahn 结合 MegaM 和 TiMBL 两种机器学习方法分别实现了事件类别识别和事件元素识别两大任务,在 ACE 语料的实验结果表明该方法优于采用单一算法。

    上述研究大多是基于触发词来进行事件的探测,例如  Ahn 的研究将每一个词作为训练实例,然后采用 MegaM 二元分类器判断当前词是否为触发词。这种方式简单直观,但触发词只占所有词的一小部分,这样就在训练中引入大量反例,导致正反例不平衡,并且对每个词判断会导致计算量的额外增加。为了解决上述问题,赵妍妍采用了一种基于触发词扩展和二元分类相结合的方法来识别事件类别。在训练中将触发词收录在词典中并通过同义词林进行扩展,较好地解决了训练实例正反例不平衡以及数据稀疏问题,在 ACE 的中文语料上取得较好的效果。而许红磊与 Naughton 则采用基于事件实例的方式进行事件的探测,这种方法将句子而非词语作为识别实例,克服了传统的基于触发词方法不可避免的正反例失衡和数据稀疏问题。许红磊采用二元分类器过滤非事件句,得到候选事件句,然后采用多元分类器对候选事件句进行分类。Naughton 则将事件的探测转化为句子聚类问题,通过聚类得到事件句。

    综上可知,基于机器学习的方法虽然不依赖于语料的内容与格式,但需要大规模的标准语料,否则会出现较为严重的数据稀疏问题。但现阶段的语料规模难以满足应用需求,且人工标注语料耗时耗力,为了缓解获取已标注语料的困难,有关学者探究了半监督及无监督的学习研究。另外,特征选取也是决定机器学习结果好坏的重要因素。因此,怎样避免数据稀疏现象以及如何选择合适的特征,成为基于机器学习方法研究的重要课题。当前绝大多数研究都是基于短语或句子层级的信息,利用篇章级或跨篇章的信息来提高抽取性能将成为一个新的热点。

    2.1.3 基于神经网络的抽取方法

    作为一种有监督多元分类任务,事件抽取方法包括2个步骤: 特征选择和分类模型。本文根据使用特征的范围不同、模型学习方式不同和外部资源的使用与否对不同的事件抽取方法进行分类。各类方法的研究内容可详见如下:

    1. 根据所使用特征的范围,事件抽取方法可以分为句子级的事件抽取方法和篇章级的事件抽取方法。总地来说,句子级的事件抽取方法只使用句子内部获取的特征。而篇章级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下,句子级特征是所有事件抽取方法通用的特征,而篇章级特征则属于面向实际任务挖掘的特效特征。
    2. 根据学习方式不同,可以分为基于流水线模型的事件抽取方法和基于联合模型的事件抽取方法。事件抽取任务分为事件识别和论元角色分类任务。其中,后者输入依赖于前者输出。论元角色分类任务的输入是识别出的触发词和所有候选实体。大部分事件抽取方法都是流水线模型学习方式,先进行事件识别模型的学习,再转入论元角色分类模型的学习。而经仿真验证基于联合模型的学习方式的效果要优于流水线模型学习方式,故而也随即产生了基于联合模型的事件抽取工作。
    3. ACE05 数据是现有的为数不多的有标记事件数据之一,是在新闻、博客、访谈等数据上进行人工标注得到的。ACE数据的标注质量不高以及规模较小的问题,也在很大程度上影响了事件抽取任务的发展。为此很多工作尝试借助外部资源辅助事件抽取任务的功能达成。根据是否使用外部资源,可以分为基于同源数据( 即 ACE 数据) 的事件抽取  方法和融合外部资源的事件抽取方法。

    2.1.3.1 句子/篇章级的事件抽取

    传统方法中,句子级别的特征可以分为基于词的特征和基于词对的特征。其中,基于词的传统离散特征包括: 1)词法特征:例如当前词及周边词的一元/ 二元语法、词性标签、词干、同义词等。2)句法特征:例如当前词的依存词和核心词、涉及的依存关系、是否是未被引用的代词、句法 分析树中路径等。3)实体信息:例如实体类型、距离最近的实体类型、是否是相同类型论元候选中距离触发词最近的等等。

    基于词对的特征有: 触发词-触发词之间的共现关系和触发词-论元的多种依赖关系等。而篇章级事件抽取方法则额外考虑了跨句子或跨文档的特征辅助任务实现。例如,相同/类似事件对应的论元一致性,同一文档内的相同单词触发的事件类型一致性特征,相同类型的实体参与的事件一致性特征。

    传统方法使用不同的分类模型进行分类,例如常用的最大熵模型和支持向量机模型。

    不同于传统离散特征,神经网络方法以连续型向量为特征,并通过不同的神经网络模型学习更抽象的特征。以事件识别任务为例,神经网络事件抽取方法的流程为: 首先用初始化的特征 向量表示候选触发词,然后通过神经网络模型自动更新学习特征以及组合更高级别特征,最后通过Softmax 模型来输出分类。Chen 等人和 Nguyen 等人率先尝试将神经网络方法分别应用于事件抽取、识别任务中,并取得了很好的效果,验证了神经网络特征的有效性。初始特征表示方面,二者均采用了预训练的词向量作为每个单词的初始表示,而且还融入了单词的语义和语法信息的建模研究。特殊而必要地,二者还都使用了位置信息来建模当前词和候选触发词的距离。受传统特征启发,常用的特征还包括当前词的事件类型向量和实体类型向量。

    Nguyen 等人利用实体类型特征来辅助事件识别任务,而Chen 等人使用事件类型特征用于角色分类任务。在上层特征学习模型方面,研究中均使用了卷 积神经网络模型来自动抽取有效特征进行事件抽取或识别任务。更进一步地, Chen 等人改进了传统的CNN 模型,增配了动态多池机制( dynamic multi-pooling) 来提高事件抽取任务性能。研究认为,相比于最大池机制,通过候选触发词和候选实体位置分割成 3 部分的动态多池机制,能够获取更为精细、有效的特征用于角色分类。Nguyen 等则提出了一种基于离散短语( skip-gram) 的卷积神经网络模型来辅助事件识别。相比于传统的连续词袋模型,基于离散短语的卷积神经网络模型能够获取更丰富的非连续短语上特征,而无需再限定于局部连续短语特征。除了基于卷积神经网络的特征学习模型外,还有研究者采用递归神经网络( Recurrent Neural Network,RNN) 对文本中的序列信息进行建模,从而为事件抽取任务提供助益支持。Feng 等人采 用一个基于 RNN 的模型来获取文本中的序列信息,并采用一个卷积层来获取文本中的短语块信息,将 2 种信息合并后进行事件触发词识别。由于没有使用额外特征,该混合模型是语言无关模型,在多种语言的事件识别任务中取得了良好效果。

    以往的传统事件抽取工作和上述神经网络事件抽取方法均尝试了将触发词的相关特征,如事件类别信息、位置信息等用于辅助论元角色分类任务,但却尚未探索论元的信息对触发词识别任务的作用。借助于注意力模型( Attention) , Liu 等人独家采用了有监督的论元注意力模型将论元信息输入至事件识别模型中,其效果验证了论元信息能够高效地辅助事件触发词识别任务。不同于联合模型中触发词和论元信息相互辅助的间接方式,该方法提出的论元注意力模型最直接地将论元信息用于辅助识别触发词。

    2.1.3.2 基于联合模型的神经网络事件抽取方法

    在基于传统特征的事件抽取方法中,联合地学习事件识别任务和论元角色分类任务首推 Li 等的工作。该研究通过结构化感知机模型( structured perceptron) 进行2个任务的联合学习,以柱搜索策略搜索得到最优结果。特征表示方面,该工作设计了一系列高效的离散特征,包括:表示触发词和论元本身词性、语法、句法、语义信息的局部特征和能够进行触发词-论元信息交互的全局特征。该工作证明了联合学习方法比流水线方式更趋有效,对于论元角色分类任务提升尤为明显( F1值48.3% 到52.7%) 。基于联合模型的神经网络事件抽取方法则采用了神经网络模型进行特征学习和联合学习,避免了复杂的特征工程。Nguyen 等人提出一种基于 RNN 的模型进行事件识别和论元角色分类的联合学习。同时,文献中也构建了局部特征和全局特征来着重用于特征表示。局部特征包括文本序列特征和局部窗口特征。由预训练词向量、实体类型向量、二元依存关系向量组成的句子表示被传递给 RNN 模型,用以获得序列特征。由窗口内的词向量组成了局部窗口特征。特别地,研究提出利用记忆网络模型( Memory Network) 来建模触发词-触发词之间、论元-论元之间和触发词-论元之间的全局特征,进而同时提高2个任务性能。此外,该工作还加入了文献中使用的论元局部特征来辅助角色分类。

    该联合模型获得了论元角色分类任务的state-of-the-art效果( F1 值 55.4%) 。 除了联合学习事件识别和论元角色分类任务外,Yang 等人首次尝试了联合学习实体识别任务。为减轻任务复杂度,以往方法均将带有实体标记的 ACE 数据集作为输入.是一个完全的端到端学习模型,即以纯文本为输入,以最终事件为输出。过程中,通过采用联合因子图模型 (Factor Graph) 来联合学习每个事件内部的结构化信息、篇章内不同事件间的关系和实体信息。除了人工定义的传统特征外,该工作使用的特征还包括由词向量表示的语义特征。虽然文献用了非神经特征和非神经网络模型,本文推介该工作的目的在于阐述其端到端的学习模式。端到端学习模式的输入/输出更加直接、合理,能够通过联合学习抽取更全面的特征和减少错误传播。在此基础上,若采用神经网络模型进行端到端学习还能够减少特征工程,这也将是一个亟待学界深度探索的研究方向。

    2.1.3.3 融合外部资源的神经网络事件抽取方法

    由于ACE05 数据集规模小,且存在较严重的事件类型稀疏问题,因而衍生了一些相关工作以解决 上述问题。传统方法有自动构建大规模事件数据集、引入框架语义学知识库 FrameNet、引入语义资源库 WordNet/HowNet、借助机器翻译对中英文事件抽取语料互译以扩展数据集等方式。现阶段,融合外部资源的神经网络事件抽取方法的研究尝试还集中于构建大规模事件数据集上。 由于神经网络方法依赖于大量的有标记数据,而ACE05 数据集的规模比较小,使得事件抽取遭遇了一定的瓶颈。Liu 等人尝试借助 FrameNet 数据集缓解 ACE05 数据集中的若干类别事件的稀疏问题。研究中通过将 FrameNet 中的框架( Frame) 匹配到 ACE05 定义的事件类型上,从而构建一个基于FrameNet 的新事件识别数据集。首先,基于ACE05训练得到的事件识别模型识别出 FrameNet 中的可能触发词。然后,通过基于概率软逻辑模型 ( Probabilistic Soft Logic,PSL) 的限制条件选择出置信度较高的触发词组成 Event-FN 数据集。Event- FN 数据集和 ACE05 数据集将联合训练,设计得到最终的事件识别模型。Chen 等人通过远距离监督方法构建了大规模事件抽取数据集,从而帮助事件抽取任务的实效提升。研究给出通过 Freebase 构建一个基于Wikipedia 的事件数据集。Freebase 由一系列元数据 ( Compound Value Types,CVT) 组成。每条元数据包括一个类型和一系列 CVT 实例,其中每个实例包括很多论元和角色。因此,每个元数据实例可以被认为是一个事件实例,包含一个事件类型、一组论元及其角色。该工作首先通过统计方法选择Freebase 中每个事件类型的关键论元集合。然后对于 Wikipedia 中每个句子,通过判断其是否包含 Freebase中任一事件实例的所有关键论元来甄别其中是否包含事件。在包含事件的 Wikipedia 句子中,通过统计方法选择出每个Freebase 事件类型的关键触发词。而后借助FrameNet 进行触发词筛选和名词性触发词扩展。最后通过远距离监督方法从 Wikipedia 中获得有标记的事件数据集。构建的大规模事件数据集和 ACE05 数据集将共同训练基于CNN 的事件抽取模型。

    Zeng 等人采取一种新颖的思路从 Wikipedia 和 Freebase 中构建大规模事件数据集。和 ACE 评测中通过触发词判断事件发生的模式不同,该次研究认为可以通过是否包含关键论元来判断事件发生与否。同时,也通过统计方法从 Freebase中抽取每个事件类型的关键论元集合。研究又将包含了 Freebase 中任一事件实例的所有关键论元的Wikipedia 句子作为事件抽取正例。该工作还通过时间和语法规则对远距离监督过程进行约束,以期获得更高质量的有标注数据集。Zeng 等人采用2个序列标注模型抽取关键论元和非关键论元。其中,2个序列标注模型均是双向长短时记忆模型( Bi -LSTM) 和条件随机场模型( CRF) 的融合模型。若句子s的论元序列标注结果包含某一事件类型 t 的所有关键论元,则s的事件类型定义为 t。

    2.2 主题事件抽取

    一个主题事件由多个动作或状态组成,其描述信息通常分散在一个或多个文档中,而元事件抽取的方法局限在句子层级,显然无法满足对主题事件的抽取。主题事件抽取的关键是如何确定描述同一个主题事件的文档集合,以及如何通过篇章内或跨篇章的理解技术将这些集合中分散的主题事件片段进行归并。在研究中通常采用事件框架或本体来表示主题事件的基本组成以及各成分间的联系。

    2.2.1 基于事件框架的主题事件抽取

    基于事件框架的主题事件抽取方法通过定义结构化、层次化的事件框架来指导主题事件的抽取,利用框架来概括事件信息,表达主题事件的不同侧面。框架是一种常用的知识表示方法,可用于描述相关概念的轮廓框架。M. Minsky 在 “A Framework for Representing Knowledge”一文中提出了框架的概念,引起了学者的关注。当人们面临一个新的情景时,会从头脑中已存在的大量典型情景中搜索一个情景来认识新事物,这些典型的情景就是知识框架。例如针对一个会议事件,人们在头脑里自然会想到,会议发生的时间、地点、主办机构、参会者、政府的反映以及会议带来的影响等不同的侧面。事件的侧面在语义上可以进行分离,所以这里的框架结构其实是一种分类体系,用于分隔一个事件涉及的不同侧面。用来描述事件不同侧面的词语为事件的 “侧面词”,事件框架是由 “侧面词”构成的一个分类体系。生成完整的事件框架体系是框架方法的关键,如何提高框架构建的全面性以及自动化程度是学者们研究的重点。

    2.2.2 基于本体的主题事件抽取

    本体是知识工程和人工智能研究领域的一个重要课题,其目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇 (术语) 之间的相互关系。本体的这些特点很好地符合了主题事件抽取的要求。基于本体的主题事件抽取,一般根据本体所描述的概念、关系、层次结构、实例等来抽取待抽取文本中所包含的侧面事件及相关实体信息,主要分为3个步骤: 领域本体的构建,这是后续工作的基础; 基于领域本体的文本内容的自动语义标注; 基于语义标注的事件抽取。Cheng 等介绍了一种基于本体的模糊事件抽取代理系统。在本体的构建中提出了一种 4 层本体构建模型,分别为 Domain 层、Category 层、Event 层、Extended Concept层。其中 Domain 代表本体所处的领域名称,并由若干个由领域专家定义的 Category 组成; 每个 Category 包含一组事件的集合; Event 层定义了每个 Category 包含事件类型; Extended Concept 层包含事件概念与对象概念,定义了每类事件对应的角色与概念及相应的子事件。将该模型构建的本体应用于新闻事件的抽取,并应用于自动文摘,实验证明该系统能较好地实现中文气象新闻事件的抽取。文献详细介绍一个基于本体的金融事件跟踪体系,并取得了较好的统计结果,印证了通过本体进行金融事件跟踪的可行性及该方法的优势。

    综合国内外研究可见主题事件抽取的研究并不成熟,篇章内及跨篇章语义理解技术的缺失,致使信息的有效归并与融合成为瓶颈。如何对事件信息的高效融合,将是主题事件抽取下一步的工作重点。

    3 中文事件抽取算法分析

    2000 年以来, 对中文进行事件抽取研究主要以基于模式匹配的事件抽取算法和触发词法为主。算法使用频率统计如下:

    图2  文献中使用的事件抽取算法占比分布图

    实际上, 为了提高事件抽取的效果, 实际应用中存在将两个或两个以上的算法进行组合应用, 即首先使用某算法 ( 如先使用模式匹配法过滤非事件句后再用 SVM 法识别事件句, 使用 KNN 算法提取触发词再用触发词法抽取事件) 进行处理, 再使用其他算法进一步处理以提高事件抽取的准确度。

    3.1 事件抽取算法效果分析

    表1显示了在所参与调研的文献中,各抽取算法表现较好的领域。模式匹配算法在犯罪信息领域抽取事件的准确率 P 值可达 0. 85;触发词算法在法律领域的综合效果较好,F 值 可 达 0. 8423,准确率P值可达0.7503;CRF、ME、SVM 3个算法中,条件随机场算法(CRF)在个人简历领域取得的效果较好,F 值可达 0.973,其次是ME算法在突发事件领域 F 值和 P 值分别可达 0.8426、0.8568,而 SVM 算法在金融领域抽取事件时,过滤掉一些明显非事件句后,进一步识别事件句P 值 虽 然 达 0.8783,但召回率较低,F值仅为0.6915。除突发事件领域中应用最大熵方法 (ME) 抽取事件为封闭测试外,其余均为开放测试,因此ME算法的开放测试效果可能有所降低。

    表1  不同抽取算法表现最好领域对照表

    表2  不同领域表现最好的算法对照表

    表2 显示了不同的领域中所采用的各种事件抽取算法中,效果较好的事件抽取算法。从中可以看出,在金融资讯事件抽取领域,将模式匹配算法与 SVM 算法组合使用取得的综合效果 ( F = 0.6915) 不及在门户网站、军事领域信息中抽取事件的效果好 ( F = 0.8079、0.8144) ,但准确率 ( P = 0.8783) 却优于上述两个领域的事件抽取 ( P = 0.7859、0.7776) ,即抽取金融资讯事件的查全率较低, 这可能与金融资讯中往往同时报道多个关联事件,部分事件元素缺失影响判别效果的缘故;使用模式匹配方法抽取犯罪信息中的事件虽然也取得了85%的准确率, 但因为采用了封闭测试,因此实际开放测试效果有待考证;触发词方法抽取医疗领域事件的封闭测试综合效果 ( F = 0.5312)不及 ACE 会议及法律事件抽取的开放测试的效果好 ( F= 0.7840、0.8423 ) ,但准确率的差距不太大(分别为0.7396、0.818、0.7503) ,Fu Jianfeng等人采取了KNN 算法提高了触发词的质量,所取得的准确率最好,但查全率也不是很好,法律信息中所含有的动词等触发词相对较明确,因而查全率较高;CRF方法在个人简历与交通信息事件抽取的综合效果及准确率差距都很大,F 值分别为 0.973 和0.5203,这可能是因为个人简历事件相比交通事件的特征模板更容易构 建 的 缘 故;另外,虽然采用最大熵方法(ME) 抽取突发事件信息的封闭测试效果也不错,但仅略高于触发词法抽取法律信息的开放测试效果,因而其实际效果不一定好。

    表3  相同领域不同抽取算法 F 值对照表

    表3给出了在所参考的文献中采用的各种抽取算法以及它们所取得的效果值,其中在金融资讯、突发事件、医疗、军事、个人简历、犯罪信息、法律、交通信息领域所涉及的 “有效文献”数分别仅为 1 篇, 所以重点分析以门户网站信息和 ACE 会议语料为研究对象的有效文献。抽取门户网站事件信息的研究中,已有文献分别涉及模式匹配、SVM 和触发词方法,其中基于概念首义原、句子语言单位的模式匹配方法取得的效果最好 ( F = 0.8079) ,但概念首义原的思想与触发词思想有异曲同工之处。ACE 会议语料事件抽取的研究中,虽然采用触发词法抽取事件取得的综合效果 ( F = 0.784) 仅略高于模式匹配所取得效果 ( F =0.7785) 、略低于聚类算法的效果 ( F = 0.7976) , 但后两者均为封闭测试。综合门户网站及 ACE 会议语料事件抽取的研究成果,可以发现,触发词方法抽取事件的效果优于模式匹配方法[5]。

    3.2 算法时间复杂度分析

    算法时间复杂度主要指完成某一任务所需要的时间( 也称所耗费的时间) , 一般而言,算法越复杂,其时间复杂度越高,推广应用的难度越大。但随着计算机硬件性能的大幅度提高,算法的时间复杂度似乎变得不太重要。在本文所涉文献中,大多侧重提高算法的 P、R、F值,很少关注抽取任务的实际耗时情况。事实上,CRF与 SVM 方法的特征规模 ( 向量维度) 均会大大影响运行效率;语义角色标注方法需要句法分析技术,其运行效率因句法分析方法的不同而不同。基本触发词方法由于运算简单,运行效率相对较高,但若结合 KNN 等算法提取触发词,其运行效率将会受到一定的影响。

    3.3 前沿联合模型方法

    1. 模式识别+SVM

    基于模式识别+SVM的方法,思想主要是在事件句的识别上,提出了基于 SVM 的有监督算法。对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角色,而多分类器算法使用不同的分类器来识别具有不同语义约束的角色。实验结果表明,多分类器的算法明显优于单分类的算法[6]。

    1. 机器学习+词嵌入

    提出了一种在深度学习中集成模式、机器学习模型和词嵌入技术的新的商务事件抽取方法,用于提取在线中文新闻事件。利用词嵌入和语义词典对事件触发字典进行扩展,具有较高的准确性。然后将字典中的触发器特征引入到机器学习分类算法中,以实现更精细的事件类型识别。基于可伸缩模式树,发现的事件类型被用来找到从在线新闻中提取事件元素的最适合模式。实验结果表明了该方法的有效性[7]。

    1. 深度学习+词嵌入

    提出了一种用于生物医学事件抽取的多重分布式表示方法。该方法结合了基于依赖的词嵌入和基于任务的特征以分布式的方式作为深度学习模型的输入来训练深度学习模型。最后,我们使用SOFTMax分类器对示例候选进行标记。

    结果:多水平事件提取(MLE)语料库的实验结果显示,较高的F分数为77.97%的触发器识别和58.31%的整体相比,最先进的SVM方法[8]。

    1. 递归神经网络

           传统的提取方法通常依赖于外部资源的可用性,或者需要复杂注释的语料库和精心设计的特征。特别是对于英语以外的语言,由于工具和资源的稀缺性,限制了进步。在这项工作中,我们探讨了递归神经网络(RNN)架构从意大利医疗报告的临床事件提取。所提出的模型包括嵌入层和RNN层。为了找到最佳的事件提取配置,我们探索了不同的RNN结构,包括长短记忆(LSTM)和门控递归单元(GRU)。我们还尝试向网络中输入形态句法信息。通过使用GRU网络获得额外的形态句法输入,得到了最好的结果[9]。

    1. 触发词扩展+分类法

         在事件识别阶段,采用一种基于触发词和二元分类相结合的方法;在事件元素识别阶段,采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反不平衡以及数据稀疏问题,取得了较好的系统性能[10]。

    1. BUEES

           传统的事件抽取系统主要基于事件类型识别和事件参与者提取,基于预先指定的事件类型范例和手动注释的语料库。然而,不同的领域有不同的事件类型范例。当转移到一个新的领域,我们必须构建一个新的事件类型范式并从头注释一个新的语料库。这种传统的事件提取系统需要大量的人力,无法广泛应用事件提取。在本文中,我们介绍了一个自底向上的事件提取系统BUEES,它以完全无监督的方式从网络中抽取事件。系统在输入语料库中自动构建事件类型范式,然后继续提取这些事件的大量实例模式。随后,系统根据这些模式提取事件参数。随后,系统根据这些模式提取事件参数。通过一系列的实验,我们展示了BUEES的良好性能,并将其与一个最先进的中文事件提取系统,即有监督事件提取系统进行比较。实验结果表明,在事件类型识别中,BUEES的表现比较好(事件类型识别中,F-measure增加5%,事件参数提取中,F-measure增加3%),但不需要任何人工干预[11]。

    1. 基于语义的中文事件触发词抽取联合模型

    针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型。首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例。在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升[12]。

    1. 触发词+SVM

    提出了一种用动词驱动的方法从中国网络新闻中抽取5WLH(WHO、What、Whom、 When、Where、How)事件语义信息。如何从中国在线新闻事件的语义信息。首先,通过新闻故事的结构,我们提出一种新颖的算法来提取主题句强调新闻标题的重要性。第二,通过应用基于规则的方法FRET DROWVEL和有监督的机器学习方法(VML),从这些主题句中提取事件事实F.5W1H1。通过考虑汉语动词的配价(非显性短语的显性能力),在自动内容提取(ACE)事件提取中使用了T结构。在ACE 2005数据集上的大量实验证实了它的有效性,并且显示了非常高的可密封性,因为我们只考虑了基于这种方法,我们建立了一个系统——中文新闻事实提取器RCNFE。CNFE对一个包含30000份报纸文档的真实世界语料库上进行了评价,结果表明CNFE能够有效地提取事件事实[13]。

    1. 触发词扩展+机器学习

    针对目前中文触发词抽取结果的F值不够理想的情况,选用中文事件语料库CEC语料作为训练语料和测试语料,提出了一种基于触发词扩展表和机器学习相结合的触发词抽取方法。

    触发词扩展:CEC语料创建一个原始触发词表;通过触发词聚类对原始触发词表进行扩展,得到扩展触发词表;创建一个候选触发词集;计算所有候选触发词的权重,选出权重高的事件触发词。

    基于机器学习的事件触发词的抽取主要包括以下几个步骤:1) 用分词工具对中文文本进行预处理,即分句、分词、词性标注,然后,从预处理后的文本中筛选出名词、动词、动名词;2) 选取触发词的自身词性特征及词的上下文特征构造向量空间模型,从而创建训练集获得机器学习模型;3) 用SVM机器学习方法对测试集进行分类。

    实验表明,该方法抽取效果比较理想,F值可达到69.7%[14]。

    4 已知问题

    1. 底层技术研究不够成熟,导致错误级联。事件抽取对底层的子任务结果有很大的依赖性,但由于实体识别、深层句法分析等底层技术还不成熟,给事件抽取带来了级联错误。并且,目前缺乏对子任务输出结果的评估及矫正技术
    2. 事件抽取系统的领域可扩展性和可移植性不够理想。目前的研究大多是基于 MUC 或 ACE 展开,只针对某个特定领域或几个类型的事件进行研究。系统的应用受到领域的限制,不能够随着领域的变化进行简单快速的移植或扩展;
    3. 语料有待进一步完善。机器学习方法的引入提高了事件抽取系统的可移植性,但由于缺乏大规模的成熟语料库和标准语料,目前该类系统的效果不够理想,由此可见语料的完善是一个亟待解决的问题;
    4. 如何设计神经网络模型以实现多任务联合是一大难点。

    5 研究趋势

    1. 进一步提高事件抽取的精度和召回率,改进抽取的方法,加强底层技术攻关,开展对中间结果的可信度评估研究。要使事件抽取技术取得突破,必须改进其所依赖的底层技术;
    2. 跨文档、跨语言的事件抽取研究将更为广泛。目前,事件抽取的水平还局限在对独立文本的处理上,跨文档的研究尚处于探索阶段,随着跨文档语义理解及信息归并技术和多语言文本处理技术的发展,跨文档、跨语言的事件抽取必然成为新的研究热点
    3. 面向开放领域的事件抽取即将广受重视。事件抽取系统的领域可扩展性和可移植性仍将是研究的重点。未来的事件抽取研究将以应用为需求,面向开放领域而不再局 限于某个具体领域,为此需要探究各种方式提高系统的移植性;
    4. 融合外部资源的神经网络方法当前集中于构建大规模数据集,已取得良好效果。由于事件抽取数据集的构建难度、现有数据集的局限和不同应用领域数据的差异,如何有效地借助外部资源进行事件抽取的方法也是一个亟待研究的发展方向。 例如,鉴于语义角色标注任务( Semantic Role Labelling,SRL) 和事件抽取任务的相似之处,借助大规模语义角色标注相关资源辅助事件抽取。利用迁移学习方法解决数据缺失问题也将成为后续具备学术前瞻性的重点研究方向。

    参考文献

    [1] 薛亚非.面向自然语言处理的深度学习[J].电子技术与软件工程,2018(12):144-145.

    [2] 秦彦霞,张民,郑德权.神经网络事件抽取技术综述[J].智能计算机与应用,2018,8(03):1-5+10.

    [3] 高强,游宏梁.事件抽取技术研究综述[J].情报理论与实践,2013,36(04):114-117+128.

    [4] 郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(02):14-17+38.

    [5] 吉久明,陈锦辉,李楠,孙济庆.中文事件抽取研究文献之算法效果分析[J].现代情报,2015,35(12):3-10.

    [6] 赵小明,朱洪波,陈黎,王亚强,秦湘清,于中华.基于多分类器的金融领域多元关系信息抽取算法[J].计算机工程与设计,2011,32(07):2348-2351.

    [7] Han S, Hao X, Huang H. An event-extraction approach for business analysis from online chinese news[J]. Electronic Commerce Research & Applications, 2018:244-260.

    [8] Anran Wang, Jian Wang. A multiple distributed representation method based on neural network for biomedical event extraction[J]. BMC Medical Informatics and Decision Making, 2017:60-66.

    [9] Natalia Viani1, Timothy A. Miller. Recurrent Neural Network Architectures for Event Extraction from Italian Medical Reports[J]. Artificial Intelligence in Medicine, 2017:198-202

    [10]  赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008(01):3-8.

    [11] Xiao DING, Bing QIN, Ting LIU.自底向上事件抽取系统(英文)[J].Frontiers of Information Technology & Electronic Engineering,2015,16(07):541-553.

    [12] 李培峰,周国栋,朱巧明.基于语义的中文事件触发词抽取联合模型[J].软件学报,2016,27(02):280-294.

    [13] Wang Wei, Zhao Dongyan, Zou Lei, et al.Extracting 5W1H event semantic elements from Chinese online news[C].Tiergartenstrasse Verlag,2010,6184  LNCS: 644 -655

    [14] 轩小星,廖涛,高贝贝.中文事件触发词的自动抽取研究[J].计算机与数字工程,2015,43(03):457-461.

     

     

    展开全文
  • 详解事件抽取与事件图谱构建

    千人学习 2019-07-29 14:47:11
    现有知识图谱大多关注于以实体为核心的静态知识,缺乏对于以...本次分享将首先介绍事件抽取与事件图谱构建过程中的基本概念,然后介绍从非结构化文本中抽取事件知识的基本方法,最后介绍我们在实践过程中的经验和体会。
  • 知识抽取-事件抽取

    千次阅读 2020-01-08 11:29:10
    文章目录事件抽取事件识别和抽取事件检测和追踪事件识别和抽取理解基于模式匹配的方法基于弱监督基于统计 - 传统机器学习Pipeline 事件抽取 事件是促使事情状态和关系改变的条件。目前已存在的知识资源(如维基百科...

    事件抽取

    事件是促使事情状态和关系改变的条件。目前已存在的知识资源(如维基百科等) 所描述实体及实体间的关系大多是静态的,而事件能描述粒度更大的、动态的、 结构化的知识,是现有知识资源的重要补充。

    与关系抽取相比,事件抽取同样需要从文本中抽取 谓语(predicate) 和对应的 arguments(事件元素),但不同的是,关系抽取的问题是 二元(binary) 的,且两个 arguments 通常都会在同一个句子中出现,而事件抽取的难点在于,有多个 arguments 和 修饰符(modifiers),可能会分布在多个句子中,且有些 arguments 不是必须的(在任何给定的事件实例中都将省略其中的一些),这使得 bootstrapping/distant learning/coreference 都变得非常困难。

    事件抽取的任务可以分两大类

    事件识别和抽取

    从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。

    事件检测和追踪

    事件检测与追踪旨在将文本新闻流按照其报道的事件进行组织,为传统媒体多种来源的新闻监控提供核心技术,以便让用户了解新闻及其发展。具体而言,事件发现与跟踪包括三个主要任务:分割,发现和跟踪,将新闻文本分解为事件, 发现新的(不可预见的)事件,并跟踪以前报道事件的发展。
    事件发现任务又可细分为历史事件发现和在线事件发现两种形式,前者目标是从按时间排序的新闻文档中发现以前没有识别的事件,后者则是从实时新闻流中实时发现新的事件。

    本文的重点在于事件识别与抽取。首先看一下相关的核心概念:

    • 事件描述(Event Mention) :
      描述事件的词组/句子/句群,包含一个 trigger(触发) 以及任意数量的 arguments

    • 事件触发(Event Trigger):
      事件描述中最能代表事件发生的词汇,决定事件类别的重要特征,一般是动词或者名词

    • 事件元素(Event Argument)
      事件的重要信息,或者说是实体描述(entity mention),主要由实体、属性值等表达完整语义的细粒度单位组成

    • 元素角色(Argument Role)
      事件元素在事件中扮演的角色,事件元素与事件的语义关系,可以理解为 slot

    • 事件类型(Event Type)

    事件识别和抽取理解

    直观上来看,可以把事件抽取的任务理解成从文本中找到特定类别的事件,然后进行填表的过程。

    在这里插入图片描述
    事件抽取系统定义

    Given a text document, an event extraction system should predict event triggers with specific sub-types and their arguments for each sentence.

    给定一个文本文档,一个事件抽取系统必须为每个句子产生预测事件触发词 ,每个 事件触发词 含有具体的子类型 和它的具体事件元素。

    也就是说,事件抽取任务最基础的部分包括:

    • 识别事件触发词及事件类型
    • 抽取事件元素(Event Argument)同时判断其角色(Argument Role)
    • 抽出描述事件的词组或句子

    当然还有一些其他的子任务包括事件属性标注、事件共指消解等。

    事件抽取大多是分阶段进行,通常由 trigger classifier(触发分类器)开始,如果有 trigger,把 trigger 以及它的上下文作为特征进行分类判断事件类型,再进行下一步的 argument classifier(事件元素费雷其),对句子中的每个 entity mention(涉及实体) 进行分类,判断是否是 argument(事件元素),如果是,判定它的角色slot。

    基于模式匹配的方法

    MUCs 最开始,事件抽取的系统都是基于人工编写的规则,基于语法树或者正则表达式,如 CIRCUS (Lehnert 1991), RAPIER (Califf & Mooney 1997), SRV (Freitag 1998), AutoSlog (Riloff 1993), LIEP (Huffman 1995), PALKA (Kim & Moldovan 1995), CRYSTAL (Soderland et al. 1995), HASTEN (Krupka 1995) 等等,后来,慢慢的有了监督学习的模型,在 ACE 的阶段,大多数系统都是基于监督学习了,但由于标注一致性的问题,系统的效果普遍较差,ACE 事件抽取只举行了一次,在 2005 年。

    下面先来看一下基于模板的抽取方法,基本都是通过 句法(syntactic) 和 语义约束(semantic constraints) 来进行识别。

    基于人工标注语料

    在早期,模板创建过程通常从一个大的标注集开始,模板的产生完全基于人工标注语料,学习效果高度依赖于人工标注质量。

    AutoSlog(Riloff)
    基本假设:
    a. 事件元素首次提及之处即可确定该元素与事件间的关系
    b. 事件元素周围的语句中包含了事件元素在事件中的角色描述

    通过监督学习和人工审查来建立抽取规则。通过训练数据中已经填充好的槽(filled slot),AutoSlog 解析 slot 附近的句法结构,来自动形成抽取规则,由于这个过程产生的模板 too-general,所以需要人工来审核。本质上形成的是一个字典。
    举个例子

    Ricardo Castellar, the mayor, was kidnapped yesterday by the FMLN.
    市长里卡多·卡斯特拉尔(Ricardo Castellar)昨天被马解阵线绑架。

    假设 Ricardo Castellar 被标注成了 victim(受害者已被标注),AutoSlog 根据句法分析判断出 Ricardo Castellar 是主语,然后触发了主语的相关规则 (subj) passive-verb,将句子中相关的单词填充进去就得到了规则 (victim) was kidnapped,所以在之后的文本中,只要 kidnapped 在一个被动结构中出现,它对应的主语就会被标记为 victim。

    PALKA

    基本假设:特定领域中高频出现的语言表达方式是可数的

    用语义框架和短语模式结构来表示特定领域中的抽取模式,通过融入 WordNet 的语义信息,PALKA 在特定领域可取得接近纯人工抽取的效果。

    基于弱监督

    人工标注耗时耗力,且存在一致性问题,而弱监督方法不需要对语料进行完全标注,只需人工对语料进行一定的预分类或者制定种子模板,由机器根据预分类语料或种子模板自动进行模式学习。

    • AutoSlog-TS
      Riloff and Shoen, 1995
      AutoSlog-TS 不需要进行文本的标注,只需要一个预先分类好的训练语料,类别是与该领域相关还是不相关。过程是先过一遍语料库,对每一个名词短语(根据句法分析识别)都产生对应的抽取规则,然后再整体过一遍语料库,产生每个规则的一些相关统计数据,基本的 idea 是与不相关文本相比,在相关文本中更常出现的抽取规则更有可能是好的抽取规则。假设训练语料中相关与不相关的文本比例是 1:1,对产生的每条抽取规则计算相关比率 relevance rate,相关文档中出现规则的实例数/整个语料库中出现规则的实例数,那么 relevance rate < 50% 的抽取规则就被丢弃了,剩下的规则会按照 relevance_rate * log(frequency) 的形式从高到低进行排序,然后由人工进行审核。

    • TIMES
      Chai and Biermann, 1998
      引入了领域无关的概念知识库 WordNet,提升模式学习的泛化能力,并通过人工或规则进行词义消歧,使最终的模式更加准确

    • NEXUS
      Piskorski et.al., 2001; Tanev et.al., 2008
      用聚类对语料进行预处理

    • GenPAM
      Jiang, 2005
      在由特例生成泛化模式的学习过程中,有效利用模式间的相似性实现词义消歧,最大限度地减少了人工的工作量和对系统的干预

    小结

    基于模式匹配的方法在特定领域中性能较好,知识表示简洁,便于理解和后续应用,但对于语言、领域和文档形式都有不同程度的依赖,覆盖度和可移植性较差。

    模式匹配的方法中,模板准确性是影响整个方法性能的重要因素。在实际应用中,模式匹配方法应用非常广泛,主要特点是高准确率低召回率,要提高召回率,一是要建立更完整的模板库,二是可以用半监督的方法来建 trigger 字典。

    基于统计 - 传统机器学习

    建立在统计模型基础上,事件抽取方法可以分为 pipeline 和 joint model 两大类。

    Pipeline

    将事件抽取任务转化为多阶段的分类问题(管道抽取),需要顺序执行下面的分类器:

    1. 事件触发词分类器(Trigger Classifier)
      判断词汇是否是事件触发词,以及事件类别
    2. 元素分类器(Argument Classifier)
      词组是否是事件元素
    3. 元素角色分类器(Role Classifier)
      判定元素的角色类别
    4. 属性分类器(Attribute Classifier)
      判定事件属性
    5. 可报告性分类器(Reportable-Event Classifier)
      判定是否存在值得报告的事件实例
    展开全文
  • 事件抽取论文一览表 论文标题 模型简称 会议 发表时间 摘要 备注 代码链接 Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction ...
  • 事件抽取与金融事件图谱构建 .pdf
  • 知识图谱PPT 事件抽取与金融事件图谱构建 1300+页 知识图谱PPT,同时包含事件抽取与金融事件图谱构建实例PPT
  • 关系抽取与事件抽取

    2021-03-11 12:47:53
    关系抽取 概念 从文本中识别出两个实体(或多个实体)之间存在的事实上的关系 意义 搜索引擎发现和关联知识的重要渠道 知识库构建与知识关联的基础性手段 支持问答系统、推荐系统等应用的有力工具 ...事件抽取
  • 事件抽取及方法 参考:读书笔记:关系抽取和事件抽取 关系抽取 定义:自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取(两个实体)和多元关系抽取(三个及以上实体)。 通过关注两...
  • 事件抽取任务数据集,科大讯飞2020比赛放出的事件抽取比赛的数据集,训练集测试集,nlp训练语料,事件抽取任务数据集
  • 利用框架语义知识优化事件抽取
  • 事件抽取是信息抽取领域一个重要的研究方向。该文从音乐领域的事件抽取出发,通过领域事件词聚类的方法自动发现音乐领域具有代表性的事件,然后采用基于关键词与触发词相结合的过滤方法简化了事件类型的识别过程。在...
  • 微博开放领域的事件抽取
  • 现有知识图谱大多关注于以实体为核心的静态知识,缺乏...本次分享将首先介绍事件抽取与事件图谱构建过程中的基本概念,然后介绍从非结构化文本中抽取事件知识的基本方法,最后介绍我们在实践过程中的经验和体会。...
  • 事件抽取算法DMCNN

    2020-10-17 23:49:23
    最近一直在阅读事件抽取方向的相关论文,这里做一个系列的论文阅读笔记。 DMCNN是一种基于动态池化(dynamic pooling)的卷积神经网络模型的事件抽取方法,来自论文《Event Extraction via Dynamic Multi-Pooling ...
  • 事件抽取学习笔记

    2019-08-26 11:41:40
    资料 详解事件抽取与事件图谱构建
  • 英文事件抽取

    2019-06-09 11:05:58
    英文事件抽取 转载连接:喵小姐的总结 基于特征的方法 2006_ACL_The Stages of Event Extraction 2008_ACL_Refining Event Extractionthrough Cross-document Inference 2010_ACL_Using Document Level Cross-Event ...
  • 自然语言处理之事件抽取,Natural Language Processing — Event Extraction, by Rodrigo Nader。
  • 事件抽取(Event Extraction) 一、事件抽取分两大类 事件识别和抽取 从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。 ...
  • 事件抽取和金融事件图谱构建方向的一些探索,主要包括特征表示、训练数据生成和扩展、多事件协同抽取、篇章级事件抽取、事件关系抽取这几个重要的研究方向,并附上相关的9篇论文,非常经典,值得细品。
  • 事件、事件抽取与事理图谱

    万次阅读 2019-01-04 23:06:04
    事件、事件抽取与事理图谱 &amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;人类社会是一个静态事物进行动态活动所创造形成的世界,人类的命题记忆是以“事件”为存储单位的,存储的是组成事件的概念及其...
  • 中文复合事件抽取

    千次阅读 2019-03-11 19:05:47
    chinese compound event extraction,中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。 关于项目 目前,知识图谱在学术界如火如荼地进行,但受限于知识图谱各个环节中的...
  • 事件抽取是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。 事件是知识图谱的重要组成部分,事件抽取是进行图谱推理,事件分析的必要过程。 事件抽取 事件抽取的...
  • 分不清事件抽取和命名实体抽取,二者有什么关系吗?或者他们之间有什么区别?
  • nlp赛事_事件抽取任务

    千次阅读 2020-04-04 16:08:50
    事件抽取任务_ee 事件抽取 (Event Extraction, EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术。事件抽取是智能风控、智能投研、舆情监控等人工智能应用的重要技术基础,受到学术界和工业界的广泛...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,165
精华内容 466
关键字:

事件抽取