精华内容
下载资源
问答
  • 事件抽取综述

    万次阅读 多人点赞 2018-08-16 18:21:18
    1 基本概念... 1 1.1 事件... 1 1.2 事件抽取...... 2 主流技术分析......2.1 元事件抽取......2.1.3 基于神经网络的抽取方法... 4 2.2 主题事件抽取... 8 2.2.1 基于事件框架的主题事件抽取... 8 2.2.2 基...

    1  基本概念... 1

    1.1  事件... 1

    1.2 事件抽取... 1

    2  主流技术分析... 2

    2.1 元事件抽取... 2

    2.1.1 基于模式匹配的元事件抽取... 3

    2.1.2 基于机器学习的元事件抽取... 3

    2.1.3 基于神经网络的抽取方法... 4

    2.2 主题事件抽取... 8

    2.2.1  基于事件框架的主题事件抽取... 8

    2.2.2 基于本体的主题事件抽取... 9

    3  中文事件抽取算法分析... 9

    3.1 事件抽取算法效果分析... 10

    3.2 算法时间复杂度分析... 12

    3.3 目前前沿联合模型方法... 12

    4 已知问题... 14

    5 研究趋势... 15

    参考文献... 15

     

    1  基本概念

    1.1  事件

    1)  定义

    作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。在TDT ( Topic Detection Tracking) 中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。

    2) 组成元素

    组成事件的各元素包括: 触发词、事件类型、论元及论元角色。

    • 事件触发词:表示事件发生的核心词,多为动词或名词;
    • 事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33 种事件类型。事件识别是基于词的34 类(33类事件类型+None) 多元分类任务,角色分类是基于词对的36 类(35类角色类型+None) 多元分类任务;
    • 事件论元:事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位 ;
    • 论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者 、受害者等。

    如下例句:在Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。

    图1 Examples of ACE events

    1.2 事件抽取

    1)  定义

    事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

    2)  分类

    事件抽取任务总体可以分为两个大类:元事件抽取和主题事件抽取。元事件表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。当前主要是面对元事件抽取,关于主题事件抽取的研究较少。

    3)  效果评测

    在事件抽取应用中通常采用两种不同的效果评价方法:基于召回率 (记为 R) 准确率 (记为 P) 的微平均 (记为F) 值法,或基于丢失率 (记为 L) 误报率 (记为 M) 的错误识别代价 (记为 C) 法。其中,

    F=2\times PR/\left ( P+R \right )

    C=Cmiss\times L\times Ltar+Cfa\times M\times \left ( 1-Ltar \right )

    Cmiss为一 次 丢 失 的 代 价, Cfa为一次误报的代价,Ltar为系统作出肯定判断的先验概率, 通常根据具体应用设定为常值。上述公式表明,两种效果测评方法之间不存在简单的逆反关系,因此在分析不同评价方法下的两种不同算法的效果时应进行适当的换算。

    微平均值法一般多用于单一事件抽取任务中,如: 突发事件、门户网站、金融资讯的事件抽取。对于话题追踪任务而言,相对于正确率,人们对系统作出的错误判断往往更为敏感,这些错误包括:本应为是的判断为否 (丢失) ,本应为否的判断为是 (误报) ,因此常采用错误识别代价作为效果评价方法。另外,事件抽取的各种算法在实际应用中,除考虑其识别结果的正确率外,还应该考虑算法的复杂程度及其可实现性。一些抽取效果好的算法往往是以牺牲时间为代价的。一些算法可能由于硬件要求太高,或训练时间太长而不具备可行性。

    2  主流技术分析

    2.1 元事件抽取

    元事件抽取的主要研究方法有模式匹配和机器学习两大类。模式匹配在特定领域内能取得较高的性能,但移植性较差。在机器学习的抽取方法中,机器学习与领域无关,无需太多领域专家的指导,系统移植性较好。随着相关语料库的建设和互联网上各种文本资源的不断丰富,语料的获取不再是束缚机器学习的瓶颈。目前,机器学习已成为元事件抽取的主流研究方法。

    2.1.1 基于模式匹配的元事件抽取

    模式匹配方法是在一些模式的指导下进行事件的识别和抽取。模式主要用于指明构成目标信息的上下文约束环,集中体现了领域知识和语言知识的融合。抽取时只要通过各种模式匹配算法找出符合模式约束条件的信息即可。由此可见,其核心是抽取模式的构建。典型的基于模式匹配的事件抽取系统有 ExDisco,GenPAM等。

    起初,模式主要是通过手工方法来建立的。中国科学院的姜吉发在其博士论文中对模式的自动获取做了深入的研究,提出了一种基于领域无关概念知识库的事件抽取模式学习方法GenPAM,在模式的学习过程中,用户只需定义 IE 任务,无需提供种子模式及对语料分类和标注,系统就能自动从未经分类和标准的语料中学习出 IE 模式,大大降低了用户的劳动量和技能要求。

    总的来说,基于模式匹配的方法在特定领域内可以取得比较好的效果,但是系统的可移植性差,从一个领域移植到另一个领域时,需要重新构建模式。而模式的构建费时费力,需要领域专家的指导。虽然机器学习方法的引入可以从一定程度上加速模式的获取,但是不同模式之间造成的冲突也是一个棘手的问题。并且,现有研究的语义程度大多停留在句法层级上,需要进一步提高其语义程度。

    2.1.2 基于机器学习的元事件抽取

    采用机器学习的方法识别事件,就是借鉴文本分类的思想,将事件类别及事件元素的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。但事件分类与文本分类又有所区别,主要表现在以下方面: 分类的文本短,大部分都是一个完整的句子; 因为是事件表述语句,所以语句中包含的信息量大。

    对元事件的识别主要包括事件类别的识别与分类以及  事件元素识别两大核心任务。Chieu 等首次在事件抽取中引入最大熵模型用于事件元素的识别,实现了对讲座通告和人事管理事件的抽取。H. Llorens 等通过 CRF 模型进行语义角色标注,并应用于TimeML的事件抽取,提升了系统的性能。为了提高识别效果,有时将多种机器学习算法混合使用或将机器学习与模型匹配相结合。D. Ahn 结合 MegaM 和 TiMBL 两种机器学习方法分别实现了事件类别识别和事件元素识别两大任务,在 ACE 语料的实验结果表明该方法优于采用单一算法。

    上述研究大多是基于触发词来进行事件的探测,例如  Ahn 的研究将每一个词作为训练实例,然后采用 MegaM 二元分类器判断当前词是否为触发词。这种方式简单直观,但触发词只占所有词的一小部分,这样就在训练中引入大量反例,导致正反例不平衡,并且对每个词判断会导致计算量的额外增加。为了解决上述问题,赵妍妍采用了一种基于触发词扩展和二元分类相结合的方法来识别事件类别。在训练中将触发词收录在词典中并通过同义词林进行扩展,较好地解决了训练实例正反例不平衡以及数据稀疏问题,在 ACE 的中文语料上取得较好的效果。而许红磊与 Naughton 则采用基于事件实例的方式进行事件的探测,这种方法将句子而非词语作为识别实例,克服了传统的基于触发词方法不可避免的正反例失衡和数据稀疏问题。许红磊采用二元分类器过滤非事件句,得到候选事件句,然后采用多元分类器对候选事件句进行分类。Naughton 则将事件的探测转化为句子聚类问题,通过聚类得到事件句。

    综上可知,基于机器学习的方法虽然不依赖于语料的内容与格式,但需要大规模的标准语料,否则会出现较为严重的数据稀疏问题。但现阶段的语料规模难以满足应用需求,且人工标注语料耗时耗力,为了缓解获取已标注语料的困难,有关学者探究了半监督及无监督的学习研究。另外,特征选取也是决定机器学习结果好坏的重要因素。因此,怎样避免数据稀疏现象以及如何选择合适的特征,成为基于机器学习方法研究的重要课题。当前绝大多数研究都是基于短语或句子层级的信息,利用篇章级或跨篇章的信息来提高抽取性能将成为一个新的热点。

    2.1.3 基于神经网络的抽取方法

    作为一种有监督多元分类任务,事件抽取方法包括2个步骤: 特征选择和分类模型。本文根据使用特征的范围不同、模型学习方式不同和外部资源的使用与否对不同的事件抽取方法进行分类。各类方法的研究内容可详见如下:

    1. 根据所使用特征的范围,事件抽取方法可以分为句子级的事件抽取方法和篇章级的事件抽取方法。总地来说,句子级的事件抽取方法只使用句子内部获取的特征。而篇章级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下,句子级特征是所有事件抽取方法通用的特征,而篇章级特征则属于面向实际任务挖掘的特效特征。
    2. 根据学习方式不同,可以分为基于流水线模型的事件抽取方法和基于联合模型的事件抽取方法。事件抽取任务分为事件识别和论元角色分类任务。其中,后者输入依赖于前者输出。论元角色分类任务的输入是识别出的触发词和所有候选实体。大部分事件抽取方法都是流水线模型学习方式,先进行事件识别模型的学习,再转入论元角色分类模型的学习。而经仿真验证基于联合模型的学习方式的效果要优于流水线模型学习方式,故而也随即产生了基于联合模型的事件抽取工作。
    3. ACE05 数据是现有的为数不多的有标记事件数据之一,是在新闻、博客、访谈等数据上进行人工标注得到的。ACE数据的标注质量不高以及规模较小的问题,也在很大程度上影响了事件抽取任务的发展。为此很多工作尝试借助外部资源辅助事件抽取任务的功能达成。根据是否使用外部资源,可以分为基于同源数据( 即 ACE 数据) 的事件抽取  方法和融合外部资源的事件抽取方法。

    2.1.3.1 句子/篇章级的事件抽取

    传统方法中,句子级别的特征可以分为基于词的特征和基于词对的特征。其中,基于词的传统离散特征包括: 1)词法特征:例如当前词及周边词的一元/ 二元语法、词性标签、词干、同义词等。2)句法特征:例如当前词的依存词和核心词、涉及的依存关系、是否是未被引用的代词、句法 分析树中路径等。3)实体信息:例如实体类型、距离最近的实体类型、是否是相同类型论元候选中距离触发词最近的等等。

    基于词对的特征有: 触发词-触发词之间的共现关系和触发词-论元的多种依赖关系等。而篇章级事件抽取方法则额外考虑了跨句子或跨文档的特征辅助任务实现。例如,相同/类似事件对应的论元一致性,同一文档内的相同单词触发的事件类型一致性特征,相同类型的实体参与的事件一致性特征。

    传统方法使用不同的分类模型进行分类,例如常用的最大熵模型和支持向量机模型。

    不同于传统离散特征,神经网络方法以连续型向量为特征,并通过不同的神经网络模型学习更抽象的特征。以事件识别任务为例,神经网络事件抽取方法的流程为: 首先用初始化的特征 向量表示候选触发词,然后通过神经网络模型自动更新学习特征以及组合更高级别特征,最后通过Softmax 模型来输出分类。Chen 等人和 Nguyen 等人率先尝试将神经网络方法分别应用于事件抽取、识别任务中,并取得了很好的效果,验证了神经网络特征的有效性。初始特征表示方面,二者均采用了预训练的词向量作为每个单词的初始表示,而且还融入了单词的语义和语法信息的建模研究。特殊而必要地,二者还都使用了位置信息来建模当前词和候选触发词的距离。受传统特征启发,常用的特征还包括当前词的事件类型向量和实体类型向量。

    Nguyen 等人利用实体类型特征来辅助事件识别任务,而Chen 等人使用事件类型特征用于角色分类任务。在上层特征学习模型方面,研究中均使用了卷 积神经网络模型来自动抽取有效特征进行事件抽取或识别任务。更进一步地, Chen 等人改进了传统的CNN 模型,增配了动态多池机制( dynamic multi-pooling) 来提高事件抽取任务性能。研究认为,相比于最大池机制,通过候选触发词和候选实体位置分割成 3 部分的动态多池机制,能够获取更为精细、有效的特征用于角色分类。Nguyen 等则提出了一种基于离散短语( skip-gram) 的卷积神经网络模型来辅助事件识别。相比于传统的连续词袋模型,基于离散短语的卷积神经网络模型能够获取更丰富的非连续短语上特征,而无需再限定于局部连续短语特征。除了基于卷积神经网络的特征学习模型外,还有研究者采用递归神经网络( Recurrent Neural Network,RNN) 对文本中的序列信息进行建模,从而为事件抽取任务提供助益支持。Feng 等人采 用一个基于 RNN 的模型来获取文本中的序列信息,并采用一个卷积层来获取文本中的短语块信息,将 2 种信息合并后进行事件触发词识别。由于没有使用额外特征,该混合模型是语言无关模型,在多种语言的事件识别任务中取得了良好效果。

    以往的传统事件抽取工作和上述神经网络事件抽取方法均尝试了将触发词的相关特征,如事件类别信息、位置信息等用于辅助论元角色分类任务,但却尚未探索论元的信息对触发词识别任务的作用。借助于注意力模型( Attention) , Liu 等人独家采用了有监督的论元注意力模型将论元信息输入至事件识别模型中,其效果验证了论元信息能够高效地辅助事件触发词识别任务。不同于联合模型中触发词和论元信息相互辅助的间接方式,该方法提出的论元注意力模型最直接地将论元信息用于辅助识别触发词。

    2.1.3.2 基于联合模型的神经网络事件抽取方法

    在基于传统特征的事件抽取方法中,联合地学习事件识别任务和论元角色分类任务首推 Li 等的工作。该研究通过结构化感知机模型( structured perceptron) 进行2个任务的联合学习,以柱搜索策略搜索得到最优结果。特征表示方面,该工作设计了一系列高效的离散特征,包括:表示触发词和论元本身词性、语法、句法、语义信息的局部特征和能够进行触发词-论元信息交互的全局特征。该工作证明了联合学习方法比流水线方式更趋有效,对于论元角色分类任务提升尤为明显( F1值48.3% 到52.7%) 。基于联合模型的神经网络事件抽取方法则采用了神经网络模型进行特征学习和联合学习,避免了复杂的特征工程。Nguyen 等人提出一种基于 RNN 的模型进行事件识别和论元角色分类的联合学习。同时,文献中也构建了局部特征和全局特征来着重用于特征表示。局部特征包括文本序列特征和局部窗口特征。由预训练词向量、实体类型向量、二元依存关系向量组成的句子表示被传递给 RNN 模型,用以获得序列特征。由窗口内的词向量组成了局部窗口特征。特别地,研究提出利用记忆网络模型( Memory Network) 来建模触发词-触发词之间、论元-论元之间和触发词-论元之间的全局特征,进而同时提高2个任务性能。此外,该工作还加入了文献中使用的论元局部特征来辅助角色分类。

    该联合模型获得了论元角色分类任务的state-of-the-art效果( F1 值 55.4%) 。 除了联合学习事件识别和论元角色分类任务外,Yang 等人首次尝试了联合学习实体识别任务。为减轻任务复杂度,以往方法均将带有实体标记的 ACE 数据集作为输入.是一个完全的端到端学习模型,即以纯文本为输入,以最终事件为输出。过程中,通过采用联合因子图模型 (Factor Graph) 来联合学习每个事件内部的结构化信息、篇章内不同事件间的关系和实体信息。除了人工定义的传统特征外,该工作使用的特征还包括由词向量表示的语义特征。虽然文献用了非神经特征和非神经网络模型,本文推介该工作的目的在于阐述其端到端的学习模式。端到端学习模式的输入/输出更加直接、合理,能够通过联合学习抽取更全面的特征和减少错误传播。在此基础上,若采用神经网络模型进行端到端学习还能够减少特征工程,这也将是一个亟待学界深度探索的研究方向。

    2.1.3.3 融合外部资源的神经网络事件抽取方法

    由于ACE05 数据集规模小,且存在较严重的事件类型稀疏问题,因而衍生了一些相关工作以解决 上述问题。传统方法有自动构建大规模事件数据集、引入框架语义学知识库 FrameNet、引入语义资源库 WordNet/HowNet、借助机器翻译对中英文事件抽取语料互译以扩展数据集等方式。现阶段,融合外部资源的神经网络事件抽取方法的研究尝试还集中于构建大规模事件数据集上。 由于神经网络方法依赖于大量的有标记数据,而ACE05 数据集的规模比较小,使得事件抽取遭遇了一定的瓶颈。Liu 等人尝试借助 FrameNet 数据集缓解 ACE05 数据集中的若干类别事件的稀疏问题。研究中通过将 FrameNet 中的框架( Frame) 匹配到 ACE05 定义的事件类型上,从而构建一个基于FrameNet 的新事件识别数据集。首先,基于ACE05训练得到的事件识别模型识别出 FrameNet 中的可能触发词。然后,通过基于概率软逻辑模型 ( Probabilistic Soft Logic,PSL) 的限制条件选择出置信度较高的触发词组成 Event-FN 数据集。Event- FN 数据集和 ACE05 数据集将联合训练,设计得到最终的事件识别模型。Chen 等人通过远距离监督方法构建了大规模事件抽取数据集,从而帮助事件抽取任务的实效提升。研究给出通过 Freebase 构建一个基于Wikipedia 的事件数据集。Freebase 由一系列元数据 ( Compound Value Types,CVT) 组成。每条元数据包括一个类型和一系列 CVT 实例,其中每个实例包括很多论元和角色。因此,每个元数据实例可以被认为是一个事件实例,包含一个事件类型、一组论元及其角色。该工作首先通过统计方法选择Freebase 中每个事件类型的关键论元集合。然后对于 Wikipedia 中每个句子,通过判断其是否包含 Freebase中任一事件实例的所有关键论元来甄别其中是否包含事件。在包含事件的 Wikipedia 句子中,通过统计方法选择出每个Freebase 事件类型的关键触发词。而后借助FrameNet 进行触发词筛选和名词性触发词扩展。最后通过远距离监督方法从 Wikipedia 中获得有标记的事件数据集。构建的大规模事件数据集和 ACE05 数据集将共同训练基于CNN 的事件抽取模型。

    Zeng 等人采取一种新颖的思路从 Wikipedia 和 Freebase 中构建大规模事件数据集。和 ACE 评测中通过触发词判断事件发生的模式不同,该次研究认为可以通过是否包含关键论元来判断事件发生与否。同时,也通过统计方法从 Freebase中抽取每个事件类型的关键论元集合。研究又将包含了 Freebase 中任一事件实例的所有关键论元的Wikipedia 句子作为事件抽取正例。该工作还通过时间和语法规则对远距离监督过程进行约束,以期获得更高质量的有标注数据集。Zeng 等人采用2个序列标注模型抽取关键论元和非关键论元。其中,2个序列标注模型均是双向长短时记忆模型( Bi -LSTM) 和条件随机场模型( CRF) 的融合模型。若句子s的论元序列标注结果包含某一事件类型 t 的所有关键论元,则s的事件类型定义为 t。

    2.2 主题事件抽取

    一个主题事件由多个动作或状态组成,其描述信息通常分散在一个或多个文档中,而元事件抽取的方法局限在句子层级,显然无法满足对主题事件的抽取。主题事件抽取的关键是如何确定描述同一个主题事件的文档集合,以及如何通过篇章内或跨篇章的理解技术将这些集合中分散的主题事件片段进行归并。在研究中通常采用事件框架或本体来表示主题事件的基本组成以及各成分间的联系。

    2.2.1 基于事件框架的主题事件抽取

    基于事件框架的主题事件抽取方法通过定义结构化、层次化的事件框架来指导主题事件的抽取,利用框架来概括事件信息,表达主题事件的不同侧面。框架是一种常用的知识表示方法,可用于描述相关概念的轮廓框架。M. Minsky 在 “A Framework for Representing Knowledge”一文中提出了框架的概念,引起了学者的关注。当人们面临一个新的情景时,会从头脑中已存在的大量典型情景中搜索一个情景来认识新事物,这些典型的情景就是知识框架。例如针对一个会议事件,人们在头脑里自然会想到,会议发生的时间、地点、主办机构、参会者、政府的反映以及会议带来的影响等不同的侧面。事件的侧面在语义上可以进行分离,所以这里的框架结构其实是一种分类体系,用于分隔一个事件涉及的不同侧面。用来描述事件不同侧面的词语为事件的 “侧面词”,事件框架是由 “侧面词”构成的一个分类体系。生成完整的事件框架体系是框架方法的关键,如何提高框架构建的全面性以及自动化程度是学者们研究的重点。

    2.2.2 基于本体的主题事件抽取

    本体是知识工程和人工智能研究领域的一个重要课题,其目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇 (术语) 之间的相互关系。本体的这些特点很好地符合了主题事件抽取的要求。基于本体的主题事件抽取,一般根据本体所描述的概念、关系、层次结构、实例等来抽取待抽取文本中所包含的侧面事件及相关实体信息,主要分为3个步骤: 领域本体的构建,这是后续工作的基础; 基于领域本体的文本内容的自动语义标注; 基于语义标注的事件抽取。Cheng 等介绍了一种基于本体的模糊事件抽取代理系统。在本体的构建中提出了一种 4 层本体构建模型,分别为 Domain 层、Category 层、Event 层、Extended Concept层。其中 Domain 代表本体所处的领域名称,并由若干个由领域专家定义的 Category 组成; 每个 Category 包含一组事件的集合; Event 层定义了每个 Category 包含事件类型; Extended Concept 层包含事件概念与对象概念,定义了每类事件对应的角色与概念及相应的子事件。将该模型构建的本体应用于新闻事件的抽取,并应用于自动文摘,实验证明该系统能较好地实现中文气象新闻事件的抽取。文献详细介绍一个基于本体的金融事件跟踪体系,并取得了较好的统计结果,印证了通过本体进行金融事件跟踪的可行性及该方法的优势。

    综合国内外研究可见主题事件抽取的研究并不成熟,篇章内及跨篇章语义理解技术的缺失,致使信息的有效归并与融合成为瓶颈。如何对事件信息的高效融合,将是主题事件抽取下一步的工作重点。

    3 中文事件抽取算法分析

    2000 年以来, 对中文进行事件抽取研究主要以基于模式匹配的事件抽取算法和触发词法为主。算法使用频率统计如下:

    图2  文献中使用的事件抽取算法占比分布图

    实际上, 为了提高事件抽取的效果, 实际应用中存在将两个或两个以上的算法进行组合应用, 即首先使用某算法 ( 如先使用模式匹配法过滤非事件句后再用 SVM 法识别事件句, 使用 KNN 算法提取触发词再用触发词法抽取事件) 进行处理, 再使用其他算法进一步处理以提高事件抽取的准确度。

    3.1 事件抽取算法效果分析

    表1显示了在所参与调研的文献中,各抽取算法表现较好的领域。模式匹配算法在犯罪信息领域抽取事件的准确率 P 值可达 0. 85;触发词算法在法律领域的综合效果较好,F 值 可 达 0. 8423,准确率P值可达0.7503;CRF、ME、SVM 3个算法中,条件随机场算法(CRF)在个人简历领域取得的效果较好,F 值可达 0.973,其次是ME算法在突发事件领域 F 值和 P 值分别可达 0.8426、0.8568,而 SVM 算法在金融领域抽取事件时,过滤掉一些明显非事件句后,进一步识别事件句P 值 虽 然 达 0.8783,但召回率较低,F值仅为0.6915。除突发事件领域中应用最大熵方法 (ME) 抽取事件为封闭测试外,其余均为开放测试,因此ME算法的开放测试效果可能有所降低。

    表1  不同抽取算法表现最好领域对照表

    表2  不同领域表现最好的算法对照表

    表2 显示了不同的领域中所采用的各种事件抽取算法中,效果较好的事件抽取算法。从中可以看出,在金融资讯事件抽取领域,将模式匹配算法与 SVM 算法组合使用取得的综合效果 ( F = 0.6915) 不及在门户网站、军事领域信息中抽取事件的效果好 ( F = 0.8079、0.8144) ,但准确率 ( P = 0.8783) 却优于上述两个领域的事件抽取 ( P = 0.7859、0.7776) ,即抽取金融资讯事件的查全率较低, 这可能与金融资讯中往往同时报道多个关联事件,部分事件元素缺失影响判别效果的缘故;使用模式匹配方法抽取犯罪信息中的事件虽然也取得了85%的准确率, 但因为采用了封闭测试,因此实际开放测试效果有待考证;触发词方法抽取医疗领域事件的封闭测试综合效果 ( F = 0.5312)不及 ACE 会议及法律事件抽取的开放测试的效果好 ( F= 0.7840、0.8423 ) ,但准确率的差距不太大(分别为0.7396、0.818、0.7503) ,Fu Jianfeng等人采取了KNN 算法提高了触发词的质量,所取得的准确率最好,但查全率也不是很好,法律信息中所含有的动词等触发词相对较明确,因而查全率较高;CRF方法在个人简历与交通信息事件抽取的综合效果及准确率差距都很大,F 值分别为 0.973 和0.5203,这可能是因为个人简历事件相比交通事件的特征模板更容易构 建 的 缘 故;另外,虽然采用最大熵方法(ME) 抽取突发事件信息的封闭测试效果也不错,但仅略高于触发词法抽取法律信息的开放测试效果,因而其实际效果不一定好。

    表3  相同领域不同抽取算法 F 值对照表

    表3给出了在所参考的文献中采用的各种抽取算法以及它们所取得的效果值,其中在金融资讯、突发事件、医疗、军事、个人简历、犯罪信息、法律、交通信息领域所涉及的 “有效文献”数分别仅为 1 篇, 所以重点分析以门户网站信息和 ACE 会议语料为研究对象的有效文献。抽取门户网站事件信息的研究中,已有文献分别涉及模式匹配、SVM 和触发词方法,其中基于概念首义原、句子语言单位的模式匹配方法取得的效果最好 ( F = 0.8079) ,但概念首义原的思想与触发词思想有异曲同工之处。ACE 会议语料事件抽取的研究中,虽然采用触发词法抽取事件取得的综合效果 ( F = 0.784) 仅略高于模式匹配所取得效果 ( F =0.7785) 、略低于聚类算法的效果 ( F = 0.7976) , 但后两者均为封闭测试。综合门户网站及 ACE 会议语料事件抽取的研究成果,可以发现,触发词方法抽取事件的效果优于模式匹配方法[5]。

    3.2 算法时间复杂度分析

    算法时间复杂度主要指完成某一任务所需要的时间( 也称所耗费的时间) , 一般而言,算法越复杂,其时间复杂度越高,推广应用的难度越大。但随着计算机硬件性能的大幅度提高,算法的时间复杂度似乎变得不太重要。在本文所涉文献中,大多侧重提高算法的 P、R、F值,很少关注抽取任务的实际耗时情况。事实上,CRF与 SVM 方法的特征规模 ( 向量维度) 均会大大影响运行效率;语义角色标注方法需要句法分析技术,其运行效率因句法分析方法的不同而不同。基本触发词方法由于运算简单,运行效率相对较高,但若结合 KNN 等算法提取触发词,其运行效率将会受到一定的影响。

    3.3 前沿联合模型方法

    1. 模式识别+SVM

    基于模式识别+SVM的方法,思想主要是在事件句的识别上,提出了基于 SVM 的有监督算法。对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角色,而多分类器算法使用不同的分类器来识别具有不同语义约束的角色。实验结果表明,多分类器的算法明显优于单分类的算法[6]。

    1. 机器学习+词嵌入

    提出了一种在深度学习中集成模式、机器学习模型和词嵌入技术的新的商务事件抽取方法,用于提取在线中文新闻事件。利用词嵌入和语义词典对事件触发字典进行扩展,具有较高的准确性。然后将字典中的触发器特征引入到机器学习分类算法中,以实现更精细的事件类型识别。基于可伸缩模式树,发现的事件类型被用来找到从在线新闻中提取事件元素的最适合模式。实验结果表明了该方法的有效性[7]。

    1. 深度学习+词嵌入

    提出了一种用于生物医学事件抽取的多重分布式表示方法。该方法结合了基于依赖的词嵌入和基于任务的特征以分布式的方式作为深度学习模型的输入来训练深度学习模型。最后,我们使用SOFTMax分类器对示例候选进行标记。

    结果:多水平事件提取(MLE)语料库的实验结果显示,较高的F分数为77.97%的触发器识别和58.31%的整体相比,最先进的SVM方法[8]。

    1. 递归神经网络

           传统的提取方法通常依赖于外部资源的可用性,或者需要复杂注释的语料库和精心设计的特征。特别是对于英语以外的语言,由于工具和资源的稀缺性,限制了进步。在这项工作中,我们探讨了递归神经网络(RNN)架构从意大利医疗报告的临床事件提取。所提出的模型包括嵌入层和RNN层。为了找到最佳的事件提取配置,我们探索了不同的RNN结构,包括长短记忆(LSTM)和门控递归单元(GRU)。我们还尝试向网络中输入形态句法信息。通过使用GRU网络获得额外的形态句法输入,得到了最好的结果[9]。

    1. 触发词扩展+分类法

         在事件识别阶段,采用一种基于触发词和二元分类相结合的方法;在事件元素识别阶段,采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反不平衡以及数据稀疏问题,取得了较好的系统性能[10]。

    1. BUEES

           传统的事件抽取系统主要基于事件类型识别和事件参与者提取,基于预先指定的事件类型范例和手动注释的语料库。然而,不同的领域有不同的事件类型范例。当转移到一个新的领域,我们必须构建一个新的事件类型范式并从头注释一个新的语料库。这种传统的事件提取系统需要大量的人力,无法广泛应用事件提取。在本文中,我们介绍了一个自底向上的事件提取系统BUEES,它以完全无监督的方式从网络中抽取事件。系统在输入语料库中自动构建事件类型范式,然后继续提取这些事件的大量实例模式。随后,系统根据这些模式提取事件参数。随后,系统根据这些模式提取事件参数。通过一系列的实验,我们展示了BUEES的良好性能,并将其与一个最先进的中文事件提取系统,即有监督事件提取系统进行比较。实验结果表明,在事件类型识别中,BUEES的表现比较好(事件类型识别中,F-measure增加5%,事件参数提取中,F-measure增加3%),但不需要任何人工干预[11]。

    1. 基于语义的中文事件触发词抽取联合模型

    针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型。首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例。在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升[12]。

    1. 触发词+SVM

    提出了一种用动词驱动的方法从中国网络新闻中抽取5WLH(WHO、What、Whom、 When、Where、How)事件语义信息。如何从中国在线新闻事件的语义信息。首先,通过新闻故事的结构,我们提出一种新颖的算法来提取主题句强调新闻标题的重要性。第二,通过应用基于规则的方法FRET DROWVEL和有监督的机器学习方法(VML),从这些主题句中提取事件事实F.5W1H1。通过考虑汉语动词的配价(非显性短语的显性能力),在自动内容提取(ACE)事件提取中使用了T结构。在ACE 2005数据集上的大量实验证实了它的有效性,并且显示了非常高的可密封性,因为我们只考虑了基于这种方法,我们建立了一个系统——中文新闻事实提取器RCNFE。CNFE对一个包含30000份报纸文档的真实世界语料库上进行了评价,结果表明CNFE能够有效地提取事件事实[13]。

    1. 触发词扩展+机器学习

    针对目前中文触发词抽取结果的F值不够理想的情况,选用中文事件语料库CEC语料作为训练语料和测试语料,提出了一种基于触发词扩展表和机器学习相结合的触发词抽取方法。

    触发词扩展:CEC语料创建一个原始触发词表;通过触发词聚类对原始触发词表进行扩展,得到扩展触发词表;创建一个候选触发词集;计算所有候选触发词的权重,选出权重高的事件触发词。

    基于机器学习的事件触发词的抽取主要包括以下几个步骤:1) 用分词工具对中文文本进行预处理,即分句、分词、词性标注,然后,从预处理后的文本中筛选出名词、动词、动名词;2) 选取触发词的自身词性特征及词的上下文特征构造向量空间模型,从而创建训练集获得机器学习模型;3) 用SVM机器学习方法对测试集进行分类。

    实验表明,该方法抽取效果比较理想,F值可达到69.7%[14]。

    4 已知问题

    1. 底层技术研究不够成熟,导致错误级联。事件抽取对底层的子任务结果有很大的依赖性,但由于实体识别、深层句法分析等底层技术还不成熟,给事件抽取带来了级联错误。并且,目前缺乏对子任务输出结果的评估及矫正技术
    2. 事件抽取系统的领域可扩展性和可移植性不够理想。目前的研究大多是基于 MUC 或 ACE 展开,只针对某个特定领域或几个类型的事件进行研究。系统的应用受到领域的限制,不能够随着领域的变化进行简单快速的移植或扩展;
    3. 语料有待进一步完善。机器学习方法的引入提高了事件抽取系统的可移植性,但由于缺乏大规模的成熟语料库和标准语料,目前该类系统的效果不够理想,由此可见语料的完善是一个亟待解决的问题;
    4. 如何设计神经网络模型以实现多任务联合是一大难点。

    5 研究趋势

    1. 进一步提高事件抽取的精度和召回率,改进抽取的方法,加强底层技术攻关,开展对中间结果的可信度评估研究。要使事件抽取技术取得突破,必须改进其所依赖的底层技术;
    2. 跨文档、跨语言的事件抽取研究将更为广泛。目前,事件抽取的水平还局限在对独立文本的处理上,跨文档的研究尚处于探索阶段,随着跨文档语义理解及信息归并技术和多语言文本处理技术的发展,跨文档、跨语言的事件抽取必然成为新的研究热点
    3. 面向开放领域的事件抽取即将广受重视。事件抽取系统的领域可扩展性和可移植性仍将是研究的重点。未来的事件抽取研究将以应用为需求,面向开放领域而不再局 限于某个具体领域,为此需要探究各种方式提高系统的移植性;
    4. 融合外部资源的神经网络方法当前集中于构建大规模数据集,已取得良好效果。由于事件抽取数据集的构建难度、现有数据集的局限和不同应用领域数据的差异,如何有效地借助外部资源进行事件抽取的方法也是一个亟待研究的发展方向。 例如,鉴于语义角色标注任务( Semantic Role Labelling,SRL) 和事件抽取任务的相似之处,借助大规模语义角色标注相关资源辅助事件抽取。利用迁移学习方法解决数据缺失问题也将成为后续具备学术前瞻性的重点研究方向。

    参考文献

    [1] 薛亚非.面向自然语言处理的深度学习[J].电子技术与软件工程,2018(12):144-145.

    [2] 秦彦霞,张民,郑德权.神经网络事件抽取技术综述[J].智能计算机与应用,2018,8(03):1-5+10.

    [3] 高强,游宏梁.事件抽取技术研究综述[J].情报理论与实践,2013,36(04):114-117+128.

    [4] 郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(02):14-17+38.

    [5] 吉久明,陈锦辉,李楠,孙济庆.中文事件抽取研究文献之算法效果分析[J].现代情报,2015,35(12):3-10.

    [6] 赵小明,朱洪波,陈黎,王亚强,秦湘清,于中华.基于多分类器的金融领域多元关系信息抽取算法[J].计算机工程与设计,2011,32(07):2348-2351.

    [7] Han S, Hao X, Huang H. An event-extraction approach for business analysis from online chinese news[J]. Electronic Commerce Research & Applications, 2018:244-260.

    [8] Anran Wang, Jian Wang. A multiple distributed representation method based on neural network for biomedical event extraction[J]. BMC Medical Informatics and Decision Making, 2017:60-66.

    [9] Natalia Viani1, Timothy A. Miller. Recurrent Neural Network Architectures for Event Extraction from Italian Medical Reports[J]. Artificial Intelligence in Medicine, 2017:198-202

    [10]  赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008(01):3-8.

    [11] Xiao DING, Bing QIN, Ting LIU.自底向上事件抽取系统(英文)[J].Frontiers of Information Technology & Electronic Engineering,2015,16(07):541-553.

    [12] 李培峰,周国栋,朱巧明.基于语义的中文事件触发词抽取联合模型[J].软件学报,2016,27(02):280-294.

    [13] Wang Wei, Zhao Dongyan, Zou Lei, et al.Extracting 5W1H event semantic elements from Chinese online news[C].Tiergartenstrasse Verlag,2010,6184  LNCS: 644 -655

    [14] 轩小星,廖涛,高贝贝.中文事件触发词的自动抽取研究[J].计算机与数字工程,2015,43(03):457-461.

     

     

    展开全文
  • 论文笔记整理:叶宏彬,浙江大学博士生,研究方向为知识图谱、自然语言处理。链接:https://arxiv.org/pdf/1904.07535.pdf背景大多数现有的事件...

    论文笔记整理:叶宏彬,浙江大学博士生,研究方向为知识图谱、自然语言处理。


    640?wx_fmt=png

    链接:https://arxiv.org/pdf/1904.07535.pdf

    背景

    大多数现有的事件提取(EE)方法仅提取句子范围内的事件参数。但是,此类句子级的EE方法难以处理来自新兴应用领域(例如金融,法律,健康等)的大量文档,其中事件论元分散在不同的句子中,甚至多个事件实例在同一文档中同时存在。为了应对这些挑战,本文提出了一种新颖的端到端解决方案 Doc2EDAG,该解决方案可以有效地生成基于实体的有向无环图,以实现文档级事件抽取。

    动机

    本文的附录部分展示了中文金融事件抽取的几个难点,并用之前的 DCFEE模型作了对比分析:1)在多事件任务下,尽管 DCFEE-O 可以正确地识别关键语句,但它无法决定此语句表示多少事件,DCFEE-M 会产生多个部分正确的事件,但是 DCFEE-M 的论元补全阶段是上下文无关的;2)对于不同的句子多次提及同一事件的环境下,DCFEE 模型的关键句子检测模块无法有效地区分重复的事件实例,造成抽取事件冗余;3)当一个文档由多个简单的句子片段构成时,事件的论元散落在各个句子中,DCFEE 模型无法有效地将这些零碎的信息整合起来识别完整的事件论元及事件角色。

    模型

    640?wx_fmt=png

    模型分为四个阶段的处理流程:

    1)预处理模块:通过词嵌入矩阵将文档中的句子序列 [s1; s2; · · · ; sNs ] 转化为词向量表示的嵌入矩阵 si ∈ Rdw×Nw,并采用 Transformer 作为上下文编码器对实体单位进行编码训练,hi = Transformer-1(si)。在训练过程中,使用事件论元的角色信息作为实体标签,使用经典的BIO(Begin,Inside, Other)方案,并用 crf 层将其封装起来,以获得实体识别 Loss 函数。

    2)文档级信息融合模块:为了有效地解决论元分散的挑战,必须利用全局上下文来更好地识别一个实体是否扮演特定的事件角色。因此,该文档级别实体编码阶段的目标是用这样的上下文对提取的实体提及进行编码,并为每个实体提到的内容生成大小为dw的嵌入。由于涉及的实体通常包含多个可变长度的令牌,因此采用注意力加权平均(AWA)模块,为每个实例获得一个固定大小的嵌入ei∈ Rdw,对于每一个句子,也用另一个AWA模块来获得每个句子的固定大小的嵌入ci∈ Rdw。为了提高对文档级上下文的认识,作者使用了第二个 transformer 模块,以方便所有实例和句子之间的信息交换。模型中还增加了句子的嵌入位置来指示句子的顺序。在转换器编码之后,作者还使用一个AWA模块将相同实例的嵌入聚合到单个嵌入中。在这个阶段之后,获得了文档级上下文有关的实例和句子表示,并对每种事件类型进行事件触发分类。

    3)文档级信息记忆模块:在依次生成基于实体的有向无环图(EDAG)时,必须同时考虑文档级上下文和路径中已经存在的实体。因此,作者设计了一种内存机制,初始化为句子的嵌入向量。更新 EDAG 时需要追加已经识别的实体嵌入或零矩阵向量(假如识别的是NA argument)。

    4)路径扩展模块:当扩展事件路径时,对每个实体进行二进制分类,展开(1)或不展开(0),结合当前路径状态、历史上下文和当前角色信息。首先连接记忆张量m和实体张量 ed,然后用event-role-indicator 嵌入它们,并将它们送入第三个 transformer 模块。然后,从 transformer-3 的输出中提取出丰富的实体张量 er,并在此基础上进行路径扩展分类。

    实验

    ChFinAnn 数据集(本文使用的)与 DCFEE 使用的数据集相比,ChFinAnn 要大十倍,其中约 30% 的文档包含多个事件记录。文中实验表明,当面对DEE(文档级事件抽取)任务时,Doc2EDAG 获得当前最好的结果。

    640?wx_fmt=png

    640?wx_fmt=png

    总结 

    本文的贡献包括:

    1)提出了一种新颖的解决方案 Doc2EDAG,该解决方案可以在给定文档的情况下直接生成事件表,以有效应对 DEE 的独特挑战。

    2)重新设计了无需触发词的 DEE 任务,以简化基于 DS 的文档级事件标记。

    3)为 DEE 建立了一个大规模的现实世界数据集,它面临着事件论元分散和多事件的挑战,并进行广泛的实验证明了 Doc2EDAG 的优越性。

     


    OpenKG

    开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

    640?wx_fmt=jpeg

    点击阅读原文,进入 OpenKG 博客。

    展开全文
  • 摘要部分 本文主要研究中文事件抽取技术,这其中主要包括...针对传统基于机器学习的方法通常将句法分析信息转化为平面特征,并不能全面利用句法分析信息的问题,提出了一种基于卷积树核的事件论元角色抽取方法。 我...

    摘要部分
    本文主要研究中文事件抽取技术,这其中主要包括三个方面:
    1、时间表达式识别
    提出一种基于词典特征优化和依存关系的中文时间表达
    式识别方法。
    2、事件检测与分类
    提出了一种基于依存句法分析与分类器融合的事件触
    发词抽取方法。
    3、事件论元角色抽取
    针对传统基于机器学习的方法通常将句法分析信息转化为平面特征,并不能全面利用句法分析信息的问题,提出了一种基于卷积树核的事件论元角色抽取方法。

    我们知道信息抽取一共包括五部分内容:
    实体识别,事件抽取,实体和事件关系抽取,代词指代消解,模板元素抽取

    (积累)中文事件抽取技术面临的主要问题包括:

    1、前置基础技术研究不够完善,精度有待提高,如命名实体识别、浅层语义分析等;
    2、仅利用句子基本语言特征及浅层语义知识,没能进行深层语义挖掘
    3、所有特征放于同一平面之内,没有层次结构,没有评估不同特征的重要程度。面对以上问题,分类器融合技术及核方法在一定程度上可以缓解后两个问题。

    1、时间表达式的识别方法通常有两类:基于规则的方法和基于机器学习的方法。
    

    ‘’’
    基于规则的现存技术:

    基于依存分析和错误驱动的中文时间表达式识别方法、“时间基元”、对时态元素进行刻画的思想,并由此采用正则表达式与 Trie 树结构相结合的方式构建时间短语识别树,进行中文时间表达式的识别与分类、基于层叠有限状态自动机的 C-TERN算法,用于中文军事文本中时间表达式的识别与规范化。

    基于机器学习的现存技术:是将时间表达式识别看作分类问题。

    时间表达式识别可转化为序列标注问题、机器学习的方法运用于网页发布时间的识别、将时间表达式分为日期型短语和事件型短语,运用条件随机场模型分别识别两种类型的中文时间表达式、在表达式识别过程中引入语义角色特征来提高中文时间表达式识别效果、利用条件随机场模型,基于清华汉语树库构建时间表达式知识来完成中文时间表达式识别。

    ‘’’

     2、事件抽取研究现状分析:
    

    事件抽取主要分为事件检测与分类和事件论元角色抽取两个环节。归纳起来主要分为基于模板匹配的方法和基于机器学习的方法。

    ps:

    事件触发词(Trigger)是能够触动事件发生的词,体现着事件最重要的特征,并决定着事件的类型

    ps:

    WordNet是由Princeton
    大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。
     它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。
     WordNet包含描述概念含义,一义多词,一词多义,类别归属,近义,反义等问题,访问以下网页,可使用wordnet的基本功能
    http://wordnetweb.princeton.edu/perl/webwn

    本文着重对句法分析信息在事件抽取中的应用进行了探讨。

    本文主要研究中文事件抽取相关技术,重点对时间表达式识别、事件检测与分类和事 件论元角色抽取等三个方面进行研究。

    事件检测与分类
    1、单一触发词抽取
    2、抽取触发词-实体描述对
    3、管道模型和联合模型下将单一触发词的抽取结果与触发词-实体描述对的抽取结果相融合来最终完成事件触发词抽取,从而实现事件的检测与分类。

    在这里插入图片描述

    基于词典特征优化和依存关系的中文时间表达式识别

    时间表达式识别问题即是确定蕴含在文本中的时间表达式的边界。
    基本流程:
    (1)预处理:对语料中文分词,词性标注,句法分析等,并且将训练语料进行BIO标注;
    (2)训练:从预处理后的预料中提取特征,生成训练文件和特征模板文件,将生成的文件通过 CRF 模型训练成模型文件。
    (3)测试:将 CRF 模型文件用于测试语料,进行 BIO 序列标注,完成时间表达式识别。

    • 难点:特征提取

      这里除了之前研究者用的两类常用特征:基本特征和词典特征,还对词典特征进行了优化并且增加了第三类特征即依存特征,来提高时间表达式识别的性能。

    1、时间单位词典(38个):’年‘,’载‘,’号‘…
    2、时间词词典(547个):’昨天‘,’春天‘,’中午‘,’一会儿‘,’当代‘…
    时间词词典中的词单独可表示一个时间意义,而时间单位词典中的
    时间单位经常需要与一个数词相结合才能表示一个完整的时间意义。

    依存特征的设定:参照原文
    对语料中词进行特征提取后,将每个提取出的特征作为该词特征向量中的一维来构成该词的特征向量。

    基于依存句法分析与分类器融合的事件触发词抽取

    原理:分别对应于事件的检测与分类。其中,事件检测通过判定句子中是否含有事件触发词来实现,事件的类型则是通过识别事件触发词类型来判断。

    流程:
    触发词抽取有管道和联合两种模型。
    触发词检测的三个步骤:
    1、设立一个BV集合(动词的六种主要结构),将训练语料中的所有是动词的单字触发词加入集合。
    2、将训练语料中的所有触发词拆分为单字,把为动词的单字触发词加入集合。
    3、对于测试语料中的所有单词,如果它包含 BV 集合中的某个 BV,则判断他为候选触发词;
    然后采用基于启发式的过滤方法去除错误的候选触发词,最后还要借用机器学习的方法进一步过滤错误的候选触发词。

    基于卷积树核的事件论元角色抽取方法原理分析
    基于机器学习的事件论元角色抽取即是将论元角色抽取看作是一个分类问题,其形式化描述为:对于一个事件描述,己知其事件类型和该类事件所对应的角色类别集合R{ r1,r2 ,…,rn , None},(None 表示非论元角色的 etv(实体,时间,数值) 的类别),事件描述包含的 etv 的集合为E={etv1 , etv2 ,…, etvn},为每个 etv 标记相应的类别,建立集合E 到集合 R 的映射。

    关键技术流程:
    1、语料进行预处理;
    2、通过候选事件论元角色和事件触发词在句法分析树中的关系构造基本树结构,裁剪算法去除树中的冗余信息;
    3、将平面特征构成的基本核与句法分析树构成的卷积树核共同构成复合核,并将其用于事件论元角色抽取对应的支持向量机分类器,实现抽取。

    
    **> ps:依存语法几条定理:** 
    > 1、一个句子中存在一个成分称之为根(root),这个成分不依赖于其它成分。
    > 
    > 2、其它成分直接依存于某一成分;
    > 
    > 3、任何一个成分都不能依存与两个或两个以上的成分;
    > 
    > 4、如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;
    > 
    > 5、中心成分左右两面的其它成分相互不发生关系。
    
    

    特征提取:
    一、平面特征:
    本文选取了23个特征作为分类器特征,本章采用不包含最短路径特征在内的21个特征作为平面特征。具体见原文

    二、结构特征:
    (1)构造树结构(三种)
    (2)树结构的裁剪:

    展开全文
  • 知识抽取-事件抽取

    千次阅读 2020-07-02 16:44:37
    接上篇知识抽取-实体及关系抽取,前置知识在这篇不多做解释啦。 事件是促使事情状态和关系改变的条件[Dong et.al., 2010]。目前已存在的知识资源(如维基百科等) 所描述实体及实体间的关系大多是静态的,而...

    接上一篇知识抽取-实体及关系抽取,前置知识在这一篇不多做解释啦。

    事件是促使事情状态和关系改变的条件[Dong et.al., 2010]。目前已存在的知识资源(如维基百科等) 所描述实体及实体间的关系大多是静态的,而事件能描述粒度更大的、动态的、 结构化的知识,是现有知识资源的重要补充。

    关系抽取相比,事件抽取同样需要从文本中抽取 predicate 和对应的 arguments,但不同的是,关系抽取的问题是 binary 的,且两个 arguments 通常都会在同一个句子中出现,而事件抽取的难点在于,有多个 arguments 和 modifiers,可能会分布在多个句子中,且有些 arguments 不是必须的,这使得 bootstrapping/distant learning/coreference 都变得非常困难。

    整体而言,事件抽取的任务可以分两大类:

    • 事件识别和抽取
      从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。
    • 事件检测和追踪
      事件检测与追踪旨在将文本新闻流按照其报道的事件进行组织,为传统媒体多种来源的新闻监控提供核心技术,以便让用户了解新闻及其发展。具体而言,事件发现与跟踪包括三个主要任务:分割,发现和跟踪,将新闻文本分解为事件, 发现新的(不可预见的)事件,并跟踪以前报道事件的发展。
      事件发现任务又可细分为历史事件发现在线事件发现两种形式,前者目标是从按时间排序的新闻文档中发现以前没有识别的事件,后者则是从实时新闻流中实时发现新的事件。

    本文的重点在于事件识别与抽取。首先看一下相关的核心概念:

    • 事件描述(Event Mention)
      描述事件的词组/句子/句群,包含一个 trigger 以及任意数量的 arguments
    • 事件触发(Event Trigger)
      事件描述中最能代表事件发生的词汇,决定事件类别的重要特征,一般是动词或者名词
    • 事件元素(Event Argument)
      事件的重要信息,或者说是实体描述(entity mention),主要由实体、属性值等表达完整语义的细粒度单位组成
    • 元素角色(Argument Role)
      事件元素在事件中扮演的角色,事件元素与事件的语义关系,可以理解为 slot
    • 事件类型(Event Type)

    1. 事件识别和抽取

    直观上来看,可以把事件抽取的任务理解成从文本中找到特定类别的事件,然后进行填表的过程。

    严肃些看下事件识别和抽取的任务定义:

    Given a text document, an event extraction system should  predict event triggers with specific  sub-types and  their arguments for each sentence.

    也就是说,事件抽取任务最基础的部分包括:

    • 识别事件触发词及事件类型
    • 抽取事件元素(Event Argument)同时判断其角色(Argument Role)
    • 抽出描述事件的词组或句子

    当然还有一些其他的子任务包括事件属性标注、事件共指消解等。

    事件抽取大多是分阶段进行,通常由 trigger classifier 开始,如果有 trigger,把 trigger 以及它的上下文作为特征进行分类判断事件类型,再进行下一步的 argument classifier,对句子中的每个 entity mention 进行分类,判断是否是 argument,如果是,判定它的角色。

    1.1 基于模式匹配的方法

    MUCs 最开始,事件抽取的系统都是基于人工编写的规则,基于语法树或者正则表达式,如 CIRCUS (Lehnert 1991), RAPIER (Califf & Mooney 1997), SRV (Freitag 1998), AutoSlog (Riloff 1993), LIEP (Huffman 1995), PALKA (Kim & Moldovan 1995), CRYSTAL (Soderland et al. 1995), HASTEN (Krupka 1995) 等等,后来,慢慢的有了监督学习的模型,在 ACE 的阶段,大多数系统都是基于监督学习了,但由于标注一致性的问题,系统的效果普遍较差,ACE 事件抽取只举行了一次,在 2005 年。

    下面先来看一下基于模板的抽取方法,基本都是通过 句法(syntactic) 和 语义约束(semantic constraints) 来进行识别。

    1.1.1 基于人工标注语料

    在早期,模板创建过程通常从一个大的标注集开始,模板的产生完全基于人工标注语料,学习效果高度依赖于人工标注质量。

    • AutoSlog(Riloff)
      基本假设:
      a. 事件元素首次提及之处即可确定该元素与事件间的关系
      b. 事件元素周围的语句中包含了事件元素在事件中的角色描述
      通过监督学习和人工审查来建立抽取规则。通过训练数据中已经填充好的槽(filled slot),AutoSlog 解析 slot 附近的句法结构,来自动形成抽取规则,由于这个过程产生的模板 too-general,所以需要人工来审核。本质上形成的是一个字典。
      举个例子
      Ricardo Castellar, the mayor, was kidnapped yesterday by the FMLN.
      假设 Ricardo Castellar 被标注成了 victim,AutoSlog 根据句法分析判断出 Ricardo Castellar 是主语,然后触发了主语的相关规则 (subj) passive-verb,将句子中相关的单词填充进去就得到了规则 (victim) was kidnapped,所以在之后的文本中,只要 kidnapped 在一个被动结构中出现,它对应的主语就会被标记为 victim。
    • PALKA
      基本假设:特定领域中高频出现的语言表达方式是可数的
      用语义框架和短语模式结构来表示特定领域中的抽取模式,通过融入 WordNet 的语义信息,PALKA 在特定领域可取得接近纯人工抽取的效果。

    1.1.2 基于弱监督

    人工标注耗时耗力,且存在一致性问题,而弱监督方法不需要对语料进行完全标注,只需人工对语料进行一定的预分类或者制定种子模板,由机器根据预分类语料或种子模板自动进行模式学习。

    一些系统:

    • AutoSlog-TS
      Riloff and Shoen, 1995
      AutoSlog-TS 不需要进行文本的标注,只需要一个预先分类好的训练语料,类别是与该领域相关还是不相关。过程是先过一遍语料库,对每一个名词短语(根据句法分析识别)都产生对应的抽取规则,然后再整体过一遍语料库,产生每个规则的一些相关统计数据,基本的 idea 是与不相关文本相比,在相关文本中更常出现的抽取规则更有可能是好的抽取规则。假设训练语料中相关与不相关的文本比例是 1:1,对产生的每条抽取规则计算相关比率 relevance rate,相关文档中出现规则的实例数/整个语料库中出现规则的实例数,那么 relevance rate < 50% 的抽取规则就被丢弃了,剩下的规则会按照 relevance_rate * log(frequency) 的形式从高到低进行排序,然后由人工进行审核。
    • TIMES
      Chai and Biermann, 1998
      引入了领域无关的概念知识库 WordNet,提升模式学习的泛化能力,并通过人工或规则进行词义消歧,使最终的模式更加准确
    • NEXUS
      Piskorski et.al., 2001; Tanev et.al., 2008
      用聚类对语料进行预处理
    • GenPAM
      Jiang, 2005
      在由特例生成泛化模式的学习过程中,有效利用模式间的相似性实现词义消歧,最大限度地减少了人工的工作量和对系统的干预

    1.1.3 小结

    基于模式匹配的方法在特定领域中性能较好,知识表示简洁,便于理解和后续应用,但对于语言、领域和文档形式都有不同程度的依赖,覆盖度和可移植性较差。

    模式匹配的方法中,模板准确性是影响整个方法性能的重要因素。在实际应用中,模式匹配方法应用非常广泛,主要特点是高准确率低召回率,要提高召回率,一是要建立更完整的模板库,二是可以用半监督的方法来建 trigger 字典。

    1.2 基于统计 - 传统机器学习

    建立在统计模型基础上,事件抽取方法可以分为 pipeline 和 joint model 两大类。

    1.2.1 Pipeline

    将事件抽取任务转化为多阶段的分类问题(管道抽取),需要顺序执行下面的分类器:

    1. 事件触发词分类器(Trigger Classifier)
      判断词汇是否是事件触发词,以及事件类别
    2. 元素分类器(Argument Classifier)
      词组是否是事件元素
    3. 元素角色分类器(Role Classifier)
      判定元素的角色类别
    4. 属性分类器(Attribute Classifier)
      判定事件属性
    5. 可报告性分类器(Reportable-Event Classifier)
      判定是否存在值得报告的事件实例

    分类器可以用 MaxEnt, SVM。重点还是在于提取和集成有区分性的特征,包括 句子级信息 和 篇章级信息

    句子级信息:与候选词相关的词法特征、上下文特征、实体特征、句法特征、语言学特征等,如:

    篇章级特征:
    跨文档利用全局信息。对于一个句子级的抽取结果不仅要考虑当前的置信度,还要考虑与待抽取文本相关的文本对它的影响,以及全局信息如事件与话题的关系,事件与事件的共现信息等,主要工作有:

    • Ji and Grishman, 2008
    • Liao and Grishman, 2010
    • Hong et.al., 2011
    • Liu et.al., 2016a

    早期大部分的研究都是基于 Pipeline 方法,然而它的问题也很明显:

    • 误差传递,导致性能衰减
    • 各环节预测任务独立,缺少互动,如忽略了事件触发词和事件元素之间的相互影响
    • 无法处理全局的依赖关系

    1.2.2 Joint Model

    又分为 Joint Inference 和 Joint Modeling 两种。

    Joint Inference 使用集成学习的思路,将各模型通过整体优化目标整合起来,可以通过整数规划等方法进行优化。
    Joint Modeling (Structured) 又可以称为基于结构的方法,将事件结构看作依存树,抽取任务相应转化为依存树结构预测问题,触发词识别和元素抽取可以同时完成,共享隐层特征,使用搜索进行求解,避免了误差传播导致的性能下降,另外,全局特征也可以从整体的结构中学习得到,从而使用全局的信息来提升局部的预测。相关工作有:

    • Li et.al., 2013a
      Li 提出基于结构感知机的联合模型同时完成事件触发词识别和事件元素识别两个子任务,并通过 beam search 缩小搜索解空间
    • Li et.al., 2014
      为了利用更多的句子级信息,Li 等提出利用结构预测模型将实体、关系和事件进行联合抽取

    尽管 Li 等人的联合系统优势明显,但在未见词和特征上缺乏泛化,人工提取的特征集是离散表达,能力有限。

    几种方法的 trigger 和 argument 抽取结果,可以看出,实体之间协同消歧对效果提升非常明显

    1.3 基于统计 - 深度学习

    上面的方法在特征提取过程中还是会依赖依存分析、句法分析、词性标注等传统的外部 NLP 工具,还是会造成误差积累,另外有些语言和领域并没有这类处理工具,加之特征也需要人工设定,2015 年起基于深度学习的事件抽取方法逐渐成为研究热点,相比于传统机器学习,深度学习方法优势明显:

    1. 减少对外部 NLP 工具的依赖 , 甚至不依赖 NLP 工具 , 建立成端对端的系统
    2. 使用词向量作为输入,蕴含更为丰富的语言特征
    3. 自动提取句子特征, 避免了人工特征设计的繁琐工作

    1.3.1 Pipeline - DMCNN

    Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks Yubo Chen et. al., ACL 2015

    自然语言处理中,传统 CNN 使用的最大池化对一个 feature map 只能得到一个最大值,这对事件抽取并不适用,因为事件抽取中一个句子中可能会包含多个事件,一个 argument candidate 在不同的 trigger 下也会扮演不同的角色,传统的最大池化只保留“最重要”的信息,而丢失的信息会导致 multiple-event sentence 下的事件漏分。DMCNN 使用动态多池化卷积能实现对一个句子中不同部分的最大值获取,以保留更多有价值的信息,逻辑和 PCNN 相似。

    DMCNN 作者把事件抽取看做两个阶段的多分类任务,第一步是触发词分类(trigger classification),利用 DMCNN 对句子中每个词进行分类,判断是否是触发词,如果句子中存在触发词,执行第二步论元分类(argument classification),同样使用 DMCNN,给 trigger 分配 arguments,同时匹配 arguments 到 role,以第二个任务为例介绍一下过程。

    主要包括四个部分,以 argument classification 为例:

    1. 词向量学习;
    2. Lexical-level 词汇级别特征提取;
      候选论元/触发词及其前后单词的词向量
    3. Sentence-level 句子级别特征提取;
      输入特征:
      a. Context-word feature(CWF)
      b. Position feature(PF)当前词语和候选论元/触发词之间的相对距离,距离值用向量表示,随机初始化
      c. Event-type feature(EF)当前 trigger 对应的事件类型特征
      d. CWF, PF, EF 拼接作为卷积的输入
      卷积后,根据 candidate argument 和 predicted trigger 将 feature map 分成三部分,分别对各部分进行最大池化
    4. Output 分类输出
      拼接词汇级别和句子级别的特征 F=[L, P]
      O = WF+b 算分,进行 softmax,得到 argument role 的类别

    Trigger classification 阶段:

    • Lexical-level
      只使用候选触发词和其左右token
    • Sentence-level
      CWF + PF,PF 只使用候选触发词的位置作为嵌入位置特征
      句子由触发词分割成两部分

     

    DMCNN 的表现:

     

    DMCNN 的效果是突破性的,但分两个阶段的预测仍有误差传递的问题,也没有利用好 trigger 和 argument 之间的依赖关系。

    1.3.2 Joint Model - JRNN

    JRNN: Joint Event Extraction via Recurrent Neural Networks, ACL 2016

    Nguyen et.al., 2016 通过 RNN 用联合方法解决时间抽取的问题,继承了 Li (2013) 和 Chen (2015) 的优点,并克服了它们的一些缺陷。

    1. Encoding phase
      word embedding + entity type embedding + dependency tree relation
      dependency tree relation 是 binary 的,个人理解应该是维度对应依存树中单词间所有可能的关系(如 conj_and, advcl 等),只有在依存树 W 中存在与 w_i 连接的一条对应边(如 conj_and 连接了 w_i 与 w_j)时,该维度(conj_and 对应维度)的值才设为 1,这个向量在 Li et al., 2013 的研究中是有用的。
      没有用到位置特征,因为同时预测 trigger 和 argument roles,没有固定的锚点。
      双向 GRU 进行编码
    2. Prediction phase

    对 W 对应的 trigger 和 argument role 分别维护了一个 binary memory vector G_i^{trg}, binary memory matrices G_i^{arg} 以及G_i^{arg|trg} 
    每个时间点 i,或者说对w_i 
    a. 对w_i 进行 trigger 预测
    b. 如果 trigger 预测结果t_i 是 other,那么a_{ij}  j 从 1-k 都设为 other,然后进行下一步,否则对所有的 entity mention e1, e2,…,ek 进行 argument role 预测
    c. 利用上一步的记忆向量以及之前步骤的预测来计算G_i^{trg}G_i^{arg} and G_i^{arg|trg}

          3. Output:

    trigger subtype t_i for w_i
    predicted argument roles a_{i1}a_{i2}...a_{ik}
    memory vector/matrics G_i^{trg}G_i^{arg} and G_i^{arg|trg}

    Memory 向量代表的是同一个句子中触发词和论元角色之间的相互关系,G_i^{trg}代表的是 trigger subtypes 之间的关系,表示在 i 之前已经识别出哪些子事件,比如说句子中检测到了 Die 事件,那么很有可能下面会同时会出现 Attack 事件;

    G_i^{arg}代表的是论元角色之间的关系,总结了 entity mention 在过去扮演的 论元角色信息;G_i^{arg|trg}对应的是 arugment roles 和 trigger subtypes 之间的关系,表示 entity mention 在之前特定 event subtypes 扮演过 argument,G_i^{arg|trg}[j][i]=1代表e_j 在之前的 subtype t 中被认为是 argument。 实验表明,G_i^{trg} 并没有帮助反而会导致整体性能下降,而G_i^{arg|trg}还是很有效的。

    当输入句子包含多个事件时(1/N),JRNN 明显优于其他方法。特别是,JRNN 在触发词识别上 DMCNN 好13.9%,而论元分类的相应改进为 6.5%,从而进一步表明 JRNN 具有记忆功能的好处。在单事件句子(1/1)的表现上,JRNN 在触发词分类上仍然是最好的系统,尽管在论元分类上比 DMCNN 要差一些。

    1.4 弱监督/语料扩充

    有监督的方法需要大量的标注样本,人工标注耗时耗力,还存在一致性的问题,因此弱监督方法也是事件抽取的一个重要分支。Chen 等提出利用部分高质量的标注语料训练分类器,然后利用初步训练好的分类器判断未标注的数据,选取高置信度的分类样本作为训练样本,通过迭代自动扩充训练样本[Chen and Ji, 2009]。Liao 等在相关文档中使用自训练的(Self-Training)的半监督学习方法扩展标注语料,并利用全局推理的方法考虑样例的多样性进而完成事件抽取;进一步提出同时针对词汇和句子两个粒度训练最大熵分类器,并用协同训练(Co-training)的方法扩展标注数据,进而对分类器进行更充分的训练[Liao and Grishman, 2011a; 2011b]。

    而目前,弱监督/训练数据生成方面比较流行的方向有 利用外部资源,通过远程监督,以及跨语料迁移的方法

    1.4.1 外部资源

    Leveraging FrameNet to Improve Automatic Event Detection, ACL2016

    FrameNet 是语言学家定义及标注的语义框架资源,采用层级的组织结构,有1000+框架、1000+词法单元、150000+标注例句。在结构上,FrameNet 和事件抽取有着很高的相似性,一个框架由一个词法单元和若干框架元素组成,一个事件有触发词和若干事件角色组成。另外,FrameNet 中很多 frame 其实也能够表示某些事件,如

    因此,Liu 等利用 ACE 语料训练的分类器去判定 FrameNet 中句子的事件类别,再利用全局推断将 FrameNet 的语义框架和 ACE 中的事件类别进行映射,进而利用 FrameNet 中人工标注的事件样例扩展训练数据以提升事件检测性能 [Liu et.al., 2016b]。

    1.4.2 远程监督

    Automatically Labeled Data Generation for Large Scale Event Extraction, ACL2017

    Yubo Chen 提出运用结构化的知识库来以及远程监督的方法来自动生成大规模事件语料。

    当把关系抽取中常用的远程监督方法用到事件抽取中时,会发现有下面两个问题,一是现有事件知识库(如 Freebase)中缺乏触发词信息,如上图,在关系抽取中,我们可以用两个论元 Barack Obama, Michelle Obama 进行回标,但是在事件抽取中,marriage 这一事件类型在 Freebase 中被表示为 m.02nqglv,所以我们不能直接用事件类型和论元来进行回标,在用 DS 前,必须先检测触发词。

    根据 DS 在 RE 中的应用,可以假设如果一个句子中出现了所有的论元,那么这个句子就可以被作为是一个事件,句子中的动词就可以作为触发词。然而一个事件中的论元可能出现在多个句子中,如果用所有论元来进行句子的回标,那么能抽出的训练数据就非常少了,所以应该对论元进行排序,选择有代表性的伦愿你进行回标。

    整个流程如下,首先对 Freebase 中的核心论元进行检测,根据角色显著性(role saliency)、事件相关性( event relevance)和核心率(key rate) 对论元进行优先级排序,接着利用所有的核心论元去 Wikipeida 中回标,根据触发率(trigger rate)、触发词频率( trigger candidate frequency)、触发词事件频率(trigger event type frequency)来进行触发词检测,这一阶段得到的触发词表中只有动词,缺少名词,也存在噪声,于是再利用 FrameNet 过滤动词性触发词中的噪声,同时扩展名词性触发词,最后利用 Soft Distant Supervision 来自动生成标注数据。

    还有方法如 Karthik Narasimhan et al., EMNLP 2016,从网络获取同一事件的不同报道,再使用强化学习方法,做信息融合的决策(互补信息的融合、冗余信息的选择)。

    1.4.3 跨语料迁移

    由于目前中文事件抽取缺少公认语料,很多学者尝试利用现有大量的高质量英文标注语料辅助中文事件抽取。Chen 等首次提出该想法并利用跨语言协同训练的 Bootstrap 方法进行事件抽取[Chen and Ji, 2009]。Ji 提出基于中英文单语事件抽取系统和基于并行语料两种构建跨语言同义谓词集合的方法辅助进行中文事件抽取[Ji, 2009],Zhu 等利用机器翻译同时扩大中文和英文训练语料,联合利用两种语料进行事件抽取[Zhu et.al., 2014]。Hsi 等联合利用符号特征和分布式特征的方法,利用英文事件语料提升中文事件抽取的性能[Hsi et.al., 2016]。

    Event Detection via Gated Multilingual Attention Mechanism, AAAI2018

    Motivation:

    1. 多语言一致性,不同语言中表达了相同含义的句子往往包含相同的语义成分
      如 MeiGuo TanKe 和 American tank 表达了相同含义,都是武器
    2. 多语言互补,某个词在一种语言中有歧义,但在另一种语言中却没有歧义
      如英文 fire,因为有开火和解雇两种意思,所以对应事件可能是 Attack 也可能是 End-Position,然而在中文中开火,Attach 类型,解雇就是 End-Position 类型,两个词没有相同语义

    所以文章提出了两种 attention 机制,一是利用多语言一致性,分别对每种语言进行单语语境的注意力计算,对每个候选触发词,对其上下文进行注意力机制,注意力权重表示句子中不同单词对预测事件类型的重要性,二是利用互补信息,用 gated cross-lingual attention 来模拟其他语言的可信度,gate 来控制目标语言流向源语言的信息,集成多语言的信息。

    1.5 中文事件抽取

    目前事件抽取的相关研究大部分是面向英文文本,中文文本的工作才刚起步,一方面,中文的自身特点(需要分词、缺少时态和形态的变换)有一定挑战,另一方面,数据集上也缺乏统一、公认的语料资源和相关评测。尽管如此,近年来中文事件抽取在公开评测、领域扩展及上述的跨语料迁移方面也都取得了一些进展。

    公开评测方面,除了在模型方面的创新[Chen and Ng, 2012;Li et.al., 2012a;2013b],在中文语言特性的利用方面,Li 等通过中文词语的形态结构、同义词等信息捕获更多的未知触发词,进而解决中文事件抽取面临的分词错误和训练数据稀疏等问题; 进一步细分中文事件触发词内部的组合语义(复合、附加和转化),进而提高系统的性能[Li et.al., 2012b]。Ding 等利用聚类的方法自动生成新事件类型的语料, 在抽取过程中特别地考虑了待抽取文本的 HowNet 相似度[Ding et.al., 2013]。

    特定领域方面,国内很多机构均面向实际应用展开特定领域的事件抽取研究, 覆盖突发灾难、金融、军事、体育、音乐等多个领域。例如,Zhou 等针对金融领域事件中的收购、分红和贷款三个典型事件,提出自动构建抽取规则集的方法进行中文金融领域事件抽取 [Zhou, 2003];Liang 等利用事件框架的归纳和继承特性实现对灾难事件的抽取[Liang and Wu, 2006]。

    其他方向的一些 Paper:
    特征表示:
    – Argument Attention: Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms (ACL2017)
    多事件抽取:
    – HBTNGMA: Collective Event Detection via a Hierarchical and Bias Tagging Networks with Gated
    Multi-level Attention (EMNLP-2018)
    篇章级事件抽取:
    – DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled
    Training Data (ACL 2018)
    事件关系抽取:
    – ATT-ERNN: Attention-based Event Relevance Model for Stock Price Movement Prediction (CCKS-2017 Best Paper Award)
    – MLNN: Event Coreference Resolution via Multi-loss Neural Network without Arguments (CCKS-2018)

    2. 事件监测和追踪

    主流方法包括基于相似度聚类和基于概率统计两类。在这不多做介绍。以后有时间再补充。

    展开全文
  • 文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信息。目前,用于文本关键词提取的主要方法有四种:基于TF-IDF的关键词抽取、基于TextRank的...
  • 《DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data》DCFEE:基于自动标注训练数据的文档级中文金融事件抽取系统 Abstract 针对事件抽取(Event ...
  • 信息抽取研究领域的事件抽取技术

    千次阅读 2020-05-09 19:03:29
    Survey on Event Extraction Technology in Information Extraction Research Area 综述:信息抽取研究领域的事件抽取技术 目录Survey on Event Extraction Technology in Information ...主要事件抽取方法A.基于规则
  • 作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。 组成元素 组成事件的各元素包括: 触发词、事件类型、论元及论元角色。 事件触发词(event trigger):...
  • 点击上方,选择星标或置顶,每天给你送干货!NewBeeNLP公众号原创出品公众号专栏作者@lucy北航博士在读·文本挖掘/事件抽取方向本系列文章主要总结近年来事件抽取方...
  • ETL是Extract、Transfrom、Load即抽取、转换、加载三个英文单词首字母的集合: E:抽取,从源系统(Souce)获取数据; T:转换,将源系统获取的数据进行处理加工,比如数据格式转化、数据精度转换、数据清洗、缺失...
  • 1、基于TF-IDF的文本关键词抽取方法 词频(Term Frequency,TF) 指某给定词语在当前文件中出现的频率。由于同个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度,需要对给定词语进行归一化,即...
  • 基于标题和正文依存树的中文网页正文抽取方法   王晓飞1    (1. 北京邮电大学 信息通信工程模式识别实验室,北京 100876)   摘 要: 正文抽取是许多数据挖掘技术的基础,其目的是为了从数据密集充满...
  • ChinesePersonRelationGraph ...中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用. 项目地址:htt...
  • 点击上方,选择星标或置顶,每天给你送干货!NewBeeNLP公众号原创出品公众号专栏作者@lucy北航博士在读·文本挖掘/事件抽取方向本系列文章主要分享近年来事...
  • 在进行这项工作时,我们将重点放在那些与事件相关的,频繁,有影响力且主要由自然语言表达的事件上。 3 文档级事件标注 作为DEE的前提工作,我们首先在文档级别进行基于远程监督的事件标注。更具体地说,我们将表格...
  • 文本特征抽取 作用:对文本数据进行特征值化 类:sklearn.feature_extraction.text.CountVectorizer 1.CountVectorizer语法 •CountVectorizer(max_df=1.0,min_df=1,…) •返回词频矩阵 •CountVectorizer....
  • 目录基于规则的海事自由文本信息抽取方法研究.前言二.自由文本信息抽取方法2.1 基本组成结构2.2 评价标准 .前言 海事事故数据作为评估现有安全水平和降低风险措施有效性的基础,在进行风险分析时必不可少。目前...
  • NW(Newswire)、BN(Broadcast News)、BC(Broadcast Conversation)、WL(Weblog)、UN(Usenet Newsgroups/Discussion Forum)、CTS(Conversational Telephone Speech),主要关注内容为下面两文件。 .sgm文件:原始文本...
  • 然而,数据科学中兴起了另一种方法论——“问题→数据→问题”,即根据“问题”找“数据”,并直接用“数据”(在不需要把“数据”转换成“知识”的前提下)解决“问题”,如图 2 所示。 图 2 传统思维大数据...
  • 简易自动文摘(word2vec+textrank) ... 所以我写这篇博客的目的主要是记录一下在学习过程中遇到的一些问题,和这些问题的解决方案,避免大家走和我...前期准备工作(包括下载中文语料库、提取正文、繁简转化、jie...
  • 知识抽取

    千次阅读 2018-09-01 22:25:33
    这部分知识涉及到知识图谱重要环节,知识抽取和知识链接,会涉及到很多算法和抽取pipline。需要较强的背景知识,本文仅把思路和算法做了概括并没详细展开讲解,需要了解相关算法细节可以谷歌。 目录  知识抽取...
  • 针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性...
  • 摘要:本文在利用语义和规则的基础上,提出了个Web网页信息细粒度抽取方法方法首先,利用Web网页的结构和HTML标签信息进行网页的粗粒度信息抽取;其次,结合网页标签、结构和文本语义将粗粒度信息进行文本标识...
  • 、本体 1、本体的概念 本体( ontology)最先是被哲学领域研究者提出,其作用主要是为了更好地描述客观事物,在对客观事物描述的过程中,根据描述对象的共性将客观事物抽象为系统化的概念或专业术语。 概括而言,...
  • 一种用于实体关系三元组抽取的位置辅助分布标记方法方法一种属于共享参数的联合抽取方式,本论文将关系作为预设属性,通过分布标记出主、客实体得到三元组。模型有两类抽取器,一类用于确定主实体S,另一种用于...
  • 知识抽取-实体及关系抽取()

    万次阅读 2018-09-27 09:28:34
    知识抽取涉及的“知识”通常是 清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取方法各有不同,从结构化数据中获取知识用 D2R,其难点在于复杂表数据的处理,包括嵌套表、多列...
  • 背景:美国国防部高级研究计划局启动并资助目的是鼓励和开发更好的知识抽取方法 内容:组织者向参加者提供消息文本的样例和信息抽取任务的说明:参加者开发参赛系统并提交系统的输出结果。各个系统的结果标准结果...
  • . DeepDive DeepDive (http://deepdive.stanford.edu/) 是斯坦福大学开发的信息抽取系统,能处理文本、表格、图表、图片等多种格式的无结构数据,从中抽取结构化的信息。系统集成了文件分析、信息提取、信息整合...
  • 当然一个句子中可能不止两个实体,从而也不止一种关系,所以你要做的就是尽可能多的、且正确的抽取句子中的关系实体对。以中文句子为例,如下图: 上图中的抽取结果就是我们后面提供的代码的抽取结果。可能你会问...
  • 篇是关于知识抽取,整理并补充了上学时的两篇笔记 NLP笔记 – Information Extraction 和 NLP笔记 – Relation Extraction,梳理了知识抽取的基本方法,包括传统机器学习及经典的深度学习方法。 知识抽取涉及的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,671
精华内容 5,068
关键字:

一种中文事件抽取方法与流程