精华内容
下载资源
问答
  • 事件抽取任务数据集,科大讯飞2020比赛放出的事件抽取比赛的数据集,训练集测试集,nlp训练语料,事件抽取任务数据集
  • ACE05 关系抽取数据集

    千次阅读 2019-11-27 16:59:48
    ACE05 自然语言信息抽取数据集 简介 数据集概述 提供已经标注好的多种类型实体,关系和事件,目前该数据集主要用于事件抽取任务中 有中文、英文和阿拉伯文的数据 标注说明 标注过程如下 先进行1P和DUAL两轮...

    ACE05 自然语言信息抽取数据集

    简介

    • 数据集概述

      提供已经标注好的多种类型实体,关系和事件,目前该数据集主要用于事件抽取任务中

      有中文、英文和阿拉伯文的数据

    标注说明

    • 标注过程如下
    1. 先进行1P和DUAL两轮标注,标注的结果分别存储于对应语料的fp1和fp2目录下
    2. 对以上两轮标注的结果进行裁决,将才绝后的标注结果存储于对应语料的adj目录下
    3. 对于English的语料,对adj目录下标注的结果再进行一步处理,将结果存储于timex2norm目录下

    对应的标注过程和标注内容如下

        1P: entities        DUAL: entities
            values                values
            events                events
            relations             relations
                |                    |
                |                    |
                |_________?__________|
                          |
                          |
                          |
                          V
                     ADJ: entities
                          values
                          events
                          relations
                          |
                          |
                          |
                          V
                     NORM: TIMEX2 normalization 
                           (English only)
    

    目录架构

    • 目录架构如下

      ─Arabic              # 阿拉伯语语料库
      │  ├─bn
      │  │  ├─adj
      │  │  ├─altAdj
      │  │  ├─fp1
      │  │  └─fp2
      │  ├─nw
      │  │  ├─adj
      │  │  ├─altAdj
      │  │  ├─fp1
      │  │  └─fp2
      │  └─wl
      │      ├─adj
      │      ├─fp1
      │      └─fp2
      ├─Chinese             # 中文语料
      │  ├─bn
      │  │  ├─adj
      │  │  ├─fp1
      │  │  └─fp2
      │  ├─nw
      │  │  ├─adj
      │  │  ├─fp1
      │  │  └─fp2
      │  └─wl
      │      ├─adj
      │      ├─fp1
      │      └─fp2
      ├─dtd               # 数据说明文件  
      └─English           # 英文语料
          ├─bc
          │  ├─adj
          │  ├─fp1
          │  ├─fp2
          │  └─timex2norm
          ├─bn
          │  ├─adj
          │  ├─fp1
          │  ├─fp2
          │  └─timex2norm
          ├─cts
          │  ├─adj
          │  ├─fp1
          │  ├─fp2
          │  └─timex2norm
          ├─nw
          │  ├─adj
          │  ├─fp1
          │  ├─fp2
          │  └─timex2norm
          ├─un
          │  ├─adj
          │  ├─fp1
          │  ├─fp2
          │  └─timex2norm
          └─wl
              ├─adj
              ├─fp1
              ├─fp2
              └─timex2norm
      

    文件解读

    • 每份语料由如下所示的5个文件组成

      Source Text (.sgm) Files
      	- 这些文件是SGM格式的源文本文件,.sgm文件是UTF-8编码的
       ACE Program Format (APF) (.apf.xml) Files
      	- 这些文件采用ACE注释文件格式。
       AG (.ag.xml) Files
          - 这些是使用LDC的注释工具创建的注释文件,这些文件被转换为对应的.apf.xml文件。
       ID table (.tab) Files
          - 这些文件通过使用ag.xml文件和相应的apf.xml文件存储ID们之间的映射表
       AIF (.aif.xml) Files
      	- 这些是使用MITRE的Callisto创建的注释文件,仅适用于Valorem产生的阿拉伯数据。
      

    以下以/English/bn/CNN_ENG_20030630_085848.18为例进行具体的解读

    • CNN_ENG_20030630_085848.18.sgm中内容(关于类似<DOC>这些标签的含义可见dtd/ace_source_sgml.v1.0.2.dtd)

      <DOC>
      <DOCID> CNN_ENG_20030630_085848.18 </DOCID>#文件名字
      <DOCTYPE SOURCE="broadcast news"> NEWS STORY </DOCTYPE>#文件来源
      <DATETIME> 2003-06-30 09:23:30 </DATETIME>#时间
      <BODY>
      <TEXT>
      <TURN>#具体内容
      a wildfire in california forced hundreds of people from their homes.
      the fire, near the historic state park started yesterday when a
      trailer, hauled by a pickup, ignited on the golden state freeway. the
      fire consumed more than 500 acres is only about 35% contained. no
      injuries have been reported thankfully hat this time.
      </TURN>
      </TEXT>
      </BODY>
      <ENDTIME> 2003-06-30 09:23:54 </ENDTIME>
      </DOC>
      
    • CNN_ENG_20030630_085848.18.apf.xml

      .apf.xml文件是ACE标注过实体、关系、事件等要素后以XML格式呈现的文本(.apf.xml文件的说明文档是dtd/ace_source_sgml.apf.v5.1.1.dtd)。

      说一下dtd/ace_source_sgml.apf.v5.1.1.dtd应该怎么读

      <!ATTLIST relation           #relation的标签具有以下的几个属性
                                   ID       ID                        #REQUIRED 
                                   									#这个REQUIRED表示必须的
                                   TYPE     (PHYS|PART-WHOLE|PER-SOC|ORG-AFF|
                                             ART|GEN-AFF|METONYMY)    #REQUIRED
                                   SUBTYPE  (Located|Near|Geographical| #二级分类
                                             Subsidiary|Artifact|Business|
                                             Family|Lasting-Personal|Employment|
                                             Ownership|Founder|Student-Alum|
                                             Sports-Affiliation|
                                             Investor-Shareholder|
                                             Membership|
                                             User-Owner-Inventor-Manufacturer|
                                             Citizen-Resident-Religion-Ethnicity|
                                             Org-Location)            #IMPLIED
                                   MODALITY (Asserted|Other)          #IMPLIED
                                   TENSE    (Past|Present|Future|		#时态
                                             Unspecified)             #IMPLIED
      >
      

      relation标签:

      <relation ID="CNN_ENG_20030630_085848.18-R1" TYPE="ART" SUBTYPE="User-Owner-Inventor-Manufacturer" TENSE="Unspecified" MODALITY="Asserted">
      
    • 回到CNN_ENG_20030630_085848.18.apf.xml其中标记的要素包括

      1. ENTITY

        <entity ID="CNN_ENG_20030630_085848.18-E2" TYPE="PER" SUBTYPE="Group" CLASS="USP">
          <entity_mention ID="CNN_ENG_20030630_085848.18-E2-2" TYPE="NOM" LDCTYPE="NOM">
            <extent>
              <charseq START="100" END="117">hundreds of people</charseq>
            </extent>
            <head>
              <charseq START="112" END="117">people</charseq>
            </head>
          </entity_mention>
          <entity_mention ID="CNN_ENG_20030630_085848.18-E2-3" TYPE="PRO" LDCTYPE="PRO">
            <extent>
              <charseq START="124" END="128">their</charseq>
            </extent>
            <head>
              <charseq START="124" END="128">their</charseq>
            </head>
          </entity_mention>
        </entity>
        <entity ID="CNN_ENG_20030630_085848.18-E3" TYPE="FAC" SUBTYPE="Building-Grounds" CLASS="SPC">
          <entity_mention ID="CNN_ENG_20030630_085848.18-E3-4" TYPE="NOM" LDCTYPE="NOM">
            <extent>
              <charseq START="124" END="134">their homes</charseq>
            </extent>
            <head>
              <charseq START="130" END="134">homes</charseq>
            </head>
          </entity_mention>
        </entity>
        
        • entity包含4个必须具备的属性:ID,TYPE,SUBTYPE和CLASS

        • entity属性中的TYPE共有7类,分别是PER、ORG、LOC、GPE、FAC、VEH和WEA;每一类下都有若干对应的子类,具体可见dtd/ace_source_sgml.apf.v5.1.1.dtd文档;

          TYPE="PER" SUBTYPE="Individual"
          TYPE="PER" SUBTYPE="Group"
          TYPE="PER" SUBTYPE="Indeterminate"
          
          TYPE="ORG" SUBTYPE="Government"
          ...
          
        • entity_mention是对实体进一步区分他有extent和head两个子标签,extent代表词的全称,head代表词中最关键的单词。他有一系列的属性例如ID,TYPE,LDCTYPE,ROLE等。

        • entity还有external_link和entity_attributes这两个属性,external_link表示有些词有什么外部链接,entity_attributes表示将来可能要引入到库里的新词

      2. VALUE

        <value ID="CNN_ENG_20030630_085848.18-V1" TYPE="Numeric" SUBTYPE="Percent">
          <value_mention ID="CNN_ENG_20030630_085848.18-V1-1">
            <extent>
              <charseq START="319" END="320">35</charseq>
            </extent>
          </value_mention>
        </value>
        
        • VALUE包含三个必备的属性:ID,TYPE和SUBTYPE

        • VALUE的TYPE一共有5类分别是Numeric、Contact-Info、Crime、Job-Title和Sentence;每一类下都有若干对应的子类,具体可见dtd/ace_source_sgml.apf.v5.1.1.dtd文档

          TYPE="Numeric" SUBTYPE="Money"
          TYPE="Numeric" SUBTYPE="Percent"
          TYPE="Contact-Info" SUBTYPE="Phone-Number"
          TYPE="Contact-Info" SUBTYPE="E-Mail"
          TYPE="Contact-Info" SUBTYPE="URL"
          
          TYPE="Crime"
          TYPE="Job-Title"
          TYPE="Sentence"
          
        • value_mention标签和上述entity_mention标签类似有extent和head两个子标签

      3. timex2

        <timex2 ID="CNN_ENG_20030630_085848.18-T1" VAL="2003-06-30T09:23:30">
          <timex2_mention ID="CNN_ENG_20030630_085848.18-T1-1">
            <extent>
              <charseq START="44" END="62">2003-06-30 09:23:30</charseq>
            </extent>
          </timex2_mention>
        </timex2>
        <timex2 ID="CNN_ENG_20030630_085848.18-T2" VAL="2003-06-29">
          <timex2_mention ID="CNN_ENG_20030630_085848.18-T2-1">
            <extent>
              <charseq START="184" END="192">yesterday</charseq>
            </extent>
          </timex2_mention>
        </timex2>
        <timex2 ID="CNN_ENG_20030630_085848.18-T3" VAL="2003-06-30TMO">
          <timex2_mention ID="CNN_ENG_20030630_085848.18-T3-1">
            <extent>
              <charseq START="380" END="388">this time</charseq>
            </extent>
          </timex2_mention>
        </timex2>
        
        • timex2可选属性包括VAL(标准形式的时间)

        • timex2_mention与上边同理

      4. RELATION

        <relation ID="CNN_ENG_20030630_085848.18-R1" TYPE="ART" SUBTYPE="User-Owner-Inventor-Manufacturer" TENSE="Unspecified" MODALITY="Asserted">
          <relation_argument REFID="CNN_ENG_20030630_085848.18-E2" ROLE="Arg-1"/>
          <relation_argument REFID="CNN_ENG_20030630_085848.18-E3" ROLE="Arg-2"/>
          <relation_mention ID="CNN_ENG_20030630_085848.18-R1-1" LEXICALCONDITION="Possessive">
            <extent>
              <charseq START="124" END="134">their homes</charseq>
            </extent>
            <relation_mention_argument REFID="CNN_ENG_20030630_085848.18-E2-3" ROLE="Arg-1">
              <extent>
                <charseq START="124" END="128">their</charseq>
              </extent>
            </relation_mention_argument>
            <relation_mention_argument REFID="CNN_ENG_20030630_085848.18-E3-4" ROLE="Arg-2">
              <extent>
                <charseq START="124" END="134">their homes</charseq>
              </extent>
            </relation_mention_argument>
          </relation_mention>
        </relation>
        
        • relation包含TYPE属性表示后边两个词ROLE='Arg-1’与’Arg-2’之间的关系,关系主要包括

          <!-- List of TYPE/SUBTYPE pairs (as of May 7, 2005)
          
          TYPE="PHYS" SUBTYPE="Located"
          TYPE="PHYS" SUBTYPE="Near"
          
          TYPE="PART-WHOLE" SUBTYPE="Geographical"
          TYPE="PART-WHOLE" SUBTYPE="Subsidiary"
          TYPE="PART-WHOLE" SUBTYPE="Artifact"
          ...
          TYPE="METONYMY" (no SUBTYPE)
          
      5. EVENT

        <event ID="CNN_ENG_20030630_085848.18-EV1" TYPE="Movement" SUBTYPE="Transport" MODALITY="Asserted" POLARITY="Positive" GENERICITY="Specific" TENSE="Past">
          <event_argument REFID="CNN_ENG_20030630_085848.18-E2" ROLE="Artifact"/>
          <event_argument REFID="CNN_ENG_20030630_085848.18-E3" ROLE="Origin"/>
          <event_mention ID="CNN_ENG_20030630_085848.18-EV1-1">
            <extent>
              <charseq START="93" END="134">forced hundreds of people from their homes</charseq>
            </extent>
            <ldc_scope>
              <charseq START="68" END="134">a wildfire in california forced hundreds of people from their homes</charseq>
            </ldc_scope>
            <anchor>
              <charseq START="93" END="98">forced</charseq>
            </anchor>
            <event_mention_argument REFID="CNN_ENG_20030630_085848.18-E2-2" ROLE="Artifact">
              <extent>
                <charseq START="100" END="117">hundreds of people</charseq>
              </extent>
            </event_mention_argument>
            <event_mention_argument REFID="CNN_ENG_20030630_085848.18-E3-4" ROLE="Origin">
              <extent>
                <charseq START="124" END="134">their homes</charseq>
              </extent>
            </event_mention_argument>
          </event_mention>
        </event>
        
        • event的TYPE属性如下

          TYPE="Life" SUBTYPE="Be-Born"
          TYPE="Life" SUBTYPE="Die"
          TYPE="Life" SUBTYPE="Marry"
          TYPE="Life" SUBTYPE="Divorce"
          TYPE="Life" SUBTYPE="Injure"
          TYPE="Transaction" SUBTYPE="Transfer-Ownership"
          TYPE="Transaction" SUBTYPE="Transfer-Money"
          TYPE="Movement" SUBTYPE="Transport"
          TYPE="Business" SUBTYPE="Start-Org"
          TYPE="Business" SUBTYPE="End-Org"
          ...
          TYPE="Justice" SUBTYPE="Pardon"
          TYPE="Justice" SUBTYPE="Appeal"
          
        • event共有6个必须的属性TYPE,SUBTYPE,MODALITY,POLARITY,GENERICITY,TENSE

        • 他的子标签有event_argument、event_mention

        • event_mention包含extent、ldc_scope、anchor、event_mention_argument子标签,其中ldc_scope表示整个一句话,anchor是event_trigger

    参考了 https://blog.csdn.net/carrie_0307/article/details/91417203 的文章

    展开全文
  • 科大讯飞2020完整事件抽取系统(bert+数据集)

    科大讯飞2020完整事件抽取系统(bert+数据集)

    事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中,由于文本中可能存在句式 复杂,主被动转换,多事件主客体共享等难点,因此“事件抽取”是一项极具挑战的抽取任 务。

    本事任务旨在从通用新闻文本中抽取事件触发词、事件论元以及事件属性。在传统的事件定义中,事件由事件触发词( Trigger) 和描述事件结构的元素 (Argument)构成。事件触发词标识着事件的发生。事件论元为事件主体(Subject)、客体(Object)、时间(Time)、地点(Location)等,是表达事件重要信息的载体。

    事件属性包括事件极性(Polarity)、时态(Tense),是衡量事件是否真实发生的重要依据。通过极性,事件分为肯定、否定、可能事件。通过时态,事件分为过去发生的事件、现在正 在发生的事件、将要发生的事件以及其他无法确定时态的事件。

    本赛事任务一为初赛任务,任务二为复赛任务,在任务一的基础上增加了事件属性识别。为 了模拟真实场景,数据中包含了非实际发生的事件。

    任务一:事件触发词及论元抽取

    该任务旨在从文本中抽取标识事件发生的触发词和论元,触发词往往为动词和名词。触发词 对应的事件论元,主要为主体、客体、时间、地点,其中主体为必备论元。

    示例 1:

    文本:北京时间 3 月 27 日晚上 7 点 15 分,英国首相鲍里斯约翰逊确诊感染了新冠肺炎。

    任务二:事件属性抽取

    该任务旨在从文本中抽取表达事件发生状态的属性,包括极性、时态。极性分为:肯定、否

    定、可能;时态分为:过去、现在、将来、其他。

    示例 1:

    文本:中国驻俄罗斯大使张汉晖 4 月 7 日向媒体回应称,经向俄有关强力部门了解,目前

    在俄没有一起中国公民遭到拘留或受到俄强力部门限制的案例。

    抽取结果:

    示例 4:

    文本:看守政府总理迈赫迪打算驱逐约 5300 名美国士兵。

    抽取结果:

    事件抽取系统,包含触发词(trigger),事件论元(role),事件属性(attribution)的抽取。基于 pytorch 的 pipeline 解决方案。

    主要思路

    将任务分割为触发词抽取,论元抽取,属性抽取。具体而言是论元和属性的抽取结果依赖于触发词,因此只有一步误差传播。因 time loc 并非每个句子中都存在,并且分布较为稀疏,因此将 time & loc 与 sub & obj 的抽取分开(role1 提取 sub & obj;role2 提取 time & loc)

    模型先进行触发词提取,由于复赛数据集的特殊性,模型限制抽取的事件仅有一个,如果抽取出多个触发词,选择 logits 最大的 trigger 作为该句子的触发词,如果没有抽取触发词,筛选整个句子的 logits,取 argmax 来获取触发词;

    然后根据触发词抽取模型抽取的触发词,分别输入到 role1 & role2 & attribution 模型中,进行后序的论元提取和属性分类;四种模型都是基于 Roberta-wwm 进行实验,加入了不同的特征。

    最后将识别的结果进行整合,得到提交文件。

    代码运行教程  获取:

    关注微信公众号 datayx  然后回复  事件抽取  即可获取。

    AI项目体验地址 https://loveai.tech


    阅读过本文的人还看了以下文章:

    TensorFlow 2.0深度学习案例实战

    基于40万表格数据集TableBank,用MaskRCNN做表格检测

    《基于深度学习的自然语言处理》中/英PDF

    Deep Learning 中文版初版-周志华团队

    【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

    《美团机器学习实践》_美团算法团队.pdf

    《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

    特征提取与图像处理(第二版).pdf

    python就业班学习视频,从入门到实战项目

    2019最新《PyTorch自然语言处理》英、中文版PDF+源码

    《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

    《深度学习之pytorch》pdf+附书源码

    PyTorch深度学习快速实战入门《pytorch-handbook》

    【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

    《Python数据分析与挖掘实战》PDF+完整源码

    汽车行业完整知识图谱项目实战视频(全23课)

    李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

    笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

    《神经网络与深度学习》最新2018版中英PDF+源码

    将机器学习模型部署为REST API

    FashionAI服装属性标签图像识别Top1-5方案分享

    重要开源!CNN-RNN-CTC 实现手写汉字识别

    yolo3 检测出图像中的不规则汉字

    同样是机器学习算法工程师,你的面试为什么过不了?

    前海征信大数据算法:风险概率预测

    【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

    VGG16迁移学习,实现医学图像识别分类工程项目

    特征工程(一)

    特征工程(二) :文本数据的展开、过滤和分块

    特征工程(三):特征缩放,从词袋到 TF-IDF

    特征工程(四): 类别特征

    特征工程(五): PCA 降维

    特征工程(六): 非线性特征提取和模型堆叠

    特征工程(七):图像特征提取和深度学习

    如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

    Machine Learning Yearning 中文翻译稿

    蚂蚁金服2018秋招-算法工程师(共四面)通过

    全球AI挑战-场景分类的比赛源码(多模型融合)

    斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

    python+flask搭建CNN在线识别手写中文网站

    中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

    展开全文
  • 文章目录事件抽取的定义定义 事件抽取的定义 事件 作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。 组成元素 组成事件的各元素包括: 触发词、事件...

    事件抽取的定义

    • 事件

    作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。

    • 组成元素

      组成事件的各元素包括: 触发词、事件类型、论元及论元角色。

      事件触发词(event trigger):表示事件发生的核心词,多为动词或名词;
      事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33 种事件类型。事件识别是基于词的34 类(33类事件类型+None) 多元分类任务,角色分类是基于词对的36 类(35类角色类型+None) 多元分类任务;
      事件论元(event argument):事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位 ;
      论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者 、受害者等。

    理解定义

    事件抽取并不是从非结构化文本中抽取未知事件,而是在已经定义好了34类事件后
    从文本中寻找事件触发词(event trigger),以匹配事件
    并将事先定义好的事件模板中的每个角色(论元角色),找到它对应的实体。

    比如 小明 攻击了 小红
    通过早就定义好的模板

    攻击事件
    包括 攻击者 & 被攻击者 & 触发词(攻击,击打,等)

    通过 攻击 判定句子中含有攻击事件 :事件匹配
    再将 小明 对应到 攻击者
    小红 对应到 被攻击者 : 事件论元(event argument)匹配

    数据集

    ACE2005数据集

    事件是由ACE定义的事件,那么数据集自然也要采用ACE的事件抽取数据集-ACE2005数据集

    ACE2005数据库解决了3项基本的任务——实体识别、值、事件表达式、关系和事件

    结构如下:

    1P: data subject to first pass (complete) annotation
    1P: 须先通过(完整)注释的资料
    DUAL: data also subject to dual first pass (complete) annotation
    DUAL:数据也服从对偶第一遍(完整)注释
    ADJ: data also subject to discrepancy resolution/adjudication
    ADJ: 资料也有经争议解决/裁定
    NORM: data also subject to TIMEX2 normalization
    NORM: 数据也要服从TIMEX2标准化 
    

    简单来说,每份数据都要通过两种方式进行标注,即1p标注,和DUAL标注,两种标注结果相同的自然认为标注正确,标注不同的通过仲裁裁定后,形成ADJ资料。

    ACE2005EDC数据集

    EDC代表事件抽取

    ACE2005EDC数据集,对一个含有事件文本中的事件类型,事件触发词,事件论元在事件中扮演的角色都进行了标注。

    包含英文,中文,阿拉伯语三种语言

    除了ACE2005EDC数据集,我还没有找到含有标注了事件论元在事件中扮演的角色的数据集。

    数据集的获取

    ACE2005数据集是收费的,可在LDC联盟的官网上进行购买
    ACE2005数据集获取的详细过程

    LDC联盟-ACE2005

    购买流程颇为复杂,首先要以组织的名义加入LDC,收取会员费

    • 非营利组织:2400美元/年
    • 营利组织:24000美元/年

    LDC账号中拥有组织管理员,可将其他LDC账号拉入组织,共享获取数据集的权利

    成为会员后才能购买各种数据集,当年会员对当年的数据集免费使用,不是会员后依然有权使用当年的数据集,其他数据集各自有报价。
    ACE2005数据集 报价4000美元。

    事件抽取方法

    (阐述一下大体思路,详见下方知乎链接)

    通常来说,事件抽取的基本任务都可以用四个子任务分解:

    事件触发词检测 Event (trigger) detection
    
    事件触发词分类 Event trigger typing 
    
    事件论元识别 Event Argument Identification
    
    事件论元角色识别 Event Argument Role Identification
    

    注:Event Argument有不同翻译,本文翻译为事件论元

    在2015年以及之前,对事件抽取(Event Extraction, EE)的工作思路主要聚焦于模式匹配或者统计机器学习方法。

    基于模式匹配的方法在特定领域能取得较好的性能,但是移植性较差;
    基于统计学习的方法通常能有较好的移植性,但是严重依赖于已标注的数据。

    从2015年开始,有研究者尝试使用CNN/RNN(神经网络)来提取Event Mention中的语义,比较典型的有DMCNN与JRNN等模型,其评估结果比早期的一些Structure-Based Method有显著提升。使用DNN来捕捉语义的另一个好处是使用了蕴含特征更加丰富的词向量,因此事件抽取的结果不再很大程度上依赖于人工定义的局部/全局特征。

    Pipelined Approach & Joint Approach

    将所有子任务独立地视为分类问题的思想被称为 Pipelined Approach ,基于此类思想的方法会建立多个不同的模型(或者用同一个稍作修改的模型按顺序应用到每个子问题)来依次求解
    这种方法的最大缺陷是Error Propagation:从直观上考虑,如果在第一步Triggers识别中就出现了错误,之后对Arguments的识别准确度会更低。尽管如此,使用Pipelined Approach划分问题的方式能够简化整个事件抽取任务,因此被广泛使用。Pipeline方法中比较经典的有15年提出的动态多池化卷积模型(DMCNN)。

    另一种相对应的研究模式是尝试建立一个同时提取以上所有信息的模型,也即 Joint Approach 。这类方法目标是只建立一个模型,同时用于Triggers与Arguments的提取,此类方法的一大好处在于能够产生Triggers与Arguments之间的双向信息流交互(Pipeline中信息只能从Triggers流向Arguments),在DNN方法应用之前,表现最好的是[Li et. al.]提出的结构化感知机模型,16年由[Nguyen et. al]提出了JRNN模型,将RNN应用到了事件抽取任务中。

    数据集的缺失

    尽管研究者在模型设计上花费了很大的心思,然而横亘在事件抽取任务之上的还有一个不可忽视的问题:即 数据集的缺失
    目前事件抽取最为广泛使用的数据集是[ACE, 2005]。以ACE数据集为例,其整体数据仅来源于599个英文文档,定义的33个事件类型中有超过60%的类型样本数不超过100个,甚至有3个事件类型的样本没有超过10个,数据稀疏的根本原因在于使用人力手动标注文本的时间与花费成本很高。因此,逐渐有学者开始研究对数据集的增强,如使用外部的语义知识框架进行数据的自动标注,使用半监督学习来对信息进行聚类标注,这些方法着眼于对数据的自动标注,以提高模型的泛化性能。更为直接地,另外一部分学者尝试直接从建模角度克服数据稀疏的问题,例如使用Zero-Shot Transfer Learning方式来提升模型对于未知事件类型的预测效果。

    关于事件抽取最近的进展以及比较经典的模型方法,这里给一个回答的比较好的知乎链接
    张成成成成的知乎回答

    展开全文
  • 事件抽取

    千次阅读 2020-05-11 23:41:45
    文章目录一、事件抽取的定义二、ACE2005数据集事件类型 一、事件抽取的定义 命名实体识别、关系抽取、事件抽取是NLP中信息抽取的主要任务。 事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动...

    一、事件抽取的定义

    命名实体识别、关系抽取、事件抽取是NLP中信息抽取的主要任务。

    事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来在自动文摘、自动问答、信息检索等领域有着广泛的应用。近些年来 ,事件抽取一直吸引着许多研究机构和研究者的注意力。MUC (Message Understanding Conference) 会议、ACE ( Automatic Content Extraction) 会议是典型的含有事件抽取任务的评测会议。在调研中发现,ACE 2005作为论文数据集占据了主流,ACE 2005的事件抽取数据集包括英文、中文和阿拉伯语。因此我们围绕ACE来介绍事件抽取的定义、事件类型等,我们以ACE 2005为例对事件进行介绍。

    ACE定义中的事件由事件触发词(Event Trigger)和描述事件结构的元素(Argument)构成。事件触发词事件触发词(trigger)是能够触动事件发生的词,是决定事件类型最重要的特征词,决定了事件类别/子类别。元素用于填充事件模版,两者完整的描述了事件本身。

    在这里插入图片描述
    上图包含了两个事件,一个是Die,一个是Attack,分别是:
    其中第一个事件是死亡事件(Die), 触发词为died,其argument包括:

    • Victim cameraman
    • Place Baghdad
    • Instrument American tank
      第二个事件是攻击事件(Attack), 触发词为fired, 其argument包括:
    • Target Palestine Hotel
    • Place Baghdad
    • Target cameraman
    • Attacker American tank

    事件抽取任务可以由下面两个步骤主要组成:

    事件检测(Event Detection):主要是根据上下文识别出触发词以及代表的事件类型和子类型,ACE2005定义了8种事件类别以及33种子类别,每种事件类别/子类别 对应唯一的事件模版。

    事件元素识别(Argument Detection):事件元素是指事件的参与者。根据所属的事件模版,抽取相应的元素,并为其标上正确的元素标签。

    二、ACE2005数据集事件类型

    ACE数据集一共定义了8种大类,33个子类,每个子类都有一个事件的模板。
    在这里插入图片描述
    比如:Life/Marry 是结婚事件,Marry事件是官方活动,两人在法律定义下结婚。其模版包括一个participate slot和两个attribute slot,如下图3所示
    在这里插入图片描述
    例如Conflict/Attack是攻击事件,ATTACK事件被定义为导致伤害或损害的暴力行为。ATTACK事件包括INJURE或DIE亚型未涵盖的任何此类事件,包括没有指定代理的事件。ATTACK事件类型包括较少具体的暴力相关名词,如“冲突”,“冲突”和“战斗”。如果只是为了保持一致性,那么具有事件和武器品质的’枪火’应该总是被标记为ATTACK事件。“政变”是一种攻击(也是一场“战争”)。事件模版包括3个participate slot和2个attribute slot,如下表所示。
    在这里插入图片描述

    三、技术思路

    现在已经明确了事件抽取的两个步骤:一个是trigger token的识别,另一个是事件要素的提取。
    所以主要的思路与关系抽取类似,可以是pipeline的形式,也可以是Joint的形式。

    百度AI2020事件抽取提供的baseline是使用pipeline的形式,第一步识别触发词,第二步再识别事件要素。使用预训练模型,第一步的tragger token的识别看作是序列标注问题,触发词与标注的类别对应。比如“求婚”对应类别“结婚”。
    在这里插入图片描述
    第二步也是序列标注问题。
    在这里插入图片描述
    用了两个序列标注把问题解决了,好像都没有用到关系抽取相关的。

    参考:
    https://zhuanlan.zhihu.com/p/42135074
    https://blog.csdn.net/muumian123/article/details/81746583

    展开全文
  • 本文旨在基于百度2020事件抽取任务做简单介绍,文中涉及的数据如有需要可私信回复“百度2020事件抽取数据集” 获取。 官网链接:http://lic2020.cipsc.org.cn/ 一、事件抽取 事件抽取 (Event Extraction, EE)是...
  • 公众号:数据挖掘与机器学习笔记 1.简介 事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘、自动...在调研中发现,ACE 2005作为论文数据集占据了主流,ACE 2005的事件抽取数据集包括英文、中
  • 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!事件检测任务是事件抽取的第一步,对事件语义建模有重要意义。然而现有事件检测数据集存在两个严重的问题:(1)数据稀缺,现有小规模数...
  • 动机传统的 ACE 事件抽取任务依赖于人工标注的数据,耗费大量的人力并且数据量有限,数据量不足给事件抽取带来了阻碍。传统的事件抽取不能解决 role overlap 角色重叠的问题。...在 ACE2005 数据集上,超过了 ...
  • 关系抽取常用的数据集和工具

    万次阅读 2018-05-03 21:20:17
    1.MUC关系抽取任务数据集 MUC-7的五大评测任务分别是命名实体识别、共指消解、模板元素填充、模板关系确定和场景模板填充。数据语料主要来自新闻语料,限定领域为飞机失事报道和航天器发射事件报道。 2.ACE关系...
  • 系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。 必读论文:https://www.aminer.cn/topic 论文...
  • 论文阅读:DuEE:A Large-Scale Dataset for Chinese Event Extraction in Real-World Scenarios 基于现实场景的大规模中文事件抽取数据集 目录论文阅读:DuEE:A Large-Scale Dataset for Chinese Event Extraction ...
  • 拿经常用来做实验的公开数据集 ACE 2005 来说,各语言的文档数不过几百篇,如果要运用机器学习神经网络的方法进行测试,这样的数据量是不足够的。此外,ACE 2005中提供的事件不具备在垂直领域的可拓展性。第...
  • 事件句抽取是事件抽取中的核心环节,在金融领域中,公司名识别则是事件句抽取中的重点和难点。针对金融领域的事件句抽取,首先充分利用互联网搜索和上市公司名信息进行公司名识别,如果一个N元组是公司名,则进行...
  • ACE2005数据集

    2020-12-03 17:36:25
    ACE2005数据集,LDC官网下载,可做关系抽取,事件抽取等。里面包含中英阿拉伯三种语言的标注语料,需要进行对数据预处理。
  • 实体关系抽取——ACE2005数据介绍

    千次阅读 2019-08-07 22:29:37
    ACE2005数据介绍...ACE2005数据集包括英语,阿拉伯语和中文三部分数据,可以用来做实体,关系,事件抽取等。 English part English部分包括了broadcast news(bn), broadcast conversations(bc), newswire(...
  • 数据集【1】已开源github:Doc2EDAG paper地址:paper原文 金融领域数据有以下两种特征: ① 事件元素分散(Arguments-scattering):指事件论元可能在不同的句子(Sentence)中。 ② 多事件(Muti-event):指...
  • 实验室同门有人做事理知识图谱,我也看了下事件抽取的论文,大多实验都是基于ACE2005。这个数据好像需要LDC号才可以下载,好像是付费的。这里我大概梳理下ACE2005数据集的文件格式。ACE2005数据集目录结构如下,...
  • 数据集【1】已开源github:Doc2EDAG paper地址:paper原文 金融领域数据有以下两种特征: ① 事件元素分散(Arguments-scattering):指事件论元可能在不同的句子(Sentence)中。 ② 多事件(Muti-event):指一个...
  • 结合扩张矩阵理论,提出了一种简化规则抽取算法,该算法有效地解决了粗糙约简算法生成的规则数量多、概括力不强的问题,并给出了相应的算法示例,示例结果证明了该算法能够有效地从信息安全事件和等级测评数据中抽...
  • 本文涉及数据集资料,可以关注AINLPer 微信直接回复:NER001 获取。 引言  信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和...
  • XF事件提取 天池中医药NER冠军方案已经开源,欢迎star 项目链接: : 2020年科大讯飞事件撤回挑战赛 ...模型先进行触发词提取,由于重复赛数据集的特殊性,模型限制撤消的事件仅有一个,如果撤出多个触发词,选择logit
  • 5.1 数据抽取要正确反映业务需求 1) 使用控制变量确保数据真实反映业务。 2) 注意时效性,确保抽取数据所对应的当时业务场景,与现在的业务需求即将应用的业务场景没有明显重大的改变。 5.2 数据抽样 当...
  • 1、原始数据集太大,进行数据抽取 2、由于热水器采集的用水数据属性较多,我们只选择与分析目标相关的属性。 3、如何划分一次完整的用水事件呢? 如果水流量为0的状态记录之间的时间间隔超过一个阈值T,则从...
  • 常见的数据处理技巧数据抽取要正确反应业务需求真正熟悉业务背景确保抽取数据所对应的当时业务背景,与现在的业务需求即将应用的业务背景没有明显的重大改变数据抽样:抽样方法多种多样,视具体场景使用。...
  • corpus.rar

    2019-12-14 21:58:46
    事件抽取 事件关系抽取 数据集 包含部分ACE 2005 Multilingual Training Corpus 和 Text Analysis Conference Knowledge Base Population (TAC KBP)的语料集
  • 建立在理解篇章语义基础之...通过在DUC标准数据集上进行评测,最终的ROUGE得分媲美目前主流的生成式方法,从而说明事件能够很好地承载篇章的主干信息,同时有效地指导多语句压缩过程中冗余信息的去除和自然语言的生成。
  • 数据集成原理带书签可复制 pdf

    热门讨论 2015-02-07 12:58:47
    15.4.3 合并多个数据集 304 15.4.4 重用他人工作成果 304 15.5 “即付即用”数据管理 305 参考文献注释 305 第16章 关键字搜索:按需集成 309 16.1 结构化数据中的关键字搜索 309 16.1.1 数据图 309 ...

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 131
精华内容 52
关键字:

事件抽取数据集