精华内容
下载资源
问答
  • https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型 NLP事件抽取综述下: ...

    https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型

    NLP事件抽取综述下

    展开全文
  • 中文事件抽取技术的研究,中文事件抽取技术的研究
  • 本文主要研究中文事件抽取技术,这其中主要包括三个方面: 1、时间表达式识别 提出一种基于词典特征优化和依存关系的中文时间表达 式识别方法。 2、事件检测与分类 提出了一种基于依存句法分析与分类器融合的事件触 ...

    摘要部分
    本文主要研究中文事件抽取技术,这其中主要包括三个方面:
    1、时间表达式识别
    提出一种基于词典特征优化和依存关系的中文时间表达
    式识别方法。
    2、事件检测与分类
    提出了一种基于依存句法分析与分类器融合的事件触
    发词抽取方法。
    3、事件论元角色抽取
    针对传统基于机器学习的方法通常将句法分析信息转化为平面特征,并不能全面利用句法分析信息的问题,提出了一种基于卷积树核的事件论元角色抽取方法。

    我们知道信息抽取一共包括五部分内容:
    实体识别,事件抽取,实体和事件关系抽取,代词指代消解,模板元素抽取

    (积累)中文事件抽取技术面临的主要问题包括:

    1、前置基础技术研究不够完善,精度有待提高,如命名实体识别、浅层语义分析等;
    2、仅利用句子基本语言特征及浅层语义知识,没能进行深层语义挖掘
    3、所有特征放于同一平面之内,没有层次结构,没有评估不同特征的重要程度。面对以上问题,分类器融合技术及核方法在一定程度上可以缓解后两个问题。

    1、时间表达式的识别方法通常有两类:基于规则的方法和基于机器学习的方法。
    

    ‘’’
    基于规则的现存技术:

    基于依存分析和错误驱动的中文时间表达式识别方法、“时间基元”、对时态元素进行刻画的思想,并由此采用正则表达式与 Trie 树结构相结合的方式构建时间短语识别树,进行中文时间表达式的识别与分类、基于层叠有限状态自动机的 C-TERN算法,用于中文军事文本中时间表达式的识别与规范化。

    基于机器学习的现存技术:是将时间表达式识别看作分类问题。

    时间表达式识别可转化为序列标注问题、机器学习的方法运用于网页发布时间的识别、将时间表达式分为日期型短语和事件型短语,运用条件随机场模型分别识别两种类型的中文时间表达式、在表达式识别过程中引入语义角色特征来提高中文时间表达式识别效果、利用条件随机场模型,基于清华汉语树库构建时间表达式知识来完成中文时间表达式识别。

    ‘’’

     2、事件抽取研究现状分析:
    

    事件抽取主要分为事件检测与分类和事件论元角色抽取两个环节。归纳起来主要分为基于模板匹配的方法和基于机器学习的方法。

    ps:

    事件触发词(Trigger)是能够触动事件发生的词,体现着事件最重要的特征,并决定着事件的类型

    ps:

    WordNet是由Princeton
    大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。
     它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。
     WordNet包含描述概念含义,一义多词,一词多义,类别归属,近义,反义等问题,访问以下网页,可使用wordnet的基本功能
    http://wordnetweb.princeton.edu/perl/webwn

    本文着重对句法分析信息在事件抽取中的应用进行了探讨。

    本文主要研究中文事件抽取相关技术,重点对时间表达式识别、事件检测与分类和事 件论元角色抽取等三个方面进行研究。

    事件检测与分类
    1、单一触发词抽取
    2、抽取触发词-实体描述对
    3、管道模型和联合模型下将单一触发词的抽取结果与触发词-实体描述对的抽取结果相融合来最终完成事件触发词抽取,从而实现事件的检测与分类。

    在这里插入图片描述

    基于词典特征优化和依存关系的中文时间表达式识别

    时间表达式识别问题即是确定蕴含在文本中的时间表达式的边界。
    基本流程:
    (1)预处理:对语料中文分词,词性标注,句法分析等,并且将训练语料进行BIO标注;
    (2)训练:从预处理后的预料中提取特征,生成训练文件和特征模板文件,将生成的文件通过 CRF 模型训练成模型文件。
    (3)测试:将 CRF 模型文件用于测试语料,进行 BIO 序列标注,完成时间表达式识别。

    • 难点:特征提取

      这里除了之前研究者用的两类常用特征:基本特征和词典特征,还对词典特征进行了优化并且增加了第三类特征即依存特征,来提高时间表达式识别的性能。

    1、时间单位词典(38个):’年‘,’载‘,’号‘…
    2、时间词词典(547个):’昨天‘,’春天‘,’中午‘,’一会儿‘,’当代‘…
    时间词词典中的词单独可表示一个时间意义,而时间单位词典中的
    时间单位经常需要与一个数词相结合才能表示一个完整的时间意义。

    依存特征的设定:参照原文
    对语料中词进行特征提取后,将每个提取出的特征作为该词特征向量中的一维来构成该词的特征向量。

    基于依存句法分析与分类器融合的事件触发词抽取

    原理:分别对应于事件的检测与分类。其中,事件检测通过判定句子中是否含有事件触发词来实现,事件的类型则是通过识别事件触发词类型来判断。

    流程:
    触发词抽取有管道和联合两种模型。
    触发词检测的三个步骤:
    1、设立一个BV集合(动词的六种主要结构),将训练语料中的所有是动词的单字触发词加入集合。
    2、将训练语料中的所有触发词拆分为单字,把为动词的单字触发词加入集合。
    3、对于测试语料中的所有单词,如果它包含 BV 集合中的某个 BV,则判断他为候选触发词;
    然后采用基于启发式的过滤方法去除错误的候选触发词,最后还要借用机器学习的方法进一步过滤错误的候选触发词。

    基于卷积树核的事件论元角色抽取方法原理分析
    基于机器学习的事件论元角色抽取即是将论元角色抽取看作是一个分类问题,其形式化描述为:对于一个事件描述,己知其事件类型和该类事件所对应的角色类别集合R{ r1,r2 ,…,rn , None},(None 表示非论元角色的 etv(实体,时间,数值) 的类别),事件描述包含的 etv 的集合为E={etv1 , etv2 ,…, etvn},为每个 etv 标记相应的类别,建立集合E 到集合 R 的映射。

    关键技术流程:
    1、语料进行预处理;
    2、通过候选事件论元角色和事件触发词在句法分析树中的关系构造基本树结构,裁剪算法去除树中的冗余信息;
    3、将平面特征构成的基本核与句法分析树构成的卷积树核共同构成复合核,并将其用于事件论元角色抽取对应的支持向量机分类器,实现抽取。

    
    **> ps:依存语法几条定理:** 
    > 1、一个句子中存在一个成分称之为根(root),这个成分不依赖于其它成分。
    > 
    > 2、其它成分直接依存于某一成分;
    > 
    > 3、任何一个成分都不能依存与两个或两个以上的成分;
    > 
    > 4、如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;
    > 
    > 5、中心成分左右两面的其它成分相互不发生关系。
    
    

    特征提取:
    一、平面特征:
    本文选取了23个特征作为分类器特征,本章采用不包含最短路径特征在内的21个特征作为平面特征。具体见原文

    二、结构特征:
    (1)构造树结构(三种)
    (2)树结构的裁剪:

    展开全文
  • 中文事件抽取关键技术研究(谭红叶博士毕业论文) 事件抽取的定义 ACE2005将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件论元角色等。根据这...

    中文事件抽取关键技术研究(谭红叶 博士毕业论文)

    事件抽取的定义

        ACE2005 将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件论元角色等。根据这个定义,可将事件抽取的任务分成两大核心子任务:(1)事件的检测和类型识别;(2)事件论元角色的抽取。除此以外,由于绝大部分的论元角色都是实体,因此实体的识别也是事件抽取的一项基本任务。

    信息抽取的定义

        Andrew McCallum所提出的定义具有普遍意义。他将信息抽取定义为(A.McCallum.  Information  Extraction:  Distilling  Structured  Data  from Unstructured Text. ACM Queue 2005, 2005: 49~57):

        从无结构或松散结构的文本中对数据库的字段进行填充并形成记录。涉及到这样几个子任务:①切分处理(Segmentation):主要是识别可以填充数据库字段的文本片段的起始位置。②分类(Classification):主要是 确 定 文 本 片 段 要 填 充 的 数 据 库 字 段 是 什 么 , 通 常 Segmentation 和Classification在系统中同时进行。

    目前信息抽取的局限性

        信息抽取系统仍然存在一些局限:1.精度不高;2.不可移植;3.组件不确定没控制

    信息抽取的主要方法

        主要方法:

        1基于知识工程的方法,由语言学家与领域专家通过观察一些相关的文档集,根据抽取任务手工编写一定的规则来进行相关信息的抽取。(90年代)对格式化文本容易

        2.统计和机器学习

            2.1基于规则(决策树规则)局限性:模式表达能力有限;难获取复杂句或跨句的模式

            2.2基于统计的方法:运用大量简单特征,共同使用多种细致特征。HMM, CRF, MEMM,NB。

            2.3多种机器学习混合的方法。

    信息抽取发展

        优秀的团队:

            Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司,纽约大学、加利福尼亚大学、尤他州大学、华盛顿大学等。在英国、德国、意大利、爱尔兰等国家也有机构在进行相关研究。

        优秀的系统:

            AutoSlog、CRYSTAL、PROTEUS、WIEN 、 Softmealy 、 Stalker 、 Whisk 、 SRV 、RAPIER

    精度文本格式

        非常规律:(数据库、数据库生成的网页)几乎完美的性能

        有规律可循的:(新闻等)95%

        不规律的:

        关系抽取一般精度为60%

    研究趋势的分析

        在未来一段时间,研究关注的焦点应该是借助机器学习的方法,使系统只需最少的人工干预就能轻易地适用于新的领域和新的数据格式并能够快速地处理大规模、不受格式和领域限制的文档集合。

        (1)简单训练和半监督学习。

        (2)交互式抽取。

        (3)不确定性估计和多个假设的管理。

    事件抽取的核心任务

        事件 mention 的识别、事件属性的确定和论元角色的识别。

        事件的属性信息:(类型、子类型【重要】)、模态、倾向性、普遍性、时态。

        论元角色:实体、数值、时间。

    事件抽取的主要方法

        1.基于多种机器学习的混合方法(多个子任务)

        2.半监督和无监督的学习方法

    实体识别方法

        (1)基于规则的方法。在早期的名实体识别系统中,大多采用这种方法,具体有:决策树方法,基于转换的方法,文法方法。

        (2)基于几何空间判别的方法。具体包括:支持向量机方法,Fisher判别分析,神经网络方法。 (我比较感兴趣)

        (3)基于概率统计的方法。是名实体识别的主流方法和技术。具体有:Bayes 判别方法,N-gram 模型,HMM 模型,ME 模型,MEMM 模型和CRF 模型。

    半监督学习的主要方法

        自训练(Self-training),协作训练(Co-training),直推式(Transductive)SVM和基于图的方法(Graph-based methods)等等。

    自训练(self-training/self-teaching/boostrapping)

        它的主要思想是:首先利用少量的已标注数据或初始种子集合训练一个初始分类器,然后用初始分类器对未标注数据进行分类,并将可信度最大的数据加入到已标注数据中。接着在不断扩大的已标注数据集上,重复上述过程直到得到一个较为精确的分类器。

        局限性:(1)初始种子不同,分类器的性能不同,分类器收敛的速度也不同。(2)Bootstrapping 过程中出现的分类错误会在自我训练过程中被逐渐放大,并导致该过程失败。因此,初始种子的选择和新标注实例的评价和选择是该算法的关键。(以前我做无监督的时候,没有意识到这是一种比较成熟的方法吧,看来看的东西太少)

        种子选择:实例种子或者模式种子。

        评价函数:最简单的是计数或概率。

    模式

        信息抽取中的模式是指可以传递特定领域中关系和事件信息的语言表达式。

        信息抽取中,模式由多个项(Item)或槽(Slot)组成,其中包括:抽取项、触发项和约束项。抽取项又称为目标项,约束项有时称为约束条件,主要用来在文本中确定目标项的相关信息,以确保抽取的信息准确。约束条件主要包含句法约束与语义约束。触发项用来触发一个模式在文本片段的匹配。

        (找三种模式,抽取到的内容扔到分类器中对么?)

    模式的不同主要表现在以下几个方面:

        (1)抽取粒度不同。有的模式可以直接抽取出准确的目标项,而有的模式抽取的是包含目标项的句法成分。

        (2)约束强度不同。如果模式的约束条件越多,使用的语义约束越多,则其约束强度越强。随着约束强度的增加,模式的严格性增加,可以确保抽取的目标项的准确性,但模式的表达能力或覆盖能力会下降。

        (3)抽取效率不同。有的模式一次可以抽取多个目标项,而有的模式一次只能抽取一个目标项。类似前者的模式称作多槽(Multi-slot)抽取模式,而后者称为单槽(Single-slot)抽取模式。如模式示例 1 为一个单槽抽取模式。如果采用这种模式,系统需要为每一个目标项生成对应的模式。

    Bootstraping方法

        (1)手工建立初始种子集Sseed,候选模式集Pcand = null,  可用模式集Paccepted= null。

        (2)抽取模式,加入到建立候选模式集Pcand。根据种子集Sseed,在训练语料中抽取窗口大小为L的上下文模式加入到候选模式集Pcand

        (3)选择模式加入到可用模式集Paccepted。利用一定的评价函数Fpattern计算候选模式集Pcnd中每个模式的分数,并按照分数对模式排序。 满足一定条件的模式加入可用模式集Paccepted中。

        (4)利用可用模式集Paccepted识别相关名实体,构成候选实例集合Icand

        (5)判断迭代是否终止。如果候选实例集合稳定即不再有新的实体名被识别,或满足一定的迭代次数,或可用模式集达到一定的规模,则循环终止;否则执行(6)。

        (6)根据可信实例,确定新种子。首先Sseed= null,然后利用一定的评价函数Finstance计算候选实例集Icand中每个实例的分数,并按照分数对实例排序。满足一定条件的实例为可信实例,并且加入到种子集Sseed

        (7)返回步骤(2)开始继续循环。

        公式(2-1)是对模式的评价。其中, NumCommWord(Pj)为模式Pj抽取的普通词个数,普通词指被词典收录的词。 TotalNumterm (Pj)为模式Pj抽取出的目标项的总个数。这个公式通过模式可以抽取出的普通词与所有抽取项个数的比例对模式进行评分。该公式表明:如果一个模式抽取出的普通词越多,则这个模式对目标项的指示性越弱,即这个模式识别目标项的准确率越低。

        公式(2-2)是对实例的评价。其中, Pi为本次迭代中抽取出实体NEj的任一模式,n为本次迭代中抽取出实体NEj的所有模式的总数。该公式通过可以抽取出该实例的模式的可靠程度来评价实例的可靠性。

    模式泛化

        一般通过放宽模式的约束条件来实现,如:缩短模式长度、利用词性或语义标记代替词形信息等等。

        硬模式(Hard  pattern)和硬匹配(Hard  match):若模式的形式固定,且在模式匹配时需要精确匹配,则称此模式为硬模式,相应的精确匹配称为硬匹配。如:2.3 部分抽取出的模式集合就属于硬模式集合。 (正则表达式吧?)

        软模式(Soft  pattern)和软匹配(Soft  match):若模式的形式比较灵活,且在模式匹配时不需要进行精确匹配,则称此模式为软模式,相应的匹配称为软匹配。 软模式的形式为:

    <Token-L,i, W-L,i>…<Token-1,1, W-1,1>INTEREST_CLASS<Token+1,1, W+1,1> …<Token+L,i W+L,i>

        其中,Token-L,i表示第L个槽中可能出现的任何信息,如:词形、词性和语义类别等信息,W-L,i是权重,表示Token-L,i的重要性程度。

        与硬模式类似,软模式也由多个槽组成。而且Token-L,i的信息与硬模式类似。

        软模式和硬模式的主要不同表现在:

        (1)每个槽都包含权重信息WL,i来表示TokenL,i的重要性程度。一般来说根据需要不同,WL,i的定义不同,可以是概率、相似度以及错误率等等。

        (2)硬模式中的每个槽在软模式被扩展成一个词兜(Bag  of  words, BOW)。即,每个槽可能出现多个词语,每个词语的权重不同。

        (3)模式匹配不同。硬模式要求进行硬匹配,所有的槽信息必须精确匹配。软模式由于包含权重信息,可以通过相似度计算或概率计算实现软匹配,即模糊匹配。

        WL,I = P(Tokenl,i)=Num(Tokenl,i)/TotalNum(Token_in_slotl)

        其 中 ,Num(Tokenl,i)是在槽slotl中出现的次数,TotalNum(Token_in_slotl)是槽slotl中出现的所有Token的次数。这些参数可以通过硬模式集合得到。

        2-4计算uni-gram联合概率;2-5计算bi-gram联合概率

        软模式:

        冲突仲裁

        (1) 联合概率大者优先。如果候选实体A的联合概率“远大于”候选实体B的联合概率,则候选实体A为最终识别结果。具体使用公式(2-4)计算联合概率时,对概率值取其对数的相反数。如果二者之差大于2就被认为是“远大于”。

        (2) 联合概率与二元共现概率之和大者优先。如果不满足规则(1),则分别计算候选实体A与B的序列概率与联合概率之和,取和大者为最终识别结果。

        (3) 实体长度大者优先。如果不能满足规则(1)和规则(2),则将长度大者作为最终识别结果。

        把软模式转化为向量特征

        冲突仲裁

        (1) 相似度大者优先。如果候选实体A的相似度大于大于候选实体B的相似度,则候选实体A为最终识别结果。

        (2) 实体长度大者优先。如果不能满足规则(1),则将长度大者作为最终识别结果。

        利用cos作为相似度的指标

    数据不均衡的问题

        由于ACE语料存在着规模小、类别分布不均衡现象(Data  imbalance),因此,所提出的事件检测与分类方法应该能够克服类别分布不平衡的问题。有很多人尝试去解决数据偏斜问题。有人提出通过一定的策略减少反例数量,来获取更平衡的数据(Z.H. Zheng, X.Y. Wu, R. Srihari. Feature Selection for Text Categorization on Imbalanced Data. SIGKDD Explorations, 2004, 6(1):80-89;)有人提出将问题转化为不受类别分布影响的分类问题来进行分类(苏金树,张博锋,徐昕,基于机器学习的文本分类技术研究进展,软件学报,2006, 17(9):1848-1859);也有人认为在不平衡数据上特征选择比分类算法更为重要(G. Forman. a Pitfall and Solution in Multi-Class Feature Selection for Text Classification.  Proceedings  of  the  21st  International  Conference  on Machine  Learning  (ICML2004),  Banff,  Canada,  Morgan  Kaufmann Publishers, 2004(9):38-46)。这里尝试通过好的特征选择策略来克服数据的不平衡问题,完成事件的检测和分类。

    句子的表示

        自然语言处理中文本表示模型主要有:布尔模型、向量空间模型、潜在语义模型、概率模型和N元语法(N-gram)模型。

        如果特征项是词,则一个文本对应的向量又称作词兜(bag  of  words, BOW)。有很多研究表明比 BOW 复杂的数据表示形式(如:将短语作为特征项)并不能有效提升分类器的性能。因此 BOW 已经成为 NLP 中文本表示的一个标准方法。

    特征选择

        在实际问题中,特征空间(Feature  space)的维数(Dimensionality)一般都非常大,特征维数过高不仅影响分类器的速度,而且会带来过拟和(Overfitting)问题,同时特征空间中并不是每个特征都对分类有明显的作用。因此,通过有效的方法来降低特征空间的维数显得尤为重要。主要的降维方法有特征选择(Feature  selection)和特征抽取(Feature  extraction)两类方法。特征选择指从原始的特征集中通过一定的方法选择特征构成新的特征子集。特征抽取是指从原始特征集中采用一定的策略生成新的特征构成新的特征集。本文采用基于特征选择的方法降低特征维数,改进分类器的性能。

        特征选择方法分成封装器(Wrapper)模式和过滤器(Filter)模式两种。Wrapper方法在特征选择上表现最佳。常见的用于文本领域问题的比较著名的特征过滤方法有:文档频率(Document  frequency,  DF)、信息增益(Information  gain,IG)、 (Chi-square)统计量,互信息(Mutual  information,  MI)、相关系数(Correlation coefficient,CC)、Odds  Raito(OR)等策略。

        全局特征选择(Global feature selection, GFS)指对所有的类别都使用通用的特征选择过程,并且在识别过程中共享一个特征集合。局部特征选择(Local  feature  selection,  LFS)是指特征选择针对每一个类别进行,不同的类别使用不同的特征集合,因此特征选择的方法可以不同。

        正特征(Positive feature, PF)对样例属于某个类别有很强的预测能力,即包含该特征的样例很大程度上属于某个类别;负特征(Negative feature, NF)可以很好地预测样例与某一个类别不相关,即包含该特征的样例很大程度上不属于某个类别。

    英语的词法分析、短语分析、句法分析准确率

        英文的词法分析、短语分析和句法分析的准确率分别为99%、92%和90%。S. B. Zhao, R. Grishman. Extracting Relations with Integrated Information Using   Kernel  Methods.  Proceedings  of  the  43rd  Annual  Meeting  of Association  of  Computational  Linguistics(ACL2005),  Ann  Arbor,  2005: 419-426

    扩展特征

        (1)词林特征。91  梅家驹.  同义词词林.  上海辞书出版社, 1996 哈 工 大 信 息 检 索 实 验 室 . 同 义 词 词 林 扩 展 版 ( 电 子 版 .  2006 ,http://ir.hit.edu.cn/

        (2)知网 特征。该特 征主要指当前词在Hownet中定义的义元(SemUnit)解释,旨在利用知网(Hownet)中提供的义元解释来覆盖意相近的词。具体使用时,为每个义元指定一个编码从而得到每个词的义元解释代码。董振东,  董强. HowNet2005. http://www.keenage.com. 2005

    转载于:https://www.cnblogs.com/Dream-Fish/p/3956901.html

    展开全文
  •  本文使用的方法是基于机器学习的事件抽取方法,基于机器学习的方法该类方法克服了基于模板方法的缺陷,较为客观,也不需要太多的人工干预和领域知识。根据抽取模型所采用的不同的数据驱动源,现有的方法主要可分为...

    一.简介

        本文使用的方法是基于机器学习的事件抽取方法,基于机器学习的方法该类方法克服了基于模板方法的缺陷,较为客观,也不需要太多的人工干预和领域知识。根据抽取模型所采用的不同的数据驱动源,现有的方法主要可分为三类:

    1.基于事件元素驱动

        Chieu 等首次在事件抽取中引入最大熵分类器,用于事件元素的识别 。该方法实现了两个领域中的抽取任务,分别是半结构化的讲座通告和自由文本的人事管理。该方法突破了早期识别一个句子中多个模板信息只能用模式匹配的方法的局限,实现了利用机器学习理论中分类器的思想来识别描述一个事件的各元素及其关系。但是该方法存在着缺陷:将所有的词引入构建判断事件各元素的分类器时,因为文本中存在着很多非事件元素的词,所以构建分类器时将引入太多的反例,导致正反例严重的不平衡。

    2.基于事件触发词驱动

        Ahn结合 MegaM 和 Timbl 两种机器学习方法分别实现了事件抽取中事件类别识别和事件元素识别这两个主要步骤,在 ACE(Automatic content extraction)语料上均取得了不错的效果。在 Ahn 的方法中,最重要的一个步骤就是判断句子中的每个词是否是最能描述某个事件发生的触发词,如果是,则将其归为正例,并用一个多类分类器对其进行分类,获得其所属的事件类别,从而得出其所含的事件元素类型,用于构建识别每一类事件元素的分类器。 Grishman、 Hardy、于江德等及赵妍妍等所提出的方法也是这类基于事件触发词驱动的模型的范畴。在这类方法中,将每个词作为一个实例来训练并判断是否为触发词的机器学习模型,引入了大量的反例,导致正反例严重不平衡;并且,事件类别的多元分类以及为每类事件元素单独构造多元分类器在语料规模较小的时候存在着一定的数据稀疏问题。

    3.基于事件实例驱动

        Naughton所提出的模型从描述事件的句子出发,将每一个句子看成候选事件的实例,将事件抽取任务转化成对句子的聚类问题。 这个方法显著区别于上述两类方法, 从不同的角度来解决事件抽取任务,然而算法中只是对句子所描述的事件实例进行划分,并没有进一步解决事件实例的具体类别名称,以及识别出促使某事件发生的触发词及参与该事件的各元素,而识别出这些信息对真正将事件抽取技术能否应用于实际起着决定性的作用。

        综上所述。目前最常用的事件抽取系统都是基于事件元素驱动或事件触发词驱动的研究,这类方法最大的问题是要把文本中所有词进行判别用来确定是否和事件相关的元素或者事件触发词,然后根据触发词信息判别事件类型。但是这个过程中非事件元素和非触发词太多,引入太多范例,造成正反例子严重不平衡。目前没有高效的算法对其进行过滤,而且基于事件实例抽取的技术在国内处于起步阶段,有很广阔的研究空间。

        本文将构建一种新的基于事件实例驱动的抽取模型,我们将充分挖掘能够区分事件和非事件的有代表性特征,通过二元分类的方法过滤掉非事件的句子,然后采用多知识融合的手段表示候选事件实例。利用支持向量机采用多元分类的方法自动识别候选事件实例所属的事件类别,实现自动文本事件抽取目标。

    二.算法细节

     

                                                                              图2.1 事件类别识别的框架

    2.1 过滤非事件的句子

    为了消除文本中大量的非事件的句子,我们采取二元分类的方法,将文本中的句子分为两个大类:含有事件句子的实例集合和含有非事件句子的实例集合。由于将过滤非事件的句子看作分类问题,特征的选取和发现尤为关键,这将涉及到究竟什么样的特征能够有代表性的区分开事件和非事件的句子。我们主要选取了以下几个特征:句子的长度、段落位置、词语的个数、实体的个数、 timex 值的个数、 value的个数、停用词的频率、以及相应的词语等。

    • 句子长度:句子长度>50,事件句的可能性更高
    • 实体的个数:句子中实体个数>3的句子是事件句
    • 停用词的频率:停用词频率高于0.5是事件的可能性高
    • 段落位置:句首和句尾是事件句的可能性比较高
    • 句子中词语的个数:词语大于20个词为事件句的可能性高
    • time个数:句子中描述时间参数的个数。由于 time 在句子中的个数比较少,而且倘若存在的话,事件的概率也比较大,所以我们选择 1 作为标准。 
    • value个数:句子中描述数值参数的个数。同样的 value 的在句子中的个数也不多,而且倘若存在的话,是事件句子的概率也比较大,所以我们选择 1 作为标准。 

    2.2 事件类别的识别

    在上一阶段中我们已经过滤了非事件的句子,接下来我们将在得到的事件实例的集合中进行事件类别的识别,为每一个候选事件实例赋予一个相应的事件类别标签。为此,我们必须完成两个步骤的任务,即
    (1) 对候选事件实例进行知识表示;
    (2) 构建分类器进行分类,预测候选事件所属的事件类别; 

    候选事件实例的类别识别问题可以被看做是一个分类问题,为此当前的任务就是选择一个合适的分类器。在此我们选择的是支持向量机(Support vector machine, SVM)分类器,其优点在于通用性较好,且分类精度高、分类速度快、分类速度与训练样本个数无关,在召回率和准确率方面都优于 KNN 及朴素贝叶斯方法。 SVM 由 Vapnik 等于 1995 年提出,具有相对优良的性能指标,该方法是建立在统计学理论基础上的机器学习方法。 SVM 可以自动寻找出那些对分类有较好区分能力的支持向量,构成一个超平面 H(d), 该超平面可以将训练集中的数据分开, 且与类域边界的沿垂直于该超平面方向的距离最大,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。

     

    展开全文
  • 具体地说,大多数中文事件触发器都有一个中心字符,可以表示其事件类型。比如“枪杀”中的“杀”。此外,字符通过一些规则的组合结构被组合成一个触发词,比如manner + verb:“枪杀”、“砍杀”;verb + auxliary +...
  • 为解决这两个问题,本文做了以下工作: 提出了一个DCFEE模型,可以基于自动生成的标注数据从金融领域公告中完成文档级事件抽取 介绍了一种用于事件抽取的数据自动标注方法,并给出了构建中文金融事件数据集的一系列...
  • 但是这种句子级别的事件抽取方法难以解决新兴应用(如金融、法律、卫生等)数量激增的文档。它们的事件论元分散在不同的句子中,甚至多个事件实例在同一文档中同时存在。为了解决这些问题,我们提出了一种新的端到端...
  • 中文复合事件抽取

    千次阅读 2019-03-11 19:05:47
    chinese compound event extraction,中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。 关于项目 目前,知识图谱在学术界如火如荼地进行,但受限于知识图谱各个环节中的...
  • 事件抽取是理解语言的一个重要基础,在金融领域尤其有用。在应用NLP技术前,很多金融从业人员真的是靠人盯新闻、公告。你想想,从那么长的一篇新闻或公告中找出一些风险信号或营销机会真的是费时费力。借助NLP技术从...
  • 文/IT可达鸭图/IT可达鸭、网络前言什么是复合事件?复合事件包括条件事件、因果事件、顺承事件、反转事件...本文主要介绍,一种基于规则的中文事件抽取方法,源码来自网友的贡献。本文的源码在此基础上进行优化,将...
  • 文/IT可达鸭图/IT可达鸭、网络前言什么是复合事件?复合事件包括条件事件、因果事件、顺承事件、反转事件...本文主要介绍,一种基于规则的中文事件抽取方法,源码来自网友的贡献。本文的源码在此基础上进行优化,将...
  • 我个人认为,事件抽取(Event Extraction)主要存在两方面的问题。第一个方面,训练数据的严重不足。拿经常用来做实验的公开数据集 ACE 2005 来说,各语言的文档数不过几百篇,如果要运用机器学习神经网络的方法进行...
  • 提出一个文档级别的中文金融事件抽取系统(ECFEE),该系统可以: 自动生成大规模标签数据; 从全篇文档中抽取事件。 文章目录1. 介绍1.1 基本概念1.2 中文金融领域EE的挑战1.3 文章贡献2.方法2.1 数据生成2.1.1 ...
  • 欢迎相关领域的研究者关注并与我们合作,共同推进中文事件抽取的研究。>论文“A Novel Joint Framework for Multiple Chinese Events Extraction”详细讲解视频网址:https://hub.baai.ac.cn/view/3264 本研究提出一...
  • 本章提出了一种从未标注的中文文本中基于自扩展策略自动获取时间抽取模式的算法,该算法从少数几个种子抽取模式开始,通过一个增量迭代的过程发现新模式,每一轮迭代从三个层次对抽取模式进行扩展,然后采用类似于TF...
  • 中文信息抽取技术初探索

    千次阅读 2017-07-03 20:32:11
    先推荐一篇博士论文:【中文事件抽取关键技术研究-谭红叶】以下大部分内容都是从这篇博士论文中整理出来的。在MUC评测会议上,信息抽取定义包括: 命名实体的识别(Named entities,NE) 命名实体关系的抽取...
  • 事件抽取(三元组) 观点抽取 “语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。 pyltp 是 LTP 的 Python 封装,提供了分词,...
  • 任务三:面向中文电子病历的医疗实体及事件抽取

    千次阅读 热门讨论 2020-03-24 18:49:32
    本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续,在CCKS 2017,2018, 2019相关评测任务的基础上进行了延伸和拓展。 本任务包括两个子任务: (1) 医疗命名实体识别:于给定的一组电子病历纯文本文档...
  • 《DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data》DCFEE:基于自动标注训练数据的文档级中文金融事件抽取系统 Abstract 针对事件抽取(Event ...
  • 论文笔记整理:叶宏彬,浙江大学博士生,研究方向为知识图谱、自然语言处理。链接:https://arxiv.org/pdf/1904.07535.pdf背景大多数现有的事件...
  • 如何利用工具进行快速标注是所有人的愿望,赛莉自动...我们做了标准语料 事件抽取标签展示 无版权 不做商业用途 ,更多语料,欢迎关注 https://www.botsally.tech BOTSALLY® 赛莉®中文语料自动标注系统 语料持续更新
  • 事件探测和分类是基于触发词探测的事件信息抽取中的首要任务,对事件信息抽取的后继任务至关重要。一种基于最大熵模型的事件分类方法,该方法能够综合事件表述语句中的触发词信息及各类上下文特征对事件进行分类。 ...
  • 论元结构是沟通认知与句法结构的桥梁,是语义和句法的接口,在现代句法学和语义学研究中有着相当重要的...对中文文本事件信息抽取中的事件要素及其语义角色的识别这一具体问题来说,就是要分析事件表述语句中的触...
  • 中文新闻要素抽取方法的研究,时旭,吴国仕,新闻要素抽取是信息抽取的重要任务之一。其主要目标是识别出新闻文档中描述的与新闻事件相关的要素信息(包括when(何时)、where
  • chinese compound event extraction,中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。 项目地址:https://github.com/liuhuanyong/ComplexEventExtraction 关于项目 ...
  • Event-Extraction(事件抽取资料摘要总结)更新中... 临时事件撤除方法总结,包括中文事件撤消,开放域事件撤除,事件数据生成,跨语言事件撤消,小样本事件撤消,零样本事件撤消等类型,DMCNN,FramNet,DLRNN,...
  • 结合注意力机制与双向LSTM的中文事件检测方法,沈兰奔,武志昊,事件检测是信息抽取领域的重要任务之一。已有的方法大多高度依赖于复杂的语言特征工程和自然语言处理工具,中文事件检测还存在着

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 121
精华内容 48
关键字:

中文事件抽取