-
2019-03-13 16:52:39
引言:信息抽取(Information Extraction,IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。信息抽取的主要任务有:命名实体识别、实体关系抽取、事件抽取、实体消歧。关系抽取(Relation Extracion,RE)是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。随着近年来对信息抽取的兴起,实体关系抽取研究问题进一步得到广泛的关注和深入研究。
概念:实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。中文实体关系抽取由于中文句式和语法结构复杂,汉语有更多歧义,会影响关系分类的效果。
实体关系抽取是指从一个句子中抽取出关系三元组(entity1,relation,entity2),例如,‘’任正非在深圳创办了华为公司。‘’,其中任正非是实体1,华为是实体2,它们之间的关系是创办,那么抽取的三元组为(任正非,创办,华为)。
现在越来越多的研究把关系抽取做成分类任务处理,处理流程如下。
方法:现有主流的关系抽取技术分为有监督的学习方法、半监督的学习方、弱监督的学习方法和无监督的学习方法四种:
(1)有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。该方法需要手工标记的训练语料,标注数据费时费力。有监督的实体关系抽取主要分为基于特征和基于核函数的方法。郭喜跃等人[5]提出用支持向量机(SVM)作为分类器,研究句法和语义特征对实体语义关系抽取的影响。
(2)半监督的学习方法主要采用Bootstrapping进行实体关系抽取。是一个能利用较少的标注语料获取到置信度较高的多量的标注语料的反复迭代的过程。Brin[16]利用 Bootstrapping 方法进行实体关系抽取。
(3)弱监督是一个总括性的术语,它涵盖了试图通过较弱的监督来构建预测模型的各种研究。Craven 等人[17]在研究从生物学文本中抽取结构化数据过程中首先建立了弱监督机器学习思想。
(4)无监督的学习方法利用有相同语义关系的实体对进行关系抽取。Hasegawa 等人[18]在ACL会议上首次提出了无监督的实体关系抽取方法。
最近,神经网络方法在关系抽取任务中逐渐流行起来。Socherz等人[6]提出使用递归神经网络(RNN)来解决实体关系抽取问题。该方法对句子进行了句法解析,能够有效地考虑句子的句法结构信息,但同时该方法无法很好地考虑两个实体在句子中的位置和语义信息。Zeng等人[7]提出利用词向量和词的位置向量作为卷积神经网络(CNN)的输入,引入了实体和其他词的距离信息,可以很好的把句子中实体的信息考虑到关系抽取中。随后,Santors等人[8]提出了一种新的损失函数的卷积神经网络(CNN),采用了新的损失函数,能够有效提高不同实体关系类型的区分度。Zeng等人[9]在远程监督上采用分段最大池化的卷积神经网络(CNN),通过分段最大池化层来自动学习相关特征。Lin等人[10]在远程监督上提出将卷积神经网络(CNN)和注意力机制(Attention Mechanism)结合起来使用,使用CNN作为句子编码器(Sentence Encoder),并使用句子级别的注意机制。Miwa等人[11]提出了一种端到端的双向树形结构的长短期记忆网络(Bi-TreeLSTM)的方法,通过该方法捕获词序列和依存关系树结构信息。孙等人[12]提出将双向长短期记忆网络(BiLSTM)和卷积神经网络(CNN)混合使用,并同时结合词性标记、实体类别、语法关系进行关系抽取。Katiyar 等人[13]在 2017 年首次将注意力机制 attention 与递归神经网络 Bi-LSTM 一起用于联合提取实体和分类关系。 Zhou等人[14]提出基于注意力(Attenion)的双向长短期记忆网络(BiLSTM)的方法,使用BiLSTM对句子建模,并使用词(word)级别的注意力机制。该方法仅使用基本的位置特征,并未使用NLP工具产生的任何额外特征,可以达到非常好的效果。谷歌团队[15]提出的模型Transformer中使用了自注意力(self Attention)和多头注意力(Multi-head Attention),该方法只用了注意力机制来处理各类NLP任务。神经网络模型在有监督领域的拓展皆取得不错效果。
实体关系抽取研究大多都是基于英文语料,基于中文语料的研究相对较少,而且由于中文语言的独特性和复杂性,所以对中文的研究远比英文困难。
中文数据集:国外AEC05(这个数据集在官网下载不了,反正我没找到) ;国内COAE 2016 Task3(国内中文数据集很少,这个是16年新增加的任务)
英文数据集:SemEval2010 task 8(这个是全监督数据,用得人非常多)
评测标准:使用信息检索领域的评测标准,通常有准确率、召回率和F1值,其公式如下。
更多相关内容 -
nlp中的实体关系抽取方法总结
2021-02-24 02:21:31Q1:与联合抽取对比,Pipeline方法有哪些...Q8:实体关系抽取的前沿技术和挑战有哪些?如何解决低资源和复杂样本下的实体关系抽取?如何应用图神经网络?彩蛋:百度2020关系抽取比赛的baseline可以采取哪些方法?实体 -
深度学习实体关系抽取研究综述
2020-06-23 09:24:52实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中抽取实体对间的语义关系.近年来,深度学习在联合学习、远程监督等方面上的应用,使关系抽取任务取得了较为丰富的研究成果.... -
ChineseNRE:中文实体关系抽取,pytorch,bilstm+attention
2021-05-10 17:51:59中文实体关系抽取,对实体关系抽取不了解的可以先看。顺便求star~ 数据 中文实体关系抽取数据实在太难找了,data中是忘记在哪里找的人物关系数据集,一共11+1种关系,数据质量不太好,但也找不到其他的了。 (更新... -
实体关系抽取
2017-08-08 12:23:33实体关系抽取 -
基于CNN和双向LSTM融合的实体关系抽取
2021-01-20 04:54:43实体关系抽取旨在识别网络文本中的实体,并提取出文本中实体之间隐含的关系。研究表明,深度神经网络在实体关系抽取任务上具有可行性,并优于传统关系抽取方法。目前的关系抽取方法大都使用卷积神经网络(CNN)和长... -
基于深度学习的实体关系抽取研究综述
2020-11-09 15:27:06作为信息抽取的一项核心子任务,实体关系抽取对于知识图谱、智能问答、语义搜索等自然语言处理应用都十分重要。关系抽取在于从非结构化文本中自动地识别实体之间具有的某种语义关系。 -
中文实体关系抽取数据集 Chinese-Literature-NER-RE-Dataset
2020-10-05 18:37:31基于几个可用的NER和RE数据集定义了7个实体标签和9个关系标签。实体(Entity):每个实体都由带有多个属性的T标签标识。关系(Relation):每个关系由R标签标识,该标签可以具有多个属性。 -
基于依存分析的开放式中文实体关系抽取方法.pdf
2020-02-11 16:28:01该方法利用依存句法分析简称依存分析实现开放式中文实体关系抽取,首先对一个句子进行依存分析,再结合中文语法启发式规则和依存分析的结果抽取关系表述,并根据距离确定论元位置,最后进行三元组输出。 -
基于机器学习的实体关系抽取方法.pdf
2021-09-24 21:21:07基于机器学习的实体关系抽取方法.pdf -
实体关系抽取方法研究综述
2020-07-19 17:47:38在自然语言处理领域,信息抽取一直以来受到...实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这为智能检索、语义分析等提供了基础支持,有助于提高搜索效率,促进知识库的自动构建。 -
Python-用TensorFlow实现神经网络实体关系抽取
2019-08-11 02:24:08用TensorFlow实现神经网络实体关系抽取 -
面向中文专利的开放式实体关系抽取研究
2021-02-24 07:39:36针对传统实体关系抽取需要预先指定关系类型和制定抽取规则等无法胜任大规模文本的情况,开放式信息抽取(Open Information Extraction, OIE)在以英语为代表的西方语言中取得了重大进展,但对于汉语的研究却显得不足... -
知识图谱从哪里来:实体关系抽取的现状与未来.md
2019-12-02 16:42:37清华大学刘知远老师和学生韩旭、高天宇所写的关于知识图谱相关的介绍。 机器之心获授权转载,此文为.md笔记...沿着实体关系抽取需要进一步探索的四个主要方向,介绍这四个方面的发展现状和挑战,以及 一些思考和努力。 -
基于Deep Belief Nets 的中文名实体关系抽取
2015-04-11 15:45:11基于Deep Belief Nets 的中文名实体关系抽取 -
基于规则推理引擎的实体关系抽取研究_薛丽娟.pdf
2020-07-30 11:40:39因此提出了一种综合多种数据源,并结合规则推理引擎的实体关系抽取方法,准确地说就是综 合结构化和非结构化两种数据源,在结构化数据提供少量种子的情况下用规则推理引擎推理出更多的实体关 系。然后使用远程监督... -
论文研究-基于多通道卷积神经网的实体关系抽取.pdf
2019-07-22 18:09:50针对实体关系抽取任务中,传统基于统计学习的方法构建特征费时费力、现有深度学习方法依赖单一词向量的表征能力的问题,提出多通道卷积神经网模型。使用不同的词向量将输入语句进行映射,作为模型不同通道的输入,... -
ace2005 命名实体识别 关系抽取
2022-03-17 11:11:50ace2005 命名实体识别 关系抽取 -
SemEval2010_任务8_实体关系抽取数据集
2020-02-05 04:00:43SemEval2010 任务8 实体关系抽取数据集 已经标注的语料 SemEval2010 任务8 实体关系抽取数据集 已经标注的语料 -
基于协陪义动词的中文隐式实体关系抽取
2021-03-07 16:35:58实体关系抽取的目标在于探测实体之间的显式关系和隐式关系. 现有研究大多集中在显式实体关系抽取,而忽略了隐式实体关系抽取. 针对旅游和新闻领域文本经常包含许多由协陪义动词引发的隐式实体关系,本文研究了基于协... -
【关系抽取】深入浅出讲解实体关系抽取(介绍、常用算法)
2022-05-18 16:46:04关系抽取(Relation Extraction,简称RE)的概念是1988年在MUC大会上提出,是信息抽取的基本任务之一,目的是为了识别出文本实体中的目标关系,是构建知识图谱的重要技术环节。 知识图谱是语义关联的实体,它将人们...本文收录于《深入浅出讲解自然语言处理》专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅!
个人主页:有梦想的程序星空
个人介绍:小编是人工智能领域硕士,全栈工程师,深耕Flask后端开发、数据挖掘、NLP、Android开发、自动化等领域,有较丰富的软件系统、人工智能算法服务的研究和开发经验。
如果文章对你有帮助,欢迎
关注
、点赞
、收藏
、订阅。
关系抽取的背景和定义
关系抽取(Relation Extraction,简称RE)的概念是1988年在MUC大会上提出,是信息抽取的基本任务之一,目的是为了识别出文本实体中的目标关系,是构建知识图谱的重要技术环节。
知识图谱是语义关联的实体,它将人们对物理世界的认知转化为计算机能够以结构化的方式理解的语义信息。关系抽取通过识别实体之间的关系来提取实体之间的语义关系。在现实世界中,关系的提取要比实体提取复杂得多,自然句子的形式也多种多样,所以关系的提取比实体提取困难得多。
图1 关系抽取的示例
关系抽取是从纯文本中提取未知关系事实并将其加入到知识图谱中,是自动构建大规模知识图谱的关键。传统方法高度依赖于特征工程,深度学习正在改变知识图谱和文本的表示学习。
关系抽取的详细分类
关系抽取就是从非结构化文本中提取实体之间的关系。依据实体是否在文本中被标记,关系抽取方法可分为联合抽取和流水线式抽取。
联合抽取是指从文本中完成实体识别和关系分类任务,流水线式抽取是指先使用实体识别模型识别文本中的实体对,然后判断实体对的关系。一个完整的流水线式关系抽取系统包括:命名实体识别、实体链接和关系分类。
关系抽取模型大致可分为三类:基于pattern的方法、统计机器学习和神经网络。其中神经网络方法效果更好。依据抽取语料形式,关系抽取模型又可分为句子级关系抽取和段落级关系抽取。句子级关系抽取指两个实体在一个句子中,段落级关系抽取指两个实体不在同一个句子中。句子级关系抽取在实际业务中更常见。
神经网络可以从大规模数据中自动学习特征,此类方法的研究多集中在设计模型结构捕获文本语义。当前最好的关系抽取模型都是有监督模型,需要大量标注数据并且只能抽取预定义的关系。这种方法不能面对复杂的现实场景,例如少样本。目前已有不少工作探索在现实场景下的关系抽取任务。
关系抽取的主要任务
关系抽取主要分为两个任务:
(1)关系分类
基于预先给定的关系,对实体对进行分类匹配。
(2)开放关系抽取
直接从文本中抽取结构化文本关系,对文本关系映射到知识库的规范关系。
关系抽取经典算法和模型详解
(1)基于规则的关系提取
-
基于触发词模式的提取
许多实体的关系可以通过手工模式的方式来提取,寻找三元组(X,α,Y),X,Y是实体,α是实体之间的单词。比如,“Paris is in France”的例子中,α=“is”。这可以用正则表达式来提取。
这些是使用word sequence patterns的例子,因为规则指定了一个遵循文本顺序的模式。不幸的是,这些类型的规则对于较长范围的模式和具有更大多样性的序列来说是不适用的。例如:“Fred and Mary got married”就不能用单词序列模式来成功地处理。
相反,我们可以利用句子中的从属路径,知道哪个词在语法上依赖于另一个词。这可以极大地增加规则的覆盖率,而不需要额外的努力。
我们也可以在应用规则之前对句子进行转换。例如:“The cake was baked by Harry”或者“The cake which Harry baked”可以转化成“Harry bake The cake”。然后我们改变顺序来使用我们的“线性规则”,同时去掉中间多余的修饰词。
-
基于依存关系(语法树)
以动词为起点构建规则,对节点上的词性和边上的依存关系进行限定。
基于规则的关系抽取算法的优点:人类可以创造出具有高准确率的模式,可以为特定的领域定制。缺点:人类模式的召回率仍然很低(语言种类太多),需要大量的人工工作来创建所有可能的规则,必须为每个关系类型创建规则。
(2)有监督关系抽取:
有监督神经网络方法是指采用深度学习方法在大规模有监督数据集上训练模型,此类方法是目前效果最好且研究最深入的。
进行有监督关系提取的一种常见方法是训练一个层叠的二分类器(或常规的二分类器)来确定两个实体之间是否存在特定的关系。这些分类器将文本的相关特征作为输入,从而要求文本首先由其他NLP模型进行标注。典型的特征有:上下文单词、词性标注、实体间的依赖路径、NER标注、tokens、单词间的接近距离等。
我们可以通过下面的方式训练和提取:
(1)根据句子是否与特定关系类型相关或不相关来手动标注文本数据。例如“CEO”关系:“Apple CEO Steve Jobs said to Bill Gates.” 是相关的,“Bob, Pie Enthusiast, said to Bill Gates.”是不相关的。
(2)如果相关句子表达了这种关系,就对正样本/负样本进行手工的标注。“Apple CEO Steve Jobs said to Bill Gates.”:(Steve Jobs, CEO, Apple) 是正样本,(Bill Gates, CEO, Apple)是负样本。
(3)学习一个二分类器来确定句子是否与关系类型相关。
(4)在相关的句子上学习一个二分类器,判断句子是否表达了关系。
(5)使用分类器检测新文本数据中的关系。
有监督关系抽取任务并没有实体识别这一子任务,因为数据集中已经标出了subject实体和object实体分别是什么,所以全监督的关系抽取任务更像是做分类任务。模型的主体结构都是特征提取器+关系分类器。特征提取器比如CNN,LSTM,GNN,Transformer和BERT等。
图2 基于LSTM的有监督关系抽取方法
有监督关系抽取的优点:高质量的监督信号(确保所提取的关系是相关的),有明确的负样本。缺点:标注样本很贵,增加新的关系又贵又难(需要训练一个新的分类器),对于新的领域不能很好的泛化,只对一小部分相关类型可用。
(3)远程监督模型:
论文:《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》
链接:https://aclanthology.org/D15-1203.pdf
图3 PCNN模型架构
这篇论文工作是将Fully Supervised 转化为Distant Supervised。Distant supervised 会产生有大量噪音或者被错误标注的数据,直接使用supervised的方法进行关系分类,效果很差。原始方法大都是基于词法、句法特征来处理, 无法自动提取特征。而且句法树等特征句子长度变长的话,正确率很显著下降。因此文中使用Multi Instance Learning的at least one假设来解决第一个问题;在Zeng 2014 的CNN基础上修改了Pooling的方式,解决第二个问题。
训练强大的关系抽取模型需要更多的高质量数据,但是构建这样的数据集需要大量人工标注,耗时费力。Mike Mintz[22]首次使用远程监督方法生成标注数据,远程监督的假设是:如果两个实体有关系,那么任何包含这两个实体的句子都可以表达这种关系。例如,Ra{e1, e2}表示实体e1和e2具有关系Ra,若存在一个句子同时包含e1和e2,则认为该句子表达了关系Ra,将该句子标注为关系Ra的一个正样本。使用这种方法只需一个知识库和一个文本库便可自动得到标注数据。
远程监督似乎是一种解决监督数据不足的完美解决方案,但实际上远程监督数据存在如下问题:1)并非所有同时包含e1和e2的句子都可以表达关系Ra,因此数据集中存在大量标注错误问题;2)无法解决一对实体含有多关系的情况;3)False negative问题,标记为负样本的实例实际存在关系,但这种知识在知识图谱中不存在,导致标记错误。第二个问题是远程监督无法解决的问题,因为在知识图谱中两个节点间只能存在一条边,所以无法建模一对实体存在多个关系的情况。第三个问题可以通过更好的生成负样本方式缓解,例如选择包含两个明显不存在关系的实体对的句子作为负样本。第一个问题是最严重的,目前大量的研究多集中于此。
缓解远程监督数据噪声有三种方法:1)多实例学习,从多个实例中选择最有效的实例作为训练样本;2)使用外部信息选择有效实例;3)使用复杂的模型和训练方法,例如soft label、增强学习、对抗学习。
(4)联合关系抽取
参数共享的联合模型抽取spo三元组的过程是分成多步完成的(不同步),整个模型的loss是各个过程的loss之和,在求梯度和反向更新参数时会同时更新整个模型各过程的参数,后面过程的训练可以使用前面过程的结果作为特征 (注:管道模型各子过程之间没有联系)。目前多数SOTA方法都使用这种方式。
联合解码的联合模型则更符合“联合”的思想,没有明确的将抽取过程分为实体识别和关系分类两个子过程,spo三元组是在同一个步骤中进行识别得到的,真正实现了子任务间的信息共享(缺陷:不能识别重叠的实体关系)。
图4 联合关系抽取模型的种类
-
使用参数共享的经典模型
论文:《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》
链接:https://aclanthology.org/P16-1105.pdf
模型中有两个BiLSTM,一个基于word sequence,主要用于实体检测;另一个基于tree structures,主要用于关系抽取;后者堆叠在前者上,前者的输出和隐层作为后者输入的一部分。
该论文提出了一个新的端到端模型来提取实体之间的关系。模型使用双向序列RNNs(从左到右和从右到左)和双向树结构(自下而上和自上而下)LSTM-RNNs,对实体和关系进行联合建模。首先检测实体,然后使用一个递增解码的nn结构提取被检测实体之间的关系,并且使用实体和关系标签共同更新nn参数。与传统的端到端提取模型不同,模型在训练过程中还包含两个增强功能:实体预训练(预培训实体模型)和计划抽样,在一定概率内用gold标签替换(不可靠)预测标签。这些增强功能缓解了早期实体检测低性能问题。
该模型主要由三个表示层组成:字嵌入层(嵌入层)、基于字序列的LSTM-RNN层(序列层)和基于依赖子树的LSTM-RNN层(依赖层)。解码期间,在序列层上建立基于贪心思想的从左到右的实体检测,在依赖层上,利用dependency embedding和TreeLSTM中的实体对最小路径,来辅助关系分类,依赖层堆叠在序列层上,这样共享参数由实体标签和关系标签的决定。
(2)使用联合解码的经典模型
论文:《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》
链接:https://aclanthology.org/P17-1113.pdf
将实体识别和关系分类转化为序列标注问题,采用一种端到端模型, 通过编码器对句子进行编码,将隐层向量输入解码器后直接得到spo三元组,没有将抽取过程分为实体识别和关系分类两个子过程。
此文将实体关系联合抽取转换成一种新的标注模式,无需像以往研究一样,将实体和关系分步处理,直接对三元组建模。新的标签模式还可兼顾关系的方向性。针对新的标签模式,设计了一种新的loss bias函数。这为我们提供了一种新的思路,即复杂的模型往往不一定会有更好的效果,尤其对于工业及应用,代价更是无法预测。但是任务转换上的巧思,能让模型轻量的同时,得到好的效果。
(3)预训练模型+关系分类
输入层BERT:分别用特殊符号$和#号标识两个实体的边界和位置;
利用了BERT特征抽取后2个部分的特征:BERT [CLS]位置的embedding和两个实体相对应的embedding;
将上述3类特征拼接起来,再接一个FC和softmax层输出关系的分类。
(4)预训练模型+联合抽取
使用一个模型得到输入文本中的实体以及实体之间的关系,包括实体抽取模块、关系分类模块和共享的特征抽取模块。
关系分类模块包括:BERT对输入序列编码得到特征序列;NER模块的输出,经过argmax函数得到一个与输入序列长度相同,转化为固定维度的序列;拼接得到的向量分别通过一个FFN层,通过一个Biaffine分类器,预测出实体之间的关系。
关注微信公众号【有梦想的程序星空】,了解软件系统和人工智能算法领域的前沿知识,让我们一起学习、一起进步吧!
-
深度学习实体关系抽取研究综述.pdf
2021-08-19 20:24:38深度学习实体关系抽取研究综述.pdf -
基于多信息融合的实体关系联合抽取方法.pdf
2022-06-05 08:11:29基于多信息融合的实体关系联合抽取方法.pdf -
基于深度学习的中文实体关系抽取方法.pdf
2021-08-18 23:43:18基于深度学习的中文实体关系抽取方法.pdf -
基于联合模型的藏文实体关系抽取方法研究
2021-03-09 13:18:02基于联合模型的藏文实体关系抽取方法研究 -
复杂语境下的实体关系抽取
2022-01-25 14:22:31实体关系抽取任务介绍 关系定义为两个或多个实体的某种联系 实体关系抽取是自动识别出实体间是否存在某种关系 复杂语境 实体关系联合抽取 ·序列标注 ·表填充 ·序列到序列 联合抽取:序列标注(NovelTagging) ·...
公众号 系统之神与我同在本文包括四个部分:
1、任务简介
2、实体关系联合抽取
3、文档级关系抽取
4、总结与展望
实体关系抽取任务介绍
关系定义为两个或多个实体的某种联系
实体关系抽取是自动识别出实体间是否存在某种关系
复杂语境
实体关系联合抽取
·序列标注
·表填充
·序列到序列联合抽取:序列标注(NovelTagging)
·对每个关系,将其与(Begin,Inside,End,Single)以及头实体和尾实体的序号(1,2)组合
·额外考虑一个Other标签,表示不属于任何一个关系
·如果总共有| |个关系,那么一共有2∗4∗| |+1个标签
实验结果数据
·使用弱监督的NYT数据集,看做监督数据。
·训练集包括353k个三元组
·测试集包括3880个三元组
·一共24种关系实验结果
联合抽取:NovelTagging缺陷
联合抽取:序列标注(HTB)
联合抽取:表填充
联合抽取:表填充(多头选择)
联合抽取:序列到序列(CopyRE)
联合抽取:序列到序列(CopyMTL)
联合抽取:序列到序列(Seq2UMTree)
文档级关系抽取
如何有效的学习实体的多粒度表示?
·实体在多个句子提及
·实体指代如何建模文档内的复杂语义信息?
·逻辑推理、指代推理和常识推理
文档级关系抽取:GCNN
使用图神经网络建模文档 (Word本身作为节点)
·Syntactic dependency edge:句法依赖,也就是使用每一个sentence中的word之间的句法关系建立edge;
·Coreference edge:指代,对于表示同一个含义的phrase,进行连接;
·Adjacent sentence edge:将sentence的根结点鱼上下文sentence的根结点进行连接;
·Adjacent word edge:对于同一个sentence,我们去连接当前word的前后节点;
·self node edge:word与本身进行连接;在构建好doucment graph的基础上,使 用 GCNN 来计算得到每一个 node representation
多示例学习关系分类
·聚合target entity所有的mention
文档级关系抽取:GCNN实验结果
文档级关系抽取:EOGMotivation
·现有的方法使用基于图的模型,以实体作为节点,根据两个目标节点来确定实体间的关系。然而,实体关系 可以通过节点间路径形成的唯一的边表示来更好地表达。
·EoG在不同种类节点之间,建立不同类型的边来决定信息流入节点的多少,可以更好的拟合文档之间异构的 交互关系。
EOG实验结果
文档级关系抽取:LSRMotivation
以往的工作大都通过启发式的方法建立 文档图。
该文提出的模型将图结构视为一个潜在 变量,并以端到端的方式对其进行归纳推理。
LSR实验结果
Double Graph
Double Graph实验结果
总结与展望联合抽取
序列到序列方法 =》 序列到集合
文档级别抽取
·Mention、实体、句子级别的信息传递=》实体对级别信息
·GNN过平滑、异构图 -
影视领域实体关系抽取实验.rar
2022-01-13 20:44:16关系抽取实验 Django python bootstrap relation extraction ##特征工程 ###特征类型的定义(43维特征,第42和43维特征暂时没有提取) -
电子病历命名实体识别和实体关系抽取研究综述
2019-04-19 12:33:49关于在智能医疗领域电子病历信息抽取的很好的一篇综述论文,推荐阅读。