精华内容
下载资源
问答
  • 关系抽取常用方法

    万次阅读 2019-03-01 08:32:39
    关系抽取通常会基于以下几种方式去做: 基于规则 监督学习 半监督 & 无监督学习 Bootstrap Distant Supervision 无监督学习 下面分别举例去说明方法的实现方式。 1.基于规则的方法,表示 “is ...

    关系抽取通常会基于以下几种方式去做:

    • 基于规则
    • 监督学习
    • 半监督 & 无监督学习
      • Bootstrap
      • Distant Supervision
      • 无监督学习

    下面分别举例去说明方法的实现方式。

    1.基于规则的方法,表示 “is - a”

    目的:找出尽可能多的拥有"is - a"关系的实体对(实体1,is - a,实体2)
    比如我们有一些文章:

    1. " … apple is a fruit … "
    2. " … fruit such as apple … "
    3. " … fruit including apple , banala … "

    拿到上述文章时,我们要先设计一些规则,例如:

    • X is a Y
    • Y such as X
    • Y including X

    然后通过这些规则我们可以对上述文章进行关系抽取,建立以下关系:

    实体1 实体2
    apple fruit
    banala fruit
    • 方法优点
      • 比较准确
      • 对于垂直场景,比较适合(具有针对性)
    • 方法缺点
      • 信息缺乏覆盖率(low recall rate)
      • 人力成本较高
      • 很难设计(规则冲突、重叠)

    2.监督学习

    在使用监督学习的方法时,需要做以下准备:

    • 定义关系类型
    • 定义好实体类型
    • 准备训练数据
      • 实体标注
      • 实体之间的关系标注

    下面拿一个经典的例子用以说明:
    例子:American Airlines, a unit of AMR, immediately matched the move, spokesman Tim Wagner said.

    首先我们需要运用命名实体识别(NER)工具来分析这句话,可以找到:

    • ORG : American Airlines
    • PER:Tim Wagner

    然后我们需要提取特征,将(特征(American Airlines),特征(Tim Wagner))放入分类算法。
    特征提取部分可以有以下方式:

    1. Bag-of-words
      例如我们可以用unigram提取出(American Airlines,Tim Wagner),或者使用Bi-gram提取出(American Airlines a,Tim Wagner said)
    2. pos-tagging
      提取出American Airlines和Tim Wagner的词性
    3. Bag-of-words feature
      a ,unit, of, AMR, immediately, matched, the, move, spokesman
    4. between words pos-tagging
      抽取(a ,unit, of, AMR, immediately, matched, the, move, spokesman)的词性
    5. head feature
      (Airlines,Wagner)
    6. 实体类别
      (ORG,PER)
    7. 句法分析

    以上都是词相关的特征,还可以抽取一些位置特征:例如“两个单词间有多少单词”,“单词是否在句子的第一位”,“句子在文不能中的位置”等。

    在特征提取完后,可以将训练数据放入LR,SVM或者神经网络模型中进行训练。

    3.Bootstrap方法

    Bootstrap的大致思路如下:

    • 目标关系:burial place
    • Seed tuple: [Mark Twain, Elmira]
    • 寻找包含Mark Twain, Elmira的句子
      • " Mark Twain is burind in Elmira, NY."
        -> X is burind in Y
      • " The grave of Mark Twain is in Elmira"
        -> TH grave of X is in Y
      • " Elmira is Mark Twain’s final resting place"
        -> Y is X’s final resting place
    • 利用这些pattern去搜索更多的Tuple

    它有以下缺点:

    • 对于每一种关系都需要sed tuples
      • 对seed tuples比较敏感
    • 循环会导致错误的叠加
    • 精确率不高
    • 没有概率的解释如confidence score

    所以在传统的Bootstrap的框架下,我们引申出了snowball

    • step1 : 生成模板(Pattern)
      比如我们有一个 [LOC] based [ORG]模板,如果文本中出现了 xxx base xxx ,此时在Bootstrap中是匹配不到的。snowball在此时做了优化,将模板部分进行向量化,然后将匹配的文本的实体间的内容,做相似度的对比。具体细节就不在这里多展开了,感兴趣的同学可以阅读原论文.
    • step2: 生成Tuples
      遍历文本数据,将相似度超过设定阈值的tuple保存下来
    • step3:评估Patterns和Tuples
      使用已有的Tuples去评估Patterns的准确率
      使用已有的Patterns评估Tuples的准确率
      Confidence(Tuple) = 1 - (1-Conf(pi))* … *(1-Conf(pk)) # 多个靠谱的Patterns的乘积
    4.半监督学习

    一般在半监督学习的方法中,我们会有一个少量标注label的数据Freebase以及大量未进行任何标注的Corpus text(Unlabel Text)
    在这里插入图片描述
    比如,在上述例子中,我们知道了Bill Gates 和 Micrrosoft是Founder的关系。所以通过第一条text,我们可以给Founder建立一个X founded Y 的Feature。
    在这里插入图片描述
    然后继续往下,同理我们也可以给Founder建立一个X, founded of Y 的Feature。
    这样当Feature足够多的时候,我们的traning data就会有一定的容错率。
    在这里插入图片描述
    继续往下,到第三句时,我们可以给CollegeAttended建立一个X attended Y 的Feature。
    在这里插入图片描述
    然后到第四句,我们可以新建一个sample,给Founder建立一个Y was founded by X 的Feature。
    此时我们就可以开始建立如下的Training data:

    X Y
    X founded Y , X founder of Y Founder
    X attended Y CollegeAttended
    Y was founded by X Founder

    以上都是postive training data,我们可以找一些不存在与Freebase中的关系的实体,标记label为NO_RELATION,作为nagtive training data,然后将训练数据放入机器学习模型中建立模型。

    展开全文
  • Q1:与联合抽取对比,Pipeline方法有哪些...Q8:实体关系抽取的前沿技术和挑战有哪些?如何解决低资源和复杂样本下的实体关系抽取?如何应用图神经网络?彩蛋:百度2020关系抽取比赛的baseline可以采取哪些方法?实体
  • 关系抽取学习链接 BERT进行关系抽取github 关系抽取代码讲解
    展开全文
  • NLP中的关系抽取方法归纳

    千次阅读 2020-03-30 12:48:17
    本文是阅读完娄杰所写NLP中实体关系抽取方法总结一文之后,摘录其中部分段落,结合自己对信息抽取工作理解,作出一些补充。 前言 说到信息抽取,不得不提就是实体关系抽取(Entity and Relation Extraction)...


    本文是阅读完娄杰所写NLP中的实体关系抽取方法总结一文之后,摘录其中部分段落,结合自己对关系抽取工作的理解,记成的个人笔记。

    前言

    说到信息抽取,不得不提的就是实体关系抽取(Entity and Relation Extraction),实体关系抽取是信息抽取的关键任务之一。本文也将主要围绕这个关键任务进行讨论。实体关系抽取任务是一个级联任务,分为两个子任务:命名实体识别(NER)关系抽取(RE)。如何更好处理这种类似的级联任务是NLP的一个热点研究方向。
    这里个人觉得这两个任务除了先后顺序以外,具体没有太多内在关联,识别到实体和判别实体之间的关系我认为是两种任务,两个词组存在关系,但是这两个词组不一定就是命名实体。例如my father和i之间是父子关系,但是father和i都不是命名实体。相反,两个命名实体之间也不一定存在着关系,China和Trump之间就没有任何关系,(但可以通过关系图的形式构成间接关系)。两者唯一的关联,可能就源自两者的判断依据都源自同一句话,只是任务需求的各自处理方式不同而已。

    命名实体识别任务

    说到命名实体识别任务,现今主流采用的几乎都是之前阅读笔记中的LSTM(BiLSTM)+CRF的网络结构。那么除此之外还有哪些decode的方式?

    Softmax和CRF

    Softmax本质上就是token的多分类问题,通常采用经过CNN,RNN或者BERT特征提取之后的序列然后直接对序列中的每一个token进行softmax分类。之后可能再用CRF进行标签约束。

    指针网络

    指针网络在命名实体中的应用其实就是寻找实体的起始和结束位置,对于可能存在多个实体span的NER,需要n个二元sigmoid分类(个人认为还可以是三元softmax分类,添加以上都不是一类即可),预测每一个词是头指针还是尾指针还是都不是。

    span排列

    《Span-Level Model for Relation Extraction》基于片段排列的方式,提取所有可能的片段排列,由于每一个片段都是独立的,所以可直接提取span-level的特征去解决重叠实体问题。对于含T个token的文本,理论上共有N=T(T+1)2N=\frac{T(T+1)}{2}种片段排列。如果文本过长,会产生大量的负样本,在实际中需要限制span长度并合理削减负样本。没有预训练模型或者有力的特征提取模型时,实体span的编码表示就是在span范围内采取注意力机制与基于原始输入的LSTM编码进行交互,然后所有的实体span表示并行的输入SoftMax进行实体分类。

    关系分类任务

    通常是在一句话中的实体都被识别好给定之后,对于这些给定的实体之间存在什么样的关系,分别进行分类。

    半监督学习方法

    如果面临训练数据不足的情况,该如何进行关系分类任务?半监督学习就是大部分研究这个问题的学者的研究方向。

    基于远程监督的优化

    先解释一下远程监督,其主要的基本假设是,如果一个实体对在训练集中满足某个给定关系,那么其他出现在任何句子中的这个实体对的标签就都是这样的关系。这个方法无疑可以巨幅扩充数据集,但是这个假设太强,误差太多了。该部分内容例举的方法都是对远程监督误差问题的缓解方法。

    多示例学习

    代表论文主要如下:

    以APCNNs为例,采取PCNN模型提取一句话的特征向量,最后通过attention加权得到Bag级别的特征,关系分类是基于Bag特征进行的(这里bag指包含相同实体对的句子的集合)。而原始的PCNN模型只选择Bag中使得模型预测得分最高的句子用于模型参数的更新,这会损失很多信息。

    强化学习

    在采用多示例学习策略时,可能会出现整个Bag包含大量噪声的情况。《Reinforcement Learning for Relation Classification from Noisy Data》中,基于强化学习的CNN+RL比句子级别和Bag级别的关系分类模型取得更好效果。
    模型主要由样例选择器和关系分类器构成。样例选择器负责从样例中选择高质量的句子,采取强化学习方式在考虑当前句子的选择状态下选择样例;关系分类器向样例选择器反馈,改进选择策略

    预训练

    《Matching the Blanks: Distributional Similarity for Relation Learning》首次在预训练过程中引入关系分类目标,但仍然是自监督的,没有引入知识库和额外的人工标注,将实体metion替换为[BLANK]标识符。不同于传统的远程监督,该方法训练中不使用关系标签,采用二元分类器对句子对进行相似度计算。预训练的损失包含2部分:MLM loss二元交叉熵关系损失。在FewRel数据集上,不进行任何tuning就已经超过了有监督的结果。

    监督学习方法

    这部分不过多例举,可参考在关系分类经典数据集上刷榜的那些新模型,具体数据集有TACRED和SemEval 2010 Task 8,以TACRED为例,就有下面的工作可参考。
    在这里插入图片描述

    联合抽取

    联合抽取的难点是如何加强实体模型和关系模型之间的交互,比如实体模型和关系模型的输出之间存在着一定的约束,在建模的时候考虑到此类约束将有助于联合模型的性能。

    现有联合抽取模型总体上有两大类。

    共享参数的联合抽取模型

    1、共享参数的联合抽取模型

    通过共享参数(共享输入特征或者内部隐层状态)实现联合,此种方法对子模型没有限制,但是由于使用独立的解码算法,导致实体模型和关系模型之间交互不强。

    绝大数文献还是基于参数共享进行联合抽取的,这类的代表文献有:

    End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures 一文用依存结构树先抽取实体,再关系分类。

    Going out on a limb: Joint Extraction of Entity Mentions and Relations without Dependency Trees 一文用指针网络识别实体的同时进行关系抽取。

    Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism 一文用seq2seq框架,依次抽取关系、head实体和tail实体。

    Joint entity recognition and relation extraction as a multi-head selection problem 一文应用广泛,用多头选择机制+sigmoid先抽取实体,再利用实体的标签embedding进行关系抽取(训练时用真实标签,推断时用预测标签),利用实体边界信息组建三元组。
    针对上文的实体标签embedding在训练和推断时存在的gap,BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction 一文提出了soft label embedding并引入BERT。

    此外还有
    Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy
    Entity-Relation Extraction as Multi-Turn Question Answering
    Span-Level Model for Relation Extraction
    SpERT:Span-based Joint Entity and Relation Extraction with Transformer Pre-training

    联合解码的联合抽取模型

    联合解码的联合抽取模型

    为了加强实体模型和关系模型的交互,一些联合解码算法被提出来。比如文献Joint inference for fine-grained opinion extraction提出使用整数线性规划(ILP)对实体模型和关系模型的预测结果进行强制约束。文献Investigating lstms for joint extraction of opinion entitiesandrelations利用条件随机场(CRF)同时建模实体和关系模型,并通过维特比解码算法得到实体和关系的输出结果。文献Incremental joint extraction of entity mentions and relations将实体关系抽取看为一个结构化预测问题,采用结构化感知机算法,设计了全局特征,并使用集束搜索进行近似联合解码。文献End-to-end neural relation extrac- tion with global optimization提出使用全局归一化(Global Normalization)解码算法。文献Joint extraction of entities and relations based on a novel graph scheme针对实体关系抽取设计了一套转移系统(Transition System),从而实现联合实体关系抽取。

    在加强实体模型和关系模型的交互时,需要对子模型特征的丰富性以及联合解码的精确性之间做权衡

    • 一方面如果设计精确的联合解码算法,往往需要对特征进行限制,例如用条件随机场建模,使用维特比解码算法可以得到全局最优解,但是往往需要限制特征的阶数。
    • 另一方面如果使用近似解码算法,比如集束搜索,在特征方面可以抽取任意阶的特征,但是解码得到的结果是不精确的。

    因此,需要一个算法可以在不影响子模型特征丰富性的条件下加强子模型之间的交互。

    此外,很多方法再进行实体抽取时并没有直接用到关系的信息,然而这种信息是很重要的。需要一个方法可以同时考虑一个句子中所有实体、实体与关系、关系与关系之间的交互

    有3种易于应用的统一实体和关系标注框架(BIOES)的联合解码方法
    Joint extraction of entities and relations based on a novel tagging scheme
    Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence Labeling
    Joint extraction of entities and relations based on a novel tagging scheme

    总结

    在前文中,笔者叙述了pipeline和联合抽取中的一些实体关系抽取方法,其中面临的挑战,笔者初步总结如下并给出一点建议:

    1、对于pipeline方法中的NER来说:

    虽然很多方法已经很普及,但更需要关注复杂场景下的实体重叠问题;此外,对于NER问题其实应用很广,在很多性能敏感的场景下,使用深度学习的方法似乎不能满足要求,这时就需要我们采取「词典+规则」的方法,例如:

    • 对于医疗场景中的很多实体歧义性并不强,对上下文也不够敏感,这时构建出一个针对目标实体的词表更为有效。
    • 对于通用领域中歧义性的实体,是否可以采用多种分词方式和句法分析等融合的方法去寻找实体边界呢?这都值得我们进一步尝试。

    此外,应用解决NER的方法是否可以解决一些事件段落切割问题,方便我们将复杂任务进行拆解。

    2、对于pipeline方法中的关系分类来说:

    首要问题是怎么降低计算复杂度,关系分类时不再对句子重复编码,而是one-pass。

    在低资源场景下,采取远程监督的方法确实可以自动进行语料构建,但其中针对样本噪音的降噪方法是否还有提升空间?降噪方法能否做到与模型无关,是否可以借鉴图像分类中很有效的置信学习呢?

    此外,预训练语言模型如此火爆,针对关系分类任务,能否在预训练阶段引入更有效的关系分类的目标呢?如前文提到的文献MTB。

    3、对于联合抽取任务来说:

    难点是如何加强实体模型和关系模型之间的交互,怎么对需要对子模型特征的丰富性以及联合解码的精确性之间做权衡?

    此外,很多方法再进行实体抽取时并没有直接用到关系的信息,然而这种信息是很重要的。需要一个方法可以同时考虑一个句子中所有实体、实体与关系、关系与关系之间的交互

    引入图神经网络是否能够解决关系与关系之间的交互呢?由于篇幅原因,本文不再赘述。感兴趣的读者可以参考ACL2019中的系列文献:

    Graph Neural Networks with Generated Parameters for Relation

    GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction

    Attention Guided Graph Convolutional Networks for Relation Extraction

    Joint Type Inference on Entities and Relations via Graph Convolutional Networks

    4、对于低资源问题复杂样本问题来说:

    在刘知远老师的《知识图谱从哪里来:实体关系抽取的现状与未来》一文中,详细叙述了这方面的问题:

    • 对于少次关系学习问题:他们提出了FewRel 2.0,在原版数据集FewRel的基础上增加了以下两大挑战:领域迁移(domain adaptation)和“以上都不是”检测(none-of-the-above detection)。
    • 对于文档级别的关系抽取问题:提出了DocRED数据集,是一个大规模的人工标注的文档级关系抽取数据集,文档级关系抽取任务要求模型具有强大的模式识别、逻辑推理、指代推理和常识推理能力。

    此外,如何引入将低资源问题的解决方案引入实体关系抽取中是一个值得探讨的问题,如主动学习、迁移学习(领域自适应、跨语言问题)、元学习、半监督学习等;还有怎么解决不平衡数据下的关系抽取?一些顶会的系列文献也做了一些尝试:

    Knowledge-Augmented Language Model and its Application to Unsupervised Named-Entity Recognition

    Description-Based Zero-shot Fine-Grained Entity Typing

    Zero-Shot Entity Linking by Reading Entity Descriptions

    Multi-Level Matching and Aggregation Network for Few-Shot Relation Classification

    Exploiting Entity BIO Tag Embeddings and Multi-task Learning for Relation Extraction with Imbalanced Data

    Massively Multilingual Transfer for NER

    感兴趣的读者可以参考。

    展开全文
  • 基于改进注意力机制实体关系抽取方法
  • 基于联合模型藏文实体关系抽取方法研究
  • 基于神经网络微生物生长环境关系抽取方法
  • 实体关系抽取是信息抽取的一项重要内容,总结现有的方法对于...结合当前的研究进展,分析和比较了有监督、无监督和弱监督3类关系抽取方法的原理和代表性算法,总结了各类方法的特性并对关系抽取的发展趋势进行了展望。
  • 在自然语言处理领域,信息抽取一直以来受到...实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这为智能检索、语义分析等提供了基础支持,有助于提高搜索效率,促进知识库的自动构建。
  • 《Distant Supervision Relation Extraction with Intra-Bag and Inter-Bag Attentions 》(带内袋和袋间注意力远程监督关系提取)论文学习
  • 一种结合百科知识与句子语义特征的关系抽取方法,吕亿林,田宏韬,针对目前基于深度神经网络的关系抽取方法缺乏外部知识引入问题,提出了一种结合百科知识与句子语义特征的关系抽取方法。首先利
  • 作者:Andreas Herman编译:ronghuaiyang导读信息抽取是NLP中非常重要内容,而关系的抽取在知识图谱等领域应用广泛,也是非常基础NLP任务,今天给大家介绍一下。...

    作者:Andreas Herman

    编译:ronghuaiyang

    导读

    信息抽取是NLP中非常重要的内容,而关系的抽取在知识图谱等领域应用广泛,也是非常基础的NLP任务,今天给大家介绍一下。

    关系提取是指从文本中提取语义关系,这种语义关系通常发生在两个或多个实体之间。这些关系可以是不同类型的。" Paris is in France "表示巴黎与法国之间的" is in "关系。这可以用三元组(Paris, is in, France)来表示。

    信息抽取(Information Extraction, IE)是从自然语言文本中抽取结构化信息的领域。该领域用于各种NLP任务,如创建知识图、问答系统、文本摘要等。关系抽取本身就是IE的一个子域。

    关系提取有五种不同的方法:

    1. 基于规则的关系提取

    2. 弱监督关系提取

    3. 监督关系提取

    4. 模糊监督关系提取

    5. 无监督的关系提取

    我们将在一个较高的层次上讨论所有这些问题,并讨论每个问题的优缺点。

    基于规则的关系提取

    许多实体的关系可以通过手工模式的方式来提取,寻找三元组(X,α,Y),X是实体,α是实体之间的单词。比如,“Paris is in France”的例子中,α=“is”。这可以用正则表达式来提取。

    句子中的命名实体

    句子中的词性标记

    仅查看关键字匹配也会检索出许多假阳性。我们可以通过对命名实体进行过滤,只检索(CITY、is in、COUNTRY)来缓解这种情况。我们还可以考虑词性(POS)标记来删除额外的假阳性。

    这些是使用word sequence patterns的例子,因为规则指定了一个遵循文本顺序的模式。不幸的是,这些类型的规则对于较长范围的模式和具有更大多样性的序列来说是不适用的。例如:“Fred and Mary got married”就不能用单词序列模式来成功地处理。

    句子中的依赖路径

    相反,我们可以利用句子中的从属路径,知道哪个词在语法上依赖于另一个词。这可以极大地增加规则的覆盖率,而不需要额外的努力。

    我们也可以在应用规则之前对句子进行转换。例如:“The cake was baked by Harry”或者“The cake which Harry baked”可以转化成“Harry bake The cake”。然后我们改变顺序来使用我们的“线性规则”,同时去掉中间多余的修饰词。

    优点

    • 人类可以创造出具有高准确率的模式

    • 可以为特定的领域定制

    缺点

    • 人类模式的召回率仍然很低(语言种类太多)

    • 需要大量的人工工作来创建所有可能的规则

    • 必须为每个关系类型创建规则

    弱监督的关系提取

    这里的思想是从一组手工编写的规则开始,通过迭代的方式从未标记的文本数据中自动找到新的规则。或者,你可以从一个种子元组开始,用特定的关系描述实体。例如,seed={(ORG:IBM, LOC:Armonk), (ORG:Microsoft, LOC:Redmond)}表示具有“based in”关系的实体。

    Snowball是一个相当古老的算法示例,它可以实现以下功能:

    1. 从一组种子元组开始(或使用一些手工规则从未标记的文本中提取一组种子)。

    2. 从未标记的文本中提取和元组匹配的共现词,并用NER(命名实体识别器)标记它们。

    3. 为这些事件创建模式,例如“ORG is based in LOC”。

    4. 从文本中生成新的元组,例如(ORG:Intel, LOC: Santa Clara),并添加到种子集中。

    5. 执行步骤2或终止并使用创建的模式进行进一步提取

    优点

    • 可以发现比基于规则的关系提取更多的关系(更高的召回率)

    • 更少的人力投入(只需要高质量的种子)

    缺点

    • 随着每次迭代,模式的集合更容易出错

    • 在通过元组共现生成新模式时必须小心,例如“IBM shut down an office in Hursley”可能被错误的认为是“based in”关系。

    • 新的关系类型需要新的种子(必须手动提供)

    有监督的关系提取

    进行监督关系提取的一种常见方法是训练一个层叠的二分类器(或常规的二分类器)来确定两个实体之间是否存在特定的关系。这些分类器将文本的相关特征作为输入,从而要求文本首先由其他NLP模型进行标注。典型的特征有:上下文单词、词性标注、实体间的依赖路径、NER标注、tokens、单词间的接近距离等。

    我们可以通过下面的方式训练和提取:

    1. 根据句子是否与特定关系类型相关或不相关来手动标注文本数据。例如“CEO”关系:“Apple CEO Steve Jobs said to Bill Gates.” 是相关的,“Bob, Pie Enthusiast, said to Bill Gates.”是不相关的。

    2. 如果相关句子表达了这种关系,就对正样本/负样本进行手工的标注。“Apple CEO Steve Jobs said to Bill Gates.”:(Steve Jobs, CEO, Apple) 是正样本,(Bill Gates, CEO, Apple)是负样本。

    3. 学习一个二分类器来确定句子是否与关系类型相关

    4. 在相关的句子上学习一个二分类器,判断句子是否表达了关系

    5. 使用分类器检测新文本数据中的关系。

    有些人选择不训练“相关分类器”,而是让一个单一的二分类器一次性确定这两件事。

    优点

    • 高质量的监督信号(确保所提取的关系是相关的)

    • 我们有明确的负样本

    缺点

    • 标注样本很贵

    • 增加新的关系又贵又难(需要训练一个新的分类器)

    • 对于新的领域不能很好的泛化

    • 只对一小部分相关类型可用

    模糊监督的关系提取

    我们可以将使用种子数据(比如弱监督的RE)和训练分类器(比如有监督的RE)的思想结合起来。但是,我们可以从现有的知识库(KB),比如Wikipedia、DBpedia、Wikidata、Freebase、Yago中得到种子,而不是自己提供一组种子元组。

    模糊监督的关系抽取方法:

    1. 对于知识库中我们感兴趣的每个关系类型进行循环

    2. 对于知识库中该关系的每个元组进行循环

    3. 从我们的未标记文本数据中选择可以匹配到这些元组的句子(元组的两个单词在句子中是共现的),并假设这些句子是这种关系类型的正样本

    4. 从这些句子中提取特征(如词性、上下文词等)

    5. 训练一个有监督的分类器

    优点

    • 更少的人力

    • 可以扩展使用大量的标注数据和大量的关系

    • 不需要迭代(相比于弱监督关系抽取)

    缺点

    • 训练语料库的标注噪声(句子中同时具有这两个单词可能并没有描述这种关系)

    • 没有明显的负样本(可以通过匹配没有关系的实体来解决)

    • 受限于知识库

    • 需要在任务上进行非常仔细的调试

    无监督的关系提取

    在这里,我们从文本中提取关系,而不需要标注任何训练数据、提供一组种子元组或编写规则来捕获文本中不同类型的关系。相反,我们依赖于一组非常普遍的约束和启发。这算不算是无监督的,是有点争议的,因为我们使用的“规则”是在一个更普遍的层面上。此外,在某些情况下,甚至可以利用小的标注文本数据集来设计和调整系统。然而,这些系统一般需要较少的监督。开放信息提取(Open Information Extraction, Open IE)通常指的是这种范式。

    TextRunner是属于这类关系提取方案的一种算法。其算法可以描述为:

    1.  在一个小语料库上训练一个自监督分类器

    • 对于每一个解析过的句子,找出所有名词短语(X, Y),它们之间由一系列单词r连接起来。如果它们满足所有的约束条件,就将它们标注为正样本,否则就将它们标注为负样本。

    • 将每个三元组(X、r、Y)映射到一个特征向量表示上(例如,对POS标注进行聚合、r中的停止词数量、NER标注等)。

    • 训练二分类器来识别可靠的候选

    2. 遍历整个语料库并提取可能的关系

    • 从语料库获取潜在的关系

    • 根据分类器的到的候选的置信度,保留/丢弃候选

    3.  基于文本冗余度的关系排序评估

    • 规范化(忽略不必要的修饰词)和合并相同的关系

    • 计算关系中出现的不同句子的数量,并为每个关系分配概率

    OpenIE 5.0和Stanford OpenIE是这样做的两个开源系统。它们比TextRunner更现代(这里只是用它来演示范例)。我们可以期望从这样的系统输出许多不同的关系类型(因为我们没有指定我们感兴趣的关系类型)。

    优点

    • 不需要/几乎不需要标注训练数据

    • 不需要我们手动预先指定每个甘心去的关系,而是考虑所有可能的关系类型

    缺点

    • 系统的表现在很大程度上取决于约束和启发法的构造有多好

    • 关系不像预先指定的关系类型那样规范化

    END

    英文原文:https://medium.com/@andreasherman/different-ways-of-doing-relation-extraction-from-text-7362b4c3169e

    交流学习,进群备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

    展开全文
  • 实体关系抽取任务方法及SOTA模型总结

    千次阅读 多人点赞 2020-05-31 21:02:08
    对于实体关系抽取任务,最容易想到的方法就是先抽取句子中的实体,然后在对实体对进行关系分类,从而找出spo三元组,这种思想被称作管道模型(Pipeline)。管道模型把实体关系抽取分成了两个子任务,实体识别和关系...
  • 文档级关系抽取方法总结

    千次阅读 2020-07-20 09:28:06
    目前大多数关系抽取方法抽取单个实体对在某个句子内反映关系,在实践中受到不可避免限制:在真实场景中,大量关系事实是以多个句子表达。文档中多个实体之间,往往存在复杂相互关系。 以下图为例,就...
  • 航空安全事故因果关系抽取方法的研究(网络首发)
  • 基于种子自扩展命名实体关系抽取方法的研究
  • 搬运自本人知识图谱与大数据公众号,这是一篇 2018-04-17文章,可能已过时,仅供参考,更多内容关注公众号或者访问从今天开始种树。 发展 ...现有的关系抽取方法严重依赖于人工标注数据,为了克.
  • 针对互联网中开放式中文文本关系难以抽取的问题, 提出一个新的关系抽取方法。 为缓解关系三元组抽取较难的问题, 给出一个新的基于属性和概念实例的关系三元组构造方法, 抽取的大量概念实例关系三元组中 不仅包含大量...
  • 一种基于语义上下位关系抽取方法 作者:陈金栋,肖仰华 单位:复旦大学计算机科学学院 一、精简总结 本文提出了一种强模板和语义模板结合上下位抽取框架,预抽取阶段结合强模板提高精度,迭代抽取阶段结合语义...
  • 事物、概念之间的关系是人类知识中非常重要一个部分,但是他们通常隐藏在海量非结构文本中。为了从文本中抽取这些关系事实,从早期模式匹配到近年神经网络,大量研究在多年前就已经展开。然...
  • 方法利用依存句法分析简称依存分析实现开放式中文实体关系抽取,首先对一个句子进行依存分析,再结合中文语法启发式规则和依存分析结果抽取关系表述,并根据距离确定论元位置,最后进行三元组输出。
  • 1引言传统意义上讲,关系抽取是实体识别基础上一个任务,其核心是抽取一个句子中包含实体对之间关系。第一步就是训练一个关系抽取器,换句话讲就是训练一个关系分类器。因为模型不可能自己给关系起名字,所以...
  • 为此,研究了在组块层次标注基础上应用马尔可夫逻辑网分层次进行中文专利开放式实体关系抽取的方法。实验表明:以组块为出发点降低了对句子理解的难度,外层和内层组块可以统一处理,减少了工程代价;而且在相同特征...
  • 本文以QA形式总结了「nlp中实体关系联合抽取方法」,阅读下文,了解更多知识详情。 本文来自于知乎,由火龙果软件Alice编辑、推荐。 Question List Q1:与联合抽取对比,Pipeline方法有哪些缺点? Q2:NER...
  • 关系抽取

    万次阅读 2017-06-01 16:22:51
    目的 从文本中识别实体并抽取实体之间的语义关系 主流的关系抽取技术 有监督的学习方法:将关系抽取...半监督的学习方法:主要采用 BootStrapping 进行关系抽取,对于要抽取的关系,该方法首先手工设定若干种子实例
  • 知识图谱中传统关系抽取方法

    千次阅读 2019-07-11 09:58:00
    目前主要采用统计机器学习的方法,将关系实例转换成高 维空间中的特征向量或直接用离散结构来表示,在标注语 料库上训练生成分类模型,然后再识别实体间关系  基于特征向量方法 最大熵模型(Kambhatla 2004)和支持...
  • 基于混合核的关系抽取和基因-疾病相互作用网络构建方法

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,455
精华内容 582
关键字:

关系抽取的方法