精华内容
下载资源
问答
  • 共指消解(一)

    千次阅读 2020-02-24 15:08:10
    共指消解技术综述摘要重点引言基本概念共指消解的研究现状 摘要重点 共指消解旨在识别指向同一实体的不同表述 共指消解是一个NP-Hard的问题 共指消解的发展经历了基于规则、基于机器学习、基于全局最优化、基于知识...

    摘要重点

    1. 共指消解旨在识别指向同一实体的不同表述
    2. 共指消解是一个NP-Hard的问题
    3. 共指消解的发展经历了基于规则、基于机器学习、基于全局最优化、基于知识库和基于深度学习的模型阶段

    引言

    共指消解(coreference resolution)技术同NER、RE。作为自然语言历届基础技术被广泛的应用于:文本摘要、机器翻译、自动问答和知识图谱等领域。

    共指消解的提出是为了识别一段文本中指向同一实体的不同表述。

    整个共指消解的过程可以理解为——判断一个表述是否指向另一个表述的过程。
    照应语(Anaphor):指出的表述。
    先行语(Antecedent):指入的表述。
    简化的判断可如下:
    照应语指向先行语
    在这里插入图片描述
    根据照应语和先行语的位置不同可分为四种情况:

    1. 回指:先行语在照应语前,其中照应语为人称代词。
    2. 预指:先行语在照应语后,其中照应语为人称代词。
    3. 名词短语共指:先行语和照应语均为非人称代词的名词短语。
    4. 先行语分指:一个照应语对应多个先行语。

    共指消解的难点在于:

    1. 共指消解是一个NP-Hard 的问题,在多项式时间内无法求得最优解。
    2. 自然语言的场景和句式多变,同一句话在不同语境下可表示不同的含义,不同的句子可能标识同样的含义。
    3. 语料质量较低,并且缺乏数据集。

    基本概念

    共指消解中的共指关系是一种等价关系。有如下性质:

    1. 自反性
    2. 对称性
    3. 传递性

    实体解析(Entity Resolution)与共指消解的定义基本相同,实体匹配(Entity Matching)和实体对齐(Entity Alignment)主要侧重于不同的数据源之间是否指向同一实体。

    共指消解可以作为实体链接的一部分:
    step1:命名实体识别
    step2:共指消解
    step3:实体消歧

    回指消解:考虑同一篇章红的照应语与上文中的先行语之间的语义关联性,不一定是等价关系。

    共指消解的研究现状

    在这里插入图片描述

    基于规则的方法

    Hobbs算法

    Hobbs算法是在1978年提出的最早的共指消解算法之一。
    Hobbs有两个不同的版本:

    1. 完全基于句法知识的——朴素Hobbs算法。
    2. 加入语义知识的——Hobbs算法的改进版。

    Converse首次将Hobbs算法运用在中文共指消解中,并语句语法加入了额外的约束信息。

    中心理论

    中心理论的大致思路是跟踪文本中实体的焦点变化。
    中心理论作为一种理论模型,实例化后的算法也是基于规则的,所以其缺乏泛化能力。此外其职能判断两个相邻表述是否共指,所以预测能力也较差。

    基于机器学习的方法

    监督学习

    1. 表述对模型(Mention-pair Model)
      该模型将共指消解问题看作表述对的二分类模型。根据距离特征和上下文特征判定表述对是否共指。存在两个缺陷:(1) 只关注先行语和照应语之间的关系,忽略了先行语两两之间的相互关系。(2) 当特征不足以判断是否共指时,可能存在代词语义过空、表述性别难以分辨的问题。
    2. 表述排序模型(Mention-ranking Model)
      该模型将共指消解问题看作是排序学习问题。模型考虑了多个先行语之间的排序关系,因此弥补了表述对模型的缺陷(1)
    3. 实体表述模型(Entity-mention Model)
      该模型将共指消解问题看作实体与表述的二元分类问题。其中实体为共指的先行语集合。一个实体包含多个共指先行语,其上下文的信息可以互补,所以弥补了表述对模型的缺陷(2)
    4. 实体排序模型(Entity-ranking Model/Cluster-ranking Model)
      该模型结合了表述排序模型和实体表述模型的优点。

    无监督学习

    相比于海量的无标注文本,由于人工成本的昂贵,所以标注数据往往规模较少。
    所以有的学者利用无监督学习进行共指消解,比如聚类,EM算法,LDA算法。

    半监督学习

    介于监督学习和无监督学习之间的方法,既能利用带标注数据保证模型的精度,又可以通过无标注数据提升模型的泛化能力。

    基于全局最优化的方法

    基于机器学习的方法还有如下不足:

    1. 训练数据的特征往往是局部的,没有考虑全局的依赖关系和语义特征。
    2. 可能违背共指等价关系的传递性,“A与B共指,ByuC共指,则出现A与C不共指”

    为了缓解这个问题,全局最优化方法被提出。

    基于知识库的方法

    人类的先验知识有利于共指消解的任务,而先验知识的获取较为困难,所以出现了利用知识库中的知识,提取额外的特征发现表述之间的隐含关系,从而提高模型的性能。

    基于深度学习的方法

    深度学习利用了word embedding、LSTM和Attention等方面的内容。进一步实现了end to end的模型,并且提升了整体的性能和泛化能力。

    总结与展望

    总结:

    1. 模型缺乏语义推理能力
    2. 缺乏共指消解的语料库
    3. 模型效果过于依赖前置模型的性能

    展望:

    1. 采用知识图谱抽取开放特征
    2. 更为充分的利用无标注数据
    3. 利用好强化学习
    4. 更完备的end to end 模型
    展开全文
  • 对象共指消解是语义Web研究中的一个关键问题。虽然目前已有许多不同的对象共指消解方法,但是它们的效率还不能满足实际使用的要求。MapReduce框架具有简单性和较强的计算能力,已被广泛用于各种数据并行处理任务。...
  • 针对信息安全领域内的共指消解问题,提出了一个混合型方法。该方法在原来BiLSTM-attention-CRF模型的基础上引入领域词典匹配机制,将其与文档层面的注意力机制相结合,作为一种新的基于字典的注意力机制,来解决从...
  • 基于触发词语义选择的Twitter事件共指消解研究
  • 共指消解评价指标

    2020-06-23 16:43:39
    本篇博文主要介绍共指消解任务中常用的评价指标:MUC,B3,CEAF,以及BLANC。在实际应用中,通过采用上述评价指标的多种的平均值作为最终的评估指标。 二、MUC MUC score计算了将预测的共指链映射到标注的共指链所需...

    一、简介

    本篇博文主要介绍共指消解任务中常用的评价指标:MUC,B3,CEAF,以及BLANC。在实际应用中,通过采用上述评价指标的多种的平均值作为最终的评估指标。

    二、MUC

    MUC score计算了将预测的共指链映射到标注的共指链所需插入或者删除的最少的链接数量。其缺陷在于无法衡量系统预测单例实体(singleton entity)的性能。

    三、B3

    B3算法可以克服MUC的缺点,因为该算法主要是对每个mention来分别计算precision和recall,然后以所有mention的平均值作为最终的指标。

    对于单个mention,计算方式如下所示:
    在这里插入图片描述
    其中,R代表算法预测的共指链,而K则代表数据集标注的共指链。

    计算样例:
    在这里插入图片描述
    在这里插入图片描述

    四、CEAF

    CEAF是一种基于实体相似度的评估算法。对于实体相似度的计算,作者提出了两种方式:
    在这里插入图片描述
    (这两种计算方法的区别在于后者多了一个归一化的过程。)

    以第一种相似度的计算方法,CEAF的准确率与召回率计算方法如下所示:
    在这里插入图片描述
    计算样例:
    在这里插入图片描述

    五、BLANC

    BLANC算法实现了Rand Index,主要用于聚类算法。BLANC算法正确地处理单例实体,并根据被提及的数量奖励正确的实体。然而,BLANC背后的一个基本假设是,对于给定的提及集合,所有共指链接和非共指链接的总和是不变的。这意味着BLANC在键和响应上假定相同的提及。

    六、参考文献

    [1]. Cai, Jie, 和Michael Strube. 《Evaluation Metrics For End-to-End Coreference Resolution Systems》. 收入 Proceedings of the SIGDIAL 2010 Conference, 28–36. Tokyo, Japan: Association for Computational Linguistics, 2010. https://www.aclweb.org/anthology/W10-4305.
    [2]. Luo, Xiaoqiang. 《On Coreference Resolution Performance Metrics》. 收入 Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, 25–32. Vancouver, British Columbia, Canada: Association for Computational Linguistics, 2005. https://www.aclweb.org/anthology/H05-1004.

    展开全文
  • 文章目录入门定义术语分类面向实体共指消解的机器学习综述评价指标应用场景共指消解任务定义分析ModelSpan RepresentationPractical ImplementationResultMethodsHobbs’ naive algorithm (1976)中心理论对数线性...

    入门

    定义

    共指消解:找出文本中指代同一实体的表述。
    CS224N的定义:找到所有指向真实世界中同一entity的mention。
    1上面这个例子中,Barack Obama,his,he均指代Barack Obama,而Hillary Rodham Clinton、secretary of state、her、she、First Lady均指代Hillary Rodham Clinton。

    术语

    术语
    2

    • mention:文档中的实体的不同指代(表述),它可以是代词、也可以是命名实体、还可以是名词短语,其实也可以理解成文档中所有实体,为了和entity加以区别。
    • antecedent:前指(先行词),前面那个mention,前指表示的是具体的实体,图1中 “Sally” 和 “she ” 具有共指关系,它们都表示“Sally”这个人。“Sally” 是具体化的实体,“she"是抽象化实体,即“Sally” 是“she”的前指,图二中"Barack Obama” 和 "he"也是如此。
    • coreferent :共指关系,图中 “Sally” 和 “she ” 具有共指关系,它们都表示“Sally”这个人。
    • cluster :同一mention的簇,就类似聚类中的簇,聚类是将同一类事务聚到一起,共指消解就是将文本中具有共指关系的mention 聚到一起。图中 “Sally” 和 “she ” 为一个簇, “John” 和 “him” 为一个簇, “violin”为一个簇。也比如{Barack Obama,his,he}也是一个簇。
    • anapnoric :回指,回指表示的是抽象化的实体;指代称为照应(anaphor),也就是后面那个mention,图1中“Sally” 是具体化的实体,“she"是抽象化实体,即“she” 是“Sally”的回指,图二中"Barack Obama” 和 "he"也是如此。
    • non-anapnoric:没有回指;即图中"violin"只有具体化的实体(它本身),没有抽象化的实体。
    • span:一个句子中的短语或者子串
    • singleton:没有共指单独出现的 mention,和上面的non-anapnoric是一个意思.
    • Cataphora:下指,和anapnoric 相反

    并非所有的回指或下指都是共指关系。

    理解mention:
    Entity Mention:span of text referring to some entity,具体包括代词(pronouns)、命名实体(named entities)、名词短语(noun phrases)以及其它。
    代词:可以通过词性标注工具来获取
    命名实体:可以通过NER工具来获取
    名词短语:parser,例如 a constituency parser
    但是值得注意的是,并不是所有的代词、命名实体以及名词短语都是好的mention,例如:
    (1)It is sunny
    (2)Every student
    (3)No student
    (4)The best donut in the world
    (5)100 miles
    在上述例子中,这些mention指代的是一种抽象概念,而不是具体的事物。对于这些指代,可以通过训练一个分类器来过滤掉,但更常见的方法是将其视为候选指代。

    理解span:
    比如 小明和小李 这个文本段中,“小明 ” 、“小李” 、小明和小李 这都为mention ,假如这个文本后续的文本中出现 他们 这个mention ,那么 他们 和 小明和小李 就有共指关系。由于不知到具体哪个文本段为mention,所以一般都考虑所有的span(span 也就是序列),比如文本段小明和小李,他的span为 小 、小明 、小明和、小明和小、小明和小李、明。。。一段文本由T个word组成,那么span的数目为 T 2 T^{2} T2,把这些span都当作潜在的mention,这样的话计算量太大,后续需要修剪。

    分类

    在CS224N中分成 回指下指
    下指(Cataphora):指后照应,顺向照应(语言单位由下文加以说明),与回指的区别在于先行词通常在指代词的后面。

    回指(anapnoric),即下文的词返指或代替上文的词。其中,被指代的上文中的词称之为先行词(antecedent),指代称为照应(anaphor)。
    3

    回指又可以分为两种:代词回指(pronominal anaphora),以及桥接回指(bridging anaphora)。

    代词回指:照应通常是代词,需要找到代词对应的先行词。
    
    桥接回指:在桥接回指中,照应和先行词都是具体指代,但是这两个指代之间存在一定的照应,或者说解释关系,例如下文中的“a concert”和“The tickets”:
    

    1
    在回指中,照应的解释在一定程度上依赖于先行词,重点在于找到指代对应的先行词;而对于共指,指代的解释取决于指代本身,重点在于判断指代之间是否具有共指关系,如图所示:
    3共指与回指之间存在一定的重叠关系,如图所示:
    4

    Four Kinds of Coreference Models/四种共指模式
    基于规则的(代词回指解析)\提对\提及排名\聚类

    其他文章中的分类解析:

    从文强师兄学位论文中可以概括出其在冲突消解方面的主要工作包括:实体共指消解(resolving entity coreference)、模式匹配(schema matching)、宾语冲突消解(object conflicts resolution)。

    实体解析(Entity Resolution)与共指消解的定义基本相同,实体匹配(Entity Matching)和实体对齐(Entity Alignment)主要侧重于不同的数据源之间是否指向同一实体。
    共指消解可以作为实体链接的一部分:
    step1:命名实体识别
    step2:共指消解
    step3:实体消歧

    面向实体共指消解的机器学习综述

    本节主要概括Vincent Ng 于2017年发表于AAAI会议的文章:Machine Learning for Entity Coreference Resolution: A Retrospective Look at Two Decades of Research. 本节将该论文讲述的利用机器学习解决实体共指的方法概括如下图:5根据该文所述,Mention—Pair 模型为最具影响力的模型,Neural Models为值得深入研究的模型。

    另一个文章“共指消解(一)”对现状的总结:
    5

    评价指标

    共指消解评价指标

    应用场景

    • Full text understanding
      共指消解有助于对文本的全面理解,从而促进信息抽取(information extraction),自动问答(question answering),文本摘要(summarization)
    • 机器翻译(machine translation)
      在不同的语言中,指代词各有特点,因此理解代词的具体指代,有利于提升系统的翻译效果。
    • 对话系统(Dialogue Systems)
      在对话系统,理解不同mention的真实指代,有利于理解用户的真实意图,如图所示:

    共指消解任务定义

    在“一文详解自然语言处理任务之共指消解”中对共指消解做出了非常有趣且详细的任务分析。可以先看这篇博客便于理解。下面直接按照CS224N对共指消解做任务步骤划分:

    分析

    共指消解包括两步:Detect the mentions,以及cluster the mentions。前者比较容易,后者则较为困难。
    Detect the mentions是要把所有的 mention 都标注出来。

    有时 mention 的定义是比较模糊的。一般我们会有一个语料参照(分类器),要把哪些作为 mention,哪些忽略。这些 mention 与 mention 之间,有时候会有边界重叠包含关系。比如“他的拳头”整体是一个 mention,“他”又可以是另外一个 mention。这些 mention 要被分成不同的簇类。相同簇的 mention 指代的对象会是同一个。如果是复数要怎么办呢?一般我们会单独作为新的实体簇来划分。它与 NER 不同在于NER 找的实体几乎不存在交叉。

    第一步,针对找出 mention 这个问题,我们需要有一个二分类器。它的输入是一串 tokens 序列,输出是这一串 tokens 是不是 mention。Mention Detection 与分割和填槽有一点点不同。这个二分类器,输入是要一整个 span,决定它是不是 mention。之所以要这么做,是因为在做 mention detection 的时候,mention 之间会有互相包含的关系。假如有一个长度为 N 的序列,我们需要找出 N(N-1)/2 的可能 span 组合输入给模型去分类。这是一个有监督学习。监督信息来自于人工标注的 mention 作为正例,和未标注到的 token 作为负例。

    cluster the mentions,是思考哪些 mention 应该要放在同一个类别簇中。这也是用一个二分类器,输入是两个 mention,输出是这两个 mention 有无共指的关系。如果我们有 K 个 mentions,则两两组合有 K(K-1)/2 次分类。

    我们可以把上面两个步骤联合起来,只用一个分类器来端对端地训练。输入分类器的是两个 span,若二者是mention 且共指,则分类器输出 1。反之两个 span 任意一个不是 mention,或不共指,则输出0。它的复杂度为 O(N^4)。当 N 稍微大一点时,算法性能就会受限。

    Model

    6这个模型实际是怎样的呢?输入序列会先丢给预训练语言模型,得到每个 token 的嵌入。接着,我们会通过一个特别的模块专门把 span 提取出来,聚合成一个向量。接下来,我们会有一个 mention detection 的模块,输入一个向量,输出判断它是不是 mention。与此同时,两个 mention 向量还会输入给一个 mention pair 的模块,判断它们是不是共指。最后我们把三个分数直接加起来,作为最终输出。

    Span Representation

    8span extraction 一种常见的做法是,假如一个 span 中有四个 embedding,我们先会把它的开头和结尾取出来,再把四个向量取平均,或把它们两两做自注意力,来做加权平均,得到注意过后的向量。比如湖边小屋,真正决定它是 mention 的词在小屋上。模型通过自动学得在小屋这类词上做更多的关注。从而获得一定的泛化能力,学到海边小屋,街边小屋,森林小屋,都是 mention。

    Practical Implementation

    7如果我们要用这种端对端的方式训练,怎样把它的运算量变得更小呢?推断的时候,我们可以先做 mention detection,跑 N(N-1)/2 次,找出 K 个 mention。再去用 K 个 mention 两两分类看是不是共指。由于 K << N,后面的分类计算量大大减小了。另一个技巧是限制 span 的长度,比如最多不超过 10 个 tokens。这样复杂度就成了固定的数值。

    Result

    9各式各样抽取词嵌入的方法包括了 GLoVe + LSTM,ELMo 和 BERT。图中,小括号代表一个 mention。颜色越深代表注意的权重越大。模型是能够判断在一段 span 的 tokens 中,最重要的是哪些 token。像 fire 和 blaze 指的是同一个东西。factory 和 building 也指的是同一个东西。不过模型也有些 case 把握的不是很好,比如会把 region 和 area 看成是同一个指代。其中有一些比较难的case,需要模型理解一些常识才能去解。这就不是单纯读这篇文章就可以解决的问题。

    Methods

    Hobbs’ naive algorithm (1976)

    传统代词回指算法,该算法仅用于寻找代词的参考,也可以延伸到其他案例,下面展示的也是代词的参考部分。
    11
    11 1、从名词短语开始,直接支配代词
    2、上到第一个NP或S,称之为X,路径为p。
    3、横过X以下的所有分支到p的左边,从左到右,宽度优先。提出任何在它和X之间有NP或sb的NP作为先行词
    4、如果X是句子中最高的S,则按照最近的顺序遍历前面句子的解析树。从左到右遍历每棵树,宽度优先。当遇到NP时,建议作为先行词。如果X不是最高的节点,则转到步骤5。
    5、从节点X到树的第一个NP或S,称之为X,路径p。
    6、如果X是NP,并且p到X的路径来自X的非头短语(一个说明符或附加语,如所有格、PP、同位或关联从句),则建议X作为先行词(原话说“没有通过X立即表示的N’”,但宾州树库语法缺少N’节点…)
    7、以从左到右、宽度优先的方式将X以下的所有分支移到路径的左侧。提出任何遇到的NP作为前因
    8、如果X是S节点,则遍历X的所有分支到路径的右侧,但不要低于遇到的任何NP或S。以NP为前因。
    9、转到步骤4
    12上述算法的例子。这是一个很简单、但效果很好的共指消解的基线/基准。

    Hobbs’ algorithm: commentary/Hobbs算法述评
    “… 这种天真的做法是相当好的。从计算上讲,一个基于语义的算法还需要很长时间才能实现,这些结果为任何其他方法的目标设定了一个非常高的标准。
    然而,我们完全有理由追求基于语义的方法。天真的算法不起作用。任何人都可以举出失败的例子。在这些情况下,它不仅失败了,而且没有任何迹象表明它失败了,也无法帮助找到真正的前因。”
    -霍布斯(1978),《语言学》,第345页
    (直到2010年,设法产生代词回指分辨率的算法(我不知道翻译的对不对)才表现优于Hobbs算法)

    中心理论

    某语言类书中提及

    Knowledge-based Pronominal Coreference

    基于知识的代词共指代词
    13第一个例子中,两个句子具有相同的语法结构,但是出于外部世界知识,我们能够知道倒水之后,满的是杯子(第一句it指向的是the cup),空的是壶(第二句it指向的是the pitcher);第二个例子也是相同的(一个是委员会一个是女人)
    这被称为Winograd模式,最近被提出作为图灵测试的替代方案。
    可以将世界知识编码成共指问题。

    这是基于知识的代词共指,在我的理解上是需要推理按照逻辑得到正确的理解。

    对数线性模型

    某语言类书中提及

    Simple neural network

    输入层包括word embedding,以及一些额外的分类特征。Word embeddings包括所有mention的Previous two words, first word, last word, head word。其中,Head word是指mention中最重要的word,可以通过一些parser来得到。分类特征包括:distance,document genre,以及speaker information等。10

    Mention-Pair Model

    提及对模型
    1

    训练一个二元分类器,为每一对 mention 的分配共参的概率在这里插入图片描述
    。例如,为了寻找 “she” 的共指,查看所有候选先行词(以前出现的 mention ),并确定哪些与之相关。
    111二分类,与之相关的mention概率接近1,不相关的概率接近0.
    1

    图片内容分别为:
    遍历 mentions
    遍历候选先行词(前面出现的 mention)
    共指 mention 对应该得到高概率,其他应该得到低概率

    文章的 N 个mention,如果mi和mj是共指的,则yij=1,否则yij=-1,只是训练正常的交叉熵损失(看起来有点不同,因为它是二元分类)

    Mention Pair Test Time/提及配对测试时间
    共指解析是一项聚类任务,但是我们只是对mentions对进行了评分……该怎么办?
    1选择一些阈值(例如0.5),并将1
    在阈值以上的 mentions 对之间添加共指链接
    利用传递闭包得到聚类
    2使用传递闭包来获得集群
    2尽管模型没有预测到这种共指链接,但由于及物性,我和我的是共指者
    添加这个额外的链接会将所有内容合并到一个大的共指集群中!
    2这是十分危险的,如果有一个共指 link 判断错误,就会导致两个 cluster 被错误地合并了
    Mention Pair Models: Disadvantage/提及配对模式:劣势
    假设我们的长文档里有如下的mentions
    3许多 mentions 只有一个清晰的先行词,但我们要求模型来预测它们
    解决方案:相反,训练模型为每个mention只预测一个先行词,在语言上更合理

    Mention Ranking

    共指模型:提及排名;根据模型把其得分最高的先行词分配给每个mention,虚拟的 NA mention 允许模型拒绝将当前 mention 与任何内容联系起来(“singleton” or “first” mention),first mention: I 只能选择 NA 作为自己的先行词.
    44正例:模型必须给其中一个分配高概率(不一定是两个)。
    4候选先行词的分数上应用softmax,是概率总和为1。
    4只添加得分最高的mention最为she的共指关联。
    Coreference Models: Training/共指模型:训练
    我们希望当前mention mj与它所关联的任何一个候选先行词相关联,在数学上,我们可能想要最大化这个概率,公式如下:4

    上图内容翻译:
    遍历候选先行词集合
    对于 yij=1的情况,即mi与mj是共指关系的情况
    我们希望模型能够给予其高可能性

    这个模型对一个正确的前因产生了0.9的概率,而其他所有的概率都很低,而且总和仍然很大,把它转化为一个loss函数,如下: 4Mention Ranking Models: Test Time/提及排名模型:测试时间(或者是测试阶段更好)
    和mention-pair模型几乎一样,除了每个mention只分配一个先行词
    4How do we compute the probabilities?/我们如何计算概率?
    如何决定mi和mj是共同的呢?将会从下面三个方面进行介绍

    • A. Non-neural statistical classifier/非神经统计分类器
    • B. Simple neural network/简单神经网络
    • C. More advanced model using LSTMs, attention/使用LSTM的更高级模型,注意力机制
      A. Non-Neural Coref Model: Features/非神经Coref模型:特征
      经典做法是我们有一大堆功能,基于特征的统计分类器,然后给出分数
      4使用如下特征进行分类 (可以把这些特征都投入进去训练)
      • 人、数字、性别
      • 语义相容性(类似集团和公司就很相似)
      • 句法约束(例如之前说的Hobbs算法,不同的句法配置有多大可能意味着共同参与)
      • 更近的提到的实体是个可能的参考对象(两个人先后做个一个事情,出现的he更可能是后一个人,如上图对应例子)
      • 语法角色:偏好主语位置的实体(上述对应例子就很能表达出这个意思)
      • 排比(看对应例子…)

    B. Neural Coref Model
    标准的前馈神经网络,输入层:词嵌入和一些类别特征(彩色部分可能提到了什么是语法关系?这是一个主题吗?它是一个对象吗?是否是共同?额外功能记录了相距有多远及尺寸)
    4Neural Coref Model: Inputs/神经Coref模型:输入
    嵌入:每个 mention 的前两个单词,第一个单词,最后一个单词,head word,… 。head word是 mention 中“最重要”的单,—可以使用解析器找到它
    例如:The fluffycat stuck in the tree
    仍然需要一些其他特征,如下:
    距离、 文档体裁、说话者的信息嵌入

    End-to-end Neural Coreference Resolution (Lee et al., EMNLP 2017)

    这是一个华盛顿大学完成的系统(2017年,Kenton Lee和其他作者完成的),目标是生成一个端到端的共享系统,提出共同的集群,是当前最先进的模型算法(Kenton Lee et al. from UW, EMNLP 2017),是Mention排名模型,改进了简单的前馈神经网络,改进如下:

    使用LSTM
    使用注意力
    端到端的完成 mention 检测和共指
    (没有 mention 检测步骤!而是考虑每段文本(一定长度)作为候选 mention们,
    例如:a span 是一个连续的序列)
    

    End-to-end Model的步骤
    首先将文档里的单词使用词嵌入矩阵和 charCNN embed 为词嵌入
    5
    接着在文档上运行双向 LSTM
    5接着将每段文本i从start(i) 到end(j)表示为一个向量
    5span 是句子中任何单词的连续子句
    General, General Electric, General Electric said, … Electric, Electric said, …都会得到它自己的向量表示
    5例如 “the postal service”
    5555是span 的注意力加权平均的词向量:5
    5为什么要在 span 中引入所有的这些不同的项?
    5最后,为每个span对打分来决定他们是不是共指mentions
    5打分函数以span representations作为输入
    55

    Last Coreference Approach: Clustering-Bas/最后一种共指方法:聚类Bas

    共指是个聚类任务,让我们使用一个聚类算法吧。特别是我们将使用 agglomerative 凝聚聚类(自下而上的)。开始时,每个mention在它自己的单独集群中,每一步合并两个集群(使用模型来打分那些聚类合并是好的)
    所以这里的想法是我们会有段文字:谷歌最近等等(如下)6到这里我们有一些/四个提及,这四个提及各有自己的集群,我们可能决定两个提及是共同的并把他们合并成一个集群,如下66Clustering Model Architecture/聚类模型体系结构
    From Clark & Manning, 2016
    之前我们nlp经常用分布式词向量进行表示,这里将超越它并提出了集群表示(如图那样多个词合在一起)6首先为每个 mention 对生成一个向量。例如,前馈神经网络模型中的隐藏层的输出6接着将池化操作应用于 mentino-pair 表示的矩阵上,得到一个 cluster-pair 聚类对的表示6在这里插入图片描述

    A Large Unsupervised Corpus for Coreference Resolution(EMNLP, 2019)

    [Kocijan, et al., EMNLP’19] Vid Kocijan, Oana-Maria Camburu, Ana-Maria Cretu, Yordan Yordanov, Phil Blunsom, Thomas Lukasiewicz, WikiCREM:

    BERT for Coreference Resolution: Baselines and Analysis(EMNLP, 2019)

    [Joshi, et al., EMNLP’19] Mandar Joshi, Omer Levy, Luke Zettlemoyer, Daniel Weld,

    参考文献

    展开全文
  • NLP之共指消解总结

    千次阅读 2018-09-19 09:20:37
    共指消解总结共指的定义共指消解的分类合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个...


    本文仅是对自己所看论文的简单总结,并不涉及该领域的详细介绍。

    共指的定义

    指代是一种常见的语言现象,广泛存在于自然语言的各种表达中。一般情况下,指代分为 2 种:回指(也称指示性指代)和共指(也称同指)。回指是指当前的照应语与上文出现的词、短语或句子(句群)存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体, 具有非对称性和非传递性;共指主要是指 2 个名词(包括代名词、名词短语)指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。

    共指消解的分类

    这里根据文强师兄学位论文第一章内容(西安交通大学-刘文强《多源关联数据的聚合方法研究》),将共指消解分为3类;需要说明的是,其主要致力于RDF数据的共指消解。因此,本节所提及的常用于解决某种消解的方法均以RDF数据为背景。 从文强师兄学位论文中可以概括出其在冲突消解方面的主要工作包括:实体共指消解(resolving entity coreference)、模式匹配(schema matching)、宾语冲突消解(object conflicts resolution)。

    • 实体共指消解解决方法

    实体共指消解是识别不同关联数据源中相同实体的不同标识符,主要解决三元组中主语之间的冲突问题。
    在这里插入图片描述

    • 模式匹配

    模式匹配主要是发现不同关联数据源中属性之间的映射关系,主要解决三元组中谓词之间的冲突问题;另一种解释:解决不同关联数据源对相同属性采用不同标识符的问题,从而实现异构数据源的集成。
    在这里插入图片描述

    • 宾语冲突消解
      宾语冲突消解是解决多源关联数据宾语不一致问题。
      在这里插入图片描述

    共指现象及其存在之因

    本小节将以实体共指现象为例来说明共指现象,虽然共指与回指既有重叠又存在差异,但是在本节中将不做区分。

    1. RDF数据中存在共指的原因
      RDF将数据以<资源,属性,属性值>的形式去表示,并不保证某一实体或者资源的唯一性,所以在RDF数据中会存在实体共指的现象。

    2. 普通文本中存在实体共指的现象
      假设在某文本中存在这样一句话:“唐纳德·特朗普(Donald Trump),1946年6月14日生于纽约,美国共和党籍政治家、企业家、商人,第45任美国总统。…… 川普打响了中美之间的贸易战,……特朗普政府宣布对华额外2000亿美元进口商品加征10%关税,于9月24日(下周一)正式生效,并且2019年起关税税率将增加至25%……特朗普老爹不顾国际政府反对……一意孤行……”,那么在该文本中存在的实体共指现象为:唐纳德·特朗普马={Donald Trump,第45任美国总统,特朗普,特朗普老爹,川普,他}。

    面向实体共指消解的机器学习综述

    本节主要概括Vincent Ng 于2017年发表于AAAI会议的文章:Machine Learning for Entity Coreference Resolution: A Retrospective Look at Two Decades of Research. 本节将该论文讲述的利用机器学习解决实体共指的方法概括如下图:
    在这里插入图片描述
    根据该文所述,Mention—Pair 模型为最具影响力的模型,Neural Models为值得深入研究的模型。

    工作安排展示

    Mon 17Mon 24OctoberMon 08Mon 15RDF教程 XML教程 3篇综述 阅读论文 NLP with DL PPT制作 现有任务下一步计划工作计划
    • 甘特图中NLP with Deep Learning 为斯坦福CS224d课程,共18节课,预计25天左右时间学习完成,旨在系统掌握自然语言处理及深度学习相关知识,为进一步深入研究提供理论支撑;
    • 下一步工作计划中的文献为2016年发表于EMNLP的论文:Deep Reinforcement Learning for Mention-Ranking Coreference Models,其开源地址为:请点击源码连接
    • 预期目标:借助于开源代码,在2018-10-03之前完全掌握论文核心思想及实现方法;
    • 2018-10-07报告之PPT主要内容:共指消解综述+以上论文核心思想+个人对该论文的思考及存在的问题。

    本文引用的参考文献:
    [1]: Deep Reinforcement Learning for Mention-Ranking Coreference Models[C]. EMNLP, 2016.
    [2]: Machine Learning for Entity Coreference Resolution: A Retrospective Look at Two Decades of Research[C]. AAAI, 2017.
    [3]: 指代消解综述[J]. 计算机工程, 2010.
    [4]: 语篇中的代词性回指现象[J].
    [5]: 西安交通大学刘文强博士学位论文.

    展开全文
  • 共指消解的评价方法和算法非常重要,它不但可以给出不同系统之间性能优劣的指标,同时能为进一步提高系统性能指明方向。一个好的用于评价共指消解性能的标准应该具备两点一是辨别能力二是解释能力。前者是指能够判断出...
  • 最近需要完成指代消解(共指消解)的任务,主要是用深度学习做,便有了以下的调研,不足之处,可积极指出 指代消解任务在OntoNotes上的刷榜 论文的实验结果: 论文: 16年Clark等人发表《Improving Core![105](C:\...
  • 什么是共指消解 在文本中,找到表示相同真实世界中实体的指代。如下图:Barack Obama 和 his 和 He 都表示 Obama 共指消解中的常用概念(术语) mention:可以理解为文档中的实体的不同指代(表述),它可以...
  • 转载地址 ... 首先简要地说说共指消解是什么,有什么用处。假设机器正在阅读一个这样的文本: 克劳德·莫奈是印象派代表人物和创始人之一。 他最重要的风格是改变了阴影和轮廓线的画法。 如果机器...
  • 文章目录一、任务定义概念对比回指下指二、应用场景Full text understanding机器翻译(machine translation)对话系统(Dialogue Systems)三、研究方法四、共指消解模型Rule-based (pronominal anaphora resolution...
  • 共指消解 首先简要地说说共指消解是什么,有什么用处。假设机器正在阅读一个这样的文本: 克劳德·莫奈是印象派代表人物和创始人之一。 他最重要的风格是改变了阴影和轮廓线的画法。 1 2 如果机器想要从这段话中了解到...
  • Coreference Resolution (共指消解)

    千次阅读 2016-10-14 00:04:09
    前言 本科时候主要搞的是利用深度学习来做文本分类和情感分析,phd期间的老板貌似对deep learning和一些相关的应用不是太感兴趣,于是。。 我就跳进了coreference ...Coreference resolution (共指解析)是自然
  • 对于先出现在共指中的 mention,称之为先行词 antecedent,后出现的则叫作 anaphor,没有共指单独出现的 mention 叫作 singleton。 一个共指解析的任务要做几件事情。一是要把所有的 mention 都标注出来。有时 ...
  • 共指消解(Coreference Resolution) 共指消解是NLP中的一项重要任务,它要求找出文本中指向同一实体的所有文段,这是因为,人们对同一个实体往往有多种不同的说法,如代词、省略词、别名等等。 比如下面一段文本,...
  • 共指消解(Coreference Resolution) 共指消解是NLP中的一项重要任务,它要求找出文本中指向同一实体的所有文段,这是因为,人们对同一个实体往往有多种不同的说法,如代词、省略词、别名等等。 比如下面一段文本,...
  • 传统的共指消解模型主要分为以下两个步骤作处理: 充分考虑整篇文章中的所有的 span,从所有的文本片段中选择出所有可能的 指代 mention 为每一个当前找到的可能的指代找到它对应的前序指代(antecedent),也就是...
  • 关于共指消解中特征的选取和计算

    千次阅读 2008-09-08 17:11:00
    查看语前面的数词,按词顺序不断往前搜索,直到找到数词或碰到动词结束搜索。数词形如,全部 全体 一切 所有 全副 全份 成套 整套 一体 全 整 满 浑 周 遍 漫 尽数少 少数 ...
  • 语义Web中对象共指消解研究
  • 指代消解是什么? 找出文本中名词短语所指代的真实世界中的事物。比如: 不只是代词能够指代其他事物,所有格和其他名词性短语也可以。甚至还存在大量嵌套的指代: 应用: 全文理解:完整的文章中有大量的...
  • 指代消解笔记

    万次阅读 热门讨论 2018-10-25 14:24:18
    共指消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,由于该问题在信息检索和自然语言...
  • 而指代消解是有希望帮助解决这个问题的一个技术,下面就利用我们刚刚学过的NeuralCoref【[NeuralCoref: python的共指消解工具,向代词指代的问题进军!]...
  • cs224n 笔记15 共指解析

    2019-02-02 14:00:50
    简单来说就是代的问题,在语言中总是会用代词、名词或者一些名词性短语来代替其他事物 指代消解的应用 全文理解 机器翻译:比如有的语言不区分男他和女她,在翻译时需要指代消解 文本摘要:使用代词会使...

空空如也

空空如也

1 2 3 4
收藏数 75
精华内容 30
关键字:

共指消解