精华内容
下载资源
问答
  • 实体消歧

    千次阅读 2019-04-19 20:38:20
    研究背景概述 一般来说,由于自然语言存在较多的一词多义(相同的实体指称在不同的上下文中可以指向知识库中的不同实体)或多词一义(知识库中的同一个实体在文本中有...一般来说,实体消歧系统可以按照目标实体...
    • 研究背景概述

      • 一般来说,由于自然语言存在较多的一词多义(相同的实体指称在不同的上下文中可以指向知识库中的不同实体)或多词一义(知识库中的同一个实体在文本中有不同的指称)的现象,实体识别的结果很难直接加入到知识图谱当中。必须要对实体识别的结果进行消歧,才能带到无歧义的实体信息。
      • 应用领域
        • 知识图谱构建(实体识别)、信息检索、问答系统等
    • 任务分类

      • 一般来说,实体消歧系统可以按照目标实体(知识库)是否给定分为基于聚类的消歧系统和基于实体链接的消歧系统;也可以按照是否为结构化文本进行划分。
      • 按是否给定知识库分类(非结构化文本)
        • 基于聚类的消歧系统
          • 定义:目标实体列表(知识库)未给定,以聚类的方式对实体指称进行消歧。指向同一个目标实体的指称被聚类一个簇。
          • 消歧过程
            • 对于每一个实体指称,抽取特征(上下文词、实体、概念、类别),形成特征向量
            • 计算实体指称间的相似度
            • 采用聚类算法对实体指称项聚类,使得每个簇都指向同一个目标实体
          • 按照实体指称项相似度计算方式,可以将消歧系统分为三类
            • 基于表层特征的相似度计算
              • 词袋子模型,将文本的每个术语表示向量形式,如TF-IDF等,然后使用余弦等计算相似度
              • 缺点:没有考虑上下文之间的语义关联
            • 基于扩展特征的相似度计算
              • 使用知识资源扩展实体指称项的特征表示,例如wikipedia的infobox等。这些扩展的属性信息还可以提供更准确的实体指称项信息,例如邮箱,电话等。
            • 基于社会化网络的相似度计算
              • 基于上下文中的不同实体指称构建语义关系,通常是基于图的方法,能够充分利用结构化的语义关系只是。
              • 缺点是不能充分的利用上下文中的其他信息
        • 基于实体链接的实体消歧系统
      • 按文本结构
        • 区别在于实体指称项的文本表示
        • 半结构化文本消歧
          • 有语境上下文辅助消歧
        • 结构化文本消歧
          • 缺少上下文,主要依赖于字符串比较和实体关系信息完成消歧
          • 现在主要有利用实体流行度和上下文实体联合消歧的方法、网页检索。
    • 评测

      • WePS评测
        • 针对基于聚类的命名实体识别进行评测
        • 评价指标
          • 纯净度
            • $ Purity=\sum_i \frac{|C_i|}n \max_jPrecision(C_i,L_j) $
              • 其中,单个聚类的准确率定义如下:
                • $ Precision(C_i,L_j)=\frac{|C_i \cap L_j|}{C_i} $
              • C i C_i Ci表示第 i 个簇, L j L_j Lj指第 j 个准确的聚类结果,公式2表示 C i C_i Ci划分到最可能的聚类结果下时,链接成功的实体指称所占的比例。
          • 倒纯净度
          • F值
      • TAC KBP 评测
        • 针对基于实体链接的实体的方法进行评测
        • 要求对于知识库中没有的实体需要进行聚类,将同一实体的不同指称项聚类到一起
        • 评测指标
          • micro-average accuracy
            • M i c r o = ∑ q ∈ Q σ [ L ( q ) , C ( q ) ] ∣ Q ∣ Micro=\frac {\sum_{q\in Q} \sigma[L(q),C(q)]}{|Q|} Micro=QqQσ[L(q),C(q)]
            • 其中,Q是所有查询的集合, L ( q ) L(q) L(q)是实体链接系统基于查询q给出的目标实体ID, C ( q ) C(q) C(q)是查询q的准确目标实体, σ \sigma σ函数判断两个ID是否一致,是则为1,否为0。
    • 参考文献

      • 赵军 知识图谱
    展开全文
  • 实体消歧、实体统一和指代消歧

    千次阅读 2020-03-07 09:58:39
    实体消歧 实体消歧主要是指:一个词可能含有多个意思,不同的上下文表达的含义可能也不一样 例如:今天苹果发布了新手机 对于“苹果”我们怎么判断? 对于实体消歧来说我们得有一个实体库,库中包含每个实体,以及它...

    实体消歧

    实体消歧主要是指:一个词可能含有多个意思,不同的上下文表达的含义可能也不一样
    例如:今天苹果发布了新手机

    对于“苹果”我们怎么判断?

    对于实体消歧来说我们得有一个实体库,库中包含每个实体,以及它所包含的意思,例如:“苹果”在实体库中有两个含义:

    苹果:水果的一种
    苹果:美国的一家高科技公司

    那么对于:今天苹果发布了新手机。

    这样一句话我们提取“苹果”前后大约30个词左右和并利用两个含义形成关于TF-IDF的词向量,然后再将“苹果”的两个含义也计算出相应的词向量,最后做余弦相似度计算判断这句话与那个向量比较接近,选择最高相似度的含义。

    实体统一

    实体统一是指判断多个实体是不是属于一个实体,其实这种情况也比较常见,比如大家在填写地址的时候,有很多种写法但指的是同一个地址,还有很多人都有多个手机,我们能不能通过一些访问信息来判断是不是属于同一个人而使用不同手机操作的呢?这些都是实体统一要做的工作。
    所以给定两个实体,字符串,我们来判断是否属于同一个实体,字符串
    第一种方法是:计算两个实体(字符串)之间的相似度,一般使用编辑距离即可,设定阈值,判断是否属于一个实体。

    第二种方法:基于规则

    举个例子:

    1、百度有限公司

    2、百度科技有限公司

    我们通过人工的设计一些库,或者说是一些词典,这些库包含相同实体的特点:

    词典1:公司、有限公司、分公司…

    词典2:北京,天津,上海…

    词典3:科技,技术…

    如果实体中的词出现在库中将其删掉

    1、百度有限公司——作为原型,删掉词库中的词后为:百度

    2、百度科技有限公司 —删掉词库中的词后为:百度 判定相同实体

    以上两种方法精度不高,人力成本比较高

    第三种基于有监督的学习方法:

    还是上面的例子:

    1、百度有限公司

    2、百度科技有限公司

    我们可以将1和2利用特征工程将其转换为特征向量:

    比如考虑词性,前后单词,词位置等等

    然后

    1:输入到一个训练好的分类模型去判断两个实体是否相似。

    2:利用余弦相似度技术相似程度,然后再输入到LR做二分类的计算

    在这里插入图片描述
    第四种方法:基于图的实体统一

    其实每个实体都不是独立的,他们与其他实体是包含一定的联系,如下图所以我们在做实体统一的时候我们考虑到了这种实体关系,也就是根据这种图来做。
    在这里插入图片描述
    假如我们判断A和B是否是同一个人我们在做特征向量时不仅加入他的个人信息,还可以加入这种关系:

    V A = ( 年 龄 , 工 作 , 收 入 , S 1 , S 2 , S 3 ) V_A=(年龄,工作,收入,S_1,S_2,S_3) VA=(S1,S2,S3): S 表 示 的 是 实 体 关 系 S表示的是实体关系 S

    然后我们再计算 s i m ( V A , V B ) sim(V_A,V_B) sim(VA,VB)设置阈值

    判断大于阈值相似

    小于阈值不相似

    指代消歧

    指代消歧指的是我们在文章中遇到一些指示代词,例如:“他“,”这个”,“那个”,我们去判断 这些代词表示的是什么意思。例如:

    今天小明生病了,小王陪他去看病,看完病他很快就好了。

    这里面的他指的是什么,我们该怎么判断?

    1、最简单的方法:最近的名字

    这种方法精度比较低

    2、基于监督的方法

    (1)收集数据

    (2)构造分类器

    样本:

    (张三,A)=1

    (张三,B)=1

    (李四,A)=0

    (李四,B)=0

    这里的(张三)利用特征工程比如:考虑左边,右边和中间的10个单词等等
    在将向量输入到分类器中形成一个模型

    最后遇到“他”事件直接输入到模型中计算。

    展开全文
  • 知识图谱-实体消歧(语义消歧)

    千次阅读 2021-01-17 10:20:12
    基于中文维基百科的命名实体消歧方法 计算文本特征向量与不同词义的维基特征向量的相似度(可由词间距离转换 余弦距离 欧式距离等)。 面向实体链接的多特征图模型实体消歧方法 以中文维基百科作为知识库支撑

    命名实体歧义:

    1. 命名实体指称多样性: 一个命名实体可以用多种方式表达.
    2. 命名实体指称歧义性: 一个指称可能表示不同的命名实体.

    命名实体聚类消歧 命名实体链接消歧

    命名实体聚类消歧是利用聚类算法来对实体进行消歧. 命名实体链接消歧则是借助外部知识库将待消歧命名实体指称链接到外部知识库中对应实体来进行消歧.

    基于中文维基百科的命名实体消歧方法

    计算文本特征向量与不同词义的维基特征向量的相似度(可由词间距离转换 余弦距离 欧式距离等)。

    面向实体链接的多特征图模型实体消歧方法

    以中文维基百科作为知识库支撑构造图模型,从实体指称表述项的上下文和候选实体在维基百科的内容两方面,不仅考虑维基百科的锚文本链接,而且充分利用维基百科的摘要、类别、消歧页面等结构信息,充分抽取多种语义特征,并计算语义相似度,将这些语义信息融合到图模型中进行随机游走,选取图中概率分布的top1作为最终的消歧结果。

    结合实体链接与实体聚类的命名实体消歧

    首先根据维基百科知识库的信息,使用实体链接的方法进行消歧,接着使用实体聚类的方法弥补知识库规模不足这一问题。
    结合实体链接与实体聚类的 NED 算法包括 4个部分: 实体指称扩充、候选实体生成、候选实体排序及无指代实体聚类。
    设实体指称为 M,其扩充词尾 Exp

    1. 实体指称扩充
      (1) 首字母缩写词扩充: 首字母缩写词指的是通过组合每个词的首位字母构成的新词或专有名词。
      对于一个首字母缩写词 M = m1m2…mn,其长度
      为 n 且 M 的对应背景文本为 D. 首先在 D 中查找
      “M ( Exp) ”标记,若存在相关标记,则 Exp 为 M 的
      扩充词; 若不存在这样的标记,则查找“( M) ”标记,
      在标记处向前查找最长的连续序列 Exp,Exp 不包
      括标点符号或者多于 2 个停用词.
      (2) 简称的扩充: 简称指的是由全称的部分词简化而来的词. 对于一个简称 M,首先在 M 对应的文本 D 中查找 M 所在的位置,并在该位置向前或向后提取出对应的单词作为 M 的扩充词 Exp,Exp 全为大写单词或不多于 2 个停用词.
    2. 候选实体生成
      候选实体生成的主要任务是为每个实体指称M,在知识库中生成可能的候选实体集合 SET( EM) .算法使用的知识库是维基百科知识库,在生成候选实体之前,首先需要对知识库进行处理,找到每个实体 E 的对应指称集合 SET( ME ) . 在维基百科知识库中,可提取的资源如下所述. 1) 页面标题: 每篇维基百科描述实体的指称形式. 在实体 E 对应的维基百科 XML 页面中,页面标题以 < title > ME < /title > 格式表示,即 ME是 E 的一个指称形式. 2) 重定向信息: 重定向页面指向另一个同义词实体页面. 重定向信息以 { { Redirect | ME } } 格式表
      示,即 ME是 E 的一个指称形式. 3) 锚文本: 内部超链接的描述文本,在维基百科中以 \[\[E | ME \]\]或 \[\[E( ME ) \]\]格式描述,即 ME是 E 的一个指称形式. 4) 消歧信息: 消歧页面以“( disambiguation) ”结尾,其标题为该页面描述的实体共同指称形式.
      算法根据上述几种资源找到实体 E 对应的所
      有指称形式,将其描述为一个指称集合 SET( ME ) ,若实体指称 M 跟集合中某一指称形式完全匹配,则该实体 E 为查询词 M 的一个候选实体. 由于知识库中资源有限,无法为所有的查询词生成对应的候选实体,将那些无法生成候选实体的实体指称定义为无指代实体,以 nil 表示,并将该实体指称加入无指代实体集合 SET( nil) 中
    3. 候选实体排序
      每个(M,EM )对提取多重特征,接着使用支持向量机排 序 ( Ranking-SVM,ranking support vector ma- chine) 方法来进行排序以选取最优实体. 每个(M, EM )对都被表示成一个特征向量的形式。
      表面特征
      指称完全匹配、扩充词完全匹配、指称部分匹配、指称缩写匹配、基于编辑距离的匹配、基于最长子序列的匹配
      出处特征 候选实体出处、标题完全匹配
      语义特征 命名实体类别匹配
      文本特征 上下文相似性
      位置特征 指称原词在候选实体文本中、指称扩充词在候选实体文本中、候选实体在指称文本中
      流行性特征 受欢迎度
    4. 无指代实体聚类
      具体使用的聚类消歧方法: ①对每个无指代实体指称,提取表上述的所有特征,将该实体指称表示为一个特征向量; ②根据提取的特征,使用 HAC算法对所有无指代实体指称进行聚类; 3) 将每类无指代命名实体指称标记为 NILxxx( xxx 为与已知序号不重复的任意序号) ,这样虽然无法给出每类实体指称的确切含义,但能从类别上进行区分,即 NIL001 与 NIL002 指代的是不同的实体.
    展开全文
  • 实体消歧系列文章.rar

    2021-01-19 14:58:27
    实体消歧系列文章.rar
  • 将实体搜索技术应用于中文专利摘要文本,并在实体搜索过程中使用了实体消歧技术,得到用户最关注的实体相关信息。在充分分析了专利摘要文本的特点的基础上,提出一种面向专利实体的消歧方法。使用基于IPC和向量空间模型...
  • 实体消歧和实体统一

    千次阅读 2019-02-22 11:05:14
    实体消歧 概念:实体消歧的本质在于一个词有很多可能的意思,也就是在不同的上下文中所表达的含义不太一样。 例子:‘我的手机是苹果’和‘我喜欢吃苹果’这两个句子中的‘苹果’代表的含义是不一样的。 问题:怎么...

    实体消歧
    概念:实体消歧的本质在于一个词有很多可能的意思,也就是在不同的上下文中所表达的含义不太一样。

    例子:‘我的手机是苹果’和‘我喜欢吃苹果’这两个句子中的‘苹果’代表的含义是不一样的。

    问题:怎么识别单词的真正含义?

    方法:能过上下文计算相似度。比如我们已知“苹果:是水果中的一种,一般产自于…”,“苹果:美国一家高科技公司,经典的产品有iPhone手机”,我们可以将这两种含义用向量来表示;接下来,对于一个需要识别一句子,比如“我想吃苹果”,把这个句子中“苹果”的上下文取出来也转化为向量,分别和以上的两种含义进行比较,哪个相似度高,我们就可以认为词语代表了哪种含义。

    实体统一

    概念:同一个实体有不同的表达方式,有时候需要把不同的表达方式统一为同一种表达方式。

    例子:”中华人民共和国“,”中国“都表示同一个意思。如果把实体统一,可以减少一些NLP任务的难度。常见的应用场景是在构建知识图谱中,需要对地名,公司名,专业术语等进行统一。

    问题:给定两个实体,判断是否指向同一个含义?

    方法:假设现在我们要判断一些公司名是否表示同一个公司。那么需要预先定义一些规则,比如可以把”XX有限公司“中的”有限公司“去除,可以把”XX公司“中的”公司“去除等等。有了这些规则后,我们就可以把公司名进行规则处理,相当于英文里stemming的操作,将名称转化为原型,这样我们就可以得知两种表达方式是否是指向同一个含义。

    展开全文
  • 实体消歧中特征文本选取研究
  • 实体链接技术是将文本中的实体指称表述项正确链接到知识库中实体的过程,其中命名实体消歧的准确性直接影响实体链接的准确性。针对中文实体链接中命名实体的消歧,提出一种融合多种特征的解决方案。首先,以中文维基...
  • 什么是实体对齐、实体消歧? 实体对齐旨在判断两个或者多个不同信息来源的实体是否为指向z真实世界中同一个对象。如果多个实体表征同一个对象,则在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集...
  • 第二十六章 命名实体识别和实体消歧 1 命名实体识别概论 PART1 什么是命名实体识别 PART2 命名识别识别的应用 PART3 简历中抽取关键信息 2 命名实体识别不同方法 PART1 实体识别方法 基于规则的方法 基于...
  • 词义消歧是自然语言处理中的基础性研究课题,而命名实体消歧是词义消歧的一个重要分支。命名实体的歧义是指一个命名实体的指称项可以对应多个实体概念。命名实体消歧指利用文本上下文信息或者其它外部知识库,确定这...
  • 融合词向量和主题模型的领域实体消歧
  • 到底如何理解文本?一文读懂命名实体识别(实体消歧和实体统一).pdf
  • 实体消歧本质在于一个词可能有多个意思,也就是再不同的上下文中所表多钱啊的含义不太一样。 例如:小米、苹果 每个实体都有实体库,用于存储各种意思,如下图所示: 实体消歧算法 如下图所示: 需要判断跟哪个...
  • 本文讨论了命名实体消歧的问题,该问题旨在将文本中的实体提及映射到维基百科中的正确实体。本文的目的是基于候选实体的统计排序模型,探索和评估从维基百科提取的特征的各种组合和用于消除歧义任务的文本。通过实验...
  • 实体消歧简介

    千次阅读 2019-03-01 14:47:42
    实体消歧的本质在于一个单词很可能有多个意思,也就是在不同的上下文中所表达的含义可能不太一样。 简单实现 首先我们需要准备一个类似于下面的这种实体库: id 实体名 实体描述 1001 苹果 美国一家高科技...
  • 实体消歧 1. 实体消歧概述 1.1 实体消歧定义 命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体。例如Michael Jordan可以表示篮球运动员,也可以表示计算机科学家,或者其他实体。 确定一个实体指称项所...
  • 自然语言处理(NLP)-文本处理:实体消歧(Entity Disambiguiation)
  • 命名实体消歧是将自然语言文本中具有歧义的实体指称正确地映射到知识库中相应实体上的过程。现有命名实体消歧技术大多采用集体消歧,以利用更多的语义信息达到更高的精度,但存在效率偏低的问题。为此,提出一种基于...
  • 一种结合词向量和图模型的特定领域实体消歧方法
  • 1.Entity Disambiguation(实体消歧):就是把一个实体的具体意思搞明白,比如Apple,通过具体方法计算出,它是水果,还是苹果公司。 2.Entity Resolution(实体统一 ):给定两个实体,判断是否是指向同一个实体。 3....
  • 2.实体消歧的本质 如小米,它是一个实体,在有些句子中表示“小米公司”,但在某些语句下它表示一种谷物 又比如: 怎么解决实体消歧呢?? 首先:我们有实体(实体描述库) 3.实体消歧方法 我们只需要计算“苹果...
  • 知识图谱(五)——实体消歧

    千次阅读 2019-07-28 17:04:38
    一、任务概述 多样性——同一实体在文本中会有不同的指称。eg:飞人、帮主、老大和MJ都指美国篮球...实体消歧,定义为六元组。此处实体指的是命名实体。 M=N,E,D,O,K,δM=N,E,D,O,K,\deltaM=N,E,D,O,K,δ N=n1,n2,....
  • 第五章 实体消歧任务概述定义分类基于聚类的实体消歧系统基于实体链接的实体消歧系统相关评测WePSTAC KBP基于聚类的实体消歧方法 实体具有歧义性,体现在两个方面: 同一实体在文本中会有不同的指称 ⇒\Rightarrow...
  • 在语义标注过程中,为了消除文本中给定的命名实体与知识库中实体映射过程中出现的歧义问题,提出了一种基于上下文信息相似度值排序的命名实体消歧方法。消歧方法包括实体表示预处理、候选实体列表构建和相似度值排序...
  • 双线性约束向量联合训练模型在实体消歧中的应用,陈辉,魏宝刚,综述文章:以背景、研究现状、研究用途的结构书写,篇幅以150~300字左右为宜,不用第一人称做主语,不与正文语句重复。一般研究性文章
  • 实体消歧问题是当下比较热点的研究问题,国内外的大多熟研究从两个角度解决实体歧义造成的影响,分别是通过寻求更高质量的特征和引入外部资源辅助消解。 在特征选取方面,何正焱[2]利用DNN(深度神经网络)方法,...
  • 行业分类-物理装置-一种演职人员命名实体消歧方法及系统.zip
  • 命名实体消歧的代码实现

    千次阅读 2019-03-19 18:00:00
    将句中识别的实体与知识库中实体进行匹配,解决实体歧义问题。 可利用上下文本相似度进行识别。 本文准备了两个测试数据...格式为:第一列是需要消歧的语句序号,第二列为多个“实体起始位坐标-实体结束位坐标:实体...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,319
精华内容 927
关键字:

实体消歧