精华内容
下载资源
问答
  • 命名实体的消歧

    千次阅读 2019-07-05 17:45:36
    确定一个实体指称项所指向的真实世界实体,这就是命名实体消歧 任务 基于聚类的实体消歧 把所有实体指称项按其指向的目标实体进行聚类 每一个实体指称项对应到一个单独的类别 基本思路 同一指称项具有近似的上下文 ...

    定义

    命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体
    确定一个实体指称项所指向的真实世界实体,这就是命名实体消歧

    任务

    基于聚类的实体消歧

    把所有实体指称项按其指向的目标实体进行聚类
    每一个实体指称项对应到一个单独的类别

    基本思路

    同一指称项具有近似的上下文
    利用聚类算法进行消歧

    核心问题

    选取何种特征对于指称项进行表示,通常可以选择以下几种特征:
    1.词袋模型(Bagga et al., COLING, 1998)
    利用待消歧实体周边的词来构造向量
    利用向量空间模型来计算两个实体指称项的相似度,进行聚类

    2.语义特征(Pederson et al., CLITP, 2005)
    词袋模型,没有考虑词的语义信息
    利用SVD分解挖掘词的语义信息
    利用词袋和浅层语义特征,共同来表示指称项,利用余弦相似度来计算两个指称项的相似度

    3.社会化网络(Bekkerman et al., WWW, 2005)
    不同的人具有不同的社会关系
    MJ, Pippen, Buckley, Ewing, Kobe等的社会化关联信息所表 现出来的网页链接特征,对网页进行聚类,从而实现网页内的人名聚类消歧。

    4.维基百科的知识(Han and Zhao, CIKM, 2009)
    Wikipedia中相关实体具有链接关系
    这种链接关系反映条目之间的语义相关度
    用实体上下文的维基条目对于实体进行向量表示
    利用维基条目之间的相关度计算指称项之间的相似度(解决 数据稀疏问题)

    5.多源异构语义知识融合(Han and Zhao, ACL, 2010)
    多源异构知识的表示框架:语义图
    等同概念识别
    概念连接
    同时捕捉显式语义知识和结构化语义知识
    语义图的边(显式语义知识)——建模了所有从知识源中直接抽取出的 概念之间的显式语义关联
    语义图的结构(结构化语义知识)——建模了概念之间的隐藏语义关联
    语义图中语义知识的挖掘和融合算法
    计算原则:“如果一个概念的邻居概念与另一个概念存在语义关联,则这 个概念也与另一个概念存在语义关联”
    语义关联在图中的传递性

    挑战

    消歧目标难以确定
    缺乏实体的显式表示

    基于链接的实体消歧

    将实体指称项与目标实体列表中的对应实体进行链接实现消歧
    任务
    给定实体指称项和它所在的文本,将其链接到给定知识库中的相应 实体上

    主要步骤:

    1.候选实体的发现
    给定实体指称项,链接系统根据知识、规则等信息找到实体指称项的候选实体

    2.候选实体的链接
    系统根据指称项和候选实体之间的相似度等特征,选择实体指称项的目标实体

    如:
    迈克尔乔丹是有名的篮球运动员 为 实体指称项文本
    找到候选实体如下:
    1.迈克尔乔丹(篮球运动员)
    2.迈克尔乔丹(教授)
    3.迈克尔杰克逊(歌手)
    通过与1链接就完成了正确的实体链接

    如何根据实体指称项找出候选实体?
    可以根据百科的信息
    可以利用上下文信息

    如何进行行实体链接?

    基本方法
    计算实体指称项和候选实体的相似度,选择相似度最大的候选实体
    单一实体链接
    BOW模型 (Honnibal TAC 2009, Bikel TAC 2009)
    加入候选实体的类别特征(Bunescu et al., EACL 2006)
    加入候选实体的流行度等特征(Han et al., ACL 2011)
    协同实体链接
    利用实体之间类别的共现特征(Cucerzan, EMNLP 2007)
    利用实体之间链接关系(Kulkarni et al., KDD 2009)
    利用同一篇文档中不同实体之间存在的语义关联特征(Han et al., SIGIR 2011)

    基于词袋模型计算相似度:
    将实体指称项上下文文本与候选实体上下文文本表示成词袋子向量 形式,通过计算向量间的夹角确定指称项与候选实体相似度,系统选择相似度最大的候选实体进行链接

    展开全文
  • 命名实体消歧的代码实现

    千次阅读 2019-03-19 18:00:00
    本文准备了两个测试数据集,entity_list.csv是50个实体,valid_data.csv是需要消歧的语句。 结果提交在submit目录中,命名为entity_disambiguation_submit.csv。 格式为:第一列是需要消歧的语句序号,第二列为多个...

    将句中识别的实体与知识库中实体进行匹配,解决实体歧义问题。 可利用上下文本相似度进行识别。
    本文准备了两个测试数据集,entity_list.csv是50个实体,valid_data.csv是需要消歧的语句。
    结果提交在submit目录中,命名为entity_disambiguation_submit.csv。
    格式为:第一列是需要消歧的语句序号,第二列为多个“实体起始位坐标-实体结束位坐标:实体序号”以“|”分隔的字符串。

    需要进行实体消歧的语句如下:
    在这里插入图片描述
    实体类别如下:
    在这里插入图片描述

    下面讲解具体的实现步骤:
    1.导入数据

    import jieba
    import pandas as pd
    
    # TODO:将entity_list.csv中已知实体的名称导入分词词典
    entity_data = pd.read_csv('../data/entity_disambiguation/entity_list.csv', encoding = 'utf-8')
    
    
    # TODO:对每句句子识别并匹配实体     
    valid_data = pd.read_csv('../data/entity_disambiguation/valid_data.csv', encoding = 'gb18030')
    
    1. 建立关键词组
      将需要进行实体消歧的实体存进keyword_list
    import collections
    
    s = ''
    keyword_list = []
    for i in entity_data['entity_name'].values.tolist():
        s += i + '|'
    for k,v in collections.Counter(s.split('|')).items():
        if v > 1:
            keyword_list.append(k)
    
    1. 生成tfidf矩阵
    from sklearn.feature_extraction.text import TfidfVectorizer
    
    train_sentence = []
    for i in entity_data['desc'].values:
        train_sentence.append(' '.join(jieba.cut(i)))
    
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(train_sentence)
    
    1. 获取包含关键词的句子中关键词所属的entity_id
    import numpy as np
    from sklearn.metrics.pairwise import cosine_similarity
    
    def get_entityid(sentence):
        id_start = 1001 
        a_list = [' '.join(jieba.cut(sentence))]
        res = cosine_similarity(vectorizer.transform(a_list),X)[0]
        top_idx = np.argsort(res)[-1]
        return id_start + top_idx
    
    1. 将计算结果存入文件
    row = 0
    result_data = []
    neighbor_sentence = ''
    for sentence in valid_data['sentence']:
        res = [row]
        for keyword in keyword_list:
            if keyword in sentence:
                # 查询关键词在句子中的索引
                k_len = len(keyword)
                ss =''
                for i in range(len(sentence)-k_len+1):
                    if sentence[i:i+k_len] == keyword:
                        s = str(i) + '-' +str(i+k_len) + ':'  # 拿到 x-x:
                        if i > 10 and i + k_len < len(sentence)-9:
                            neighbor_sentence = sentence [i-10:i+k_len+9]
                        elif i < 10:
                            neighbor_sentence = sentence [:20]
                        elif i + k_len > len(sentence)-9:
                            neighbor_sentence = sentence [-20:]
                        s +=  str(get_entityid(neighbor_sentence))   # 拿到 x-x:id
                        ss += s + '|'    # 拿到 x-x:id|x-x:id
                res.append(ss[:-1])  # 拼接成[0, 'x-x:id|x-x:id']
        result_data.append(res)
        row += 1
    pd.DataFrame(result_data).to_csv('../submit/entity_disambiguation_submit.csv', index=False)
    

    7.最后我们可以打印一下保存的结果

    pd.read_csv('../submit/entity_disambiguation_submit.csv')
    

    打印结果如下
    在这里插入图片描述
    格式为: 起始位置-结束位置|实体类别
    我们可以看一下第一条 3-6:1008|109-112:1008|187-190:1008,确实是符合的。
    在这里插入图片描述
    在这里插入图片描述
    在具体的实现过程中,我们可以通过测试数据的准确率去判断所抽取的字符长度是否合理,调整特征的抽取方式来优化准确率。

    以上代码及训练数据已上传至github,有兴趣的同学可以点击这里查看。谢谢!

    展开全文
  • 命名实体消歧是将自然语言文本中具有歧义的实体指称正确地映射到知识库中相应实体上的过程。现有命名实体消歧技术大多采用集体消歧,以利用更多的语义信息达到更高的精度,但存在效率偏低的问题。为此,提出一种基于...
  • 本文讨论了命名实体消歧的问题,该问题旨在将文本中的实体提及映射到维基百科中的正确实体。本文的目的是基于候选实体的统计排序模型,探索和评估从维基百科提取的特征的各种组合和用于消除歧义任务的文本。通过实验...
  • 体链接消歧则是借助外部知识库将待消歧命名实体指称链接到外部知识库中对应实体来进行消歧. 基于中文维基百科的命名实体消歧方法 计算文本特征向量与不同词义的维基特征向量的相似度(可由词间距离转换 余弦距离 ...

    命名实体歧义:

    1. 命名实体指称多样性: 一个命名实体可以用多种方式表达.
    2. 命名实体指称歧义性: 一个指称可能表示不同的命名实体.

    命名实体聚类消歧 命名实体链接消歧

    命名实体聚类消歧是利用聚类算法来对实体进行消歧. 命名实体链接消歧则是借助外部知识库将待消歧命名实体指称链接到外部知识库中对应实体来进行消歧.

    基于中文维基百科的命名实体消歧方法

    计算文本特征向量与不同词义的维基特征向量的相似度(可由词间距离转换 余弦距离 欧式距离等)。

    面向实体链接的多特征图模型实体消歧方法

    以中文维基百科作为知识库支撑构造图模型,从实体指称表述项的上下文和候选实体在维基百科的内容两方面,不仅考虑维基百科的锚文本链接,而且充分利用维基百科的摘要、类别、消歧页面等结构信息,充分抽取多种语义特征,并计算语义相似度,将这些语义信息融合到图模型中进行随机游走,选取图中概率分布的top1作为最终的消歧结果。

    结合实体链接与实体聚类的命名实体消歧

    首先根据维基百科知识库的信息,使用实体链接的方法进行消歧,接着使用实体聚类的方法弥补知识库规模不足这一问题。
    结合实体链接与实体聚类的 NED 算法包括 4个部分: 实体指称扩充、候选实体生成、候选实体排序及无指代实体聚类。
    设实体指称为 M,其扩充词尾 Exp

    1. 实体指称扩充
      (1) 首字母缩写词扩充: 首字母缩写词指的是通过组合每个词的首位字母构成的新词或专有名词。
      对于一个首字母缩写词 M = m1m2…mn,其长度
      为 n 且 M 的对应背景文本为 D. 首先在 D 中查找
      “M ( Exp) ”标记,若存在相关标记,则 Exp 为 M 的
      扩充词; 若不存在这样的标记,则查找“( M) ”标记,
      在标记处向前查找最长的连续序列 Exp,Exp 不包
      括标点符号或者多于 2 个停用词.
      (2) 简称的扩充: 简称指的是由全称的部分词简化而来的词. 对于一个简称 M,首先在 M 对应的文本 D 中查找 M 所在的位置,并在该位置向前或向后提取出对应的单词作为 M 的扩充词 Exp,Exp 全为大写单词或不多于 2 个停用词.
    2. 候选实体生成
      候选实体生成的主要任务是为每个实体指称M,在知识库中生成可能的候选实体集合 SET( EM) .算法使用的知识库是维基百科知识库,在生成候选实体之前,首先需要对知识库进行处理,找到每个实体 E 的对应指称集合 SET( ME ) . 在维基百科知识库中,可提取的资源如下所述. 1) 页面标题: 每篇维基百科描述实体的指称形式. 在实体 E 对应的维基百科 XML 页面中,页面标题以 < title > ME < /title > 格式表示,即 ME是 E 的一个指称形式. 2) 重定向信息: 重定向页面指向另一个同义词实体页面. 重定向信息以 { { Redirect | ME } } 格式表
      示,即 ME是 E 的一个指称形式. 3) 锚文本: 内部超链接的描述文本,在维基百科中以 \[\[E | ME \]\]或 \[\[E( ME ) \]\]格式描述,即 ME是 E 的一个指称形式. 4) 消歧信息: 消歧页面以“( disambiguation) ”结尾,其标题为该页面描述的实体共同指称形式.
      算法根据上述几种资源找到实体 E 对应的所
      有指称形式,将其描述为一个指称集合 SET( ME ) ,若实体指称 M 跟集合中某一指称形式完全匹配,则该实体 E 为查询词 M 的一个候选实体. 由于知识库中资源有限,无法为所有的查询词生成对应的候选实体,将那些无法生成候选实体的实体指称定义为无指代实体,以 nil 表示,并将该实体指称加入无指代实体集合 SET( nil) 中
    3. 候选实体排序
      每个(M,EM )对提取多重特征,接着使用支持向量机排 序 ( Ranking-SVM,ranking support vector ma- chine) 方法来进行排序以选取最优实体. 每个(M, EM )对都被表示成一个特征向量的形式。
      表面特征
      指称完全匹配、扩充词完全匹配、指称部分匹配、指称缩写匹配、基于编辑距离的匹配、基于最长子序列的匹配
      出处特征 候选实体出处、标题完全匹配
      语义特征 命名实体类别匹配
      文本特征 上下文相似性
      位置特征 指称原词在候选实体文本中、指称扩充词在候选实体文本中、候选实体在指称文本中
      流行性特征 受欢迎度
    4. 无指代实体聚类
      具体使用的聚类消歧方法: ①对每个无指代实体指称,提取表上述的所有特征,将该实体指称表示为一个特征向量; ②根据提取的特征,使用 HAC算法对所有无指代实体指称进行聚类; 3) 将每类无指代命名实体指称标记为 NILxxx( xxx 为与已知序号不重复的任意序号) ,这样虽然无法给出每类实体指称的确切含义,但能从类别上进行区分,即 NIL001 与 NIL002 指代的是不同的实体.
    展开全文
  • 在语义标注过程中,为了消除文本中给定的命名实体与知识库中实体映射过程中出现的歧义问题,提出了一种基于上下文信息相似度值排序的命名实体消歧方法。消歧方法包括实体表示预处理、候选实体列表构建和相似度值排序...
  • 命名实体概念消歧命名实体消歧(英语:Named Entity Disambiguation)的一个重要研究子领域(命名实体概念可见本文3.1章)。什么叫概念消歧了?在这里举一个简单例子进行说明,一个命名实体“天龙八部”,它有许多个...

    1 引言

           命名实体概念消歧是命名实体消歧(英语:Named Entity Disambiguation)的一个重要研究子领域(命名实体概念可见本文3.1章)。什么叫概念消歧了?在这里举一个简单例子进行说明,一个命名实体“天龙八部”,它有许多个不同的含义,其中有电视剧类的含义,电视剧含义有好几个,如“1997黄日华版电视剧”、“1982年TVB版本电视剧”、“2003年内地胡军版电视剧”、“”2013年内地版电视剧“等;其中有漫画类的含义,漫画含义有好几个,如“腾讯动漫的漫画”、“黄玉郎改编的漫画”。虽然电视剧类的含义有好几个,但这些含义都是同一个概念,它们都属于“电视剧”这个概念。

    1180694-20190825115315949-1314757519.jpg
    图1 不同的含义的天龙八部

           因此命名实体概念消歧的任务是识别一段文本中给定的命名实体到底属于哪一个概念。例如有下面3个文本。

    表1 文本概念消歧的例子
    文本 含义 概念
    A 港版天龙八部还是经典啊,黄日华才演出萧峰的气质 97黄日华版电视剧 电视剧
    B 我是张纪中的铁杆粉丝,我当然喜欢天龙八部啦 03内地胡军版电视剧 电视剧
    C 我喜欢香港漫画,如《天子传奇》《天龙八部》 黄玉郎改编的漫画 漫画

           文本A中天龙八部是“1997黄日华版电视剧”,文本B中天龙八部是“2003年内地胡军版电视剧”,文本C中的天龙八部是“黄玉郎改编的漫画”。虽然文本A和文本B中的天龙八部不是同一个意思,但文本A和文本B中的天龙八部都是同一个概念类别,都是“电视剧“的天龙八部。那么概念消歧做的任务就是将文本A和文本B中的天龙八部都划分到“电视剧”这一概念中,将文本C中的天龙八部划分到“漫画”这一概念中。
    接下来本文简单介绍如何对命名实体进行概念消歧。

    2 概念消歧流程

    2.1 实体全体含义的获取

           本文以天龙八部百度百科为数据源进行说明,首先要获取天龙八部这个实体所有含义的“描述”文本和“属性”表格,如下为天龙八部其中一个含义——1997黄日华版电视剧的“描述”文本和“属性”表格。

    1180694-20190825115339957-570269249.jpg
    图2 需要爬取1997黄日华版电视剧的内容

    2.2 文本分词构建关键词词组

           得到每一个含义的“描述”文本和“属性”表格后,利用jieba分词工具对描述本文“《天龙八部》是一部改编自金庸同名小的古装爱情剧,由香港无线电视台……”进行分词处理,得到一些列词语构成的list1。然后从“属性”表格中提取“剧情,武侠,言情,古装”和“李添胜”等属性词,这些属性词又构成list2。接着合并list1和list2,就可以得到“1997黄日华版电视剧“含义的关键词词组。

           对天龙八部每一个含义都进行如下处理,我们可得到如下所示的表格

    表2 不同天龙八部含义对应的关键词词组
    含义 关键词词组
    97黄日华版电视剧 ["1997", "李添胜", "天龙八部", "黄日华", "樊少皇", "张国强", "陈浩民", "李若彤", "刘锦玲", "赵学而", "何美钿", "28", "陈国梁", "香港", "金庸", "武侠", "古装", "刘玉翠", "萧峰", "慕容复"]
    03内地胡军版电视剧 ["电视剧", "2003", "古装", "于敏", "刘亦菲", "鞠觉亮", "周晓文", "赵箭", "林志颖", "12", "11", "22", "金鹰奖", "天龙八部", "高虎", "胡军", "刘涛", "陈好", "张纪中", "优秀作品"]
    82版香港电视剧 ["虚竹", "1982", "天龙八部", "神剑", "黄日华", "黄杏秀", "之六脉", "萧笙", "梁家仁", "汤镇业", "陈玉莲", "石修", "TVB", "03", "22", "传奇", "武侠", "中国香港", "香港", "乔峰"]
    黄玉郎改编的漫画 ["武林", "乔峰", "帮主", "黄玉郎", "天龙八部", "威名", "丐帮", "虚竹", "段家", "英雄辈出", "大宋", "他族", "大帮", "北乔峰", "之妻", "康敏", "堕地", "段誉", "胡绍权", "风云际会"]
    腾讯动漫的漫画 ["漫画作品", "天龙八部", "连载", "腾讯", "动漫", "凤凰", "娱乐", "创作"]
    …… ……

    2.3 概念抽取和归并

           上提及的“电视剧”、“漫画”这些概念不是凭空而来的,它是通过下述算法而得:

           (1)含义标题分词和词性标注

           使用jieba分词工具对含义标题 “1997年黄日华版电视剧”进行分词和词性标处理。我们可得到这样一个数组[['1997', 'm'], ['年', 'm'], ['黄日华', 'nz'], ['版', 'n'], ['电视剧', 'n']],第i个元素是一个由分词和对用词性组成的数组。

           (2)获取概念候选词

           只选取上一步中获取的名词词语,那么我们可以得到['黄日华', '版', '电视剧']

           (3)确定候选词

           通常含义标题最后一个名词往往是能代表此含义具体概念类别的词语,由上一步我们可知最后一个名词是“电视剧“,恰好符合标题对应概念。因此可得到如下列表

    表3 不同天龙八部含义对应的关键词词组和概念
    含义 关键词词组 概念
    97黄日华版电视剧 ["1997", "李添胜", "天龙八部", "黄日华", "樊少皇", "张国强", "陈浩民", "李若彤", "刘锦玲", "赵学而", "何美钿", "28", "陈国梁", "香港", "金庸", "武侠", "古装", "刘玉翠", "萧峰", "慕容复"] 电视剧
    03内地胡军版电视剧 ["电视剧", "2003", "古装", "于敏", "刘亦菲", "鞠觉亮", "周晓文", "赵箭", "林志颖", "12", "11", "22", "金鹰奖", "天龙八部", "高虎", "胡军", "刘涛", "陈好", "张纪中", "优秀作品"] 电视剧
    82版香港电视剧 ["虚竹", "1982", "天龙八部", "神剑", "黄日华", "黄杏秀", "之六脉", "萧笙", "梁家仁", "汤镇业", "陈玉莲", "石修", "TVB", "03", "22", "传奇", "武侠", "中国香港", "香港", "乔峰"] 电视剧
    黄玉郎改编的漫画 ["武林", "乔峰", "帮主", "黄玉郎", "天龙八部", "威名", "丐帮", "虚竹", "段家", "英雄辈出", "大宋", "他族", "大帮", "北乔峰", "之妻", "康敏", "堕地", "段誉", "胡绍权", "风云际会"] 漫画
    腾讯动漫的漫画 ["漫画作品", "天龙八部", "连载", "腾讯", "动漫", "凤凰", "娱乐", "创作"] 漫画
    …… …… ……

           得到上述列表后易知,无论是“97黄日华版电视剧”,还是“03内地胡军版电视剧”,或者是“82版香港电视剧”它们都属于“电视剧”概念,它们都可以聚类成为“电视剧”这个概念类别。同理” 黄玉郎改编的漫画”和”腾讯动漫的漫画”也可以聚类成为“漫画”这个概念类别。因此对属于同一个概念的含义可以进行归并操作,即” 97黄日华版电视剧”、“03内地胡军版电视剧”和” 82版香港电视剧”可以,可得如下的概念归并后的

    1180694-20190825115547412-494437335.jpg
    图3 概念归并后的词组

    2.4 概念消歧

           文本概念消歧分为两个步骤,第一步获得含义的文本向量,第二步是计算文本向量间余弦相似度来判断目标文本中命名实体属于哪个概念 (余弦相似度概念见术语解释)。

           首先介绍第一步获得概念文本向量和目标文本向量。“电视剧”概念对应的关键词词组为["1997", "李添胜", "天龙八部", "黄日华", "樊少皇", "张国强", "陈浩民", "李若彤",……],假设"1997"对应的词向量为w1, "李添胜"对应的词向量为w2, "天龙八部"对应的词向量为w3,……。那么我们可以定义“97黄日华版电视剧”的概念文本向量T1 =(w1+w2+…wn)/n。对目标文本“港版天龙八部还是经典啊,黄日华才演出萧峰的气质”先进行jieba分词处理得到关键词,然后按上述步骤处理可获得目标文本向量。

           通过余弦相似度计算你会发现目标文本向量和”电视剧”概念向量文本余弦相似度最大,所以目标文本中的概念应该对应“电视剧”这个概念。本文使用某开源的中文词向量进行文本到向量数值的映射,此开源的中文词向量的维度为200维度,包含几乎所有的中文词语和流行术语。

    3 术语解释

    3.1 命名实体

           命名实体(英语:Named Entity),主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。例如人名“爱因斯坦”、“牛顿”,地名“北京、“纽约”,机构名“好未来”,“清华大学”等都算一个命名实体。对命名实体的处理是NLP(英语Natural Language Processing,自然语言处理)领域一个重要的研究方向。

    3.2 词向量

           词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

    3.3 余弦相似度

           余弦相似度通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1。用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,也就是衡量两个向量在方向上的差别。

    结束语

           当然在词类归并计算的时候还存在概念重复的情况,例如天龙八部词条中出现“1977年香港电视剧”、“2013年大陆影视剧”这时候按本文方法找到两个“不同”的概念,即“电视剧“和”影视剧“,显然这样数据出现冗余。当然这个文本也是有解决方案的,可以通过概念相似度计算、或者关键词聚类来进一步优化得到的概念数据,使得我们得到的概念数据中不出现上述的问题。最后希望本文能帮助到广大的NLPer在文本处理。

    转载于:https://www.cnblogs.com/Kalafinaian/p/11407431.html

    展开全文
  • 命名实体识别与消歧(Named Entity Recognition/Disambiguation)与词义消歧(Word Sense Disambiguation)有兴趣的同学注意了:ACL主席Gertjan van Noord等欧洲NLP科学家近日编撰了一篇非常棒的报告,汇总了大量的...
  • 词义消歧是自然语言处理中的基础性研究课题,而命名实体消歧是词义消歧的一个重要分支。命名实体的歧义是指一个命名实体的指称项可以对应多个实体概念。命名实体消歧指利用文本上下文信息或者其它外部知识库,确定这...
  • 确定一个实体指称项所指向的真实世界实体,这就是命名实体消歧。 1.2 实体消歧分类 基于聚类的实体消歧 把所有实体指称项按其指向的目标实体进行聚类 每一个实体指称项对应到一个单独的类别 ...
  • 实体链接技术是将文本中的实体指称表述项正确链接到知识库中实体的过程,其中命名实体消歧的准确性直接影响实体链接的准确性。针对中文实体链接中命名实体的消歧,提出一种融合多种特征的解决方案。首先,以中文维基...
  •  众所周知,计算机所擅长的工作是“匹配”,不会像人那样具备理解自然语言,自动消歧的能力。即便是人工智能,也是在某种程度上依赖于知识库和知识库的“数据结构”,然后利用某种高效的搜索算法去匹配答案。   ...
  • 实体消歧 任务定义 通过六元组来定义: M=N,E,D,O,K,&amp; N是待消歧的实体名集合,如李娜,迈克尔乔丹等 E是待消歧实体名的目标列表...K是命名实体消歧任务所使用的背景知识。关于目标实体的描述。 &a...
  • 运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了...
  • 命名实体识别 消除歧义 TF-IDF句向量(有监督) 词周边特征 TF-IDF特征(有监督) 词向量(无监督) 基于规则的内联修改权重方法 变种:地名消歧 正则表达式
  • 知识图谱(五)——实体消歧

    千次阅读 2019-07-28 17:04:38
    一、任务概述 多样性——同一实体在文本中会有不同的指称。eg:飞人、帮主、老大和MJ都指美国篮球...实体消歧,定义为六元组。此处实体指的是命名实体。 M=N,E,D,O,K,δM=N,E,D,O,K,\deltaM=N,E,D,O,K,δ N=n1,n2,....
  • nd direction noun 右侧 ws foreign words CPU nh person name 杜甫, 汤姆 x non-lexeme 萄, 翱 命名实体识别 命名实体识别 (Named Entity Recognition, NER) 是在句子的词序列中定位并识别人名、地名、机构名等...
  • 先前的研究集中于提取本身,并依靠命名实体消歧(NED)将三元组映射到KB空间。这样,NED错误可能会导致提取错误,从而影响整体精度和召回率。为了解决这个问题,我们提出了一种基于神经编码器-解码器模型的知识库...
  • 开源REST-API,用于命名实体提取,规范化,对帐,推荐,命名实体消歧命名实体链接 REST API和Python库,用于搜索,建议,推荐,规范化,对帐,命名实体提取,命名实体链接和命名实体的歧义,例如人员,组织和场所...
  • 在执行命名实体消歧(NED)之前,必须对输入文本进行NER标记。我们的NED系统提供了一个HTTP接口,该接口接受JSON格式的带有NER标签的输入。 为了尝试我们的NED系统,您可以使用一些NER-tagger并将该系统的输出转换为...
  • 基于VSM的命名实体识别、歧义消解和指代消解

    万次阅读 多人点赞 2015-09-20 06:00:14
    这篇文章主要讲解基于向量空间模型(Vector Space Model)的相关应用,包括命名实体识别、实体消歧和跨文本指代消解;其最终目的是想通过它应用到知识图谱构建过程中,即实体对齐和属性对齐。目录: 一 搜狗知立方介绍...

空空如也

空空如也

1 2 3 4 5 6
收藏数 105
精华内容 42
关键字:

命名消歧