精华内容
下载资源
问答
  • 命名实体的消歧
    千次阅读
    2019-07-05 17:45:36

    定义

    命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体
    确定一个实体指称项所指向的真实世界实体,这就是命名实体消歧

    任务

    基于聚类的实体消歧

    把所有实体指称项按其指向的目标实体进行聚类
    每一个实体指称项对应到一个单独的类别

    基本思路

    同一指称项具有近似的上下文
    利用聚类算法进行消歧

    核心问题

    选取何种特征对于指称项进行表示,通常可以选择以下几种特征:
    1.词袋模型(Bagga et al., COLING, 1998)
    利用待消歧实体周边的词来构造向量
    利用向量空间模型来计算两个实体指称项的相似度,进行聚类

    2.语义特征(Pederson et al., CLITP, 2005)
    词袋模型,没有考虑词的语义信息
    利用SVD分解挖掘词的语义信息
    利用词袋和浅层语义特征,共同来表示指称项,利用余弦相似度来计算两个指称项的相似度

    3.社会化网络(Bekkerman et al., WWW, 2005)
    不同的人具有不同的社会关系
    MJ, Pippen, Buckley, Ewing, Kobe等的社会化关联信息所表 现出来的网页链接特征,对网页进行聚类,从而实现网页内的人名聚类消歧。

    4.维基百科的知识(Han and Zhao, CIKM, 2009)
    Wikipedia中相关实体具有链接关系
    这种链接关系反映条目之间的语义相关度
    用实体上下文的维基条目对于实体进行向量表示
    利用维基条目之间的相关度计算指称项之间的相似度(解决 数据稀疏问题)

    5.多源异构语义知识融合(Han and Zhao, ACL, 2010)
    多源异构知识的表示框架:语义图
    等同概念识别
    概念连接
    同时捕捉显式语义知识和结构化语义知识
    语义图的边(显式语义知识)——建模了所有从知识源中直接抽取出的 概念之间的显式语义关联
    语义图的结构(结构化语义知识)——建模了概念之间的隐藏语义关联
    语义图中语义知识的挖掘和融合算法
    计算原则:“如果一个概念的邻居概念与另一个概念存在语义关联,则这 个概念也与另一个概念存在语义关联”
    语义关联在图中的传递性

    挑战

    消歧目标难以确定
    缺乏实体的显式表示

    基于链接的实体消歧

    将实体指称项与目标实体列表中的对应实体进行链接实现消歧
    任务
    给定实体指称项和它所在的文本,将其链接到给定知识库中的相应 实体上

    主要步骤:

    1.候选实体的发现
    给定实体指称项,链接系统根据知识、规则等信息找到实体指称项的候选实体

    2.候选实体的链接
    系统根据指称项和候选实体之间的相似度等特征,选择实体指称项的目标实体

    如:
    迈克尔乔丹是有名的篮球运动员 为 实体指称项文本
    找到候选实体如下:
    1.迈克尔乔丹(篮球运动员)
    2.迈克尔乔丹(教授)
    3.迈克尔杰克逊(歌手)
    通过与1链接就完成了正确的实体链接

    如何根据实体指称项找出候选实体?
    可以根据百科的信息
    可以利用上下文信息

    如何进行行实体链接?

    基本方法
    计算实体指称项和候选实体的相似度,选择相似度最大的候选实体
    单一实体链接
    BOW模型 (Honnibal TAC 2009, Bikel TAC 2009)
    加入候选实体的类别特征(Bunescu et al., EACL 2006)
    加入候选实体的流行度等特征(Han et al., ACL 2011)
    协同实体链接
    利用实体之间类别的共现特征(Cucerzan, EMNLP 2007)
    利用实体之间链接关系(Kulkarni et al., KDD 2009)
    利用同一篇文档中不同实体之间存在的语义关联特征(Han et al., SIGIR 2011)

    基于词袋模型计算相似度:
    将实体指称项上下文文本与候选实体上下文文本表示成词袋子向量 形式,通过计算向量间的夹角确定指称项与候选实体相似度,系统选择相似度最大的候选实体进行链接

    更多相关内容
  • 本文讨论了命名实体消歧的问题,该问题旨在将文本中的实体提及映射到维基百科中的正确实体。本文的目的是基于候选实体的统计排序模型,探索和评估从维基百科提取的特征的各种组合和用于消除歧义任务的文本。通过实验...
  • 在语义标注过程中,为了消除文本中给定的命名实体与知识库中实体映射过程中出现的歧义问题,提出了一种基于上下文信息相似度值排序的命名实体消歧方法。消歧方法包括实体表示预处理、候选实体列表构建和相似度值排序...
  • 命名实体消歧是将自然语言文本中具有歧义的实体指称正确地映射到知识库中相应实体上的过程。现有命名实体消歧技术大多采用集体消歧,以利用更多的语义信息达到更高的精度,但存在效率偏低的问题。为此,提出一种基于...
  • 命名实体消歧的代码实现

    千次阅读 2019-03-19 18:00:00
    本文准备了两个测试数据集,entity_list.csv是50个实体,valid_data.csv是需要消歧的语句。 结果提交在submit目录中,命名为entity_disambiguation_submit.csv。 格式为:第一列是需要消歧的语句序号,第二列为多个...

    将句中识别的实体与知识库中实体进行匹配,解决实体歧义问题。 可利用上下文本相似度进行识别。
    本文准备了两个测试数据集,entity_list.csv是50个实体,valid_data.csv是需要消歧的语句。
    结果提交在submit目录中,命名为entity_disambiguation_submit.csv。
    格式为:第一列是需要消歧的语句序号,第二列为多个“实体起始位坐标-实体结束位坐标:实体序号”以“|”分隔的字符串。

    需要进行实体消歧的语句如下:
    在这里插入图片描述
    实体类别如下:
    在这里插入图片描述

    下面讲解具体的实现步骤:
    1.导入数据

    import jieba
    import pandas as pd
    
    # TODO:将entity_list.csv中已知实体的名称导入分词词典
    entity_data = pd.read_csv('../data/entity_disambiguation/entity_list.csv', encoding = 'utf-8')
    
    
    # TODO:对每句句子识别并匹配实体     
    valid_data = pd.read_csv('../data/entity_disambiguation/valid_data.csv', encoding = 'gb18030')
    
    1. 建立关键词组
      将需要进行实体消歧的实体存进keyword_list
    import collections
    
    s = ''
    keyword_list = []
    for i in entity_data['entity_name'].values.tolist():
        s += i + '|'
    for k,v in collections.Counter(s.split('|')).items():
        if v > 1:
            keyword_list.append(k)
    
    1. 生成tfidf矩阵
    from sklearn.feature_extraction.text import TfidfVectorizer
    
    train_sentence = []
    for i in entity_data['desc'].values:
        train_sentence.append(' '.join(jieba.cut(i)))
    
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(train_sentence)
    
    1. 获取包含关键词的句子中关键词所属的entity_id
    import numpy as np
    from sklearn.metrics.pairwise import cosine_similarity
    
    def get_entityid(sentence):
        id_start = 1001 
        a_list = [' '.join(jieba.cut(sentence))]
        res = cosine_similarity(vectorizer.transform(a_list),X)[0]
        top_idx = np.argsort(res)[-1]
        return id_start + top_idx
    
    1. 将计算结果存入文件
    row = 0
    result_data = []
    neighbor_sentence = ''
    for sentence in valid_data['sentence']:
        res = [row]
        for keyword in keyword_list:
            if keyword in sentence:
                # 查询关键词在句子中的索引
                k_len = len(keyword)
                ss =''
                for i in range(len(sentence)-k_len+1):
                    if sentence[i:i+k_len] == keyword:
                        s = str(i) + '-' +str(i+k_len) + ':'  # 拿到 x-x:
                        if i > 10 and i + k_len < len(sentence)-9:
                            neighbor_sentence = sentence [i-10:i+k_len+9]
                        elif i < 10:
                            neighbor_sentence = sentence [:20]
                        elif i + k_len > len(sentence)-9:
                            neighbor_sentence = sentence [-20:]
                        s +=  str(get_entityid(neighbor_sentence))   # 拿到 x-x:id
                        ss += s + '|'    # 拿到 x-x:id|x-x:id
                res.append(ss[:-1])  # 拼接成[0, 'x-x:id|x-x:id']
        result_data.append(res)
        row += 1
    pd.DataFrame(result_data).to_csv('../submit/entity_disambiguation_submit.csv', index=False)
    

    7.最后我们可以打印一下保存的结果

    pd.read_csv('../submit/entity_disambiguation_submit.csv')
    

    打印结果如下
    在这里插入图片描述
    格式为: 起始位置-结束位置|实体类别
    我们可以看一下第一条 3-6:1008|109-112:1008|187-190:1008,确实是符合的。
    在这里插入图片描述
    在这里插入图片描述
    在具体的实现过程中,我们可以通过测试数据的准确率去判断所抽取的字符长度是否合理,调整特征的抽取方式来优化准确率。

    以上代码及训练数据已上传至github,有兴趣的同学可以点击这里查看。谢谢!

    展开全文
  • 第二十六章 命名实体识别和实体消歧 1 命名实体识别概论 PART1 什么是命名实体识别 PART2 命名识别识别的应用 PART3 简历中抽取关键信息 2 命名实体识别不同方法 PART1 实体识别方法 基于规则的方法 基于...

    前言

    自然语言处理中一个重要的任务就是命名实体识别,自1991年开始,命名实体识别逐渐开始走进人们的视野。

    随着深度学习的发展,命名实体识别技术也得到了极大地进步。从最初的基于规则和字典的方法,到现在热门的注意力机制、图神经网络等方法,命名实体识别已经在各大数据集上已经取得了很高的准确率,但从自然语言处理实际应用的角度来看,命名实体识别技术依旧面临着很大的挑战。

    一、命名实体识别概论

    1.什么是命名实体识别

    命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。

     其中产品名、组织、公司、人物就是我们提取出的命名实体。

    2.命名实体识别的应用

    命名实体识别可以落地到多个应用场景,包括聊天机器人新闻关键信息提取等等。

    2.1 聊天机器人

    以上是基于任务式的对话系统的大致流程。这种对话系统也称之为基于填槽式的对话系统。简单来讲,为了能够为用户解决一个问题,AI机器需要获得相关的信息,所以整个对话过程实际上就是从用户那里获得这些信息。一旦获取完毕,就可以对数据库做进一步查询。

    2.2 简历分析

    一份简历中包含大量的信息,如果通过HR一份份过,无疑会耗费大量的时间和精力。所以我们如何通过命名实体识别来进行简历的关键信息提取呢?

     

    首先这是一个垂直领域内的问题,我们需要构建NER来提取信息,并且需要自己定义所需要的实体种类,并进行大量的数据标记

     

    当我们标记好大量数据后,实际上这就是一个分类问题,输入文本词语,输出对应的种类就可以了,那么我们需要构造一个类别数为实体种类的分类器。

    二、命名实体识别方法

    1.实体识别方法

    命名实体识别从早期基于词典和规则的方法,到传统机器学习的方法,后来采用基于深度学习的方法,一直到当下热门的注意力机制、图神经网络等研究方法,命名实体识别技术路线随着时间在不断发展。技术发展趋势如下图所示:

    1.1 基于规则和字典的方法

    基于规则和字典的方法是最初代的命名实体识别使用的方法,这些方法多采用由语言学家通过人工方式,依据数据集特征构建的特定规则模板或者特殊词典。规则包括关键词、位置词、方位词、中心词、指示词、统计信息、标点符号等。词典是由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典。制定好规则和词典后,通常使用匹配的方式对文本进行处理以实现命名实体识别。

    基于规则的实体识别方法虽然简单,实际上也比较实用,特别是对于一些垂直领域的应用,或者数据量比较少或者没有标签数据的时候。如果我们有一个足够丰富的词典库,那么仅仅根据词库也能做到不错的准确率。另外,基于规则的识别方法是一套非常有效的基准(baseline)。

    1.2 基于传统机器学习的方法

    在基于机器学习的方法中,命名实体识别被当作是序列标注问题。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。采用的传统机器学习方法主要包括:隐马尔可夫模型、最大熵、最大熵马尔可夫模型、支持向量机、条件随机场 等。

    在这 5 种学习方法中,ME结构紧凑,具有较好的通用性,其主要缺点是训练时间复杂性非常高,甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。HMM对转移概率和表现概率直接建模,统计共现概率。ME和SVM在正确率上要 HMM高一些,但是HMM在训练和识别时的速度要快一些。MEMM对转移概率和表现概率建立联合概率,统计条件概率,但由于只在局部做归一化容易陷入局部最优。CRF模型统计全局概率,在归一化时考虑数据在全局的分布,而不是仅仅在局部进行归一化,因此解决了MEMM中标记偏置的问题。在传统机器学习中,CRF被看作是命名实体识别的主流模型,优点在于在对一个位置进行标注的过程中CRF可以利用内部及上下文特征信息。

    1.3 基于深度学习的方法

    随着深度学习的不断发展,命名实体识别的研究重点已转向深层神经网络,该技术几乎不需要特征工程和领域知识。Collobert等学者首次提出基于神经网络的命名实体识别方法,该方法中每个单词具有固定大小的窗口,但未能考虑长距离单词之间的有效信息。为了克服这一限制,Chiu和Nichols提出了一种双向LSTM-CNNs架构,该架构可自动检测单词和字符级别的特征。Ma和Hovy进一步将其扩展到BiLSTM-CNNs-CRF体系结构,其中添加了CRF模块以优化输出标签序列。Liu等提出了一种称为LM-LSTM-CRF的任务感知型神经语言模型,将字符感知型神经语言模型合并到一个多任务框架下,以提取字符级向量化表示。这些端到端模型具备从数据中自动学习的功能,可以很好地识别新实体。

    部分学者将辅助信息和深度学习方法混合使用进行命名实体识别。Liu 等在混合半马尔可夫条件随机场的体系结构的基础上加入了Gazetteers 地名词典,利用实体在地名词典的匹配结果作为命名实体识别的特征之一。一些研究尝试在标签级别跨数据集共享信息,Greenberg等提出了一个单一的CRF模型,使用异构标签集进行命名实体识别,此方法对平衡标签分布的领域数据集有实用性。Augenstein 等使用标签向量化表示在任务之间进一步播信息。Beryozkin等建议使用给定的标签层次结构共同学习一个在所有标签集中共享其标签层的神经网络,取得了非常优异的性能。

    近年来,在基于神经网络的结构上加入注意力机制、图神经网络、迁移学习、远监督学习等热门研究技术也是目前的主流研究方向。

    总体来讲,前两种方法只是作为基准,一般不会作为生产环境下的方法,最常用的方法莫过于基于CRF的识别。

    三、实体消歧

    1.实体消歧概念

    实体消歧的本质是在于一个词很有可能有多个意思,也就是在不同的上下文中所表示的含义不太一样。

    2.实体消歧解法

    2.1 基于聚类的实体消歧方法

    该方法主要是计算实体指称项之间的相似度,采用某种聚类算法对实体指称项聚类,使得聚类结果中每一个类别都对应于一个目标实体上。主要包括基于表层特征的实体指称项相似度计算、
    基于扩展特征的实体指称项相似度计算、基于社会化网络的实体指称项相似度计算。

    基于表层特征的实体指称项相似度计算:
    传统方法多利用表层特征计算相似度,这些方法通常是词袋模型(Bag of Words,BoW)模型的延伸,性能不好。 

    这类方法都是基于上下文表层特征的关联来计算它们之间的相似度,而没有考虑到上下文特征的内在关联,因此影响聚类效果。

    基于扩展特征的实体指称项相似度计算:
    利用知识资源提升实体消歧的性能。
    最直接的方法:使用知识资源来扩展实体指称项的特征表示。

    基于社会化网络的实体指称项相似度计算:
    基于社会化网络的实体指称项相似度通常使用基于图的算法,能够充分利用社会化关系的传递性,从而考虑隐藏的关系知识,在某些情况下(特别是结构化数据,eg:论文记录、电影记录等)能够更为准确的实体指称项相似度计算结果。

    缺点:只用到上下文中的实体信息,不能完全利用实体指称项的其他上下文信息,因此不能在文本消歧领域取得有竞争力的性能。

    2.2 基于实体链接的实体消歧方法

    基于实体链接的实体消歧方法:将实体指称项链接到知识库中特定的实体,也称实体链接(Entity Linking)。
    实体链接:将一个命名实体的文本指称项(Textual Mention)链接到知识库中对应实体的过程(若不存在对应实体,则将实体指称项链接到空实体NIL)

    实体链接的输入包括两部分:

    • 目标实体知识库:最常用Wikipedia,或特定领域知识库。
      • 知识库通常包括:实体表、实体的文本描述、实体的结构化信息(eg:属性/属性值对)、实体的辅助性信息(eg:实体类别);也经常提供额外的结构化语义信息,eg:实体之间的关联
    • 待消歧实体指称项及其上下文信息

    步骤:

    • 链接候选过滤(Blocking):根据规则或知识过滤大部分指称项不可能指向的实体,仅仅保留少量链接实体候选。
    • 实体链接(Linking):给定指称项及其链接候选,确定该实体指称项最终指向的目标实体。(重点研究)

    链接候选过滤方法:
    大部分是基于实体指称项词典:通过在字典中记录一个指称项所有可能指向的目标实体来进行链接候选过滤。

    传统实体链接方法:使用Wikipedia等知识资源构建指称项词典,包括Wikipedia Entity Name、Wikipedia Redirection Page等。

    为了匹配模糊或拼错的指称项,一些基于构词法的模糊匹配也在TAC评测中使用,eg:Metaphone算法和Soft TFIDF算法

    实体链接方法:
    实体链接方法选择与指称项具有最高一致性打分的实体作为其目标实体。现有方法可分为:向量空间模型、主题一致模型、协同实体链接模型、基于神经网络的模型。

    2.3 面向结构化文本的实体消歧方法

    列表型数据没有上下文描述信息,需要利用实体的类别信息,实体的流行度和列表中的其他信息进行消歧。

    四、实体统一

    1.实体统一概念

    同一个实体有不同的表达方式,有时候需要把不同的表达方式统一为同一种表达方式。

    例子:”中华人民共和国“,”中国“都表示同一个意思。如果把实体统一,可以减少一些NLP任务的难度。常见的应用场景是在构建知识图谱中,需要对地名,公司名,专业术语等进行统一。

    2.实体统一解法

    第一种方法计算相似度方法

    计算两个实体(字符串)之间的相似度,一般使用编辑距离即可,设定阈值,判断是否属于一个实体。

    第二种基于规则方法

    举个例子:

    1. 腾讯有限公司
    2. 腾讯科技有限公司

    我们通过人工的设计一些库,或者说是一些词典,这些库包含相同实体的特点:

    • 词典1:公司、有限公司、分公司…
    • 词典2:北京,天津,上海…
    • 词典3:科技,技术…

    如果实体中的词出现在库中将其删掉

    1. 腾讯有限公司——作为原型,删掉词库中的词后为:腾讯
    2. 腾讯科技有限公司 —删掉词库中的词后为:腾讯

    这时候判定为相同实体,但是以上两种方法精度不高,人力成本比较高。

    第三种基于有监督的学习方法

    还是上面的例子:

    1. 腾讯有限公司
    2. 腾讯科技有限公司

    我们可以将1和2利用特征工程将其转换为特征向量:比如考虑词性,前后单词,词位置等等。

    然后输入到一个训练好的分类模型去判断两个实体是否相似。

    利用余弦相似度技术衡量相似程度,然后再输入到逻辑回归模型做二分类的计算。

    第四种基于图的实体统一方法

    其实每个实体都不是独立的,他们与其他实体是包含一定的联系,如下图所以我们在做实体统一的时候我们考虑到了这种实体关系,也就是根据这种图来做:

    假如我们判断A和B是否是同一个人我们在做特征向量时不仅加入他的个人信息,还可以加入其他的关系。

    然后我们再计算A和B两者的相似度,设置阈值:判断大于阈值相似以及小于阈值不相似。

    总结

    评判一个命名实体是否被正确识别,包括两个方面:

    • 实体的边界是否正确
    • 实体的类型是否标注正确

    命名实体识别存在三个难点

    • 领域命名实体识别局限性
    • 命名实体表述多样性和歧义性
    • 命名实体的复杂性和开放性

    命名实体识别目前的两个热点: 

    • 匮乏资源命名实体识别
    • 细粒度命名实体识别

    本文是从零开始学NLP系列文章第十五篇,希望小伙伴们多多支持,互相交流。


    今天我们就到这里,明天继续努力!

    如果该文章对您有所帮助,麻烦点赞,关注,收藏三连支持下!

    创作不易,白嫖不好,各位的支持和认可,是我创作的最大动力!

    如果本篇博客有任何错误,请批评指教,不胜感激 !!!


    参考:

    贪心科技学院nlp

    一文了解命名实体识别

    知识图谱(五)——实体消歧

    实体消歧、实体统一和指代消歧

    展开全文
  • 实体链接技术是将文本中的实体指称表述项正确链接到知识库中实体的过程,其中命名实体消歧的准确性直接影响实体链接的准确性。针对中文实体链接中命名实体的消歧,提出一种融合多种特征的解决方案。首先,以中文维基...
  • 命名实体消歧(NED) 查看实体链接的最新技术( ): 端到端:Kolitsas等人2018( )。 这有可用的官方代码。 仅消除歧义:Mulang'et al 2020( ) Mulang等人2020的最新技术使用知识图来为转换器模型提供上...
  • 自然语言处理(NLP)-文本处理:实体消歧(Entity Disambiguiation)

    一、简单方法

    1、提前构建好实体库(描述库)

    在这里插入图片描述

    2、将文本转为向量

    将含有待消歧实体的文本句子 A A A (实体前后各取10~20个单词),实体库中该实体的各种描述的句子( A 1 , A 2 , . . . A_1,A_2,... A1,A2,...)都转为向量,然后通过余弦相似度计算 c o s ( A , A 1 ) , c o s ( A , A 2 ) , . . . cos(A,A_1),cos(A,A_2),... cos(A,A1),cos(A,A2),...,最后选择相似度最大的实体解释。

    在这里插入图片描述

    二、基于文本上下文的word2vec方法

    利用Bert预训练模型,直接将实体转为词向量,水果类的苹果与手机类的苹果通过Bert转为词向量后是不一样的。

    展开全文
  • 知识图谱-实体消歧(语义消歧

    千次阅读 2021-01-17 10:20:12
    体链接消歧则是借助外部知识库将待消歧命名实体指称链接到外部知识库中对应实体来进行消歧. 基于中文维基百科的命名实体消歧方法 计算文本特征向量与不同词义的维基特征向量的相似度(可由词间距离转换 余弦距离 ...
  • 刚整理好的论文总结被我学弟一键ctrl+z搞没了,想暴揍他一顿~ 熊孩子太皮了!...命名实体消歧(NED)就是将文本提到的实体映射到知识库中的实体,现存挑战是如何消除在训练数据中很少出现的实体(称..
  • 抽取与网页文本中人名关键字实体相关的依存特征及命名实体等辅助特征,利用二层聚类算法,根据依存特征将可信度高的文档聚类,使用辅助特征将剩余文档加到现有聚类结果中,由此实现人名消歧。实验结果证明,该方法...
  • 实体消歧综述整理

    千次阅读 2022-01-29 21:46:09
    实体消歧综述[J].控制与决策,2021,36(05):1025-1039.DOI:10.13195/j.kzyjc.2020.0388. 文章目录分类按实体任务领域划分按有无目标知识库划分按链接知识库类型划分词义消岐命名实体识别方法基于无监督聚类的消岐系统...
  • 第五章 实体消歧任务概述定义分类基于聚类的实体消歧系统基于实体链接的实体消歧系统相关评测WePSTAC KBP基于聚类的实体消歧方法 实体具有歧义性,体现在两个方面: 同一实体在文本中会有不同的指称 ⇒\Rightarrow...
  • 知识图谱(五)——实体消歧

    万次阅读 2019-07-28 17:04:38
    一、任务概述 多样性——同一实体在文本中会有不同的指称。eg:飞人、帮主、老大和MJ都指美国篮球...实体消歧,定义为六元组。此处实体指的是命名实体。 M=N,E,D,O,K,δM=N,E,D,O,K,\deltaM=N,E,D,O,K,δ N=n1,n2,....
  • 在执行命名实体消歧(NED)之前,必须对输入文本进行NER标记。我们的NED系统提供了一个HTTP接口,该接口接受JSON格式的带有NER标签的输入。 为了尝试我们的NED系统,您可以使用一些NER-tagger并将该系统的输出转换为...
  • 实体消歧

    千次阅读 2019-04-19 20:38:20
    研究背景概述 ...必须要对实体识别的结果进行消歧,才能带到无歧义的实体信息。 应用领域 知识图谱构建(实体识别)、信息检索、问答系统等 任务分类 一般来说,实体消歧系统可以按照目标实体...
  • 双线性约束向量联合训练模型在实体消歧中的应用,陈辉,魏宝刚,综述文章:以背景、研究现状、研究用途的结构书写,篇幅以150~300字左右为宜,不用第一人称做主语,不与正文语句重复。一般研究性文章
  • 【NLP】NLP中的消歧

    2021-07-16 01:12:44
    处理歧义的现象称为“消歧”。这是帮助机器检测文本意义(语义)的过程。词义的确定要考虑语境、句法和词语之间的关系。 下面的文章将强调不同的方法,可以用来帮助机器减少歧义,如词形还原,词性标注等。 这项工作...
  • 确定一个实体指称项所指向的真实世界实体,这就是命名实体消歧。 1.2 实体消歧分类 基于聚类的实体消歧 把所有实体指称项按其指向的目标实体进行聚类 每一个实体指称项对应到一个单独的类别 ...
  • 词义消歧是自然语言处理中的基础性研究课题,而命名实体消歧是词义消歧的一个重要分支。命名实体的歧义是指一个命名实体的指称项可以对应多个实体概念。命名实体消歧指利用文本上下文信息或者其它外部知识库,确定这...
  • 命名实体概念消歧命名实体消歧(英语:Named Entity Disambiguation)的一个重要研究子领域(命名实体概念可见本文3.1章)。什么叫概念消歧了?在这里举一个简单例子进行说明,一个命名实体“天龙八部”,它有许多个...
  • 词汇处理——词义辨析消歧(一)

    千次阅读 2019-11-02 14:57:46
    经典方法 详细介绍解决NLP词义辨析消歧的经典方法 研究现状 对NLP词义辨析消歧的综述介绍
  • 命名实体识别与消歧(Named Entity Recognition/Disambiguation)与词义消歧(Word Sense Disambiguation)有兴趣的同学注意了:ACL主席Gertjan van Noord等欧洲NLP科学家近日编撰了一篇非常棒的报告,汇总了大量的...
  • 运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了...
  • 实体消歧 任务定义 通过六元组来定义: M=N,E,D,O,K,&amp; N是待消歧的实体名集合,如李娜,迈克尔乔丹等 E是待消歧实体名的目标列表...K是命名实体消歧任务所使用的背景知识。关于目标实体的描述。 &a...
  • 指代消歧工具安装

    2022-02-23 09:40:24
    ·sm/md/lg为描述大小的缩写:small(小)、medium(中)、large(大)、 3.Spacy功能: 可以用于进行分词,命名实体识别,词性识别等, 1.sentencizer # 将文章切分成句子原理是Spacy通过将文章中某些单词的is_...
  • 命名实体消歧函数,用于将待消歧的实体指称项映射道目标实体列表(如果 E E E 是显式给定的),或者按照其指向目标实体进行聚类(如果 E E E 没有显式给定,是隐藏变量)。 5.1.2 任务分类     按照目标...
  • 本文的研究对象是“面向中文短文本的实体链指任务”,该任务拥有9万条语句用于做实体识别和实体消歧。这篇文章成绩排名前列,相应论文已被CCKS 2019收录。 全国知识图谱与语义计算大会(CCKS)每年都会举办一些竞赛...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,973
精华内容 789
关键字:

命名消歧