精华内容
下载资源
问答
  • 知识图谱的实体往往面临数据融合的问题,因为知识图谱的数据源可能有多个,在不同数据源有对同一实体的不同表达,即使在同一个数据源里也可能存在这种情况,需要通过一定手段将其合并。知识图谱数据融合过程通常...

    知识图谱的实体往往面临数据融合的问题,因为知识图谱的数据源可能有多个,在不同数据源有对同一实体的不同表达,即使在同一个数据源里也可能存在这种情况,需要通过一定手段将其合并。

    知识图谱的数据融合过程通常如下:

    知识融合流程图

    1,数据预处理:输入的原始数据源往往存在脏数据和格式不一致数据,需要进行人工进行规整,这一步过程是实际工程中比较费时但是作用很大的工作,没有好的数据处理后续的算法效果往往也不会好。

    2,数据分组:我们的目标是找出所有相同的实体,如果不进行数据分组,我们的计算量会是两两比较,对于海量数据的时候计算量过于庞大,所以要事先进行分组。分组的效果既要保证能够比较均衡地分而治之,又要尽量保证不要漏分。

    常见的方法包括通过数据本身的类目信息进行分组,比如在融合商品数据的时候可以根据商品的类目信息进行分组;或者根据数据的关键信息,比如在融合人物数据的时候可以根据其出生日期进行分组。

    3,属性相似度:经过上一步的分组,每个分组下的实体是有可能是相同的实体的集合,接下来需要对实体的属性进行计算相似度,有了实体各个属性的相似度才容易进行下一步的实体相似度计算。

    常见的方法包括:

    3.1)纯字符串的:计算编辑距离,levenshtein distance,计算字符串A通过插入/删除/替换操作变换到字符串B的距离;

    3.2)集合类型:计算Jaccard相似度,计算集合交集个数/集合并集个数;

    3.3)文档类型:通过tf-idf找出每篇文档的关键词,再通过余弦相似度计算关键词集合的相似度。

    4,实体相似度:

    有了实体各个属性的相似度,可以来计算实体相似度了。常见的方法分为两种:

    4.1)回归:通过实体各个属性的相似度,直接判断实体的相似度。可以直接对各个属性相似度拍权重,也可以通过逻辑回归的方式计算出各个属性相似度的权重。

    4.2)聚类:直接通过聚类操作,计算出相似实体。可以进行层次聚类,相关性聚类,Canopy+K-means聚类等。

    展开全文
  • 知识图谱-数据融合

    2017-03-29 17:18:22
    知识图谱多源数据融合的流程,方法,非常实用,全面解决知识图谱遇到的问题
  • 知识图谱融合知识图谱对齐Summary

    千次阅读 2020-05-08 19:34:09
    Ref:多知识图谱融合算法探索 1. 知识融合的常见问题 数据质量问题:命名模糊,数据输入错误,数据都市,数据格式不一致,缩写问题 数据规模问题:数据量过大,或数据量过小。数据种类多样性。在知识图谱对齐的...

    两个(或多个)知识图谱的融合是怎么实现的呢?所谓融合,可以理解存在以下三种操作:1)实体词在新的上下级位置上进行插入;2)不同图谱中的同义实体词完成合并;3)三元组关系随着实体词位置变化而动态调整.

    1. 知识融合的常见问题

    数据质量问题:命名模糊,数据输入错误,数据都市,数据格式不一致,缩写问题
    数据规模问题:数据量过大,或数据量过小。数据种类多样性。在知识图谱对齐的时候,我们不仅通过实体名匹配,也会使用多种关系,链接,图谱层次。

    2. 知识融合(对齐)的常见步骤

    1. 数据预处理:1) 语法正规化 2) 数据正规化
    2. 记录链接:把实体通过相似度进行连接
    3. 相似度计算:分成属性相似度和实体相似度。其中,属性相似度可以通过编辑距离(Levenstein,Wagner and Fisher, edit distance with Afine Gaps)集合相似度(Jaccard, Dice)基于向量的相似度(Cosine,TFIDF)。实体相似度可通过聚合,聚类(Canoy+K-means此法不用指定K,可分为层次聚类,相关性聚类)
    4. 分块(blocking):从所有三元组中找到潜在的匹配并分到一块中,减少运算量。
    5. 负载均衡:保证所有的分块中实体书目相当,做Map-reduce。
    6. 结果评估

    3. 知识图谱对齐的常见方法

    3.1 传统的基于概率模型的方法

    考虑各个实体的属性,不考虑实体间的关系,通过评估各种相似度来对齐实体,本质上为分类问题。

    3.2 机器学习方法

    1. 通过属性,比较实体或属性向量,进而判断实体匹配与否
    2. 聚类方法
    3. 主动学习:通过机器与人的交互学习(类似的有ActiveAtlas系统)

    4. 近年来在知识图谱方面的突破

    4.1 小规模知识图谱的融合

    一般来讲,小规模的知识图谱融合由人工完成为主,多以WordNet为参照做相似度计算求得对齐

    1. First-world-first-sence策略:把未见到的词连接到与其词性相同,同一集合的词上。但是这种方法对于领域图谱并不适用。
    2. VCU:使用相似度计算如果相似度大于阈值,认为相同,可以对齐。这种方法简单有效。但是未考虑到去除噪声,也未使用KG的结构。
    3. TALN:使用BabelNet更多的假如句法,词性,短语等信息
    4. MSeirku:加入了消歧机制。
      所有这些方法都离不开简单的相似度排序方法

    参考论文:
    1. VCU at Semeval-2016 Task 14: Evaluating similarity measures for semantic taxonomy enrichment
    2. TALN at SemEval-2016 Task 14: Semantic Taxonomy Enrichment Via Sense-Based Embeddings
    3. MSejrKu at SemEval-2016 Task 14: Taxonomy Enrichment by Evidence Ranking

    4.2 中等规模的KG Alignment

    当知识图谱规模小的时候,多使用词法句法信息,规模变大后可以使用图谱的结构特征信息

    1. Enriching Taxonomies with Functional Domain Knowledge: 使用了图语义特征,图中心度特征。在语义理解上提升许多
    2. Improvement on 1:使用了模糊聚类算法,发现并概念化新的实体,找到实体在图中的位置。

    参考论文:
    1. Enriching Taxonomies With Functional Domain Knowledge
    2. Using Taxonomy Tree to Generalize a Fuzzy Thematic Cluster

    4.3 大规模的KG Alignment

    本质上是不同的领域的实体对齐,形成与以上的链接。使用了基于知识表示的实体对齐。可以使用上下级的结构特征,和语义特征。

    1. Entity Alignment Between KGs using attribute embedding: 不同于TransE,PTransE等KGE模型关注的是学习实体和路径。本论文关注的是实体属性。可分为三个部分:谓词对齐,知识表示(embedding)和实体对齐。这类对齐要求把两个KG映射到一个向量空间中。使用谓词对齐模块查找相似的谓词。并使用统一命名。相当于使用谓词匹配反推实体对齐
    2. Iterative entity Alignment via joint KE: Background(大多知识图谱对齐依赖的是外部信息如Wikipedia) 本文提出一种基于联合知识图谱嵌入的方法。分为三部分:1)知识表示-TransE,2)联合表示-将多个KG映射到同一空间,使用机器翻译模型Seq2Seq,线性变换函数,参数共享,3)知识对齐迭代。

    参考论文:(前三个基于字符相似度,后三个基于知识图嵌入)
    1. RDF-AI: an Architecture for RDF Datasets Matching, Fusion and Interlink
    2. Limes: a time-efficient approach for large-scale link discovery on the web of data
    3. Holistic Entity Matching Across Knowledge Graphs
    4. Entity Alignment between Knowledge Graphs Using Attribute Embeddings
    5. Iterative Entity Alignment via Joint Knowledge Embeddings
    6. Collective Embedding-based Entity Alignment via Adaptive Features

    5. 如何识别和扩展图谱中的同义词

    对知识图谱中的同义不同形的词进行合并,可以理解为一种知识对齐。由于不同形的词长的不一样,所以不能简单地用词相似度来合并,需要考虑实体的语义和结构等特征。

    目前工业界的办法:

    1. 去结构化数据里面寻找同义词对,如各种百科,权威知识图谱等
    2. 对非结构化数据做语义分析,找到同义词对。

    本文着重讨论一下在非结构化数据集上,常见的挖掘思路有哪些。一般来说,这一类工作分为以下几个步骤:
    1) 从文本中提取mention词,简单的做法可以直接使用分词,选取一些特定分词结果做同义词挖掘。如果需要考虑语料中可能出现的新词或者不同语言表述,则需要配合Pattern挖掘、NER或名词短语抽取等方式获取候选词。
    2) 准备好已有的同义词表作为种子数据
    3) 获取所有种子词和候选词的特征,通常该任务的特征会从两个角度考虑,分别是local context和global context,通俗的讲就是局部特征和全局特征,前者着重于词本身,常见字级别特征、词级别特征等;后者则是考虑目标词在数据集中的分布特征或者词所在句子、段落的语义特征
    4) 根据各自实际工作中数据集的特点,已有的paper从不同的角度进行建模,比如使用分布特征与pattern特征交叉验证,或是只考虑改进词本身的预训练向量,或是重点考虑候选词与目标同义词集合的分布差异。此处在下一节具体展开讨论。

    参考论文:
    1. Multi-Distribution Characteristics Based Chinese Entity Synonym Extraction from The Web (使用模板配对)
    2. Hierarchical Multi-Task Word Embedding Learning for Synonym Prediction (使用词向量方法)
    3. SurfCon: Synonym Discovery on Privacy-Aware Clinical Data
    4. Automatic Synonym Discovery with Knowledge Bases
    5. Mining Entity Synonyms with Efficient Neural Set Generation

    6. 扩展阅读:Automating the expansion of a knowledge graph

    在图谱的开发和应用上,有两个限制知识图谱的因素,图谱的规模局限性和新词汇的跟新延迟性。本文介绍了一种知识图谱的自动扩充方法,用以及时跟进新出现的词汇,把新词加入到知识图谱中。也可以理解成是对知识图谱的版本管理。

    本文把新加入的词分为新词新意和旧词新意。通过爬取社交媒体的数据获取新词。在通过实体抽取等方法抽取新词的解释,关系(关系抽取)等知识。生成一个知识子图,再把子图融合到主知识图谱中。本文使用了ConceptNet作为数据集进行了验证。

    在模型选取上,本文使用了Multilingual BERT作为模型处理多语言的语义文本,使模型无语言依赖性。这样,支持从多语网站爬取对新词的信息。模型包括三个部分:爬虫,语义分析器,知识挖掘模型。

    实验部分的评估方法:

    1. 使用了对知识图谱扩展后的具体例子,说明新的KG中包含了新词。
    2. 对新KG做数据分析,给出metadata,证明新KG中有更多的实体出现。
    3. 对语义分析,给出一种消融实验,验证每个模块的作用。

    小结

    文章分别介绍了在不同图谱规模下,不同的图谱融合算法,我们可以根据当下的数据情况进行选择。当图谱规模较小时,我们还是推荐上文介绍的小规模图谱融合的方法,可解释性高,算法简单,同时可达到不错的效果。当图谱规模非常大时,图谱自身就是一个可解释性非常高的模型,此时采用层次聚类或知识表示抽象化图谱结构,才能达到较好的效果。在实际应用中,需要根据不同的业务建立不同的图谱,散落在各业务线的数据,永远只是服务于自身业务,并不能发现业务之间的潜在联系。为了实现跨业务语义解析和推荐,图谱融合是关键,需要根据不同业务的特点选择不同的融合算法,复杂不一定是最好。从以上研究中可以看到,如何丰富并更好的抽象新实体的外部语义环境和其在图谱中的关联结构,依然是今后研究的重点。

    Ref:
    多知识图谱的融合算法探索
    如何扩充知识图谱中的同义词

    展开全文
  • 知识图谱数据融合

    千次阅读 2019-11-27 16:32:52
    知识图谱的实体往往面临数据融合的问题,因为知识图谱的数据源可能有多个,在不同数据源有对同一实体的不同表达,即使在同一个数据源里也可能存在这种情况,需要通过一定手段将其合并。 知识图谱数据融合过程通常...

    知识图谱的实体往往面临数据融合的问题,因为知识图谱的数据源可能有多个,在不同数据源有对同一实体的不同表达,即使在同一个数据源里也可能存在这种情况,需要通过一定手段将其合并。

    知识图谱的数据融合过程通常如下:

     

     

    知识融合流程图

    1,数据预处理:输入的原始数据源往往存在脏数据和格式不一致数据,需要进行人工进行规整,这一步过程是实际工程中比较费时但是作用很大的工作,没有好的数据处理后续的算法效果往往也不会好。

    2,数据分组:我们的目标是找出所有相同的实体,如果不进行数据分组,我们的计算量会是两两比较,对于海量数据的时候计算量过于庞大,所以要事先进行分组。分组的效果既要保证能够比较均衡地分而治之,又要尽量保证不要漏分。

    常见的方法包括通过数据本身的类目信息进行分组,比如在融合商品数据的时候可以根据商品的类目信息进行分组;或者根据数据的关键信息,比如在融合人物数据的时候可以根据其出生日期进行分组。

    3,属性相似度:经过上一步的分组,每个分组下的实体是有可能是相同的实体的集合,接下来需要对实体的属性进行计算相似度,有了实体各个属性的相似度才容易进行下一步的实体相似度计算。

    常见的方法包括:

    3.1)纯字符串的:计算编辑距离,levenshtein distance,计算字符串A通过插入/删除/替换操作变换到字符串B的距离;

    3.2)集合类型:计算Jaccard相似度,计算集合交集个数/集合并集个数;

    3.3)文档类型:通过tf-idf找出每篇文档的关键词,再通过余弦相似度计算关键词集合的相似度。

    4,实体相似度:

    有了实体各个属性的相似度,可以来计算实体相似度了。常见的方法分为两种:

    4.1)回归:通过实体各个属性的相似度,直接判断实体的相似度。可以直接对各个属性相似度拍权重,也可以通过逻辑回归的方式计算出各个属性相似度的权重。

    4.2)聚类:直接通过聚类操作,计算出相似实体。可以进行层次聚类,相关性聚类,Canopy+K-means聚类等。

    展开全文
  • 知识图谱本质上是语义网络,是一种基于图的数据结构。二、节点种类常见的知识图谱主要包含了三种节点:实体、概念、属性A.实体:具有可区别性并且独立存在的某种事物,如中国、张三,是知识图谱中最基本的元素;B....

    一、定义

    知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网信息表达成接近人类认知世界的形式,更好的组织、管理、理解互联网海量信息。

    知识图谱本质上是语义网络,是一种基于图的数据结构。

    二、节点种类

    常见的知识图谱主要包含了三种节点:实体、概念、属性

    A.实体:具有可区别性并且独立存在的某种事物,如中国、张三,是知识图谱中最基本的元素;

    B.概念:具有同种特性的实体构成的集合,如国家、民族等;

    C.属性:用于区分概念的特征,不同的概念的属性;不同的属性值类型对应于不同类型的边。有对象属性、数据属性等;

    三、应用

    一般应用于语义搜索、智能推荐、智能问答、可视化决策支持

    四、步骤

    将知识变成图谱需要五个步骤:知识表示与建模、知识获取、知识融合、知识图查询和推理计算、知识应用技术。

    五、简单的demo

    https://zhuanlan.zhihu.com/p/31726910

    该文章给出了简单的图谱模型,并引出了机器的先验知识的缺失、知识图谱、以及为什么需要知识图谱,下图为球星罗纳尔多和他的关系图谱,可以初步简单的建立一个图谱的概念。

    在下图中我们可以看到,罗纳尔多和巴西为实体,180cm、98kg为属性,国家、体重这些是抽象出来的概念。

    bc357653318f8a24386a5672abd25b5f.png
    罗纳尔多的知识图谱,可以简单的理解一下图结构和三要素之间的联系(实体、概念、属性)

    7f228648ccd2cd689e556b35a5b40cc3.png

    a0e0de35ab776b92a693d5483823bb55.png
    展开全文
  • 作者: @ZhaoYue DXY 前言在过去一年的文章中,我们讨论了很多关于知识图谱...随着业务深入,很快会发现单个业务知识图谱因为规模小,在文本语义理解类任务上非常受限,此时需要将多个知识图谱进行融合,打通知识...
  • Data matching: concepts and techniques for record linkage, entity resolution, and duplicate detection
  • 知识图谱-知识融合

    2021-02-07 11:18:38
    1.什么是知识图谱融合 1.1 概念&术语 本体层:描述特定领域的抽象概念、属性、公理 实体层:描述具体的实体对象,实体间的关系,包含大量的事实以及数据 1.2 为什么要进行知识图谱融合 本体层能够解决特定...
  • 其次,提出了基于空间关系的知识图谱构建技术流程,重点研究了流程中的空间关系抽取和多源地理数据融合问题,并构建了面向地理空间数据的知识图谱;最后,论述了知识图谱在地理空间领域的应用方向。研究可以促进地理...
  • BERT融合知识图谱之模型及代码浅析

    千次阅读 2020-03-16 20:11:25
    1)特征很少:训练数据的文本很短,3~5个字符 2)类别很多:>3000个 3)部分文本包含某垂直领域中具有长尾特性、不易理解的知识 本项目目前的SOTA效果基于BERT实现,但是由于BERT没有有效融入外部知识,因此...
  • 一、语义网络  语义网络是由Quillian于上世纪60年代提出的知识表达模式,其用相互连接的节点和边来表示知识。节点表示对象、概念,边表示节点之间...2. 多源数据融合比较困难,因为没有标准。 3. 无法区分概念节...
  • 知识图谱—知识融合

    2020-03-17 15:51:21
    知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知...
  • 知识图谱嵌入知识图谱(KG)是由实体 (节点) 和关系 (不同类型的边) 组成的多关系图。每条边都表示为形式 (头实体、关系、尾实体) 的三个部分,也称为事实,表示两个实体通过特定的关系连接在一起。虽然在表示结构化...
  • 在“格式化编辑”页签的编辑框...示例以一个电影实体为例,对属性“name”相似的数据进行知识融合判断,当属性“production_region”的编辑距离大于0.04,且属性“name_en”的Jaccard距离大于0.05时,数据进行融合。...
  • 知识图谱】知识融合

    千次阅读 2019-09-02 17:21:10
    文章目录一、知识融合1、基本概念2、数据层的知识融合(1)不同KG的知识融合(2)不同知识库的知识融合(3)不同来源数据知识融合(4)知识在线融合3、Schema层的知识融合4、技术及其挑战5、相关比赛——OAEI二、...
  • 多个公司推出知识图谱平台产品,比如说南京柯基数据知识图谱平台将知识图谱的各项技术融合到平台中,使得知识图谱构建效率极大提高,成本极大降低。随着知识图谱平台化产品的普及,大数据时代向...
  • E. 知识图谱 --- 融合

    2020-11-15 14:27:12
    知识图谱融合 概述 知识图谱包含: 描述抽象知识的本体层:本体层用于描述特定领域中的抽象概念、属性、公理 描述具体事例的实例层:用于描述具体的实体对象、实体间的关系,包含大量的事实和数据 知识融合 ...
  • 知识图谱

    2020-02-14 12:05:31
    目录 主要总结知识专栏知识图谱 为什么需要知识图谱?什么是知识图谱? A knowledge graph consists of a set of interconnected typed entities and their attributes. ...多源数据融合比较困难,因为没有标准。 ...
  • 数据下载:关注微信公众号【思知机器人】回复【数据下载】知识图谱知识图谱融合了两千五百多万的实体,拥有亿级别的实体属性关系。知识图谱API1. 获取歧义关系(mention -> entity)输入名称(mention)返回对应实体...
  • 知识图谱不仅包含具体的实例知识数据,还包括对知识数据的描述和定义。该部分对数据进行描述和定义的“元”数据被称为知识体系(Schema)或本体(Ontology)。 知识融合主要方法:框架匹配和实例对齐。 一、知识体系...
  • 在灾害场景下,信息来源广泛、体量...本文探讨了本体构建和知识图谱构建的关键技术,提出了基于知识图谱的灾害场景信息融合方法,并给出了应用案例。本研究有助于提升灾害场景的态势感知能力,实现灾害应急的智能化水平。
  • 内容包括原PPT、实体对齐部分的论文、知识融合部分的论文。 整理论文也不容易~~~ # 知识图谱融合方法 CCF 学科前沿讲习班第 108 期...知识图谱可以由任何机构和个人自由构建,其背后的数据来源广泛、质量参差不齐,导
  • 本文参考微信公众号- 微软研究院AI头条-上面的部分文章,仅用于参考学习笔记,想...使用如此少量的已观测数据来预测大量的未知信息,会极大地增加算法的过拟合(overfitting)风险;二,对于新加入的用户或者物品,由.
  • 首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库,然后,利用实体对齐和实体链接方法进行知识获取和融合,最后,搭建知识图谱应用平台,提供查询和统计等操作。在实体对齐...
  • 指代消解四、知识图谱融合五、知识图谱存储1. RDF存储与图数据库的区别2. 常用图数据库六、知识图谱应用七、搭建案例1. 数据收集与预处理2. 知识图谱设计 一、知识图谱简介 知识图谱是Google公司在2012年提出的概念...
  • 多个公司推出知识图谱平台产品,比如说南京柯基数据知识图谱平台将知识图谱的各项技术融合到平台中,使得知识图谱构建效率极大提高,成本极大降低。随着知识图谱平台化产品的普及,大数据时代向...
  • 数据获取信息获取知识融合知识处理知识图谱的具体构建技术实体关系识别技术(Named Entity Recognition)关系抽取技术(Relation Extraction)实体统一(Entity Resolution)指代消解(Disambiguation)知识图谱的...

空空如也

空空如也

1 2 3 4 5 ... 10
收藏数 190
精华内容 76
关键字:

数据融合知识图谱