精华内容
下载资源
问答
  • 1.1 知识图谱的基本概念 分为狭义与广义概念。 狭义的知识图谱特指一类知识表示,本质上是一种大规模语义网络。 广义的知识图谱是大数据时代知识工程一系列技术的总称,在一定程度程度上指代大数据知识工程这一新兴...

    1.1 知识图谱的基本概念

    分为狭义与广义概念。

    狭义的知识图谱特指一类知识表示,本质上是一种大规模语义网络。

    广义的知识图谱是大数据时代知识工程一系列技术的总称,在一定程度程度上指代大数据知识工程这一新兴学科。

    1.1.1 知识图谱的狭义概念

    1. 知识图谱作为语义网络的内涵

    知识图谱是一种大规模语义网络,包括实体(entity)、概念(concept)及其之间的各种语义关系。

    要点

    1. 其是语义网络,这是知识图谱的本质;
    2. 其是大规模的,这是知识图谱与传统语义网络的根本区别。

    语义网络是一种以图形化的(Graphic)形式通过点和边表示知识的方式,其基本组成元素是点和边。语义网络的点可以是实体、概念和值,如下图所示。
    在这里插入图片描述
    (1)实体。实体有时也会被称作对象(Object)或实例(Instance)。
    (2)概念。概念又被称为类别(Type)、类(Category或Class)等。
    (3)。每个实体都有一定的属性值。

    知识图谱中的边可以分为属性(Property)和关系(Relation)两类。关系可以认为是一类特殊的属性,当实体的某个属性值也是一个实体时,这个属性实质上就是关系。

    语义网络中的边按照其两端节点的类型可以分为概念之间的子类(subclassof)关系、实体与概念之间的实例(instanceOf)关系,以及实体之间的各种属性关系,如上图所示。

    1. 知识图谱与传统语义网络的区别

    (1)规模巨大。知识图谱具有巨大的规模。
    (2)语义丰富。两个方面:知识图谱富含各类语义关系;语义关系的建模多样。
    (3)质量精良。大数据多源特性使得我们可以通过多个来源验证简单事实。
    (4)结构友好。知识图谱通常可以表示为三元组,这是典型的图结构。三元组可以借助RDF(Resource Description Framework)进行表示。

    知识图谱构建与应用独特挑战
    (1)高质量模式缺失。
    (2)封闭世界假设不再成立。
    (3)大规模自动化知识获取成为前提。

    1. 知识图谱与本体的区别

    本体刻画人们认知一个领域的基本框架,而知识图谱富含的是实例以及关系实例。

    1.1.2 知识图谱的广义概念

    知识图谱作为一种技术体系,指代大数据时代知识工程的一系列代表技术的总和。

    1.2 知识图谱的历史沿革

    1.2.1 知识图谱溯源

    1. 传统知识工程

    知识工程属于符号主义。符号主义认为知识是智能的基础。传统人工智能专家认为人工智能的核心问题是知识表示、推理和应用

    传统知识工程所成功解决的问题普遍具有规则明确、应用封闭的特点,比如几何定理证明。

    传统的专家系统需要借助大量的人力参与,如下图所示
    在这里插入图片描述

    1. 传统知识工程的局限性

    (1)隐形知识与过程知识等难以表达
    (2)知识表达的主观性的不一致性
    (3)知识难以完备
    (4)知识更新困难

    1.2.1 大数据知识工程

    1. 互联网与大数据应用催生了知识图谱

    互联网应用特点:

    • 规模巨大
    • 精度要求相对不高
    • 知识推理困难
    1. 大数据时代给知识图谱的发展带来了新机遇
      (1)数据、算力和模型的飞速发展使得大规模自动化知识获取成为可能。
      (2)众包技术使得知识的模块化验证成为可能。
      (3)高质量用户生成内容提供了高质量知识库来源

    1.3知识图谱的研究意义

    1.3.1 知识图谱的认知智能的基石

    (1)知识图谱使能机器语言认知
    实现机器对自然语言的理解所需要的条件:

    • 规模必须足够巨大才能理解不同的实体和概念
    • 语义关系必须足够丰富才能理解不同的关系
    • 结构必须足够友好才能为机器所处理
    • 质量必须足够精良才能让机器对现实世界产生正确的理解

    (2)知识图谱赋能可解释人工智能
    在这里插入图片描述
    (3)知识图谱有助于增强机器学习的能力
    在这里插入图片描述

    1.3.2 知识引导成为解决问题的重要方式之一

    当下,计算机解决问题主要采用数据驱动的方式,也就是从样本数据中建立统计模型,挖掘统计规律来解决问题。

    单纯依赖统计模式难以有效解决很多实际问题,并且单纯的数据驱动方式仍然面临效果的“天花板”,如下图所示。
    在这里插入图片描述
    实际应用越来越要求将数据驱动和知识引导相结合,以突破基于统计学习的纯数据驱动的效果瓶颈。

    1.4 知识图谱的应用价值

    1.4.1 数据分析

    在这里插入图片描述

    1.4.2 智能搜索

    在这里插入图片描述

    1.4.3 智能推荐

    在这里插入图片描述

    1.4.4 自然人机交互

    在这里插入图片描述

    1.4.5 决策支持

    在这里插入图片描述

    1.5 知识图谱的分类

    首先认识数据、信息和知识之间的联系和区别

    • 数据是对客观世界的符号化记录
    • 信息是被赋予意义的数据
    • 知识的人类对信息的提炼和总结的结果,是人类认识世界的结果

    1.5.1 知识图谱中的知识分类

    (1)事实知识
    (2)概念知识
    (3)词汇知识
    (4)常识知识

    1.5.2 典型知识图谱

    在这里插入图片描述

    展开全文
  • 知识图谱概念与技术.pdf
  • 知识图谱狭义概念是一类语义网络,语义网络只是各种知识表示中的一种。 知识图谱与自然语言处理关系密切,体现在: 知识提取的一个重要途径是从自由文本中抽取,而文本信息抽取是自然语言处理的核心问题之一。 知识...

    2.1 概述

    知识图谱与知识表示的关系:

    知识图谱狭义概念是一类语义网络,语义网络只是各种知识表示中的一种。

    知识图谱与自然语言处理关系密切,体现在:

    1. 知识提取的一个重要途径是从自由文本中抽取,而文本信息抽取是自然语言处理的核心问题之一。
    2. 知识图谱构建好之后通常可以用作支撑自然语言理解的背景知识。

    知识图谱与数据库的关系:

    知识图谱在构建好之后和进入应用之前还需要实现对图谱数据的高效管理,包括语义丰富的查询表达、高效的查询处理、系统化友好的图谱数据管理等。

    知识图谱与机器学习的关系:

    在知识图谱应用的整个生命中周期中,多个环节都与机器学习有关。

    知识图谱与计算机子学科(知识表示、自然语言处理、数据库、机器学习)关系如下图所示。
    在这里插入图片描述

    除了与计算机各子学科有着较强的关联外,知识图谱与语言学以及认知科学等学科也有密切的关联。

    2.2 知识表示

    2.2.1 基本概念

    知识必须经过合理的表示才能被计算机处理。知识表示是对现实世界的一种抽象(Abstract)表达。评价知识表示的两个重要因素是:

    • 表达能力(Expressiveness)
    • 计算效率(Efficiency)

    知识的表示方式主要分为符号表示数值表示。在实际应用中,根据不同的学科背景,人们发展了基于图论、逻辑学、概率论的各种知识表示。

    • 语义网络、知识图谱、RDF(Resource Description Framework)、实体关系图等均是基于的知识表示。

    • 逻辑学产生了包括一阶谓词逻辑以及产生式规则在内的知识表示。

    • 概率论引进基于图论和逻辑学的知识表示,发展出了概率图模型及概率软逻辑等。

    • 图论、概率论与逻辑学的交叉领域又进一步发展出了马尔科夫逻辑网。

    基于不同学科发展出来的知识表示如下图所示:
    在这里插入图片描述
    知识图谱较为常见的表示方式是基于图的表示方式。为了能让计算机有效地处理和利用知识图谱,还需要有知识图谱的数值化表示。

    2.2.2 知识图谱的图表示

    1. 基于图的表示

    图在可视化时,通常用原点表示节点,用线表示节点之间的关系,如下图(a)所示。图的另一种表示形式是邻接矩阵(Adjacency Matrix),如下图(b)所示。
    在这里插入图片描述

    2. 基于三元组的表示

    RDF是用于描述现实中资源的W3C标准,他说描述信息的一种通用方法,使信息能被计算机应用程序读取并且理解。

    每个资源的一个属性及属性值,或者它与其他资源的一条关系,都可以表示成三元组,其形式如下:

    • 主体(Subject)、谓词(Predicate)及客体(Object)。如:<亚里士多德,isA,科学家>
    • 主体(Subject)、属性(Property)及属性值(Property Value)。如:<亚里士多德,出生地,Chalcis>

    利用这些属性和关系,大量资源就能被连接起来,形成一个大规模RDF知识图谱数据集。因此,一个知识图谱可以视作三元组的集合。示例如下图:
    在这里插入图片描述

    2.2.3 知识图谱的数值表示

    基本的思路是将知识图谱中的点和边表示成数值化的向量。不同的向量表示在实际应用中有着不同的效果,如何为知识图谱中的实体与关系求得最优的向量化表示,是当前知识图谱表示学习所关注的核心问题。

    学习实体和关系的向量化表示的关键是,合理定义知识图谱中关于事实(即三元组<h,r,t>)的损失函数fr(h,t),其中h和t是三元组的两个实体h和t的向量化表示。在通常情况下,当事实<h,r,t>成立时,我们期望fr(h,t)最小。在建立相应优化目标之后,通常使用SGD(Stochastic Gradient Descent,随机梯度下降)等算法学习模型中的相关参数。

    1. 基于距离的模型

    其代表模型是SE。基本思想是当两个实体属于同一个三元组<h,r,t>时,它们的向量表示在投影空间中也应该彼此靠近。因此,定义损失函数为向量投影后的距离:
    在这里插入图片描述其中,SE模型使用形式较为简单的1-范式。矩阵Wr,1和Wr,2用于三元组头实体向量h和尾实体向量t的投影操作。

    2. 基于翻译的模型

    (1)TransE模型。TransE模型是基于翻译思想的模型。TransE认为在知识库中,三元组<h,r,t>可以看成头实体h和尾实体t利用关系r所进行的翻译。条件是使h+r≈t,其损失函数如下:
    在这里插入图片描述
    基本思路如下图所示:

    在这里插入图片描述
    (2)TransH模型。TransE模型中的h+r≈t假设太强,导致在自反、一对多、多对一等关系下实体向量学习的错误。比如,对于自反关系r,<h,r,t>和<t,r,h>同时成立,导致h=t

    为了解决上述问题,TransH模型放宽了h+r≈t这一严格假设,只要求头尾实体和关系r相对应的超平面上的投影彼此接近即可。其基本思路如下图:
    在这里插入图片描述
    (3)TransR模型。在TransE模型和TransH模型中,实体和关系都在相同的空间中进行表示。这种做法无法区别两个语义相近的实体在某些特定方面(关系)上的不同。因此,TransR模型提出为每个关系构造相应的向量空间,将实体与关系在不同的向量空间中分开表示。其思想如下图所示:
    在这里插入图片描述
    (4)TransD模型。TransD模型认为映射函数应与实体、关系同时相关。其基本思想如下图:
    在这里插入图片描述

    2.2.4 其他相关知识表示

    1. 逻辑谓词

    命题是一个非真即假的陈述。命题可以通过谓词来表示,谓词的一般形式是P(x1,x2,…,xn)。其中,P是谓词的名称,xi是谓词的项。xi既可以是常量也可以是变量。

    在谓词前还可以将否定、析取、合取、蕴含、等价操作构成符合命题。

    为了进行一步刻画谓词和个体之间的关系,在谓词逻辑中引入了:全称量词和存在量词

    2. 产生式规则

    产生式规则常用于表示事实与规则,以及相应的不确定性度量。产生式规则是一种形如“条件-动作”的规则,基本形式如下:IF <条件> Then <结果>

    产生式规则与逻辑蕴含有着相同的基本形式,但是在语义上,逻辑蕴含P=>Q只能表达如果命题P为真则Q一定为真。产生式规则后件不仅可以为命题,还可以是动作。

    3. 框架

    框架表示是以框架理论为基础发展起来的一种结构化的知识表示

    框架是一种描述所论对象(事物、时间或概念)属性的数据结构。其基本结构和示例如下图:
    在这里插入图片描述

    4. 树形知识表示

    树形知识表示可以用于表达复杂条件组合下的决策与动作。决策树就是典型的树形知识表示。其根节点和中间节点对应一个属性,相应属性分类的样本集合被划入对应的子节点。叶节点表示最终的分类结果。其例子如下图(a)所示。

    另一类常见的树形知识表示是故障树。故障树是一种树形的逻辑因果关系图。在故障树中,父节点是产生故障的结果,也称为输出事件;子节点是产生故障的原因,也称为输入事件。为了能够表达因果逻辑关系,故障树利用逻辑符号(“与”、“或”)连接子节点和父节点。其例子如下图(b)所示。
    在这里插入图片描述

    5. 概率模型(Probalistic Graphical Model)

    贝叶斯网络,也被称为信念网络或者有向无环图模型,是一种概率图模型,也是不确定知识表示的典型方法。一个贝叶斯网络就是一个有向无环图,其中节点是一组随机变量X={X1,X2,…,Xn},节点之间的有向边(由父节点指向子节点)代表随机变量之间的影响。

    每个随机变量Xi仅依赖于其父亲节点集Parent(Xi),其例子如下图:
    在这里插入图片描述
    贝叶斯网络的两个基本问题是学习和推理。学习是指如何从数据中习得最优的贝叶斯网络模型。推理是指给定贝叶斯网络和其中一些随机变量的取值设置,推断其他随机变量分布。

    贝叶斯网络的优点

    • 能够准确表达决策过程中的不确定性。
    • 能够有效的将专家的先验知识与数据驱动的学习方法进行融合。

    有向概率图模型的简化版本是无向概率图模型,又被称作马尔科夫随机场(Markov Random Field,MRF)

    6. 马尔科夫随机链(Markov Chain,MC)

    马儿可夫链是一种满足马儿可夫性离散随机变量集合。所谓的马儿可夫性(Markov Property),是指某个随机变量序列的下一个状态仅仅与当前的状态有关,而与之前的状态没有关系。其例子如下图所示。
    在这里插入图片描述

    7. 马尔可夫逻辑网

    马尔可夫逻辑网(Markov Logic Network,MLN)是将一阶逻辑和马尔可夫随机场结合起来的模型。一个典型的MLN如下图所示:
    在这里插入图片描述
    MLN可以视作定义具体的MRF(马尔可夫随机场)的模板

    2.3 机器学习

    机器学习(Machine Learing)是一种刚从观察数据(样本)中寻找规律,并且学习到的规律(模型)对未知或无法观测数据进行预测的方法。

    2.3.1 机器学习的基本概念

    每一个样本数据中的观测数据均需要有合理的表示才能被计算机有效处理,这种表示被称为特征(Feature)。选择特征是使用机器学习解决问题的重要步骤,即设计者需要确定选择数据中哪些信息来表示样本。

    机器学习的基本任务就行学习一个最优的预测函数F:X->Y,我们期望模型具有较强的泛化能力,也就是说从训练集上习得的模型在未见的测试集上也能取得较好的预测结果。提升机器学习的泛化能力是机器学习的核心任务。

    在统计学习中通过以下两点提升机器学习的泛化能力:

    • 专家总有一定的关于预测模型的先验知识。因此可以预先设定目标所在的范围,也就是设定模型函数的函数族
    • 需要设计评测指标以评估不同参数下模型的优劣。一个直接的想法是,设计一个损失函数,用于度量函数f的预测误差。

    一般而言,机器学习模式的损失函数都是可导的,因此最小化损失函数的优化问题可以使用梯度下降法进行求解。

    机器学习的三个关键要素如下

    • 模型选择,也就是预测函数F
    • 优化准则,也就是设计的损失函数
    • 优化方法,也就是优化问题求解过程

    根据训练集中每个样本的标签是否已知分为:

    • 监督学习。训练集中每个样本的标签都是已知的。
    • 半监督学习。训练集中包含少量的标注数据和大量未标注数据。
    • 无监督学习。训练集中每个样本数据的都没有标注。

    2.3.2 深度学习概述

    传统机器学习的局限性较为集中的体现在以下两点:

    • 传统机器学习中的样本特征主要靠专家经验或特征转换的方法来获取
    • 传统机器学习一般只能使用较为简单的函数形式(比如线性函数)表达模型,而而模型的表达能力对于机器学习的效果来说至关重要,简单的模型难以表达复杂的函数映射。

    深度学习的出现一定程度上弥补、突破了浅层学习的上述局限性。深度学习是指基于深度神经网络的一类机器学习模型。深度神经网络在传统浅层神经网络的基础上引入了更多的中间层,因而是具有较深层次的神经网络模型。一个深度神经网络由输入层——中间层——输出层的机构构成,其中间层本质上完成了自动特征提取。深度神经网络一方面降低了专家定义特征的代价,另一方面可以捕捉隐性特征,其在图像、语音、文件等数据的特征提取中往往能取得较好的效果。此外,引入多个中间层的深度神经网络可以表达复杂的非线性函数映射。深度神经网络示意图如下图所示。
    在这里插入图片描述
    从函数的学习角度来看,深度学习通过复合多个简单函数来构造复杂函数,模型所需训练参数由每个简单函数中的参数组成,即:
    y=F(x)=FL(...F3(F2(F1(x))))y=F(x)=F_L(...F_3(F_2(F_1(x))))
    这样一个L层的函数可以将输入的底层特征x经由F1F2......F_1、F_2......多次转换,产生深度的特征表示,并最终实现从输入到输出的复杂映射(在大多数情况下都是非线性映射)。

    深度学习中常见的函数形式是带激活函数的全连接层,即Fi(x)=σ(Ax+B)F_i(x)=\sigma(Ax+B),这里的σ\sigma可以选择tanh或Sigmoid等多种非线性函数。

    深度学习网络有各种架构——从简单的线性模型到卷积神经网络——不同的深度神经网络模型都可以视作从输入数据学习有效特征表示的过程。而特征学习得关系在于,用有限的参数表达有效的特征。

    2.3.3 卷积神经网络(CNN)

    卷积神经网络是一类以卷积层(使用卷积操作代替全连接层所使用的的矩阵乘法操作)作为网络的基本元素的深度神经网络,一般常用于处理图像数据。

    以图像处理为例,全连接神经网络模型有两个弊端:

    • 参数太多,更容易产生过拟合。
    • 没有使用局部不变性。

    卷积层的引入的CNN的根本特征。卷积层使用一个相对于原始数据而言规模很小的卷积核(有时又叫做过滤器)作为参数。卷积操作如下图所示,因此卷积操作能显著降低表示的复杂性。在CNN的卷积层之后,往往还跟着一个池化层。池化层使用池化操作进一步降低表示的复杂性。
    在这里插入图片描述
    CNN的结构通常由输入、卷积层、池化层以及全连接层构成。CNN模型的特点是稀疏连接、参数共享。此外,CNN中的卷积运算以及池化操作能够实现对于图像处理所需特定变换(比如平移)的不变性。

    2.3.4 循环神经网络(RNN)

    循环神经网络(Recurrent Neural Network,RNN)是一类专门用于处理序列数据的神经网络。RNN得以实例化的根本原因也在于参数共享。RNN利用序列数据的性质实现了序列上不同时间点的权重共享。因此,它使用了一类特殊的函数来代替全连接层,大大减少了参数量,同时也使模型更好的利用序列性质。RNN中的“循环”本质上是指数据在t时刻的状态取决于其前序序列,这在语音与文本数据处理中是必要的。

    给定一个输入序列x1:T=(x1,x2,...,xT)x_{1:T}=(x_1,x_2,...,x_T),循环神经网络通过公式ht=f(ht1,xt)h_t=f(h_{t-1},x_t)更新带反馈边的隐藏层参数。在这种情况下,RNN处理序列的当前元素时充分考虑了序列中前序状态中的元素。隐藏单元hi1h_{i-1}被称作记忆或状态,它是由序列的前i1i-1个元素生成的。

    RNN的优点在于不管输入序列的长短,函数ff都可以应用于序列的每个元素,即序列的每个元素都共享相同的参数。RNN示意图如下:
    在这里插入图片描述

    2.3.5 注意力机制

    在深度神经网络中引入注意力机制,使模型每一阶段的输出只需要根据输入的某些片段进行计算,而无需处理整个输入

    2.4 自然语言处理(NLP)

    自然语言处理(Natural Language Processing,NLP)的主要使命是自然语言的理解和生成。

    2.4.1 基本概念

    文本是知识图谱的数据来源,我们需要对其中的语句做各种处理。NLP可以在词法分析(Lexical Analysis)、语法分析(Syntactic Analysis)、语义分析(Semantic Analysis)以及语用分析(Pragmatic Analysis)等层面进行展开。NLP常见任务如下图所示。
    在这里插入图片描述

    • 断句一般通过标点符号。
    • 分词是指对文本进行词汇的切割。
    • 词性标识是给句子中的每个词标记相应的词性。
    • 词形还原是指将某一单词还原至原型。
    • 对于分析任务来说起噪音作用的被称为停用词
    • 依存句法分析旨在识别句子的语法结构。
    • 命名实体识别是识别句子的词序列中具有特定意义的实体,并将其标注为人名、机构名、日期、地名、时间和职位等类别的任务。
    • 共指消解旨在识别句子中同一个实体的不同表述。
    • 语义角色表述是将句子中的某些词或短词标注为给定语义角色的过程。

    2.4.2 文本的向量表示

    1.离散表示

    独热表示:在语料库中,为每个词做一个索引编码,根据索引编码进行表示。比如,针对“I love you”为每个词做索引编码。假设带索引编码的字典为{“I”:1,“love”:2,“you”:3},那么每个单词的独热表示为:
    I:[1,0,0]I:[1,0,0]love:[0,1,0]love:[0,1,0]you:[0,0,1]you:[0,0,1]
    词袋表示:词袋表示常用于文本表示,直接将文本中单词的独热向量相加即可。比如上面的例句,其词袋表示为[1,1,1][1,1,1]

    2. 连续表示

    连续表示则可以更好的捕捉词与词之间的语义关系。连续表示形式最常用的是分布式表示。分布式表示的思想是将语言的语义或语法特征分散存储在一个低维、稠密的实数向量中。分布式的向量往往通过建立自然语言的预测模型学习而得。代表性模型有Word2Vec的Skip-gram模型

    Skip-gram模型的基本思想是习得合理词向量,使得利用词向量准确预测上下文的概率尽可能高。

    展开全文
  • 文章目录关于知识图谱知识图谱概念知识图谱与异质网络知识图谱与知识库知识图谱构建研究背景知识图谱构建知识图谱的构建流程知识图谱本体构建知识图谱构建核心步骤实体消岐知识图谱关系补全知识图谱关系推理知识...

    关于知识图谱

    知识图谱的概念

    首先我们来明确知识的概念,知识对于人类来说很抽象,随便人脑中一条有用的信息就可以认为是知识,例如:中国的首都是北京,这便是知识。

    在人类发明文字之前,知识都是通过语言世代相传。而当人类发明文字之后,壁画、陶器、书本都是知识传递和传播的载体。到了现在,知识可以存储在硬盘里,存储在数据库中。

    但这些方式都存在着或多或少的问题,一是它们对于人类来说不直观,不能一目了然的展现知识的结构与含义,帮助人类快速理解知识;二是,这些知识的存储方式不便于计算机进行有效的使用,非结构化的数据使用低效。现有的知识存储方式很难完美的同时做到这两点。

    于是知识图谱便应运而生,研究学者将哲学中本体概念引入到人工智能领域,并用本体来表示知识,使用语义网络作为翻译的中介语言。同时对语义网络中的边进行约束。它建立了客观事件事物的字符串描述到结构化语义描述的映射。

    同时,使用资源描述框架(RDF)来规定知识图谱的基本结构,用基本的三元组来表示知识,例如<北京,是首都,中国>,(头实体,关系,尾实体)该三元组便结构化的表示了上面我举例的知识,并且,该三元组也很好画成形象的网络,让我们一目了然的明确,奥~,北京是中国的首都。

    (也就是说,知识图谱中知识的基本单元是三元组,这是结构化的数据格式,同时,三元组能够表示图or网络中的节点和有向边,所以其能够轻松画成如下图所示的形象的网络,从而直观的展示出来)

    总的来说,知识图谱将我们脑海中抽象的知识给结构化、形象化的存储与展示出来,我更愿意把它理解成一个具有丰富结构信息、语义信息、与属性信息的数据库。它本身并不能够做什么,它只是数据的存储、结构化、与形象化展示的工具,它能够做什么最终还是取决于我们如何理解与使用它。(个人拙见,非官方理解)
    在这里插入图片描述

    知识图谱与异质网络

    可能有些读者分不清楚异质网络与知识图谱的区别。我之前也是纠结过一段时间,后来经过和老师沟通,并读了石川的异质信息网络分析与应用综述一文,弄清的二者的区别。

    一般来说,知识图谱和异质网络可以认作是一个东西,在石川的文章中,石川将知识图谱定义为丰富模式的异质网络,即其网络模式过于复杂过于丰富。
    而从复杂网络的角度来说,知识图谱和异质网络是有着区别的。

    • 复杂网络中的异质网络更加关注于结构信息
    • 知识图谱更加关注语义知识

    从拓扑结构来说,知识图谱可以被视为异质网络。
    本质上,知识图谱就属于异质网络的范畴。
    所以我们在理解知识图谱的时候,可以用网络的概念去理解。
    不过其中有些名词与定义不太一样,比如本体和网络模式(此处个人拙见,非官方)是一样的,但是叫法不一样。

    知识图谱与知识库

    在许多知识图谱的文章中,认为知识图谱是一个经过清洗的知识库,知识库由本体约束下的实例组成。那么就可以认为 知识图谱=本体+知识库。

    知识图谱构建研究背景

    目前的开源知识图谱还是不少的,国内外都有,例如Metaweb公司开发的freebase,维基媒体基金会开发的wikidata微软开发的concept graph,谷歌开发的knowledge graph,普林斯顿大学的wordnet,马克斯普朗克研究所的yago,国内知识图谱项目有openKG,百度的知识图谱项目。
    其中的freebase是一个常识性的知识图谱,而wordnet是个词语知识图谱。这两个是我平时进行异质网络分析所经常使用的,当然,这里的每个知识图谱都很大,我一般都使用FB-15K或者WN-18,它们是上述两个知识图谱的子集,规模要小很多,便于处理。

    在知识图谱研究的早期,知识图谱的构建主要依托于领域专家,那时是以专家为主的知识图谱阶段,知识来源都来自于领域专家,这种构建方式准确性很高,但是缺点也显然,效率低下,成本高,且知识数量实在有限。
    而如今,知识图谱的构建已经过度到了机器学习方法自动获取知识的自动化阶段。可以由专家定义好实体的类别,来从海量的数据中获取实体,以及实体之间的关系(知识)。其能够适应数据和知识爆炸性增长的现状。

    知识图谱的数据源现在多来自关系数据库、维基百科、基于语义网页标准的网页。

    知识图谱构建

    知识图谱的构建流程

    关于知识图谱的构建,主要根据其类别方向有所不同。

    通用知识图谱的话一般采用自底向上的构建方法,即利用一定的技术手段取得可能为目标实体或关系的内容,通过专家审核鉴定其置信度是否达标后,加入知识图谱中。
    领域知识图谱的构建通常先指定一个范围和目标,即预定义好实体的类别属性和关系的类别集合,将数据遵照定义好的类别提取出其中包含的数据加入知识库。

    知识图谱本体构建

    不去过多的讨论本体的概念,构建本体的目的是为知识图谱构建一个骨架,它是知识图谱构建的基础,它能够指导知识图谱的构建。
    在我看来,知识图谱的本体和异质网络的网络模式就是一个东西,都是指导知识图谱和异质网络构成的规则,或者说是准则。
    在这里插入图片描述
    例如上图的最上面便是本体,下面是本体下的具体实例。

    知识图谱构建核心步骤

    上面我们也介绍了知识图谱大概的概念,其是基于RDF协议框架的,数据单元是三元组<头实体,关系,尾实体>,例如下图是我从WN-18数据集中截图出来的。
    在这里插入图片描述
    我们要构建知识图谱,就是可以视作构建这些三元组。也就是三元组中的实体与关系。
    (上面我们提到了知识图谱本质上就是异质网络,所以我们可以认为实体就是网络中的节点,而关系就是边)

    于是,我们确定了实体和关系就是知识图谱中最基础的元素。
    则我们的主要目标转变成从海量数据中提取实体与关系。
    针对这俩个目标,有对应的技术或者说是步骤:命名实体识别与关系抽取。在知识图谱构建流程中,命名实体识别是为了抽取实体和实体属性,而关系抽取是为了得到实体间预定义好的关系。

    命名实体识别的目的简单来说就是识别实体,具体来说,是对预先给定的目标命名实体实体的定义和类别,鉴别出这些目标实体在文本中的具体位置,并进行类别判定。
    命名实体识别是偏向于nlp的概念。一般来说命名实体识别的研究主体分为实体类、时间类与数字类,其还可以往下细分。主要方法:

    • 有基于规则和字典的实体识别方法:手工定义规则,根据语言特征加以指定,怨言特征包括句子的句法信息,单词的词性、大小写、前后缀等。此外还会考虑利用已经构建好的相关词典。
    • 基于机器学习得到实体识别方法。
    • 基于深度学习的实体识别方法。

    关系抽取目的简单来说就是抽取关系,具体来说是根据给出的自然语言文本和文本中出现的实体,利用句子的语义信息推测出两个实体之间是否存在关系并对关系进行分类。
    举个例子:给定一个句子,天安门坐落于北京,以及实体天安门和北京,此时根据语义得到 位于 的关系。
    主要方法:

    • 基于规则模板的关系提取方法
    • 基于统计学习的关系抽取方法
    • 基于深度学习的关系抽取方法

    实体消岐

    实体消岐:命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体确定一个实体指称项所指向的真实世界实体。
    出现场景:多个数据源中提取的关系融合中,会遇到一些歧义的实体,需要对歧义的实体概念、实例进行消岐。
    在这里插入图片描述
    如图所示,同样一个jordan(名字),在不同的数据源中是不一样的人,左边是人工智能专家的论文合作图谱,而右边是声学研究专家的论文合作图谱。在从多个数据源中提取知识时,我们不能因为两个jordan名字一样,就认为他们是一个人,就把两者的信息融合在一起,这明显是错误的。

    知识图谱构建中会出现重名实体的情况,需要进行消岐。现有的消岐方法仅适用于文本中的实体消岐或小型知识库的实体消岐,需要大量的领域专家知识,人力成本很高,需要设计自动的面向大规模的知识图谱的实体消岐方法。
    现有解决方法:实体转换成语义实体嵌入向量,使用基于图的方法,根据实体嵌入向量相似度将文档中的实体连接到知识库实体上。

    知识图谱关系补全

    由于我们的数据不可能是绝对完整的,总会有些信息缺失,也就是知识缺失。
    此时需要根据现有的知识来挖掘出实体之间存在的潜在关系。
    知识补全也称作链接预测。
    在这里插入图片描述
    如图所示,根据现有的知识,我们可以推测出Charlotte是一个作家。

    关于现有的知识补全的方法,张量分解方法,语义嵌入方法,基于路径。
    其中我接触过的,也是十分经典的方法就是Trans家族了,我接触了其中最基础的TransE,这在我的博客中也有写过,有兴趣可以去读一下。TransE入口

    知识图谱关系推理

    知识推理是通过关系推理的方法来获得实体间的新知识
    根据已知的实体之间关系推测实体之间的潜在关系给知识图谱增加新的事实

    在这里插入图片描述
    如图所示,我们可以根据Tom和Mike是同一个公司,同一个导师,来判断出虚线部分的 他们是同学。

    这属于统计关系学习的子领域,其方法包括基于马尔科夫逻辑网络的推理、基于归纳逻辑变成的推理

    总的来说知识图谱的关系补全与知识图谱的关系推理,都算是知识补全或者知识推理的范畴。

    知识冲突解决

    随着时间,知识图谱不断演化,之前知识图谱中的某些事实是错误的。或者因为知识具有时效性,所以知识随时间变化,有时候会错误,甚至产生冲突,所以需要解决知识冲突问题。
    关于这一块,我不是太了解,所以不过多阐述了。

    知识图谱构建总流程

    在这里插入图片描述

    参考文献

    马江涛. 基于社交网络的知识图谱构建技术研究[D].战略支援部队信息工程大学,2018.
    许多. 社交网络中的情感知识图谱构建关键技术研究[D].上海师范大学,2020.
    王瑞. 网络舆情事件知识图谱构建技术及应用研究[D].华侨大学,2020.
    Ji S, Pan S, Cambria E, et al. A survey on knowledge graphs: Representation, acquisition and applications[J]. arXiv preprint arXiv:2002.00388, 2020.

    展开全文
  • 知识图谱概念 此系列文章为了应付期末考试而作的知识点整理。 1.全为概念学习,若想学习更加深入的知识,请移步专家区。 2.全手打,自己复习的同时,希望能帮到各位和我一样垂死挣扎的同学。 知识图谱概念以及其...

    知识图谱概念

    此系列文章为了应付期末考试而作的知识点整理。
    1.全为概念学习,若想学习更加深入的知识,请移步专家区。
    2.全手打,自己复习的同时,希望能帮到各位和我一样垂死挣扎的同学。

    知识图谱概念以及其基本原理
    ·旨在以结构化的形式描述客观世界中存在的概念、实体及其间的复杂关系。

    ·按照领域方面,知识图谱可以分类为:
    通用知识图谱:面向通用领域的“结构化的百科知识库”
    特定领域知识图谱:面向某一特定领域,可以看成是一个“基于语义技术的行业知识库”

    知识图谱的生命周期
    在这里插入图片描述
    语义网络的定义和原理
    ·语义网络是一种由有向图表示的知识系统,它将知识表示为相互连接的点和边,节点代表概念,边则代表概念之间的语义关系。
    ·语义网络中最基本的单元称为语义基元,可以用我们熟悉的三元组表示:
    <节点1,关系,节点2>
    例如,通过语义网络,可以把“李斯特出生于匈牙利雷汀”
    表示为:<李斯特,出生于,匈牙利雷汀>

    示例图:
    在这里插入图片描述

    自 2020/12/26 起爆肝更新…

    展开全文
  • 当时将知识图谱这个概念发表在这篇谷歌的 Official Blog:**《Introducing the Knowledge Graph:things,not strings》**(附在文章最后),想入门知识图谱的朋友,还是有必要去看一下最初的这篇博客。
  • 知识图谱 概念与技术 肖仰华等编著 中国工信出版集团 电子工业出版社 第四章 关系抽取 概述 基于学习的抽取 基于模式的抽取 开放关系抽取 概述 关系抽取-> 关系实例->知识图谱的边 ①人工 --&...
  • 知识图谱 概念与技术 肖仰华等编著 中国工信出版集团 电子工业出版社 第三章 词汇挖掘与实体识别 知识图谱中的实体识别基本思路: 当一个词汇在某个上下文表达的是某个预定义概念时,则是一个实体。 例如...
  • 知识图谱概念

    千次阅读 2018-05-28 16:38:07
    知识图谱(Knowledge Graph) 以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。最近,大规模知识图谱库的研究和应用在学术界和工业界引起了足够的注意力。知识图谱旨在描述...
  • 概念图谱(Concept Graph)是一类专注于实体和概念之间的isA关系的知识图谱。 从语言和认知两个角度,概念和图谱可以划分为 1)概念层级体系 (Taxonomy) 包括三种元素:实体 、概念 和 isA关系 ...
  • 读完可以回答以下问题: 1.概念图谱构建的要素是什么?...概念图谱作为一种重要的知识图谱也是如此。 如何构建大规模且高质量的概念图谱呢? 从大规模的文本中自动抽取isA关系,进而构建大规模概念图谱。如何提高质
  • 比如,对于知识图谱领域的学习,就要从对“关系提取”“词汇挖掘”“实体识别”等领域词汇的理解开始。一旦机器具备了领域词汇的识别能力,就可以代替人类从事一些简单的知识工作。可以说,对领域词汇的识别与理解是...
  • 知识图谱是一项综合性的复杂技术,其主要关注于知识的表示、知识图谱的构建以及应用这三个方面的研究内容。其中知识的表示即是指三元组,知识图谱的构建则主要涉及信息抽取的相关技术。
  • 读完可以回答以下问题: ...概念图谱作为知识图谱中的一种,专注于isA关系。因此,概念图谱补全中最重要的问题就是isA关系补全。 1. isA关系缺失的常见原因有哪些? 2.常用的isA关系补全方法有
  • 参考链接:什么是知识图谱 为什么需要知识图谱知识图谱的技术与应用 1.概念 在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源...
  • 读完可以回答以下问题: 1. 什么是关系抽取 2.关系抽取的方法有哪些? 3.常用的关系抽取的...它是信息抽取的子任务之一,也是知识图谱构建最重要的的子任务之一。 2. 关系抽取的方法 3.关系抽取常用的数据集
  • 知识抽取(Information Extraction,IE)旨在从非结构化和半结构化文本中抽取出结构化数据。一般而言,关系抽取产生的结果为三元组<主体(Subject),谓语(Predicate),客体(Object)>,表示主体和客体之间...
  • 远程监督是一种利用外部知识对目标任务间接实现监督的过程。 远程监督的基本假设:给定一个三元组<s,r,o>,则任何包含实体对<s,o>的句子都在某种程度上描述了该类实体对之间的关系。因此,可以将包含...
  • 读完可以回答以下问题: 1. 基于模式的关系抽取定义是什么? 2.基于模式的关系抽取方法及各自的优缺点有哪些? 3.基于模式的关系抽取的质量评估方式有哪些?...1.基于模式的关系抽取通过定义在文本中表达的字符、...
  • 第一章知识图谱概述 1.1基本概念 实体、概念、值 1.2知识图谱的历史沿革 百科、社区、论坛、问答平台等,大量高质量的用户生成内容 1.3知识图谱的研究意义 1.4应用价值 数据分析 智慧搜索 智能推荐 人机...
  • 知识图谱基础概念

    2020-09-12 11:45:35
    知识图谱 概念 知识图谱是一系列可以用来展示知识的发展和结构关系的图形,它充分采用可视化技术,不仅能够对知识资源和载体进行描述,同时还可以对知识以及知识之间的练习进行分析和描述。 构建流程 三个部分:...
  • 知识图谱基本概念

    2020-05-09 17:09:37
    目录知识图谱的基本概念知识图谱的狭义概念知识图谱的狭义概念知识图谱的广义概念功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一...
  • 知识图谱入门 知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和...
  • 知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱概念,与传统语义网络的区别知识图谱概念,与传统语义网络的区别狭义概念作为语义网络的内涵与传统语义网络的区别优点缺点与本体的区别广义概念 ...
  • 知识图谱基本概念梳理

    千次阅读 2019-02-27 11:32:59
    知识图谱技术综述》整理知识图谱基本概念前言部分知识图谱的定义和架构知识图谱的定义知识图谱的架构知识图谱的逻辑结构知识图谱的体系架构知识图谱的关键技术知识抽取知识表示知识融合知识推理参考文献 知识图谱...
  • 2、知识图谱的定义 3、知识图谱的架构 3.1知识图谱的逻辑结构 3.2知识图谱的体系架构 4、代表性知识图谱库 5、知识图谱构建的关键技术 5.1 知识提取 5.2 知识表示 5.3 知识融合 【导读】知识图谱技术是人工...
  • 知识图谱

    万次阅读 2020-01-12 22:51:24
    知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相关关系,即是对物理世界的一种符号表示 基本组成单位 实体-关系-实体,实体和相关属性-值对 研究价值 建立概念间的链接关系,从而以...
  • 知识图谱概念

    千次阅读 2018-08-19 14:34:06
    知识图谱(Knowledge Graph) 以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。   最近,大规模知识图谱库的研究和应用在学术界和工业界引起了足够的注意力。知识图谱旨在...
  • 知识图谱·概念与技术--第1章学习笔记--知识图谱的分类知识定义内涵大数据时代的知识知识图谱中的知识分类事实知识(Factual Knowledge)概念知识(Taxonomy Knowledge)词汇知识(Lexical Knowledge)常识知识(Common...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 998
精华内容 399
关键字:

知识图谱概念