精华内容
下载资源
问答
  • 知识图谱构建
    2022-06-07 19:01:25

    知识图谱的构建技术包括知识抽取、知识融合、知识加工和知识更新等。

    图1 知识图谱构建技术流程图

    1.1 知识抽取

    知识抽取就是自动化或半自动化的从原始数据中获得实体、关系及属性等可用知识单元。早期是基于规则的知识抽取,通过人为预先规定的抽取规则,从文本中抽取知识的三元组信息,缺点是数据量大的时候规则构建耗时长、可移植性差,难以应对数据规模庞大的知识图谱构建。目前基于神经网络的知识抽取将文本作为向量输入,能够自动发现实体、关系和属性特征,适用于大规模数据的知识图谱构建。

    1.1.1 实体识别

    实体识别即命名实体识别(NER),为自然语言处理和知识图谱领域的基础任务。目的是从海量原始数据中准确提取人物、地点、组织等命名实体信息。这一步影响后续关系抽取等任务,决定了知识图谱的质量。

    NER分为基于规则、基于统计模型和基于神经网络三类。

    基于规则的方法是通过专家手工构建规则集,将文本等数据与规则集匹配来得到命名实体信息。优点是适用小规模数据、精度和可靠性较高;缺点是大规模应用困难、可移植性差。

    基于统计模型的方法是将NER作为序列标注问题,以部分标注和完全标注的语料进行模型训练。如条件马尔可夫模型(CMM)、隐马尔科夫模型(HMM)、条件随机场(CRF)和最大熵(ME)等。优点是性能较好、通用性强、可移植;缺点是依赖特征和语料库、训练时间长。

    深度学习能够从数据中学习复杂的隐藏特征,不需要专业的领域知识或经验就可实现,基于神经网络的NER已成为目前主流方法,主要模型有卷积神经网络和循环神经网络等。

    1.1.2 关系抽取

    关系抽取(RE)是知识抽取的核心内容,通过获取实体之间的某种语义关系或关系的类别,自动识别实体对及联系这一对实体的关系所构成的三元组。

    近年RE的研究主要是基于神经网络方法,主要包括基于卷积神经网络(CNN)、基于循环神经网络(RNN)、基于注意力机制(ATT)、基于图卷积网络(GCN)、基于对抗训练(AT)、基于强化学习(RL)的RE以及实体-关系联合抽取(JERE)。

    (1)基于卷积神经网络的关系抽取

    CNN通过嵌入表示和文本信息等数据组织为类似图像的二维结构,使用卷积核提取特征信息并用于关系抽取。

    CNN方法为基于深度学习的关系抽取提供了思路,已有很多利用基于神经网络的关系抽取方法来提取单词和句子的特征。

    (2)基于循环神经网络的关系抽取

    RNN可利用内部的记忆机制处理时序相关信息,适用于处理和表示短语及句子的组合向量。

    (3)基于注意力机制的关系抽取

    ATT能基于权重筛选上下文相关性强的信息,提高关系抽取的质量。

    (4)基于图卷积网络的关系抽取

    GCN可以捕捉图的全局信息,具有很好的节点表示能力。基于GCN的关系抽取针对文本依存树种各词语的依存关系编码,将关系知识编码信息引入关系抽取,挖掘句子中更深层的语义信息。

    (5)基于对抗训练的关系抽取

    基于神经网络的模型通常忽略了输入数据中的噪声,导致模型效果不佳。将对抗训练AT引入关系抽取,对训练数据产生对抗噪声来优化分类算法,能够有效提升模型鲁棒性。

    (6)基于强化学习的关系抽取

    强化学习是一类学习、预测和决策的方法框架,通过训练策略网络选择最优实例,结合神经网络进行关系抽取。

    (7)实体-关系联合抽取

    实体-关系联合抽取旨在针对实体识别和关系抽取作为两个串联子任务时存在的错误传播问题,对实体和关系进行联合建模。能够考虑到实体与关系间的语义相关性,有效解决关系重叠问题,减少误差累积,提高知识抽取的整体效果。

    1.1.3  属性抽取

    属性抽取是知识库构建和应用的基础,通过不同信息源的原始数据中抽取实体的属性名和属性值,构建实体的属性列表,形成完整的实体概念,使实体完整化。

    属性抽取方法分为传统的监督、无监督和半监督属性抽取、基于神经网络的属性抽取和其他类型的属性抽取。

    目前大多数属性抽取是从文本数据中抽取信息。传统方法的监督学习的属性抽取使用HMM和CRF等抽取属性。基于神经网络的属性抽取一般作为序列标注任务,使用序列标注模型抽取文本的属性值。基于元模式的属性抽取将类型化的文本模式结构命名为元结构,可以在海量语料库中发现元模式,可使用该方法发现文本中高质量的属性描述语句,作为实体的属性值。多模态属性抽取方法及数据集,实现对多种类型数据的属性抽取。

    1.2  知识融合

    知识融合是融合各个层面的知识,包括融合不同知识库的同一实体、多个不同的知识图谱、多源异构的外部知识等,并确定知识图谱中的等价实例、等价类及等价属性,实现对有知识图谱的更新。知识融合的主要任务包含实体对齐和实体消歧。

    1.2.1  实体对齐

    实体对齐是知识融合阶段的主要任务,目的是发现语义相同的实体,主要方法是基于嵌入表示的实体对齐,实体对齐方法可分为传统概率模型、机器学习和神经网络等类别。

    传统概率模型基于属性相似关系,将实体对齐看作概率分类模型,根据相似度评分选择对齐实体。常用模型有CRF、马尔可夫逻辑网络和隐含狄利克雷分布等。基于机器学习的实体对齐将实体对齐看作二分类问题,可分为监督学习和无监督学习。在监督学习实体对齐中,使用预先人工标注部分训练模型,对未标注数据进行分类。如决策树、支持向量机等方法通过比较特征向量进行实体对齐,或考虑实体的相似度,使相似实体聚类对齐。在神经网络方法中,基于嵌入的实体对齐将不同的知识图谱表示为低维嵌入,并通过计算实体嵌入间的相似度来进行实体对齐。

    1.2.2  实体消歧

    实体消歧是根据给定文本,消除不同文本中实体指标的歧义,将其映射到实际的实体上。

    根据有无目标知识库划分,实体消歧主要有命名实体聚类消歧和命名实体链接消歧等方法。命名实体聚类消歧将所有的实体指称与实际的目标实体进行聚类。命名实体链接消歧则是根据文本中的上下文信息,将文本中的实体指称链接到候选的实际目标实体列表中。

    1.3  知识加工

    知识加工是在知识抽取、知识融合的基础上,对基本的事实进行处理,形成结构化的知识体系和高质量的知识,实现对知识的统一管理。知识加工的具体步骤包括本体构建、知识推理和质量评估。

    1.3.1  本体构建

    本体构建是指在模式层构建知识的概念模板,规范化描述指定领域内的概念及概念之间的关系,其过程又包括概念提取和概念间关系提取两部分。根据构建过程的自动化程度不同,可分为手工构建、半自动构建以及自动构建。本体构建的目的是构建知识数据模型和层次体系,主要方法是人工编辑、实体相似度、实体关系自动抽取等。

    1.3.2  知识推理

    知识推理是针对知识图谱中已有事实或关系的不完备性,挖掘或推断出未知或隐含的语义关系。知识推理的对象可以为实体、关系和知识图谱的结构等。知识推理主要有逻辑规则、嵌入表示和神经网络三类方法。

    1.3.3  质量评估

    知识图谱质量评估通常在知识抽取或融合阶段进行,对知识的置信度进行评估,保留置信度高的知识,有效保障知识图谱质量。质量评估的研究目的是提高知识样本的质量,提升知识抽取的效果,增强模型的有效性。

    1.4  知识更新

    知识更新是随着时间的推移或新知识的增加,不断迭代更新知识图谱的内容,保障知识的时效性。

    更多相关内容
  • 知识图谱构建java源码NOUS:动态知识图中的构建、查询和推理 知识图谱 (KG) 的自动构建仍然是一项昂贵的技术挑战,大多数企业和学术机构都无法实现。 NOUS 是一个端到端框架,用于为任意应用程序域开发自定义知识...
  • 全国系统介绍了医疗知识图谱构建及应用,对各种应用场景进行综合介绍。医疗知识图谱系统全面的好ppt。
  • 知识图谱的概念由谷歌于2012年提出,随后逐渐成为人工智能领域的一个研究热点,已在信息搜索、自动问答、决策分析等应用中发挥作用。
  • 课程分享——人工智能商业实战应用:金融知识图谱构建与实战【企业内训现场实录】视频教程,完整版,附源码课件。欢迎大家下载学习。
  • 对领域知识图谱构建方法进行了系统研究,提出了一种准确、高效的领域知识图谱构建方法——“四步法”,将该方法应用到中国基础教育九门学科知识图谱的构建中,在较短时间内构建出了准确率较高的学科知识图谱,证明了该...
  • 我们这次报告的重点是基于以临床电子病历为代表的真实世界数据医疗知识图谱构建中的主要问题,挑战极其解决办法。我们将从临床电子病历的数据质量问题谈起,介绍如何通过构建医学常识知识库等方法保证知识来源的质量...
  • 知识图谱构造技术综述 刘 峤 李 杨 段 宏 刘 瑶 秦志光 著
  • 请参见:https://handsome-man.blog.csdn.net/article/details/108749135
  • 基于深度学习的威胁情报知识图谱构建技术.pdf
  • 使用提出的知识图谱构建算法成功构建了一个具备7,392,384实体和60,842,064事实的中文通用知识图谱;与现有的知识库和数据集进行对比表明本知识图谱具备良好的覆盖度;同时,评估结果表明该知识图谱的平均准确率在95%...
  • CN-DBpedia是一个开放的知识图谱。我们直接开放了Dump数据,大家可以从中文开放知识图谱的网站上进行下载。当前版本包含900多万的实体以及6700万的关系。
  • 初衷这是一个知识图谱构建工具,最开始是对产品和领导为了做ppt临时要求配合做图谱展示的不厌其烦,做着做着就抽出一个目前看着还算通用的小工具,知识图谱可视化,仅供做知识图谱的小伙伴参考技术栈小工具是前台是...
  • Neo4j+springboot+vue+d3.js知识图谱构建和可视化
  • 知识图谱构建技术综述,包括语义网、信息检索、语义搜索引擎。
  • 基于知识图谱构建商业银行大数据风控体系的研究与实践.pdf
  • https://protege.stanford.edu/products.php#desktop-protege 官网不容易下载,这里提供一个,方便下载不了的同学。
  • 本报告将主要从事件抽取、事件关系抽取、事件/事件关系可信度计算、事件知识图谱构建技术和事件知识图谱推理等五个方面系统深入分析事件知识图谱构建研究相关的国内外研究现状,存在关键问题以及研究思路。
  • 基于深度学习的作物病虫害可视化知识图谱构建.pdf
  • 医疗知识图谱的框架与构建过程,以及构建的应用示例介绍
  • 知识图谱构建与实战PPT
  • 瑞金医院MMC人工智能辅助构建知识数据源:知识图谱构建SPO,知识图谱构建SPO
  • 分享一套视频教程,名字叫——人工智能商业实战应用:金融知识图谱构建与实战【企业内训现场实录】,非常棒的一套金融知识图谱课程,附源码+课件资料,完整版,值得学习
  • 基于多种数据源的中文知识图谱构建方法研究 自从语义网的概念提出以来,越来越多的开放链接数据和用户生成内容被发布于互联网中,互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和...
  • Domain Specific ...领域特定知识构建(KGC)是一个活跃的研究领域,最近由于机器学习技术(如深度神经网络和单词嵌入)取得了令人印象深刻的进展。本书将以一种引人入胜和可访问的方式综合Web数据上的知识图结构。
  • 人工智能商业实战应用:金融知识图谱构建与实战【企业内训现场实录】,完整版,附源码。 此课程的背景是一个金融知识图谱的大项目,用于构建A股公司的知识图谱,并基于知识图谱提供语义搜索、智能问答等服务。 课程...
  • 代码知识图谱构建及智能化软件开发方法研究.pdf
  • 基于本体的中医知识图谱构建.pdf
  • 谷歌知识图谱技术近年来引起了广泛关注,由于公开披露的技术资料较少,使人一时难以看清 该技术的内涵和价值.从知识图谱的定义和技术架构出发,对...3)对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结.
  • 知识图谱构建全流程

    2022-07-06 15:56:05
    知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过知识图谱能够将Web上的信息、数据以及链接关系聚集...在知识图谱技术发展初期,很多企业和科研机构会采用自顶向下的方式构建基础知识

    一、知识图谱简介

    知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过知识图谱能够将Web上的信息、数据以及链接关系聚集为知识,使信息资源更易于计算、理解以及评价,并能实现知识的快速响应和推理。

    1.1 广泛应用于各领域

    当下知识图谱已在工业领域得到了广泛应用,如搜索领域的Google搜索、百度搜索,社交领域的领英经济图谱,企业信息领域的天眼查企业图谱,电商领域的淘宝商品图谱,O2O领域的美团知识大脑,医疗领域的丁香园知识图谱,以及工业制造业知识图谱等。

    知识图谱在工业领域得到了广泛应用; 6-2

    在知识图谱技术发展初期,很多企业和科研机构会采用自顶向下的方式构建基础知识库,如 Freebase。随着自动知识抽取与加工技术的不断成熟,当前的知识图谱大多采用自底向上的方式构建,如 Google 的 Knowledge Vault 和微软的 Satori 知识库。

    1.2 构建技术分类

    知识图谱的构建技术主要有自顶向下和自底向上两种。

    • 自顶向下构建:借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库里。
    • 自底向上构建:借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,加入到知识库中。

    知识图谱的构建 | 自顶向下→自底向上; 6-3

    1.3 “实体-关系-实体”三元组

    下图是典型的知识图谱样例示意图。可以看到,“图谱”中有很多节点,如果两个节点之间存在关系,他们就会被一条无向边连接在一起,这个节点我们称为实体(Entity),节点之间的这条边,我们称为关系(Relationship

    一个知识图谱(Knowledge Graph)实例; 6-4

    知识图谱的基本单位,就是“实体(Entity)-关系(Relationship)-实体(Entity)” 构成的三元组,这也是知识图谱的核心。

    二、数据类型和存储方式

    知识图谱的原始数据类型一般来说有三类(也是互联网上的三类原始数据):

    • 结构化数据(Structed Data),如:关系数据库、链接数据
    • 半结构化数据(Semi-Structured Data),如:XML、JSON、百科
    • 非结构化数据(Unstructured Data),如:图片、音频、视频

    知识图谱 | 3种数据类型 & 2种存储方式; 6-5

    典型的半结构化数据样例如下:

    知识图谱的数据类型示例 | 半结构化数据; 6-6

    如何存储上面这三类数据类型呢?

    一般有两种选择:可以通过 RDF(资源描述框架)这样的规范存储格式来进行存储,比较常用的有 Jena等。
    <RDF>
        <Description about="https://www.w3.org/RDF/">
            <author>HanXinzi</author>
            <homepage> http://www.showmeai.tech </homepage>
        </Description>
    </RDF>

    另一种方法是使用 图数据库来进行存储,常用的有 Neo4j等。

    知识图谱的存储方式示例 | 图数据库; 6-7

    截止目前为止,看起来知识图谱主要是一堆三元组,那用关系数据库来存储可以吗?

    对,从技术上来说,用关系数据库来存储知识图谱(尤其是简单结构的知识图谱),是完全没问题的。但一旦知识图谱变复杂,用传统的「关系数据存储」,查询效率会显著低于「图数据库」。在一些涉及到2,3度的关联查询场景,图数据库能把查询效率提升几千倍甚至几百万倍。

    而且基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。当你的场景数据规模较大的时候,建议直接用图数据库来进行存储。

    三、知识图谱的架构

    知识图谱的架构主要可以被分为:

    • 逻辑架构
    • 技术架构

    知识图谱的架构 | 逻辑架构 & 技术架构; 6-8

    3.1 逻辑架构

    在逻辑上,我们通常将知识图谱划分为两个层次:数据层和模式层。

    • 模式层:在数据层之上,是知识图谱的核心,存储经过提炼的知识,通常通过本体库来管理这一层(本体库可以理解为面向对象里的“类”这样一个概念,本体库就储存着知识图谱的类)。
    • 数据层:存储真实的数据。
    可以看看这个例子
    模式层: 实体-关系-实体,实体-属性-性值
    数据层:吴京-妻子-谢楠,吴京-导演-战狼Ⅱ

    3.2 技术架构

    知识图谱的整体架构如图所示,其中虚线框内的部分为知识图谱的构建过程,同时也是知识图谱更新的过程。别紧张,让我们顺着这张图来理一下思路。

    • 首先,我们有一大堆的数据,这些数据可能是结构化的、非结构化的以及半结构化的;
    • 然后,我们基于这些数据来构建知识图谱,这一步主要是通过一系列自动化或半自动化的技术手段,来从原始数据中提取出知识要素,即一堆实体关系,并将其存入我们的知识库的模式层和数据层。

    四、构建技术

    前面的内容说到了,知识图谱有自顶向下和自底向上两种构建方式,这里提到的构建技术主要是自底向上的构建技术。

    如前所述,构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:

    • 信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。
    • 知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等。
    • 知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

    知识图谱技术架构 @自底向上; 6-9

    下面我们依次来对每一个步骤进行介绍。

    4.1 知识抽取

    知识抽取(infromation extraction)是知识图谱构建的第1步,其中的关键问题是:如何从异构数据源中自动抽取信息得到候选指示单元?

    信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取关系抽取属性抽取

    知识抽取(Information Acquisition); 6-10

    1)实体抽取

    实体抽取,也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体

    图中,通过实体抽取我们可以从其中抽取出四个实体:“非洲”、“中国海军”、“冷锋”、“战狼”。

    实体抽取 / 命名实体识别(NER); 6-11

    研究历史
    ◉ 从面向单一领域进行实体抽取,逐步跨步到面向开放域(Open Domain)的实体抽取。

    2)关系抽取

    文本语料经过实体抽取之后,得到的是一系列离散的命名实体。为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。这就是关系抽取需要做的事,如下图所示。

    关系抽取 /从语料中提取实体之间的关系; 6-12

    研究历史
    ◉ 人工构造语法和语义规则(模式匹配)。
    ◉ 统计机器学习方法。
    ◉ 基于特征向量或核函数的有监督学习方法。
    ◉ 研究重点转向半监督和无监督。
    ◉ 开始研究面向开放域的信息抽取方法。
    ◉ 将面向开放域的信息抽取方法和面向封闭领域的传统方法结合。

    3)属性抽取

    属性抽取的目标是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。

    属性抽取 / 从不同信息源中采集特定实体的属性信息; 6-13

    研究历史
    ◉ 将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务。
    ◉ 基于规则和启发式算法,抽取结构化数据。
    ◉ 基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。
    ◉ 采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。

    4.2 知识融合

    通过信息抽取,我们就从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。如果我们将接下来的过程比喻成拼图的话,那么这些信息就是拼图碎片,散乱无章甚至还有从其他拼图里跑来的碎片、本身就是用来干扰我们拼图的错误碎片。

    也就是说,拼图碎片(信息)之间的关系是扁平化的,缺乏层次性和逻辑性;拼图(知识)中还存在大量冗杂和错误的拼图碎片(信息)。那么如何解决这一问题,就是在知识融合这一步里我们需要做的了。

    知识融合(Knowledge Fusion); 6-14

    知识融合包括2部分内容:实体链接、知识合并

    1)实体链接

    实体链接(entity linking)是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。

    实体链接 / 半结构化数据 & 非结构化数据; 6-15

    研究历史
    ◉ 仅关注如何将从文本中抽取到的实体链接到知识库中,忽视了位于同一文档的实体间存在的语义联系;
    ◉ 开始关注利用实体的共现关系,同时将多个实体链接到知识库中。即集成实体链接(collective entity linking)。

    实体链接的流程

    • 从文本中通过实体抽取得到实体指称项。
    • 进行实体消歧共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义。
    • 在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。
    ◉  实体消歧:是专门用于解决同名实体产生歧义问题的技术,通过实体消歧,就可以根据当前的语境,准确建立实体链接,实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题,类似于词性消歧和词义消歧。
    ◉  共指消解:主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的研究努力。共指消解还有一些其他的名字,比如对象对齐、实体匹配和实体同义。

    2)知识融合

    在前面的实体链接中,我们已经将实体链接到知识库中对应的正确实体对象那里去了,但需要注意的是,实体链接链接的是我们从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。

    那么除了半结构化数据和非结构化数据以外,我们还有个更方便的数据来源———结构化数据,如外部知识库和关系数据库。对于这部分结构化数据的处理,就是我们知识融合的内容啦。

    一般来说知识融合主要分为两种:合并外部知识库,主要处理数据层和模式层的冲突;合并关系数据库,有RDB2RDF等方法。

    结构化数据; 6-16

    4.3 知识加工

    经过刚才那一系列步骤,我们终于走到了知识加工这一步了!在前面,我们已经通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素,并且经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。

    然而事实本身并不等于知识。要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括3方面内容:本体抽取、知识推理和质量评估

    知识加工(Knowledge Processing); 6-17

    1)本体抽取

    本体(ontology)是指工人的概念集合、概念框架,如“人”、“事”、“物”等。本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。

    自动化本体构建过程包含三个阶段: 实体并列关系相似度计算 → 实体上下位关系抽取 → 本体的生成。

    本体抽取 / 自动化本体构建过程; 6-18

    如图所示,当知识图谱刚得到“战狼Ⅱ”、“流浪地球”、“北京文化”这三个实体的时候,可能会认为它们三个之间并没有什么差别。但当它去计算三个实体之间的相似度后,就会发现,“战狼Ⅱ”和“流浪地球”之间可能更相似,与“北京文化”差别更大一些。
    • 第一步下来,知识图谱实际上还是没有一个上下层的概念。它还是不知道,“流浪地球”和“北京文化”不隶属于一个类型,无法比较。
    • 因此第二步『实体上下位关系抽取』需要去完成这样的工作,从而生成第三步的本体。
    • 当三步结束后,这个知识图谱可能就会明白,“战狼2和流浪地球,是电影这个实体下的细分实体。它们和北京文化这家公司并不是一类”。

    2)知识推理

    在我们完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但可能在这个时候,知识图谱之间大多数关系都是残缺的,缺失值非常严重,那么这个时候,我们就可以使用知识推理技术,去完成进一步的知识发现。

    知识推理 / 进一步完善知识图谱; 6-19

    当然知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。

    • 推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;
    • 推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)

    这一块的算法主要可以分为3大类:基于知识表达的关系推理技术;基于概率图模型的关系推理技术路线示意图;基于深度学习的关系推理技术路线示意图

    知识推理 / 3类主要算法; 6-20

    3)质量评估

    质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

    4.4 知识更新

    从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。

    • 概念层的更新:新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中。
    • 数据层的更新:主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题)等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库。

    知识图谱构建 & 更新流程; 6-21

    知识图谱的内容更新有两种方式:

    • 全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;
    • 增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难。

    知识图谱的构建就此结束!

    五、相关代码实现参考

    获取『自然语言处理』行业解决方案

    公众号  ShowMeAI研究中心 回复关键字『 自然语言处理』,获取  ShowMeAI 整理的  大厂解决方案 —— 包含腾讯、爱奇艺、美团、小米、百度、淘宝、高德等项目代码、数据集、论文合辑等打包资料。

    相关代码实现参考

    ShowMeAI社区的技术专家小伙伴们也对知识图谱的典型算法做了实现。对『 知识图谱构建与落地实践』细节感兴趣的话,请前往我们的  GitHub项目 https://github.com/ShowMeAI-Hub 查看实现代码。感谢  AI算法研究所 参与此项目的所有技术专家小伙伴,推荐大家关注公众号。数据集和代码的整理花费了很多心思,欢迎大家 PR 和 Star!

    六、参考文献

    • 1 刘峤, 李杨, 段宏,等. 知识图谱构建技术综述J. 计算机研究与发展, 2016, 53(3):582-600.
    • 2 打怪的蚂蚁. CSDN. 知识图谱技术技巧.
    • 3 Ehrlinger L, Wöß W. Towards a Definition of Knowledge GraphsC// Joint Proceedings of the Posters and Demos Track of,

    International Conference on Semantic Systems - Semantics2016 and,
    International Workshop on Semantic Change & Evolving Semantics. 2016.

    • 4 Das R, Neelakantan A, Belanger D, et al. Chains of Reasoning over Entities, Relations, and Text using Recurrent Neural NetworksJ.
    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,532
精华内容 10,612
关键字:

知识图谱构建