为您推荐:
精华内容
最热下载
问答
  • 5星
    333KB HowardEmily 2021-01-14 12:11:19
  • 5星
    2.87MB Darius_Tanz 2021-09-20 10:56:03
  • 5星
    10.33MB weixin_44573410 2021-01-20 19:58:27
  • 5星
    3.44MB q6115759 2021-03-23 09:49:31
  • 5星
    82.04MB GZXGYZ 2021-03-17 22:28:57
  • 5星
    18.25MB ylcto 2020-12-23 13:59:32
  • 350.25MB bruce__ray 2021-01-03 18:53:43
  • 2.82MB elijah_hz 2019-04-19 14:19:36
  • 而搜索引擎领域,也在用户需求和人工智能的推动下,逐渐革新。传统的搜索引擎,在一定程度上解决了用户从互联网中获取信息的难题,但由于它们是基于关键词或字符串的,并没有对查询的目标(通常为网页)和用户的查询...

    在科技的推动下,每一个领域都在不断的进步。而搜索引擎领域,也在用户需求和人工智能的推动下,逐渐革新。

    传统的搜索引擎,在一定程度上解决了用户从互联网中获取信息的难题,但由于它们是基于关键词或字符串的,并没有对查询的目标(通常为网页)和用户的查询输入进行理解。

    因此,它们在搜索准确度方面存在明显的缺陷,即由于HTML形式的网页缺乏语义,难以被计算机理解。

    图片描述

    随着科学技术的不断发展,搜索引擎的竞争环境和竞争态势发生了变化,搜索引擎领域被认为是人工智能最适合落地的领域之一。

    智能搜索引擎,主要通过自然语言处理和知识图谱等人工智能技术,来实现人工智能在搜索引擎产品的落地。它更注重与其他科学相融合、个性化搜索、智能化比较高。换句话说,它是非常智能、需要理解用户需求、以用户为中心的搜索技术。

    图片描述

    知识图谱于2012年5月正式被提出,其目标在于改善搜索结果,描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。

    随着越来越多的开放链接数据和用户生成内容被发布于互联网中。互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。

    图片描述

    也就是说,知识图谱是结构化储存人类知识的数据库,在信息检索、问答系统和智能对话等人工智能相关任务中广为运用。知识图谱可以看成是一张巨大的图,图中的节点表示实体或概念,而图中的边则构成关系。

    以往在搜索引擎上搜索信息,用户往往面临不少痛点:表达的搜索需求和搜索结果往往难以匹配,经常有“搜”非所问的情况;此外,搜索结果中地址,解答等内容编排无序,显示杂乱。

    而运用了知识图谱的智能搜索引擎,则可以返回更加精准的结果。就知识图谱而言,研究语义分析方面至关重要。知识库的构建和知识搜索都需要语义分析。

    图片描述

    知识图谱的研究和应用,可分为基于广度的通用知识图谱和基于深度的领域知识图谱。

    然而,构造和应用领域知识图谱,尚面临着各种挑战和难题,需要行业专家和人工智能专家协作起来,以专家+大数据的方式构筑自生长模式,从而真正将海量非结构化信息自动化利用起来,成为领域应用决策的坚实支持。

    所以,搜索+知识图谱,是未来搜索引擎的发展方向,未来的搜索引擎,会以用户为核心,越来越智能化。

    展开全文
    giiso 2017-07-26 17:43:49
  • 520KB weixin_38411989 2020-11-12 20:53:38
  • 文章目录碎碎念 碎碎念 工作中心已经转移到现在的知识图谱,最近找到了一个很新的综述报告,资源如下,先对知识图谱进行整体...网站地址:2019年第二期《人工智能知识图谱》 文件网盘地址:链接,提取码:putq ...

    碎碎念

    工作中心已经转移到现在的知识图谱,最近找到了一个很新的综述报告,资源如下,先对知识图谱进行整体把握,再逐步对各个关键技术进行学习。

    传送门

    1. 网站地址:2019年第二期《人工智能之知识图谱》
    2. 文件网盘地址:链接,提取码:putq

    在这里插入图片描述

    第一章 概念

    一、知识图谱概念和分类

    1、知识图谱的概念

    知识工程(费根鲍姆,1994):将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。

    知识图谱(Knowledge Graph) 以结构化的形式描述客观世界中概念、实体及其之间的关系,已经成为互联网知识驱动的智能应用的 基础设施

    几个概念

    • 实体:指的是具有可区别性且独立存在的某种事物。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。eg:某一个人、某一座城市、某一种植物、某一件商品等
    • 概念:具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。
    • 属性:用于区分概念的特征,不同概念具有不同的属性。
      • 对象属性:属性值对应的是概念或实体;
      • 数据属性:属性值是具体的数值;

    知识图谱作用:利用知识工程为大数据添加语义/知识,使数据产生智慧(Smart Data),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。

    知识图谱主要应用:知识融合、语义搜索和推荐、问答和对话系统、大数据分析与决策。

    2、知识图谱的分类

    按领域方面分类

    • 通用知识图谱:面向通用领域的“结构化的百科
      知识库”。
    • 特定领域知识图谱(行业知识图谱,垂直知识图谱):面向某一特定领域,可看成是一个“基于语义技术的行业知识库”

    二、知识工程发展历程

    知识工程发展历程 的 五个标志性阶段前知识工程时期、专家系统时期、万维网 1.0 时期,群体智能时期以及知识图谱时期
    在这里插入图片描述

    • 图灵测试—知识工程诞生前期(1950-1970 时期)
      • 主要方法:符号主义 和 连接主义
      • 代表工作:通用问题求解程序(GPS):将问题进行形式化表达,通过搜索,从问题初始状态,结合规则或表示得到目标状态。
      • 典型应用:博弈论和机器定理证明等
      • 知识表示方法:逻辑知识表示、产生式规则、语义网络等。
      • 先驱:Minsky, Mccarthy 和 Newell 以 Simon 四位学者因为他们在感知机、人工智能语言和通用问题求解和形式化语言方面
    • 专家系统—知识工程蓬勃发展期(1970-1990 时期)
      • 主要方法:“知识库 + 推理机”实现的限定领域专家系统
      • 典型系统:MYCIN、DENRAL 、XCON等
      • 知识表示方法:框架、脚本等
    • 万维网(1990-2000 时期)
      • 主要方法:基于万维网,使用HTML、XML语言
      • 典型知识库:WordNet、Cyc、HowNet等
      • 知识表示方法:本体
    • 群体智能(2000-2006 时期)
      • 主要方法:Web,旨在对互联网内容进行结构化语义表示, 利用本体描述互联网内容的语义结构,通过对网页进行语义标识得到网页语义信息,从而获得网页内容的语义信息, 使人和机器能够更好地协同工作。
      • 知识表示方法:RDF(资源描述框架)和 OWL(万维网本体表述语言)
      • 典型应用:维基百科,用户去建立知识
    • 知识图谱—知识工程新发展时期(2006 年至今)
      • 主要方法:知识获取是自动化的,并且在网络规模下运行。
      • 典型KG:基于RDF数据模型的DBpedia、Freebase、KnowItAll、WikiTaxonomy和 YAGO,以及BabelNet、ConceptNet、DeepDive、 NELL、 Probase、 Wikidata、 XLORE、 Zhishi.me、 CNDBpedia 等;
      • 应用:语义搜索、问答系统与聊天、大数据语义分析以及智能知识服务等

    三、知识图谱的知识图谱

    热门领域:知识表示(knowledge representation)、知识获取(knowledge acquisition)、知识推理(knowledge reasoning)、知识集成(knowledge integration)和知识存储(knowledge storage) 等。

    第二章 技术人才篇

    知识图谱技术(五个方面):知识表示与建模、知识获取、知识融合、知识图谱查询和推理计算及知识应用技术 。

    知识图谱领域顶级学术会议列表

    会议简称会议全称
    ACLAssociation of Computational Linguistics
    EMNLPEmpirical Methods in Natural Language Processing
    WWWInternational World Wide Web Conference
    ISWCInternational Semantic Web Conference
    IJCAIInternational Joint Conference on Artificial Intelligence
    AAAINational Conference of the American Association for Artificial Intelligence
    COLINGInternational Conference on Computational Linguistics
    KRInternational Conference on Principles of KR & Reasoning
    KDDACM International Conference on Knowledge Discovery and Data Mining
    CIKMACM International Conference on Information and Knowledge Management

    1、知识表示与建模

    人类心智区别于其它物种心智的重要特征:具有获取、表示和处理知识的能力。

    (1)知识表示模型

    关键点:机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。

    技术发展三阶段:

    • 基于符号逻辑进行知识表示和推理
      • 包括:逻辑表示法(如一阶逻辑、描述逻辑)、产生式表示法和框架表示等。
    • 基于离散符号的知识表示技术
      • 包括:基于标签的半结构置标语言XML、基于万维网资源语义元数据描述框架 RDF和基于描述逻辑的本体描述语言 OWL
      • most:基于 RDF 三元组的表示方法
    • 连续向量方式表示知识
      • 典型:词向量等嵌入(Embedding)方式
      • 包括:TransE 翻译模型、SME、、SLM、NTN、MLP,以及 NAM 神经网络模型等
      • 知识图谱嵌入也通常作为一种类型的先验知识辅助输入到很多深度神经网络模型中,用来约束和监督神经网络的训练过程。
      • 特点:可规模化扩展

    在这里插入图片描述

    (2)知识表示学习

    知识表示学习主流方法将实体和关系表示为稠密的低维向量实现了对实体和关系的分布式表示, 已经成为知识图谱语义链接预测和知识补全的重要方法。

    优点:显著提升计算效率,有效缓解数据稀疏,实现异质信息融合并有助于实现知识融合。

    代表方法

    • 复杂关系建模 ——孤立学习每个三元组
      • TransE模型:将知识库中的关系看作实体间的某种平移向量,可用于大规模知识图谱,但不善于处理知识库的复杂关系。
      • TransH 模型和 TransR 模型:可以让一个实体在不同关系下拥有不同表示、认为不同关系拥有不同语义空间让一个实体在不同关系下拥有不同表示、认为不同关系拥有不同语义空间。
      • TransD 模型和 TranSparse 模型:对TransH 模型和 TransR 模型中矩阵参数过多问题改进优化;
      • TransG 模型和 KG2E模型:利用高斯分布来表示知识库中的实体和关系,并考虑实体和关系本身语义上不确定性。
    • 关系路径建模(初步)——考虑关系路径的表示学习方法
      • Path-based TransE(PTransE)模型
      • 相关实验表明:考虑关系路径能够极大提升知识表示学习的区分性,提高在知识图谱补全等任务上的性能。

    (3)知识表示与建模人才介绍

    Gerhard Weikum(萨尔大学)

    • YAGO 知识库创始人之一,信息抽取与知识挖掘、数据库与信息系统领域著名研究专家。
      • YAGO 知识库主要集成了 Wikipedia、WordNet 和 GeoNames三个来源的数据,拥有千万级实体知识,包含超过 1.2 亿条三元组知识,能够将 WordNet 的词汇定义与 Wikipedia 的分类体系进行了融合集成。 YAGO 还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述,具有更加丰富的实体分类体系,经过人工评估证实确认,准确度达到 95%。
    • 研究方向:研究涵盖知识获取表示、分布式信息系统、数据库性能优化与自主计算、信息检索与信息提取等方向, 2006 年前后侧重于知识库的研究,并在此方向做出了持续性探索。

    Tom M. Mitchell(卡内基梅隆大学)

    • Tom M. Mitchell, NELL 系统、心灵阅读智能计算机系统核心研发成员。
      • NELL 系统目标是能够开发用自然语言回答用户提出的问题的方法,而不需要人为干预,自 2010 年初以来, NELL 系统始终保持全天候运行的工作状态,筛选数亿个网页,寻找已知信息与搜索过程中发现的信息之间的联系并建立新的连接,模仿人类学习新信息方式的方式。
    • 研究方向:知识表示、知识库构建、 机器学习、 人工智能,机器人和认知神经科学等方向

    Ian Horrocks(牛津大学)

    • 描述逻辑推理系统、网络本体语言 OWL 奠基人。
    • 研究方向(现阶段):知识表示和推理,特别是描述逻辑的本体语言和表格决策程序的优化,他所完成的关于描述逻辑的表象推理研究已经成为大多数描述逻辑推理系统的基础。

    王海勋(Google Research)

    • 研究方向(现阶段):语义网络、自然语言处理、数据管理与普适计算等。

    唐杰(清华大学)

    • 研究者社会网络 AMiner 大数据平台创始人

    2、知识获取

    (1)实体识别与链接

    实体识别与链接是海量文本分析的 核心技术,也是知识图谱构建、知识补全与知识应用的核心技术,是计算机类人推理和自然语言理解提供知识基础。

    • 实体识别:是文本理解意义的基础,也就是识别文本中指定类别实体的过程,可以检测文本中的新实体,并将其加入到现有知识库中。
    • 实体链接识别出文本中提及实体的词或者短语并与知识库中对应实体进行链接的过程,通过发现现有实体在文本中的不同出现,可以针对性的发现关于特定实体的新知识。

    常用的三种统计模型方法:传统统计模型方法、深度学习方法、文本挖掘方法

    ① 传统统计模型方法

    实体识别

    • 基本思想:将实体识别任务形式化为从文本输入到特定目标结构的预测,使用统计模型来建模输入与输出之间的关联,并使用机器学习方法来学习模型的参数。
    • 常用方法:最大熵分类模型、SVM 模型、隐马尔可夫模型、条件随机场模型。
    • 代表方法:条件随机场模型,将实体识别问题转化为序列标注问题。

    实体链接

    • 核心:计算实体提及(mention)和知识库中实体的相似度,并基于上述相似度选择特定实体提及的目标实体。
      • 过程的核心:挖掘可用于识别提及(mention)目标实体相互关联的证据信息
      • 证据信息:实体统计信息、名字统计信息、上下文词语分布、实体关联度、文章主题等信息。
      • 考虑到一段文本中实体之间的相互关联,相关的全局推理算法也被提出用来寻找全局最优决策。

    缺点

    • 需要大量的标注语料,在开放域或Web环境下的信息抽取系统会遇到标注语料的瓶颈。
    • 需要人工构建大量的特征,其训练并非一个端到端的过程。

    ==》解决方法:弱监督或无监督策略

    • eg:半监督算法、远距离监督算法、基于海量数据冗余性的自学习方法

    ② 深度学习方法

    实体识别

    • NN-CRF 架构:CNN/LSTM 被用来学习每一个词位置处的向量表示,基于该向量表示, NN-CRF 解码该位置处的最佳标签。
    • 滑动窗口分类思想:使用神经网络学习句子中的每一个 N-Gram 的表示,然后预测该 N-Gram 是否是一个目标实体。

    实体链接

    • 核心:构建多类型多模态上下文及知识的统一表示,并建模不同信息、不同证据之间的相互交互。通过将不同类型的信息映射到相同的特征空间,并提供高效的端到端训练算法。
    • 相关工作:多源异构证据的向量表示学习、以及不同证据之间相似度的学习等。

    优点

    • 端到端,无需人工定义相关特征;
    • DL可以学习任务特定的表示,建立不同模态、不同类型、不同语言之间信息的关联,从而取得更好的实体分析性能。

    研究热点:如何在深度学习方法中融入知识指导(如语言学结构约束、知识结构)、考虑多任务之间的约束、以及如何将深度学习用于解决资源缺乏问题。

    ③ 文本挖掘方法

    文本挖掘方法

    • 定义:应用于半结构Web数据源上的语义知识获取;
    • 核心:从特定结构(如列表、 Infobox)构建实体挖掘的特定规则。
    • 典型系统:DBPedia、 YAGO、BabelNet、 NELL 和 Kylin 等
    • 基于特定算法来对语义知识进行评分和过滤
      • 目的:规则本身可能带有不确定性和歧义性,同时目标结构可能会有一定的噪音;
    • 实体获取常采用Bootstrapping策略;
      • 典型系统: TextRunner 系统和 Snowball 系统
    • 语义漂移问题
      • 典型方法:互斥 Bootstrapping 技术、 Co-Training 技术和 Co-Bootstrapping 技术。

    研究热点:如何结合文本挖掘方法(面向半结构化数据,抽取出的知识质量高但覆盖度低)和文本抽取方法(面向非结构化数据,抽取出的知识相比文本挖掘方法质量低但覆盖度高)的优点,融合来自不同数据源的知识,并将其与现有大规模知识库集成

    (2)实体关系学习

    实体关系:两个或多个实体间的某种联系,用于描述客观存在的事物之间的关联关系。

    关系抽取(也称实体关系学习):自动从文本中检测和识别出实体之间具有的某种语义关系,是知识图谱自动构建和自然语言理解的基础。

    • 预定义关系抽取:系统所抽取的关系是预先定义好的,如上下位关系、国家—首都关系等。
    • 开放关系抽取:不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。

    ① 限定域关系抽取 vs. 开放域关系抽取

    限定域关系抽取(研究热点):系统所抽取的关系是预先定义好的(有限个数),可以抽取语义化的实体关系三元组,来辅助其他业务。

    开放域关系抽取:由系统自动从文本中发现、抽取关系。难以抽取语义化三元组。

    ② 基于规则的关系抽取 vs. 基于机器学习的关系抽取

    基于规则的关系抽取方法

    • 规则设计:首先由专家根据抽取任务的要求设计出一些包含词汇、句法和语义特征的手工规则(或称为模式),
    • 模式匹配:然后在文本分析的过程中寻找与这些模式相匹配的实例,从而推导出实体之间的语义关系。

    基于机器学习的关系抽取

    • 无监督关系抽取:把表示相同关系的模版聚合起来,不需要人工标注的数据。
    • 有监督关系抽取:使用人工标注的训练语料进行训练,由于数据需要人工标注,难以应用到大规模场景。
    • 弱监督关系抽取(研究热点)
      • 代表方法:利用知识库回标文本来自动获得大量的弱监督数据

    (3)事件知识学习

    事件:促使事物状态和关系改变的条件,是动态的、结构化的知识。

    事件知识学习:将非结构化文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。

    数据来源形式:已有的结构化的语义知识、数据库的结构化信息资源、半结构化信息资源以及非结构化资源。

    ① 事件识别和抽取

    基于模式匹配的事件抽取

    • 定义:采用模式匹配的方法对某种类型事件的识别和抽取。
    • 步骤:模式获取(关键)、模式匹配。
      • 按照模式构建过程中所需训练数据的来源可细分为:基于人工标注语料的方法和弱监督的方法

    基于机器学习的事件抽取

    • 定义:建立在统计模型基础上的多分类问题
    • 研究重点:特征选择 和 分类器选择。
    • 方法(三类)
      • 基于特征的方法
        • 研究重点:如何提取和集成具有区分性的特征(局部和全局特征)
        • 多用于阶段性的管道(Pipeline )抽取,即顺序执行事件触发词识别和元素抽取.
      • 基于结构的方法:将事件结构看作依存树,抽取任务则相应地转化为依存树结构预测问题,触发词识别和元素抽取可以同时完成。
      • 神经网络的方法
        • 利用CNN抽取特征完成两阶段的识别任务,以便更好地考虑事件内部结构和各个元素间的关系。
        • 将联合抽取模型与 RNN 相结合,利用带记忆的双向 RNN 抽取句子中的特征,并联合预测事件触发词和事件元素,进一步提升了抽取效果。

    ② 事件检测和追踪

    基于相似度的方法

    • 过程:首先需要定义相似度度量,而后基于此进行聚类或者分类。
    • 典型方法:VSM(向量空间模型)+ 组平均聚类(Group Average Clustering, GAC)\ 单一通过法(Single Pass Algorithm, SPA)
      • GAC 只适用于历史事件发现,它利用分治策略进行聚类。
      • SPA 可以顺序处理文档并增量式产生聚类结果,能同时应用于历史事件发现和在线事件发现。

    概率统计方法(研究热点)

    • 通常使用生成模型,适用于历史事件检测(有大量数据支持)。
    • 特点:模型复杂,但当数据充足时,准确率更高。
    • 研究方向:针对新闻等比较正式的规范文档、用于不规则或没有规律的非规范文档

    ③ 事件知识库构建(起步阶段)

    事件知识学习的最终目的:从非结构化的文本数据中抽取结构化的事件表示,构建事件知识库弥补现有知识图谱的动态事件信息缺失问题。

    研究方向:基于句子级的事件抽取、文档级的事件发现。

    (4)知识获取人才介绍

    Christopher D.Manning(斯坦福 NLP 实验室)

    • 研究方向:知识管理、计算机科学、自然语言处理等方向,2000年后开始对知识应用领域的研究工作;
    • 斯坦福 NLP 小组:工作范围从计算语言学的基础研究到人类语言技术的关键应用,涵盖句子翻译、句法分析与标记、自动问答、机器翻译、文本及视觉场景模拟等领域。

    韩家炜(美国伊利诺伊大学厄巴纳-香槟分校)

    • 研究方向:知识获取、数据挖掘、数据库系统、关联规则、时空数据挖掘、 Web 数据及信息网络数据等方向,侧重于数据挖掘

    Ralph Grishman(纽约大学数学科学院计算机科学)

    • 研究方向:自然语言处理、信息检索、信息抽取、语义学、知识获取、机器翻译等方向,后来侧重于信息抽取的研究
    • 代表方法:“MENE”的统计命名实体识别系统(“A maximum entropy approach to named entity recognition”)

    周国栋(苏州大学计算机科学与技术学院)

    • 研究方向:自然语言处理、知识获取、信息抽取、隐马尔科夫模型研究等方向

    黄萱菁(复旦大学计算机科学技术学院)

    • 研究方向:问答系统、自然语言处理、中文信息编译等方向。

    3、知识融合

    知识图谱的多样性和异构性:由于数据来源广泛、质量参差不齐造成的。

    语义集成:将不同的知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序间的交互建立操作性。

    • 常用技术:本体匹配(也称为本体映射)、实体匹配(也称为实体对齐、对象公指消解)以及知识融合等

    常见流程

    • 包括(5 个环节):输入、预处理、匹配、知识融合和输出
      在这里插入图片描述
    1. 输入待集成的若干个知识库以及配置、外部资源等
      (1)待集成的知识库格式一般为 RDF/OWL 数据文件或 SPARQL 端点(endpoint)
      (2)外部资源是语义集成过程中使用到的背景知识,例如字/辞典背景知识(例如 WordNet)、常识背景知识(例如 Cyc)、实时背景知识(例如搜索引擎)等。
    2. 预处理:对输入知识库进行清洗和后续步骤的准备。
      (1) 清洗:解决输入质量问题,与自有文本不同,知识库通常基于 RDF/OWL 语言构建,质量较好。
      (2)后续步骤的准备:包括配置和数据两方面。
    3. 匹配
      (1)根据匹配对象的不同,匹配一般分为本体匹配和实体匹配两方面
      (2)文本相似性度是发现匹配的最基础方法,大致可分为四种类型:基于字符的(例如 Leven-shtein 编辑距离)、基于单词的(例如 Jaccard 系数)、混合型(例如 soft TF-IDF)和基于语义的(例如 WordNet)
    4. 知识融合:一般通过冲突检测、真值发现等技术消解知识集成过程中的冲突,再对知识进行关联与合并,最终形成一个一致的结果。
    5. 输出:语义集的输出是一个统一的、一致的、简洁的知识库

    (1)本体匹配

    现状:现有大多数本体匹配方法处理的是成对的本体,但是成对匹配方法在同时匹配多个本体时会产生一些问题,最主要的问题是它们得到的结果从全局看可能存在冲突

    • 典型方法:LPHIM 多文本全体匹配方法——能够在匹配多个本体的同时保证结果是全局最优解

    跨语言本体匹配:更加困难,特别是影响文本相似性度量的准确性。

    • 典型方法: EAFG 和双语主题模型

    (2)实例匹配

    研究热点:众包和主动学习等人机协作方法。 这些方法雇佣普通用户,通过付出较小的人工代价来获得丰富的先验数据,从而提高匹配模型的性能。

    基于表示学习的方法

    • 实体、关系等 ==》低维空间中的实质向量(即分布式语义表示),并在知识图谱补全、知识库问答等应用中取得了不错的效果。

    基于强化学习的语义集成方法——新动向

    • 典型方法:ALEX 是一个通过利用用户提供的查询答案反馈来提高实例匹配质量的系统,它将每个匹配视作一个状态,用户反馈被转换为行为奖励,通过最大化收集到的行为奖励改善策略

    (3)知识融合人才介绍

    Renée J. Miller(NSERC 商业智能战略网络,多伦多大学)

    • 研究方向:研究涵盖数据交换、知识融合、数据集成、知识管理和数据共享等方向

    Felix Naumann(哈索·普拉特钠数字工程研究院)

    • 研究方向:数据挖掘、数据完整性、知识融合等方向

    Roberto Navigli(罗马大学计算机科学系)

    • BabelNet的创始人, BabelNet是最大的高质量多语言百科全书计算机辞典。

    苏俭(大规模技术部署首席专家、 BIRC 自然语言处理部门主管、联合主任等)

    • 研究方向:机器学习、信息提取、情感分析,文本挖掘、机器翻译、自然语言处理等方向, 2012 年前后开始专注研究生物信息。

    Jérôme Euzenat(法国国家计算机科学与控制研究中心,NIRIA)

    • 研究方向:语义知识表示、本体匹配等,并著有《Ontology Matching》

    4、知识图谱查询和推理计算

    (1)知识推理

    知识推理:从给定的知识图谱推导出新的实体跟实体之间的关系。在知识计算中具有重要作用,如知识分类、知识校验、知识链接预测与知识补全等。

    方法分类:基于符号的推理和基于统计的推理

    • 基于符号的推理
      • 一般是基于经典逻辑(一阶谓词逻辑或者命题逻辑)或者经典逻辑的变异(比如说缺省逻辑)
      • 从一个已有的知识图谱推理出新的实体间关系,可用于建立新知识或者对知识图谱进行逻辑的冲突检测。
    • 基于统计的方法
      • 一般指关系机器学习方法,即通过统计规律从知识图谱中学习到新的实体间关系。

    ① 基于符号的并行知识推理

    基于多核、多处理器技术的大规模推理:

    • 单机环境(并行技术:共享内存模型——提升本体推理时间效率,适用于实时性较高的场景)

    基于分布式技术的大规模推理

    • 多机搭建集群——突破大规模数据的处理界限
    • 很多工作基于 MapReduce 提出大规模本体的推理方法
      • 代表方法:推理系统 WebPIE(2010年, Urbani 等)

    ② 链接预测

    基于表示学习的方法

    • 分布式表示:将实体与关系统一映射至低维连续向量空间——刻画语义特征,推断实体和实体之间潜在关系。

    基于图特征的方法

    • 思想:利用抽取出的图特征来预测两个实体间可能存在的不同类型的边(关系)。
    • eg:根据两个实体“姚明”和“叶莉”在KG中的联通路径可预测他们之间大概率具备“配偶”关系。

    ③ 模式归纳方法

    基于 ILP 的模式归纳方法

    • 向下精化算子学习 ALC 的概念定义公理(Jens Lehmann 等)
    • 相关算法实现:本体学习工具 DL-Learner

    基于关联规则挖掘的模式归纳方法

    • 利用谓词偏好因子度量方法以及谓词语义相似度学习相反和对称公理;
    • 利用模式层信息给规则的挖掘提供更多的语义;
    • 对传统关联规则挖掘技术进行了改进,事务表中用 0 到 1 之间的一个实数代替原来的 0 或者 1,使得提出的方法更符合语义数据开放的特点

    基于机器学习的模式归纳方法

    • 利用聚类的算法学习关系的定义域和值域;
    • 应用统计的方法过滤属性的使用,并找出准确、健壮的模式,用于学习属性的数量约束公理。

    (2)知识存储和查询

    图(Graph)的方式来展现实体、事件及其之间的关系。
    研究内容:研究如何设计有效的存储模式支持对大规模图数据的有效管理,实现对知识图谱中知识高效查询

    ① 基于关系数据模型的 RDF 数据存储和查询

    简单三列表

    • 维护一张巨大的三元组表来管理 RDF 数据。
    • 表包含三列:主体、谓词和客体(或者主体、属性和属性值)。
    • 查询:将SPARQL转换为SQL,根据SQL执行多次自连接操作得以最终解。

    水平存储

    • 行:将每一个RDF主体(subject),
    • 列:包含该RDF数据集合中所有属性。
    • 优点:设计简单,易于回答面向某单个主体的属性值的查询(星状查询)。
    • 缺点:表中存在大量的列;表的稀疏性问题;水平存储存在多值性的问题;数据的变化可能带来很大的更新成本。

    属性表

    • 为降低自连接操作次数,Jena利用聚类属性表、Oracle利用分类属性表等属性表进行RDF数据管理。
    • 聚类属性表:Jena 通过聚类的方式将一些类似的三元组聚类到一起,然后将每一个聚类的三元组统一到一张属性表中进行管理;
    • 分类属性表:利用 RDF 资源的类型信息将三元组进行分类,相同类的三元组放到同一张表中;

    垂直划分策略——按照谓词(或属性)分割

    • 对 RDF 数据按照谓词(或属性)分割成若干表的方法(SW-Store),具体而言, 将 RDF 三元组按照谓词(或属性)的不同分成不同的表,每张表能保存在谓词(或属性)上相同的三元组。

    全索引策略

    • “全索引(exhaustive indexing)”策略。提高简单三列表存储的查询效率

    ② 基于图模型的 RDF 数据存储和查询

    优点:最大限度的保持 RDF 数据的语义信息,利于对语义信息的
    查询。

    SPARQL 查询就可以视为在 RDF 数据图上进行子图匹配运算。

    • 子图匹配运算(经典问题,NP难问题):给定一个数据图和一个查询图,找出数据上所有与查询图子图同态的位置。
    • 典型系统:gStore、TurboHOM++等

    (3) 知识查询与推理人才介绍

    Frank Wolter(利物浦大学计算机)

    • 研究方向:模态逻辑、语义、逻辑推理、人工智能、知识表示与推理等方向,自 1994 年起在知识查询与推理领域的研究从未间断并屡次获奖。

    Diego Calvanese(KRDB,意大利波尔扎诺自由大学)

    • 研究方向:知识表示和推理、本体语言、描述逻辑、概念数据建模、数据集成、图形数据等方向。
    • 在 2005 年前后有大量研究成果产出,主要为逻辑描述与数据完整性方向,现阶段负责 Euregio 知识运营支持、 SMartDF 等科研项目。

    沈一栋(中国科学院软件研究所)

    • 研究方向:逻辑描述、逻辑程序设计、数据挖掘、联合查询、知识推理与查询等方向

    漆桂林(东南大学)

    • 研究方向:知识库构建与清理、知识挖掘、语义 Web、深度学习等方向, 2005 年至今在知识图谱领域从事长期研究。

    Meghyn Bienvenu(波尔多大学 LaBRI 研究实验室)

    • 研究方向:逻辑模型、知识表示和推理、逻辑描述、联合查询等方向, 现阶段的主要研究方向围绕描述逻辑本体及其在查询数据中的应用展开。

    5、知识应用

    (1)典型应用

    知识图谱的典型应用(KG + 业务场景)

    • 包括:语义搜索智能问答以及可视化决策支持三种。
    • 关键研究内容:如何针对业务需求设计实现知识图谱应用,并基于数据特点进行优化调整

    ① 语义搜索

    • 语义搜索:当前基于关键词的搜索技术在KG的知识支持下可以上升到基于实体和关系的检索
    • 作用:准确捕捉用户搜索意图,解决关键字语义多样性及语义消歧难题;
    • 结果:直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接;

    ② 智能问答

    • 问答系统(Question Answering, QA)任务:智能问答需要针对用户输入的自然语言进行理解,从知识图谱中或目标数据中给出用户问题的精准的自然语言形式的答案。
    • 关键技术及难点:准确的语义解析、正确理解用户的真实意图、以及对返回答案的评分评定以确定优先级顺序。

    ③ 可视化决策支持

    • 可视化决策支持:通过提供统一的图形接口,结合可视化、推理、检索等,为用户提供信息获取的入口。
    • 关键问题:通过可视化方式辅助用户快速发现业务模式、
      提升可视化组件的交互友好程度、以及大规模图环境下底层算法的效率等。

    (2)通用和领域知识图谱

    通用知识图谱 vs. 领域知识图谱

    • 相同:本质相同;
    • 不同:覆盖范围与使用方式。
      • 通用知识图谱:强调知识的广度,可看成一个面向通用领域的结构化百科知识库,其中包含了大量的现实世界中的常识性知识,覆盖面广,通常运用百科数据进行自底向上(Top-Down)的方法进行构建。
      • 领域知识图谱(行业知识图谱、垂直知识图谱):面向某一特定领域的基于语义技术的行业知识库,有着严格而丰富的数据模式,应用需求各不相同,因此没有一套通用的标准和规范来指导构建,需要基于特定行业通过工程师与业务专家的不断交互沟通与定制来实现, 所以对该领域知识的深度、知识准确性有着更高的要求。

    (3)知识应用人才介绍

    Sophia Ananiadou(英国国家文本挖掘中心(NaCTeM),曼彻斯特大学)

    • 研究方向:信息提取、文本挖掘、数据挖掘、自然语言处理、生物信息、算法等方向,其中的文本挖掘方向贡献显著,为生物医学领域提供了工具、资源、系统及基础设施。
    • 现阶段的研究侧重于提高知识发现速度。

    Sören Auer(汉诺威大学)

    • 研究方向:关联数据、知识库、文本分析、语义网络、开放数据等方向,对语义网络、 关联数据的研究较为深入。

    周明(微软亚洲研究院)

    • 研究方向:机器翻译、知识应用、统计模型、自然语言处理等方向。

    赵军(中国科学院自动化所模式识别国家重点实验室)

    • 研究方向:问答系统、信息提取、知识库构建、自然语言处理、中文信息处理等方向, 2005 年后在知识库构建领域有持续性研究。

    6、高引论文(Top10)

    序号paper
    1Distant supervision for relation extraction without labeled data
    Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky.ACL/IJCNLP,2009.
    2You are where you tweet: a content-basedapproach to geo-locating twitter users
    Zhiyuan Cheng, James Caverlee, and Kyumin Lee.CIKM,2010.
    3YAGO2: a spatially and temporally enhanced knowledge base from wikipedia
    Johannes Hoffart, Fabian M. Suchanek, Klaus Berberich, and Gerhard Weikum.IJCAI,2013.
    4Knowledge vault: a web-scale approach to probabilistic knowledge fusion
    Xin Dong 0001, Evgeniy Gabrilovich, Geremy Heitz, Wilko Horn, Ni Lao, Kevin Murphy, Thomas Strohmann, Shaohua Sun, and Wei Zhang.KDD,2014.
    5Robust disambiguation of namedentities in text
    Johannes Hoffart, Mohamed Amir Yosef, Ilaria Bordino, Hagen Fürstenau, Manfred Pinkal, Marc Spaniol, Bilyana Taneva, Stefan Thater, and Gerhard Weikum.EMNLP,2011.
    6BabelNet: building a very large multilingual semantic network
    Roberto Navigli, and Simone Paolo Ponzetto.ACL,2010.
    7Driving with knowledge from the physical world
    Jing Yuan, Yu Zheng, Xing Xie, and Guangzhong Sun.KDD,2011.
    8Open domain event extraction from twitter
    Alan Ritter, Mausam, Oren Etzioni, and Sam Clark.KDD,2012.
    9Sentiment analysis of blogs by combining lexical knowledge with text classification57
    Prem Melville, Wojciech Gryc, and Richard D. Lawrence. KDD,2009.
    10Open information extraction: the second generation
    Etzioni, Oren and Fader, Anthony and Christensen, Janara and Soderland, Stephen and Mausam, Mausam. IJCAI, 2011

    第三章 应用篇

    1、通用知识图谱应用

    通用知识图谱

    • 面向通用领域的“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广。
    • 由于现实世界的知识丰富多样且极其庞杂,通用知识图谱主要强调知识的广度,通常运用百科数据进行自底向上(Top-Down)的方法进行构建。

    国外典型系统

    • DBpedia :使用固定的模式从维基百科中抽取信息实体,当前拥有 127 种语言的超过两千八百万实体以及数亿 RDF 三元组;
    • YAGO: 则整合维基百科与 WordNet 的大规模本体,拥有 10 种语言约 459 万个实体, 2400 万个事实;
    • Babelnet: 则采用将 WordNet 词典与Wikipedia 百科集成的方法,构建了一个目前最大规模的多语言词典知识库,包含 271 种语言 1400 万同义词组、 36.4 万词语关系和 3.8 亿链接关系。

    国内典型系统

    • Zhishi.me: 从开放的百科数据中抽取结构化数据,当前已融合了包括百度百科、互动百科、中文维基三大百科的数据,拥有 1000 万个实体数据、一亿两千万个 RDF 三元组;
    • CN-DBPedia:以通用百科为主线,结合垂直领域的 CN-DBPedia,则从百科类网站的纯文本页面中提取信息,经过滤、融合、推断等操作后形成高质量的结构化数据;
    • XLore :则是基于中文维基百科、英文维基百科、百度百科、互动百科构建的大规模中英文知识平衡知识图谱。

    2、领域知识图谱应用

    领域知识图谱

    • 用来辅助各种复杂的分析应用或决策支持,不同领域的构建方案与应用形式则有所不同

    第四章 趋势篇

    知识类型与表示

    • 研究问题:面对包含大量实体及其之间的复杂关系的复杂知识,如何合理设计表示方案,更好地涵盖人类不同类型的知识。

    知识获取

    • 研究问题:如何从互联网大数据萃取知识,同时提升准确率、准确率和效率。

    知识融合

    • 研究问题:多源异构数据(且存在大量噪声和冗余),或使用不同的语言的数据的有机融合。

    知识应用

    • 研究问题:目前大规模知识图谱的应用场景和方式比较有限,如何有效实现知识图谱的应用,利用知识图谱实现深度知识推理,提高大规模知识图谱计算效率,需要人们不断锐意发掘用户需求,探索更重要的应用场景,提出新的应用算法。

    趋势:特色化、开放化、智能化

    展开全文
    u012736685 2019-08-29 11:20:09
  • 在人类获取知识的过程中越来越关注事物的本质,借助人工智能以及大数据分析的能力,在其基础上衍生了各类各样的智能应用,其中知识图谱的构建,至关重要。封面智媒云一直关注于知识图谱构建的趋势发展。借助多年知识...
    9123bc0391e9eec354b192d900bd8e0e.png

    在人类获取知识的过程中越来越关注事物的本质,借助人工智能以及大数据分析的能力,在其基础上衍生了各类各样的智能应用,其中知识图谱的构建,至关重要。

    封面智媒云一直关注于知识图谱构建的趋势发展。借助多年知识库的沉淀,以及对知识图谱构建的思考,本次邀请到的分享嘉宾是数据研究部-AI产品经理Clown,让我们一起从产品角度看知识图谱的基本概念以及应用场景。

    初识知识图谱

    1.知识图谱的意义

    2384aaf97bcc7c25854d385265b5ace6.png

    AI需要从感知智能迈向认知智能,本质上知识是一个基础,然后基于知识的推理,刚好知识图谱其实是具备这样的一个属性。

    2. 知识工程的历史

    f8679007185f795a5066b1977d513e4b.png

    3.什么是知识

    c65cbf90e4f022f687a7d21cff7620b3.png

    信息:是指外部的客观事实,如封面新闻,中国,第一智媒体

    知识:是对外部客观规律的归纳和总结,如封面新闻是中国的第一智媒体。

    4.什么是知识图谱

    37d3e83037091a8bfeb0bbc9b8bf03fb.png

    知识图谱(Knowledge Graph)本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。

    5. 知识图谱的构成

    0c92d15db368069d59530aff7b7491aa.png

    实体:具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某一种植物、某一件商品等等。

    概念:具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。

    内容:通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。

    属性:从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。如 “面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值,例如960万平方公里等。

    关系:关系是连接不同的实体,指代实体之间的联系。通过关系节点把知识图谱中的节点连接起来,形成一张大图。

    构建知识图谱

    1.数据类型

    知识图谱的数据类型包含结构化数据(关系数据库),半结构化数据(如XML、JSON、百科),非结构化数据(如图片、音频、视频、文本)。

    2. 逻辑结构

    模式层:模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

    数据层:数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质

    3. 存储方式

    RDF(资源描述框架):其本质是一个数据模型(Data Model)。它提供了一个统一的标准,用于描述实体/资源。简单来说,就是表示事物的一种方法和手段。

    252a2743e9ac09ab1e631be864a893d8.png

    RDF由节点和边组成,节点表示实体/资源、属性,边则表示了实体和实体之间的关系以及实体和属性的关系。

    图数据库:在知识图谱方面,图数据库比关系数据库灵活的多。

    在数据少的时候,关系数据库也没有问题,效率也不低。但是随着知识图谱变的复杂,图数据库的优势会明显增加。当涉及到2,3度的关联查询,基于图数据库的效率会比关系数据库的效率高出几千倍甚至几百万倍。

    4.技术架构

    760df9231e1190b435593a7bf0443628.png

    5.知识图谱构建过程

    adbc3c115518152f444e1aff27548d51.png

    知识图谱应用

    1. 信息检索

    语义搜索-答案检索型

    971e41e7e515de490307cba7fa29a73c.png

    [ 原理 ] 对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案

    [ 场景 ] 直接找到问题的答案,而非大量的网页链接

    关系搜索

    5b161d5eaa14b8a5b6534f65444f62f3.png

    [ 场景 ] 快速准确地查询两个实体之间的关系

    可视化展示

    ae829f48b8c19acf42f5df25bf815c3b.png

    [ 场景 ] 直观清晰的呈现概念的所有实例

    2.智能推荐

    推荐系统作为一种信息过滤的重要手段,是当前解决信息超载问题的最有效的方法之一,是面向用户的互联网产品的核心技术。

    使用推荐服务会遇到2个问题:

    使用数据稀疏:在实际场景中,用户和物品的交互信息往往是非常稀疏的。

    冷启动问题:对于新加入的用户或者物品,由于系统没有其历史交互信息,因此无法进行准确地建模和推荐。

    解决上述问题的常用方式就是:在推荐算法中额外引入一些辅助信息

    (1)社交网络(social networks):一个用户对某个物品感兴趣,他的朋友可能也会对该物品感兴趣;

    (2)用户/物品属性(attributes):拥有同种属性的用户可能会对同一类物品感兴趣;

    图像/视频/音频/文本等多媒体信息(multimedia):例如商品图片、电影预告片、音乐、新闻标题等;

    (3)上下文(context):用户-物品交互的时间、地点、当前会话信息等。

    知识图谱…

    知识图谱包含了实体之间丰富的语义关联,为推荐系统提供了潜在的辅助信息来源。知识图谱在诸多推荐场景中都有应用的潜力,例如电影、新闻、景点、餐馆、购物等。

    48e1e3ebf20d60d537f381d2573d093c.png

    精确性:知识图谱为物品引入了更多的语义关系,可以深层次地发现用户兴趣;

    29b73fdade3ebe1f924bf31299d60dd2.png

    多样性:知识图谱提供了不同的关系连接种类,有利于推荐结果的发散,避免推荐结果局限于单一类型;

    525ece5b8c80b415da99a102600c31ef.png

    可解释性:知识图谱可以连接用户的历史记录和推荐结果,从而提高用户对推荐结果的满意度和接受度,增强用户对推荐系统的信任。

    3.反欺诈

    73c714631ed59057ea5ce1cfd8e453b3.png

    不一致性验证:不一致性验证可以用来判断一个借款人的欺诈风险

    比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。

    再比如,借款人说跟张三是朋友关系,跟李四是父子关系。很显然,朋友的朋友不是父子关系,所以存在着明显的不一致性。

    4.其他行业应用

    公安刑侦:分析实体和实体之间的关系以获得线索等;

    司法辅助:法律条文的结构化表示和查询来辅助案件的判决等;

    电子商务:构建商品知识图谱来精准地匹配用户的购买意愿和商品候选集合;

    医疗诊断:提供可视化的知识表示,用于药物分析、疾病诊断等;

    总结

    封面智媒云致力于文化科技融合领域对数据结构化和知识图谱化的探索,构建自身数据知识图谱,通过数据驱动,改进和优化现有产品,结合实践场景,促进媒体融合发展的同时,为用户和客户创造更多优质的智能化产品。

    扫码8b17f1a38daeccb3350ae9a18f14b2b0.png关注

    b10f985e7f80bcf2bbf0e382a93a19bc.png

    RECOMMEND推荐阅读媒体产业转型新空间:技术赋能智慧文博

    案例分享 | 智媒云携手黑龙江!广播电视台,全力打造《极光新闻》

    案例分享 | 智媒云携手辽宁日报,打造《北国》

    智媒云产品剖析--智能推荐系统(下)

    封面数据 | 行业案例,AI驱动医疗行业技术解决方案

    重磅!智媒云3.0的总体架构发布,智媒体全套作战图是这样

    展开全文
    weixin_39676979 2020-11-22 06:05:52
  • 人工智能知识图谱 知识图谱(knowledge graph )是人工智能领域的重要分支技术,概念最初由谷歌于2012年提出,成为创建大规模知识应用的必要技术,在自然语言处理,电子商务,搜索,智能助手等领域发挥着重要作用...

    人工智能之知识图谱

    知识图谱(knowledge graph )是人工智能领域的重要分支技术,概念最初由谷歌于2012年提出,成为创建大规模知识应用的必要技术,在自然语言处理,电子商务,搜索,智能助手等领域发挥着重要作用。知识图谱、大数据、深度学习成为推动人工智能技术的发展的核心驱动力。

    知识图谱以结构化的形式描述现实世界中的实体,概念及其之间的关系,将互联网上的信息表达成一种更接近人类认知世界的形式,为机器提供了组织、管理和理解互联网信息的能力。

    知识图谱的分类方式有多种,可以根据知识的种类、知识的创建方式进行分类。从知识领域上可以将知识图谱分为:通用领域知识图谱和特定领域知识图谱。特定领域知识图谱如:生命科学知识图谱,政府领域知识图谱,社交领域知识图谱等。从集合概念上讲所有特定领域知识图谱共同构成的集合就是通用领域知识图谱。

    常用的知识图谱示意图由3

    种要素:实体、概念和属性构成。实体指具有可区别性且能独立存在的物体。如一间房,一栋楼等。概念指具有相同特性的实体构成的集合,如:房间,楼房,教师等。属性用于描述概念所具有的特性,(对某概念来说)不同属性值类型对应不同类型属性的边,如果属性值对应的是概念或实体,则属性描述两实体或两概念或概念与实体之间的关系称为对象属性,如果属性值是数值则表示数据属性,即属性分为数据类型属性和对象类型属性。不同概念肯定具有不同数量或类型的属性。

    根据维基百科对知识图谱的解释,知识图谱是google为增强其搜索引擎功能而建立的知识库,本质上是揭示实体之间关系的语义网络,可以实现对现实世界的事物及其之间关系的形式进行结构化的描述。现在被泛指为大规模的知识库。可作如下定义:是结构化的语义知识库,以符号的形式描述现实物理世界中的事物及其之间的关系的结构化数据。其基本组成单位是“实体-关系-实体”三元组,以及实体与属性值对,实体间通过关系相互连接,构成网状的知识网络。三元组是一种通用的表示知识图谱的方式,即:G∈(E,R,S),其中E表示知识库中实体的集合,R表示知识库中关系的集合,S⊆E×R×E 代表知识库中的三元组集合,它规定了实体的数量,关系的种类数量及构成的三元组的数量。三元组的基本形式有实体-关系-实体和概念-属性-属性值。实体是知识图谱中最基本的元素,不同实体间存在不同的关系。概念主要是指类别,对象类型等。属性指对象具有的属性、特性、特征、特点或参数,例如张三的国籍和生日等。属性值是指对象指定属性所具有的值,如张三生日属性的属性值2000年1月8日等。每个实体可以用一个全局唯一的ID来标识,属性-属性值对 可用来刻画实体的内在特性。而关系可用来连接两个实体,用来刻画它们之间的关联。

    因此,知识图谱包含三层含义:

    本身是具有属性的实体通过关系链接不同的实体构成的网络状知识库,本质上是一种概念网状图,其中节点表示现实世界中的实体,而实体间的语义关系则构成网络图的边;

    其研究价值在于构建一种基于web基础之上的覆盖网络,借助知识图谱能够建立在web网页上的概念之间的链接关系,从而以一种更小的代价将互联网上的信息组织起来,成为可被利用的知识。

    其应用价值在于改变现有的信息检索方式,一方面通过推理实现概念检索跳出字符串模糊匹配检索模式;另一方面以图形化的形式向用户展示经过分类整理的结构化的知识跳出人工过滤网页寻找答案的模式。

    知识图谱架构图
    知识图谱架构的主要部分:
    1,数据来源(结构化数据,半结构化数据,非结构化数据)
    2,知识抽取(包括实体抽取,关系抽取,属性抽取等);
    3,知识融合(知识消歧,本体构建,质量评估,知识推理,知识更新等);
    4,知识图谱创建;
    4,知识图谱应用。
    已有的大规模知识库:

    知识图谱的关键技术:
    1,知识抽取:
    引用其他作者图片

    2,知识融合:
    实体连接:
    I,实体消歧:主要用于同名实体产生歧义的问题。主要采用聚类法,关键在于定义实体与指称项相似度,常用的方法有:空间向量模型或词袋模型、语义模型–语义模型与空间向量模型类似不同的是不仅包含词袋向量还包括部分语义特征、社交网络模型–该模型假设是物以类聚人以群分,在社会化的环境中实体指称项的意义由其相关联的实体所决定、百科知识模型(百科网页会为每一个实体创建一个单独的网页,其中包括指向其他实体的链接)–根据链接关系确定实体指称项之间的相似度。
    II,实体对齐:主要是用于解决异构数据中实体冲突,指向不明确等不一致问题。可以从顶层构建一个大规模的知识库,帮助机器理解多源异质的数据,提高知识库的质量。实体对齐分为成对实体对齐和集体实体对齐,集体对齐又可以分为局部集体实体对齐和全局集体实体对齐。成对实体对齐可以基于传统的概率模型对齐方法或机器学习模型的对齐方法。局部实体对齐方法是为其本身的属性和与其关联的实体的属性设置不同的权重,并通过加权求和来计算相似度,还可以用向量空间模型或余弦相似性来判别大规模知识库中实体的相似度,算法为每个实体创建了名称向量和虚拟文档向量,名称向量用于标识实体的属性,虚拟文档向量用于标识属性值以及邻接点属性值的加权和值。全局实体集体对齐方法基于相似性传播的集体实体对齐方法或基于概率模型的集体对齐方法。

    实体连接的方法也可以从整体层面上分类如下:概率模型方法,主题模型方法,图法,深度神经网络的方法

    3,知识合并:
    I,合并外部知识库:将外部知识库融合到本地知识库,需要注意两个问题:数据层的融合(包括实体的指称,属性,关系以及所属类别主要问题是避免实例及关系的冲突问题,造成不必要的冗余)和模式层的融合(将新得到的本体融合到本地已有的本体库中);
    II,合并关系数据库:在知识图谱构建过程中,一个高质量的知识来源于企业或机构自己的关系数据库。为了将这些高质量的结构化的历史数据融入到知识图谱中可以采用资源描述架构(RDF)作为数据模型,称之为RDB2RDF,其实质就是将关系数据库中的数据转换为RDF的三元数据。
    4,知识加工:
    I,本体构建:本体定义了组成主题域的词汇表的基本术语及其关系,以及结合这些术语及关系来定义词汇表外延的规则。本体最大的特点是它的共享性,本体中反应的知识是明确定义的共识。本体是同一领域中不同实体进行语义交流的基础,相邻层次的节点(概念)之间具有严格的“IsA”关系 ,这种纯粹的关系有利于推理却不利于表达概念的多样性。本体的构建可以采用人工编辑的方式手动编辑(借助于本体编辑软件),也可以采用计算机辅助以数据驱动的方式自动构建。然后采用算法评估和人工审核相结合的方式予以确认和修正。还可以采用垮语言知识链接的方式来构建本体库。对当前本体构建的方式的研究主要集中在实体聚类的方式,主要挑战在于经过信息抽取后获得的实体描述非常简短,缺少必要的上下文信息,导致多数统计模型不可用(可以利用主题进行主题聚类);
    II,知识推理:指从知识库中已存在的实体关系数据出发,经过计算机推理,建立实体间新的关系,从而拓展和丰富知识网络,知识推理是知识图谱构建的重要手段和关键环节,通过知识推理能够从现有的知识中发现新的知识;
    III,质量评估:质量评估任务通常与实体对齐任务一起进行的,意义在于对于知识的可信度进行量化,保留置信度较高的知识,舍弃置信度较低的知识,从而提高知识库的质量。
    5,知识更新:
    人类所拥有的信息和知识量都是时间的单调递增函数,因此知识图谱也需要不断的更新,是一个不断迭代更新的过程。知识库的更新包括概念层的更新和数据层的更新,知识图谱的更新主要有数据驱动下的全面更新和增量更新两种方式。
    6,知识表示:
    三元组形式的知识表示受到了广泛的认可和接收,但是在计算效率和数据稀疏性方面存在着很多问题,以深度学习代表的学习技术能够将实体语义信息表示为稠密低维的实值向量,进而在低维空间中计算实体、关系及其之间复杂的语义关联,对知识库的构建,融合,推理和应用具有重要意义。分布式表示旨在用一个综合的向量表示实体语义信息,是一种模仿人脑工作的机制,通过知识表示而得到的分布式表示在知识图谱的计算,推理,补全等方面起着重要的作用,语义相似度计算和链接预测(知识图谱补全)等代表模型如下:
    引用自其他作者
    模型解释:
    I,距离模型:首先将实体用向量进行表示,然后通过关系矩阵将实体投影到与实体向量同一纬度的向量空间中,最后通过计算投影向量之间的距离来判断实体间已经存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵,故实体间的协同性较差,这也是该模型本身的主要缺陷。
    II,单层神经网络:针对距离模型的缺陷,提出了采用单层神经网络的非线性模型(single layer model,SLM)。单层神经网络模型的非线性操作虽然能够进一步刻画实体在关系下的语义相关性,但是在计算开销上却大大增加。
    III,双线性模型:又叫隐变量模型(latent factor model,LFM)。双线性模型主要是通过基于实体间关系的双线性变换来刻画实体在关系下的语义相关性,模型不仅形式简单、易于计算,而且能够有效刻画实体间的协同性。
    神经张量模型:其基本思想是在不同维度下,将实体联系起来,表示实体间复杂的语义联系。神经张量模型在构建实体的向量表示时,是将该实体中的所有单词的向量取平均值,这样一方面可以重复使用单词向量构建实体,另一方面将有利于增强低维向量的稠密程度以及实体与关系的语义计算。
    V,矩阵分解模型:通过矩阵分解的方式可以得到低维的向量表示,故不少研究者提出可以采用该方式进行知识表示学习,其中典型的代表是RESACL模型。
    VI,翻译模型:受到平移变象限的启发,提出了TransE模型,即将知识库中实体之间的关系看成是从实体间的某种平移,并用向量表示。关系lr可以看成头实体向量lh到尾实体向量lt的翻译。该模型的参数较少,计算的复杂度显著降低,同时,TransE模型在大规模稀疏数据库上也同样具有较好的性能与可扩展性。
    VII,复杂关系模型:知识库中实体关系类型可分为:1-to-1、1-to-N、N-to-1、N-to-N 4种类型。代表性模型有:TransH模型、TransR模型、TransD模型、TransG模型、KG2E模型。
    空间向量模型:由Salton等人于20世纪70年代提出,并成功用于著名的smart文本检索系统。是把对文本的处理简化为向量空间中向量的运算,计算向量之间的相识度,具体的公式为 向量内积/向量模的乘积 得到的值如果为1则为一致,为0则不相似,即余弦相似性公式。余弦为零则表示检索词向量与文件向量垂直,即没有符合,也就是说该文件不含有此检索词,从而达到把文本数据转化为计算机能够处理的结构化文本数据,两个文档之间的相似性就转换为两个向量的相似性问题。

    展开全文
    wedream0001 2020-01-17 16:16:24
  • weixin_39996035 2020-11-22 06:06:04
  • 780KB weixin_38741966 2021-01-27 13:06:57
  • Peter_Changyb 2020-04-14 18:23:13
  • aidanmo 2020-01-03 10:36:37
  • chaishen10000 2020-10-28 12:18:49
  • 1.26MB weixin_38691055 2021-01-08 04:59:54
  • weixin_39945915 2020-11-10 20:42:29
  • 1.39MB weixin_38623080 2021-05-06 12:38:29
  • 1.28MB weixin_45548638 2019-08-21 15:39:57
  • 556KB elijah_hz 2019-04-19 12:37:07
  • 349.8MB weixin_42099151 2021-05-11 14:54:27
  • weixin_40920183 2021-01-06 19:22:14
  • valada 2018-07-03 02:46:00
  • 406KB robotblog 2021-09-06 18:07:09
  • c9Yv2cf9I06K2A9E 2020-02-26 16:21:48
  • litianquan 2018-09-19 13:51:26
  • omnispace 2018-05-11 06:36:39
  • qq_45647925 2021-01-25 10:25:16
  • universsky2015 2020-01-09 00:13:47
  • demm868 2020-07-09 10:36:00
  • weixin_42462804 2019-08-19 15:02:48
  • DataGrand 2021-10-25 17:45:49

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,684
精华内容 2,273
关键字:

智能检索知识图谱