精华内容
下载资源
问答
  • 7.23 知识图谱在信息检索中的应用 随着知识图谱相关技术的逐渐成熟,近年来,学术界也开始了对知识图谱的在搜索引擎中的应用的探索。目前常用的方法是:先通过实体标注等技术将搜索引擎和知识图谱联系起来;然后利用...

    7.23 知识图谱在信息检索中的应用

    随着知识图谱相关技术的逐渐成熟,近年来,学术界也开始了对知识图谱的在搜索引擎中的应用的探索。目前常用的方法是:先通过实体标注等技术将搜索引擎和知识图谱联系起来;然后利用知识图谱中的信息来更好地理解查询词条和改进排序模型。

    知识图谱和搜索引擎的结合

    知识图谱和之前搜索引擎中常见的数据有很大不同。首先,知识图谱是图结构的,而搜索引擎中更常见的是文本和网页;同时,知识图谱中的信息更语义化。要想能够在搜索引擎中使用知识图谱,首要要做的是把知识图谱,或者更具体地说,其中的实体,和搜索引擎给对接起来。目前常见的方法有如下四种。

    ●  人工标注:人工挑选相关和查询词条相关的实体。这种方法直观、可靠。但是只能一定程度上代表知识图谱效果的某种上限,很难大规模使用。

    ●  搜索词条中的实体标注[3] :使用实体标注系统找出在搜索词条中出现的实体,并连接到知识图谱中对应的节点上。因为实际用户在搜索词条中提到的实体很大概率上反映用户的意图,所以通过搜索词条上的实体标注可以提供相对高质量的相关实体。

    ●  实体搜索:建立一个实体搜索引擎,将查询词条的前几条实体搜索结果当作相关实体[5] 。

    ●  文档实体标注:对候选文档进行实体标注,然后所有候选文档的实体标注中选择最频繁出现的那部分当作相关实体。这种方法使用了经典的伪相关反馈假设。即被搜索引擎排在前面的文档结果应当是相关的,这些文档中常出现的实体也应该是相关的[4] 。

    总的来说,这四种方法各有特点。人工标注能够保证相关实体的准确性,但是只具有指导意义;搜索词条中的实体标注能够提供更直接、更精确的相关实体,但是数量有限;实体搜索和文档实体标注结果从不同角度提供了更丰富的相关实体,但是也引入了更多噪声。表 1 给出了几种不同的方法找出的相关实体结果,作为示例。image
    基于知识图谱的用户查询词条理解

    得到了查询词条的相关实体之后,最直观的方法是用这些实体来帮助理解查询词条。目前主要的方法有查询词条扩展和排序模型的特征扩展两种。

    基于 Freebase 的查询词条扩展[6]

    本 方 法 利 用 Freebase 这 个 目 前 最 大、 覆盖面最广的知识图谱,来提升查询扩展(queryexpansion)的效果。查询扩展是搜索中很常用的技术。一般用户给的查询词条很短,平均约 2~3 词。这导致了用户意图很难被搜索引擎准确理解。为了解决这个问题,查询扩展技术找到一系列能够反映用户意图的词语(扩展词),作为查询词条的补充。

    在知识图谱里,实体的文本描述是由领域专家提供的对实体的解释。这些文本解释不但质量比网页更高,也提供了更丰富的语义信息。例如,“微软中国”这个实体的文本描述中会提到大量的微软公司以及中国分公司的知识。这些知识能够帮助搜索引擎更好地理解和“微软中国”相关的搜索词条。

    具体做法可以分成两步。第一步,先找到查询词条的相关实体。由于查询扩展一般需要一个较大的候选集合来投票得出扩展词。这里主要使用的方法是实体搜索和文档实体标注来找到相关实体。第二步,从相关实体的文本描述中选择扩展词。这一步也有两种方法:第一种方法用经典的 TF-IDF,在文本描述中选择出现更频繁(TF),在整个数据集中又相对少见(IDF)的词。第二种方法用Freebase 中的分类信息训练一个分类器,将查询词和候选词语分类。之后再选择和查询词在类别上相似的词语作为扩展词。

    本方法在 TREC 评测中网页搜索的数据集上,将查询扩展的效果提升了 10%~30%。和之前的方法相比,这个方法主要的区别就是使用了知识图谱中的信息。这样能带来最高可达 30% 搜索效果的提升,也反映了知识图谱在搜索中的有效性。

    排序模型中特征扩展[7]

    搜索引擎中目前常见的排序方法都是基于机器学习的(learning to rank)。一个好的排序算法可以分为特征和模型两个部分。知识图谱中的信息,除了可以拿来扩展查询词条之外,也可以给排序算法提供更丰富的特征。

    本方法首先利用实体搜索和查询词条,以及文档上实体标注,从 Freebase 中找到到相关实体。然后,将相关实体的各种文本属性,包括类别名、名称,以及实体在文档中的上下文等,作为虚拟的子查询词条。这些子查询词条和文档的各种文本相似度被当作新的特征加入到现有的排序模型中。这些排序特征引入了来自于知识图谱不同维度的语义信息,提供了一个更大的模型空间供机器学习模型来学习排序函数。在 TREC 的网页搜索任务上和新闻搜索数据集上,这个方法能够达到或者超过之前的排序模型效果。

    基于知识图谱的排序模型

    之前的方法是首先通过知识图谱来扩展查询词条,或者抽取更多特征,然后在此基础上应用传统的模型进行排序。相比之下,一个更直观做法是从最终的查询结果优化的角度出发,直接利用知识图谱构建新的搜索模型。目前有效的做法是将找到的相关实体作为联系查询词条和文档之间的桥梁,并在排序模型中统一考虑查询词条、相关实体和候选文档之间的联系。根据是否使用了训练数据,现今做法可以分为无监督和有监督这两类。

    无监督的实体隐变量模型(LES) [8]

    本方法使用人工标注的实体来作为查询词条和候选文档之间的中间层,然后利用标注的实体的文本描述和查询词条,以及文档的文本相似度对文档进行排序。

    具体来说,假定查询词条是 q,一篇候选文档是 d,则传统语言模型假设下的相关性可以认为是p(q|d),即文档 d 的语言模型生成 q 的概率。而给定相关实体之后,可以假设 q 和 d 之间的互动是通过相关实体作为中间层实现的。这样的话,相关性可以被表示为e /p(q|e)p(e|d)。其中 e 表示一个相关实体,p(e|d) 和 p(q|e)则通过文档、实体和查询词条的文本描述的文本相似度来计算。

    作为一个简单的无监督方法,此模型在 2015年的 TREC 网页搜索比赛中获得了最好的搜索效果,超过了诸多基于机器学习和传统排序特征的有监督模型。当然,这种方法很依赖相关实体的精确度,目前主要依靠人工标注来保证效果,很难自动地在实际系统中上使用。但是,作为一个简单的方法,它的效果也进一步反映了知识图谱在排序模型中的潜力。

    有监督的实体隐变量模型 (EsdRank) [9]

    EsdRank 和 LES 同样将相关实体作为排序模型中的查询词和文档之间的隐含层进行建模。不同的是 EsdRank 利用各种特征表示查询词、相关实体和文档之间的相关性,并使用 Learning to Rank学习这些特征的权重。通过使用有监督的模型和相关性标注数据,EsdRank摆脱了对人工标注的依赖,可以在自动得到相关实体上也获得好的效果。

    EsdRank 中的相关实体也来自查询词条中的实体标注、实体搜索和候选文档的实体标注。实体和查询词条之间的关系,以及实体和候选文档之间的关系,均用特征来表示。查询词条和实体之间的特征可以是查询词条和实体各个属性(文本描述、名称等)的文本相似度,以及查询词和实体在知识图谱中所在类别的相似度、实体和查询词在实体标注中的关系、实体本身的重要性等。实体和文档之间的特征包括类似的文本、分类、实体标注,以及知识图谱中的距离等。这些特征既包含了传统的排序模型中的文本特征,也引入了知识图谱特中的语义信息。

    整个排序过程被一个两层的生成式模型刻画。模型首先从查询词条生成相关实体(p(e|q)),进而根据相关实体对相关文档进行排序(p(d|e))。其中相关实体则是隐含变量。模型的训练使用了 EM 方法,直接从查询词 - 文档的相关性中学习实体的打分和文档的排序。

    EsdRank 在医疗搜索和网页搜索这两个不同的搜索领域上,都显著提高了搜索精确度。在医疗搜索上,EsdRank 选择了传统的 MeSH 控制词表作为知识图谱;在网页搜索上,EsdRank 选择的是Freebase。面对这两个不同的搜索领域和不同的知识图谱,EsdRank 使用了相同的框架、相同的模型和几乎一样的特征,并均取得了好的效果。这个结果也反映了知识图谱目前在搜索上已经接近,或者达到了实际可用的效果,并对不同的搜索领域有一定的普世性。

    展开全文
  • 构建行业知识图谱,实现智能推理与知识服务,推进多机多人多任务的人机协同,开发新一代知识工程的技术体系和系统平台,服务搜索、推荐、规划、对话机器人等领域的情景感知和人机协同。 信息检索 围绕自然语言处理、...
        

    智能五大技术方向

    知识工程

    面向垂直行业,结合专家知识、多源异构的碎片化知识和组织智能,引领从大数据分析到大知识工程进而大智慧系统的研发和落地应用。构建行业知识图谱,实现智能推理与知识服务,推进多机多人多任务的人机协同,开发新一代知识工程的技术体系和系统平台,服务搜索、推荐、规划、对话机器人等领域的情景感知和人机协同。

    信息检索

    围绕自然语言处理、自然语言理解、知识图谱工具、智能问答、智能检索等领域进行技术研究与应用。建设基于主动学习与迁移学习的自然语言处理平台,重点投入自然语言理解、非结构化数据的实体与关系提取,半自动化及自动化知识抽取等方向,构建知识图谱工具,提供智能问答、智能检索等上层应用。

    深度学习

    专注于以深度学习为核心的技术研发,针对垂直行业,支撑集团的智能餐饮、智能零售、供应链物流、智能营销、智能工业等业务领域。分为三个小组:
    计算机视觉组:检测分割、目标跟踪、图像分类、动作识别、场景识别、身份识别等算法模型与工具;
    语音技术组:语音识别、语音合成、声纹识别、音频搜索; 高性能计算组:深度学习算法模型在单机(CPU/GPU/FPGA/ASIC)或集群上的并行化、高性能实现与移植,为计算机视觉与语音技术降低算力成本提供底层支持。

    视觉计算

    将聚焦AI+新服务、AI+制造业、服务机器人三大场景,基于摄像头采集的人员、物体、环境数据,重点围绕人员检测跟踪、人员分类、着装识别、人体姿态估计、动作识别与预测,物品异常瑕疵检测与识别,机器人视觉定位等核心技术,开展线下数据实体化的研发与应用。

    营销智能

    聚焦智能推理推荐、人机交互优化、消费者认知与决策过程、意图预判与趋势预测。研究基于数据驱动的营销策略优化、基于数据挖掘的营销图片视频识别、基于生理与脑科学数据的情感识别、以及智能自动化创意生成等问题,为营销智能提供场景受众定位、推荐与行为决策的技术与理论支持。

    1233356-8c53ff640e92e4d5.png
    image.png
    1233356-5b484eb55dba43e3.png
    image.png

    多元数据深度挖掘和计算的关联知识挖掘平台

    基于各行业的基础信息、标签特征、轨迹行为、交易记录、通联事件、围栏卡口等数据,通过规则引擎、机器学习、图挖掘等多种计算方法,分析、挖掘和推理出多元化对象(如“人-号码-账户-案件-物品-场所-组织等)之间多维度的关联关系,用于行业大脑的知识积累、符号计算和智能推理。通过 HARTS,客户可以最大程度的利用和挖掘轨迹类的价值,识别人与人之间的隐性关系,隐性关系丰富了知识图谱关系边的种类,能够有效的提升公安干警办案效率。

    1233356-42bec0df121e51ba.png
    image.png

    公安知识图谱平台

    明略公安知识图谱平台以科学、合理、高效的方式将大量存在的孤立、异构数据融合到知识图谱中,将碎片化的数据有机地组织到符合人们认知方式的知识网络中,让数据更加容易被人和机器理解与处理,为搜索、分析、挖掘、应用、展现、预测预警等各类应用提供更加高效、更加可靠的支持。

    核心优势

    • 可视、高效的数据治理能力

    • 创新型公安大数据交互模式

    • 创新型大数据公安情报内生能力

    • 创新型警务大数据服务模式

    场景解释

    • 知识图谱数据治理

    知识图谱数据治理将公安各类数据(结构化数据、半结构化数据、文本数据、音视频图像等非结构化数据)进行识别,将其中的各类数据串连、组织、融合汇总成为人、地、事、物、组织等实体为节点,属性、时空、语义、特征等联系为边的一张关系网中,形成公安知识图谱库,再现真实世界对象之间的错综复杂的关系,利用AI技术让计算机仿照人类的思维方式去“思考”从而精准和推断问题的答案。

    知识图谱平台提供长效机制,使公安知识图谱库能伴随着新数据的接入而不断更新、丰富,为上层各类基于知识图谱的人机交互研判应用和智能挖掘模型服务提供数据支撑。

    知识图谱数据治理主要包括数据接入平台、数据处理平台、数据治理平台、公安知识图谱数据库等。

    • 知识图谱研判工具

    知识图谱研判工具主要采用明略自主知识产权的可视化知识分析平台SCOPA。

    知识图谱研判工具提供丰富的可视化展示界面,以及强大的分析功能,可快速将分散的海量多样数据进行智能关联和分析挖掘,并将全量数据归一为业务人员理解熟悉的语言和图形,最大化还原数据的本质。可以在数亿实体和数十亿的关系网中,实时进行关系挖掘、路径推演、全文检索、时空分析等操作,同时辅以强大灵活的交互功能。加速侦查人员获取有效信息的效率,延伸侦查人员的侦查智慧,提高侦查人员对数据的掌控和利用水平。

    知识图谱研判工具主要包括知识图谱的检索、关系挖掘、路径推演、时空分析、在线战法等基础研判功能。

    • 知识图谱挖掘模型

    根据不同的业务场景,基于公安知识图谱,构建各类分析和挖掘模型,通过分析人员关系,发现隐藏在后面的团伙关系及潜在ZDR,帮助公安人员掌握全面的人员情况,获取相关违法犯罪行为的线索。

    知识图谱挖掘模型提供各种专业模型包,用于支持业务人员的分析研判,目前已经沉淀了大量犯罪人员及群体的挖掘模型。

    √ 模型的构建过程:根据一定的研判分析经验,固化下来的一些规则模型,利用大数据分析引擎,以及海量的关系网络图谱和轨迹数据,通过种子人员筛选、规则模型计算、结果集交叉验证等大数据分析手段,挖掘出有高可信度的团伙或潜在ZDR员,提供给业务人员分析研判。

    √ 模型的结果:研判的结果可以直接以团伙的形式,也加入多轨联控模块进行动态管控,只要有符合条件的行为轨迹,即刻发出高危预警,提醒情报人员执行相应的措施。

    • 知识图谱服务接口

    知识图谱服务平台提供各类服务接口,可供服务端或者其他业务系统调取使用。平台提供客户端及统一图谱查询语言NQL、图谱检索接口、图谱分析接口,实现指定类型的实体、关系、事件的属性元数据定义及调用服务。

    解决方案架构图

    1233356-fdc74cd68bec1244.png
    image.png
    1233356-8ec6f215cd6ac1f1.png
    image.png

    智慧缉毒打防管控平台

    智慧缉毒平台基于多年来总结的涉毒类案件的特征,借助大数据技术与机器学习相结合的手段,建立新型缉毒工作流程,实现更高层次的涉毒违法犯罪分析挖掘,基于涉毒团伙内聚关系实现对隐性涉毒高危人员及团伙的挖掘、发现、推送、侦查、反馈的一体化研判平台。

    行业痛点

    近年来毒品违法犯罪趋势有所上升,重大贩毒案件持续多发,涉毒管控范围面广,警力不足,平台提供精确的涉毒关联线索挖掘分析,实现精准管控、精准打击。

    为了能够解决毒品犯罪群体化、联络方式多元化,流通渠道多样化等现代贩毒制毒的特点。我司应运而出了警务大脑-智慧缉毒大数据分析平台软件,充分借助大数据、人工智能等新技术,进行深度关系挖掘,实现 “抓住一个,挖出一伙”。

    场景解释

    首先基于禁毒业务需要,对高危涉毒人员的标签类、轨迹类和关系类的多源异构数据进行采集、接入、汇聚、存储和组织。其次通过拓展多渠道数据接入手段汇聚分散在各业务系统的涉毒相关数据资源。最后在此基础上,借助分布式存储计算、图计算、机器学习以及警用地图等技术,对涉毒数据进行整合、关联、融合,逐步形成大数据背景下可为禁毒工作提供全面支撑的涉毒可视化分析应用。

    智慧缉毒平台嵌套多种警务模型模块,包括鲜活度积分模型、身份判定模型、基础团挖模型等十三种分析挖掘模型算法,基于监督学习挖掘模型,分析涉毒人员的行为特征,并提炼出相关因子,形成涉毒分析知识库,把知识上升为有价值的情报。

    • 高危涉毒人员推送
      1233356-684529f623b5c4f8.png
      image.png
    • 隐性高危涉毒人员预测
    1233356-94bdc111951135e1.png
    image.png
    • 涉毒人员团伙挖掘分析
      1233356-bf8e7ca4431e0a3d.png
      image.png
    • 高危涉毒人员全息画像
      1233356-716ba70616ea2e91.png
      image.png

    参考资料

    https://blog.csdn.net/tobacco5648/article/details/50513949

    大规模1.4亿中文知识图谱开源下载

    知识图谱可视化:https://www.ownthink.com
    本次ownthink开源了史上最大规模的中文知识图谱,数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用csv格式。
    百度网盘链接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp
    解压密码:https://www.ownthink.com/

    展开全文
  • 信息技术飞速发展不断推动着互联网技术的变革互联网的核心性技术Web经历了...智能化语义检索的基础和桥梁就是知识图谱知识图谱第一部分第二部分第三部分第四部分什么是知识图谱知识图谱的表示知识图谱的应用知识图谱的...
  • 概述知识图谱在人工智能中的应用

    万次阅读 2018-07-03 02:46:00
    知识图谱(Knowledge Graph) 以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。 知识图谱作为近两年在大数据时代下新颖的知识组织与检索技术,其知识组织和展示的优势逐渐体现...

    随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph) 以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。

    知识图谱作为近两年在大数据时代下新颖的知识组织与检索技术,其知识组织和展示的优势逐渐体现出来,受到众多领域的关注。知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。知识图谱于2012年5月17日由[Google]正式提出,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能的技术发展和应用,知识图谱逐渐成为关键技术之一,现已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。

    虽然您可能说不出知识图谱的具体定义,但其实您每天都在使用它。当您在百度搜索时,搜索结果右侧的联想,就来自于知识图谱技术的应用;您问百度某个字怎么念,答案也来自知识图谱的应用;您和度秘聊天,问他詹姆斯和科比谁厉害、都取得了哪些成就等等,背后都是知识图谱在发挥作用……现在网络搜索、地图、金融等越来越多的领域,都越来越依赖知识图谱。

    通过本场 Chat 中,您将会了解到:

    1. 知识图谱的基本概念;
    2. 知识图谱与人工智能的关系;
    3. 知识图谱的构建技术浅述;
    4. 知识图谱的在行业中的典型应用;
    5. 知识图谱的总结与展望。

    随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph)以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。

    知识图谱是知识工程的一个分支,以知识工程中语义网络作为理论基础,并且结合了机器学习,自然语言处理和知识表示和推理的最新成果,在大数据的推动下受到了业界和学术界的广泛关注。

    本文从知识图谱出发,分别浅述了知识图谱的基本概念、知识图谱与人工智能的关系、知识图谱构建技术、知识图谱的在行业中的典型应用,最后对目前的知识图谱技术做出总结并展望。

    1. 知识图谱(Knowledge Graph)的基本概念

    知识图谱(Knowledge Graph),是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是『实体-关系-实体』三元组,以及实体及其相关属性-值对,实体之间通过关系相互联结,构成网状的知识结构。

    其中:

    • 实体:对应现实世界的语义本体
    • 关系:对应本体间的关系,连接了不同类型的实体
    • 属性:描述一类实体的 common 特性,实体被属性所标注

    The world is not made of strings , but is made of things. 知识图谱旨在描述真实世界中存在的各种实体或概念。即知识图谱实现对客观世界从字符串描述到结构化语义描述,是对客观世界的知识映射(mapping world knowledge)。

    知识图谱的核心:知识库

    通过知识图谱,可以实现 Web 从网页链接向概念链接转变,支持用户按主题而不是字符串检索,从而实现真正的语义检索,基于知识图谱的搜索引擎,能够以图形方式向用户反馈结构化的知识,用户不必浏览大量网页,就可以准确定位和深度获取知识。

    enter image description here

    图1 知识图谱示例

    2. 知识图谱与人工智能的关系

    知识图谱对于人工智能的重要价值在于,知识是人工智能的基石。机器可以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如狗的嗅觉。而 “认知语言是人区别于其他动物的能力,同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的重要基础。” 而知识对于人工智能的价值就在于,让机器具备认知能力。

    知识对于 AI 的价值,有了知识的人工智能会变得更强大,可以做更多的事情。反过来,因为更强大的人工智能,可以帮我们更好地从客观世界中去挖掘、获取和沉淀知识,这些知识和人工智能系统形成正循环,两者共同进步。

    机器通过人工智能技术与用户的互动,从中获取数据、优化算法,更重要的是构建和完善知识图谱,认知和理解世界,进而服务于这个世界,让人类的生活更加美好。

    3. 知识图谱构建技术

    目前知识大量存在于非结构化的文本数据、大量半结构化的表格和网页以及生产系统的结构化数据中。构建知识图谱的主要目的是获取大量的、让计算机可读的知识。

    为了阐述如何构建知识图谱,本节首先给出了构建知识图谱的技术图,如下图所示:

    enter image description here
    图2 构建知识图谱技术图

    整个技术图主要分为三个部分:

    • 知识获取:如何从非结构化、半结构化以及结构化数据中获取知识 ;
    • 数据融合:如何将不同数据源获取的知识进行融合构建数据之间的关联;
    • 知识计算及应用:基于知识图谱计算功能以及知识图谱的应用。

    3.1 知识获取

    在处理非结构化数据方面,常见的非结构化数据主要是文本类的文章,因此需要通过自然语言技术识别文章中的实体。常见的实体识别方法有两种,分别是:

    • 用户本身有一个知识库则可以使用实体链接到用户的知识库上;
    • 当用户没有知识库则需要命名实体识别技术识别文章中的实体。

    当用户获得实体后,则需要关注实体间的关系,即实体关系识别。其中有些实体关系识别的方法会利用到句法结构来帮助确定两个实体的关系,因此有些算法中会利用依存分析或者语义解析。如果用户不仅仅想获取实体间的关系,还想获取一个事件的详细内容,那么则需要确定事件的触发词并获取事件相应描述的句子,同时识别事件描述句子中实体对应事件的角色。

    在处理半结构化数据方面,主要的工作是通过包装器学习半结构化数据的抽取规则。由于半结构化数据具有大量的重复性的结构,因此对数据进行少量的标注,可以让机器学出一定的规则进而在整个站点下使用规则对同类型或者符合某种关系的数据进行抽取。最后当用户的数据存储在生产系统的数据库中时,需要通过 ETL 工具对用户生产系统下的数据进行重新组织、清洗、检测最后得到符合用户使用目的数据。

    3.2 知识融合

    当知识从各个数据源下获取时需要提供统一的术语将各个数据源获取的知识融合成一个庞大的知识库。

    提供统一术语的结构或者数据被称为本体,本体不仅提供了统一的术语字典,还构建了各个术语间的关系以及限制。本体可以让用户非常方便和灵活的根据自己的业务建立或者修改数据模型。

    通过数据映射技术建立本体中术语和不同数据源抽取知识中词汇的映射关系,进而将不同数据源的数据融合在一起。同时不同源的实体可能会指向现实世界的同一个客体,这时需要使用实体匹配将不同数据源相同客体的数据进行融合。不同本体间也会存在某些术语描述同一类数据,那么对这些本体间则需要本体融合技术把不同的本体融合。最后融合而成的知识库需要一个存储、管理的解决方案。

    知识存储和管理的解决方案会根据用户查询场景的不同采用不同的存储架构如 NoSQL 或者关系数据库。同时大规模的知识库也符合大数据的特征,因此需要传统的大数据平台如 Spark 或者 Hadoop 提供高性能计算能力,支持快速运算。

    3.3 知识计算及应用

    知识计算主要是根据图谱提供的信息得到更多隐含的知识,如通过本体或者规则推理技术可以获取数据中存在的隐含知识;而链接预测则可预测实体间隐含的关系;同时使用社会计算的不同算法在知识网络上计算获取知识图谱上存在的社区,提供知识间关联的路径;通过不一致检测技术发现数据中的噪声和缺陷。

    通过知识计算知识图谱可以产生大量的智能应用如可以提供精确的用户画像为精准营销系统提供潜在的客户;提供领域知识给专家系统提供决策数据,给律师、医生、公司 CEO 等提供辅助决策的意见;提供更智能的检索方式,使用户可以通过自然语言进行搜索;当然知识图谱也是问答必不可少的重要组建。

    4. 知识图谱的在行业中的典型应用

    目前,随着人工智能的不断发展,知识图谱已经在搜索引擎、聊天机器人、问答系统、临床决策支持等方面有了一些应用。

    enter image description here

    图3 知识图谱在商业中的应用

    同时为了应对大数据应用的不同挑战,借助知识图谱,实现不同的业务需求。

    enter image description here
    图4 知图谱助力数据分析实现商业智能

    4.1 金融领域

    • 反欺诈

    通过融合来自不同数据源的信息构成知识图谱,同时引入领域专家建立业务专家规则。我们通过数据不一致性检测,利用绘制出的知识图谱可以识别潜在的欺诈风险。比如借款人 UserC 和借款人 UserA 填写信息为同事,但是两个人填写的公司名却不一样, 以及同一个电话号码属于两个借款人,这些不一致性很可能有欺诈行为 。

    enter image description here

    图5 知图谱在反欺诈中的应用
    • 智能投顾

    通过知识图谱相关技术从招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,构建出公司的知识图谱。在某个宏观经济事件或者企业相关事件发生的时候,券商分析师、交易员、基金公司基金经理等投资研究人员可以通过此图谱做更深层次的分析和更好的投资决策,比如在美国限制向中兴通讯出口的消息发布之后,如果我们有中兴通讯的客户供应商、合作伙伴以及竞争对手的关系图谱,就能在中兴通讯停牌的情况下快速地筛选出受影响的国际国内上市公司从而挖掘投资机会或者进行投资组合风险控制。

    enter image description here
    图6 知图谱在智能投顾中的应用

    4.2 商业搜索引擎的应用:如百度、搜狗等,国外谷歌

    • 查询理解

    搜索引擎借助知识图谱来识别查询中涉及到的实体(概念)及其属性等,并根据实体的重要性展现相应的知识卡片。搜索引擎并非展现实体的全部属性,而是根据当前输入的查询自动选择最相关的属性及属性值来显示。此外,搜索引擎仅当知识卡片所涉及的知识的正确性很高(通常超过 95%,甚至达到 99%)时,才会展现。当要展现的实体被选中之后,利用相关实体挖掘来推荐其他用户可能感兴趣的实体供进一步浏览。

    enter image description here
    图7 知图谱在搜索引擎(百度)中的应用

    4.3 问答系统的应用:苹果的 Siri

    自动问答目前也是一个非常热门的方向,这可能是面向应用最直接的方式,目前不管是学术界还是工业界都在做相关的研究,这里有两个例子,左边是百度的度秘,右边是苹果的 Siri,可以看到自然语言问答的结果。

    enter image description here
    图8 知图谱在问答系统中的应用

    4.4 社交网络运用:FB

    社交网站 Facebook 于 2013 年推出了 GraphSearch 产品,其核心技术就是通过知识图谱将人、地点、事情等联系在一起,并以直观的方式支持精确的自然语言查询,例如输入查询式:“我朋友喜欢的餐厅”“住在纽约并且喜欢篮球和中国电影的朋友”等,知识图谱会帮助用户在庞大的社交网络中找到与自己最具相关性的人、照片、地点和兴趣等。Graph Search 提供的上述服务贴近个人的生活,满足了用户发现知识以及寻找最具相关性的人的需求。

    其中主要功能就是兴趣推荐用户聚类

    enter image description here
    图9 知识图谱在社交领域中的应用

    4.5 电商平台运用:淘宝

    电商网站的主要目的之一就是通过对商品的文字描述、图片展示、相关信息罗列等可视化的知识展现,为消费者提供最满意的购物服务与体验。通过知识图谱,可以提升电商平台的技术性、易用性、交互性等影响用户体验的因素。

    阿里巴巴是应用知识图谱的代表电商网站之一,它旗下的一淘网不仅包含了淘宝数亿的商品,更建立了商品间关联的信息以及从互联网抽取的相关信息,通过整合所有信息,形成了阿里巴巴知识库和产品库,构建了它自身的知识图谱。当用户输入关键词查看商品时,知识图谱会为用户提供此次购物方面最相关的信息,包括整合后分类罗列的商品结果、使用建议、搭配等。

    4.6 其他领域

    如教育科研,医疗,生物医疗以及需要进行大数据分析的一些行业。这些行业对整合性和关联性的资源需求迫切,知识图谱可以为其提供更加精确规范的行业数据以及丰富的表达,帮助用户更加便捷地获取行业知识。

    5. 知识图谱的总结与展望

    知识图谱是知识工程的一个分支,以知识工程中语义网络作为理论基础,并且结合了机器学习,自然语言处理和知识表示和推理的最新成果,在大数据的推动下受到了业界和学术界的广泛关注。

    知识图谱对于解决大数据中文本分析和图像理解问题发挥重要作用。

    当前知识图谱发展还处于初级阶段,面临众多挑战和难题,如:知识库的自动扩展、异构知识处理、推理规则学习、跨语言检索等。

    知识图谱的构建是多学科的结合,需要知识库、自然语言理解,机器学习和数据挖掘等多方面知识的融合。有很多开放性问题需要学术界和业界一起解决。


    第一次写 Chat,不足之处请多包涵。欢迎各位多提宝贵意见!


    本文首发于GitChat,未经授权不得转载,转载需与GitChat联系。

    阅读全文: http://gitbook.cn/gitchat/activity/5afe3245a0810c23901c4418

    您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

    FtooAtPSkEJwnW-9xkCLqSTRpBKX

    展开全文
  • 利用知识图谱技术将各种 医疗信息系统中琐碎 、零散的知识相互连接 ,以支持综合性知识检索以及 问 答、辅助决策支持等智 能医疗应用。
  • 农业知识图谱(AgriKG):农业领域的信息检索,命名实体识别,关系抽取,智能问答,辅助决策
  • 知识图谱提供了一种更好的组织、管理和理解互联网信息的能力, 可用于语义搜索、智能问答、个性化推荐等, 在社交和电子商务等领域中实现价值. 基于知识图谱的应用是信息领域当前的研究热点, 也是促进人工智能发展的...
    公众号:数据挖掘与机器学习笔记

    知识图谱提供了一种更好的组织、管理和理解互联网信息的能力, 可用于语义搜索、智能问答、个性化推荐等, 在社交和电子商务等领域中实现价值. 基于知识图谱的应用是信息领域当前的研究热点, 也是促进人工智能发展的基础技术之一.

    1.语义搜索

    知识图谱是语义搜索的大脑[55]. 传统搜索引擎基于用户输入的关键词检索后台数据库中的Web网页,将包含搜索关键词的网页的链接反馈给用户. 语义搜索(也称为语义检索)则首先将用户输入的关键词映射至知识图谱中的一个或一组实体或概念, 然后根据知识图谱中的概念层次结构进行解析和推理, 向用户返回丰富的相关知识. 谷歌提出语义搜索后, 国内百的
    “知心”与搜狗的“知立方”也致力于利用知识图谱技术提升用户的搜索体验.

    基于知识图谱的语义搜索能够实现[56]: (1) 以知识卡片的形式提供结构化的搜索结果. 例如, 当用户搜索清华大学时, 知识卡片呈现出的内容, 包括有学校的地址、邮编、简介、创办年份等相关信息. (2) 理解用户用自然语言描述的问题, 并且给出相应的答案, 即简单的智能问答. 例如, 当用户在搜索中以提问的方式输入“世界上最大的湖泊是?”, 反馈的页面能够精确地给出里海相关的信息. (3) 通过已有知识图谱中实体的关联, 扩展用户搜索结果, 发现更多内容, 反馈丰富的关联结果. 例如, 当用户搜索达芬奇时, 除了达芬奇的个人简介之外, 语义搜索还能返回他的相关画作: 《最后的晚餐》、《蒙娜丽莎》及其相关人物等信息.

    2.智能问答

    智能问答指用户以自然语言提问的形式提出信息查询需求, 系统依据对问题的分析, 从各种数据资源中自动找出准确的答案. 问答系统是一种信息检索的高级模式, 能提升效率、降低人工参与成本. 问答系统将知识图谱看做一个大型知识库, 首先对用户使用自然语言提出的问题进行语义分析和语法分析, 进而将其转化成对知识图谱的查询, 最后在知识图谱中查询答案.

    百度知识图谱将智能问答具体划分为5类[57]: (1)实体检索: 问题是围绕着一个实体的属性方面展开的,如“魔兽世界的上映时间?”(2) 知识推理: 问题需要通过一定的推理分析, 如针对“zippo可否带上飞机?”这个问题, 需要先推理得出zippo是一种打火机, 再针对打火机能否上飞机这个问题进行回答. (3) 开放领域问答: 问题没有固定的标准答案, 如“形容不会说话的成语”, “与美人鱼相关的电影”等. (4) 语义解析: 首先需要理解问题的语义, 即按照语法规则解析问题, 最后转化成数据库对应的查询, 如针对“魔兽啥时候出?什么时候能看魔兽?”这样的问题可通过语义解析将其转化为“魔兽世界的上映时间?”这一简单查询. (5) End-to-end在线问答, 通过某些已知条件来查询实体, 如“知识即美德是谁提出来的?鞠躬尽瘁死而后已说的是谁?”

    3.个性化推荐

    个性化推荐是指基于用户画像, 不同的用户会看到不同的推荐结果, 有着重要的商业价值. 电子商务网站是运用个性化推荐最典型的应用, 能通过行业知识图谱的丰富知识帮助实现精准营销与推荐. 如: 基于商品间的关联信息以及从网页抽取的相关信息, 构建知识图谱, 当用户输入关键词查看商品时, 基于知识图谱向用户推荐可能需要的相关知识, 包括商品结果、使用建议、搭配等, 通过“你还可能感兴趣的有”、“猜您喜欢”或者是“其他人还在搜”进行相关的个性化推荐.

    4. 股票投研情报分析

    通过知识图谱相关技术从招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,构建出公司的知识图谱。在某个宏观经济事件或者企业相关事件发生的时候,券商分析师、交易员、基金公司基金经理等投资研究人员可以通过此图谱做更深层次的分析和更好的投资决策,比如在美国限制向中兴通讯出口的消息发布之后,如果我们有中兴通讯的客户供应商、合作伙伴以及竞争对手的关系图谱,就能在中兴通讯停牌的情况下快速地筛选出受影响的国际国内上市公司从而挖掘投资机会或者进行投资组合风险控制(。

    5.公安情报分析

    通过融合企业和个人银行资金交易明细、通话、出行、住宿、工商、税务等信息构建初步的“资金账户-人-公司”关联知识图谱。同时从案件描述、笔录等非结构化文本中抽取人(受害人、嫌疑人、报案人)、事、物、组织、卡号、时间、地点等信息,链接并补充到原有的知识图谱中形成一个完整的证据链。辅助公安刑侦、经侦、银行进行案件线索侦查和挖掘同伙。比如银行和公安经侦监控资金账户,当有一段时间内有大量资金流动并集中到某个账户的时候很可能是非法集资,系统触发预警。

    6.反欺诈情报分析

    通过融合来自不同数据源的信息构成知识图谱,同时引入领域专家建立业务专家规则。我们通过数据不一致性检测,利用绘制出的知识图谱可以识别潜在的欺诈风险。比如借款人张xx和借款人吴x填写信息为同事,但是两个人填写的公司名却不一样, 以及同一个电话号码属于两个借款人,这些不一致性很可能有欺诈行为 。

    参考:

    [1]黄恒琪,于娟,廖晓,席运江.知识图谱研究综述.计算机系统应用,2019,28(6):1–12. http://www.c-s-a.org.cn/1003-3254/6915.html

    [2]https://zhuanlan.zhihu.com/p/28609177

    在这里插入图片描述

    展开全文
  • 来自人民大学、北京邮电大学、百度的各位专家和青年才俊,共同阐述信息检索知识图谱领域的最新研究成果。一场专注于青年学者和大学生的AI论坛等你报名,可以快速定位文末报名哦~“AI未来说·青年学术论坛”系列...
  • 基于区块链智能合约的深度学习推荐系统知识图谱的分散构建 Decentralized Construction of Knowledge Graphs for Deep Recommender Systems Based on Blockchain-Powered Smart Contracts 摘要 自2012年Google首次...
  • 1 信息检索式的知识库问答 信息检索式的方法通常先确定问题的中心实体,继而生成问题的若干候选答案,再使用打分、排序等方式找出最适合原问题的答案。这类方法的整体框架比较简洁,对于简单问题有较好的效果。 1.1 ...
  • 文章提出了一种基于知识图谱构建知识库的方法,结合客服知识库与基于图谱的 知识检索技术,设计了智能客服系统技术方案。通过分析该系统与传统客服系统的差异,论 证了该系统在企业中的应用前景和技术优势。目前该...
  • 知识图谱在金融中有多项应用,首先通过信息检索技术获取相关文本,然后借语义分析技术从非结构化文本中提取结构化的信息,最后将这些信息加以提炼,并且使之关联到未来可能的发展趋势,从而为预测和决策提供有价值的...
  • 语义搜索、智能问答是NLP的关键...在语义搜索方面,使用知识图谱技术搜索得到的信息还可以经过加工后分门别类,比如,负面消息汇总、热点事件、并购事件、公司公告、研究报告、公司上下游、行业规模等等。 问答机...
  • 知识图谱是一种在移动互联网大时代下产生的新型知识表示方法,而精化是知识图谱应用研究的主要内容之一,其主要任务是知识图谱补全和错误检测等,在信息检索、机器人、智能问答等领域有着重要的应用前景。...
  • 知识图谱入门系列

    2021-01-16 13:54:51
    ,后续会持续更新知识图谱相关技术细节。本贴大概介绍一下知识图谱中相关的技术。 知识图谱 针对于知识图谱基础知识,领域应用和学术前沿趋势进行介绍。 知识图谱介绍 知识图谱(Knowledge Graph)以结构化的形式...
  • 基于中医药知识图谱智能问答(一)

    千次阅读 2020-06-03 22:14:13
    摘要:知识图谱与自然语言的处理技术的结合使用愈发广泛,已经成为各大搜索引擎公司所重视的领域之一。尽管目前科技创新和普及中医药知识工作的稳步推进,但对于中医药领域中复杂的中药信息数据如何可视化分析与检索...
  • 2. 知识图谱知识处理系统 2 知识发现 知识图谱 1. 1.NLP 2 自然语言处理文本处理 1.1. 语言理解分词 2 抽取 (压缩文档的读取格式转换 2 1.3. 索引处理摘要提取 2 1.4. 搜索(按照标题 内容 2 1.5...
  • 知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发 展的核心驱动力之一。 知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示 与推理、信息检索与抽取、自然语言处理与语义 Web、数据...
  • 知识图谱应用研究

    2021-02-27 12:47:45
    它们提供语义结构化信息的特性为许多任务(包括回答问题,推荐和信息检索)带来了重要的可能解决方案,并被认为为开发更多智能机器提供了广阔的前景。 自Google自2012年提出该术语以来,尽管知识图谱已经在各种商业...
  • 知识图谱构建综述

    2019-02-26 17:02:09
    在数据爆炸式增长的现在,无法精准的锁定用户的字符串中的语义信息而导致满意度逐步降低,而知识图谱就能很好的解决这一问题,知识图谱通过实现智能化的语义检索,能精准的定位目标信息。 定义 结构化的语义知识库,...
  • 如果未来的智能机器拥有一个大脑,知识图谱就是这个大脑中的知识库,对于大数据智能具有重要意义,将对自然语言处理、信息检索和人工智能等领域产生深远影响。  现在以商业搜索引擎公司为首的互联网巨头已经意识到...
  • 基于知识图谱的问答学习(KBQA)

    万次阅读 2018-07-27 14:59:17
    KBQA的核心问题如下: 1.如何自动化构建知识图谱. 2.如果完成问句和sql查询的...基于检索知识图谱问答系统构建 阿里小蜜:知识结构化推动智能客服升级 https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&...
  • 7.20 当搜索引擎遇见知识图谱 新世纪以来,基于文本信息检索的搜索引擎获得了巨大的成功,谷歌、必应、百度等商业搜索引擎彻底改变了人们获取信息的方式,影响着我们生活的方方面面。作为人工智能学科最著名,同时也...
  •  知识图谱最初是由谷歌为提供更高智能的搜索引擎而提出的一个概念。知识图谱可以理解成是由一系列具有相关性的知识点相互连接而形成的一种语义网络。基于图的数据结构。知识图谱将现实世界中的实体作为结点,通过...
  • 不足: 1.当检索结果为空时会报错,加结果判断,如检索结果为空则返回未检索到结果; 2.当检索内容与肝病无关时只能返回初始化答案,增加近似推荐,即找到与问题最相近的答案返回给用户; ...
  • 知识图谱Topic必读论文 ...知识图谱的直接推动力来自于一系列实际应用,包括语义搜索、机器问答、情报检索、电子阅读、在线学习等。 人工智能正由感知智能向认知智能演化,让机器具备认知智能,其...
  • 向AI转型的程序员都关注了这个号????????????人工智能大数据与深度学习 公众号:datayx知识问答简介问答系统的历史如下图所示:可以看出,整体进程由基于模板到信息检索到基于知...
  • 知识库:存储了问答系统的知识,其形态可以是文本、数据库或知识图谱 知识问答的相关工作 信息检索:以关键词搜索为代表,与问答系统的区别 第一点:搜索一文档来承载答案,用户需要阅读搜索找到的文档来发现...
  • 现有知识图谱构建技术在医学领域中普遍...此外,还介绍了医学知识图谱在信息检索、知识问答、智能诊断等医疗服务中的应用现状。最后,结合当前医学知识图谱构建技术面临的重大挑战和关键问题,对其发展前景进行了展望。
  • 医学知识图谱构建技术与研究进展

    万次阅读 2018-08-21 08:38:41
    摘要:医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。然而,现有知识图 谱构建技术在医学领域中...此外,还介绍了医学知识图谱在信息检索、知识问答、智能诊断等医疗服务中的应用现状。最后,...

空空如也

空空如也

1 2 3 4 5 6
收藏数 101
精华内容 40
关键字:

智能检索知识图谱