精华内容
下载资源
问答
  • 知识图谱在计算机科学领域的吸引力越来越大,通常被认为是令人印象深刻的新技术背后的“秘方”。在这次演讲中,我们将讨论从最近的ML和AI会议中看到的关于理解知识图谱的各种角度和观点。最后,我们将确定与知识图谱...
  • 随着3S技术迅猛发展,地理空间数据呈现出爆发式增长趋势,基于地理空间数据构建知识图谱,实现数据到知识的转换成为亟待解决的科学问题。针对通用知识图谱仅以属性和语义关系表示地理空间知识、空间关系缺失等问题,...
  • 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多...
  • 第二阶段(1977年-2012 年)是知识图谱的发展阶段,语义网得到快速发展,“知识本体”的研究 开始成为计算机科学的一个重要领域,知识图谱吸收了语义网、本体在知识组织和表达方面的理念,使得知识更易于在计算机...
  • 本文为大家奉上的是WWW 2020五篇知识图谱+图神经网络(KG+GNN)相关论文,供大家参考!——多关系实体对齐、问答推理、动态图实体链接、序列实体链接、知识图谱补全。
  • 随着疫情的发展,研究人员迫切需要能够系统梳理和整合新型冠状病毒的相关知识,加速对新冠病毒的机制研究和抗病毒药物研发。例如,新冠病毒所属的病毒族系是什么,新冠病毒的重要属性有哪些,抗病毒药物与病毒靶点之间的...

    随着疫情的发展,研究人员迫切需要能够系统梳理和整合新型冠状病毒的相关知识,加速对新冠病毒的机制研究和抗病毒药物研发。例如,新冠病毒所属的病毒族系是什么,新冠病毒的重要属性有哪些,抗病毒药物与病毒靶点之间的关系是什么,以及病毒亲缘关系等。这些知识存在于众多的知识库或者最新发表的文献中,很难被科研人员系统的检索和使用。

    为了解决这一问题,华为云医疗智能体团队、华为云语音语义创新Lab联合浙江大学计算机学院陈华钧教授组成联合团队,在浙江大学先期构建的第一版病毒分类图谱的基础上,又添加了三个新的科研知识图谱,全方位地涵盖了新冠病毒的基础属性,为科研人员针对病毒的研究和抗病毒药物研发提供了更强力的工具。

    第一版本新冠科研图谱从病毒的生物学分类角度出发,以NCBI美国生物信息中心 Taxonomy板块下的数据为基础,构建了一个病毒的族系网络:病毒分类图谱。该图谱具有较大的规模,其中实例的数量达20万以上,三元组的数量更是达到了190万+。但是其在分类及族系关系以外未引入其他信息,具有一定的局限。

    因此第二版中,联合团队通过梳理病毒、基因、蛋白、药物等相关概念,围绕新型冠状病毒、抗病毒药物等展开工作。从病毒的基因,蛋白,宿主以及核苷酸序列等相关信息出发,基于NCBI数据库中新冠病毒(SARS-CoV-2,原名称:2019-nCoV)相关数据,构建了新冠基本信息图谱v1.0。从抗病毒药物、Human Protein、Virus Protein、宿主等信息出发,基于DrugBank等数据库的数据,构建了抗病毒药物图谱v1.0。最后,考虑到病毒流行学是重要的科研方向,联合团队以Gisaid全球流感数据库所提供的实时新冠病毒sequence数据为基础,结合nextstrain对于新冠病毒基因组流行病学的分析及相关算法, 整理出了一个短期病毒突变的连接网络——病毒亲缘关系图谱v1.0,其中包含了地理,时间,变异度,突变的基因蛋白等信息,为后续的相关研究(病毒溯源)及图谱的融合提供支撑。

    新冠基本信息图谱 v1.0

    express表示SARS-CoV-2与其表达基因间的关系,例如SARS-CoV-2表达membrane protein gene (M) /Envelope protein gene(E)/ Nucleoprotein gene (N)等类型的基因。

    translate表示基因与蛋白间的翻译关系,例如SARS-CoV-2的membrane protein gene (M)可翻译出membrane protein。

    produce关系表示SARS-CoV-2可产生对应的蛋白。

    host用来表示SARS-CoV-2和宿主的关系,目前图谱中的宿主实体主要是human和vertebrates。

    新冠基本信息图谱示意图

    抗病毒药物图谱 v1.0

    effect关系用于表示抗病毒药物对于病毒有一定效果,例如Ritonavir和Abacavir对Human immunodeficiency virus 1有抗病毒效果,通过本关系可查看抗病毒药物和对应病毒间的联系。

    produce关系可用于挖掘病毒与其所表达蛋白间的express关系,并可进一步挖掘不同病毒与同一类型蛋白间的关系,进而发现两个病毒间的间接关系,再通过某病毒与某抗病毒药物间关系,又可发现某抗病毒药物和另一病毒的间接关系,可以帮助发现对于某一类型病毒蛋白可能有作用的更多药物。

    interaction和binding关系可以用于发现病毒蛋白与宿主蛋白间的相互作用,比如HIV1的NP(nucleoprotein)可binding在Human的HYOU1;之后可再补充某些药物和HYOU1间的target关系,进而可以研究这些药物和HIV1的NP(nucleoprotein)间的作用。

    在属性方面,联合团队从DrugBank挖掘了以下信息(商品名、化学式,分子重量,indication等),作为drug实体的属性,使得研究者可以更直观的了解某drug的一些重要信息。之后团队会进一步完善补充更多关键实体的重要信息。

    抗病毒药物图谱示意图

    病毒亲缘关系图谱 v1.0

    知识图谱中有Strain毒株,Branch分支,Country国家,State区域和City城市这些实体类型,其中地理位置与Strain毒株的连接通过from_country, from_division和from_location来标识。Country,State,City互相连接构成网络。

    对于Strain毒株的属性,包括了AA变异,核苷酸突变,与上一分支的差异率等等信息,展示在图中的表格中。其中变异数据和差异率数据都是相对mutate_from_branch指示的Branch结点来说的,而Branch也相对上层的Branch,因此最终的Strain突变应当是整个树目录突变的总和。

    病毒亲缘关系图谱示意图

    新冠科研图谱的潜在应用

    新冠科研图谱的潜在应用如下: 1. 预测新病毒的生物学分类 2. 预测病毒变异性 3. 预测病毒热稳定性 4. 预测病毒的易感群体 5. 预测病毒的致病部位 6. 预测病毒可导致的症状 7. 潜在治疗的药物,或者老药新用 8. 预测病毒的传播途径 9. 预测可能与病毒蛋白相互作用的蛋白,发现新的蛋白靶点 10. 针对新的蛋白靶点,进行药物开发 11. 病毒溯源,病毒变异的分析与预测。

    知识图谱的构建通常是一个漫长且费时费力的过程,在此次新冠科研图谱的构建中,联合团队利用华为云知识图谱服务进行了端到端的知识图谱构建,并且利用华为云ModelArts一站式AI开发与管理平台智能的从文献中抽取新的实体关系,在短短一周的时间里就构建出了内容丰富的新冠科研图谱,极大地提升了效率和准确性,接下来联合团队会将更多从最新的文献中抽取的知识更新到知识图谱中。

    展开全文
  • 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多...
  • 是深度科普 ,旨在向政府、企业媒体等对 旨在向政府、企业媒体等对 旨在向政府、企业媒体等对 知识图谱 感兴趣的 研究机构和企业界 介 绍相关领域的基本概念 、研究和 、研究和 应用方向 ,向高校、科研院所和技术企业...
  • 中国科学院自动化研究所模式识别国家重点实验室2017-2018学年-秋季学期: 知识图谱导论课件
  • 统计和分析了基于美国科学情报研究所fis9基于Web开发的数据库中近 19490篇复杂网络研究论文文 ...究的国家与机构分布、热点情况及其变化趋势的知识图谱,总结出当前国际复杂网络研究的现状及发展趋势
  • 1、对知识图谱的定义和内涵进行...2、分别对每个层次涉及的关键技术的研究现状进行分类说明,逐步揭示知识图谱技术的奥秘,及其与相关科学领域的关系; 3、对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结。
  • 一、知识图谱商业应用 01 唯品金融大数据 02 PlantData知识图谱数据智能平台 03 拍拍贷图数据库技术 04 CN-DBpedia 05 OpenKG.CN——开放的中文知识图谱 06 楚辞 07 海致大数据 08 腾讯...

     

    文章目录

    一、知识图谱商业应用

    01 唯品金融大数据

    使用的是OrientDB,Orientdb提供了大量的接口, 其中最常用的就是Gremlin和sql。

    Gremlin是Apache TinkerPop 框架下的图遍历语言。Gremlin是一种函数式数据流语言,可以使得用户使用简洁的方式表述复杂的图的遍历或查询,大部分图数据库都支持Gremlin。示例图总共拥有12个节点(Vertex) 11条边(Edge)。1521537893115977.png

    唯品金融在使用Orientdb的开发过程中遇到的最大问题,是数据库初始化时的批量写入速度较慢, 由于Vertex和Edge数量在10亿数量级,在没有优化的情况下,单台服务器写入完整数据需要几天。

    这里写图片描述


    02 PlantData知识图谱数据智能平台

    地址:http://www.hiekn.com/KGIndex/index.html

    这里写图片描述

    PlantData是一个用知识图谱技术解决数据关联、数据语义、数据智能的平台。

    自主研发的PlantData图谱数据智能平台,致力于推进知识图谱在产业界的落地发展,让数据智能更好的支撑商业智能和人工智能。

    多源异构数据,其中非结构化数据有一定比例;

    数据中存在一定数量不同类别的实体;

    业务上更加关注数据中实体的关联,而不仅仅是数据本身…


    03 拍拍贷图数据库技术

    目前将用户信息,设备信息及社交关系构建了一个异构网络,并将该异构网络图应用在用户关联分析及反欺诈检测场景。

    传统的方式上,我们的数据都是存储在RDMS上,要查询用户的关联关系的时候,都是通过关联多张表来实现。但是这种方式存在很多的问题:

    • a. 这些表相应都较大,在做表关联的时候效率非常低下;
    • b. 对于关系的层次支持非常有限,出入度很大的结点,产生的中间结果会非常大;
    • c. 对于图上的查询不够灵活。

    这些都极大地限制了我们分析能力和分析效率。出于以上这些痛点,我们引入了titan图形数据库。每天会通过改写的Titan Bulkload将10亿+结点信息和500亿+左右的关系数据导入Titan后台HBase生成一张包含13类节点和15类边的复杂异构网络。通过该网络,可以方便快速地回答以下类似问题:1) 和用户A关联的用户有哪些;2) 和用户A关联的用户有什么特征;3) 用户A和用户B怎么关联在一起的。

    下图是我们将图数据库应用于反欺诈中的示例图:

    这里写图片描述

    根据原始的数据图我们可以对用户做以下调查分析,来确定特定的用户是不是欺诈用户或者是不是与欺诈用户有关联:

    • 通过特定规则筛选可疑用户
    • 查看与可疑用户有特定关联的用户
    • 查看与可疑用户有特定关联的所有用户组成的子网的网络特征及用户特征
    • 分析特定用户可以通过什么样的关联关系关联在一起
    • 最多可分析6层关联关系的数据

    通过该方式,我们大大减少了调查过程中的工作量,整体效率提升了25%+。


    04 CN-DBpedia

    样例数据文件是txt格式,每行一条数据,每条数据是一个(实体名称,属性名称,属性值)的三元组,中间用tab分隔,具体如下所示。

    【复旦大学 简称 复旦】

    包含900万+的百科实体以及6700万+的三元组关系。其中mention2entity信息110万+,摘要信息400万+,标签信息1980万+,infobox信息4100万+

    该数据仅供学术研究使用,商用请联系我们获取授权

    http://kw.fudan.edu.cn/cndbpedia/download/


    05 OpenKG.CN——开放的中文知识图谱

    中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

    知识图谱旨在通过建立数据之间的关联链接,将碎片化的数据有机的组织起来, 让数据更加容易被人和机器理解和处理,并为搜索、挖掘、分析等提供便利,为人工智能的实现提供知识库基础。知识图谱涉及的技术领域包括:知识表示、自然语言理解、智能问答、知识抽取、链接数据、图数据库、图挖掘、常识推理等。

    这里写图片描述


    06 楚辞

    楚辞以语义网为理论基础,致力于建设中文语义知识库,解决歧义问题,把知识嵌入到各类信息中。

    这里写图片描述

    知识结构中有:

    项目描述(DOAP)词汇集
    项目描述(DOAP)词汇集使用了W3C的RDF和网络本体语义进行描述。

    Muninn坟墓本体
    Muninn坟墓本体的意思是用于处理人类的遗体。

    还有比较好玩的:

    关于功夫、功法的本体、关于能力、技能的本体、有关五行的基础本体、有关感觉的基础本体、有关症状的本体、有关商业模式画布的本体

    联谊的nodes,还有几个方向,不过好像里面没货

    这里写图片描述


    07 海致大数据

    http://www.haizhi.com/solution.html

    海致大数据核心团队在参与研发了全球第一个中文通用知识图谱平台之后,致力于将这一大数据时代的核心技术向金融产业进行垂直化研发,推出了业界首个金融领域知识图谱平台——海致智能金融知识图谱1.0,其具备强大的自然语言处理能力,包括模板识别、实体识别、情感分析等,也具备领先的关系挖掘算法引擎,是海致大数据多年研发与客户服务的最新成果。

    这里写图片描述


    08 腾讯云星图

    这里写图片描述

    是一个图数据库和图计算引擎的一体化平台:融合治理异构异质数据;提供关联查询、可视化图分析、图挖掘、机器学习和规则引擎;支持万亿关联关系数据的快速检索、查找和浏览;挖掘隐藏关系并模型化业务经验。作为金融AI风控等泛安全领域知识图谱解决方案,星图增强企业业务,催新商业模式。

    • 金融
      • 星图智能平台运用大数据、知识图谱、人工智能等技术,并围绕监管科技服务于金融行业,可提升金融机构合规和风控能力,从而帮助实现行业人工智能,为金融环境快速而稳健的发展贡献前沿科技的力量。在对公业务中,星图可深耕大数据,帮助金融合作伙伴存储其商业客户大数据,梳理客户关系以高效挖掘潜在商业价值;在对私业务方面,星图可在预测新客户的潜在风险和检测恶意用户团伙等方面提供精准服务。
    • 泛安全
      • 星图智能平台从大数据中深度挖掘关联关系,可准实时分析多至万亿级海量关系数据,转化为关系图谱数据,编织线上线下社交的泛安全专属知识图谱。结合专属的图计算引擎、机器学习技术和业务专家经验打造泛安全人工智能:线上可帮助新兴互联网公司梳理用户关系实现精准营销等,线下可有力支撑公安机关展开情报研判分析、犯罪团伙跟踪以及重大事情预警等。

    09 网感至察

    这里写图片描述
    这里写图片描述

    10 慧科技术 - 商业AI(NLP + 品牌Logo识别)

    https://www.wisers.com.cn/
    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述


    二、相关科研机构与算法框架

    2.1 复旦大学 Knowledge Works

    http://kw.fudan.edu.cn/

    开源库、开源工具、创业项目(数眼科技)

    2.1.1 开源库:FudanDNN 基于深度学习的中文自然语言处理工具。

    复旦深度网络中文自然语言处理工具FudanDNN-NLP4.0(在3.0的基础上新增上下文相关问答。分为两种情况:第一种情况处理类似上一句问“今天北京天气如何?”,然后追问“上海呢?”的情况;另一种情况是根据对话主题展开、转换和递进给出合适的回答;多轮对话。处理类似订购机票的场景。不同场景可以根据对话进展自由切换,并且期间可插入其他问答;海量自定义问答对的高效检索。检索匹配时考虑同义词替换,可根据发音相似性纠正可能的错误,并且支持一次提问包括多个问题的情况;可为每一位用户定义各自的上下文信息;图形客户端用于系统演示和调试,支持本地或服务器快速部署;问答过程中检测禁用词功能)
    C++所写,专门用于商业环境
    github:https://github.com/FudanDNN/FudanDNN
    blog:http://homepage.fudan.edu.cn/zhengxq/deeplearning/

    2.1.2 CN-DBpedia接口——解释型

    提供全套API,并且免费开放使用。如需大规模调用请联系info.knowledgeworks@gmail.com索取APIKEY。

    • (1) api/cndbpedia/ment2ent

    输入实体指称项名称(mention name),返回对应实体(entity)的列表,json格式。

    {"status": "ok", "ret": ["红楼梦(中国古典四大名著之一)", "红楼梦(2010年李少红执导的古装情感剧)", "红楼梦(1987年陈晓旭、欧阳奋强主演央视版电视剧)"}
    
    • 1
    • (2) api/cndbpedia/avpair

    输入实体名,返回实体全部的三元组知识

    {"status": "ok", "ret": [["中文名", "复旦大学"], ["英文名称", "Fudan University"], ["简称", "复旦·FUDAN"], ["创办时间", "1905年09月14日"], ["类别", "公立大学"], ["学校类型", "综合"]}
    
    • 1
    • (3) api/cndbpedia/value

    给定实体名和属性名,返回属性值

    {"status": "ok", "ret": ["Fudan University"]}
    
    • 1

    2.1.3 Probaseplus API接口

    • pbapi/getconcepts

    输入一个英文或中文的实体或概念名,返回其概念列表,返回格式为json格式。

    查询 航空母舰 的第1-50个概念(第一页)
    http://knowledgeworks.cn:20314/probaseplus/pbapi/getconcepts?kw=航空母舰&start=0 
    返回值:{"numcon": 73, "concept": [["船", 15], ...]}
    表示航空母舰在CN-Probase中有73个概念,最具有代表性的概念是 船。
    
    • 1
    • 2
    • 3
    • 4

    点评:该接口专用于多义词

    • pbapi/getentities

    输入一个英文或中文的概念名,返回其包含的实体列表,返回格式为json格式。

    查询 水果 的第1-50个实体(第一页)
    http://knowledgeworks.cn:20314/probaseplus/pbapi/getentities?kw=水果&start=0 
    返回值:{"entity": [["苹果", 2100], ["香蕉", 1321], ...], "nument": 1060}
    表示水果在CN-Probase中有1060个实体,如 苹果,香蕉 等。
    
    • 1
    • 2
    • 3
    • 4

    点评:该接口专门用于寻找一个实体词的下属词

    2.1.4 CN-Probase接口——概念型

    中文概念图谱和概念分类体系

    • api/mention2entity

      {“status”: “ok”, “ret”: [“刘德华(中国香港男演员、歌手、词作人)”, “刘福荣(刘德华别名)”, “刘德华(清华大学教授)”}

    跟CN-DBpedia中的ment2ent类似,返回实体词解释。

    • api/getConcept

    输入实体,返回实体对应概念列表,json格式。

    http://shuyantech.com/api/cnprobase/concept?q=刘德华
    {"status": "ok", "ret": [["人物", 1299103], ["演员", 59658], ["娱乐人物", 25299], ["歌手", 15884], ["电影人", 88], ["填词人", 64]], "count": 6, "pagesize": 50}
    
    • 1
    • 2

    count:概念数量;pagesize:每次请求最多返回的概念数量
    点评:返回了实体词的属性,跟CN-DBpedia中的avpair,有点类似

    • api/getEntity

    输入概念,返回概念对应实体列表,json格式。默认返回前50个。

    {"status": "ok", "ret": [["乔振宇(中国内地男演员)", 321795144], ["霍建华(中国台湾男演员)", 104187122], ["杨洋(中国内地男演员)", 87598713]}
    
    • 1

    count:实体数量;pagesize:每次请求最多返回的实体数量

    2.1.5 Shorttext Parsing API,短文本依存分析接口

    输入英文字符串,返回短文本解析的json
    目前比较支持英文

    2.1.6 Entity Understanding API接口

    输入中文文本,输出分词后的文本,以及识别的实体,json格式。

    http://shuyantech.com/api/entitylinking/cutsegment?q=打球的李娜和唱歌的李娜不是同一个人
    {"cuts": ["打球", "的", "李娜", "和", "唱歌", "的", "李娜", "不是", "同一个", "人"], "entities": [[[3, 5], "李娜(中国女子网球名将)"], [[9, 11], "李娜(流行歌手、佛门女弟子)"]]}
    
    • 1
    • 2

    输入一段话,输出话中的实体词 + 实体词的位置信息

    2.1.7 数眼科技

    爬虫模块(分布式、企业级的爬虫任务)
    知识图谱与概念图谱,基于知识工场
    中文QA(输入一段话然后返回内容)、[实体链接][4]
    未来开放:企业级图数据库解决方案(还没开发完全)

    2.1.8 额外

    金融新闻Bots,金融类监控,根据关键词筛选,新闻、网站、软文;理财产品问答系统
    拼音转汉字服务


    2.2 思知(OwnThink)

    开放项目:问答机器人、知识库
    跟 复旦的Knowledge Works有点相似,估计没那个全面,开源的聊天机器人也弱爆了。。
    获取歧义关系(mention -> entity)

    https://api.ownthink.com/ambiguous?mention=苹果
    {
        "message": "success", 
        "data": [
            {
                "蔷薇科苹果属果实": [
                    "苹果(蔷薇科苹果属果实)", 
                    10929205
                ]
            }, 
            {
                "韩国2008年康理贯执导电影": [
                    "苹果(韩国2008年康理贯执导电影)", 
                    7589732
                ]
            }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17

    获取全部知识(entity -> knowledge)
    更详细的信息
    https://api.ownthink.com/kg?entity=苹果(蔷薇科苹果属果实)
    {
    “message”: “success”,
    “data”: {
    “item”: “苹果(2007年李玉执导电影)”,
    “desc”: “《苹果》是由李玉执导,范冰冰、佟大为、梁家辉、金燕玲领衔主演的黑色幽默剧情电影。”,
    “eav”: [
    {
    “entity”: “苹果(2007年李玉执导电影)”,
    “value”: “苹果”,
    “attribute”: “中文名”
    关联图谱

    https://api.ownthink.com/assmap?entity=苹果
    关联图谱暂时不对外直接开放(由于某种原因将于2018年8月开放)
    
    • 1
    • 2

    2.3 Zhishi.me

    王昊奋,Zhishi.me 通过从开放的百科数据中抽取结构化数据,首次尝试构建中文通用知识图谱。目前,已融合了三大中文百科,百度百科,互动百科以及维基百科中的数据。


    2.4 交大的Acenap

    官方主页,http://acemap.sjtu.edu.cn/
    主要做学术论文、人群的知识图谱

    这里写图片描述

    • 公开了多款算法(http://acemap.sjtu.edu.cn/acenap),有不同的软件版本,python/matlab
    • 公开了多个可视化的方案与算法,http://acemap.sjtu.edu.cn/acenap/algorithms
    • 提到了几个公开的数据源:社交媒体数据源 + 人人网爬取的人物关系数据源
      • 社交媒体数据源:
        • MovieLens This dataset is collected from the MovieLens dataset
          available at https://grouplens.org/datasets/movielens/. In the
          original dataset, the edge weights between users and items, namely
          the users’ ratings on items are decimal ratings in (0,5]. In our
          modified dataset, we map the decimal ratings to interger ratings in
          range [1,10].
        • AudioSrobbler This dataset is collected from the AudioSrobbler
          dataset available at
          http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html.
          In the original dataset we are provided with users’ play counts for
          each music artist they have listened to. In our modified dataset, we
          mapped play counts to bounded edge weights between users and items
          i.e. users’ ratings as integers in [1,5].
        • BookCrossing This dataset is collected from the BookCrossing dataset
          available at http://www2.informatik.uni-freiburg.de/~cziegler/BX/. In
          the original dataset, we are provided with the users’ implicit and
          explicit ratings on books. In our modified dataset, we use integers
          in [1,10] to present the explicit user ratings and exculde ratings of
          0, which denote implicit ratings.

    2.5 清华大学的openKE

    由 THUNLP 基于 TensorFlow 工具包开发

    该框架有如下特征:

    • 拥有配置多种训练环境和经典模型的简易接口;
    • 对高性能 GPU 训练进行加速和内存优化;
    • 高效轻量级的 C++实现,用于快速部署和多线程加速;
    • 现有大规模知识图谱的预训练嵌入,可用于多种相关任务;
    • 长期维护以修复 bug,满足新需求。

    TransE 、TransH、TransR、TransD、RESCAL、DistMult、HolE、ComplEx等算法的统一接口的高效实现;
    面向WikiData和Freebase两大通用KG全量数据的预训练好的知识表示模型下载,不需要大家再费心重复训练


    2.6 自然语言处理工具包HanLP

    HanLP是由一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

    有py和java版本的,分别是:
    pyhanlp: Python interfaces for HanLP
    HanLP: Han Language Processing

    从分词、词性标注、命名实体识别、关键词提取、短语提取、文本推荐(语义推荐、拼音推荐、字词推荐)、依存句法分析等功能,很全面。

    2.7 scikit-kge: MIT知识图谱embedding工具包

    地址:https://github.com/mnick/scikit-kge
    此工具包是有麻省理工大学( MIT )开发的python库,可用不同方法训练得到知识图谱的分布式表示结果,包含的知识图谱表示学习方法有:
    Holographic Embeddings (HolE)
    RESCAL
    TransE
    TransR
    ER-MLP

    2.8 RDFox: 牛津大学的知识库推理工具(推荐)

    OpenKG搜集和整理知识图谱相关的技术工具,并将组织开展技术评测。

    RDFox是一个高度可扩展的内存RDF三元组存储,支持共享内存并行OWL 2 RL推理。 它是用C ++编写的跨平台软件,带有一个Java包装器,允许与任何基于Java的解决方案(包括OWL API)轻松集成。


    2.9 中国知网

    同时,知网内的NLP结构也非常复杂,参考:http://www.keenage.com/zhiwang/c_zhiwang.html
    知网描述了下列各种关系:

    (a) 上下位关系 (由概念的主要特征体现,请参看《知网管理工具》)

    (b) 同义关系(可通过《同义、反义以及对义组的形成》获得)

    © 反义关系(可通过《同义、反义以及对义组的形成》获得)

    (d) 对义关系(可通过《同义、反义以及对义组的形成》获得)

    (e) 部件-整体关系(由在整体前标注 % 体现,如"心","CPU"等)

    (f) 属性-宿主关系(由在宿主前标注 & 体现,如"颜色","速度"等)

    (g) 材料-成品关系(由在成品前标注 ? 体现,如"布","面粉"等)

    (h) 施事/经验者/关系主体-事件关系(由在事件前标注 * 体现,如"医生","雇主"等)

    (i) 受事/内容/领属物等-事件关系(由在事件前标注 $ 体现,如"患者","雇员"等)

    (j) 工具-事件关系(由在事件前标注 * 体现,如"手表","计算机"等)

    (k) 场所-事件关系(由在事件前标注 @ 体现,如"银行","医院"等)

    (l) 时间-事件关系(由在事件前标注 @ 体现,如"假日","孕期"等)

    (m) 值-属性关系(直接标注无须借助标识符,如"蓝","慢"等)

    (n) 实体-值关系(直接标注无须借助标识符,如"矮子","傻瓜"等)

    (o) 事件-角色关系(由加角色名体现,如"购物","盗墓"等)

    § 相关关系(由在相关概念前标注 # 体现,如"谷物","煤田"等)

    同时还有API:介绍知网知识库的 API 参数与调用过程,当日调用接口的次数不得超过5000次
    词语相似度检测/中文分析/英文分析/词语相关性检测
    知网的api是在一个语知的平台:http://yuzhinlp.com/chnParse.html

    这里写图片描述

    知网内容期刊查询的时候,也支持知识图谱:

    这里写图片描述

    这里写图片描述

    这里写图片描述

    这里写图片描述

    延伸:语知科技的接口非常丰富!

    • 有关系抽取接口:判案要素抽取、金融事件抽取、公司以及机构名抽取(在更新)
    • 文本语义解析接口、词语相关、句子相关性、篇章相关性;
    • 基础接口:词语拼音、词性判定、自动分词、词性标注、英文释义(机器翻译?)

    每天有5000次免费调用额度
    这里写图片描述

    这里写图片描述

    语知科技在语义分析方面优势明显,它可以处理的文本可以是超句的段落或篇章,并且系统的分析结果可揭示五种类型的内容:词语之间的句法关系,词语之间的逻辑语义关系,词语之间的深层逻辑语义关系,通过逻辑语义角色转换得到的深层理解,以及各个词语的词性、义项、拼音及其对应的英语译文。

    可参考:基于HowNet的NLP技术,语知科技打造新型语言理解技术服务平台


    2.10 浙江大学:创新设计产品库

    url:http://120.55.82.39:8080/index.html

    这里写图片描述

    这里写图片描述

    这里写图片描述

    这里写图片描述

    2.11 中草药知识服务系统

    http://zcy.ckcest.cn/tcm/

    好厉害,有知识图谱,有KGQA问答系统,还有主题建模,各种专业分词工具。
    还有以图搜图功能,尼玛,逆天!!

    这里写图片描述

    这里写图片描述

    这里写图片描述

    这里写图片描述

    这里写图片描述


    2.12 中国工程科技知识中心

    http://www.ckcest.cn/portal/hotspotdetail18
    依据时间,关键词等信息对内容进行展示
    这里写图片描述

    2.13 NLPIR

    http://ictclas.nlpir.org/nlpir/
    基于词语的多度传播,简单的词关联逻辑。

    这里写图片描述

    这里写图片描述

    2.14 开放域中文知识图谱《大词林》

    http://www.bigcilin.com/hypernym/?q=女仆咖啡厅

    这里写图片描述

    2.15 北航 - 中文知识图谱

    http://www.actkg.com/linking/

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述


    延伸一:一文揭秘!自底向上构建知识图谱全过程

    知识图谱的构建技术主要有自顶向下和自底向上两种。其中自顶向下构建是指借助百科类网站等结构化数据源,从高质量数
    据中提取本体和模式信息,加入到知识库里。而自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,加入到知识库中。
    本篇文章很基础的解释了知识图谱的底层结构,很赞!

    这里写图片描述

     

    转自https://blog.csdn.net/sinat_26917383/article/details/66473253#toc_8

    展开全文
  • 运用科学计量学工具Citespace及UCinet与文献计量学的方法相结合选取中国知网2010—2013年来国内在科研经费管理方面的研究数据进行文献统计与图谱绘制,并就所得图谱进行相关分析与讨论。研究发现国内科研经费管理研究...
  • 知识图谱白皮书2019

    2020-11-05 22:33:41
    知识图谱始于20世纪50年代,至今大致分为三个发展阶段:第一阶段 (1955年—1977年)是知识图谱的起源阶段,在这一阶段中引文网络分析 开始成为一种研究当代科学发展脉络的常用方法;第二阶段(1977年-2012 年)是知识图谱...
  • 把握中国煤矿安全领域的研究发展脉络,以CNKI期刊数据库2007—2016年共3 655篇相关核心文献为样本,基于统计分析和文献计量的方法,利用CiteSpace可视化分析软件绘制科学知识图谱并挖掘其中包含的隐性知识。结果表明,该...
  • 知识图谱始于20世纪50年代,至今大致分为三个发展阶段:第一阶段(1955年—1977年)是知识图谱的起源阶段,在这一阶段中引文网络分析开始成为一种研究当代科学发展脉络的常用方法;第二阶段(1977年-2012年)是知识...
  • SciKG是一个以科研为中心的大规模知识图谱,目前包含计算机科学领域,由概念、专家和论文组成。其中,科技概念及其关系是从ACM计算分类系统中提取出来的,并辅以每个概念的定义(大多数来自维基百科)。...
  • 知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、...
  • 知识图谱构建技术一览

    万次阅读 多人点赞 2019-09-03 23:21:11
    知识图谱构建技术一览一、什么是知识图谱二、知识图谱技术架构(一)数据获取(Data Acquisition)(二)信息抽取(Information Extraction)(1)实体抽取(Entity Extraction)/命名实体识别(Name Entity ...

    一、什么是知识图谱

    知识图谱(Knowledge graph)首先是由Google提出来的,大家知道Google是做搜索引擎的,知识图谱出现之前,我们使用google、百度进行搜索的时候,搜索的结果是一堆网页,我们会根据搜索结果的网页题目再点击链接,才能看到具体内容,2012年google提出Google Knowldge Graph之后,利用知识图谱技术改善了搜索引擎核心,表现出来的效果就是我们现在使用搜索引擎进行搜索的时候,搜索结果会以一定的组织结构呈现。

    辛格尔博士对知识图谱的介绍很简短:things,not string。这抓住了知识图谱的核心,也点出了知识图谱加入之后搜索发生的变化,以前的搜索,都是将要搜索的内容看作字符串,结果是和字符串进行匹配,将匹配程度高的排在前面,后面按照匹配度依次显示。利用知识图谱之后,将搜索的内容不再看作字符串,而是看作客观世界的事物,也就是一个个的个体。搜索比尔盖茨的时候,搜索引擎不是搜索“比尔盖茨”这个字符串,而是搜索比尔盖茨这个人,围绕比尔盖茨这个人,展示与他相关的人和事,左侧百科会把比尔盖茨的主要情况列举出来,右侧显示比尔盖茨的微软产品和与他类似的人,主要是一些IT行业的创始人。一个搜索结果页面就把和比尔盖茨的基本情况和他的主要关系都列出来了,搜索的人很容易找到自己感兴趣的结果。

    查找关于知识图谱的资料,可以找到不少的相关定义:

    引用维基百科的定义:

    The Knowledge Graph is a knowledge base used by Google and its services to enhance its search engine’s results with information gathered from a variety of sources.
    译:知识图谱是谷歌及其提供的服务所使用的知识库,目的是通过从各种来源收集信息来增强其搜索结果的展示。

    引用百度百科的定义:

    知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

    知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

    引用学术/学位论文的定义:

    知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构。(刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3): 582-600.

    知识图谱就是展示知识发展过程与属性联系的一系列不同图形,再加以相应的可视化手段把这一系列图形表示的这些知识实体与知识实体或者知识实体与知识属性之间的联系展示出来。知识图谱的本质就是一种网状知识库,它是由一个个知识三元组组成。目前知识三元组的形式有两种,分别是<实体1,关系,实体2>和<实体1,属性1,属性值>。例如在本文所选的铁路领域内,这两种知识三元组分别可以是<中国铁路呼和浩特局集团公司,管辖,集宁机务段>,<东风 4B 型内燃机车,设计时速,120km/h>(客运型)和<东风 4B 型内燃机车,设计时速,100km/h>(货运型)。(学位论文:基于铁路领域的知识图谱研究与实现)

    引用著作的定义:

    知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱由节点和边组成。节点可以是实体,如一个人、一本书等,或是抽象的概念,如人工智能、知识图谱等。边可以是实体的属性,如姓名、书名或是实体之间的关系,如朋友、配偶。知识图谱的早期理念来自Semantic Web(语义网络),其最初理想是把基于文本链接的万维网落转化为基于实体链接的语义网络。(王昊奋,知识图谱 方法、实践与应用)

    引用互联网博客的解释:

    知识图谱:是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。(链接:通俗易懂解释知识图谱

    知识图谱本质上是语义网络(Semantic Network)的知识库.。(链接:这是一份通俗易懂的知识图谱技术与应用指南

    总的来说,知识图谱本质上是一种语义网络,用图的形式描述客观事物,这里的图指的是数据结构中的图,也就是由节点和边组成的,这也是知识图谱(Knowledge Graph)的真实含义。知识图谱中的节点表示概念和实体,概念是抽象出来的事物,实体是具体的事物;边表示事物的关系和属性,事物的内部特征用属性来表示,外部联系用关系来表示。很多时候,人们简化了对知识图谱的描述,将实体和概念统称为实体,将关系和属性统称为关系,这样就可以说知识图谱就是描述实体以及实体之间的关系。实体可以是人,地方,组织机构,概念等等,关系的种类更多,可以是人与人之间的关系,人与组织之间的关系,概念与某个物体之间的关系等等。

    知识图谱是由实体和实体的关系组成,通过图的形式表现出来,那么实体和实体关系的这些数据在知识图谱中怎么组织呢,这就涉及到三元组的概念,在知识图谱中,节点-边-节点可以看作一条记录,第一个节点看作主语,边看作谓语,第二个节点看作宾语,主谓宾构成一条记录。比如曹操的儿子是曹丕,曹操是主语,儿子是谓语,曹丕是宾语。再比如,曹操的小名是阿瞒,主语是曹操,谓语是小名,宾语是阿瞒。知识图谱就是由这样的一条条三元组构成,围绕着一个主语,可以有很多的关系呈现,随着知识的不断积累,最终会形成一个庞大的知识图谱,知识图谱建设完成后,会包含海量的数据,内涵丰富的知识。

    知识图谱构建完成之后,主要用在哪些地方,比较典型应用是语义搜索、智能问答、推荐系统等方面。知识图谱是一个具有本体特征的语义网络,可以看成是按照本体模式组织数据的知识库,以知识图谱为基础进行搜索,可以根据查询的内容进行语义搜索,查找需要找的本体或者本体的信息,这种语义搜索功能在google、百度、阿里巴巴等数据量大的公司里得到应用。智能问答,和语义搜索类似,对于提问内容,计算机首先要分析提问问题的语义,然后再将语义转换为查询语句,到知识图谱中查找,将最贴近的答案提供给提问者。推荐系统首先要采集用户的需求,分析用户的以往数据,提取共同特征,然后根据一定的规则,对用户提供推荐的产品。比如淘宝中记录用户经常购买的商品,经常浏览的商品,提取这些商品的共同特征,然后给这个用户打上标签,然后就给用户推荐具有类似特征的商品。

    知识图谱主要反映的事物之间的关系,对于和关系链条有关的场景,也可以用知识图谱解决,一些应用场景包括反欺诈、不一致性验证、异常分析、客户管理等

    二、知识图谱的分层架构

    知识图谱由数据层(data layer)和模式层(schema layer)构成。

    模式层是知识图谱的概念模型和逻辑基础,对数据层进行规范约束. 多采用本体作为知识图谱的模式层,借助本体定义的规则和公理约束知识图谱的数据层。也可将知识图谱视为实例化了的本体,知识图谱的数据层是本体的实例。如果不需支持推理, 则知识图谱(大多是自底向上构建的) 可以只有数据层而没有模式层。在知识图谱的模式层,节点表示本体概念,边表示概念间的关系。

    在数据层, 事实以“实体-关系-实体”或“实体-属性-属性值”的三元组存储,形成一个图状知识库. 其中,实体是知识图谱的基本元素,指具体的人名、组织机构名、地名、日期、时间等。关系是两个实体之间的语义关系,是模式层所定义关系的实例。属性是对实体的说明,是实体与属性值之间的映射关系。属性可视为实体与属性值之间的 hasValue 关系,从而也转化为以“实体-关系-实体”的三元组存储。在知识图谱的数据层,节点表示实体,边表示实体间关系或实体的属性。

    三、知识图谱构架技术

    根据上述的知识图谱分层结构,知识图谱的构建方法主要有两种:一种是自底而上的构建方法(如下图所示);一种是自定而下的构建方法。

    自底向上的构建方法流程如下图所示,从开放链接的数据源中提取实体、属性和关系,加入到知识图谱的数据层;然后将这些知识要素进行归纳组织,逐步往上抽象为概念,最后形成模式层。自顶而下的方法正好相反。
    图1
    知识图谱技术架构图如上所示,其对应中文版如下:
    在这里插入图片描述

    (一)数据获取(Data Acquisition)

    数据获取是建立知识图谱的第一步。目前,知识图谱数据源按来源渠道的不同可分为两种:一种是业务本身的数据,这部分数据通常包含在行业内部数据库表并以结构化的方式存储,是一种非公开或半公开的数据;另一种是网络上公开、抓取的数据,这些数据通常是以网页的形式存在,是非结构化的数据。

    按数据结构的不同,可分为三种:结构化数据、半结构化数据和非结构化数据,根据不同的数据类型,我们采用不同的方法进行处理。

    (二)信息抽取(Information Extraction)

    信息抽取的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。如前文所说,知识获取有两种渠道,前者只需要简单预处理即可以作为后续AI系统的输入,但后者一般需要借助于自然语言处理等技术来提取出结构化信息,这正是信息抽取的难点问题,涉及的关键技术包括实体抽取、关系抽取和属性抽取。

    (1)实体抽取(Entity Extraction)/命名实体识别(Name Entity Recognition)

    实体抽取又称为命名实体识别(NER),是指从文本数据集中自动识别出命名实体,其目的就是建立知识图谱中的“节点”。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。

    实体的类型主要包括三大类七小类:

    • 实体类(包括人名,地名,机构名)
    • 时间类(日期,时间)
    • 数字类(货币、百分比)

    最初,实体识别通常采用人工预定义实体分类体系的方式,但是随着技术的日新月异,这种老旧的方式已经很难适应时代的需求,因此面向开放领域的实体识别和分类极具研究价值。

    在面向开放域的实体识别和分类研究中,不需要也不可能为每个领域或者每个实体类别建立单独的语料库作为训练集。因此,研究人员主要面临的挑战是如何从给定的少量实体实例中自动发现具有区分力的模型。

    一种思路是根据已知的实体实例进行特征建模,利用该模型处理海量数据集得到新的命名实体列表,然后针对新实体建模,迭代地生成实体标注语料库。

    另一种思路是利用搜索引擎的服务器日志,事先并不给出实体分类等信息,而是基于实体的语义特征从搜索日志中识别出命名实体,然后采用聚类算法对识别出的实体对象进行聚类。

    (2)关系抽取(Relation Extraction)

    文本语料经过实体抽取之后得到的是一系列离散的命名实体(节点),为了得到语义信息,还需要从相关的语料中提取出实体之间的关联关系(),才能将多个实体或概念联系起来,形成网状的知识结构。研究关系抽取技术,就是研究如何解决从文本语料中抽取实体间的关系。

    (3)属性抽取(Attribute Extraction)

    属性抽取的目标是从不同信息源中采集特定实体的属性信息,从而完成对实体属性的完整勾画,如针对某款手机,可以从互联网中获取多源(异构)的数据,从中得到其品牌、配置等信息。

    如果把实体的属性值看作是一种特殊的实体,那么属性抽取实际上也是一种关系抽取。 百科类网站提供的半结构化数据是通用领域属性抽取研究的主要数据来源,但具体到特定的应用领域,涉及大量的非结构化数据,属性抽取仍然是一个巨大的挑战。

    (三)知识融合(Knowledge Fusion)

    经由信息抽取之后的信息单元间的关系是扁平化的,缺乏层次性和逻辑性,同时存在大量冗余甚至错误的信息碎片。知识融合,简单理解,就是将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,主要关键技术包含指代消解、实体消歧、实体链接。不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。
    知识融合旨在解决如何将关于同一个实体或概念的多源描述信息融合起来。

    (1)指代消解(Coreference Resolution)

    Coreference Resolution,字面上翻译应该是“共指消解”,但在大部分博客或者论坛中通常被称呼为“指代消解”。一般情况下,指代分为三种(NLP领域一般只关注前两种指代类型):

    • 一是回指(也称指示性指代),对应单词为“anaphora”,指的是当前的指代词与上文出现的词、短语或句子(句群)存在密切的语义关联性,它指向另一个词(称为先行词),该指代词的解释依赖于先行词的解释,具有非对称性和非传递性;
    • 二是共指(也称同指),对应单词为“coreference”,指的是两个名词(包括代名词、名词短语)指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。共指消解技术主要用于解决多个指称对应同一实体对象的问题。
    • 三是“下指”,对应单词为“cataphora”,和回指刚好相反,指的是指代词的解释取决于指代词之后的某些词、短语或句子(句群)的解释。如下图中的he和his都指代后面的Lord: 在这里插入图片描述

    所以,根据上面描述,个人认为将“Coreference Resolution”翻译为“指代消解”更为恰当。

    (2)实体消歧(Entity Disambiguation)

    有些实体写法不一样,但指向同一个实体,比如“New York”表示纽约,而“NYC”同样也可以表示纽约。这种情况下,实体消歧可以减少实体的种类,降低图谱的稀疏性。

    实体消歧是专门用于解决同名实体产生歧义问题的技术,通过实体消歧,就可以根据当前的语境,准确建立实体链接,实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题,类似于词性消歧和词义消歧。

    (3)实体链接(Entity Linking)

    实体链接(entity linking)是指对于从非结构化数据(如文本)或半结构化数据(如表格)中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。

    (4)知识合并

    实体链接链接的是从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。那么除了半结构化数据和非结构化数据以外,还有个更方便的数据来源——结构化数据,如外部知识库和关系数据库。对于这部分结构化数据的处理,就是知识合并的内容啦。一般来说知识合并主要分为两种:

    • 合并外部知识库,主要处理数据层和模式层的冲突
    • 合并关系数据库,有RDB2RDF等方法

    (四)知识加工(Knowledge Processing)

    海量数据在经信息抽取、知识融合之后得到一系列基本的事实表达,但这并不等同于知识,要想获得结构化,网络化的知识体系,还需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分纳入知识体系中以确保知识库的质量,这就是知识加工的过程。知识加工主要包括3方面内容:本体构建、知识推理和质量评估。

    (1)本体(Ontology)

    本体的概念

    来自维基百科的本体的定义:

    In computer science and information science, an ontology is a formal naming and definition of the types, properties, and interrelationships of the entities that really or fundamentally exist for a particular domain of discourse.
    译:在计算机科学和信息科学中,一个本体就是特定领域或根本存在的实体的类型、属性、相互关系的一个正式的命名和定义

    本体这个概念,对于初学者来说的确有些抽象,不易理解。它可以用多种方式来描述:

    • 本体是一种描述术语(包含哪些词汇)及术语间关系(描述苹果、香蕉、水果之间的关系)的概念模型。以图书分类为例,一方面限定了术语集合(即规定大家必须采用共同承认的一套词汇,禁止私自发明新词),另一方面定义术语之间的上下位关系(如:计算机技术隶属于工业技术,软件技术隶属于计算机技术,等等)。
    • 本体是指公认的的概念集合、概念框架,如“人”、“事”、“物”等。
    • 本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。
    • 本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”,本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系。

    总的概括:本体定义了组成领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则

    • 领域。一个本体描述的是一个特定的领域。比如我们确定这次要描述的领域是「大学」。
    • 术语。指给定领域中的重要概念。例如,确定要描述大学了,对于一个大学来说什么概念是重要的呢?我们可以列举出教职工、学生、课程等等概念。
    • 基本术语之间的关系。包括类的层次结构,包括并列关系、上下位关系等等。比如教职工是老师、行政人员、技术支持人员的父类;学生是本科生、研究生的父类;研究生是硕士、博士的父类等等。
    • 词汇表外延的规则。包括属性、值约束、不相交描述(如教职人员和学生不相交)、对象间逻辑关系的规定(如一个教研室至少有10名教职工)等等。

    本体 VS 知识图谱 VS 知识地图

    引用:

    本体和知识图谱都通过定义元数据以支持语义服务。不同之处在于:知识图谱更灵活, 支持通过添加自定义的标签划分事物的类别。本体侧重概念模型的说明,能对知识表示进行概括性、抽象性的描述,强调的是概念以及概念之间的关系。大部分本体不包含过多的实例,本体实例的填充通常是在本体构建完成以后进行的。知识图谱更侧重描述实体关系,在实体层面对本体进行大量的丰富与扩充。可以认为,本体是知识图谱的抽象表达,描述知识图谱的上层模式;知识图谱是本体的实例化, 是基于本体的知识库。( 黄恒琪,于娟,廖晓,席运江.知识图谱研究综述.计算机系统应用,2019,28(6):1–12.

    知识地图 (knowledge map) 将特定组织内的知识索引通过“地图”的形式串联在一起,揭示相关知识资源的类型、特征以及相互关系。 知识地图的主要功能在于实现知识的快速检索、共享和再重用,充分有效地利用知识资源。知识地图是关于知识的来源的知识。知识并非存储在知识地图中,而是存储在知识地图所指向的知识源中。知识地图指向的知识源包含数据库、文件以及拥有丰富隐性知识的专家或员工。有的企业应用知识地图来揭示知识的结构,实现对知识及其相关知识的检索。( 黄恒琪,于娟,廖晓,席运江.知识图谱研究综述.计算机系统应用,2019,28(6):1–12.

    (2)本体构建(Ontology Extraction)

    本体构建过程包含三个阶段:

    • 实体并列关系相似度计算
    • 实体上下位关系抽取
    • 本体的生成

    比如对下面这个例子,当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候,可能会认为它们三个之间并没有什么差别,但当它去计算三个实体之间的相似度后,就会发现,阿里巴巴和腾讯之间可能更相似,和手机差别更大一些。

    这就是第一步的作用,但这样下来,知识图谱实际上还是没有一个上下层的概念,它还是不知道,阿里巴巴和手机,根本就不隶属于一个类型,无法比较。因此我们在实体上下位关系抽取这一步,就需要去完成这样的工作,从而生成第三步的本体。

    当三步结束后,这个知识图谱可能就会明白,“阿里巴巴和腾讯,其实都是公司这样一个实体下的细分实体。它们和手机并不是一类。”
    在这里插入图片描述

    (3)知识推理(Knowledge Inference)

    完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但可能在这个时候,知识图谱之间大多数关系都是残缺的,缺失值非常严重,那么这个时候,我们就可以使用知识推理技术,去完成进一步的知识发现。

    知识推理就是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而扩展和丰富知识网络。

    例如康熙是雍正的父亲,雍正是乾隆的父亲,那么尽管康熙和乾隆这两个实体之间通过知识推理,就可以获得他们之间是祖孙关系。

    知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。比如:

    • 推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;
    • 推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)

    知识的推理方法可以分为2大类:基于逻辑的推理和基于图的推理。

    (4)质量评估(Quality Evaluation)

    质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

    三、Reference

    1、通俗易懂解释知识图谱一文揭秘!自底向上构建知识图谱全过程
    2、斯坦福CS224n(15)指代消解
    3、知识图谱学习系列之一:知识图谱综述
    4、知识图谱的总体构建思路
    5、知识图谱—初识本体
    6、本体概述

    展开全文
  • 本文将从科技大数据知识图谱构建及应用研究角度, 对科学研究过程中发挥重大推动作用的科技领域知识图谱技术进行系统、深入的综述。
  • 本文以知识图谱为切入点,重点讲解了阿里巴巴B2B在电商结构化信息挖掘和场景应用等方面的经验。 知识图谱并不是一个全新的概念,它经历了知识工程、专家系统、语义网络等多种形式。 01、知识工程与专家系统 在...

    目录

    01、知识工程与专家系统

    02、语义网络与知识图谱

    1. 语义网络

    2. 知识图谱

    ① 知识图谱概述

    ② 常见开放知识图谱

    03、知识图谱构建

    1. 知识抽取

    ① 实体抽取

    ② 关系抽取

    ③ 知识融合

    2. 知识推理

    ① 基于逻辑的推理

    ② 基于图的推理

    3. 知识图谱存储

    ① 基于表结构的存储

    4. 基于图结构的存储

    04、知识表示

    1. 距离模型

    2. 翻译模型

    05、电商知识图谱应用


    导读:发展是平台永恒的话题,以电商平台为例,在基于用户身份、历史行为挖掘偏好,以实现精准搜索和推荐结果展示之外,为了激励用户在平台进行更多采购,需要专门构建强化采购激励、拓宽采购品类的场景。本文以知识图谱为切入点,重点讲解了阿里巴巴B2B在电商结构化信息挖掘和场景应用等方面的经验。

    知识图谱并不是一个全新的概念,它经历了知识工程、专家系统、语义网络等多种形式。

    01、知识工程与专家系统

    在1977年第五届国际人工智能会议上,美国斯坦福大学计算机科学家Edward A. Felgenbaum发表的文章The art of artificial intelligence. 1. Themes and case studies of knowledge engineering,系统性地阐述了“专家系统”的思想,并且提出了“知识工程”的概念。他认为:“知识工程利用了人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的一般准则和工具。在1984年8月全国第五代计算机专家讨论会上,史忠植教授提出:“知识工程是研究知识信息处理的学科,提供开发智能系统的技术,是人工智能、数据库技术、数理逻辑、认知科学、心理学等学科交叉发展的结果。”

    专家系统最成功的案例是DEC的专家配置系统XCON。1980年,XCON最初被用于DEC位于新罕布什尔州萨利姆的工厂,它拥有大约2500条规则。截至1986年,它一共处理了80 000条指令,准确率达到95%~98%。据估计,通过减少技师出错时送给客户的组件以加速组装流程和增加客户满意度,它每年为DEC节省2500万美元。

    一个典型的专家系统如图1所示,其特点主要包括:

    • 在特定领域里要具有和人一样或者超出人的高质量解决困难问题的能力;

    • 拥有大量、全面的关于特定领域的专业知识;

    • 采用启发的方法来指导推理过程,从而缩小解决方案的搜索范围;

    • 能够提供对自己的推理决策结果进行解释的能力;

    • 引入表示不同类型知识(如事实、概念和规则)的符号,专家系统在解决问题的时候用这些符号进行推理;

    • 能够提供咨询建议、修改、更新、拓展能力,并能处理不确定和不相关的数据。

                                                                                               图1 专家系统架构

    可以看到,专家系统大量依靠领域专家人工构建的知识库。在数据量激增、信息暴涨的当下,人工维护知识库的方式在效率和覆盖率上都难以达到令人满意的水平。另外,推理规则的增加也增加了系统的复杂度,从而导致系统非常难以维护。

    02、语义网络与知识图谱

    1. 语义网络

    伴随着Web技术的不断发展,人类先后经历了以网页的链接为主要特征的Web 1.0时代到以数据的链接(Linked Data)为主要特征的Web 2.0时代,目前Web技术正逐步朝向Web之父Berners Lee在2001年提出的基于知识互联的语义网络(semantic Web),也就是Web 3.0时代迈进。

    在Web 2.0时代,互联网发展迅猛,数据的规模呈爆发式增长,基于统计的机器学习方法占据主流,并且在各个领域取得不错的成果。例如搜索引擎,搜索的流程大致可拆分为基于用户查询、召回、L2R这3个过程,一定程度提升了用户获取信息的效率。但是这种服务模式仍然是把一系列信息抛给用户,用户最终还是需要对数据进行筛选、甄别,才能拿到自己最需要的信息。因此这种服务方式在效率、准确率上都有缺陷。

    语义网络的目标是构建一个人与机器都可理解的万维网,使得网络更加智能化,在解析用户查询意图的基础上,提供更加精准和快速的服务。传统的语义网络要做到这一点,就需要把所有在线文档构成的数据都进行处理并存放在一起,形成一个巨大、可用的数据库。

    这么做需要强大的数据处理和Web内容智能分析能力:首先就需要对这些Web数据进行语义标注,但是由于Web数据具有体量巨大、异质异构、领域范围大等特点,所以如何自动给Web上的网页内容添加合适的标签成为技术痛点之一。另外,面对已经标注过的Web数据,机器如何进行思考和推理也是亟待解决的问题。

    由于上述问题的存在,在语义网络提出后的10年间,其没有得到大规模应用,但是在对其研究的过程中,积累沉淀了成熟的本体模型建模和形式化知识表达方法,例如RDF(Resource Description Framework)和万维网本体语言(Web Ontology Language,OWL),这为后续知识图谱的出现奠定了基础。

    2. 知识图谱

    ① 知识图谱概述

    知识图谱由Google公司于2012年5月16日第一次正式提出并应用于Google搜索中的辅助知识库。谷歌知识图谱除了显示其他网站的链接列表,还提供结构化及详细的相关主题的信息。其目标是提高搜索引擎的能力,希望用户能够使用这项功能来解决他们遇到的查询问题,从而提高搜索质量和用户体验。

    知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其之间的关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互连接,构成网状的知识结构。随着知识图谱构建规模越来越大,复杂度越来越高,开始出现实体、类别、属性、关系等多颗粒度、多层次的语义单元,这些关联关系通过统一的知识模式(Schema)抽象层和知识实例(Instance)层共同作用构成更加复杂的知识系统。

    从定义中可以看到,知识图谱是一个语义知识库,具备足够的领域知识,其最重要的组成成分是三元组。三元组通常可以表示为G=<Eh,R,Et>,其中R表示知识图谱中实体间所有关系的集合,例如关系“is_a”。一般情况下,关系都是带方向且有明确语义的,反之则关系不能成立,例如“阿里巴巴is_a公司”。也有一些关系是双向的,例如“张三is_friend_of李四”,反之亦然。对于这种双向关系,通常情况会对调实体位置,拆分为2个三元组分别存储。实体Eh、Et⊆E={e1,e2,...,e|E|}分别表示头实体(Head Entity)、尾实体(Tail Entity),两个实体共同用于表征关系的方向。

    实体及其属性可以用一种特殊的关系三元组表示,例如“has_a”。实体和属性的界线比较模糊,一般从业务角度出发,在设计Schema的时候,如果认为某类属性具有一类概念的共性,同时在后面的推理(例如路径游走时新关系发现)中能够发挥作用,就可以把它作为实体对待。还有一类属性,比如年龄、身高,这类单纯描述实体特征的最细粒度属性,则一般被设计为属性。

    ② 常见开放知识图谱

    WordNet是由普林斯顿大学认知科学实验室于1985年构建的一个英文电子词典和本体知识库,采用人工标注的方法构建。WordNet主要定义了名词、形容词、动词和副词之间的语义关系,包括同义关系、反义关系、上下位关系、整体部分关系、蕴含关系、因果关系、近似关系等。比如,其中的名词之间的上下位关系,“水果”是“苹果”的上位词。

    Freebase是由创业公司MetaWeb于2005年启动的一个以开放、共享、协同的方式构建的大规模链接数据库语义网络项目,2010年被谷歌收购并成为谷歌知识图谱中的重要组成部分。Freebase主要数据源有Wikipedia、世界名人数据库(NNDB)、开放音乐数据库(Music-Brainz)以及社区用户的贡献。它主要通过三元组构造知识,并采用图数据存储,有5800多万个实体和30多亿个实体间关系三元组。2016年正式关闭,数据和API服务都迁移至Wikidata。

    Yago是由德国马普研究所研发的链接知识库,主要集成了Wikipedia、WordNet和GeoNames这3个数据库中的数据。Yago将WordNet的词汇定义与Wikipedia的分类体系进行融合,从而使得Yago相对于DBpedia有更加丰富的实体分类体系,同时Yago还考虑了时间和空间知识,为知识条目增加了时间和空间维度属性描述。目前Yago已经包含1.2亿条三元组知识,是IBM Watson的后端知识库之一。

    OpenKG是一个面向中文领域的开放知识图谱社区项目,主要目的是促进中文领域知识图谱数据的开放与互联。OpenKG上已经收录了大量开放中文知识图谱数据、工具及文献。目前开放的知识图谱数据包括百科类的zhishi.me(狗尾草科技、东南大学)、CN-DBpedia(复旦大学)、XLore(清华大学)等。

    当然,还有一些垂直领域知识图谱,这类知识图谱不像上述通用领域知识图谱那样所涉内容广而全。垂直领域知识图谱主要面向特定领域的特定知识、应用场景进行构建,比如医疗领域的Linked Life Data、电商领域的阿里巴巴商品知识图谱和场景导购知识图谱。

    03、知识图谱构建

    知识图谱构建是一个系统工程,涵盖多种信息处理技术,用于满足图谱构建过程中的各种需要。典型的图谱构建流程主要包括:知识抽取、知识推理和知识存储。

    知识表示贯穿于整个知识图谱构建和应用的过程,在不同阶段知识表示具有不同的体现形式,例如在图谱构建阶段,知识表示主要用于描述知识图谱结构,指导和展示知识抽取、知识推理过程;在应用阶段,知识表示则主要考虑上层应用期望知识图谱提供什么类型的语义信息,用以赋能上层应用的语义计算。

    本节重点讲述面向应用的知识图谱表示。

    1. 知识抽取

    知识抽取是知识图谱构建的第一步,是构建大规模知识图谱的关键,其目的是在不同来源、不同结构的基础数据中进行知识信息抽取。按照知识在图谱中的组成成分,知识抽取任务可以进一步细分为实体抽取、属性抽取和关系抽取。

    知识抽取的数据源有可能是结构化的(如现有的各种结构化数据库),也有可能是半结构化的(如各种百科数据的infobox)或非结构化的(如各种纯文本数据)。针对不同类型的数据源,知识抽取所需要的技术不同,技术难点也不同。通常情况下,一个知识图谱构建过程面对的数据源不会是单一类型数据源。

    本节重点介绍针对非结构化文本数据进行信息抽取的技术。如上文所述,实体和属性间的界线比较模糊,故可以用一套抽取技术实现,所以下文如果不做特殊说明,实体抽取泛指实体、属性抽取。

    ① 实体抽取

    实体抽取技术历史比较久远,具有成体系、成熟度高的特点。早期的实体抽取也称为命名实体识别(Named Entity Recognition,NER),指的是从原始语料中自动识别出命名实体。命名实体指的是具有特定意义的实体名词,如人名、机构名、地名等专有名词。实体是知识图谱中的最基本的元素,其性能将直接影响知识库的质量。按照NER抽取技术特点,可以将实体抽取技术分为基于规则的方法、基于统计机器学习的方法和基于深度学习的方法。

    • 基于规则的方法:

    基于规则的方法首先需要人工构建大量的实体抽取规则,然后利用这些规则在文本中进行匹配。虽然这种方法对领域知识要求较高,设计起来会非常复杂,且实现规则的全覆盖比较困难,移植性比较差,但是在启动的时候可以通过这个方法可以快速得到一批标注语料。

    • 基于统计机器学习的方法:

    既然是机器学习的方法,就需要标注语料,高质量的标注语料是通过这类方法得到好的效果的重要保障。该方法的实现过程为:在高质量的标注语料的基础上,通过人工设计的特征模板构造特征,然后通过序列标注模型,如隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,MEM)和条件随机场模型(Conditional Random Fields,CRF)进行训练和识别。

    模型特征的设计需要较强的领域知识,需要针对对应实体类型的特点进行设计。例如,在人名识别任务中,一个中文人名本身的显著特点是一般由姓和一两个汉字组成,并且人名的上下文也有一些规律,如“×××教授”“他叫×××”。在有了高质量的标注语料的基础上,合适的特征设计是得到好的序列标注模型效果的又一重要保障。

    对于序列标注模型,一般我们对需要识别的目标字符串片段(实体)通过SBIEO(Single、Begin、Inside、End、Other)或者SBIO(Single、Begin、Inside、Other)标注体系进行标注。命名实体标注由实体的起始字符(B)、中间字符(I)、结束字符(E)、单独成实体的字符(S)、其他字符(O)等组成,如图2所示。

                                                                                         图2 命名实体标注

    为了区分实体的类型,会在标注体系上带上对应的类型标签,例如ORG-B、ORG-I、ORG-E。

    在实体抽取中,我们最常用的基于统计的序列标注学习模型是HMM、CRF。其中,HMM描述由隐藏的隐马尔可夫随机生成观测序列的联合分布的P(X,Y)过程,属于生成模型(Generative Model),CRF则是描述一组输入随机变量条件下另一组构成马尔可夫随机场的数据变量的条件概率分布P(Y|X),属于判别模型(Discrimination Model)。

    以HMM为例,模型可形式化表示为λ= (A,B,π),设I是长度为T的状态序列,O是对应长度的观测序列,M为所有可能的观测数(对应于词典集合大小),N为所有状态数(对应标注的类别数),A是状态转移矩阵:

    其中:

    aij表示在时刻t处于qi的条件下在时刻t+1转移到qj的概率。

    B是观测概率矩阵:

    其中:

    π是初始状态概率向量:

    其中:

    πi表示在时刻t=1处于状态qi的概率。

    HMM模型的参数学习即学习上面的A,B,π矩阵,有很多实现方法,比如EM和最大似然估计。一般在语料充足的情况下,为了简化过程,采用最大似然估计,例如:

    序列标注任务可以抽象为求解给定观察序列O=(o1,o2,...,oT)和模型λ=(A,B,π),也就是计算在模型λ下使给定观测序列条件概率P(I|O)最大的观测序列I=(i1,i2,...,iT),即在给定观测序列(即原始字符串文本)中求最有可能的对应的状态序列(标注结构)。一般采用维特比算法,这是一种通过动态规划方法求概率最大路径的算法,一条路径对应一个状态序列。

    定义在时刻t状态为i的所有单个路径(i1,i2,…,it)中概率最大值为:

    可以得到变量δ的递推公式:

    定义在时刻t状态为i的所有单个路径(i1,i2,…,it-1,i)中概率最大的路径的第t-1个节点为:

    维特比算法在初始化δ1(i)=πibi(o1),Ψ1(i)=0,i=1,2,...,N之后,通过上述递推公式,得到最优序列。

    CRF算法与维特比算法类似,其得到在各个位置上的非规范化概率的最大值,同时记录该路径:

    • 基于深度学习的方法

    在上面介绍用统计机器学习的方法构造特征的时候,我们发现实体在原始文本中的上下文特征非常重要。构建上下文特征需要大量的领域知识,且要在特征工程上下不少功夫。随着深度学习的方法在自然语言处理上的广泛应用,构建上下文特征开始变得简单了。深度学习的方法直接以词/字向量作为输入,一些模型(如RNN、Transformer等)本身就能很好地学习到上下文信息,并且不需要专门设计特征来捕捉各种语义信息,相比传统的统计机器学习模型,性能都得到了显著提高。这一类模型的通用结构基本都是一个深度神经网络+CRF,如bi-LSTM-CRF、IDCNN-CRF、LSTM-CNN-CRF、Bert-biLSTM-CRF等,模型可以基于字或词输入(一般来说,基于字的模型性能更加优秀,它可以有效解决OOV问题)。这个DNN模型可以学习上下文语义特征、预测各个位置上输出各个标签的概率,然后再接入CRF层来学习各标签之间的依赖关系,得到最终的标注结果。

    ② 关系抽取

    关系抽取的目标是抽取两个或者多个实体间的语义关系,从而使得知识图谱真正成为一张图。关系抽取的研究是以MUC(Message Understanding Conference)评测会议和后来取代MUC的ACE(Automatic Content Extraction)评测会议为主线进行的。ACE会议会提供测评数据,现在许多先进的算法已经被提出。

    一般关系抽取的顺序是,先识别实体,再抽取实体之间可能存在的关系。其实也可以把实体抽取、关系抽取联合在一起同时完成。目前,关系抽取方法可以分为基于模板的关系抽取和基于监督学习的关系抽取两种方法。

    • 基于模板的关系抽取

    基于模板的关系抽取,即由人工设计模板,再结合语言学知识和具体关系的语料特点,采用boot-strap思路到语料里匹配并进行抽取关系。这种方法适用于小规模、特定领域任务冷启动时的关系抽取,这种场景下效果比较稳定。

    • 基于监督学习的关系抽取

    基于监督学习的关系抽取方法一般把关系抽取任务当作一系列的分类问题处理。即基于大规模的标注语料,针对实体所在的句子训练有监督的分类模型。分类模型有很多,例如统计机器学习方法SVM及深度学习方法(如CNN)等。

    传统的机器学习方法重点在特征选择上,除了实体本身的词特征,还包括实体词本身、实体类型、两个实体间的词以及实体距离等特征。很多研究都引入了依存句法特征,用以引入实体间的线性依赖关系。基于深度学习的关系抽取方法则不需要人工构建各种特征,输入一般只要包括句子中的词及其位置的向量表示特征。目前基于深度学习的关系抽取方法可以分为流水线方法(Pipeline)和联合抽取方法(Jointly)。前者是将实体识别和关系抽取作为两个前后依赖的分离过程;后者则把两个方法相结合,在统一模型中同时完成,从而避免流水线方法中存在的错误累计问题。

    在经典的深度学习关系抽取方法中,输入层采用的就是词、位置信息,将在Embedding层得到的向量作为模型的输入,经过一个BI-LSTM层和Attention层,输出得到各个关系的概率,如图3所示。

                                                                          图3 经典深度学习关系抽取模型架构

    ③ 知识融合

    通过知识抽取,我们得到大量实体(属性)和关系,但是由于描述、写法的不同,结果中存在大量冗余和错误信息,有必要对这些数据进行消歧、清洗和整合处理。作为知识融合的重点技术,实体链接(Entity Linking)的目的是将在文本中抽取得到的实体对象链接到知识库中与之对应的唯一确定的实体对象,以实现实体消歧和共指消解。

    实体消歧(Entity Disambiguation)专门用于解决同名实体的歧义问题,最简单的方法是通过实体的属性、周边的词构成特征向量,通过向量的余弦相似度评估两个实体的相似度。基于这个思想,我们可以有更多的基于语义的方法来表征目标实体,从而评估两个实体是否是同一个。

    共指消解(Entity Resolution)是指解决多个不同写法的实体指向同一个实体的问题。一般这类问题可以参考实体消歧方法解决,也可以具体问题具体分析,通过一些规则方法解决。

    2. 知识推理

    知识推理是基于现有的知识图谱结构,进一步挖掘隐含的知识,用来补全现有知识图谱属性、关系,从而发现新的知识,拓展和丰富图谱。例如可以通过推理发现新属性,如由已知实体的出生年月属性推理出年龄;也可以发现新关系,例如,已知(A,股东,B公司)、(C,股东,B公司)可以推理得出(A,合作伙伴,C)。知识推理的方法可以分为两大类:基于逻辑的推理和基于图的推理。

    ① 基于逻辑的推理

    基于逻辑的推理主要包括一阶谓词逻辑(First Order Logic)推理、描述逻辑(Description Logic)推理。一阶谓词对应着知识库里的实体对象和关系,通过谓词之间的“与”和“或”的关系来表示知识变迁从而实现推理。例如通过“妈妈是女人”“女人是人”可以推理得到“妈妈是人”。描述逻辑则是在一阶谓词的基础上,解决一阶谓词逻辑的表示能力有限的问题,通过TBox(Terminology Box)和ABox(Assertion Box),可以将知识图谱中复杂的实体关系推理转化为一致性的检验问题,从而简化推理。

    ② 基于图的推理

    基于图的推理方法,主要借助图的结构特征,通过路径游走的方法,如Path Ranking算法和神经网络图向量表示方法,进行基于图的推理。Path Ranking算法的基本思想是从图谱的一个节点出发,经过边在图上游走,如果能够通过一个路径到达目标节点,则推测源节点和目标节点存在关系。神经网络图向量表示方法则是对通过向量表示后的图节点、关系进行相似度运算,推理节点之间是否存在关系。

    3. 知识图谱存储

    知识图谱中的信息可以用RDF结构表示,它的主要组成成分是三元组,主要包括实体及其属性、关系三类元素。在实际应用中,按照底层数据库的存储方式不同,可以分成基于表结构的存储和基于图结构的存储。基于表结构的存储可以理解为一般的关系型数据库,常见的如MySQL、Oracle,基于图存储的数据库常见的有Neo4j、OrientDB、GraphDB等。

    ① 基于表结构的存储

    基于表结构的知识图谱存储利用二维数据表对知识图谱中的数据进行存储,有3种常见的设计方案:基于三元组的存储、基于类型表的存储和基于关系型数据库的存储。

    • 基于三元组的存储

    因为知识图谱可以由三元组描述,所以我们可以把知识图谱转化成三元组的描述方式,将其放到一张数据表中。例如可以类似表1所示的形式。

                                                                                         表1 三元组存储示例

    这种存储的优点很明显,结构比较简单,可以通过再加一些字段来增强对关系的信息的描述,例如区分是属性还是关系。其缺点也很明显:首先,这样有很高的冗余,存储开销很大,其次,因修改、删除和更新操作带来的操作开销也很大;最后,由于所有的知识都是以一行一个三元组的方式存储的,因此所有的复杂查询都要拆分为对三元组的查找才能得到答案。

    • 基于类型表的存储

    针对上述方案存在的缺点,可以为每一种实体类型设计一张数据库表,把所有同一类型的实体都放在同一张表中,用表的字段来表示实体的属性/关系。这种方案可解决上面存储简单、冗余度高的问题,但是缺点也很明显:首先,表字段必须事先确定,所以要求穷举实体的属性/关系,且无法新增(否则需要修改表结构);其次,因为属性/关系都是存储在特定列中的,所以无法支持对不确定类型的属性和关系的查找;最后,因为数据按照类型放在对应表中,所以在查询之前就需要事先知道实体的类型。

    • 基于关系型数据库存储

    关系型数据库通过表的属性来实现对现实世界的描述。我们可以在第二种方案的基础上设计实体表(用于存储实体属性)、关系表(用于存储实体间的关系),这一定程度上可以解决表结构固定、无法新增关系的问题,因为一般我们认为实体的属性可以在Schema设计时事先枚举完。例如表7-1,可以拆分为3张表(见表2、表3和表4)。

                                                                                             表2 组织机构表

                                                                                                表3 人物表

                                                                                                 表4 关系表

    4. 基于图结构的存储

    知识图谱本身就是图结构的,实体可以看作图的节点,关系可以看作图的关系,基于图的方式存储知识,可以直接、准确地反映知识图谱内部结构,有利于知识的查询、游走。基于图谱的结构进行存储,可以借用图论的相关算法进行知识推理。常见的图数据库有Neo4j、OrientDB、GraphDb、GDB(阿里云)等。

    Neo4j是一个开源的图数据库,它将结构化的数据以图的形式存储,基于Java实现(现在也提供Python接口),是一个具备完全事务特性的高性能数据系统,具有成熟数据库的所有特性。Neo4j分为商业版和社区版。其中社区版是开源的,是一个本地数据库;商业版则实现了分布式功能,能够将多台机器构造成数据库集群来提供服务。它采用的查询语言是cypher,可以通过Neo4j实现知识图谱节点、关系的创建(create命令)和查询(match命令)。

    Neo4j在Linux上的安装非常简单,到官网上下载对应的安装包,解压后安装到bin目录,然后通过./neo4j start命令启动。我们可以在:http://localhost:7474/browser/    访问可视化界面(见图4),可以在这个Web页面上通过cypher和图数据库进行交互。

                                                                                  图4 Neo4j Web可视化界面

    阿里巴巴内部也研发了图数据库用于存储知识图谱数据,如GDB、iGraph等,其中GDB(Graph Database,图数据库)是由阿里云自主研发的,是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库。它支持Apache TinkerPop Gremlin查询语言,可以快速构建基于高度连接的数据集的应用程序。GDB非常适合用于社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类需要用到高度互连数据集的场景。目前GDB正处于公测期间,阿里巴巴内部很多知识图谱业务都基于GDB存储,它具备如下优势:

    • 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。

    • 高度优化的自研引擎:高度优化的自研图计算层和存储层,通过云盘多副本方案保障数据超高可靠性,支持ACID事务。

    • 服务高可用:支持高可用实例,单节点出故障后业务会迅速转移到其他节点,从而保障了业务的连续性。

    • 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。

    04、知识表示

    知识表示是指在不同的语义环境下有不同的含义,例如在图谱构建阶段,知识表示可以认为是基于RDF用三元组形式,如“<实体,属性,值>”或者“<实体,关系,实体>”(也有描述为<主语,谓词,宾语>)来表征知识图谱的语义信息的。在知识图谱接入上层应用场景后,尤其是随着深度学习方法的广泛采用,如何将知识图谱和深度学习模型融合,借助知识图谱引入领域知识来提升深度学习模型性能,引起了学术界和工业界的广泛关注。

    本节将重点介绍基于知识表示的学习方法,介绍如何将知识图谱中的高度稀疏的实体、关系表示成一个低维、稠密向量。

    1. 距离模型

    结构表示(Structured Embedding,SE),将每个实体用d维的向量表示,所有实体被投影到同一个d维向量空间中,同时,为了区分关系的有向特征,为每个关系r定义了2个矩阵Mr,1,Mr,2∈Rd*d,用于三元组中头实体和尾实体的投影操作,将头实体、尾实体投影到关系r的空间中来计算两个向量的距离,公式为:

    用以反映2个实体在关系r下的语义相关度,距离越小,说明这2个实体存在这种关系的可能性越大。然而该模型有一个重要缺陷,它使用头、尾两个不同的矩阵进行投影,这个矩阵相互独立没有协同,往往无法精确刻画两个实体基于关系的语义联系。为了解决这个问题,后续出现了单层神经网络模型(Single Layer Model,SLM)、语义匹配能量模型(Semantic Matching Energy,SME)等方法,如RESCAL。RESACL模型是一个基于矩阵分解的模型,在该模型中,将整个知识图谱编码为一个三维张量X,如果三元组存在,则Xhrt=1,否则为0。张量分解的目标是要将每个三元组对应的张量分解为实体和关系,使得Xhrt尽量接近lhMrlt,函数可表示为:

    2. 翻译模型

    自从Mikolov等人于2013年提出word2vec模型开始,表示学习Embedding在自然语言处理领域受到广泛关注,该模型发现在词向量空间中平移(加减)不变现象,即:

    其中C(w)表示w通过word2vec得到的词向量。受这类类比推理实验启发,Bordes等人提出了TransE模型,之后又出现多种衍生模型,如TransH、TransR等。TransE将知识库中的关系看作实体间的平移向量,对于每个三元组,TransE希望:

    即期望头节点向量沿关系平移后,尽量和尾节点向量重合(见图5)。

    图5 TransE 模型

    模型的损失函数定义如下:

    “||”表示取模运算,如L2距离。

    在实际学习过程中,为了增强模型知识表示的区分能力,TransE采用了最大间隔,目标函数为:

    其中,S是正确的三元组集合,S-是错误的三元组集合,γ为正确三元组得分和错误三元组得分之间的间隔距离,是一个超参数。S-的产生与负样本的生成方式不同,不通过直接随机采样三元组,而是将S中每一个三元组的头实体、关系、尾实体其中之一随机替换成其他实体或关系来构造。

    TransE模型简单有效,后续很多知识表示学习方法都是以此为代表进行拓展的。例如TransH模型,为了解决TransE在处理1-N、N-1、N-N复杂关系时的局限性,提出让一个实体在不同关系下拥有不同的表示。另外,虽然TransH模型使得每个实体在不同关系下拥有了不同的表示,但是它仍然假设实体和关系处于统一语义空间中,这和我们一般的认知有点不同,于是有学者提出了TransR模型。TransR模型首先通过一个投影矩阵Mr把实体投影到关系的语义空间,然后再进行关系类比推理(见图6):

                                                                                           图6 各种翻译模型

    05、电商知识图谱应用

    知识图谱提供了一种更好的组织、管理和利用海量信息的方式,描述了现实世界中的概念、实体以及它们之间的关系。自从谷歌提出知识图谱并应用在搜索引擎中,用以提升搜索引擎使用体验,提高搜索引擎质量以后,知识图谱在各种垂直领域场景中都扮演了重要的角色。

    随着消费升级,行业会场+爆款的导购模式已经无法满足消费者心智,人们对货品的需求逐渐转化为对场景的需求。通过场景重新定义货品的需求产生,场景运营平台应运而生。场景运营平台通过对商品知识的挖掘,将具有共同特征的商品通过算法模型聚合在一起,形成事实上的跨品类商品搭配。在算法端完成场景-商品知识图谱的建设后,通过当前诉求挖掘消费者深层次诉求,推荐某个场景下互相搭配的商品,给予消费者对应场景下一站式的购物体验,达到鼓励消费者跨类目购买行为及提升客单价的目的。例如在阿里电商平台,导购场景就有了很好的应用,并取得了不错的效果。

    1688团队在阿里内部数据和算法基建的基础上,基于B类商品特征,构建了自己的商品知识图谱,以CPV的方式表征一个商品,具体商品表征如图7所示。

                                                                                    图7 商品CPV表征示意图

    任何知识图谱应用的构建,整体上都要经历如下几个步骤:文本等非结构化或半结构化信息→结构化的知识图谱→知识图谱表征→特定应用场景。1688的商品知识图谱,在阿里通用的电商NLP技术的基础上,完成了半结构化信息向结构化的知识图谱转化的步骤,但是中间存在大量质量较差、语义模糊甚至错误的数据。为了优化这部分数据,阿里做了大量的工作,包括实体合并、消歧、长尾数据裁剪等。

    针对初步加工过的数据,还需要大量的人工来标注清洗,以发挥数据的价值。而数据标注清洗这种累活一般是找专门的数据标注公司外包完成的。为了减少专门标注的成本,我们采用了“以战养兵”的思路,让运营直接使用这份经过初步加工的数据,通过收集运营的操作数据,快速反馈到算法模型中并不断优化结果,形成运营-数据的相互反馈,如图8所示,让工具越用越顺手,越用越好。

                                                                                 图8 主题会场搭建流程示意图

    具体的主题录入方式是:运营指定一个主题场景,比如婚庆主题,在指定主题下涵盖商品的类目、属性、属性值。比如列举一组配置,可以搭配后台配置截图。通过行业运营专家的经验将主题和相应的商品图谱关联起来,我们可以明确哪些CPV数据存在业务关联,以及运营认为哪些数据是有效的。除了主题数据的人工录入,我们还配套了相关的自动化页面搭建方案。

    电商经常需要做促销活动,活动会场页面的制作需要投入大量人力,常见的活动页面如图9所示。

                                                                                 图9 常见电商促销活动页面图

    这种活动类导购页面的搭建,核心是站在买家的角度帮助他们发现和选择商品,如图10所示。其中,什么商品、如何挑选、怎样呈现就是导购页面包含的核心要素和业务流程。映射到技术领域,则会涉及建立页面、数据分析、投放策略的三个方面。

                                                                     图10 活动类导购页面搭建流程示意图

    1688在活动页面制作方面沉淀多年,有众多实用的技术和工具供运营使用,如页面组件化搭建产品(积木盒子、奇美拉)、指标选品工具(选品库)、商品排序投放产品(投放平台)等。这些产品都有各自的细分业务域,运营通常需要跳转到多个平台进行配置,才能完成一张活动页面的搭建,整体流程如图11所示。

                                                                                  图11 活动页面搭建平台示意图

    这就像是办证件,A窗口让你去B窗口登记,B窗口让你去C窗口填表。我们都围着一个个的“窗口”转,这是一种以资源为中心的工作方式。以前让用户围绕着资源转,是为了最大化资源的使用效率,但是在今天这个人力成本高的时代,需要从资源视角转向用户视角,让资源围着用户转,这样可以最大化价值流动效率。

    我们通过几个月的努力,将十余个系统打通,实现了数据源标准化方案、数据页面绑定方案、页面自动多端搭建方案、投放自动化方案等,形成了如图12所示的产品体系。

                                                                               图12 会场搭建产品体系示意图

    通过将系统打通,使得运营搭建一个页面的配置工作量减少了83.2%。而在剩余的16.8%的工作里,有87%是选品工作。借助主题会场,我们希望将运营选品的工作量也降低50%以上,并借助数据和算法,实现智能选品、智能搭建、智能投放。

     

    参考链接:https://mp.weixin.qq.com/s/cJZz_BfkfbJzV2l8NiPaFg

    展开全文
  • 知识图谱导论课件,中国科学院自动化研究所模式识别国家重点实验室,赵军老师。内容很详细,感兴趣的可以学一学。
  • 科学知识图谱

    千次阅读 2018-01-04 16:39:59
    知识图谱,也称为科学知识图谱,它通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域...
  • 知识图谱01:知识图谱的定义

    千次阅读 2020-10-05 21:54:27
    2012年,谷歌提出了知识图谱的概念,自此,知识图谱得到了广泛的关注和应用研究,现已发展成为语义搜索、智能问答、决策支持等智能服务的基础技术一。 知识图谱是以图的形式表现客观世界中的实体(概念)及其之间关系...
  • 博主经过多年的研究,结合自身的论文阅读和科研经历,并借助复旦大学知识工场团队编写的《知识图谱概念与技术(肖仰华)》作为理论支撑,编写《知识图谱核心技术》博客文章。 一、知识图谱概念   知识图谱在最初...
  • 要深入了解一个技术,就要知道这个技术在历史上如何发展而来的。 知识图谱号称人工智能领域的一颗掌上明珠,知识图谱的历史,要先从人工智能的三大学派说起。
  • 知识图谱中的知识分类 事实知识 事实知识是关于某个特定实体的基本事实,如(山东富士苹果,产地,山东)。事实知识是知识图谱中非常常见的知识类型。大部分的事实知识都是在描述实体的特定属性或关系,如“产地”。...
  • 信息抽取是知识图谱构建的第一步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。知识抽取是一种自动化地从结构化、半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及...
  • 知识图谱学习(二):电商知识图谱 ——本文摘自机械工业出版社华章图书《阿里巴巴B2B电商算法实战》,参考文献请参见原书。 目录知识图谱学习(二):电商知识图谱前言互联网创业潮电商生态一、知识工程与专家...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,608
精华内容 5,043
关键字:

科研知识图谱