精华内容
下载资源
问答
  • 知识图谱构建

    2019-01-22 15:54:49
    知识图谱构建 1.知识图谱 知识图谱的定义 知识图谱最先由Google提出,是用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示...

    知识图谱构建

    1.知识图谱

    知识图谱的定义
    知识图谱最先由Google提出,是用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。知识图谱中包含三种节点:

    • 实体:指的是具有可区别性且独立存在的某种事物,如某一个人等
    • 属性(值) :从一个实体指向它的属性值。如人的属性有性别等
    • 关系 :两个实体之间的联系

    知识图谱的架构
    知识图谱从逻辑上可以划分为2个层次:数据层和模式层。
    在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,所有数据构成庞大的实体关系网络。
    模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层。

    知识图谱的构建
    知识图谱的构建包含三个阶段,分别是:信息抽取、知识融合以及知识加工。
    信息抽取的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。关键技术包括:实体抽取、关系抽取和属性抽取。
    知识图谱有自顶向下和自底向上2种构建方法。
    自顶向下是从百科类网站等高质量数据源中提取本体和模式信息,加入到知识库中。
    自底向上是从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核后,加入到知识库中。

    2.信息抽取

    获取数据
    非结构化数据的获取:
    本次数据使用了巨潮资讯网上上市公司的深圳主板上的上市公司的公告信息。从巨潮网上查看控制台中的network发现巨潮资讯网在公告信息这一模块是通过post请求加参数来发送request,因此只要构建一个和巨潮网相同的请求的参数列表即可。然后将返回的url链接存入csv文件,通过csv文件保存的pdf文件的链接地址,通过python的pdfminer库将pdf文件下载存储为一个txt文件。

    结构化数据的获取:
    巨潮资讯网中有结构化的公司的高管人员信息和公司概况信息。经过分析发现高管信息和公司概况信息网页是动态加载的,里面的内容都是通过js来控制iframe进行展现的,因此通过scrapy的response.body获取的网页的返回结果没有完美所需要的数据, 所以采用python的beautifulsoup库进行信息的爬取。从巨潮公司的上市公司的公司列表页面中获取公司的股票代码,然后通过公司的股票代码从公司信息页面中获取公司的高管信息和共公司概况。

    数据预处理
    在用DeepDive处理原始文本时,由于原始文本中出现了一些简称之类的词,nlp语言里面并没有处理此类情况的方法,所以会造成公司实体识别不准确的情况,会降低程序处理结果的正确性,因此在将文本导入DeepDive之前对文本进行了预处理操作。
    针对公告信息中大部分采用简称的方式来表示公司,所以采用了哈工大研发的ltp工具来进行公告中公司实体的识别,通过设置API参数中的pattern=ner&format=plain识别出公司名称并返回,然后用正则表达式匹配公告中的***公司(以下简称“***”)提取出公司和相应的简称之间的对应关系,然后用全称替换掉公告中的简称来进行原始文本的初始化。

    抽取信息
    信息抽取过程中使用了DeepDive工具来进行信息的信息的抽取, DeepDive可以从非结构化的文本中提取出结构化的文本。
    DeepDive采用了standford nlp进行文本处理。根据输入文本数据,nlp模块将以句子为单位,返回每句的分词、lemma、pos、NER和句法分析的结果。将返回的数据进行数据监督和规则监督即可得到结构化的三元组关系。
    在DeepDive我们想要预测的是一个名为DDlog的语言中的随机变量,将要保存的数据库表声明在app.ddlog文件中,DeepDive会编译生成相应的脚本来进行表的生成。
    在DeepDive中使用Postgres数据库来存储所有的数据输入,中间过程以及输出,如果对于要求有更大规模的操作,可以使用Greenplum数据库。

    DeepDive处理数据的流程:

    1. 在app.ddlog中声明articles表的id和cotenet属性用来标记articles表的列名,将原始文本加载到数据库的articles表格中;
    2. 在app.ddlog中声明sentences表的doc_id、 sentence_index、sentence_text、tokens 、lemmas 、pos_tags 、ner_tags 、doc_offsets 、dep_types 、dep_tokens 列,然后使用Stanford的CoreNLP自然语言处理(NLP)系统为输入的数据添加标记和结构,返回句子的分词、lemma、pos、NER等,其中lemma表示词元,pos表示词性标注,NER中表示识别出的地名、人名、组织等;
    3. 在app.ddlog中声明公司实体表company_mention 及表的列属性,在map_company_mention.py脚本中遍历每个数据库中的句子,找出连续的NER标记为ORG的序列,再做其它过滤处理,其它脚本也要复制过去。这个脚本是一个生成函数,用yield语句返回输出行,将提及到的公司信息保存到数据库的company_mention表中,提取出所有提及到的候选公司实体。
    4. 在app.ddlog中声明transaction_dbdata表及其列,根据启发式规则对数据进行监督,调用supervise_transaction.py脚本,在脚本中定义规则名称和所占的权重定义,程序将所有的候选公司实体对与定义好的规则相匹配,如果侯选实体对的规则与定义好的规则相同,则将label设置为程序中定义好的规则名称,然后将规则和权重保存到transaction_dbdata 表中。例如如果中间出现了“对”,“向”,后面出现了“投资”,“融资”等词则将候选公司标记为真,规则名称标记为“A投资B”,句子中提及比较远则标记为假,规则名称标记为“ABfar_apart”;
    5. 最后通过对模型执行学习和推理,得出最后的公司关系和概率。

    3.知识融合

    知识融合包括2部分内容:实体链接和知识合并。
    知识融合的目的是消除概念的歧义,剔除冗余和错误概念,从而保证知识的质量。

    实体链接
    实体链接(entity linking)是指从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。
    实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
    实体链接的一般流程是:
    从文本中通过实体抽取得到实体指称项
    进行实体消岐和共指消解
    在确认知识库中对应的正确实体对象后,将该实体指称项链接到知识库中对应实体
    实体消歧是专门用于解决同名实体产生歧义问题的技术。例如“苹果”可以指水果,也可以指手机。通过实体消岐,然后就可以根据当前的语境,准确建立实体链接。实体消岐主要采用聚类法。聚类法消岐的常用方法有4种:1.空间向量模型(词袋模型);2.语义模型;3.社会网络模型;4.百科知识模型
    共指消解主要用于解决多个指称项对应于同一实体对象的问题。例如“eason”,“陈某某”,“陈奕迅”等指称项可能指向的是同一个实体对象。代表性的解决方法是Hobbs算法和向心理论(centering theory)

    知识合并
    在构建知识图谱时,需要将第三方知识库产品或已有结构化数据获取知识输入。
    抽取得到的结构化数据:将从巨潮资讯网上爬虫获取的结构化数据导入数据库中
    抽取得到的三元组数据:将抽取得到的实体、属性和关系过滤掉冗余的部分导入到数据库中

    4.知识加工

    本体构建
    本体可以采用人工编辑的方式手动构建(借助 本体编辑软件),也可以采用计算机辅助,以数据驱 动的方式自动构建, 然后采用算法评估和人工审核 相结合的方式加以修正和确认。对于特定领域而言,可以采用领域专家和众包的方式人工构建本体 。
    然而对于跨领域的全局本体库而言,采用人工方式工作量巨大,而且很难找符合要求的专家。因此当前主流的全局本体库产品,都是从一些特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
    在本次实验中,选用了 OWL 语言作为本体描述语言。

    本体构建工具
    Protege软件是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件,或者说是本体开发工具,也是基于知识的编辑器。Protege提供了本体概念类,关系,属性和实例的构建,并且屏蔽了具体的本体描述语言,用户只需在概念层次上进行领域本体模型的构建。
    Jena提供了将RDF数据存入关系数据库的接口,Model、Resource、Query等接口可以用于访问和维护数据库里的RDF数据。在处理数据时,应用程序不必直接操作数据(而是通过Jena的API),也不必知道数据库的模式。Jena提供了支持MySQL、HSQLDB、PostgreSQ、Oracle和Microsoft SQL Server的程序接口。

    数据准备
    金融本体构建使用的数据来源于数据抽取阶段的结构化数据和非结构化数据中抽取出的关系三元组
    公司的基本信息包括:
    公司全称、英文名称、注册地址、公司简称、法定代表人、公司董秘、注册资本(万元)、行业种类、邮政编码、公司电话、公司传真、公司网址、上市时间、招股时间、发行数量(万股)、发行价格(元)、发行市盈率(倍)、发行方式主承销商、上市推荐人、保荐机构
    高管的基本信息包括:
    姓名、职务、出生年份、性别、学历

    本体建模
    在Protege中,我们创建金融知识图谱的类/概念。所有的类的都是Thing的子类。我们创建了公司、行业、地区、高管四个类,在Object Properties页面创建了类之间的关系,比如公司属于什么行业,高管管理哪个公司,公司位于哪个地区,公司之间的合作、增资、子公司、持股、提供担保、更名、股权转让、购买产品、购买股权、贷款等关系。在Data properties部分创建各类的属性,例如有公司全称、英文名称、注册地址、姓名、性别等。
    在本体结构中把“公司”作为金融本体中的核心。在实际情况中,“公司”也是金融领域中最核心、最基本的单位,大部分金融事件都是围绕着“公司”发生的,例如“一个公司增资另外一个公司”、“一个公司位于哪个城市”等,所以本体结构中把“公司”作为金融本体中的核心。

    知识推理
    知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而扩展和丰富知识网络。例如已知(A,管理,B),可以推理出(B,被管理,A)等等。知识推理的对象不局限于实体间的关系,也可以是实体的属性值、本体的概念层次关系等。例如已知(老虎,科,猫科)和(猫科,目,食肉目),可以推出(老虎,目,食肉目)。知识的推理方法可以分为2大类:基于逻辑的推理和基于图的推理。

    本体的推理规则库是有一条条规则组成的。每条规则由主体(body)和头(head)组成,一条规则可以有一个主体和一个头,例如规则:[rule1:(?a fa:hasHusband ?b)(?a fa:isMotherOf ?c)->(?b fa:isFatherOf ?c)],其中规则的主体为:?a @hasHusband ?b,?a @isMotherOf ?c,头为:?b @isFatherOf ?c,也就是说有所有的主体可以推出头。?a @hasHusband ?b,?a @isMotherOf ?c,?b @isFatherOf ?c三者有一个称谓:ClauseEntry。例如方法Rule类中getbody()方法返回是一个ClauseEntry集合。他有2个元素?a @hasHusband ?b,?a @isMotherOf ?c。

    规则库建立好以后,将规则库保存为*.rule文件,通过java的Rule类即可根据建立好的规则库查询规则,在Jena中通过推理的接口即可使用sparql对本体进行查询。以下是根据一个规则库查规的例子:

    List<Rule> rules=Rule.rulesFromURL("file:f:/family.rules");
    //规则库里有[rule1: (?a fa:hasHusband ?b)(?a fa:isMotherOf ?c)->(?b fa:isFatherOf ?c)]
    ClauseEntry[] body=rules.get(0).getBody();  //获取规则库中的第一个规则的主体
    int j=rules.get(0).bodyLength();   //获取规则的长度
    for (int i=0;i<j;i++){  
          System.out.print(body[i]+“,”);     //输出规则的主体
      }  //输出?a @hasHusband ?b,?a @isMotherOf ?c
     ClauseEntry[] head=rules.get(0).getHead();  
     int k=rules.get(0).headLength();  
     for (int i=0;i<k;i++){  
           System.out.print(head[i]+“,”);    //输出规则的头
     }   //输出?b @isFatherOf ?c
    
    展开全文
  • 大规模百科知识图谱构建 大规模百科知识图谱构建 大规模百科知识图谱构建 大规模百科知识图谱构建 大规模百科知识图谱构建
  •   下面为知识图谱构建的例子,由笔者原创,是从新闻或者小说中直接抽取而来,加上大量时间的人工整理而得到,下面的图片是从Neo4J导出并截图。  例子1:《平凡的世界》实体关系图(局部):《平凡的世界》实体关系...

      笔者在去年的时候,给出了利用深度学习来构建知识图谱的一次尝试,文章为:利用关系抽取构建知识图谱的一次尝试 ,本文将会更出更多的例子,也是笔者近一个星期的忙碌结果。
      下面为知识图谱构建的例子,由笔者原创,是从新闻或者小说中直接抽取而来,加上大量时间的人工整理而得到,下面的图片是从Neo4J导出并截图。
      例子1:《平凡的世界》实体关系图(局部):

    76e757dac8f984522bebb096ae4e2c91.png
    《平凡的世界》实体关系图(局部)

      例子2:《白鹿原》实体关系图(局部):
    af09094a57489cf0ff43b382e711f836.png
    《白鹿原》实体关系图(局部)

      例子3:政治新闻实体关系图(局部):
    fd6732d371d69eb09eec7fe19bec1c9e.png
    政治新闻实体关系图(局部)

      例子4:《神雕侠侣》实体关系图(局部):
    6cdae1a5261a67441c2e93e64616b16d.png
    《神雕侠侣》实体关系图(局部)

      例子5:《明朝那些事儿》实体关系图(局部):
    9828ca17584d5c416a1a23ca747df238.png
    《明朝那些事儿》实体关系图(局部)

      例子6:《曾国藩》实体关系图(局部):
    f38403e1fa36092d38dd523cf1f0fc10.png
    《曾国藩》实体关系图(局部)

      以上展示的图以及数据放在Github上,网址为:https://github.com/percent4/knowledge_graph_demo 。
      关于这方面的技术和数据将会在不久后公开,代码和数据已经放在Github上,网址为:https://github.com/percent4/spo_extract_platform ,笔者将会另写文章来介绍。

      感觉大家的阅读,笔者将会在不久之后公开该技术的源代码和数据,敬请期待~

    欢迎大家关注我的微信公众号:Python爬虫与算法

    展开全文
  • 文章目录关于知识图谱知识图谱的概念知识图谱与异质网络知识图谱与知识库知识图谱构建研究背景知识图谱构建知识图谱的构建流程知识图谱本体构建知识图谱构建核心步骤实体消岐知识图谱关系补全知识图谱关系推理知识...

    关于知识图谱

    知识图谱的概念

    首先我们来明确知识的概念,知识对于人类来说很抽象,随便人脑中一条有用的信息就可以认为是知识,例如:中国的首都是北京,这便是知识。

    在人类发明文字之前,知识都是通过语言世代相传。而当人类发明文字之后,壁画、陶器、书本都是知识传递和传播的载体。到了现在,知识可以存储在硬盘里,存储在数据库中。

    但这些方式都存在着或多或少的问题,一是它们对于人类来说不直观,不能一目了然的展现知识的结构与含义,帮助人类快速理解知识;二是,这些知识的存储方式不便于计算机进行有效的使用,非结构化的数据使用低效。现有的知识存储方式很难完美的同时做到这两点。

    于是知识图谱便应运而生,研究学者将哲学中本体概念引入到人工智能领域,并用本体来表示知识,使用语义网络作为翻译的中介语言。同时对语义网络中的边进行约束。它建立了客观事件事物的字符串描述到结构化语义描述的映射。

    同时,使用资源描述框架(RDF)来规定知识图谱的基本结构,用基本的三元组来表示知识,例如<北京,是首都,中国>,(头实体,关系,尾实体)该三元组便结构化的表示了上面我举例的知识,并且,该三元组也很好画成形象的网络,让我们一目了然的明确,奥~,北京是中国的首都。

    (也就是说,知识图谱中知识的基本单元是三元组,这是结构化的数据格式,同时,三元组能够表示图or网络中的节点和有向边,所以其能够轻松画成如下图所示的形象的网络,从而直观的展示出来)

    总的来说,知识图谱将我们脑海中抽象的知识给结构化、形象化的存储与展示出来,我更愿意把它理解成一个具有丰富结构信息、语义信息、与属性信息的数据库。它本身并不能够做什么,它只是数据的存储、结构化、与形象化展示的工具,它能够做什么最终还是取决于我们如何理解与使用它。(个人拙见,非官方理解)
    在这里插入图片描述

    知识图谱与异质网络

    可能有些读者分不清楚异质网络与知识图谱的区别。我之前也是纠结过一段时间,后来经过和老师沟通,并读了石川的异质信息网络分析与应用综述一文,弄清的二者的区别。

    一般来说,知识图谱和异质网络可以认作是一个东西,在石川的文章中,石川将知识图谱定义为丰富模式的异质网络,即其网络模式过于复杂过于丰富。
    而从复杂网络的角度来说,知识图谱和异质网络是有着区别的。

    • 复杂网络中的异质网络更加关注于结构信息
    • 知识图谱更加关注语义知识

    从拓扑结构来说,知识图谱可以被视为异质网络。
    本质上,知识图谱就属于异质网络的范畴。
    所以我们在理解知识图谱的时候,可以用网络的概念去理解。
    不过其中有些名词与定义不太一样,比如本体和网络模式(此处个人拙见,非官方)是一样的,但是叫法不一样。

    知识图谱与知识库

    在许多知识图谱的文章中,认为知识图谱是一个经过清洗的知识库,知识库由本体约束下的实例组成。那么就可以认为 知识图谱=本体+知识库。

    知识图谱构建研究背景

    目前的开源知识图谱还是不少的,国内外都有,例如Metaweb公司开发的freebase,维基媒体基金会开发的wikidata微软开发的concept graph,谷歌开发的knowledge graph,普林斯顿大学的wordnet,马克斯普朗克研究所的yago,国内知识图谱项目有openKG,百度的知识图谱项目。
    其中的freebase是一个常识性的知识图谱,而wordnet是个词语知识图谱。这两个是我平时进行异质网络分析所经常使用的,当然,这里的每个知识图谱都很大,我一般都使用FB-15K或者WN-18,它们是上述两个知识图谱的子集,规模要小很多,便于处理。

    在知识图谱研究的早期,知识图谱的构建主要依托于领域专家,那时是以专家为主的知识图谱阶段,知识来源都来自于领域专家,这种构建方式准确性很高,但是缺点也显然,效率低下,成本高,且知识数量实在有限。
    而如今,知识图谱的构建已经过度到了机器学习方法自动获取知识的自动化阶段。可以由专家定义好实体的类别,来从海量的数据中获取实体,以及实体之间的关系(知识)。其能够适应数据和知识爆炸性增长的现状。

    知识图谱的数据源现在多来自关系数据库、维基百科、基于语义网页标准的网页。

    知识图谱构建

    知识图谱的构建流程

    关于知识图谱的构建,主要根据其类别方向有所不同。

    通用知识图谱的话一般采用自底向上的构建方法,即利用一定的技术手段取得可能为目标实体或关系的内容,通过专家审核鉴定其置信度是否达标后,加入知识图谱中。
    领域知识图谱的构建通常先指定一个范围和目标,即预定义好实体的类别属性和关系的类别集合,将数据遵照定义好的类别提取出其中包含的数据加入知识库。

    知识图谱本体构建

    不去过多的讨论本体的概念,构建本体的目的是为知识图谱构建一个骨架,它是知识图谱构建的基础,它能够指导知识图谱的构建。
    在我看来,知识图谱的本体和异质网络的网络模式就是一个东西,都是指导知识图谱和异质网络构成的规则,或者说是准则。
    在这里插入图片描述
    例如上图的最上面便是本体,下面是本体下的具体实例。

    知识图谱构建核心步骤

    上面我们也介绍了知识图谱大概的概念,其是基于RDF协议框架的,数据单元是三元组<头实体,关系,尾实体>,例如下图是我从WN-18数据集中截图出来的。
    在这里插入图片描述
    我们要构建知识图谱,就是可以视作构建这些三元组。也就是三元组中的实体与关系。
    (上面我们提到了知识图谱本质上就是异质网络,所以我们可以认为实体就是网络中的节点,而关系就是边)

    于是,我们确定了实体和关系就是知识图谱中最基础的元素。
    则我们的主要目标转变成从海量数据中提取实体与关系。
    针对这俩个目标,有对应的技术或者说是步骤:命名实体识别与关系抽取。在知识图谱构建流程中,命名实体识别是为了抽取实体和实体属性,而关系抽取是为了得到实体间预定义好的关系。

    命名实体识别的目的简单来说就是识别实体,具体来说,是对预先给定的目标命名实体实体的定义和类别,鉴别出这些目标实体在文本中的具体位置,并进行类别判定。
    命名实体识别是偏向于nlp的概念。一般来说命名实体识别的研究主体分为实体类、时间类与数字类,其还可以往下细分。主要方法:

    • 有基于规则和字典的实体识别方法:手工定义规则,根据语言特征加以指定,怨言特征包括句子的句法信息,单词的词性、大小写、前后缀等。此外还会考虑利用已经构建好的相关词典。
    • 基于机器学习得到实体识别方法。
    • 基于深度学习的实体识别方法。

    关系抽取目的简单来说就是抽取关系,具体来说是根据给出的自然语言文本和文本中出现的实体,利用句子的语义信息推测出两个实体之间是否存在关系并对关系进行分类。
    举个例子:给定一个句子,天安门坐落于北京,以及实体天安门和北京,此时根据语义得到 位于 的关系。
    主要方法:

    • 基于规则模板的关系提取方法
    • 基于统计学习的关系抽取方法
    • 基于深度学习的关系抽取方法

    实体消岐

    实体消岐:命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体确定一个实体指称项所指向的真实世界实体。
    出现场景:多个数据源中提取的关系融合中,会遇到一些歧义的实体,需要对歧义的实体概念、实例进行消岐。
    在这里插入图片描述
    如图所示,同样一个jordan(名字),在不同的数据源中是不一样的人,左边是人工智能专家的论文合作图谱,而右边是声学研究专家的论文合作图谱。在从多个数据源中提取知识时,我们不能因为两个jordan名字一样,就认为他们是一个人,就把两者的信息融合在一起,这明显是错误的。

    知识图谱构建中会出现重名实体的情况,需要进行消岐。现有的消岐方法仅适用于文本中的实体消岐或小型知识库的实体消岐,需要大量的领域专家知识,人力成本很高,需要设计自动的面向大规模的知识图谱的实体消岐方法。
    现有解决方法:实体转换成语义实体嵌入向量,使用基于图的方法,根据实体嵌入向量相似度将文档中的实体连接到知识库实体上。

    知识图谱关系补全

    由于我们的数据不可能是绝对完整的,总会有些信息缺失,也就是知识缺失。
    此时需要根据现有的知识来挖掘出实体之间存在的潜在关系。
    知识补全也称作链接预测。
    在这里插入图片描述
    如图所示,根据现有的知识,我们可以推测出Charlotte是一个作家。

    关于现有的知识补全的方法,张量分解方法,语义嵌入方法,基于路径。
    其中我接触过的,也是十分经典的方法就是Trans家族了,我接触了其中最基础的TransE,这在我的博客中也有写过,有兴趣可以去读一下。TransE入口

    知识图谱关系推理

    知识推理是通过关系推理的方法来获得实体间的新知识
    根据已知的实体之间关系推测实体之间的潜在关系给知识图谱增加新的事实

    在这里插入图片描述
    如图所示,我们可以根据Tom和Mike是同一个公司,同一个导师,来判断出虚线部分的 他们是同学。

    这属于统计关系学习的子领域,其方法包括基于马尔科夫逻辑网络的推理、基于归纳逻辑变成的推理

    总的来说知识图谱的关系补全与知识图谱的关系推理,都算是知识补全或者知识推理的范畴。

    知识冲突解决

    随着时间,知识图谱不断演化,之前知识图谱中的某些事实是错误的。或者因为知识具有时效性,所以知识随时间变化,有时候会错误,甚至产生冲突,所以需要解决知识冲突问题。
    关于这一块,我不是太了解,所以不过多阐述了。

    知识图谱构建总流程

    在这里插入图片描述

    参考文献

    马江涛. 基于社交网络的知识图谱构建技术研究[D].战略支援部队信息工程大学,2018.
    许多. 社交网络中的情感知识图谱构建关键技术研究[D].上海师范大学,2020.
    王瑞. 网络舆情事件知识图谱构建技术及应用研究[D].华侨大学,2020.
    Ji S, Pan S, Cambria E, et al. A survey on knowledge graphs: Representation, acquisition and applications[J]. arXiv preprint arXiv:2002.00388, 2020.

    展开全文
  • 知识图谱构建技术一览

    万次阅读 多人点赞 2019-09-03 23:21:11
    知识图谱构建技术一览一、什么是知识图谱二、知识图谱技术架构(一)数据获取(Data Acquisition)(二)信息抽取(Information Extraction)(1)实体抽取(Entity Extraction)/命名实体识别(Name Entity ...

    一、什么是知识图谱

    知识图谱(Knowledge graph)首先是由Google提出来的,大家知道Google是做搜索引擎的,知识图谱出现之前,我们使用google、百度进行搜索的时候,搜索的结果是一堆网页,我们会根据搜索结果的网页题目再点击链接,才能看到具体内容,2012年google提出Google Knowldge Graph之后,利用知识图谱技术改善了搜索引擎核心,表现出来的效果就是我们现在使用搜索引擎进行搜索的时候,搜索结果会以一定的组织结构呈现。

    辛格尔博士对知识图谱的介绍很简短:things,not string。这抓住了知识图谱的核心,也点出了知识图谱加入之后搜索发生的变化,以前的搜索,都是将要搜索的内容看作字符串,结果是和字符串进行匹配,将匹配程度高的排在前面,后面按照匹配度依次显示。利用知识图谱之后,将搜索的内容不再看作字符串,而是看作客观世界的事物,也就是一个个的个体。搜索比尔盖茨的时候,搜索引擎不是搜索“比尔盖茨”这个字符串,而是搜索比尔盖茨这个人,围绕比尔盖茨这个人,展示与他相关的人和事,左侧百科会把比尔盖茨的主要情况列举出来,右侧显示比尔盖茨的微软产品和与他类似的人,主要是一些IT行业的创始人。一个搜索结果页面就把和比尔盖茨的基本情况和他的主要关系都列出来了,搜索的人很容易找到自己感兴趣的结果。

    查找关于知识图谱的资料,可以找到不少的相关定义:

    引用维基百科的定义:

    The Knowledge Graph is a knowledge base used by Google and its services to enhance its search engine’s results with information gathered from a variety of sources.
    译:知识图谱是谷歌及其提供的服务所使用的知识库,目的是通过从各种来源收集信息来增强其搜索结果的展示。

    引用百度百科的定义:

    知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

    知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

    引用学术/学位论文的定义:

    知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构。(刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3): 582-600.

    知识图谱就是展示知识发展过程与属性联系的一系列不同图形,再加以相应的可视化手段把这一系列图形表示的这些知识实体与知识实体或者知识实体与知识属性之间的联系展示出来。知识图谱的本质就是一种网状知识库,它是由一个个知识三元组组成。目前知识三元组的形式有两种,分别是<实体1,关系,实体2>和<实体1,属性1,属性值>。例如在本文所选的铁路领域内,这两种知识三元组分别可以是<中国铁路呼和浩特局集团公司,管辖,集宁机务段>,<东风 4B 型内燃机车,设计时速,120km/h>(客运型)和<东风 4B 型内燃机车,设计时速,100km/h>(货运型)。(学位论文:基于铁路领域的知识图谱研究与实现)

    引用著作的定义:

    知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱由节点和边组成。节点可以是实体,如一个人、一本书等,或是抽象的概念,如人工智能、知识图谱等。边可以是实体的属性,如姓名、书名或是实体之间的关系,如朋友、配偶。知识图谱的早期理念来自Semantic Web(语义网络),其最初理想是把基于文本链接的万维网落转化为基于实体链接的语义网络。(王昊奋,知识图谱 方法、实践与应用)

    引用互联网博客的解释:

    知识图谱:是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。(链接:通俗易懂解释知识图谱

    知识图谱本质上是语义网络(Semantic Network)的知识库.。(链接:这是一份通俗易懂的知识图谱技术与应用指南

    总的来说,知识图谱本质上是一种语义网络,用图的形式描述客观事物,这里的图指的是数据结构中的图,也就是由节点和边组成的,这也是知识图谱(Knowledge Graph)的真实含义。知识图谱中的节点表示概念和实体,概念是抽象出来的事物,实体是具体的事物;边表示事物的关系和属性,事物的内部特征用属性来表示,外部联系用关系来表示。很多时候,人们简化了对知识图谱的描述,将实体和概念统称为实体,将关系和属性统称为关系,这样就可以说知识图谱就是描述实体以及实体之间的关系。实体可以是人,地方,组织机构,概念等等,关系的种类更多,可以是人与人之间的关系,人与组织之间的关系,概念与某个物体之间的关系等等。

    知识图谱是由实体和实体的关系组成,通过图的形式表现出来,那么实体和实体关系的这些数据在知识图谱中怎么组织呢,这就涉及到三元组的概念,在知识图谱中,节点-边-节点可以看作一条记录,第一个节点看作主语,边看作谓语,第二个节点看作宾语,主谓宾构成一条记录。比如曹操的儿子是曹丕,曹操是主语,儿子是谓语,曹丕是宾语。再比如,曹操的小名是阿瞒,主语是曹操,谓语是小名,宾语是阿瞒。知识图谱就是由这样的一条条三元组构成,围绕着一个主语,可以有很多的关系呈现,随着知识的不断积累,最终会形成一个庞大的知识图谱,知识图谱建设完成后,会包含海量的数据,内涵丰富的知识。

    知识图谱构建完成之后,主要用在哪些地方,比较典型应用是语义搜索、智能问答、推荐系统等方面。知识图谱是一个具有本体特征的语义网络,可以看成是按照本体模式组织数据的知识库,以知识图谱为基础进行搜索,可以根据查询的内容进行语义搜索,查找需要找的本体或者本体的信息,这种语义搜索功能在google、百度、阿里巴巴等数据量大的公司里得到应用。智能问答,和语义搜索类似,对于提问内容,计算机首先要分析提问问题的语义,然后再将语义转换为查询语句,到知识图谱中查找,将最贴近的答案提供给提问者。推荐系统首先要采集用户的需求,分析用户的以往数据,提取共同特征,然后根据一定的规则,对用户提供推荐的产品。比如淘宝中记录用户经常购买的商品,经常浏览的商品,提取这些商品的共同特征,然后给这个用户打上标签,然后就给用户推荐具有类似特征的商品。

    知识图谱主要反映的事物之间的关系,对于和关系链条有关的场景,也可以用知识图谱解决,一些应用场景包括反欺诈、不一致性验证、异常分析、客户管理等

    二、知识图谱的分层架构

    知识图谱由数据层(data layer)和模式层(schema layer)构成。

    模式层是知识图谱的概念模型和逻辑基础,对数据层进行规范约束. 多采用本体作为知识图谱的模式层,借助本体定义的规则和公理约束知识图谱的数据层。也可将知识图谱视为实例化了的本体,知识图谱的数据层是本体的实例。如果不需支持推理, 则知识图谱(大多是自底向上构建的) 可以只有数据层而没有模式层。在知识图谱的模式层,节点表示本体概念,边表示概念间的关系。

    在数据层, 事实以“实体-关系-实体”或“实体-属性-属性值”的三元组存储,形成一个图状知识库. 其中,实体是知识图谱的基本元素,指具体的人名、组织机构名、地名、日期、时间等。关系是两个实体之间的语义关系,是模式层所定义关系的实例。属性是对实体的说明,是实体与属性值之间的映射关系。属性可视为实体与属性值之间的 hasValue 关系,从而也转化为以“实体-关系-实体”的三元组存储。在知识图谱的数据层,节点表示实体,边表示实体间关系或实体的属性。

    三、知识图谱构架技术

    根据上述的知识图谱分层结构,知识图谱的构建方法主要有两种:一种是自底而上的构建方法(如下图所示);一种是自定而下的构建方法。

    自底向上的构建方法流程如下图所示,从开放链接的数据源中提取实体、属性和关系,加入到知识图谱的数据层;然后将这些知识要素进行归纳组织,逐步往上抽象为概念,最后形成模式层。自顶而下的方法正好相反。
    图1
    知识图谱技术架构图如上所示,其对应中文版如下:
    在这里插入图片描述

    (一)数据获取(Data Acquisition)

    数据获取是建立知识图谱的第一步。目前,知识图谱数据源按来源渠道的不同可分为两种:一种是业务本身的数据,这部分数据通常包含在行业内部数据库表并以结构化的方式存储,是一种非公开或半公开的数据;另一种是网络上公开、抓取的数据,这些数据通常是以网页的形式存在,是非结构化的数据。

    按数据结构的不同,可分为三种:结构化数据、半结构化数据和非结构化数据,根据不同的数据类型,我们采用不同的方法进行处理。

    (二)信息抽取(Information Extraction)

    信息抽取的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。如前文所说,知识获取有两种渠道,前者只需要简单预处理即可以作为后续AI系统的输入,但后者一般需要借助于自然语言处理等技术来提取出结构化信息,这正是信息抽取的难点问题,涉及的关键技术包括实体抽取、关系抽取和属性抽取。

    (1)实体抽取(Entity Extraction)/命名实体识别(Name Entity Recognition)

    实体抽取又称为命名实体识别(NER),是指从文本数据集中自动识别出命名实体,其目的就是建立知识图谱中的“节点”。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。

    实体的类型主要包括三大类七小类:

    • 实体类(包括人名,地名,机构名)
    • 时间类(日期,时间)
    • 数字类(货币、百分比)

    最初,实体识别通常采用人工预定义实体分类体系的方式,但是随着技术的日新月异,这种老旧的方式已经很难适应时代的需求,因此面向开放领域的实体识别和分类极具研究价值。

    在面向开放域的实体识别和分类研究中,不需要也不可能为每个领域或者每个实体类别建立单独的语料库作为训练集。因此,研究人员主要面临的挑战是如何从给定的少量实体实例中自动发现具有区分力的模型。

    一种思路是根据已知的实体实例进行特征建模,利用该模型处理海量数据集得到新的命名实体列表,然后针对新实体建模,迭代地生成实体标注语料库。

    另一种思路是利用搜索引擎的服务器日志,事先并不给出实体分类等信息,而是基于实体的语义特征从搜索日志中识别出命名实体,然后采用聚类算法对识别出的实体对象进行聚类。

    (2)关系抽取(Relation Extraction)

    文本语料经过实体抽取之后得到的是一系列离散的命名实体(节点),为了得到语义信息,还需要从相关的语料中提取出实体之间的关联关系(),才能将多个实体或概念联系起来,形成网状的知识结构。研究关系抽取技术,就是研究如何解决从文本语料中抽取实体间的关系。

    (3)属性抽取(Attribute Extraction)

    属性抽取的目标是从不同信息源中采集特定实体的属性信息,从而完成对实体属性的完整勾画,如针对某款手机,可以从互联网中获取多源(异构)的数据,从中得到其品牌、配置等信息。

    如果把实体的属性值看作是一种特殊的实体,那么属性抽取实际上也是一种关系抽取。 百科类网站提供的半结构化数据是通用领域属性抽取研究的主要数据来源,但具体到特定的应用领域,涉及大量的非结构化数据,属性抽取仍然是一个巨大的挑战。

    (三)知识融合(Knowledge Fusion)

    经由信息抽取之后的信息单元间的关系是扁平化的,缺乏层次性和逻辑性,同时存在大量冗余甚至错误的信息碎片。知识融合,简单理解,就是将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,主要关键技术包含指代消解、实体消歧、实体链接。不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。
    知识融合旨在解决如何将关于同一个实体或概念的多源描述信息融合起来。

    (1)指代消解(Coreference Resolution)

    Coreference Resolution,字面上翻译应该是“共指消解”,但在大部分博客或者论坛中通常被称呼为“指代消解”。一般情况下,指代分为三种(NLP领域一般只关注前两种指代类型):

    • 一是回指(也称指示性指代),对应单词为“anaphora”,指的是当前的指代词与上文出现的词、短语或句子(句群)存在密切的语义关联性,它指向另一个词(称为先行词),该指代词的解释依赖于先行词的解释,具有非对称性和非传递性;
    • 二是共指(也称同指),对应单词为“coreference”,指的是两个名词(包括代名词、名词短语)指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。共指消解技术主要用于解决多个指称对应同一实体对象的问题。
    • 三是“下指”,对应单词为“cataphora”,和回指刚好相反,指的是指代词的解释取决于指代词之后的某些词、短语或句子(句群)的解释。如下图中的he和his都指代后面的Lord: 在这里插入图片描述

    所以,根据上面描述,个人认为将“Coreference Resolution”翻译为“指代消解”更为恰当。

    (2)实体消歧(Entity Disambiguation)

    有些实体写法不一样,但指向同一个实体,比如“New York”表示纽约,而“NYC”同样也可以表示纽约。这种情况下,实体消歧可以减少实体的种类,降低图谱的稀疏性。

    实体消歧是专门用于解决同名实体产生歧义问题的技术,通过实体消歧,就可以根据当前的语境,准确建立实体链接,实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题,类似于词性消歧和词义消歧。

    (3)实体链接(Entity Linking)

    实体链接(entity linking)是指对于从非结构化数据(如文本)或半结构化数据(如表格)中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。

    (4)知识合并

    实体链接链接的是从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。那么除了半结构化数据和非结构化数据以外,还有个更方便的数据来源——结构化数据,如外部知识库和关系数据库。对于这部分结构化数据的处理,就是知识合并的内容啦。一般来说知识合并主要分为两种:

    • 合并外部知识库,主要处理数据层和模式层的冲突
    • 合并关系数据库,有RDB2RDF等方法

    (四)知识加工(Knowledge Processing)

    海量数据在经信息抽取、知识融合之后得到一系列基本的事实表达,但这并不等同于知识,要想获得结构化,网络化的知识体系,还需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分纳入知识体系中以确保知识库的质量,这就是知识加工的过程。知识加工主要包括3方面内容:本体构建、知识推理和质量评估。

    (1)本体(Ontology)

    本体的概念

    来自维基百科的本体的定义:

    In computer science and information science, an ontology is a formal naming and definition of the types, properties, and interrelationships of the entities that really or fundamentally exist for a particular domain of discourse.
    译:在计算机科学和信息科学中,一个本体就是特定领域或根本存在的实体的类型、属性、相互关系的一个正式的命名和定义

    本体这个概念,对于初学者来说的确有些抽象,不易理解。它可以用多种方式来描述:

    • 本体是一种描述术语(包含哪些词汇)及术语间关系(描述苹果、香蕉、水果之间的关系)的概念模型。以图书分类为例,一方面限定了术语集合(即规定大家必须采用共同承认的一套词汇,禁止私自发明新词),另一方面定义术语之间的上下位关系(如:计算机技术隶属于工业技术,软件技术隶属于计算机技术,等等)。
    • 本体是指公认的的概念集合、概念框架,如“人”、“事”、“物”等。
    • 本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。
    • 本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”,本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系。

    总的概括:本体定义了组成领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则

    • 领域。一个本体描述的是一个特定的领域。比如我们确定这次要描述的领域是「大学」。
    • 术语。指给定领域中的重要概念。例如,确定要描述大学了,对于一个大学来说什么概念是重要的呢?我们可以列举出教职工、学生、课程等等概念。
    • 基本术语之间的关系。包括类的层次结构,包括并列关系、上下位关系等等。比如教职工是老师、行政人员、技术支持人员的父类;学生是本科生、研究生的父类;研究生是硕士、博士的父类等等。
    • 词汇表外延的规则。包括属性、值约束、不相交描述(如教职人员和学生不相交)、对象间逻辑关系的规定(如一个教研室至少有10名教职工)等等。

    本体 VS 知识图谱 VS 知识地图

    引用:

    本体和知识图谱都通过定义元数据以支持语义服务。不同之处在于:知识图谱更灵活, 支持通过添加自定义的标签划分事物的类别。本体侧重概念模型的说明,能对知识表示进行概括性、抽象性的描述,强调的是概念以及概念之间的关系。大部分本体不包含过多的实例,本体实例的填充通常是在本体构建完成以后进行的。知识图谱更侧重描述实体关系,在实体层面对本体进行大量的丰富与扩充。可以认为,本体是知识图谱的抽象表达,描述知识图谱的上层模式;知识图谱是本体的实例化, 是基于本体的知识库。( 黄恒琪,于娟,廖晓,席运江.知识图谱研究综述.计算机系统应用,2019,28(6):1–12.

    知识地图 (knowledge map) 将特定组织内的知识索引通过“地图”的形式串联在一起,揭示相关知识资源的类型、特征以及相互关系。 知识地图的主要功能在于实现知识的快速检索、共享和再重用,充分有效地利用知识资源。知识地图是关于知识的来源的知识。知识并非存储在知识地图中,而是存储在知识地图所指向的知识源中。知识地图指向的知识源包含数据库、文件以及拥有丰富隐性知识的专家或员工。有的企业应用知识地图来揭示知识的结构,实现对知识及其相关知识的检索。( 黄恒琪,于娟,廖晓,席运江.知识图谱研究综述.计算机系统应用,2019,28(6):1–12.

    (2)本体构建(Ontology Extraction)

    本体构建过程包含三个阶段:

    • 实体并列关系相似度计算
    • 实体上下位关系抽取
    • 本体的生成

    比如对下面这个例子,当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候,可能会认为它们三个之间并没有什么差别,但当它去计算三个实体之间的相似度后,就会发现,阿里巴巴和腾讯之间可能更相似,和手机差别更大一些。

    这就是第一步的作用,但这样下来,知识图谱实际上还是没有一个上下层的概念,它还是不知道,阿里巴巴和手机,根本就不隶属于一个类型,无法比较。因此我们在实体上下位关系抽取这一步,就需要去完成这样的工作,从而生成第三步的本体。

    当三步结束后,这个知识图谱可能就会明白,“阿里巴巴和腾讯,其实都是公司这样一个实体下的细分实体。它们和手机并不是一类。”
    在这里插入图片描述

    (3)知识推理(Knowledge Inference)

    完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但可能在这个时候,知识图谱之间大多数关系都是残缺的,缺失值非常严重,那么这个时候,我们就可以使用知识推理技术,去完成进一步的知识发现。

    知识推理就是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而扩展和丰富知识网络。

    例如康熙是雍正的父亲,雍正是乾隆的父亲,那么尽管康熙和乾隆这两个实体之间通过知识推理,就可以获得他们之间是祖孙关系。

    知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。比如:

    • 推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;
    • 推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)

    知识的推理方法可以分为2大类:基于逻辑的推理和基于图的推理。

    (4)质量评估(Quality Evaluation)

    质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

    三、Reference

    1、通俗易懂解释知识图谱一文揭秘!自底向上构建知识图谱全过程
    2、斯坦福CS224n(15)指代消解
    3、知识图谱学习系列之一:知识图谱综述
    4、知识图谱的总体构建思路
    5、知识图谱—初识本体
    6、本体概述

    展开全文
  • 知识图谱构建技术综述(刘峤) 知识图谱构建技术综述(刘峤)
  • 知识图谱构建技术

    2020-03-17 15:26:29
    知识图谱构建技术 知识图谱构建技术主要包括关系抽取技术、知识融合技术、实体链接技术和知识推理技术。 1知识图谱技术地图 整个技术图主要分为三个部分, 第一个部分是知识获取,主要阐述如何从非结构化、半结构...
  • 复旦大学知识图谱培训ppt7:知识图谱构建的质量控制(Data Quality Issues in Constructing Knowledge Graph)
  • 知识图谱技术分享会----有关知识图谱构建的部分关键技术,部分ppt以及参考资料
  • 知识图谱构建技术一览 一、什么是知识图谱 二、知识图谱的分层架构 三、知识图谱构架技术 (一)数据获取(Data Acquisition) (二)信息抽取(Information Extraction) (1)实体抽取(Entity ...
  • 本文内容来自【AINLP与知识图谱】公众号,欢迎关注。图谱构建之知识抽取导语本文将简短介绍知识抽取中的一系列问题,包括知识抽取的场景以及数据来源、知识抽取的一些典型任务,例如实体识别、关系抽取、事件抽取等...
  • 知识图谱构建技术综述,包括语义网、信息检索、语义搜索引擎。
  • 谷歌知识图谱技术近年来引起了广泛关注,由于公开披露的技术资料较少,使人一时难以看清 该技术的内涵和价值.从知识图谱的定义和技术架构出发,对...3)对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结.
  • 知识图谱构建举例

    千次阅读 2020-03-05 22:20:04
      下面为知识图谱构建的例子,由笔者原创,是从新闻或者小说中直接抽取而来,加上大量时间的人工整理而得到,下面的图片是从Neo4J导出并截图。   例子1:《平凡的世界》实体关系图(局部):   例子2:...
  • 但如何构建知识图谱”,尤其是如何自动构建知识图谱,却鲜有详细介绍。而搜索问题,都是面对巨量的“知识”进行搜索,如果不能自动构建知识图谱,“知识图谱”搜索引擎也很难实现。 笔者通过一个“医药知识图谱...
  • 数据驱动的大规模知识图谱构建方法.pdf 知识图谱构建 英文
  • 1、清华大学杨玉基的“一种准确而高效的领域知识图谱构建方法”.讲述了怎么通过4步进行半自动话的构建领域知识图谱,参考价值极大,步骤清晰。一种准确而高效的领域知识图谱构建方法 - 中国期刊全文数据库 2、华东...
  • 知识图谱综述 摘要 从知识图谱的定义和内涵进行了说明,对构建知识图谱涉及到的关键技术进行了自底向上的全面...对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结       &nb
  • 李涓子 - 特定领域知识图谱构建初探,对于特定领域的知识图谱构建探索
  • 信息抽取是知识图谱构建的第一步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。知识抽取是一种自动化地从结构化、半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及...
  • 知识图谱构建步骤

    千次阅读 2019-09-08 08:41:16
    斯坦福的七步法知识图谱构建步骤总结。 斯坦福大学医学院开发的七步法,主要用于领域本体的构建。七个步骤分别是: ① 确定本体的专业领域和范畴;② 考查复用现有本体的可能性;③ 列出本体中的重要术语;④ 定义类和...
  • Zincbase 一个知识图谱构建工具包
  • 自 2012 年谷歌提出 “知识图谱” 的概念并运用到搜索引擎后,知识图谱构建技术与应用引起了学术界和工业界的广泛关注。近几年,AI 技术的发展和大数据时代的到来令知识图谱的自动化构建成为可能,尽管现阶段还...
  • 知识图谱构建综述

    2019-02-26 17:02:09
    知识图谱构建综述 意义 传统的搜索引擎是通过用户输入的字符提取出关键词进行匹配,反馈的目的信息和知识没有经过逻辑和语义的判断和比较直接呈现给用户,在数据爆炸式增长的现在,无法精准的锁定用户的字符串中的...
  • 本文将从科技大数据知识图谱构建及应用研究角度, 对科学学研究过程中发挥重大推动作用的科技领域知识图谱技术进行系统、深入的综述。
  • 从具体案例了解知识图谱构建流程

    千次阅读 多人点赞 2018-05-07 20:04:35
    经济责任审计知识图谱构建流程总结。     自2012年Google提出“知识图谱”的概念以来,知识图谱就一直是学术研究的重要方向,现在有很多高校、企业都致力于将这项技术应用到医疗、教育、商业等领域,并且已经...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,840
精华内容 736
关键字:

知识图谱构建