精华内容
下载资源
问答
  • 摘要:随着AI技术的发展和普及,当今社会已经进入了智能化时代。...本文主要讲述“知识图谱构建流程及方法”,让我们先睹为快。 一、 什么是知识图谱? 知识图谱是由实体、关系和属性组成的一种数据结构。以下图为例
    摘要:随着AI技术的发展和普及,当今社会已经进入了智能化时代。与以往不同的是,在这一波浪潮中,企业不仅是向数字化转型,更是向知识化转型。那么,如何助力企业破解智能化知识挖掘和管理难题,实现知识化转型?

    华为云自然语言处理技术专家郑毅在《企业级知识计算平台的技术解读和案例实践》分享中,讲述了华为云知识计算平台及相关技术、知识图谱构建流程及方法,以及知识计算行业案例。本文主要讲述“知识图谱构建流程及方法”,让我们先睹为快。

    一、 什么是知识图谱?

    知识图谱是由实体、关系和属性组成的一种数据结构。以下图为例,“刘德华“是一个人物类型的实体,“刘德华”有自己的身高、国籍等信息,这些信息便称之为实体的属性。

    同样,“无间道”是一个电影类型的实体。我们知道“刘德华”是“无间道”这部电影的主演,所以“刘德华”与“无间道”之间有“主演”关系。通过实体、关系、属性,就能够把我们人可以理解的知识有效地组织起来。知识图谱的构建与应用涉及数据库、自然语言处理(NLP)和语义网络等技术。

    图1 知识图谱示例

    通用知识图谱or行业知识图谱?

    按照知识图谱的用途,知识图谱可分为通用知识图谱和行业知识图谱。通用知识图谱侧重构建常识性的知识,并用于搜索引擎和推荐系统等。行业知识图谱(也可称企业知识图谱)主要面向企业业务,通过构建不同行业、企业的知识图谱,对企业内部提供知识化服务。华为云知识图谱服务可用于以上两类知识图谱的构建、管理和服务,更侧重面向企业知识图谱。

    二、 如何构建知识图谱?

    知识图谱构建主要分为自顶向下(top-down)与自底向上(bottom-up)两种构建方式。自顶向下构建方式需要先定义好本体(Ontology或称为Schema),再基于输入数据完成信息抽取到图谱构建的过程。该方法更适用于专业知识方面图谱的构建,比如企业知识图谱,面向领域专业用户使用。自底向上构建方式则是从开放的Open Linked Data中抽取置信度高的知识,或从非结构化文本中抽取知识,完成知识图谱的构建。该方式更适用于常识性的知识,比如人名、机构名等通用知识图谱的构建。本文侧重介绍自顶向下构建方式的相关流程和技术,并用于构建企业知识图谱。

    目前业界暂无知识图谱云服务,也没有统一标准的自顶向下构建流程。当前业界主流的知识图谱构建方式是基于企业内部数据、公开数据,图谱服务商以解决方案形式帮助客户定制构建知识图谱。这样的方式无疑成本非常高并且效率很低,通常需要很长的周期才能完成。同时,企业没有参与感,图谱构建也可能存在很大偏差,难以用于实际业务中。

    站在用户角度,我们通过抽象知识图谱构建流程及相关技术,推出华为云知识图谱云服务(图2),为不同行业、不同企业提供快速构建知识图谱能力的平台,赋能大中小型企业构建属于自己的知识图谱。

    图2 华为云知识图谱云服务

    华为云知识图谱云服务提供流水线式图谱构建能力,将图谱构建抽象为如下基本流程:本体构建、数据源配置、信息抽取、知识映射以及知识融合。

    图3 知识图谱构建基本流程

    进一步通过将每一个流程模块抽象成插件形式,并通过组合配置生成图谱构建任务。面向不同的行业和领域,只需要修改插件配置即可完成企业知识图谱的构建。同时,基于流水线设计,知识图谱云服务可以在只修改数据源的前提下完成知识图谱的更新操作,非常适用于需要频繁更新的知识图谱。

    2.1 如何构建知识图谱的本体?

    知识图谱构建的第一步需要完成图谱本体(Ontology)的设计和构建。本体是图谱的模型,是对构成图谱的数据的一种模式约束。对于企业知识图谱的构建,一般是由垂直领域的行业专家和知识图谱专家合作完成。

    本体的构建和设计对于知识图谱的构建至关重要。可以通过梳理领域知识、术语词典、专家的人工经验等作为本体构建的基础,结合知识图谱的应用场景来完善图谱的构建,最终获得实体类别、类别之间的关系、实体包含的属性定义。华为云知识图谱云服务提供图形化本体设计工具,可以通过拖拽编辑灵活完成企业知识图谱本体的构建。

    图4 华为云知识图谱云服务-本体设计界面

    2.2 如何配置数据源?需要做哪些准备

    在配置数据源之前,需要将不同类型、不同格式的数据进行初步的整理。比如:针对本地非电子化文档,需要先进行扫描电子化,结合OCR等技术将扫描件转换成文本文档。再比如:针对本地电子化文档,需要将本地文档按文档类型、格式进行归档解析整理成规范的格式,或者针对网络资源,需要根据网站特点,开发相应的爬虫,对数据进行爬取,并存储到本地数据库等等。还有一些第三方资源,需要获取相应的数据访问接口,并通过接口获取相应数据。

    整理好的数据上传到华为云OBS对象存储服务后,知识图谱云服务就可以进行数据源的配置,包括指定格式的针对结构化数据和非结构化文本的配置等。

    2.3 什么是信息抽取?怎样抽取?

    信息抽取的目的是根据不同的数据源、不同的数据格式,完成实体、属性、关系这种知识的抽取。这是知识图谱构建流程中非常关键的一环,信息抽取的质量决定了知识图谱的质量。实体之间的关系以及实体的属性值,都可以用三元组(主语、谓词、宾语)来表示,所以信息抽取又可以简单叫做三元组抽取。

    华为云知识图谱云服务支持结构化Key-Value格式和非结构化文本的三元组抽取。针对结构化数据,可以通过配置预置函数的组合,完成字段的处理。与之对应的,针对非结构化文本,云服务提供算法模型抽取能力,支持业界前沿的基于机器阅读理解(Machine Reading Comprehension,MRC)的三元组抽取方法,通过使用多轮对话的思想进行三元组抽取,先抽取主语(Subject),然后根据抽取结果和候选谓词对应的模板构造问句抽取宾语(Object),最终组成(主语,谓词,宾语)三元组。该框架模型效果可以达到当前业界最好水平(state-of-the-art)。华为云知识图谱服务支持基于该算法的模型训练、预测以及管理功能,同时以插件形式完成流水线中信息抽取部分。

    图5 基于机器阅读理解(MRC)的三元组抽取方法

    信息抽取中模型训练推理功能是基于华为云-ModelArts AI计算平台完成的,该平台提供高效的AI计算、模型训练、推理及部署能力,同时为了方便训练三元组抽取模型,额外提供三元组标注工具,用户可以基于该工具快速获得训练数据,完成信息抽取以及知识图谱构建工作。

    图6 三元组标注工具示例

    2.4 知识融合是如何完成的?

    所谓知识融合,就是对多个数据源进行知识抽取后的大量三元组数据进行对齐合并。举个例子:百度百科有明星刘德华,互动百科有明星刘德华,我们构建的知识图谱不能有两个明星刘德华吧?这时候就需要把他们识别出来放在一起,然后合并成一个实体,这就是实体的对齐以及知识的融合。

    这其中关键的问题是怎样高效的完成实体对齐,技术路线基本可以分为两类:基于实体属性相似度的框架、基于联合表征的深度学习框架。考虑到基于联合表征的深度学习框架依赖大量标注数据,并且模型与行业及数据强相关,无法提供很好的通用化能力,因此,华为云知识图谱服务当前支持基于实体属性相似度的框架,可以通过定义相似度度量及组合,完成实体对齐以及知识融合。

    除此之外,华为云知识图谱云服务还提供图谱可视化服务,可以直观地观察分析实体及关系。

    图7 病毒蛋白知识图谱可视化示例

    三、 知识图谱需要怎样的存储方式?

    经过知识图谱构建,我们现在已经有了大量的三元组知识。那么要怎样来存储这些三元组知识呢?

    最直接的方式是使用表格式的存储方式,如关系型数据表,三元组以三列数据或多列数据的形式存储。这种方法在图谱规模比较小的时候是可行的,但是如果图谱规模变大了,是否依然可行呢?举个例子,假使我们有了娱乐明星+电影这样一个娱乐图谱,其中包括了大量的明星人物、电影以及他们之间的关系。如果想查询“刘德华和梁朝伟共同演过的电影中,年龄最大的导演是谁?“,就需要对关系型数据库中知识图谱结果表做2-3次自连接操作,如果三元组的数量是千万、亿、十亿规模的话,显而易见,这样的查询效率极低,基本不可行。

    华为云知识图谱服务采用的是业界主流的图数据库方式存储知识图谱,直接把数据或知识图谱以图的形式存储,可以非常高效地完成多跳关系、属性的查询。具体的,我们使用华为云图引擎服务,包括图存储、图计算一体的架构设计,不仅可以提供高效的查询性能,同时也可以提供多种预置的图深度学习算法,使用起来非常方便,欢迎大家前来试用。

    图8 华为云图引擎服务产品优势

    四、 华为云知识计算案例介绍

    中国石油基于华为云知识计算服务的知识建模、油气图谱构建、图谱存储、自然语言处理、机器学习等能力构建了业界首个油气知识计算平台。以油气勘探开发数据为基础,通过知识计算技术的应用,为油气勘探开发增储上产、降本增效提供智能辅助和决策。

    图9 油气知识计算的价值和意义

    华为知识计算解决方案提供丰富的知识应用,从解决企业痛点、提升企业效率、提供知识化服务的角度全面赋能企业,体现了知识计算在各行业中的智能化价值,让各行业的企业可以快速、低成本、高效率地管理,通过应用企业知识、实现知识化转型,释放知识化带来的红利,全面提升企业在智能化时代的竞争力。

     

    点击关注,第一时间了解华为云新鲜技术~

    展开全文
  • SAP SD基础知识之SD常见流程概述

    千次阅读 2020-02-14 11:29:49
    SAP SD基础知识之SD常见流程概述 正常销售、正常退货、第三方销售、跨公司销售、独立采购、寄售、免费赠送,这些就是项目实践中SD模块里最常见的流程了,当然还有一些不太常用的流程没有列举进来,不再本文关注之...

    SAP SD基础知识之SD常见流程概述

     

    正常销售、正常退货、第三方销售、跨公司销售、独立采购、寄售、免费赠送,这些就是项目实践中SD模块里最常见的流程了,当然还有一些不太常用的流程没有列举进来,不再本文关注之范围内。

     

    SD的所谓"流程",基本是体现在销售订单行项目上,基本上它控制了大部分SD的流程走向和主要功能。那些在销售订单上面不起流程控制的栏位或者说是字段,基本上就是用来做些分组,确定交货类型以及开票类型,参与定价、输出确定,出出报表等。

     

    正常销售

     

    正常销售,其实就是适用于销售-交货-开票这种最常见的流程,不管是MTO还是MTS都是一样,有了库存就可以出库了。MTO是从销售订单库存出货,同时通过销售订单库存这个特殊库存传递需求给PP模块。MTS就是从普通库存出库。MTS在项目实践中更为常见一些。

     

    正常退货

     

    这个流程也很常见。因为SAP给的正常退货订单,那是一手退货,另一手退钱的,BILLING是基于SO开的,所以标准的RE类型会带上一个BILLING Block,意思是只要有人给解锁,就可以开票钱就可以退,至于货什么时候退进来都行,不影响业务退钱。

     

    SAP SD基础知识之SD常见流程概述

     

    SAP SD基础知识之SD常见流程概述

     

     

    这个跟国内大部分企业里的退货要求是不一样的,国内大部分企业都要求退货入库以后才可以做退货开票。所以项目实践中除了要把billing改成交货相关以外,还需要配置VTFL从退货交货类型到退货开票类型的复制控制。需要提醒的是,标准的SAP是没有这个复制控制的。

     

    第三方销售、跨公司销售、独立采购

     

    接下来就是第三方。实际上第三方(行项目类别TAS)、独立采购(行项目类别TAB,也叫按单采购)、跨公司销售(工厂与销售组织不在一个公司代码下)这三个流程可以归为一个大类,可以放在一起说,方便区分。这三个流程其实就是传说中的'三角贸易'的三种情况,前提都是一个,先有客户订单,再有公司间往来。这三个流程里都含有客户、销售公司、供货公司三方。

     

    独立采购:如果供货公司先把货发给销售公司,再由销售公司给客户,那就是独立采购或者叫按单采购,采购进来是销售订单库存,只为该客户采购的。使用这个流程,一定注意是先有客户需求,再发生采购,而且一定是单独为这个客户采购的,这样一来订单的成本就是采购价,而不是货物移动平均价或者标准价。

     

    跨公司销售/公司间销售:如果供货公司直接把货发给客户,并且供货公司跟销售公司同在SAP的一个Client,就可以做成跨公司销售(或者说是公司间销售)。

    第三方销售:如果供货公司直接把货发给客户,并且供货公司不跟销售公司同在SAP的一个Client,就是可以做成第三方销售。

     

    项目实践中,这两个流程在国内企业里面一般是不会启用的,或者说比较少用。为啥?因为账上没有货物进出。因为很多国内的财务业务人员,种种原因已经形成了一个固定思维,就是要卖东西就必须有物料,必须做出入库;或者拿出税法来说明,甚至干脆说这个没法跟税务解释。遇到这种情况,那就不启用第三方销售或者公司间销售流程了,就用最普通最简单的SO&PO组合来实现相关流程吧。

     

    项目实践中,也有企业搞个折中方案,通过独立采购的PR,将该PR转成一个STO出来,再对STO做收发货,不过这也省不了多少工作量。如果要做跨公司销售,一定记得公司间销售里不能缺少一个财务凭证,那就是销售公司对供货公司的应付财务凭证。这个凭证手工做可以,但是通过不太复杂的EDI配置就可以做成自动的。

     

    寄售销售

     

    寄售销售流程里,有4个动作,Fill-up/Pick-up/Issue/Return。Fill-up/pick-up这俩是正反的一对,Issue/Return这俩是正反的一对。

    寄售销售是怎么回事?说白了就是免费铺货,卖多少结多少,不卖不结。结算也不是随时卖随时结,而是约定一个期间,对这期间内发生的销售一起结。所以呢,在Issue或者Return之前,可能做了无数的Fill-up/pick-up,这俩其实就跟MB1B没啥太大区别,库存移动,从你的库存地放到客户寄售库存,或者拿回来。而Issue呢,其实就是你跟客户结算后,把库存从客户那出掉,跟客户收钱。项目实践中,业务部门用户最不好理解的是这个return。这个Return呢,是说你已经跟客户结算了,结算后,客户的客户(也就是最终客户)发生了退货,这个退货是退到你客户那的。举例说明一下:

    这个是初始的状态:

    SAP SD基础知识之SD常见流程概述

     

    做了Fill-up 100,结果就是:

    SAP SD基础知识之SD常见流程概述

     

     

    然后这期间,寄售客户可能每天都在销售给最终客户,但是只要企业不跟他发生结算,这100个库存就会始终挂在寄售客户下面。

    做了30个Issue,状态变为:

    SAP SD基础知识之SD常见流程概述

     

    下次结算时这个客户说了:我的客户给我退了5个,我一个也没卖出去。这时候就只能做5个Return。状态变为:

    SAP SD基础知识之SD常见流程概述

     

    最后这75个卖不动了拉回来,做Pick-up,最后的状态就是:

    SAP SD基础知识之SD常见流程概述

     

     

    通过上面可以看出来,其实如果结算的时候,有卖出也有退回,这时候只需要把差额做一个Issue(卖出多于退回)或者Return(退回多于卖出)就可以了。

     

    免费订单

     

    免费订单,说的是整单免费,不是买赠这种情况。就是不要钱的订单,从技术上实现一般就这么两种:100%折扣掉,定价显示为0,或者行项目类型设成定价无关,这时候只要是带了标准需求例程'002'的条件类型就都不会出现了,定价也是0。

     

    国内的免费订单,很多要求是要按成本价,或者原来的销售价计税。

     

    - 完 -

     

    2020-2-14 整理于苏州市。

    展开全文
  • 经过以上的分析,我们...1、知识管理引导流程管理的知识化在传统型的企业管理流程中,基本上都是“任务型”组织。整个流程是为了完成某类型的生产或经营任务来设计的,各个岗位上的人根据所能完成的任务,被安排到


    经过以上的分析,我们看到:导致业务流程管理失效或者说“组织实效”的最重要的问题,就是现在的“任务型”组织的“岗位知识缺乏”导致的流程管理失效。那么,为了改善组织的效率,最直接的方法就是如何克服“岗位知识缺乏”。

    1、知识管理引导流程管理的知识化

    在传统型的企业管理流程中,基本上都是“任务型”组织。整个流程是为了完成某类型的生产或经营任务来设计的,各个岗位上的人根据所能完成的任务,被安排到这个流程的不同环节中,这就是任务性的流程。

    任务型流程有很多优点,譬如,组织方便,管理简单,考核方式也很简便。但是,最致命的毛病就是:在这种架构下,每个岗位的人员是根据整个组织的任务实现过程来分配相关的任务和权利的;在处理相关业务的时候,被假定是能力充分的。但是,由于任何组织都是在某些特定环境下成立的,对组织架构和各个岗位的角色的定义,是在一定条件下确定的,当初即使设计的再完美,当现实的任务和环境发生变化后,组织的变化总是滞后的。同时,由于人类学习和掌握知识的规律,各个岗位的人的岗位知识也总是滞后的,在需要的时候再学习是不可能赶得上的。这就是“彼得陷阱”的根源。

    针对这种情况,最理想的方式就是当出现“岗位知识缺乏”的时候,人们能够通过一个方便的技术平台很方便地获得相关的知识,或者通过这个技术平台很容易找到该领域的专家以得到问题的最佳答复,而这个平台也能够与现有的组织的各个岗位、人员有着很好的匹配。这样,“岗位知识缺乏”带来的影响就可以最大可能地被减弱。

    从这里我们可以得到一些对这个技术平台的要求:
          1)     有足够的行业知识储备,包括显性化表示的知识库和充分的领域专家群;
          2)     储备的知识和专家群与组织的各个岗位的相关度很高;
          3)     该技术平台能够提供便捷、人性化的知识交流、索取手段;
          4)     提供足够的专业分析和决策支持:包括人工智能的和自然人的;
          5)     该技术平台具有自学习能力,并且能够随着组织的变化而不断“进化”,对各个岗位
            提供更加专业和个性化的支持。

    2、知识化的流程管理解决了“岗位知识缺乏”的问题

    那么,我们可以看到,以上所要求的就是“知识管理”(KM)系统。从中我们也可以看到KM和流程管理(BPM)之间的关系。

    流程作为知识管理的依附基础,一方面,流程可以帮助“知识管理”实现对核心知识的识别、流程KPI和关键控制点等知识管理的关键内容提供依据和方向;另一方面,通过知识管理与流程及岗位的紧密结合,可以建立起更加有效的、可操作的管理制度,尤其是KM绩效制度,从而让知识管理工作能够落地;同时,通过与企业业务活动的流程相结合,使得知识管理得以真正成为企业业务活动的一部分。

    而且,将KM与BPM相结合,以流程为主线进行知识管理,还能够有效地打破流程各环节间的壁垒,促进信息和知识的流动和获取,提高流程运作的效率,体现了KM对BPM的促进作用。

    在实际应用中,细化到流程具体环节和活动的流程知识地图及流程引领的岗位知识地图相对企业常见的以岗位职责指导编写的岗位工作指引、岗位简明手册等对企业的流程管的优化具有明显的促进。

    这可以使得具体工作与其所需知识的关联性更强。虽然,作为每个岗位一份的岗位工作指引和简明手册等通常可以较为全面地覆盖该岗位各项工作所需知识,但当某一岗位涉及到多个流程的工作、同一流程中多个环节的工作以及流程性工作与非流程性工作同时存在的时候,作为一个整体展现给岗位人员的工作指引的针对性不足的缺陷就体现了出来。当需要具体的某一流程的活动所需的知识的时候,原来的纯粹基于流程的管理办法就显出其苍白的一面来。

    流程及岗位知识地图等知识管理内容,具有更加明显的灵活性与可重用性;同时,由于专家地图的灵活性和个性化在线帮助,当岗位职责发生变化(具体表现为其所负责的活动的改变)时,只要将各活动及其所关联的知识进行调整、重新组合到该岗位的知识地图中去即可立即实现该岗位的知识到位。

    这样,实质上,整个企业的流程已经被知识化了,知识管理导致企业的“岗位知识缺乏”问题得到尽可能的弥补。

    真正做到“在最合适的时间和场所,将最合适的信息和知识传送给最合适的人”。

    3、知识管理引导流程管理的优化

    当流程的管理实现“知识化”之后,企业的流程就具备了自我更新的基础了。因为,知识管理的如下根本特性决定了“知识化”的流程自然具备改进的基因:

          1)     共享和创新是知识管理的最核心的价值观,这是知识型组织的基础;
          2)     知识管理本身就具备让各类知识不断提炼、不算融合、不断优化的机制;
          3)     业务流程在知识管理的机制下本身也在不断创造更新、更切近流程需要的知识;
          4)     知识管理中对人工智能技术的应用,使得知识管理系统的“自学习”机制经过业务流程
            的不间断的“训练”,变得越来越“理解”企业的流程,逐渐成为这个企业的流程管理
            的“专家系统”。
          5)     一个越来越与流程融为一体的知识管理系统,最终使得企业的流程管理的各个环节在克
            服了“岗位知识缺乏”之后,执行能力越来越强。
          6)     “知识化”的流程推动企业的流程管理更加合理,更加智能化。

    由于以上的诸多因素,导致企业的流程实现“知识化”和“智能化”,而这些因素的出现,本身就是任务型流程的优化。加上知识管理的自身的内在推动力,使得流程管理在自身优化上有着新的内在动力。
    展开全文
  • 本体( ontology)最先是被哲学领域研究者提出,其作用主要是为了更好地描述客观事物,在对客观事物描述的过程中,根据描述对象的共性将客观事物抽象为系统化的概念或专业术语。 概括而言,本体是基于自身对客观...

    在这里插入图片描述
    在这里插入图片描述
    逻辑结构上可以把知识图谱分为两层:

    • 一个是模式层也叫做 schema 层或者本体层,
    • 另一个是数据层。

    模式层位于数据层之上。 数据层其实就是存储所有的三元组信息的知识库, 而模式层才是知识图谱的核心, 它是对数据层知识结构的一种提炼, 通常需要借助本体库来存储, 通过在模式层上建立一些约束和规则, 规范实体、 关系、 实体属性、 属性值之间的联系, 以及完成在知识图谱上的一些推理。

    知识图谱的构建主要包括五个过程, 如下图 2-1 所示。 分别是本体构建、 知识获取、知识表示、 知识融合以及知识存储。

    在这里插入图片描述

    一、本体构建【Neo4J图数据库中的标签】

    0、本体与实体的区别

    • 本体(类的集合):是概念(类)的集合,是大家都公认的概念框架,一般不会改变如“人”、“事”、“物”、“地”、“组织”,在面对对象编程里面,我们把它叫做类,在数据管理里面我们把它叫做元数据;
    • 实体(类的对象):是本体、实例及关系的整合,比如“人”是本体框中的一个概念,概念中也规定了相关属性比如“性别”,小明是一个具体的人,叫做实例,所以小明也有性别,小明以及体现小明的本体概念“人”以及相关属性,叫做一个实体(简单的说就是:本体+实例);

    在这里插入图片描述

    1、本体的概念

    本体( ontology)最先是被哲学领域研究者提出,其作用主要是为了更好地描述客观事物,在对客观事物描述的过程中,根据描述对象的共性将客观事物抽象为系统化的概念或专业术语。

    在这里插入图片描述
    概括而言,本体是基于自身对客观事物描述的需求,通过对客观事物共性的总结和提炼,形成规范化、系统化的领域概念模型。

    1993 年 Gruber 所论述的:本体是对事物所具的概念或类、类的关系、类的属性等要素的明确、清晰地描述,体现了事物内外在的关系。这一描述是目前比较受到学界认可的定义之一。本体的定义体现出了本体的四个重要的特点,即概念化、明确性、形式化和共享性。

    • 本体的概念化的内涵意为本体是表示各种客观存在的抽象模型,它并不描绘实体的具体形象而是表达出一个抽象的本质概念;
    • 本体的明确性主要体现在在对客观事物进行描述的过程中利用自身严密的概念化表述优势和系统化的思想,准确地展示描述对象的特征;
    • 本体的形式化体现在本体使用特定的、严格规范化的、无歧义的语言进行描述,以达到明确清晰的目的,所以体现出形式化的特点;
    • 本体的共享性则是指本体所描述和表达的知识信息是具有共享的特性的,它能够被用户普遍的认同并使用。

    2、本体的分类

    不同的研究方法往往对本体的侧重点有所不同, 其带来的是多样化的本体的分类方法。部分比较有代表性的本体分类如下图:
    在这里插入图片描述
    上述本体分类体现了研究角度对于本体划分有着重要的影响,选择构建本体的领域以及目的或者想要实现的功能等等都对本体有着决定性作用。不同类型的本体适应于不同的构建方法,所以确定本体类别、明确其特征可以在一定程度上帮助选择合适的构建方法。

    3、本体的描述语言

    本体构建之前,需要选择合适的本体描述语言。本体描述语言是本体构建环节中的重要工具,客观的信息资源只有经过本体语言的描述转化后才能够在计算机、网络上实现输入、导出、分类、语义关联、逻辑推理等一系列的功能。

    比较有代表性的本体描述语言有 XML、 OWL、 RDF 和 RDFS,它们是现今最为常见且应用广泛的四种描述语言。

    在这里插入图片描述

    4、本体建模元语

    创建本体需要特定的模型功能实现要素,相关研究者们对此类的研究以及观点也很多。如今,最为大家所接受的是 Perez 等学者归纳出来的 5 个基本建模元语,即概念( Concepts)、关系( Relations)、函数( Functions)、公理( Axioms)以及实例( Instances)。

    • 概念( Concepts):概念的主要作用是用来描述具有相似点或共同特征的资源的集合,也被称作“类”。概念是从客观世界具有共同特征的资源集合中归纳出来的集合中资源共有的特性,从更加概括、抽象的角度揭示事物的特征。
    • 关系( Relations):关系主要是对概念或术语之间的相互关联性作出定义或描述。通过关系的有效界定和规范将资源归类并区分出不相关的资源,从中体现不同概念资源的性质。
    • 函数( Functions):函数的作用是规范集合两个或两个以上类、集合、概念间的对应关系和映射关系[17]。比如函数 Father( )的作用是有效的将生物和他的父亲相关联。
    • 公理( Axioms):是用来判断本体推理过程中推理结果和步骤对错的依据和标准。公理具有永真性。
    • 实例( Instances):是一种信息资源,是类的成员,是我们要分析的个体,是具体化的事物或者信息资源。与概念不同的是,实例充满了个性化。

    5、本体构建方法:七步法

    本体构建方法还没有形成统一的规范,主要原因是众多研究者所处的领域和构建目的不同,因此,他们所采取的方法也不尽相同。研究者提出了多种本体构建方法,领域内普遍认可的主要有以下几种:

    • METHONTOLOGY 法(主要用于化学领域)、
    • TOVE 法
    • 骨架法、
    • 七步法

    七步法是斯坦福大学研究者 Noy 和 McGuinness 在构建领域本体时研究的一种本体构建方法[22]。七步法主要将本体构建过程依次分为七个组成部分。并根据研究的需要对每一部分通过分析,提出相应的详细工作。通过七个步骤完成本体构建工作。七步法体现了本体构建次序的逻辑思路,其步骤主要是:

    1. 分析研究对象的学科领域。通过研究领域的分析,界定研究领域的范围和领域内的相关知识和专业术语,了解领域内信息用户的需求及特性,保证领域本体的专业性和针对性。
    2. 研究借用其他领域本体的可行性。如果可以借用,则可以节约时间成本和经济成本。
    3. 总结、确定本主题领域的重要概念或术语。
    4. 分析领域内概念和术语,合理描述类之间的层次关系和属性关系。
    5. 根据领域知识内容描述类的属性。如类“飞机”的属性可以有:“型号”、“价格”、“生产地”等。关系如:继承关系、不相交关系等。
    6. 定义属性取值的类型。这是对属性的有效限制,使对属性的描述更加准确。
    7. 构建本体实例。根据以上六步所做的充分的准备工作,进入本体的构建环节,按照本体构建要求构建类、子类、属性等,并为类添加个体、为不同属性添加值。最终本体构建完成。

    6、本体构建工具

    为了更好的构建本体,各领域纷纷开发适合自己领域的本体构架工具。在众多本体构建工具中存在着六个知名的构建工具,它们分别是: Protege、 Ontolingua、 OntoSaums、 OntoEdit 以及 WebOnto。

    Protege是斯坦福大学研究人员根据本体构建需要开发的一款本体开发软件,为实现工具软件对其他语言的兼容性和开放性, Protege 软件的开发采用面向对象语言—Java 语言进行开发。

    7、旅游领域本体建模思路

    在这里插入图片描述

    7.1 旅游领域标签确定

    标签的搜集对旅游领域本体的构建具有重大影响,因此要选择适当的、高质量的标签来源网站。

    具体的标签搜集和确定主要有以下两个步骤:

    第一步:标签的收集:以“旅游”、“旅行”为入口词进行标签检索,从新浪博客等网站上检索得到得标签:
    在这里插入图片描述
    第二步:标签的初步整理。原始标签中会有少数不属于旅游领域或者会出现重复、无效标签。对于标签是否属于旅游领域, 可参考《中国分类主题词表》以及中国国家旅游标准和行业标准对其进行分析与确定。

    7.2 旅游领域概念词和术语确定

    《中国分类主题词表》是本文选择旅游领域重要术语的重要来源。可参考中国旅游国家标准和行业标准;国家标准和行业标准中对旅游景区、旅游服务、旅游资源、旅游饭店等都进行了详细地说明和规范,完全可以作为旅游领域重要术语的重要来源。

    经过一系列分析和整理,确定旅游领域的概念词和术语为:旅游、人物、导游、旅游者、历史名人、景区、娱乐、摄影、文学艺术、游记、历史、旅游线路、旅游攻略、国际旅游线、国内旅游线、自助旅游、跟团旅游、食宿、住所、餐馆、美食、酒店、交通方式、景区门票、交通票价、联系方式、行程、组织机构、服务机构、地理位置、国家、省份、城市、民族风情、婚丧习俗、民族歌舞、旅行社、景区管理机构、交通运输企业、旅游局、签证、护照、保险公司、食宿企业、特产企业、自然景观、人文景观、水文景观、生物景观、天象与气候景观、民居、历史古迹、古城古镇、公园、亭台楼阁、建筑与设施等。

    7.3 定义类、类的层次结构【本体层次结构图】

    旅游领域的类是用来描述旅游的抽象化概念术语,是对众多旅游个体共性的概念化描述。

    术语是划分类的基础,根据构建领域本体的目标和具体需要,可以确定哪些术语能作为领域本体的类。在以上抽取的众多旅游领域术语中,有些是能直接作为类的,如:旅游、人物、交通方式、景区等等,而有些则不能作为类,如:票价、景区门票、联系方式等等,它们只是属性。

    “旅游”很明显是最顶层的类,是父类。然后,要确定旅游的子类,根据大众标签里体现的共性和《中国分类主题词表》确定了旅游领域的 11 个核心概念,即:人物、交通方式、娱乐、文学艺术、景区、民俗风情、旅游目的、服务机构、旅游线路、地理位置、食宿,它们是“旅游”的子类。

    领域本体类的等级体系结构建立方法有三种:自上而下法、自下而上法、综合法。更具其中任意一种方法,来确定旅游领域本体层次结构图
    在这里插入图片描述

    7.4 定义类(本体)的属性、属性的分面

    类的层次结构还只是本体的骨架,不足以全面表现领域知识和提供系统能力问题所需要的答案信息,其血肉就要通过类的关系,即属性来充实了。

    7.4.1 定义类(本体)的属性

    属性分为外部属性和内部属性:

    • 数据属性:内部属性,是类具有的一些固有性质
      在这里插入图片描述

    • 对象属性:外部属性,是指类与类之间的关系
      在这里插入图片描述

    本体的属性主要有两种:对象属性( ObjectProperty)、数据属性(DatatypeProperty):

    • 对象属性用于将相关的旅游类的不同个体联系起来;
    • 数据属性的功能是对个体赋值,将个体和文字联系起来,准确描述旅游领域个体;

    如对类“人物”设置数据属性、对象属性

    • 数据属性(固有属性):“姓名”、“性别”等,将人物个体与姓名、性别建立联系,用不同性质的数据描述个体的特性;
    • 对象属性(对外关系):“使用”、“选择”等,将人物个体与交通方式和旅游线路等个体联系起来

    旅游领域类的诸多属性,主要如下:

    • 数据属性(固有属性):旅游线路时间、性别、旅游线路费用、身份证、旅游类别、交通票价、公交线路、客房数量、客房面积、会员价、非会员价、团购价、优惠价、电脑配备、 wifi 配备、会议室配备、停车场配备、卫生间配备、健身房配备、、游泳池配备、接送服务、传真机配备、营业时间、卫生许可证、景区电话、就餐价格、景区名称、景点星级、景点营业时间、门票价格、景点优惠价、景区可容纳人数、旅行社名称、、旅行社地址、旅行社联系方式、旅行社员工数、旅游产品报价、旅游局级别、景区介绍管理机构、旅游局电话、旅游局地址、旅游局员工数、旅游局服务时间、签证机构名称、签证机构地址、签证机构电话、旅游线路名称、景点地址、日期、年龄、姓名
    • 对象属性(对外关系):人物使用交通、交通供人物使用、景点所在国家、景点所在省份、景点所在城市、人物所在城市、景区所在城市、住处所在城市、餐馆所在城市、景点具有住处、景点具有餐馆、景点供人物游览、人物游览景点、人物选择住处、人物选择餐馆、住处供人使用、餐馆供人使用、景区具有餐馆、景区具有住处、选择旅行社、可选旅行社、提供旅游线路、所选景点、持有证件、国家具有省份、省份具有城市、城市所属省份、省份所属国家。

    7.4.2 定义各个属性的分面

    在对类的属性进行定义之后,应该根据类目的层次关系和属性的特征属性所包含的不同分面分别进行定义,进一步保证属性的完整性。如对属性的取值进行定义,对属性的基数进行定义等:

    1. 赋值类型,某一属性的确定值,如整数型(int),字符串(string),浮点数(float)等。
    2. 允许的赋值。允许赋值的主要功能是对属性的赋值特征作进一步的限制,如通过数量、空值等定义属性特征。
    3. 赋值的基数,也称基数性。它是对一个属性槽(slot)能够拥有的值得数量限制。
    4. 属性值的领域和范围:规定属性属于哪个类[32]。域是对概念的限制,用一种特定的属性对某一概念进行限制,使其成为某一特定类的成员;范围是指对属性值得限制,以确保概念成为某一特定类的成员。

    例如:属性“使用”的定义域是人物,值域就是字符串数据;属性“门票”的定义域是景区,值域是整数型等等

    7.4 定义本体中的关系

    本体中的关系多种多样,除了基本的语义关系,很多类目关系还需要用户自主归纳总结然后定义。

    对于本体的基本语义关系来说,主要有四种,分别是:part-of、 kind-of、 instance-of 和 attribute-of。

    • part-of 表达概念之间部分与整体的关系,比如:“车轮”与“汽车”之间的关系;
    • kind-of 表达概念之间的继承关系,要求其层次结构中的概念关系必须是同质的、直接父子概念之间具有相同的泛化程度,相当于面向对象思想中的“is a”,比如:“人物”与“旅游者”、“导游”,“旅游者”和“导游”都继承了人物的特性,都具有人的本质,它们都继承了上位类的属性;
    • instance-of 描述的是本体中的实例与本体中类的关系,类似于面向对象中对象与类之间的关系,比如:“杨继超”是旅游领域本
      体的一个实例,他就是二级类目“人物”的一个具体实例;
      attribute-of 描述的是某个概念或类是另外一个概念或类的一个属性,比:“门票”这一术语就是“景区”类目的属性之一。

    在以上四种基本关系的基础上,笔者依据旅游领域本体类目的设置和具体特点,还定义了其他一些语义关系类型。具体情况如下:

    1. 使用和被使用关系。它们是一对互逆关系。表示两个概念或事物之间存在使用与被使用的关系。例如:“交通方式”作为一种出行工具、方式,只能被“人物”所使用,它们之间存在使用和被使用的关系。
    2. 选择和供选择关系,它们也是一对互逆关系。表示两个概念或事物之间选择与被选择的关系,即概念 a 选择概念 b。例如:“人物”选择“旅游线路”、“景区”供“人物”选择。
    3. locatedIn 关系,表示两个概念或事物之间“位于” 的关系,即概念 a位于概念 b 那里。例如:类目“景区”、“服务机构”与“地理位置” 之间的关系。
    4. Has 关系,表示概念 a 与概念 b 之间存在拥有、提供的关系。例如:类目“景区” has“食宿”。
    5. causes 与 causedBy 关系,表示人物与民俗风情之间引起与被引起的关系。它们是一对互逆关系。如果概念 a 和概念 b 之间存在概念 a概念b 的关系,则概念 b 由概念 a 引起。例如:“民俗风情”由“人物”引起,则它们之间存在关系。
    6. …的目的:说明了类目“旅游目的”只能是旅游的主体-人物所拥有。
    7. member 关系和 memberOf 关系,这里定义 member 关系和 memberOf关系是用来说明某事物是另一事物的成员之一。它们是一对互逆关系。例如,旅游局是旅游服务机构的一部分,则它们之间存在 memberOf 关系,表示为“旅游局” “旅游服务机构”。
    8. 相互对立关系或者互补关系,指两个事物或概念是完全对立的两方面,差异性很大,具有一定的互补性。例如:“自助旅游者”和“跟团旅游者”均属于“人物”的一种,且其内涵相互矛盾,但是人物还包括“导游”、“历史名人”等,所以“自助旅游者”和“跟团旅游者”属于矛盾关系

    8、旅游领域本体构建过程

    构建本体之前要有详细的规划,包括选择合适的本体描述语言、本体构建的工具以及本体构建的方法,做到统筹兼顾,全面把握本体构建的整个过程。

    在大众分类标签的基础上,运用微调后的七步法,采用 protege4.3 软件,展示一下旅游领域本体的构建过程。

    8.1 旅游领域本体类的构建

    在这里插入图片描述

    8.2 建立旅游领域本体类属性

    在这里插入图片描述

    8.3 添加旅游领域本体实例

    术语是划分类的基础,根据构建领域本体的目标和具体需要,可以确定哪些术语能作为领域本体的类[33]。为本体添加实例时可以用 rdf: type 语言进行描述,以定义、说明该实例所属的类,声明它是某类的成员。如

    </owl:Thing rdf:ID=”黄龙景区” >
    	<rdf:type rdf:resource=#景区” >
    </owl:Ting
    

    这段代码就描述了“黄龙景区”是“景区”的一个个体或实例,阐明了类与个体之间的关系。

    8.4 本体关系图显示

    本体构建完成后可以通过关系图的形式展示所建本体,本体框架可以一目了然、很美观地体现出来。 Protege4.3 中点击菜单栏“OntoGraf”,它有 7 种本体结构表现形式,比如: Tree-Vertical、 Radial、 Vertical-Directed 等,比如选用“Radial”结构来表现此本体框架。
    在这里插入图片描述

    8.5 文档保存

    本体构建完成后,需要对形成的本体进行保存。Protege 本体构建软件为本体文档的保存提供了多种形式,如 RDF/XML、 OWL 等保存格式。

    8.6 将Protege 本体数据导入Neo4j图数据库

    使用各种转换软件即可实现。比如:neosemantics-3.4.0.2 支持3.4.x版本neo4j数据库。

    二、知识抽取

    知识抽取是构建知识图谱的基础, 因为获取到知识的数量级以及准确度, 直接影响到知识图谱的规模和好坏。

    知识抽取的数据来源往往有 3 种,分别是:

    • 结构化的数据源
    • 半结构化的数据源
    • 无结构化的数据源

    知识抽取就是从数据源中抽取到我们所需要的内容。

    知识抽取包括三个方面的内容: 实体抽取、 关系抽取以及属性抽取。

    1、实体抽取(命名实体识别,Named Entity Recognition, 简称 NER)

    实体抽取。 主要指的是从自然文本中抽取到我们所需要的命名实体(例如:地名、 人名, 以及各种专有名词) 。 这个过程也叫做命名实体识别( named entity recognition, 简称 NER) 。

    最早的命名实体识别过程, 都是基于规则的, 由于所有的规则都是需要人为手工的编写, 因此需要耗费大量的人力, 可扩展性也很差。

    1.1 结构化数据源实体抽取:爬虫采集

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。
    在这里插入图片描述
    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。
    在这里插入图片描述
    以旅游知识图谱为例,爬虫可从以下网址爬取结构化数据:

    • 携程网(http://www.ctrip.com/) 是国内领先的、 国内市值最大的综合性旅行服务公司, 全球市值第三的在线旅行服务公司。 已经有超过 4.1 亿的注册会员, 并向超过 2.5 亿的会员提供过包括酒店预定、 机票预定; 向 1.7 亿会员提供过旅游度假、攻略等全方位的旅游服务。
    • 驴妈妈旅游网(http://www.lvmama.com/) 创立于 2008年, 是中国新生代旅游服务网站的代表, 主要针对为广大游客提供自助游服务, 为游客出行提供一站式服务便利。
    • 途牛网(http://www.tuniu.com/) 拥有中国最全最全的景点信息大全, 可以帮助游客更好的制定行程。大众点评是中国最大点评网站, 评论信息反应了商家最真实的产品质量和服务态度, 大众点评月评论条数超过 20 亿条, 月浏览点击量更是超过 100 亿次。
    • 百度百科(https://baike.baidu.com/) 是最大的中文在线百科全书, 至今已拥有超过 1520 万词条, 并且涉及领域和范畴特别广。
    • 互动百科(http://www.baike.com/)到 2013 年, 已经拥有超过 1300 万词条、 5 亿个分类、 68 亿文字、 721 万张图片。
    • 搜狗百科(http://baike.sogou.com/Home.v) 代表了搜狗“知立方” 最先进的搜索技术, 是新生一代的中文百科大全。

    2、关系抽取【中文:LTP工具包;英文:NLTK工具包】

    在我们得到实体之后, 就考虑从文本中挖掘出实体与实体之间的语义信息, 也就是它们之间的关联关系。

    关系抽取不仅是信息抽取的任务之一, 也是构建和补全知识图谱的关键所在,其研究的主要内容是从文本内容中挖掘出实体与实体之间的语义关系, 从纯文本生成关系数据的过程, 是自然语言处理(NLP) 中的关键任务。 该任务可以描述为:给定一段文本 S, 确定两个目标实体对 < e 1 , e 2 > <e_1,e_2> <e1,e2> 的关系类别 r r r

    最早的关系抽取, 是通过人工编写一系列的规则, 接着采用模式匹配的方式去进行关系挖掘。 现在都是通过神经网络模型抽取到句子的信息, 在根据信息对关系进行分类。

    2.1 关系抽取第三方工具包

    中文数据集可用成熟的LTP工具包实现关系抽取。
    英文数据集可用成熟的NLTK工具包实现关系抽取。

    2.2 自定义关系抽取模型

    在这里插入图片描述

    3、属性抽取

    属性指的是实体的属性。 百科是实体属性的主要来源。 FMSuchanek等人编写的启发式算法能够从维基百科的信息盒子(inforbox) 中抽取出属值对(属性-属性值) , 准确率超过 96%。 DBpedia 是现在最有影响力的知识库之一, 它从维基百科的 inforbox 中抽取了 45800 个实体、 30 亿个属性。

    三、知识表示

    知识图谱的本质就是图, 其中点代表实体, 边代表关系。 目前可以用两种形式来表示知识图谱。 第一种就是 RDF, 第二种就是属性图的形式。

    1、RDF

    RDF是 W3C 提出的描述网络资源的方法, 网络上的资源都会有唯一的、 统一的一个资源标识符(URI) 去表示, 例如, 网址“http://www.baidu.com/” 就表示百度网站的首页, 那么通过这个地址就可以找到百度网站的首页。 接着它的属性就可以通过属性值对(属性-属性值) 的方式来表示,
    在这里插入图片描述
    根据 RDF 定义, 资源本身就是 subject(主语) , 属性就是 predicate(谓语) ,
    属性值就是 object(宾语) 。 即(subject, predicate, object) 就表示一条 RDF 格式
    的数据。 其中 subject 和 object 表示知识图谱中的节点, predicate 表示知识图谱中的
    边。

    2、属性图(proprtty Graph) 模型

    属性图(proprtty Graph) 模型的方式, 是通过每一个节点和每一条边的唯一标识符, 采用属性值对的方式去标识每个节点和每一条边所具有的属性。 下图描述了我们在构建桂林旅游知识图谱上采用的属性图模型示例:

    在这里插入图片描述
    图中, ID=1, ID=2, ID=11 分别唯一的标识人物实体“朱守谦” 、 景区实体“靖江王府” 和关系“修建” 。 “出生日期: 1361 年” 、 “地理位置: 广西桂林”、“气候类型: 亚热带季风” 等这些就是他们各自的属性值对。

    四、知识融合

    通过知识抽取, 我们已经得到了海量的实体、 关系, 但是由于来源的不同, 会存在很多噪声数据, 重复的数据, 因此我们还需要对其进行清理和整合, 这个过程称为知识融合。

    知识融合包含两个过程: 第一个过程是实体链接, 第二个过程是知识合并。 通过这两个过程可以消除噪声数据, 冗余数据, 合并相关的数据, 从而提高知识的质量。

    1、实体链接

    实体链接是指将我们获得的所有的相同实体、 相关实体都对应到知识库中同一个正确的实体上的操作。 首先, 我们判断现有知识库中的实体是否有相同实体或者相关实体, 也就是说将表示相同含义的实体合并为一个正确的实体; 接着通过实体抽取的相关技术获取到实体对象; 最后将实体对象对应到知识库中正确的实体上。

    比如分别从携程、 途牛和驴妈妈三个旅游领域网站中拿到了广西所有的旅游景点信息, 从数据上可以发现存在一些问题。 例如携程网上有一个景点叫“七星景区” , 途牛网上有一个叫“七星公园” 的景区, 它们虽然名字不同, 但都是一个景区。

    为了解决上面这个问题, 进行第一次数据融合, 其中会使用到一个开源的中文自然语言处理工具 Synonyms( https://github.com/huyingxi/Synonyms#synonyms) ,Synonyms 可以用于自然语言理解的很多任务例如: 文本对齐、 推荐算法、 相似度计算、 语义偏移、 关键字提取、 概念提取、 自动摘要、 搜索引擎等等。 它现在的词容量达到了 125792, 被誉为最好用的中文同义词词库。 使用示例如下:

    word1="七星景区"
    word2="七星公园"
    r=synonyms.compare(word1, word2, seg=fales)
    

    synonyms.compare 会返回 word1 和 word2 的相似度, seg 表示是否需要分词。

    在实体合并部分仍然会使用到 Synonyms。 具体实现算法分为 3 部分, 第一部分实体链接、 第二部分属性链接、 第三部分属性值链接。

    2、知识合并

    知识合并主要是指当我们构建好自己的知识图谱时, 可以把第三方的知识库融入到我们自己的知识图谱中。 当然融入外部的知识库, 需要分别融入数据层和模式层。 模式层的融合包括: 概念的融合、 概念上下位关系的融合、 概念属性定义的融合。 数据层的融合包括: 实体的融合、 实体属性的融合。

    融合算法如下所示: (携程网、 途牛网、 驴妈妈网获得的数据列表分别是 a、 b、 c),输入: a、 b、 c 任意 2 个:
    在这里插入图片描述
    算法执行两次, 每次输入为任意两个列表, 合并的结果再与第三个列表再作为算法的输入。 其中 r>0.7 是我们设定的阈值, 当两个词相似的概念大于 0.7 是, 认为是同义词, 是同一个景点, 反之则不是。

    将 d 列表中的景点信息取出, 作为百度百科、 互动百科以及搜狗百科的输入,得到了广西所有旅游景点的 inforbox, 为了爬取方便, 最后所得到的结果都是以“==||****” 这样的形式保存, 因此现在需要对这样的数据先进行预处理,也就是说将数据格式处理为“实体, 属性, 属性值”的形式。 仔细观察得到数据, 会发现下图中红色框出的情况:

    在这里插入图片描述
    漓江的别称后应该对应一个实体, 而得到的数据对应的实体有 3 个, 因此需要对这种情况进行值分割,最后得到的结果如下图 所示, 从左到右分别是百度百科、 互动百科、 搜狗百科的数据。

    ResultSet rs = statement.executeQuery(sql);
    while(rs.next()){
    String temp = rs.getString("shuju");
    String name1 = temp.split("==")[0];
    String name2 = temp.split("==")[1].split("\\|\\|")[0];
    String name3 = temp.split("==")[1].split("\\|\\|")[1];
    if(name3.indexOf("、 ") > -1){nameAry = name3.split("、 ");}
    if(name3.indexOf(", ") > -1){nameAry = name3.split(", ");}
    if(name3.indexOf("。 ") > -1){nameAry = name3.split("。 ");}
    }
    

    最后得到的结果如下图 3-14 所示, 从左到右分别是百度百科、 互动百科、 搜狗百科的数据:

    在这里插入图片描述
    在预处理和第一次数据融合之后, 需要进行第二次数据融合, 也就是需要对百科的数据进行融合。 从上图中可以看出, 实体、 属性、 属性值都会出现指代相同但是名词不一样的情况例如: “七星景区” 和“七星公园” , “中文名称” 和“中文名” , “所在地” 和“地理位置” , “广西壮族自治区” 和“广西桂林” 等等。

    其次, 我们可以发现在这些三元组中其实包含了两种类型的三元组, 一种是(实体、 属性、 属性值) , 另外一种是(实体、 关系、 实体) 。 我们一直认为上图中所有的三元组都是(实体、 属性、 属性值) , 这样显然是不正确的, 注意用红色虚线框出的部分, 例如“流经地区、 只要主流、 地理位置” 等这些“属性” 划分为关系, 更为恰当。 因此在第二次数据融合中, 除了要融合相同的实体, 还要对从中提取出(实体、 关系、 实体) 。

    在实体合并部分仍然会使用到 Synonyms。 具体实现算法分为 3 部分, 第一部分实体链接、 第二部分属性链接、 第三部分属性值链接。 (a、 b、 c 分别表示百度、互动和搜狗百科拿到的数据)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    最后在通过人工的校验得到了最后合并的结果, 如图 3-15 所示

    在这里插入图片描述

    3、【实体-关系-实体 】v.s. 【实体-属性-属性值】

    最后需要从需要从合并结果出划分出(实体、 关系、 实体) 。 这里使用 StanfordNLP 也就是斯坦福大学的自然语言处理工具, 因为是需要处理中文文本, 所以需要选用 PKU 训练资料, 也就是北京大学提供的训练资料。 再训练好模型之后, 使用Stanford NLP 从属性值中识别出命名实体, 最后处理结果如图所示:

    在这里插入图片描述

    五、 知识存储

    知识图谱存储主要可以通过三种方式: 第一种是关系数据库(MySQL); 第二种是文档数据库(MongoDB); 第三种是图数据库(Neo4j)。

    Neo4j 的优势在于:

    1. 它有一套自带的类似于 SQL 的查询语言 Cypher, 通过 Cypher就可以实现在数据库上增删查改;
    2. Neo4j 不使用 schema, 因此可以满足用户任何类型的数据需求
    3. 在高度关联的数据上查询速度要比在关系数据库中进行查询快很多;
    4. 提供了一个可以支持大规模数据量的查询的模型。
    5. 提供了一个可视化的查询平台。

    在这里插入图片描述
    通过上一节的处理, 就得到了两种类型的三元组,

    • 第一种是(实体、 关系、 实体) ,
    • 第二种是(实体、 属性、 属性值) 。

    根据两种类型各自的特点, 考虑使用图数据库 neo4j 存储(实体、 关系、 实体) , 存储结果如下图所示:

    在这里插入图片描述

    使用关系数据库存储(实体、 属性、 属性值) , 存储结果如下图所示

    在这里插入图片描述




    参考资料:
    知识图谱构建(概念,工具,实例调研)
    8个最高效的Python爬虫框架,你用过几个?

    展开全文
  • 我们需要将信息和谐地安排进如支持扩展的企业包含一个沿着价值链中广泛的利益相关者的战略的和可持续的竞争优势流程中去。   本文将会描述业务流程管理可以如何地通过专注于他们的流程让公司受益,特别是制造型...
  • 易协软件 http://www.ecollab.com.cn 内部控制作为企业生产经营活动的自我调节和自我制约的内在机制,处于企业中枢神经...内控制度就是企业管理的规矩,通过信息化内控制度,形成流程化管理,让企业管理用数据说话!
  • 那么,如何助力企业破解智能化知识挖掘和管理难题,实现知识化转型? 3月13日下午14:00起举行的华为开发者大会2020(Cloud)第三期华为DevRun Live开发者沙龙中,华为云自然语言处理技术专家郑毅将分享《企业知识...
  • PMBOK 项目管理 九大知识领域和五大流程   PMI   Project Management Institute。PMI 是世界上最大的非盈利机构,是项目管理领域的领导者。PMI制定项目管理行业标准,带领项目管理的研究并提供项目管理的...
  • 针对我国军工制造业企业信息化水平并结合未来发展需要,提出基于军工企业信息管理 系统构建企业知识管理平台的设计方案。包括知识库总体结构的设计、以及知识积累和共享应 用工具包的设计等。目的在于通过对工程数据...
  • 信息资源不仅包括大家所熟知的企业各类数据,还包括企业的管理与决策模式,而这种管理方式体现在电子化上就是企业的各类MIS系统,这些资源是企业花费了大量资金与心血组建起来的。但由于历史的原因,企业在信息系统...
  • 知识管理:把知识变成企业的财富

    千次阅读 2008-12-02 11:29:00
    http://www.itxinwen.com/view/new/html/2008-12/2008-12-01-205581.html 依托知识管理平台,通过建立系统、完善、可行的知识管理流程,可以把分散的、被单个员工掌握的知识变为系统的、被整个企业所拥有的知识,...
  • 企业知识门户解决方案

    千次阅读 2004-12-23 09:36:00
    从管理需求的角度出发,新的管理思想和管理方法的出现,企业本身在生产经营过程中碰到的问题需要解决是促进企业信息化建设的主要动力。因为管理的分级和组织的细化,导致信息系统围绕着不同的管理阶段和管理职能来...
  • 4.ERP必须基于企业流程管理

    千次阅读 2012-09-20 20:33:39
     包括ERP在内的企业管理软件实施成功率之所以不高,在于流程管理和标准软件的分离。企业要想成功实施ERP,必须建立ERP的基石——BPM【BusinessProcess Management】。  近几年,中国制造业的信息化,尤其是ERP...
  • 什么是企业流程管理的关键?

    千次阅读 2012-11-01 15:40:53
    流程管理的视角来看,这已经超越了通常所说的企业内部的业务流程管理,是在谈跨企业、全资源链的管理。两者追求的目标都是一样的:通过协同提升竞争能力,仅仅是协同的对象不同而已,业务流程管理的理念依然可以...
  • 如今,RPA最主要的应用领域包括电商、财务/税务、银行、制造业、新零售、保险、物流、政府、公安等各行各业。通常,这些组织很难将财务和HR系统等不同元素结合在一起,他们正在转向采用RPA解决方案,实现现有的手动...
  • 企业知识管理实施的五个步骤

    千次阅读 2006-11-29 10:34:00
    随着信息化建设的深入,... 第一步:认知 认知是企业实施知识管理的第一步,主要任务是统一企业知识管理的认知,梳理知识管理对企业管理的意义,评估企业知识管理现状。帮助企业认识是否需要知识管理,并确定知识
  • 企业应用层面知识管理咨询方法

    千次阅读 2011-09-15 10:14:04
    如果你和有前瞻性眼光的企业老总交流,他或许会说--很重要,我应该制订什么样的战略呢?...该如何把业务流程和各个岗位中的关键知识梳理出来呢? 如果你和一个技术导向的信息主管交流,他或许会说-
  • 行业知识图谱(也可称企业知识图谱)主要面向企业业务,通过构建不同行业、企业的知识图谱,对企业内部提供知识化服务。华为云知识图谱服务可用于以上两类知识图谱的构建、管理和服务,更侧重面向企业知识图谱。 ...
  • 转摘:企业流程与OA

    千次阅读 2004-10-08 03:51:00
    经理人有空是罪么--企业流程与OA 当52岁的万科掌门王石在珠穆朗玛峰考虑下一步应该怎么迈出的时候,成千上万的中国经理人正坐在办公室里为企业的各种管理问题绞尽脑汁。 后来有人指责王石的做法是对股东的不负责任...
  • 企业应该如何创建知识库?

    千次阅读 2011-07-15 13:21:18
    建立企业知识库是知识管理的一个重要工作,知识库的质量也直接影响知识的推广和应用。 在 “知识管理的核心——明确知识管理创造价值的目标和过程”一文中指出,知识管理的目标需要结合企业的战略地图,根据战略地图...
  • 不想做管理的程序员不是好程序员。...PMBOK描述了项目管理专业技能总体知识包括证实了被广泛应用的传统的,革新的,高级的实践的不足之处。另外,它也包括了被普遍接受的最佳实践。PMBOK被广泛用于各种行业。
  •  每个企业内部都有很多遗留系统(Legacy System),但这些遗留系统对于企业的运营具有非常重要的影响,其中包含了大部分企业的关键业务流程。要重新开发这些关键系统需要付出很大的人力、财力成本,因此,充分利用...
  • 言归正传,首先我们需要在user表里加一个ding_userId字段,这个字段的值是企业级钉钉用户在钉钉企业群里面的一个唯一的userId,且不可更改,这个值是为了免登时换取用户的对象,下面的流程里会用到。(一)基本概述:...
  • ERP专业知识讲座:2.业务流程重组

    千次阅读 2006-03-08 15:46:00
    相关链接: ERP专业知识讲座:1.ERP的管理思想 ERP...业务流程重组 ERP专业知识讲座:3.采购管理 ERP专业知识讲座:4.销售管理 ERP专业知识讲座:5.生产计划 ERP专业知识讲座:6.人力资源管理 ERP专业知识讲座:7
  • 关键词:基于行为的学习,基于知识的学习,商业智能,工业4.0,知识图谱,企业图谱, 图数据库, 图计算引擎, 数据可视化应用场景:征信、风控、问答、医疗、能源、舆情、反欺诈、市场营销、社...
  • 企业信息化基础知识

    千次阅读 2013-07-16 15:16:59
    企业信息化(Enterprisesinformatization) ,企业信息化实质上是将企业的生产过程、物料移动、事务处理、现金流动、客户交互等业务过程数字化,通过各种信息系统网络加工生成新的信息资源,提供给各层次的人们洞悉...
  • 软件企业知识管理初探

    千次阅读 2005-09-23 09:46:00
    软件企业知识管理初探 进入知识经济时代,以知识作为生产力最主要来源的产业可称为知识型产业。软件产业是一个知识密集性的产业,企业主要开发人员都属于知识工作者,并突出具有技术人员个性化
  • 校招流程

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 108,518
精华内容 43,407
关键字:

企业的知识流程主要包括