精华内容
下载资源
问答
  • 哈工大刘挺教授关于事理图谱的报告ppt。刘挺教授是事理图谱的先驱,最先构建了金融领域事理图谱,刘教授无疑是这个领域最有发言权的人之一。相信相关从业人员一定会从中受益匪浅。
  • 在这一章中,我们主要根据首届事理图谱研讨会的内容,对于事理图谱有一个更深的概念认识,对于具体的模型细节,更希望去论文中寻找答案。 这次我们还是从数据、信息和知识开始讲起。 数据,信息和知识,这是组成我们...

    0. 前言

    上一章中,我们主要讲述了一些关于事理图谱的引言以及背景介绍。在这一章中,我们主要根据首届事理图谱研讨会的内容,对于事理图谱有一个更深的概念认识,对于具体的模型细节,更希望去论文中寻找答案。

    这次我们还是从数据、信息和知识开始讲起。

    数据,信息和知识,这是组成我们文明世界的三个层次。在SECI模型(野中郁次郎和竹内广孝,1991)也对此作了一些相关阐述。就我而言,数据是最底层,可以说所有的事物都是数据。只要能被观察到的,都是数据。信息是再往上的一层,数据里包含了噪声和冗余的数据,而我们所关注的,能够被传播并带有一定功能的,就是信息。知识则是最上一层,它包含了对于信息的理解、存储和传递的方式方法。知识,知道、认识的(事物)。我经常说的是,只有能够被人容易接受、记忆和传播的信息才能够叫做知识。而那些只可意会不可言传的通常是经验,一般认为是还没有抽象化的知识。

    在这里插入图片描述
    世界经合组织早在1996年就将知识分为四大类:Know-what/why/how/who,基本上就是关于某一事物的5W1H。因此,知识的主体就是某一事物,既可以是物体也可是事件,所谓的方法,基本上是一系列规范化的事件组成的整体。

    一般的,知识共分为四个层次:语言知识、常识知识、世界知识和领域知识。
    在这里插入图片描述

    语言知识位于最底层,是能够理解信息的第一步,在计算机内就是掌握编码规则。常识知识位于第二层,在这个层次上,我们可能只需要对日常生活有一定的表达就可以,衣食住行等细节方面。世界知识则是你要对世界有一个正确的认识,需要有一定的积累。而领域知识则是指某一专业领域的知识,它需要你成为某方面的人才后,才能够掌握的知识。

    1.知识图谱及其组成

    在这里插入图片描述

    在百度学术上,“知识图谱”的知识图谱如上图所示。可以看到知识图谱与情报学、计算机科学、教育学、中国语言文学甚至是应用经济学、科学技术史都有学科交叉和渗透。但是在计算机科学与技术分支上,目前还主要用于数据可视化。而在人工智能中,
    正如上一章中所说,知识图谱属于符号主义学派,使用的是专家系统和知识工程的方法,将人类的经验使用符号显式的表达出来,从而辅助计算机自动化处理外界带来的输入(这也是为什么会应用与数据可视化的原因)。从研究主体来看,目前知识图谱可以分为以下三类:实体图谱、事件图谱和事理图谱。

    实体图谱是描述实体和实体之间的关系,最早的时候是没有关系概率值的三元组,后来也形成了有概率值,有丰富的属性的复杂表示形式。下图是实体图谱的例子:人民的名义人物关系。
    在这里插入图片描述

    事件图谱是描述事件和事件之间的关系,最早是从事件抽取出发,按照事件之间关系进行图谱的构建,后来有一部分根据需求,研究的是特定的,具体的事件和事件之间的关系(情报学、金融学),另一部分,则将事件抽象化,逐渐变成事理图谱。下图是事件图谱例子:奥巴马就任美国总统。

    在这里插入图片描述

    事理图谱与事件图谱比较相似,事理是与物理、人理相对应的概念,根据其定义,它更倾向于研究事件的演化规律,它的节点表示的是某一个更加抽象的概念,而其连接的边,则是与其他事件的联系。因此除了常见的因果、时序关系外,还有一些上下位关系、同指关系等。可以说是事件图谱的再加工的结果,下图是事理图谱的例子:美联储加息。

    在这里插入图片描述

    从以上三个例子,我们很清楚实体图谱、事件图谱和事理图谱之间的区别与联系。我们这里省去实体图谱和事件图谱的介绍,重点讲解事理图谱的组成及应用。

    2.事理图谱

    事理图谱是一个事理逻辑知识库 ,描述了事件之间的演化规律和模式。结构上事理图谱是一个有向环,节点边代表事件之间的顺承、因果、条件和上下位等逻辑关系等逻辑关系 。这里要提及的一个定义是事件,一个完整的事件应当包含主语(非必须)谓语(必须)宾语(非必须),在下面的例子中可以有所体现。

    2.1 事理图谱的主要关系

    事理图谱之间的关系主要包含顺承关系、因果关系、上下位关系、条件关系等。以下为详细说明。

    2.1.1 顺承关系

    顺承关系是指两个时间在时间上上级发生的偏序关系,如图所示,期间的转移概率为事件间演化的置信度。
    在这里插入图片描述
    在事理图谱中的顺承关系主要包括两种情况:

    1. 顺承的前序事件a结束后,后续事件b紧接着发生。
    2. 顺承的前序事件a结束后,隔一段时间后续事件b才发生。

    2.1.2 相关关系和因果关系

    图谱,其实就是包含许多事物和事物之间的关系的整体,一般的,我们将只要是相关关系的事物都会形成连接,但我们更侧重于因果关系这一个比较特殊的关系。而我们之所以重点研究因果性,是因为因果性更能够进行推理和预测,它可能包含我们一直所要探寻的“规律”。从具体的、细节化事件因果( 事实 )中归纳总结出事件因果律( 认知 ),从而指导人们的行为。这也是知识的一个比较重要的功能体现。

    对于因果关系和相关关系的研究有很多,例如《关于人的认知体系“相关性”与“因果性”的初探》阐述了人们将相关性认定为因果性的原因在于“过拟合”的观点,《统计学中的相关性与因果性》讲了统计学中出现的奇怪的因果现象。《相关性≠因果性》则用几个吸引人的例子向我们介绍了我们常常会犯的错误。这也让我想起两年前在CCL会议上听耿直教授讲的因果关系和相关关系的区别与联系。就我看来,因果性只是相关性的其中一个子集,例如时序关系,同指关、包含关系等都是相关性的体现之一。

    和相关性区别的是无关性。事实上,任何事情之间都是有联系的,只不过这个联系强度大小的,当我们认为两个人之间的联系强度低于某个阈值或者超过某些连接长度(例如亲戚关系),我们就认为两者没有关系。所以,只要在图谱中体现出的节点之间是连通的,都会认为是有联系的,而我们之所以找不到他们之间的联系,可能是因为关系链太长或者相关强度太小。

    在事件图谱中,因果关系是指两个事件之间,前一事件导致后一事件的发生。
    在这里插入图片描述

    2.1.3 上下位关系

    在事理图谱中,事件之间的上下位关系分为:名词性上下位关系和动词性上下位关系。其实就是看一个事件中是否是动词存在上下位还是名词存在上下位。
    在这里插入图片描述

    2.1.4 条件关系

    条件关系不是因果关系。就我而言,条件关系和因果关系不是那么容易区分。在事理图谱中,条件关系指前一个事件的发生是后一个事件发生的条件。
    在这里插入图片描述

    2.2 事理图谱的典型结构

    事理图谱中的三个典型的子图结构:链状、树状和环状结构。
    在这里插入图片描述
    上图为看电影场景下的链状事理图谱,这基本上就是一个流程,它并不是指某一次具体的看电影,也就是说这是一个看电影的通用方法。如果人工智能可以自动的学习这一套流程,那么相比现在的人工智能,可要聪明多了。
    在这里插入图片描述
    上图为结婚场景下的树状结构,它就不仅仅是一个顺序执行的过程,而是一个发散的,可能包含许多事情的事件。
    在这里插入图片描述
    上图为金融领域里的环状结构,它更加可以揭示事物发展的规律,尤其是良性循环与恶性循环。这也正印证了“历史总是相似的”老话。

    这里我有一个额外的问题,如何确定一个大小合适的场景?

    2.3 事理图谱的构建步骤

    事理图谱的构建主要步骤如下:

    1. 事件抽取(无监督的模式匹配+有监督的模型算法)
    2. 事件因果强度计算
    3. 事件上下位关系获取(基于大词林)
    4. 事件合一(事件同指)
    5. 事件泛化(事件聚类)

    2.4 事理图谱的应用方面

    事理图谱可以应用在多个方面,例如:

    1. 脚本事件预测(事件链)
    2. 金融事理图谱
    3. 应用于内部决策参考、风险预警、资产组合、投研分析等。
    4. 消费意图预测与推荐
    5. 辅助对话生成
    6. 问答系统
    7. 热点事件发现与跟踪(民众热点、国际政治)
    8. 机器自动写作等
    9. POI检测

    4. 小结

    在未来,无论是具有可解释性的符号主义学派的相关模型还是速度更快,更简单方便的联结主义学派的相关模型,都不可能完全的处理所有的问题。正如曾经的所谓脑启发的人工智能,正迈向类脑人工智能一样,人类必将会对自身认知过程有一个更深的了解,并且逐步细化,最终组合形成一个人类知识的集合体。

    其实,我们对于人工智能要求太高,现实中,不是每个人的能力都如此优秀出众。很多人有着这样或那样的缺陷。然而,我们要造的通用人工智能,就是要比任何一个人,在任何领域都要优秀。从AlphaGo到如今的王者荣耀AI等一系列游戏智能体完全打败顶尖人类玩家,到图像识别、作诗作画达到研究生水平,甚至是自动驾驶不允许出现一点差错,这不是赤裸裸的造神运动吗?

    当然,这不是一蹴而就的事情,依旧是一声长叹,抬头看路:路漫漫其修远兮,吾将上下而求索。

    展开全文
  • 事理图谱之初见

    2019-07-18 14:49:54
    由于研究方向问题,终于接触到这个融合了事件抽取和知识图谱的新领域——事理图谱事理图谱论文应该在2017年初就已经提出。在2017年CNCC大会上,刘挺教授的演讲才让事理图谱走进大众视野。 本章主要是一个背景知识...

    0. 前言

    由于研究方向问题,终于接触到这个融合了事件抽取和知识图谱的新领域——事理图谱。事理图谱论文应该在2017年初就已经提出。在2017年CNCC大会上,刘挺教授的演讲才让事理图谱走进大众视野。

    本章主要是一个背景知识介绍,所有内容均在2019年之前。下一章我们将会在讲习班过后进行补充今年以来的最新进展。要说事理图谱,就要说一说事件抽取和知识图谱。由于是一个导论一样的介绍,因此很多地方都是浅尝辄止,有机会再慢慢补充,提供了很多参考资料,日后可以慢慢阅读。

    1. 事件抽取

    首先我们介绍事件抽取。
    事件抽取一直是信息抽取中较为热门的方向。有关它有许多学术上的介绍,我们这里给出一些综述,例如《事件抽取技术综述(2016)》、《事件抽取技术研究综述(2013年)》以及《A Survey of Event Extraction Methods from Text for Decision Support Systems》。简而言之,事件抽取的任务就是抽取出“事件”。

    按照自然想法,事件应该描述的是一件事。一般的,事件具有事件类型、触发词、论元和角色四个部分,这个和语义角色标注还挺像的。事件抽取一般都是识别触发词并判断事件类型。其实就是想知道发生了什么事,这可能是一个名词或者动词短语。

    对于事件的作用范围,分为句子级、篇章级(段落、短文)和跨篇章级(不同段落、文章)等。对于句子级的事件抽取,是比较成熟的。而在篇章级或跨篇章级事件抽取时,由于需要考虑相同/类似事件对应的论元一致性,同一文档内的相同单词触发的事件类型一致性特征,相同类型的实体参与的事件一致性特征等,因此会难度很多。这就相当于,在每个句子上存在(不存在)一个事件,而篇章中包含多个事件(元事件),那么原本的工作是要将这多个元事件融合成一个主题事件,这是比较困难的。

    另外一个解决这个问题的是关系抽取,即进行事件之间关系的识别和分类。事件之间关系主要包含:相关、因果和时序关系。这三个关系为后面的事理图谱也打下了基础。这样,一个篇章级(段落)文章中,都是围绕着一个主题,若存在若干个事件,那么事件和事件之间可能存在一定的关系,这些事件彼此联系,最终形成一个网,这也类似事理图谱。跨篇章中一个比较容易识别的关系为相关关系,即描述的同一个事情。这有的是同一个事件的不同角度汇报,也有的是同一事件的重述。这里有《关系抽取综述(2016)》和与之类似的《实体关系抽取综述(2018)》,这里还有《事件抽取与事理图谱》的相关介绍。

    2. 知识图谱

    知识图谱是另外一个方向,归属于符号主义。它不同于当今的联结主义(更像是不可解释的神经网络系统),它需要可解释性(尽管目前也使用了大量的神经网络模型),也就是说需要对决策给出明确的解释。这也为以后的迭代更新与知识积累打下基础。知识图谱更准确的说是实体图谱,它表示的是实体(人、物、地点)与实体之间的关系,而实体都是名词,有点像词典(词林),但是更加的广泛和庞大。一般的知识图谱都是基于三元组的表示方式,这样有利于维护和使用。

    不同于事件抽取,知识图谱是一种知识的表示方式,在它方面的研究多半是研究如何进行构建知识图谱的,以便于将它应用到其他领域中。下图是一个系统示例:
    在这里插入图片描述
    可以看到,知识图谱牵扯到的关键技术还是挺多的,包括实体抽取、关系抽取、属性抽取以及本体构建,知识更新和知识推理,以及语料库相关的质量评估。但是最重要的是,一旦它构建完成,就可以对其他任务进行服务。更多关于知识图谱的细节讲述,详见《知识图谱综述(2016)》,也有《知识图谱基础》与《知识图谱应用》两个可供参考。

    知识图谱相较于其他技术,除了研究如何构建知识图谱外,另个关注点就是商业场景应用。《从零到一学习知识图谱的技术与应用》和《6个方面分析:知识图谱的价值和应用》两篇文章从更加非技术角度讲述知识图谱如何应用到业务当中。

    当然,提到知识图谱不提OpenKG,也是不应该的,这是一个知识图谱的开放联盟,里面有很多有用的已构建好的知识图谱供我们研究使用。

    3. 事理图谱

    说完这两个,大家也大概知道事理图谱是什么了吧。事理图谱在形式上表现为描述事件与事件之间的关系,定义为描述事件的演化及相关性。它基本上继承于叙事性事件链(narrative event chain),但是更加的复杂,不仅仅关注事件之间的时序性和因果性,还包括同一事件对不同事件的影响。在应用上,知识图谱可以完成when / who/ what/ where等常识问题。事理图谱可以回答Why/How等动态问题。

    简单来讲,事理图谱就是将知识图谱中节点为实体转换为事件,这样可以刻画更加灵活的记忆(知识)。下图主要列举了事理逻辑的几种类型主要包括因果事理、条件事理、反转事理、顺承事理、上下位事理、组成事理、并发事理共七类事理,一般的主要关注的是因果事理和顺承事理:
    在这里插入图片描述
    这里是两个金融事理图谱的应用展示:

    1. 哈尔滨工业大学的金融事理图谱展示
    2. 数据地平线的商品金融事理图谱展示

    都是“货币超发”:

    1. 哈工大的展示
      hgd
    2. 数据地平线展示:
      dpx
      看起来好像哈工大的更加丰富。但是另外一个方面,例如“感冒”、“经常熬夜”等,哈工大的就没有收录,而数据地平线则有相关数据。

    这里主要参考《数据地平线》和《哈工大》的事理图谱的相关介绍。

    https://www.jianshu.com/p/5646e5b5e288
    http://www.sohu.com/a/140664312_657157

    事理图谱的主要应用方面如下:

    1. 基于事理图谱的知识问答。
    2. 基于事理图谱的消费意图识别。
    3. 基于事理图谱的重要新闻判别与推荐。
    4. 基于事理图谱的知识管理。
    5. 基于事理图谱的推理与辅助决策。

    更多的相关知识详见《事理图谱,下一代知识图谱》。

    这里附上2018年IJCAI的事理图谱的应用《基于叙事事理图谱和可扩展图神经⽹络的脚本事件预测模型》及其解析

    对于事件抽取和事理图谱的工程技术,可以参考这两篇博客:《事件抽取技术方案简介》以及《事理图谱——工业实践总结》。

    4. 其他相关技术

    事理图谱往前了说,还有一个叫做脚本学习的任务。Schank 在 1975 年提出了脚本 概念。脚本学习指的是用脚本( Script) 的方式来表示 特定场景下的事件知识用无监督的方法构建事件链,成为该方向一个具有代 表性的先驱工作。脚本学习涉及事件表示、事件预测等多方面内容,例如,根据上下文预测故事的正确结尾等。

    事理图谱往后了说,也就是更加细化的表示,则是情报事理图谱。它相较于事理图谱,更加的细化,将一个个事件描述成历史上一个固定的点,它包含的内容不仅包括事件,还包括事件发生的日期、地点等。它和事理图谱的区别如下:
    在这里插入图片描述
    更多关于情报事理图谱的内容详见《情报事理图谱的概念界定与价值分析(2018)》。

    展开全文
  • 刘挺 | 从知识图谱到事理图谱

    万次阅读 2017-11-16 00:00:00
    在“知识图谱预见社交媒体”的技术分论坛上,哈尔滨工业大学刘挺教授做了题为“从知识图谱到事理图谱”的精彩报告。会后AI科技评论征得刘挺教授的同意,回顾和整理了本次报告的精彩内容。 刘挺教授 刘挺...

    本文转载自 AI科技评论 

    在“知识图谱预见社交媒体”的技术分论坛上,哈尔滨工业大学刘挺教授做了题为“从知识图谱到事理图谱”的精彩报告。会后AI科技评论征得刘挺教授的同意,回顾和整理了本次报告的精彩内容。

    640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

    刘挺教授

    刘挺教授的报告内容分为四部分:

    • 知识图谱与《大词林》

    • 事理图谱概念的提出

    • 事理图谱国内外相关工作

    • 哈工大在事理图谱方面的探索

    知识图谱与《大词林》

    知识图谱最早是通过人工搜集数据和标注数据来构建的,随着需求的多样化和精细化(例如,需要获得“XX疾病是否可以被XX药物治疗”,“XX人和XX人之间是否是敌人/朋友”等信息),人工构建的知识图谱越发难以满足用户多种多样的需求。基于此,如何由机器去自动构建大规模的知识图谱已经发展成为热门的研究点。

    知识图谱,是基于二元关系的知识库,用以描述现实世界中的实体(或概念,概念是实体的抽象,例如“水果”即为“苹果”的概念)及其相互关系,其基本组成单位是『实体-关系-实体』三元组(triplet),实体之间通过关系相互联结,构成网状结构。通过知识图谱,可以支持用户按主题而不是按字符串检索,从而真正地实现在语义层面上进行信息检索。基于知识图谱的搜索引擎,能够直接向用户反馈结构化的知识,用户不必浏览大量网页,就可以找到自己想要获得的知识。

    640?wx_fmt=png

    封闭域知识图谱和开放域知识图谱各有优劣

    2014年年末,哈工大正式发布《大词林》。现在只需在浏览器中键入www.bigcilin.com,即可访问《大词林》。《大词林》是一种自动从网络中爬取实体及实体的概念以形成基于上下位关系的通用知识图谱。这意味着,如果用户输入的词语不被《大词林》所包含,《大词林》即会实时地到互联网上去搜索,以自动挖掘该词语的上位概念词,并将这些上位概念词整理为层次结构。比如输入“林肯”,《大词林》就会根据“林肯”在网络中出现的语义信息,自动挖掘出“林肯”所具有的多个概念,例如“汽车”、“总统”、“交通工具”、“领袖”等,然后再根据这些概念的抽象程度,将这些概念刻画为层次结构。例如“领袖”相对于“总统”更加抽象,在图中“领袖”的层次就比“总统”更高。

    640?wx_fmt=png

    上图左侧为《大词林》层次目录的一部分,其骨架是《同义词词林(扩展版)》。《大词林》选择《同义词词林(扩展版)》作为骨架的原因在于:经过反复的探讨,刘挺教授带领的团队认为词汇应具有两种类型,一种是“实体”与真实的事物相对应,比如具体的人名、地名、机构名;另一种是“概念”,是“实体”的抽象含义,比如“植物”、“水果”等。实体之间具有明显的横向关系,而“实体”和“概念”、“概念”和“概念”之间具有明显的层次关系,因此词汇之间应具有由横向关系和纵向关系所形成的网状结构。基于此,刘挺教授带领的团队将《同义词词林(扩展版)》作为《大词林》层次(纵向)关系构建的骨架。

    640?wx_fmt=png

    这里简单介绍一下作为《大词林》的骨架-《同义词词林(扩展版)》存在的问题。《同义词词林》的第一个问题是仅具有固定的5层结构,但面对千万级乃至亿万级规模多领域、多样性的词汇,固定的结构显然无法对其进行有效描述;第二个问题是《同义词词林(扩展版)》包含的词语数目非常有限,且大部分为抽象的概念,其规模不到十万词,显然不适合实际应用。基于此,刘挺教授带领的团队决心打破《同义词词林(扩展版)》的上述限制,从而形成了现在的《大词林》。首先,《大词林》的层数是不固定的,其根据词语的抽象程度自动进行层次化;其次,《大词林》中包含了很多具体的实体(例如人名、地名、机构名),其规模是《同义词词林(扩展版)》的数百倍,并且还在不断的扩充。

    640?wx_fmt=png

    《大词林》的特点在于能够从多种信息源中自动地构造词汇和词汇的上下位关系。这是刘挺教授带领的团队中一名博士生发表的一篇ACL会议论文(该会议是自然语言处理领域的顶级会议,被计算机学会评定为Rank A),这篇论文详细地展示了如何自动的从多信息源里获取实体概念词的技术框架。

    640?wx_fmt=png

    简单来说,获取概念词的来源主要有三个,1)搜索引擎中检索得到的高概率的同现词,2)在线百科的类别标签3)词语的构词法,对于很多词,其后缀即为该词的概念词,例如像微软公司的公司就是微软公司这个实体的概念词。之后,采用排序算法对获取得到的这些候选概念词进行打分,然后截取超过一定阈值的候选概念词保留到《大词林》中。

    上面的方法仅仅获取了针对某个词语的概念词,如左图所示。但是,概念词之间是有明显的层次关系的,如右图所示,而《大词林》的特殊之处就在于能够自动形成概念词之间的层次结构。基于上述的处理方案,从《同义词词林(扩展版)》的十万词出发,现在的《大词林》已经成为一个具有千万级词汇量级的知识图谱,并且其规模每天都在不断的增长。

    0?

    由于《大词林》是自动构建的,因此需要对其质量做一个评估,以判别《大词林》中是不是包含了很多的错误,到底可不可以实用。刘挺教授带领的团队对《大词林》做过抽样评估。结果显示,针对某个词语,找到其概念词的准确率为85%,词语之间的上下位关系识别的准确率为90%。

    相比于其他知识图谱,《大词林》主要专注于语言学中词汇的上下位关系的自动构建,是一种语言的知识图谱。当然,目前刘挺教授带领的团队也着手在《大词林》中引入横向关系,相信不久的将来就能看见更加全面的《大词林》。

    事理图谱概念的提出

    关于事理图谱。现有的知识库普遍是以“概念及概念间的关系”为核心的,缺乏对“事理逻辑”知识的挖掘。刘挺教授团队认为在实际应用中,事理逻辑(事件之间的演化规律与模式)是一种非常有价值的常识知识,挖掘这种知识对我们认识人类行为和社会发展变化规律非常有意义。举个经典例子,北京人买房子,买完房子下一步就是装修,装修完了就会买家具,如果在网上发现有人发微博说他买房子了,装修公司就可以跟上去做广告,这就是一种预测。事理图谱并不是以名词为核心节点的知识库,而是以事件而且是抽象类事件为核心的事理逻辑知识库。举个例子,国家领导人访问另一个国家,这就是一个抽象事件。刘挺教授的团队三年前就提出了事理图谱的概念。

    640?wx_fmt=png

    事理图谱只定义两种事件间关系:一种顺承,一种因果,这两种关系都有时间顺序。本质上事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式,可以应用在生活中的很多方面,比如事件预测 ,常识推理,消费意图挖掘,对话生成等等。

    640?wx_fmt=png

    事理图谱与知识图谱的区别,知识图谱研究对象为名词性实体及其关系,事理图谱研究对象是谓词性事件及其关系。知识图谱主要知识形式是实体属性和关系,事理图谱则是事理逻辑关系以及概率转移信息。事件间的演化关系多数是不确定的,而实体之间的关系基本是稳定的。

    640?wx_fmt=png

    事理图谱中的事件定义。事理图谱中的事件是一个泛化的抽象的事件,比如吃火锅,去机场 ,看电影都可以,但要是说非常的具体,某年某月干了什么,这就不是事理图谱中存储的知识。但也不能太抽象,比如,去地方,做事情,也不是事理图谱中存储的知识。事件间的关系就两种,一种顺承关系,吃饭,买单,离开餐馆,这就是很常见的事件顺承关系。还有就是因果关系,我们认为因果关系是非常重要的,只有因果关系建立了,才能通过控制因变量去影响结果。

    640?wx_fmt=png

    事理图谱有3种典型的拓扑结构, 第一种是链状,顺承关系为典型代表。第二种是树状,这其中有一种事件是心理事件,打算去做某事,并不是真做了;第三种是环状,以打架报复住院为例,循环往复。

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    事理图谱国内外相关工作

    与事理图谱最相关的两个研究方向是统计脚本学习和事件关系识别。统计脚本学习是与事理图谱非常接近的一个研究领域。1975年,美国学者Schank提出脚本概念;2003年,日本学者提出自动获取脚本的方法;2008年,Dan Jurafsky利用无监督的方法构建事件链,成为该方向一个具有代表性的先驱工作。2014至今,统计脚本相关研究工作进入了复苏和发展阶段。

    640?wx_fmt=png

    除此之外,还有一条技术路线是事件间关系(时序和因果)识别。

    640?wx_fmt=jpeg

    640?wx_fmt=png

    哈工大在事理图谱的研究

    哈工大主要在两个领域进行了事理图谱探索性的工作,一方面是出行领域事理图谱的构建和应用;另一方面是金融领域事理图谱的构建和应用。

    640?wx_fmt=png

    出行事理图谱的潜在应用

    640?wx_fmt=png

    640?wx_fmt=png

    出行领域更多是顺承关系,其构建过程包括数据清洗、NLP预处理、事件抽取和泛化、生成候选事件对、顺承关系识别、顺承方向识别。

    第二个是金融领域事理图谱。

    640?wx_fmt=png

    640?wx_fmt=png

    可将金融领域事理图谱应用于股市预测当中。

    640?wx_fmt=png

    从知识图谱到事理图谱的总结

    刘挺教授的总结:知识图谱在各个领域精耕细作,逐渐显露价值,但知识表示形式有待突破,推理能力有待提高。统计脚本学习和事件关系识别等事理图谱相关研究越来越吸引研究者的关注。以“谓词性短语”为节点,以事件演化(顺承、因果)为边的事理图谱方兴未艾。事理图谱必将在预测、对话等领域发挥重要作用,有力地提升人工智能系统的可解释性。

    最后刘挺教授向他的合作者,哈工大社会计算与信息检索研究中心的秦兵教授、刘铭副教授、丁效老师,以及博士生赵森栋、李忠阳、姜天文表示感谢。

    以上内容为刘挺教授在CNCC 2017 [ 知识图谱遇见社交媒体 ] 论坛上的精彩报告,AI科技评论获其独家授权整理。

    640?




    OpenKG.CN


    中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

    0?wx_fmt=jpeg

    点击阅读原文,进入 OpenKG 博客。

    展开全文
  • 事理图谱的构建

    2019-09-28 12:31:04
    本内容转自:版权声明:本文为CSDN博主「liuhuanyong_iscas」的原创文章,遵循 CC 4.0 BY-SA 版权协议,...目前关于事理图谱的构建方式上,主要包括领域专家手动构建以及基于海量文本自动化获取两种方法。前者准确...

    本内容转自:
    版权声明:本文为CSDN博主「liuhuanyong_iscas」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/lhy2014/article/details/85247268

     

    目前关于事理图谱的构建方式上,主要包括领域专家手动构建以及基于海量文本自动化获取两种方法。前者准确率高但构建成本较大,且规模难以快速增长;后者所见即所得,构建成本较低,规模可快速扩充,能够迅速挖掘出海量逻辑,但缺点是精确度受多方面因素影响,准确率较前者要低。事实上,目前事理逻辑广泛存在于海量文本当中,当我们打开百度或者谷歌搜索引擎,输入“导致”或者“lead to”这一词时,会返回多个包含因果事理的结果,如下图所示。此外,问答社区等资源也为基于海量文本自动化获取事理逻辑提供了可能

     

     

    事理逻辑的挖掘,可以分成基于显式因果逻辑的挖掘和隐式因果逻辑的逻辑两种。前者通过人工设定因果模式可以获取大量的因果事件对,例如对于句子“受范冰冰阴阳合同事件牵连,唐德影视、华谊兄弟开盘大跌”,可以结构化出<范冰冰阴阳合同事件,导致,唐德影视、华谊兄弟开盘大跌>这样的因果事件对。通过对原因事件和结果事件进行进一步解析,我们可以得到原因事件的关联主体是人物,即影视明星“范冰冰”,事件的动作是“阴阳合同”,结果事件中关联的主体是两家传媒上市公司,华德影视和华谊兄弟,事件的动作是股价大跌。结合上下文,可进一步明确事件发生的时间信息,为2018年6月4日。对这样的事件对,可进一步抽象泛化成一种逻辑规则,即影视明星“阴阳合同->传媒公司股价下跌”这样一条因果模式链。更进一步,通过对动作本身的情感极性进行泛化,我们可以发现,“阴阳合同”属于负面消息,股价下跌这一事件属于负面影响,因此,可以进一步泛化成“明星负面消息->公司利空”这条更为抽象的因果模式链。这样,通过大量的显示模式对事理逻辑进行结构化,对不同来源的事理知识进行融合并层层抽象,可以得到大规模不同层级的事理逻辑,借助知识图谱首尾相接的方式,我们对构建好的一条条事理逻辑进行链接,就形成了一个图谱形式的事理逻辑脉络,即事理图谱。

    说到事理图谱,就不得不说事件表示。事件表示是事理图谱中的重要问题之一,目前学界和业界正在寻求一种尽可能灵活、简单的方式去表示事件。在事件表示上,有上海大学刘宗田老师团队提出的“事件六要素本体模型”[5],即将事件建模成e = { A,O,T,V,P,L}的表示形式, 其中: A 为动作要素; O 为对象要素; T 为时间要素; V 为环境要素; P 为断言要素; L 为语言表现。 而这种表示方式无法直接用于图谱节点表示,更可能成为一种事件描述信息隐藏于图谱事件节点背后。我们在实际的工作当中,尝试了几种事件表示方式,如含义、举例、优缺点

     

     事理图谱中事件节点的表示形式

    从汉语句法学和语义学的角度出发,全面梳理了上千条事件逻辑关系显示表达模式,构建起了两千万领域新闻资讯库,运用事件抽取、事件对齐、事件融合以及泛化技术,形成了规模约400万的事理图谱,并实现了事理图谱的动态更新。

     

    下图分别是部分“出行”和“烹饪”两个顺承子图谱。从中我们看到,围绕着“去丽江”这一事件所产生的顺承逻辑,如“拿#身份证”->“去#售票口”-> “去#买票”->“遇上#旺季”->“去#丽江”这一顺承逻辑,“去#丽江”-> “预订#客栈”->“看过#攻略”->“结合#眼光”->“没有#价值”->“擦亮#眼睛”这一顺承逻辑结构。“去#庄园”->“去#竹林”->“挖#冬笋”->“切成#块”->“配上#鳊鱼”-> “匀以#薯粉”->“成#棒状”->“入#油锅”->“炸成#小块”这一顺承事件链形象地描述了“烹饪”这一事件的时序关系。这种顺承事理逻辑在揭示叙述性与步骤型事务的刻画上是一种很好的形式。

     

     

    以下分别是以“银行降准”和“智利地震”事件为核心所关联的因果事理逻辑链,今年10月07日,央行宣布银行降准,这势必会造成多骨诺米牌效应,如图11中所示:
    银行降准会导致保险股高开、银行股持续走强,银行股持续走强先后带来银行板块集

     

     

     

     

     

     

    五、事理图谱和知识图谱的融合
    如上面所介绍到的事理图谱中是以事件为单位一种逻辑链路,而实体识事件的一个重组成部分,通过实体识别和实体链接技术可以将事件中的实体链接到相应的实体知识库当中。如图12所示:“范冰冰阴阳合同违法”这一事件当中,人物“范冰冰”可以链接到包含“范冰冰”这个人物的人物关系图谱,如搜狗人物关系图谱,导致光线传媒、华谊嘉信、华谊兄弟等传媒公司的股价下跌这一事件中,光线传媒、华谊嘉信以及华谊兄弟这些公司类实体,实体可以进一步连接到以公司为实体的公司金融知识图谱,该图谱中包含了公司的主营产品、所属板块、竞争对手等各方面的信息



    图12显示了事理图谱和知识图谱融合后的状态(部分),通过因果关系事件,将事件中的实体进行关联,结合实体之间的关联,可以进一步进行拓展,查询,从而实现整体图谱的联动。

     

     


    图13-事理图谱与金融知识图谱知识图谱融合效果

     

     

    除公司知识图谱与事理图谱的融合之外,我们在产业链知识图谱和事理图谱融合的工作上进行了尝试,如图14所示展示了“澳大利亚锌矿执行复产计划事件”的融合效果子图(部分),从“澳大利亚锌矿执行复产计划事件”缓解相关铅产量恢复等事件出发,可以将事件与“铅”商品这一商品、有色产业链等行业板块类实体与行业相链接,进一步找到相应的商品、个股等信息,通过这种链接和融合,可以进一步对事件进行知识信息的扩展,形成从事理到知识概念的通路。

     

     


    图14-事理图谱与产业链知识图谱融合效果

    六、事理图谱的应用探讨
    事理图谱有多种应用场景,我们在实践过程中,主要总结出了以下5种应用形式:
    1、基于事理图谱的知识问答。由于后台有以事件和静态知识为核心的事理逻辑,可以在完成“when”,“who”,“what”,“where”等常识问题的同时,进一步回答“how”以及“why”的问题,这种问答的形式既可以是可视化搜索式,也可以是问答形式,如图15所示:


    图15-基于事理的知识问答

     

     

    当用户输入“特朗普和金正恩又骂战了会怎么样?”这一问句后,系统能够给出直接的回答“这很有可能会是的美国朝鲜局势更为紧张,朝鲜局势紧张可能会带来全球股市走低、避险情绪升温、金价上涨等一系列影响”。通过对该回答,再配以可视化因果逻辑链的展示方式,可以进一步为这一回答提供佐证。
    2、基于事理图谱的消费意图识别。本文在前面说到,顺承事理图谱对具有时序特征的叙述性事件能够很好的刻画,它描绘了叙述性事件的整个阶段。而我们正好可以利用这
    种阶段性的特征,完成消费推荐的任务。如图16所示:

     

     

     

    图16-基于事理的消费意图识别
    例如,当用户发出“丽江是个好地方,我想去看看”的状态时,通过分析该用户的消费意图,将消费意图识别为一个出行事件时,通过游走以“丽江出行”这一个顺承图谱可以推出多种消费行为。例如“出机场、看到接待点”这个子事件可以推出“机票预订与推荐”与“接送机”服务;“预订#客栈”这一子事件可以引出“酒店预订”服务,“买卧铺票”这一子事件可引出“火车票预订”这项需求。全局的来看,整个出行图谱可以作为一个整体的出行指南提供给用户,充当用户规划的“探路者”与“规划师”。

    3、基于事理图谱的重要新闻判别与推荐。大数据时代下,海量新闻在网络上快速传播,新闻个性化推荐以及重要新闻筛选成为了新闻检索中的两个重要任务。目前的推荐算法主要基于协同过滤、基于内容推荐和混合推荐方法,这几种方法从本质上来说都是对内容与用户进行建模并进行相似性计算得到的一种结果。事理图谱的出现,提供了一种重要性判别方式和新闻推荐方式。“历史总是相似的,重要的事情总是周而复始的出现”,在这一假设下,通过对新闻文本进行事件提取,并结合背后的事理图谱,根据事件后续产生影响的重要性可以为整个新闻进行重要性评分,并给出该新闻事件所蕴含的已有事件和未来事件信息。通过这种方式对新闻资讯进行建模和筛选,并结合用户兴趣模型,可以完成重要新闻的判别和推荐,如图17所示:


    图17-基于事理图谱的重要新闻判别与推荐

     

     

    4、基于事理图谱的知识管理
    知识图谱的本质上是一种以实体、实体属性、实体与实体/属性之间关系形成的一个知识库。而由于知识图谱中的知识是动态变化的,尤其在多源知识融合、知识对齐当中,为了保证知识的准确性、实时性,通常需要进行知识管理和编辑,这种操作可以类似成数据库的增、删、改、查操作,图18是我们开发的一个知识图谱编辑和管理工具,该工具可以支持对知识图谱中知识数据的CRUD操作。当然,这种知识更新的方式是人工自动发现并进行编辑,本质上来说,并没有实现知识图谱中数据的全自动更新。


    图18-基于传统知识图谱的知识管理

     

     

    与知识图谱不同,事理图谱这一以事件为实体节点,并融入静态实体的知识组织方式将静态的知识和动态的逻辑规则(前面说到的多种事件关系)形紧密相连,形成一个强大的逻辑链路网络,使得事理图谱天生具备了知识更新指导能力。将事理图谱与实际的业务逻辑系统相结合,并不断赋予事理更全面、更精细的逻辑体系,能够在一方面对根据外界事件知识的变化而对已有静态知识进行及时动态更新,如银行客服系统中的会话流程控制、互斥业务控制,用户邮储状态的更新等,这将提升银行客户系统的体验和智能水平。举一个实际的例子:银行业务中知识图谱中有一条知识数据,即用户同时办理了业务A和业务B,而实际上,办理业务A和办理业务B两者之间存在一种互斥关系,那么则可以通过两个业务办理的先后顺序,更新用户的业务知识信息,将办理业务B这条知识进行移除。类似的例子还有很多。

    5、基于事理图谱的推理与辅助决策
    知识推理是知识图谱的终极目标,基于过去已知知识进行知识推理,采用如事件驱动传导路径等进行知识发现,能够在业务的推理和辅助决策上也能带来一定帮助,如智能投研中的未知风险预警、公司舆论控制等,如图19展示了我们目前开发形成的事件驱动工具,通过人工自定义构造传导链,进行既定模式检索,可以完成对既定知识逻辑路线的发现与探索。


    图19-基于传统知识图谱的事件驱动推理demo
    以上图中描述的“寻迹”模式进行逻辑链条传导的方式不同,基于事理图谱的事件传导中的逻辑联系更为接近于人脑中的真实逻辑链条。前者传导的路径存在着一个基本型的假设,即知识与知识之间的属性或关系通过人工方式强制地进行映射和编制,其中有个十分明显的缺陷就是传导边上的逻辑概率量化问题。

     

     

    “事理图谱”的出现,则从事件状态的逻辑转移上为这种推理机制提供了一个新的方向。如图20所示的demo所示,用户输入一个事件点击提交之后,运用事件规范化和事件相似性计算等方法,我们会在后台400万个事理图谱找到一个与用户输入事件最为相似的一个事件,以该事件为核心会返回多条相似事件所造成的影响事件。针对影响事件,我们运用事件重要性判定技术和事件实体链接技术对影响事件进行过滤,使得造成的事件中一定是某种商品或者公司的类似事件,这种方式能够就用户给定的事件,给出一个最为直接了当的标的结果。图20中展示了以“螺纹钢价格上涨”为核心的因果逻辑传导推理链条,在经过不断进行链条的推理扩展之后,步步推理至各类实体事件后最终产生的结果图。从一度推理的“螺纹钢价格上涨”导致废钢库存小幅减少,到小麦期货小幅收低等多层推理结果等,能够在一定程度上描绘出整个逻辑链条的传导机制。

     

    转载于:https://www.cnblogs.com/chenyusheng0803/p/11571931.html

    展开全文
  • 事理图谱——工业实践总结

    千次阅读 2019-01-02 00:04:12
    从工业应用角度解析事理图谱 ** 知乎链接: https://zhuanlan.zhihu.com/p/53699796 近期看了很多关于事理图谱的文章,大都是从学术方面进行的论述,正好也一直在做这方面的工作,想从工业界应用的角度总结一下,...
  • 2019-07-20 首届事理图谱研讨会,事理知识图谱(Eventic graph,EG,来源于哈工大赛尔网络团队命名)可视为新一代的知识图谱(KG),首届EG的召开具有重要的学术意义,以下附上该研讨会上的所有PPT。
  • 在做因果关系的时候看到了事理图谱,因此就整理一点关于这方面的资料。仅仅是稍微整理了一下。还有很多东西正在补全。 未完待续。
  • 从知识图谱(KG)到事理图谱(EEG),这个report可视为从EEG概念化的开山之作,非常具有研究价值。感谢哈工大教授在这个领域上的开凿工作。
  • 事理图谱资料小结1.0

    2019-12-13 18:11:44
    事理图谱资料小结1.0 有关论文和博客 研究综述|事件抽取及推理(下) GGNN: GATED GRAPH SEQUENCE NEURAL NETWORKS Event2Mind: Commonsense Inference on Events, Intents, and Reactions Integrating Order ...
  • 事理图谱,顾名思义,是以事件为节点,事件间的关系为边的图谱网络。 与知识图谱中实体及关系大多是稳定的不同,事理图谱中关系大多是不确定的,以一定的概率进行转移。 人类的命题记忆是以“事件”为存储单位的,...
  • 2016年7月,哈工大社会计算与信息检索研究中心(HIT-SCIR)开始启动事理图谱的研究工作。2017年10月,研究中心主任刘挺教授在中国计算机大会(CNCC)上正式提出事理图谱的概念。2018年9月,在研究中心丁效老师的主持...
  • 事件及其在时间、空间上相继发生的演化规律和模式这一动态知识在知识图谱中记录得不充分,为了弥补这一不足,事理图谱应运而生,其节点表示事件,有向边表示事件之间的演化关系。它能够揭示事件的发展逻辑,刻画和...
  • 以事件为描述核心,以揭示事件之间的演化逻辑关系的事理图谱自提出后,引起了工业界的极大兴趣,在积极探索事理图谱本质、事理图谱构建技术细节的同时,如何找到技术与应用场景之间的结合成为目前广泛讨论的问题。...
  • 事件、事件抽取与事理图谱

    万次阅读 2019-01-04 23:06:04
    事件、事件抽取与事理图谱 &amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;人类社会是一个静态事物进行动态活动所创造形成的世界,人类的命题记忆是以“事件”为存储单位的,存储的是组成事件的概念及其...
  • 从2018年4月份开始做所谓的“事理图谱”以来至今,磕磕碰碰,做了很多技术上的尝试,也不乏在应用事理图谱上尝试了多种做法,也不乏写了几篇关于事理图谱的文章(实际有未想明白之处)。现在写个阶段性的总结,以对...
  • 如何看待事理图谱版magi–“学迹” 看到界面和功能都似乎很相似,除了magi更通用一些,这个系统更专注“事件”这个领域,请问两者的区别是什么?或者说这个系统就是利用magi背后的技术做的? @zhangmianhongni ...
  • 版权声明:本文为博主原创文章,...事件、事件抽取与事理图谱 人类社会是一个静态事物进行动态活动所创造形成的世界,人类的命题记忆是以“事件”为存储单位的,存储的是组成事件的概念及其之间的关系以及事件及...
  • 为了揭示事件的演化规律和发展逻辑,本文提出了事理图谱的概念,作为对人类行为活动的直接刻画。在图结构上,与马尔科夫逻辑网络(无向图)、贝叶斯网络(有向无环图)不同,事理图谱是一个有向有环图。现实世界中事...
  • <div><p>感觉两者可以结合,而且必须结合,这才是类似人类记忆的模式?</p><p>该提问来源于开源项目:liuhuanyong/ComplexEventExtraction</p></div>
  • 事理图谱-介绍

    2019-09-28 12:31:02
    一、 认知智能 和 知识图谱 认知智能的核心在于机器的辨识、思考以及主动学习。其中,辨识指能够基于掌握的知识进行识别、判断、感知,思考强调机器能够运用知识进行推理和决策,主动学习突出机器进行知识运用和...
  • 目前,事理图谱在描述领域事件时空信息上具有独特性,这种逻辑图结构能够以一种直观的方式向我们展现出一个领域知识的链路信息。从学术的角度上来说,事理图谱与事件抽取、事件关系抽取、脚本学习、事件链生成、篇章...
  • 目前,“事理图谱”还是较新的概念,国内多家公司和科研机构都在“事理图谱”的相关研究上进行了探索,如哈尔滨工业大学信息检索实验室刘挺老师团队首先提出了“事理图谱”这一概念,并做了一些实验和基础性的工作[1...
  • 如何从零开始搭建知识图谱? 众米童心 百家号07-0223:43 1. 概论 随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。如果说...
  • 我们的实践:事理图谱,下一代知识图谱

    万次阅读 多人点赞 2018-12-25 14:19:05
    目前,“事理图谱”还是较新的概念,国内多家公司和科研机构都在“事理图谱”的相关研究上进行了探索,如哈尔滨工业大学信息检索实验室刘挺老师团队首先提出了“事理图谱”这一概念,并做了一些实验和基础性的工作[1...
  • chinese compound event extraction,中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。 项目地址:https://github.com/liuhuanyong/ComplexEventExtraction 关于项目 ...

空空如也

空空如也

1 2 3 4 5
收藏数 84
精华内容 33
关键字:

事理图谱