精华内容
下载资源
问答
  • 信息知识、情报、文献之间的关系 信息信息是一种十分广泛的概念,它在自然界、人类社会以及人类思维活动中普遍存在。 是人对客观事物属性以及运动状态的感知。 包括了知识和情报,是知识和情报的载体, 信息经过...

    信息、知识、情报、文献之间的关系

    信息:信息是一种十分广泛的概念,它在自然界、人类社会以及人类思维活动中普遍存在。
    人对客观事物属性以及运动状态的感知
    包括了知识和情报,是知识和情报的载体
    信息经过提炼和加工可以成为知识。

    知识:知识是信息的一部分
    知识是信息和文献内核,是信息中的精华部分
    知识是人类社会实践经验和认识的总结
    是人的主观世界的概括和反映
    人类不仅通过信息感知世界,认识和改造世界,而且要将所获得的部分信息升华为知识。

    情报:知识必须经过传递才能成为情报,是传递者有特定效用的知识。

    文献:文献不仅是情报传递主要物质形式可提供信息、知识和情报
    同时,也是吸收利用情报的主要手段,是信息检索的对象。
    文献是用相关技术手段记录人类知识的一种载体。

    数据、信息、知识和情报之间的关系:

    (1)转化关系:数据不会自动变成信息,信息不会自动变成知识,数据信息知识不会自动变成情报。实现转化关系的关键因素是(组织、管理)。

    (2)包含关系:信息存在于三个世界之中(主观世界,客观的物理世界,客观的概念世界),知识和情报存在于主观世界和客观的概念世界。

    (3)层次关系:从数据提升到信息,主要是对数据之间建立相关性,使其有序化和结构化,从信息提升到知识,主要根据信息的相关性和有序性进行比较、分析、综合和概括,从中发现问题的本质。从数据、信息、知识提升到情报,主要是采取各种有效的手段和方法激活它们

    示例

    气温计上的温度显示“今天的最低气温是10℃”,“10℃”是数据;
    “**表达”**的却是信息,
    水在0℃结冰”是知识;
    今年冬天的平均气温非常低,将会造成燃料短缺”是情报。

    总之,知识是信息的一部分,情报是知识的一部分,文献是知识的一种载体。知识是系统化,精炼化的信息;文献不仅是情报传递的主要物质形式,还是吸收利用情报的主要手段。文献是静态的(固态的),记录的知识;情报是动态的,传递的知识。

    展开全文
  • 关于生物医学实体(biomedical entities,比如 drugs 与 targets)之间关系知识广泛分布在3000多万篇研究文章中,并一直在生物医学科学的发展中发挥着重要作用。在这项工作中,作者提出了一个新框架BERE,用于自动...

    fig1

    背景概述与方法概述

    背景概述

    关于生物医学实体(biomedical entities,比如 drugs 与 targets)之间关系的知识广泛分布在3000多万篇研究文章中,并一直在生物医学科学的发展中发挥着重要作用。在这项工作中,作者提出了一个新框架BERE,用于自动提取大规模文献库中的生物医学关系。BERE使用混合编码网络从语义和句法两个方面更好地表示每个句子,并使用特征聚合网络在考虑所有相关语句后进行预测。实验证明,BERE在生物医学关系提取方面表现良好,并可以发现现有数据库中没有发现的关系,从而指导和推进生物知识的发现。

    知识库(来源于生物医药学中的语料库)在生物医学的发展中起着重要的作用。大多数结构化数据库,比如DrugBank,CTD,SIDER,BioGRID,都是从人类专家大量的科学文章中整理出来的。生物医药的信息抽取(infromation extraction)目标是从大量非结构化文本中提取有意义的事实。在此之后,提取的数据可以被输入到下游任务,从而促进生物知识的发现过程。

    生物医学研究人员最关心的信息一般分为三类:

    • 生物医学实体,在NLP中,生物医学实体识别对应命名体识别任务,属于语义分析的应用,进一步,将识别结果链接到知识图谱中的实体,这被称为实体链接
    • 关系Relation(实体之间的交互或关联),关系提取对应NLP中的关系抽取Relation Extraction
    • 事件(至少与一个实体相关的重要事实或发现),事件提取对应NLP中的事件抽取任务Event Extraction,事件在文本中由触发词Trigger定义

    以上三个应用任务均属于NLP中的信息抽取任务


    在该篇论文的工作中,作者主要关注第二类信息:句子中描述的实体之间的生物医学关系,比如药物药物相互作用(DDI),药物靶标相互作用(DTI)。DDI的预测为预防药物不良反应(adverse drug reactions,ADRs)提供了有效途径。DTI的预测是药物重新定位的关键步骤,目的是寻找现有药物的新靶点(novel targets of existing drugs)。而基于机器学习的DDI和DTI模型均建立在结构化的关系数据上,随着NLP的发展,自动生物医学关系提取技术(BioRE)已经被用于加速关系信息的提取,以获得结构化的关系信息。

    BioRE的任务通常被表述为在关系注释文本的监督下,从一组句子(bag of sentences)中对大量实体之间的关系进行分类。然而,收集这种带标签的文本很费力,因此提出远距离监督(distant supervised),即所有涉及到同一对实体的句子都用知识库中已标注的关系进行标记,从而扩展数据集。

    基于神经网络的模型通常使用CNN,RNN学习句子的语义表示,但却忽略了句子的句法特征。相比之下,考虑句子成分解析树(将单词组织成嵌套短语的一种组成结构)的递归神经网络RvNN能取得更好的预测效果。但是基于递归神经网络的策略存在关键缺点:依赖外部解析器解析句子,变化的树结构与小批量训练不兼容。近年来,自注意力机制在图像识别(智能感知)和机器翻译(智能认知)领域取得了瞩目的表现,主要在于捕捉远程依赖(long-range dependencies)方面的优势。

    方法概述 Overview of BERE

    基于上述工作,作者提出一种新的机器学习框架BERE,用于从大规模生物医学文献库中自动提取生物医学实体之间的关系。BERE利用自动树学习和自注意力机制充分挖掘句子内部的语义和句法(树结构负责),以及单词之间的短期和长期依赖关系(注意力机制负责)。BERE采用远距离监督方法,减少了人工注释的成本,通过对单句注释的DDI数据集和远距离监督的DTI数据集的测试,证明了论文所提出的BERE在生物医学关系提取方面的优势。

    BERE架构如图a所示。给一对在一组句子中共同提到的实体组合(Entity1,Entity2),BERE首先将句子的单词embedding(word embedding)和词性embedding(part-of-speech,POS embedding)连接,表示句子中的每个单词(也称为单词向量,word vector)。然后,每个词向量被输入自注意力层,以捕获远程依赖关系,通过残差连接将其添加回原始词向量。

    BERE使用双向GRU编码每个单词的局部上下文特征,随后接一个 Gumbel Tree-GRU,用greedy-based策略在所有可行方案(红色边标记)中找到最优组合方案(绿色边标记)。图b给出了 Gumbel Tree-GRU中的一个操作示例。Gumbel Tree-GRU用于自动挖掘解析树,严格意义上,该解析树为短语结构句法树。

    在第 t t t步,句子被表示为4个向量的序列(分别表示为"Entity1"、“correlation”、“with"和"Entity2”),下一步,所有相邻向量通过一个共享的Tree-GRU单元进行组合,得到三个候选向量,然后通过一个评分函数进行打分。在步骤 t + 1 t+1 t+1中,选择得分最高的候选向量(即"correlation with")。其他向量直接从步骤 t t t复制(即"Entity1"和"Entity2")。当所有的单词组成一个向量时,最终得到的向量基本上是整个句子的特征表示。为了捕捉目标实体之间的关联,BERE进一步将实体的上下文特征嵌入到句子表示中。最后,BERE使用基于注意力的句子聚合方案计算句子组(bag of sentences),输入分类器获得Entity1和Entity2的关系。
    fig2

    结果与讨论

    在单句注释的DDI数据集上测试

    作者在单句注释的DDI数据集(DDI’13 dataset)上进行了广泛的测试,将BERE的性能与其他六种最先进的DDI关系提取方法的性能进行比较。训练了每个模型,将句子中提到的一对药物之间的关系分类为5种DDI类型:

    {
        "NA": 0,
        "advise": 1,
        "effect": 2,
        "mechanism": 3,
        "int": 4
    }
    

    并使用 F1 score 评估性能: 2 P R / ( P + R ) 2PR/(P+R) 2PR/(P+R),其中, P P P表示 precision, R R R表示 recall。

    为了实现批量计算,对每个句子进行填充和裁剪,将每个句子的长度固定为60个单词,这比数据集中85%的句子都长,目的是为了取得效率与准确性之间的平衡。在输入表示之后与分类器之前应用Dropout缓解过拟合。Table1显示了DDI提取的性能(关系识别的准确率),BERE优于所有的baseline,与RvNN相比,BERE不需要外部的解析工具构造解析树,能够端到端(不依赖人工设计的特征或外部工具)地学习解析句子。
    fig3

    在远程监督的DTI数据集上进行测试

    为了更好验证BERE在远程监督数据集上的有效性,我们在一个远程监督DTI数据集上,将BERE与其他具有代表性的基于远程监督的RE方法进行比较,其中每个药物-靶标关系都由一组语句支持。在所有的beseline中,PCNN-AVE和PCNN-ATT采用相似的基于CNN的方式对句子编码,但采用了不同的句子聚合策略(前者为平均策略,后者引入注意力策略)。类似的,BiGRU-ATT和BiGRU-2ATT都基于双向GRU,但是BiGRU-2ATT使用了额外空间下的注意力。作者训练每个模型,用于分类药物-靶标之间的关系(6个类型),使用precision-recall曲线衡量各个模型的表现,并计算precision-recall的面积AUPRC以及F1 score。
    fig4
    上图a是BERE和其他先进方法之间的precision-recall比较。图b是BERE构建的解析树示例,对于句子:“Irinotecan toxicity correlates with UGT1A1 activity”,Irinotecan是一种药物,UGT1A1是靶标;对于句子:“Moexipril is a new, long-acting angiotensin-converting enzyme inhibitor”,moexipril是一种药物,angiotensin-converting enzyme是靶标。图b证明了BERE可以像人类一样解析句子。

    Discussion

    在这项工作中,作者提出了BERE,一个新的机器学习框架,可以自动实现从非结构化的生物医学文献中抽取关系。BERE通过内部的Gumbel Tree-GRU分析句子(构建句法分析中的短语结构句法树),利用BiGRU和自注意力机制捕捉短期和长期依赖关系,将实体的局部上下文特征融入句子编码中,可以从语义和句法两方面充分利用句子信息。虽然这种混合特征表示方法可能会给模型带来更多的复杂性,但所产生的开销主要是训练时间的增加。一旦BERE得到良好的训练,就可以使用它从广泛分布的文本中快速提取对应关系。

    总之,BERE对现有的单句注释DDI数据集,远程监督DTI数据集进行测试,实验表现证明BERE在生物医学文本的关系提取中具有很大优势。

    展开全文
  • 知识图谱(Knowledge Graph)之综述理解

    千次阅读 2019-12-13 14:54:29
    知识图谱提技术提供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。因此,建立一个具有语义处理能力与开放互联能力的知识库,可以在智能搜索、智能问答、个性...
    注:该博文是我在看了数篇知识图谱综述以及阅读了相关资料后的一个总结以及自己的相关理解。
    

    知识图谱技术是人工智能技术的重要组成部分,以结构化的方式描述客观世界中的概念、实体及其键的关系。知识图谱提技术提供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。因此,建立一个具有语义处理能力与开放互联能力的知识库,可以在智能搜索、智能问答、个性化推荐等智能信息服务重产生应用价值。
     

    本文的主要内容如下

    目录

    知识图谱的研究背景及其意义

    知识图谱的发展

    知识图谱的定义

    知识图谱的架构

    大规模知识库

    知识图谱关键技术

    知识图谱的典型应用

    知识图谱的问题与挑战

    知识抽取

     知识表示

     知识融合

     知识加工

     知识更新

     知识应用

     其他

    总结

    参考文献


    知识图谱的研究背景及其意义

    单单从字面上理解,知识图谱应该是一种更加结构化(主要是基于图)的知识库,将散乱的知识有效的组织起来,方便人们的查阅,而不是之前那样一堆文在摆在眼前,没有一目了然的赶脚,哈哈哈。所以,很容易想到,知识图谱的产生背景就是,第一方面互联网信息的暴增,以及信息的杂乱无章,第一个意义就是为了人们更加快速有效的检索某一信息。,第二方面,随着现在科学技术的进步与发展,很多先进技术都应运而生(比如深度学习),人们期望机器像人一样可以去理解海量的网络信息,期望可以更快、准确、智能的获取到自己需要的信息,为了满足这种需求,智能化的知识图谱应运而生,其研究意义还是在于方便人类!(有木有发现,几乎所有的研究意义都是这四个字呐)(在这里我只是用一种简单理解的方式来表达,当然还有更多的研究意义,只不过知识图谱刚刚开始火热起来的时候,就是应用在信息检索方面。为了容易理解以及方便记忆,记住这个就ok了)
       一般情况下研究背景就体现了研究意义。以下是官网语言描述,非完美主义者可以跳过这些繁琐的文字表达,哈哈哈。
       伴随着web技术的不断演进与发展,人类先后经历了以文档互联为主要特征的“web 1.0”时代,以数据互联为特征的“web 2.0”时代,正在迈向基于知识互联的崭新“Web 3.0”时代。

    知识互联网的目标是构建一个人与机器都可以理解的万维网,使得人们的网络更加智能化。然而,由于万维网上的内容多源一直,组织结构松散,给大数据环境下的知识互联带来了极大的挑战。因此,人们需要根据大数据环境下的知识组织原则,从新的视角去探索既符合网络信息资源发展变化又能适应用户人之需求的知识互联方法,从更深层次上揭示人类认知的整体性关联性。知识图谱以其强大的语义处理能力与开放互联能力,使web 3.0提出的“知识之网”远景成为了可能。
       进入21世纪,随着互联网的蓬勃发展以及知识的爆炸式增长,搜索引擎被广泛使用。传统的搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率。然而,这种网页检索效率并不意味这用户能够快速准确的获取信息和知识,对于搜索引擎返回的大量结果还需要进行人工排查和筛选。面对互联网上不断增加的海量信息,网页检索方式(仅包含网页和网页之间链接的传统文档)已经不能满足人们迅速获取所需信息和全面掌握信息资源的需求。为了满足这种需求,知识图谱技术应运而生。它们力求通过将知识进行更加有序、有机的组织起来,使用户可以更加快速、准确地访问自己需要的知识信息,并进行一定的知识挖局和智能决策。从机构知识库到互联网搜索引擎,近年来不少学者和机构纷纷在知识图谱上深入研究,希望以这种更加清晰、动态的方式(注:知识图谱一定是动态的,不断更新的,不是静止的,不然,就是去了其真正的意义)展现各种概念之间的联系,实现


    知识图谱的发展

    0世纪中叶,普莱斯等人提出使用引文网络来研究当代科学发展的脉络的方法,首次提出了知识图谱的概念。(注意:这里的知识图谱和本博文主要介绍的知识图谱不太一样,在此是指Mapping Knowledge Domain,而本博文主要介绍的知识图谱是指Knowledge Graph)1977年,知识工程的概念在第五届国际人工智能大会上被提出,以专家系统为代表的知识库系统开始被广泛研究和应用,直到20世纪90年代,机构知识库的概念被提出,自此关于知识表示、知识组织的研究工作开始深入开展起来。机构知识库系统被广泛应用于各科研机构和单位内部的资料整合以及对外宣传工作。2012年11月Google公司率先提出知识图谱(Knowledge Graph,KG)的概念,表示将在其搜索结果中加入知识图谱的功能。其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。据2015年1月统计的数据,Google 构建的KG已经拥有5亿个实体,约35亿条实体关系信息,已经被广泛应用于提高搜索引擎的搜索质量。虽然知识图谱(Knowledge Graph)的概念较新,但它并非是一个全新的研究领域,早在2006年,Berners Lee就提出了数据链接(linked data)的思想,呼吁推广和完善相关的技术标准如URI(Uniform resource identifier),RDF(resource discription framework),OWL(Web ontology language),为迎接语义网络的到来做好准备。随后掀起了一场语义网络研究的热潮,知识图谱技术正是建立在相关的研究成果之上的,是对现有语义网络技术的一次扬弃和升华。
     

    知识图谱的定义

    在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。可作如下定义:


    知识图谱 :是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体 关系 实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。


    在此,知识图谱包含三层含义:

    1.  知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库.从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边.由此,知识图谱是对物理世界的一种符号表达 .
    2.  知识图谱的研究价值在于,它是构建在当前Web基础之上的一层覆盖网络(overlay network),借助知识图谱,能够在Web网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,成为可以被利用的知识。
    3.  知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来。

    知识图谱的架构

    在此主要给出几个常见的知识图谱架构图,这几个图大同小异,通过看图可以一目了然的理解,免去了文字的繁琐介绍。

    知识图谱架构主要部分:
    - 知识抽取(包括实体抽取、关系抽取以及属性抽取等)
    - 知识融合(包括实体消岐等)
    - 知识加工(包括本体构架、知识推理等)
    - 知识更新

    大规模知识库

    具体的可以参加下图:

    知识图谱关键技术

    这一部分是本文的重点,前面都是需要基本了解的知识图谱基础知识,这一部分是核心也是主要的研究问题。其实知识图谱的关键技术主要是围绕着建立一个高质量的知识图谱所展开讨论的。在此主要是一个简单的总结,便于大家的理解与记忆。

    • 知识抽取(或者信息抽取)
    1.  实体抽取
    2.  关系抽取
    3.  属性抽取(实质上属性抽取也可以看作是关系抽去)

    • 知识融合

     实体连接

    1. 实体消岐–专门用于解决同名实体产生歧义问题的技术。实体消岐主要采用聚类的方法,聚类法消歧的关键问题是如何定义实体对象与指称项之间的相似度,常用的方法有:《1》空间向量模型(词袋模型)《2》语义模型(与空间向量模型相似,不同的地方在于语义模型不仅包含词袋向量,而且包含一部分语义特征)《3》社会网络模型(该模型的基本假设是物以类聚人以群分,在社会化环境中,实体指称项的意义在很大程度上是由与其相关联的实体所决定的)《4》百科知识模型(百科类网站通常会为每个实体分配一个单独页面,其中包括指向其他实体页面的连接,百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度)
    2. 实体对齐–主要用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识库。对齐算法可以分为成对实体对齐和集体实体对齐,而集体实体对齐又可以分为局部集体实体对齐和全局集体实体对齐。成对实体对齐:《1》基于传统概率模型的实体对齐方法。《2》基于机器学习的实体对齐方法。局部实体对齐方法:局部实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可以使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度,算法为每个实体建立了名称向量与虚拟文档向量,名称向量用于标识实体的属性,虚拟文档向量则用于表示实体的属性值以及其邻居节点的属性值的加权和值。全局集体实体对齐方法:《1》基于相似性传播的集体实体对齐方法。《2》基于概率模型的集体实体对齐方法

    实体链接技术也可以从整体层面分类如下:

    知识合并

    • 合并外部知识库—将外部知识库融合到本地知识库需要处理2个层面的问题。《1》数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余。《2》通过模式层的融合,将新得到的本体融入已有的本体库中。
    • 合并关系数据库—在知识图谱的构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。业界和学术界将这一数据转换过程形象的称为RDB2RDF,其实质就是将关系数据库的数据转换成RDF的三元组数据。
       

    知识加工

    • 本体构建—本体的最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识。本体是同一领域内不同主体之间进行交流的语义基础,本体是树状结构,相邻层次的节点(概念)之间具有严格的“IsA”关系,这种单纯的关系有利于知识推理却不利于表达概念的多样性。本体的构建可以采用人工编辑的方式手动构建(借助于本体编辑软件),也可以采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。除了数据驱动的方法,还可以采用跨语言知识链接的方法来构建本体库。对当前本体生成方法的主要研究工作主要集中在实体聚类方法,主要挑战在于经过信息抽取得到的实体描述非常简短,缺乏必要的上下文信息,导致多数统计模型不可用。(可以利用主题进行层次聚类)。
    • 知识推理—知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络,知识推理是知识图谱构建的重要手段和关键环节,通过知识推理,能够从现有知识中发现新的知识。知识推理的方法如下图:
    • 质量评估—对知识库的质量评估任务通常是与实体对齐任务一起进行的,其意义在于,可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效保证知识的质量。
       

    知识更新
    人类所拥有信息和知识量都是时间的单调递增的函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程。从逻辑上看,只是哭的更新包括概念层更新和数据层更新。知识图谱内容的更新有两种方式:数据驱动下的全面更新和增量更新。
     知识表示
    虽然三元组的知识表示形式受到了人们的广泛认可,但是其在计算效率、数据稀疏性等方面却面临着诸多问题。近年来,以深度学习为代表的学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维的实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。分布式表示旨在用一个综合的向量来表示实体对象的语义信息,是一种模仿人脑工作的表示机制,通过知识表示而得到的分布式表示形式在知识图谱的计算、补全、推理等方面起到重要的作用:语义相似度计算、链接预测(又被称为知识图谱补全)等代表模型如下所示:
     

    • 距离模型

    首先将实体用向量进行表示,然后通过关系矩阵将实体投影到与实体向量同一纬度的向量空间中,最后通过计算投影向量之间的距离来判断实体间已经存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵,故实体间的协同性较差,这也是该模型本身的主要缺陷。

    • 单层神经网络

    针对距离模型的缺陷,提出了采用单层神经网络的非线性模型(single layer model,SLM)。单层神经网络模型的非线性操作虽然能够进一步刻画实体在关系下的语义相关性,但是在计算开销上却大大增加。

    • 双线性模型

    双线性模型又叫隐变量模型(latent factor model,LFM)。双线性模型主要是通过基于实体间关系的双线性变换来刻画实体在关系下的语义相关性,模型不仅形式简单、易于计算,而且能够有效刻画实体间的协同性。

    • 神经张量模型

    其基本思想是,在不同维度下,将实体联系起来,表示实体间复杂的语义联系。神经张量模型在构建实体的向量表示时,是将该实体中的所有单词的向量取平均值,这样一方面可以重复使用单词向量构建实体,另一方面将有利于增强低维向量的稠密程度以及实体与关系的语义计算。

    • 矩阵分解模型

    通过矩阵分解的方式可以得到低维的向量表示,故不少研究者提出可以采用该方式进行知识表示学习,其中典型的代表是RESACL模型。

    知识图谱的典型应用

    知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。

    •  智能搜索
    •  深度问答
    •  社交网络
    •  个性化推荐
    •  垂直行业应用,例如 金融行业、医疗行业、电商行业以及教育行业等等。

    知识图谱的问题与挑战

    知识抽取


    知识抽取是知识图谱组织构建、进行问答检索的主要任务,对于深层语义的理解以及处理具有重要的意义。一些传统的知识元素(实体、关系、属性)抽取技术与方法,它们在限定领域、主题的数据集上获得了较好的效果,但由于制约条件较多,算法准确性和召回率低,方法的可扩展能力不够强,未能很好地适应大规模、领域独立、高效的开放式信息抽取要求。 目前,基于大规开放域的知识抽取研究仍处于起步阶段,尚需研究者努力去攻关开垦。主要问题包括实体抽取、关系抽取以及属性抽取。其中,多语种、开放领域的纯文本信息抽取问题是当前面临的重要挑战。
    KnowItAll、TextRunner、WOE、ReVerb、R2A2、KPAKEN这些系统已为开放域环境下,实体关系抽取中的二元关系抽取、n元关系抽取发展开创了先河,具有广阔的研究前景。再者,对于隐含关系的抽取,目前主流的开放式信息抽取方法性能低下或尚无法实现。因此,以马尔可夫逻辑网、本体推理的联合推理方法将成为学术界的研究热点。 联合推理方法不仅能够推断文本语料所不能显示的深层隐含信息,还能够综合信息抽取各阶段的子任务,像杠杆一样在各方面之间寻求平衡,以趋向整体向上的理想效果,为大规模开放域下的知识抽取提供了一种新的思路。除上述外,跨语言的知识抽取方法也成为了当前的研究热点,对于我国的研究者而言,更应发挥自身在中文信息处理方面的天然优势,面对挑战与机遇,做出应有的贡献。


     知识表示


    目前存在的表示方式仍是基于三元组形式完成的语义映射,在面对复杂的知识类型、多源融合的信息时,其表达能力仍然有限。因此有研究者提出,应针对不同的应用场景设计不同的知识表示方法。

    • 复杂关系中的知识表示

    已有的工作将知识库中的实体关系类型分为1-to-1、1-to-N、N-to-1、N-to-N这4种,这种划分方法无法直观地解释知识的本质类型特点,也无法更有针对性地表示复杂关系中的知识。 但发现分布式的知识表示方法来源于认知科学,具有灵活的可扩展能力。基于上述,对认知科学领域人类知识类型的探索将有助于知识类型的划分、表示以及处理,是未来知识表示研究的重要发展方向。

    • 多源信息融合中的知识表示

    **对于多源信息融合中的知识表示研究尚处于起步阶段,涉及的信息来源也极为有限,已有的少数工作都是围绕文本与知识库的融合而展开的。**另外,已有文献将注意力转向面向关系表示的多源信息融合领域,并已在CNN上进行了一定的实现。在知识融合表示中,融合是最关键的前期步骤,如能有机的融合多源异质的实体、关系等信息,将有利于进一步提升知识表示模型的区分能力以及性能。基于实体的、关系的、Web文本的、多知识库的融合均具有较为广阔的研究前景。


     知识融合


    知识融合对于知识图谱的构建、表示均具有重要的意义。实体对齐 是知识融合中的关键步骤,虽然相关研究已取得了丰硕的成果,但仍有广阔的发展空间,如下:

    • 并行与分布式算法

    大规模的知识库不仅蕴含了海量的知识,其结构、数据特征也极其复杂,这些对知识库实体对齐算法的准确率、执行效率提出了一定的挑战。目前,不少研究者正着力研究对齐算法的并行化或分布式版本,在兼顾算法准确率与召回率的同时,将进一步利用并行编程环境MPI,分布式计算框架Hadoop、Spark等平台,提升知识库对齐的整体效果。

    • 众包算法

    人机结合的众包算法可以有效地提高知识融合的质量。众包算法的设计讲求数据量、知识库对齐质量以及人工标注三者的权衡。将众包平台与知识库对齐模型有机结合起来,并且能够有效判别人工标注的质量,这些均具有较为广阔的研究前景。

    • 跨语言知识库对齐

    多语言的知识库越来越多,多语言知识库的互补能力将为知识图谱在多语言搜索、问答、翻译等领域的实际应用提供更多的可能。 文献已在这方面取得了一定的进展,但知识库对齐的质量不高,这方面仍有广阔的研究空间。

    综之,主要的研究问题包括开放域条件下的实体消歧、共指消解、外部知识库融合和关系数据库知识融合等问题.当前受到学术界普遍关注的问题是如何在上下文信息受限(短文本、跨语境、跨领域等)条件下,准确地将从文本中抽取得到的实体正确链接到知识库中对应的实体.

     知识加工


    知识加工是最具特色的知识图谱技术,同时也是该领域最大的挑战之所在.主要的研究问题包括:本体的自动构建、知识推理技术、知识质量评估手段以及推理技术的应用.目前,本体构建问题的研究焦点是聚类问题,对知识质量评估问题的研究则主要关注建立完善的质量评估技术标准和指标体系.知识推理的方法和应用研究是当前该领域最为困难,同时也是最为吸引人的问题,需要突破现有技术和思维方式的限制,知识推理技术的创新也将对知识图谱的应用产生深远影响.


     知识更新


    在知识更新环节, 增量更新技术是未来的发展方向,然而现有的知识更新技术严重依赖人工干预.可以预见随着知识图谱的不断积累,依靠人工制定更新规则和逐条检视的旧模式将会逐步降低比重,自动化程度将不断提高,如何确保自动化更新的有效性,是该领域面临的又一重大挑战


     知识应用


    目前,大规模知识图谱的应用场景和方式还比较有限,其在智能搜索、深度问答、社交网络以及其他行业中的使用也**只是处于初级阶段,**仍具有广阔的可扩展空间。人们在挖掘需求、探索知识图谱的应用场景时,应充分考虑知识图谱的以下优势:1) 对海量、异构、动态的半结构化、非结构化数据的有效组织与表达能力;2) 依托于强大知识库的深度知识推理能力;3) 与深度学习、类脑科学等领域相结合,逐步扩展的认知能力。 在对知识图谱技术有丰富积累的基础上,敏锐的感知人们的需求,可为大规模知识图谱的应用找到更宽广、更合适的应用之道。


     其他


    最具基础研究价值的挑战是如何解决知识的表达、存储与查询问题,这个问题将伴随知识图谱技术发展的始终,对该问题的解决将反过来影响前面提出的挑战和关键问题.当前的知识图谱主要采用图数据库进行存储,在受益于图数据库带来的查询效率的同时,也失去了关系型数据库的优点,如SQL语言支持和集合查询效率等.在查询方面,如何处理自然语言查询,对其进行分析推理,翻译成知识图谱可理解的查询表达式以及等价表达式等也都是知识图谱应用需解决的关键问题.
     

    总结


    知识图谱的重要性不仅在于它是一个全局知识库,是支撑智能搜索和深度问答等智能应用的基础,而且在于它是一把钥匙,能够打开人类的知识宝库,为许多相关学科领域开启新的发展机会。 从这个意义上看来,知识图谱不仅是一项技术,更是一项战略资产。本文的主要目的就是介绍和宣传这项技术,希望吸引更多的人重视和投入这项研究工作。
     

    参考文献

    1. 2016- 知识图谱技术综述_徐增林.
    2. 2016-知识图谱构建技术综述_刘峤
    3. https://blog.csdn.net/u010626937/article/details/88106081

     

     

     

     

     

     

    https://blog.csdn.net/u010626937/article/details/88106081

    展开全文
  • 每条边都表示为形式 (头实体、关系、尾实体) 的个部分,也称为事实,表示两个实体通过特定的关系连接在一起。虽然在表示结构化数据方面很有效,但是这类三元组的底层符号特性通常使 KGs 很难操作。为了解决这个...

    知识图谱嵌入

    知识图谱(KG)是由实体 (节点) 和关系 (不同类型的边) 组成的多关系图。每条边都表示为形式 (头实体、关系、尾实体) 的三个部分,也称为事实,表示两个实体通过特定的关系连接在一起。虽然在表示结构化数据方面很有效,但是这类三元组的底层符号特性通常使 KGs 很难操作。为了解决这个问题,提出了一种新的研究方向——知识图谱嵌入。关键思想是嵌入 KG 的组件,包括将实体和关系转化为连续的向量空间,从而简化操作,同时保留 KG 的原有的结构。那些实体和关系嵌入能进一步应用于各种任务中,如 KG 补全、关系提取、实体分类和实体解析。

    融合事实信息的知识图谱嵌入

    步骤:

    ①使用连续向量空间表示实体关系,关系通常被视为向量空间的运算。

    ②定义评分函数,用来测量事实的合理性。

    ③学习实体关系的表示,优化问题:最大化全局观测事实的合理性。

    有两个主要分类:

    ①平移距离模型 translational distance models 前者使用基于距离的评分函数

    ②语义匹配模型 semantic matching models 后者使用基于相似度的评分函数

    语义匹配模型

    语义匹配模型利用基于相似性的评分函数。它们通过匹配实体的潜在语义和向量空间表示中包含的关系来度量事实的可信性。

    RESCAL模型及其变体

    RESCAL模型(双线性模型)

    实体用向量表示,关系用矩阵表示。该关系矩阵对潜在因素之间的成对交互作用进行了建模。评分函数是一个双线性函数。

    DistMult模型:将关系矩阵简化为对角矩阵

    缺点:过于简化,只能处理对称的关系,这显然对于一般的KGs是不能完全适用的。

    HolE(Holographic Embeddings)

    HolE 将 RESCAL 的表达能力与 DistMult 的效率和简单性相结合。使用循环相关操作(circular correlation operation)

    ComplEx(Complex Embeddings)

    引入复数扩展DistMult,以便更好地对非对称关系进行建模,此时,实体、关系都在复数空间,非对称关系的事实可以根据涉及实体的顺序得到不同的分数。每个 ComplEx 都有一个等价的 HolE,同时,如果在嵌入上施加共轭对称,那么,HolE是ComplEx的特殊情况。

    ANALOGY模型

    ANALOGY 扩展了 RESCAL,从而进一步对实体和关系的类比属性进行建模。尽管 ANALOGY 表示关系为矩阵,这些矩阵可以同时对角化成一组稀疏的准对角矩阵。结果表明,前面介绍的 DistMult、HolE、ComplEx 等方法都可以归为 ANALOGY 的特例。

    基于神经网络的匹配

    语义匹配能量模型 (SME)

    首先将实体和关系投影到输入层中的嵌入向量,然后关系r与头尾实体分别组合至隐藏层。输出则是评分函数。SME 有两个版本:线性版本和双线性版本。

    神经张量网络模型 (NTN)

    给定一个事实,它首先将实体投影到输入层中的嵌入向量。然后,将这两个实体 h,t 由关系特有的关系张量(以及其他参数) 组合,并映射到一个非线性隐藏层。最后,一个特定于关系的线性输出层给出了评分。NTN是迄今为止最具表达能力的模型,但是参数过多,处理大型知识图谱效率较差。

    多层感知机 (MLP)

    MLP 是一种更简单的方法,在这种方法中,每个关系 (以及实体) 都是由一个向量组合而成的。给定一个事实,将嵌入向量 h、r 和 t 连接在输入层中,并映射到非线性的隐藏层。然后由线性输出层生成分数。

    神经关联模型 (NAM)

    给定一个事实,它首先将头实体的嵌入向量和输入层中的关系连接起来,在“deep”神经网络隐藏层的前馈过程之后,通过匹配最后一个隐藏层的输出和尾实体的嵌入向量来给出分数。

    语义匹配模型总结

    参考文献:Wang Q , Mao Z , Wang B , et al. Knowledge Graph Embedding: A Survey of Approaches and Applications[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, PP(99):1-1.

    展开全文
  • 知识图谱架构(Knowledge Graph)

    万次阅读 多人点赞 2020-04-07 16:10:57
    本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释。 知识图谱( Knowledge Graph)的概念由谷歌2012年正式...
  • 信息组织与检索 知识点整理 1.信息检索技术与方法 2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会有...
  • ★考核知识点: 信息与数据 附1.1.1(考核知识点解释): 计算机中信息一般有4种形态:数字、文本、声音、图像。 附1.1.2(考核知识点解释) 信息资源(Information Resources): (1)可供利用并产生效益、与...
  • 一般来说,信息法由信息资源管理法、政府信息公开法、信息保密法、大众传播法、知识产权法、网络信息法等组成,涉及宪法、法律、行政法规、部门规章、地方行政和规章在内的所有关于信息活动和信息工作的法律法规。...
  • 点上方人工智能算法与Python大数据获取更多干货在右上方···设为星标★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于 :专知【导读】知识图谱一直是学术界和工业界关注的焦...
  • 文献检索作业答案.doc

    2021-07-20 00:21:23
    3.下列正确描述信息知识、情报三者相互关系的是。(C情报是活化的知识信息)4.按照传递媒介来划分,下列哪项不属于情报的类型?(B战术情报)5.下列文献中属于一次文献的有(A会议录)。6.下列文献中属于二次文献的有(D...
  • 信息素养 文章目录: 3.1信息素养的概念 信息素质是人们能够敏锐地察觉信息需求,并能对信息进行检索、评价和有效利用的能力。 信息素养是一个综合性的概念,它包含多方面的内容: 1.要有信息意识; 2.能...
  • 4.MMKG[4] MMKG主要用于联合不同知识图谱中的不同实体和图像执行关系推理,MMKG是一个包含所有实体的数字特征和(链接到)图像的知识图谱的集合,以及对知识图谱之间的实体对齐。因此,多关系链接预测和实体匹配...
  • 文献信息检索与利用尔雅答案

    万次阅读 2020-06-26 10:52:53
    第1章 检索也有大本领 大波“干货”等着你 1【单选题】不论分类检索语言中何种分类法,都具有种构成要素,即类目、( )和注释。答案:类名 A、指南 B、类名 ...4【单选题】文献是记录有知识的()。
  • 因此,在这篇综述论文中,来自罗马第大学和阿尔伯塔大学的研究对基于嵌入的链路预测方法进行全面比较,将分析维度扩展到常见的文献范围之外。他们通过实验比较了 16 种当前 SOTA 方法的有效性和效率,考虑到了...
  • 1.牛人一(从phd到现在工作半年,发了12篇paper, 7篇first author.)我现在每天还保持读至少2-3篇的文献的习惯.读文献有不同的读法.但最重要的自己总结概括这篇文献到底说了什么,否则就是白读,读的时候好像什么都明白,...
  • 作者最近研究人物关系图谱,准备发表相关的文章,原本是用Python Networkx库绘制,但效果不太理想;故改为Gephi软件,发现其非常好看,特分享几篇文章供大家交流学习,希望对您有所帮助,尤其是引文分析、社交网络、...
  • 汇总了【100个】与计算机数学相关论文参考文献,为广大毕业生和职称推荐计算机数学方向论文参考文献,解决在校大学生不知个计算机数学参考文献怎么写等相关问题!一、计算机数学论文参考文献范文[1]“结合专业、任务...
  • 万字综述 | 一文读懂知识蒸馏

    千次阅读 多人点赞 2020-12-20 11:35:49
    知识蒸馏综述摘要知识蒸馏简介知识Response-Based KnowledgeFeature-Based KnowledgeRelation-Based Knowledge蒸馏离线蒸馏(Offline Distillation)在线蒸馏(Online Distillation)自我蒸馏(Self-Distillation)...
  • 文献检索语言

    2021-07-27 04:17:06
    检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。中文名文献检索语言含义文献信息的加工等编制的专门语言...
  • 大学生信息检索概论练习题

    千次阅读 2021-07-16 15:35:20
    4.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop 5.在CNKI平台下,“主题”检索的内容,不包含以下哪个?(作者) 6.一本印刷的检索工具,其结构大体可以分为,大部分:文...
  • 1.文献检索过程怎么写 不要步骤 有没有例子 这样直接改改就可以抄了请利用CBM检索下列题目2000年至今的文献,并请写出检索式及命中文献数1.请用“基本检索”检索下题:①干扰素发酵方面的文献②液相色谱方法测定...
  • 构建三者之间的关联关系,深入分析挖掘,面向全球科研机构及相关工作人员,提供学者、论文文献等学术信息资源检索以及面向科技文献、专利和科技新闻的语义搜索、语义分析、成果评价等知识服务。典型的知识服务包括:...
  • 试论文献检索的计算机信息管理检索语言及方法所属栏目:计算机信息管理论文发表 发布时间:2011-11-15浏览量:254吕 珂【摘 要】本文计算机信息管理论文主要阐述根据文献检索创制的人工语言的分类,简单论述了检索...
  • (许昌市技师学院 河南许昌 461000)摘 要:对于一些初学学完AutoCAD基础知识后,在绘制符合国标要求的机械工程图时依然感到无从下手.主要原因就是机械制图的基础知识掌握不足,虽然CAD软件的操作课程是机械制造专业的...
  • 联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究使用基于传统机器学习的联合模型(Joint model)来对一些有些密切联系的自然语言处理任务进行联合学习。例如实体...
  • I. 知识图谱 应用案例

    千次阅读 2020-12-27 11:14:51
    整个商业活动中由品牌商、平台运营、消费、国家机构、物流商等多角色参与。相对于网页来说,数据的产生、加工、使用、反馈控制得更加严格,约束性更强。 其次,电商数据的结构化程度相对于通用领域来说做的更好。 ...
  • 点上方蓝字人工智能算法与Python大数据获取更多干货在右上方···设为星标★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于 :机器之心如何从学术文献中挖掘规律,甚至溯源文...
  • 我是学自然科学的,平时确实需要不少外文文献,对于自然科学来讲英文文献检索首推Elsevier,Springer等。虽然这些数据库里面文献已经不算少了。但是有时还会碰到查不到的文献,而这些文献的数据库我们所在研究所或...
  • 它以商品、产品、品牌和条码为核心,构建了百亿级别的商品知识图谱,可以广泛应用于搜索、导购、平台治理、智能问答等业务,同时保持每天千万级别的恶意攻击拦截量,极大提升了消费的购物体验。 聊天机器人领域 在...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 29,914
精华内容 11,965
关键字:

信息知识文献三者关系

友情链接: wangshangshudian.rar