精华内容
下载资源
问答
  • 随着大数据时代的到来,异质信息网络自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径。因此,异质信息网络分析迅速成为数据挖掘研究和产业应用的热点。
  • 本文首先通过分析现有的相似性度量算法的优势与不足,提出了一...该算法可以度量异质信息网络中任意结点对之间的相似度,同时度量具有对称性。通过与其它度量算法在真实数据集上的实验结果的比较,验证了算法的有效性。
  • 基于异质信息网络表示学习与注意力神经网络的推荐算法.pdf
  • 针对在突发事件应急决策中,信息表述为精确数、区间数、语言术语、直觉模糊数、中智数、梯形模糊中智数等多样性的特点,同时鉴于案例推理方法的简单易用,提出一种异质信息环境下基于案例推理的应急决策方法....
  • 近年来,采用异质信息网络统一建模推荐系统中不同类型对象的复杂交互行为、丰富的用户和商品属性以及各种各样的辅助信息,不仅有效地缓解了推荐系统的数据稀疏和冷启动问题,而且具有较好的可解释性,并因此得到了...
  • 该模型将数据建模成一个异质信息网络,使用MutualRank通过直接在异质信息网络上的随机游走来更好地建模对象的权威度;使用PDRank融合各个对象的权威度及对象之间的多样性,最终能得到同时具备权威度及多样性的排序...
  • 由多种类型的实体和关系构成的异质信息网络逐渐成为社会网络分析的研究热点。作为异质信息网络的一个独特属性,元路径包含了丰富的语义信息。实际生活中的许多网络都包含带权值的链接,这使得不考虑链接上权值的传统...
  • 文章目录写在前面前两章简单阅读异质网络的基本概念基于原路径的挖掘异质网络的学习表示浅层模型基于分解的方法基于元路径的随机游走的方法基于关系的方法深度模型基于自动编码器基于生成对抗网络基于强化学习基于图...

    写在前面

    该文是针对该文章的阅读,主要关注在后三章,对后三章进行理解与扩展,并读了部分后三章所引用文章,因为前两章都是简单的基本概念,所以这里不详述。(本文是将我平常的工作记录、阅读笔记直接拷贝过来)论文链接:异质信息网络分析与应用综述(石川)

    前两章简单阅读

    • 整篇文章关注于以下几点:
      • 异质信息网络的概念
      • 异质信息网络原路径的数据挖掘方法
      • 异质信息网络的表示学习技术
      • 异质信息网络的实际应用
    • 绪论介绍了异质网络为什么出现以及异质网络出现的意义

    异质网络的基本概念

    • 信息网络;balaba
    • 异质/同质网络:节点与边的类型是否多于1
    • 网络模式:就像是知识图谱的本题,是构建异质网络所遵循的一种基本概念,或是基本规则,网络模式是类,而实际异质网络算是类的一种实现方式
    • 下面是从语义上去探索
    • 元路径:从一个类型到达另一个类型,中间会经历不少的其他类型,也会经历不少的其他边,这些是一条元路径P。而从一个具体的对象到达另外一个对象,就是该元路径P的一个实例路径p。
      • 元路径本质上抽取了异质网络的子结构
      • 其体现了路径上的丰富语义信息
      • 异质网络分析的基本语义捕捉方法
      • 其缺陷也很明显,所以应运而生升级的语义捕捉方法们
    • 受限元路径:施加约束的元路径,针对特定约束的元路径,更加具体,针对
      • 可以约束类型的属性值
      • 或者说,不是约束,而是展示
    • 加权元路径:展示关系属性值的元路径,可以说是对关系的属性值进行刻画
      • 展示关系的强弱,比元路径具有更深刻的语义
    • 元结构/元图:
      • 融合了多条原路径
      • 蕴含着更多的语义信息
    • 后面的异质网络举例就没什么好说的了,不过那些数据集我倒是觉得有点意思
    • 后面还提到了知识图谱和异质网络,awsl,舒服了

    基于原路径的挖掘

    • 相似性度量
    • 推荐(大致上看了一下,是基于元路径)
    • 分类
    • 聚类及其他
    • 元路径选择:
    • 这里不细看,

    异质网络的学习表示

    浅层模型

    基于分解的方法
    • 概念为分治思想,将大型复杂的网络分解成简单的小网络(同质),分别进行表示学习,然后进行信息融合
    • HERec:论文因为是做推荐的,所以它只关注user和item,因此,在论文中只选择了那些user类型或item类型作为起点的元路径,然后进行随机游走,从而生成多个元路径所对应的节点序列,此时,其将其中非起点类型的节点全部删去,从而形成了一个同质的元路径。从而将整个异质网络分解成了多个同质网络。其中改论文获得所有节点序列的方式是随机游走,所以这是一个基于元路径的随机游走
      • 针对每个节点,便可以获得一些元路径的随机游走的表示,将这些可以融合成一个向量来表示该节点
      • 它是给定异质网络,给定元路径,然后根据随机游走生成该元路径的一些实例,之后再进行删点
      • 这里的随机游走在于,给定元路径,根据元路径的规则(类别)随机选择实例对象
      • 这里主要是从异质网络分解成同质网络
      • 在这里插入图片描述
    • 尹赢 结合不同元路径将异质信息网络转换成带权同质子图
      • 大致的流程是:利用先验知识,根据同类节点间不同元路径的语义信息对不同元路径设置不同权重,然后根据权重及路径数构建出代权重的同质子图,通过同质子图上进行带偏置的随机游走得到同类节点序列(偏置意为有方向引导)。
      • 在这里插入图片描述
      • 这个图救命了啊,懂了,根据不同元路径对应的不同权值,来将整个网络给变成不同的同质子图
    • PTE和EOE都是对异质网络进行简单的拆分
    • 上述这些分解会损失异质邻居的信息,只关注到了同质的邻居信息,这个···也是对我之前提的方法的否定,大哭
    基于元路径的随机游走的方法
    • 随机游走本身不受控制
    • 但是基于元路径的话,就相当于是在随机游走时有了约束
    • 大概理解了node2vec的作用以及机理:大概是,我对一个点,可以设定随机游走的路径个数,然后抽取这个个数的随机游走路径,这些路径都包含该节点,然后该节点就可以用这些路径来表示。所以表示该节点的向量,就包含了这个节点以及其周围的结构信息
    • 而基于元路径的随机游走也基本上是这样的,只不过是受约束的,受元路径的约束
    • 在这里插入图片描述
    • eg:OAPVPAO
    基于关系的方法
    • RHINE模型,是将关系分为两类,一类是一对多,一类是一对一,分别对两种关系类别分开建模。
    • BHIN2vec:
      • 带偏置的随机游走
      • 因为不同关系的数量不同,所以损失不一样,所以在进行随机游走的的时候加上误差,尽力使得平衡
    • 后面的不看了
    • 这里关于关系系的有点懵,不是太理解

    深度模型

    慢慢的看博客,论文翻译,要好多了,生成对抗网络理解的多的多了

    基于自动编码器
    • 利用神经网络构建编码其学习节点属性表示的同时保持网络结构特性
    • 对不同元路径的信息进行编码,之后综合信息进行联合编码
    • 关于这一块,更多的抽象理解成GAN中的生成器
    基于生成对抗网络
    • 利用生成对抗网络来进行表示
    • 生成对抗网络的强大之处在于可以自动学习原始真实样本集的数据分布
    • 则其就可以用来学习并生成逼真的样本
    • 生成器与判别器进行对抗博弈
    • 来捕获语义信息
    • 进行关系感知
    • 在HeGAN中,判别器和生成器都被设计成关系感知的,对于任何关系,判别器都可以分辨出一个节点的真假
    • 而生成器可以模仿真节点对来生成假节点对
    • 在这里插入图片描述
    基于强化学习
    • 强化深度学习是强化学习+神经网络
    • 其主要关键点在于强化学习,而不是神经网络,神经网络只是让强化学习能处理复杂的高维信息
    • 强化学习主要在于根据环境来决定如何行动
    • 边获得样例边更新模型,然后根据当前模型来进行指导下一步行动
    • 而下一步行动是考虑环境,观察环境,并考虑基于当前环境,不同行为所能够带来的reward是不一样的
    • 基于此来进行选择
    • 此处是针对元路径的选择困境,将下有任务性能作为reward
    • state是已选择的链接类型顺序
    • action来选择用于学习或终止训练的特定类型链接
    • 在异构星型网络的节点表示学习问题上,不同类型边的训练顺序会影响模型的表现效果
    • 所以在涉及到这个学习的过程中,用深度强化学习来进行确定边的训练顺序
    基于图神经网络
    • 这一块的大概意思是将邻域信息聚合做为消息传递给邻居节点(用周围信息来描述该节点)。
    • 也就是之前理解的那种进行随机游走,将节点周围的结构信息给也刻画到该节点上(只能说是有点像)
    • 进行修改,例如基于分层注意力机制学习每个节点的个性化元路径权重
    • 而对于异质网来说,如何设计合适的聚合函数来捕获领域包含的的语义是关键

    浅层模型与深层模型对比

    • 浅层模型主要关注在异质网络的结构,很少利用属性等额外信息
    • 浅层模型不易描述额外信息与结构信息的关系,同时建模两者困难
    • 深层模型的学习能力支持复杂的的建模方式,能够整合网络的结构和属性信息
    • 浅层模型缺乏非线性表示能够力,但高效且易于并行(自然,整合的东西少,本身神经网络就要慢一些)
    • 深层模型表示能力强,但是容易拟合噪音、时空复杂度高且调参繁琐

    与知识图谱表示学习的区别与联系

    • 知识图谱的表示学习以及问题
    • 知识图谱以图的形式表现客观世界中的尝试和事实
    • 可以给人工智能系统提供可处理的先验知识
    • 知识图谱表示学习将知识图谱中的实体和关系 学习为 包含语义信息的低维向量表示
    • 传统异质网络表示学习关注 拓扑结构
    • 知识图谱节点丰富,连接类型丰富,难以直接引用元路径等传统异质网络挖掘方法
    • 目前主流的表示学习方法Trans系列
    • 知识图谱是无模式的异质网络,本质上属于异质网络范畴
    • 为了平衡效率和效果,知识图谱表示学习方法忽略网络本身复杂结构(如何将简单模式的异质网络迁移至复杂模式的知识图谱)
    • 知识图谱有本题数据模型,传统异质网络表示如何将基于本体和规则的推理方法在语义层刻画

    应用场景

    • 之前的是基础数据挖掘人物
    • 除此之外 在商业、安全、医学等领域有许多实际的场景

    商业领域

    • 异质网络建模可以涵盖多类型节点及其之间的交互,整合丰富甚至异构的信息源,从而全面地刻画节点特征
    • 在这里插入图片描述
    • 最广泛的应用:推荐
    • 传统的推荐:仅考虑用户与物品的交互
    • 实际上的推荐应该:用户、商品、店铺、朋友之间的交互
    • MEIRec:建模异质网络,提出基于元路径的异质图神经网络学习意图推荐中的用户表示
    • Yu建模基于位置的社交网络,用贪心算法进行兴趣点 组推荐
    • HIE通过建模文字与响应模式等信息,预测用户的个性特征
    • CIKM最佳应用论文将咸鱼app中的用户、商品和评论建模为二分网络,并基于图神经网络进行垃圾评论过滤,减少其对用户选择的影响
    • 另一个应用:套现用户检测
    • 检测具有极高贷款违约率的用户
    • 常规方法基于统计特征训练分类器、
    • HACUD利用属性异质网络建模蚂蚁金服信用支付中用户与商家间的交互,并基于原路径和层次注意力机制学习用户表示
    • 另一个应用:在线租车平台希望提升用户乘车体验并预测用户行程
    • PHINE建模驾驶员、乘车和位置等信息
    • TDP利用行程起止点来预测用户短期出行可能

    网络安全

    • 恶意软件检测
    • 传统方法基于签名识别
    • KDD最佳论文,提出HinDroid将安卓应用程序、相关API及其丰富关系建模成异质网络,基于不同元路径度量安卓应用的相似性。最终利用多核学习加权相似性来进行预测
    • 在这里插入图片描述
    • AiDroid分类学习节点表示,利用深度神经网络进行监测
    • aCyber提出对抗攻击模型和防御模型来提升监测的鲁棒性
    • 恶意账户检测
    • Liu从支付宝异质子图中自适应学习嵌入表示,利用注意力机制区分不同类型节点的重要性
    • OSNE将犯罪和恐怖主义活动建模成异质网络,来识别恐怖分子
    • iDetector建模地下论坛,基于不同原结构表征帖子间的相关性并进行有效融合
    • uStyle-uIDy建模文本和照片,提出基于书写及摄影风格识别毒品贩子
    • 异常事件检测
    • 一个常评论动作电影的用户突然评论了情感类电影就是异常
    • Fan提出同时包含实体属性和二阶结构深度异质网络嵌入方法
    • Ranjbar等人提出基于张量分解和聚类的异常检测方法

    医学领域

    • 疾病诊断
    • 电子健康记录(EHR)有患者临床实践的详细记录,结构、语义丰富
    • HeteroMed使用异质网络对临床数据进行建模,利用元路径捕获有助于疾病诊断的重要语义
    • HinOPU框架利用异质网络建模推特中用户和推文间的关系,基于元图表征用户间的语义相关性进行阿片类药物使用者的预测
    • 基因分析
    • 以往的方法只关注基因本身,忽视了相关的生物网络拓扑结构中的信息
    • PLPIHS建模lncRNA-蛋白质网络,基于HeteSim(一种相关性计算方法,基于元路径)计算lncRNA-蛋白质对的相关性评分来推断其相互作用
    • 马毅基于HeteSim尖酸治病基因间的相关性

    未来发展方向

    • 面向多模态数据的异质网络构建与分析方法
    • 现有工作致力于关系数据库类的结构化数据建模
    • 文本、图像和多媒体?
    • 存在不少难题:
      • 利用半结构化的异质网络建模多模态数据时,节点和边关系不明确且复杂(如何从多模态数据中提取出合适的对象和关系)
      • 异质网络表示学习和多模态数据表示学习 如何有机融合
    • 面向复杂网络数据的异质网络分析方法
    • 实际复杂网络的特点变成了难题:
    • 实际网络动态异质:不断新节点产生,新交互
    • 实际网络规模巨大:算法的时间复杂度,响应时间
    • 实际网络模式丰富:知识图谱?难以描述,
    • 实际网络的连接包含丰富信息:社交异质网络中的关注、转发等是有向的,···
    • 面对深度计算的异质网络表示学习
    • 异质图神经网络的内部机制:聚合邻居信息
    • 异质图神经网络的鲁棒性:(研究表明)其易受对抗攻击
    • 异质网络表示学习的可解释性:eg,商品推荐依据元路径的注意力权重的推荐理由?
    • 异质网络与知识的融合:如何融合知识与异质网络产生足够的泛化能力
    • 更多的实际应用:应用不少,上面讲到已经有实际应用,商业,医学,网络安全
    • 但是其他领域引用的还是太少,尚待发掘
    展开全文
  • 人工智能AI源代码解析-OpenHINE:异质信息网络表征学习开源工具包
  • 异质信息网络和知识图谱

    千次阅读 多人点赞 2020-10-31 11:36:00
    最近在研究异质信息网络,发现知识图谱无论是在建模方式还是下游任务都与异质信息网络有很大的相似性。 在这里简单介绍一下知识图谱的相关概念和从网上找来的知识图谱嵌入综述类的文章或者博客进行总结。 比较分析...

    1. 前言

    最近在研究异质信息网络,发现知识图谱无论是在建模方式还是下游任务都与异质信息网络有很大的相似性。

    • 在这里简单介绍一下知识图谱的相关概念和从网上找来的知识图谱嵌入综述类的文章或者博客进行总结。
    • 比较分析一下异质信息网络表示和知识图谱嵌入之间的异同

    文中截图来源于自己做的组会分享ppt,非常简陋…

    部分比较精美的图片来源于知乎文章的插图和 https://www.zhihu.com/people/Jhy1993 一片分享ppt

    2. 异质信息网络和知识图谱

    2.1 异质信息网络

    在这里插入图片描述
    现实生活中形形色色的系统,通常由大量类型各异、彼此交互的组件构成,例如生物、社交和计算机系统等。利用异质网络建模这种类型丰富且交互复杂的数据,可以保留更全面的语义及结构信息。

    相较于同质网络,异质网络建模带来了两方面的好处:

    • (1)异质网络不仅可以自然融合不同类型对象及其交互,而且可以融合异构数据源的信息。在大数据时代来源不同的数据仅捕获了部分甚至是有偏差的特征,异质图网络可以对这些数据进行综合处理。因此异质网络建模不仅成为解决大数据多样性的有力工具,而且成为宽度学习的主要方法。
    • (2)异质网络包含丰富的结构和语义信息,为发现隐含模式提供了精准可解释的新途径。例如,推荐系统的异质网络中不再只有用户和商品这两种对象,而是包含店铺、品牌等更全面的内容,关系也不再只有购买,而是含有收藏、喜爱等更精细的交互。基于这些信息,利用元路径和元图等语义挖掘方法,可以产生更精细的知识发现。

    在这里插入图片描述
    在这里插入图片描述
    基于以上分析,在设计具有异质图注意机制的图神经网络体系结构时,需要满足以下新需求。

    • 1.Heterogeneity of graph
      异构性是异质图的内在属性,即具有各种类型的节点和边。例如,不同类型的节点具有不同的特征,其特征可能落在不同的特征空间中。仍然以IMDB为例,演员的特征可能涉及到性别、年龄和国籍。另一方面,电影的特征可能涉及到情节和演员。如何处理如此复杂的结构信息,同时保留多样的特征信息,是一个迫切需要解决的问题
    • Semantic-level attention
      异质图中涉及到不同的有意义和复杂的语义信息,这些语义信息通常通过[32]元路径反映出来。异质图中不同的元路径可以提取不同的语义信息。如何为具体任务选择最有意义的元路径并融合语义信息是一个有待解决的问题。语义级注意的目的是学习每个元词的重要性,并为它们分配适当的权重。还是以IMDB为例,《终结者》既可以通过电影-演员-电影MAM(都由施瓦辛格主演)连接到《终结者2》,也可以通过电影-电影(都拍摄于1984年)MYM连接到《鸟人》。然而,在确定电影《终结者》的类型时,MAM通常比MYM扮演更重要的角色。因此,平等对待不同的元路径是不现实的,而且会削弱一些有用的元路径所提供的语义信息
    • Node-level attention
      在异质图中,节点可以通过不同类型的关系进行连接,例如元路径。给定一个元路径,每个节点都有许多基于元路径的邻居。如何区分这些邻居之间的细微差别,选择具有信息的邻居是需要解决的问题。对于每个节点,节点级注意的目的是了解基于元路径的邻居的重要性,并为它们分配不同的注意值。还是以IMDB为例,当使用元路径电影 - 导演 - 导演 - 电影(同一位导演拍摄的电影)时,《终结者》将通过导演詹姆斯•卡梅隆连接到《泰坦尼克号》和《终结者2》。为了更好地把《终结者》定义为科幻电影,模型应该多关注《终结者2》,而不是《泰坦尼克号》。因此,如何设计一个能够发现相邻区域细微差异并正确掌握其权重的模型将是我们所需要的。

    2.2 知识图谱

    知识图谱定义
    知识图谱,本质上,是一种揭示实体之间关系的语义网络。–不同的实体可以抽象成不同类型的信息

    • 信息:是指外部的客观事实。举例:这里有一瓶水,它现在是7°。
    • 知识:是对外部客观规律的归纳和总结。举例:水在零度的时候会结冰。

    “客观规律的归纳和总结” 似乎有些难以实现。Quora 上有另一种经典的解读,区分 “信息” 和 “知识” 。
    在这里插入图片描述

    知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。

    在知识图谱中,我们用RDF形式化地表示这种三元关系。RDF(Resource Description Framework),即资源描述框架,是W3C制定的,用于描述实体/资源的标准数据模型。RDF图中一共有三种类型,International Resource Identifiers(IRIs)blank nodesliterals。下面是SPO每个部分的类型约束:

    • Subject可以是IRI或blank node
    • Predicate是IRI
    • Object三种类型都可以。
    1. IRI:我们可以看做是URI或者URL的泛化和推广,它在整个图中唯一定义了一个实体/资源,和我们的身份证号类似。
    2. Literal:是字面量,可以把它看做是带有数据类型的纯文本。
    3. blank :node简单来说就是没有IRI和literal的资源。

    在这里插入图片描述

    我们其实可以认为知识图谱就包含两种节点类型,资源和字面量。借用数据结构中树的概念,字面量类似叶子节点,出度为0。例如“罗纳尔多·路易斯·纳萨里奥·德·利马”作为字面量,是不能有指向外部节点的边。在这里插入图片描述

    2.3 异质图与知识图谱

    异质图神经网络跟知识图谱都是以图的形式进行表示,都是为了得到节点的分布式表示。但是他们的原理方法上有点不一样:

    对于异质图神经网络而言,其节点表示学习也就是图嵌入从宏观上来讲大致分为两个步骤:

    1. 学习目标节点基于元路径的特征嵌入 (HGT:邻居节点基于边的注意力表示)
    2. 学习基于不同元路径的语义级别的嵌入。(HGT:不同邻居节点的消息传递)

    对于异质图网络而言,不同节点的连接关系更像是一种标注的邻居间信息聚合的标签,对于标签本身的含义关系没有进行深入挖掘(这里有一类研究方向是元路径的选择也就是不同类型节点的链接—随机游走获取邻居、针对于下游任务学习元路径),来声明利用神经网络进行信息聚合时的不同策略。这里的策略在异质图神经网络中可以表现为GAT注意力机制或者Transformer的注意力机制(个人认为其实从根本上看是一样的,都是为了区分不同连接类型采取不同的处理方式)。至于第二步语义级别的嵌入在我所看的论文中全部采取注意力机制,理由同上

    而知识图谱是受到word2vec能自动发现implicit relation的启发(king-man=quene-women),重点在学习图数据时强调的是节点跟关系的表示,知识图谱在应用更关注于关系建模。但是两中方法也可以互相借鉴的。 例如 WWW 2020 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding 在基于元路径的邻居信息聚合方式上将知识图谱嵌入中的 RotatE 方法泛化到异质信息网络中,由于异质信息网络和知识图谱的相似性,两者互相借鉴的创新方法还有待进一步研究

    后续会整理一下知识图谱嵌入相关的方法

    展开全文
  • 异质信息网络研究现状及未来发展 一、引言 现实生活中的大多数实际系统是由大量相互作用、类型不同的组件构成,当前的分析方法通常将其建模为同质信息网络(Homogeneous information network)。采用同质网络的建模...

    本文转载自:https://www.leiphone.com/news/201801/MpY4WF11OTnFLp7y.html

    图片均来源于转载地址

    异质信息网络研究现状及未来发展

    一、引言

    现实生活中的大多数实际系统是由大量相互作用、类型不同的组件构成,当前的分析方法通常将其建模为同质信息网络(Homogeneous information network)。采用同质网络的建模方法往往只抽取了实际交互系统的部分信息,或者没有区分交互系统中对象及关系的差异性,这些做法都会造成信息不完整或信息损失。

    最近,越来越多的研究人员开始将这些互连的多类型网络化数据建模为异质信息网络 [1](Heterogeneous information network),并且通过利用网络中丰富的对象和关系信息来设计结构分析方法。与广泛研究的同质信息网络相比,异质信息网络包含全面的结构信息和丰富的语义信息,这也为数据挖掘提供了新的机遇与挑战。

    这里我们简单介绍这种建模方式的基本概念、分析方法和未来发展。

    [1] 这里我们将 Homogeneous / Heterogeneous information network 翻译成为同质/异质信息网络。虽然有些学者将其翻译为同构/异构信息网络,但是这种翻译容易和通信网络中的同构/异构网络的概念混淆。另外,同质/异质更能反映网络中节点和边的类型和性质不一样这种特性。

    二、基本概念

    我们先介绍一下异质信息网络中的基本概念。

    2.1 概念

    异质信息网络被定义为一个有向图,它包含多种类型的对象或者关系,每个对象属于一个特定的对象类型,每条关系属于一个特定的关系类型。网络模式(Network schema)是定义在对象类型和关系类型上的一个有向图,是信息网络的元描述。
    在这里插入图片描述
    图 1(a) 是一个由科技文献数据构成的典型异质信息网络实例。该网络包含三种类型的对象:论文、会议和作者;每篇论文有到作者和会议的链路关系,每条链路属于一种关系类型。

    图 1(b) 是该网络的网络模式,描述了文献网络包含的对象类型(会议、论文、作者)和相应的关系(撰写/被撰写、出版/被出版、引用/被引用)。

    异质信息网络分析中一个重要的概念是元路径(meta-path)。元路径是定义在网络模式上的链接两类对象的一条路径,形式化定义为
    在这里插入图片描述
    ,表示对象类型之间的一种复合关系 R = R 1 ∗ R 2 ∗ . . . . . . ∗ R l R=R1*R2*......*Rl R=R1R2......Rl,其中 ∗ * 代表关系之间的复合算子, A i A_i Ai 表示对象类型, R i R_i Ri 表示关系类型。
    在这里插入图片描述
    元路径不仅刻画了对象之间的语义关系,而且能够抽取对象之间的特征信息。图 2 显示了文献网络中两个元路径的例子,分别简记为「APA」和「APVPA」(A、P、V 分别表示作者、论文和会议类型)。可以看出,基于不同的元路径,对象之间的语义关系是不同的。元路径「作者-论文-作者」(APA)表示两个作者合作撰写了同一篇论文;元路径「作者-论文-会议-论文-作者」(APVPA)表示两个作者在同一会议上发表了论文。链接两类对象的不同元路径表示了不同的语义关系和不同的链接网络,这也造成了不同的分析结果和不同的特征表示。

    实际上,大多数真实系统都存在多种类型对象的相互交互。例如,社交媒体网站(如微信和微博)包含多种类型的对象(如用户、帖子和标签)和这些对象之间的复杂交互(如用户之间的朋友、跟帖、通信等关系,用户和帖子之间的发布关系)。医疗系统包含医生、病人、疾病和设备等对象类型以及他们之间的交互。一般来说,这些交互系统都可以被建模为异质信息网络。

    传统的同质网络建模方法只是抽取了这些真实交互系统的部分信息,而且这些信息往往也可以从异质信息网络中推导出来。例如,经常分析的作者合作网络可以通过元路径「APA」从上述科技文献网络中得到。

    2.2 为什么要进行异质信息网络分析

    作为数据挖掘的重要研究方向,在过去的近20年里,网络分析方法已经被深入研究,并且应用于很多数据挖掘任务,在这些工作中往往将网络化数据建模成同质信息网络。然而,异质信息网络的一些独特特征使得异质信息网络分析变得十分重要。

    • 首先,异质信息网络分析是数据挖掘的新发展。近年来,大量涌现的社会媒体网站包含许多不同类型的对象和对象之间复杂的交互。将这些相互作用的对象建模为同质网络是很困难的,然而使用异质信息网络为其建模却是很自然的方式。特别的,大数据的一个显著特征是数据的多样性,作为半结构化的表示方法,异质信息网络可以有效建模和处理大数据中复杂多样的数据。

    • 其次,异质信息网络是融合更多信息的有效工具。与同质网络相比,异质网络可以融合更多类型的对象及其之间复杂的交互关系,也可以融合多个社交网络平台的信息。

    • 最后,异质信息网络包含丰富的语义。在异质网络中,不同类型的对象和链接共存,它们具有不同的语义含义,在数据挖掘任务中考虑语义信息将导致更细微的知识发现。同质网络中的大多数方法并不能直接应用于异质网络中,因此在异质信息网络中发现有趣的模式是十分必要的。

    三、研究现状

    3.1 研究现状概述

    异质信息网络为更好地分析网络化数据提供了一种新的研究模式,同时也给许多数据挖掘任务带来了新的挑战。很多基于异质信息网络的数据挖掘问题已经被广泛研究,图 3 是对过去 6 年这一方向相关研究工作的近 200 篇论文按照研究问题分类的分布图。从图中可以看出,异质信息网络已经广泛应用于主要的数据挖掘问题,特别是相似性度量、聚类、分类、链接预测、推荐等任务。
    在这里插入图片描述
    异质信息网络建模的优势在于整合更多信息和包含丰富语义,这同时也造成了异质信息网络分析的难点:如何有效利用异质信息和探索丰富语义。

    作为有效利用异质信息和探索语义的工具,元路径被广泛应用于异质网络分析。例如,PathSim 利用对称元路径抽取两个节点之间的连通路径来度量二者的相似性,这样不仅利用到了相关的异质信息,而且体现了节点和边的丰富语义。很多机器学习技术都可以应用到异质网络分析中,例如随机游走模型、主题模型、矩阵模型和概率模型。各类信息也都能够整合到异质网络分析中,例如属性信息、文本信息和用户指导信息。

    图 4 从网络结构和语义探索两个角度,总结了该领域的一些典型工作。沿着 X 轴,网络结构变得更加复杂;沿着 Y 轴,语义信息变得更加丰富。
    在这里插入图片描述
    例如,PathSim 可以处理星型模式网络,并使用元路径挖掘语义关系。SemRec 在基本元路径上增加了链接的权值约束,以在带权异质网络中探索更微妙的语义信息。从图中我们可以发现,大多数研究都集中在简单网络结构(例如二分或星型模式网络)和基本语义探索(例如元路径)上,未来在利用更强大的语义探索工具分析更复杂的异质网络方面还需要做更多探索。

    四、未来发展

    虽然异质信息网络已经应用于很多数据挖掘任务,但它仍然是一个年轻而且快速发展的研究领域。在这里我们简单讨论一下未来的研究方向。

    4.1 更加复杂的网络构建

    当前研究大多假定异质信息网络是明确定义的,网络中的对象和关系是清晰的。然而,在实际应用中,从真实数据构造异质信息网络会遇到很多挑战。对于关系数据库之类的结构化数据,构造异质信息网络比较容易,然而即使是在这种网络中,对象和关系也可能具有噪声,比如会出现对象重名或关系不完整等问题;对于像文本、图像等非结构化数据,如何准确抽取出相应的对象和关系,进而建立更加完善和准确的异质信息网络也将面临更多挑战,在实践中会用到诸如信息抽取、自然语言处理、图像处理等各种技术。

    4.2 更加强大的分析方法

    在异质信息网络中,对象可通过不同的方式组织在一起。星型模式是广泛使用的异质信息网络类型,例如前面介绍的科技文献网络。之后,又出现了带环的星型模式和多中心网络等网络模式。

    实际应用中,网络化数据通常更加复杂和没有规律性。某些实际网络中的链路会包含属性值,而这些属性值可能包含重要的信息,这样就构成了带权异质信息网络,例如前面介绍的电影网络。另外一些应用中,用户可能存在于多个异质网络,这时需要对齐不同网络中的用户,有效融合不同网络的信息。还有很多网络数据,例如知识图谱,包含有很多种类型的对象和关系,很难用简单的网络模式来描述。这种丰富模式(schema-rich)的异质网络中也出现了很多新的研究问题,例如多种类型对象关系的管理以及元路径的自动产生等。这些复杂的网络化数据,给异质信息网络建模与分析提出了更多的机遇和挑战。

    异质信息网络中的对象和关系包含着丰富的语义信息,而元路径可以捕捉这种语义信息。异质信息网络上的很多数据挖掘任务是基于元路径进行研究的,但是元路径在某些应用场景中并不能捕捉到精细的语义信息。例如,“作者-论文-作者”路径表示了作者之间的合作关系,但却不能描述特定条件下(例如KDD领域)的合作关系。为了克服这个不足,很多研究者提出了受限元路径、带权元路径、元结构等概念扩展元路径的语义抽取能力。针对更加复杂的网络结构(如知识图谱),如何设计更加灵活精细的语义探索工具仍然需要进一步的研究。

    近些年出现的深度学习在图像、自然语言等高维复杂数据处理上展现了优异的特征抽取能力,因此可以利用深度学习方法处理异质网络数据。当前深度学习和表示学习已经开始用于网络的结构特征表示。异质网络中包含不同类型的节点和边,而且元路径体现了丰富的语义信息,这些特征使得异质网络的特征表示学习表现出很大的不同。异质网络的表示学习对异质网络分析提出了新思路,也为结构信息与其他模态信息融合提供了新途径。

    4.3 更大数据的处理

    为了展现异质网络建模的优势,我们需要在更广泛的领域中对大型网络化数据设计实用的数据挖掘算法。多样性是大数据的重要特征,异质网络是处理大数据多样性的有效方法。然而,构建一个真正的基于异质网络的大数据分析系统也是具有挑战性的工作。实际的异质网络是巨大的,甚至是动态的,所以它通常不能存储在内存中直接处理。由于用户往往只对一小部分节点、链接或子网络感兴趣,我们可以根据用户需求,从现有网络中动态地提取子网络进行分析。另外,设计基于异质网络的快速算法和并行算法也是亟需研究的内容。

    其他一些研究方向也值得关注。相比于学习大数据的深层特征的深度学习方法,最近兴起的广度学习(broad learning)整合不同类型的多个数据源进行融合学习,并在一些应用中取得了显著效果。由于异质信息网络是大数据时代整合不同类型数据的天然工具,因此结合异质信息网络研究广度学习方法不仅会推动新的机器学习方法的发展,而且为解决大数据的多样性提供新的思路。针对具体问题的异质网络分析系统也是重要发展方向。2017年KDD的最佳应用论文利用异质网络和元路径构建和描述Android手机的APP应用和API调用的丰富交互,并将其用于恶意软件检测。这也为采用异质信息网络解决实际问题带来有益启示。

    五、结论

    近年来,由于异质信息网络包含全面的结构和丰富的语义信息,采用异质网络建模和分析的研究大量涌现。本文对这个发展快速的领域进行了一个简要的介绍,希望研究者更好地了解异质信息网络分析的基本思路和特点,能够采用这种模式对实际的网络化数据进行建模和分析。

    展开全文
  • 异质信息网络的研究现状综述,阅读之后可以对异质信息网络有一个大概的了解
  • 现实中存在大量异质数据和需要考虑权重随属性值变化的多属性决策问题。
  • 近年来,网络表示学习( Network RepresentaTIon Learning,NRL)作为一种在低维空间中表示节点来分析异质信息网络( Heterogeneous InformaTIon Networks,HIN)的有效方法受到越来越多的关注。基于随机游走的方法...
  • 针对水环境审计绩效评价中存在的模糊性、多指标、异质性等特点,提出考虑决策者行为的水环境审计绩效异质信息多指标评价方法.首先,构建水环境审计绩效评价指标体系;其次,对异质评价信息采用实数、区间数、三角模糊数...
  • 第二类是异质信息网络(Heterogeneous information network),网络中包含多种类型的关系和对象,具有全面的结构信息和丰富的语义信息。 目前同质信息网络中节点排序方法较多且应用较广,例如Personalized PageRank ,...

    原文地址:https://dreamhomes.github.io/posts/202007261112.html

    背景

    现实中的复杂系统大体可以抽象为两类:第一类是同质信息网络(Homogeneous
    information network),这种建模方法仅抽取网络中部分信息并且没有区分对象或者关系间的差异性;第二类是异质信息网络(Heterogeneous information network),网络中包含多种类型的关系和对象,具有全面的结构信息和丰富的语义信息。

    目前同质信息网络中节点排序方法较多且应用较广,例如Personalized PageRank ,其计算公式如下所示:
    P P R q = ( 1 − α ) M T × P P R q + α q \mathbf{P P R}_{q}=(1-\alpha) M^{T} \times \mathbf{P P R}_{q}+\alpha \mathbf{q} PPRq=(1α)MT×PPRq+αq

    但是其不适用于异质信息网络。因此介绍当前的两种适用于异质信息网络中节点排序的方法 ObjectRankPopRank,主要思想借鉴PageRank。

    ObjectRank

    ObjectRank 主要用于数据库中查询内容,根据输入的关键字对内容进行排序输出。

    以 DBLP 数据库说明下术语及其含义,并给出算法过程。

    • Label / Data Graph
    • Schema Graph
    • Authority transfer schema graph
    • Authority Transfer Data Graph
    • 对于关键字 “OLAP” 的查询结果

    算法过程

    以给定的模式图(Schema Graph) G ( V G , E G ) G(V_G, E_G) G(VG,EG) 来建模复杂系统,每个对象包含多个属性-值对。根据模式图需要定义一个权威概率转移模式图(authority transfer schema graph) G A ( V G , E G A ) G^A(V_G, E_G^{A}) GA(VG,EGA),图中每条边的转移概率是依据专家知识定义的。给定数据图(data graph) D ( V D , E d ) D(V_D, E_d) D(VD,Ed)可以根据 G ( V G , E G ) G(V_G, E_G) G(VG,EG) G A ( V G , E G A ) G^A(V_G, E_G^{A}) GA(VG,EGA)可以得到一个权威性转移数据图 D A ( V D , E D A ) D^A(V_D, E_D^A) DA(VD,EDA)

    对于图中任意两个对象 u u u v v v间的转移概率可以定义为:
    M ( u , v ) = { w ( T ) d o u t ( u , T )  if  d o u t ( u , T ) > 0 0  if  d o u t ( u , T ) = 0 M(u, v)=\left\{\begin{array}{ll} \frac{w(T)}{d_{o u t}(u, T)} & \text { if } d_{o u t}(u, T)>0 \\ 0 & \text { if } d_{o u t}(u, T)=0 \end{array}\right. M(u,v)={dout(u,T)w(T)0 if dout(u,T)>0 if dout(u,T)=0
    式中 T T T表示边 ( u , v ) (u, v) (u,v)的类型, w ( T ) w(T) w(T)表示边类型为 T T T的权威转移概率, d o u t ( u , T ) d_{out}(u, T) dout(u,T)表示节点 u u u所有出边类型为 T T T 的边数量。

    在定义权威性转移数据图并得到节点带你转移概率矩阵 M M M 之后,其在线查询过程与Personalized PageRank 类似。

    对于一个查询关键字 k k k ,系统将会根据包含该关键字的对象准备一个查询向量 q \mathbf{q} q,如果一个对象 u u u 包含关键字 k k k,那么 q ( u ) = 1 / N k q(u)=1/N_k q(u)=1/Nk,否则 q ( u ) = 0 q(u)=0 q(u)=0, 其中 N k N_k Nk表示所有包含该关键字的对象数量。那么对于给定的关键字 k k kObjectRank vector为:
    O R q = ( 1 − α ) M T × O R q + α q \mathrm{OR}_{q}=(1-\alpha) M^{T} \times \mathrm{OR}_{q}+\alpha \mathrm{q} ORq=(1α)MT×ORq+αq
    其中 α \alpha α阻尼参数。

    PopRank

    PopRank主要用于网页排序,考虑了网页流行度和其它类型对象的影响,计算公式如下:
    R X = ϵ R E X + ( 1 − ϵ ) ∑ Y γ Y X M Y X T R Y \mathbf{R}_{X}=\epsilon \mathbf{R}_{E X}+(1-\epsilon) \sum_{Y} \gamma_{Y X} M_{Y X}^{T} \mathbf{R}_{Y} RX=ϵREX+(1ϵ)YγYXMYXTRY
    其中 ϵ \epsilon ϵ 为加权参数, γ Y X \gamma_{Y X} γYX 表示从类型为 Y Y Y的对象到类型为 X X X的对象的流行度传播因子(PPF), ∑ Y γ Y X = 1 \sum_{Y} \gamma_{Y X}=1 YγYX=1 M Y X M_{YX} MYX是类型 Y Y Y和类型 X X X间的邻接矩阵; R Y R_Y RY 是类型 Y 的PopRank vector。

    论文中还提出了模拟退火算法来学习流行传播因子 γ Y X \gamma_{Y X} γYX,想了解可以阅读原论文。Object-Level Ranking: Bringing Order to Web Objects

    展开全文
  • 本文介绍 IJCAI 2020 中 3 篇与异质信息网络相关的论文。分别为:保留网络模式的异质信息网络嵌入异质网络表征学习异质信息网络上的领域自适应分类1. Network Schema...
  • 为了方便大家对异质信息网络表示学习(HINE)开展相关的实验或研究,北京邮电大学 DMGroup 的研究人员在 GitHub 上发布了 HINE 训练和测试框架 OpenHINE。项目链...
  • KDD'18 | 异质信息网络嵌入学习

    千次阅读 2018-11-18 14:08:06
    Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks, KDD‘18 ...原文链接:KDD'18|异质信息网络嵌入学习 1 引言 网络嵌入(network embedding)模型,是最近比...
  • 论文研究-社交网络异质信息投资者市场演化及其规律.pdf, 通过引入双因素交互机制和参照依赖优化过程,构建出社交网络环境下的异质信息交易模型.根据投资者的不同社交...
  • 现有的许多 HIN 嵌入方法都采用元路径引导的随机游走来保留不同类型节点之间的语义和结构相关性。然而,元路径的选择仍然是一个悬而未决的问题,它要么依赖于领域知识,要么是从标签信息中学习的。
  • 异质信息网络中相似性度量算法的研究与改进,未翠翠,张成文,本文基于异质信息网络进行了异质结点间相似性度量算法的研究,分析现有算法的原理并总结了各个算法的优缺点。针对AvgSim算法在含有
  • 题目:基于元路径相似度的动态异质信息网络嵌入作者:王啸(北京邮电大学),陆元福(北京邮电大学),石川(北京邮电大学、SMP委员),王睿嘉(北京邮电大学),崔鹏(清华大学、SMP委员 ),牟帅(腾讯)期刊:IEEE ...
  • 基于异质信息网络的模糊推荐算法.pdf
  • 非对称的异质信息网络推荐算法.pdf
  • hin2vec想法其实挺巧妙的 它学习两种embedding,一种是对于节点的嵌入,一种是对于元路径(meta path)的嵌入 (ps 作者在文中说如果要强调路径的有向性,强调路径开始节点和终止节点的不同,那么可以扩展到三种...
  • 基于现有模型存在的问题,论文提出了 HIN2Vec 模型,通过研究节点之间不同类型的关系和网络结构,学习异质信息网络中丰富的信息。由于 不同的元路径可能有不同的语义信息 ,所以作者认为 对嵌入在元路径和整个网络...
  • MTRec 采用多任务学习为基于HIN的推荐带来了几个好处: 链接预测模拟了 HIN 的动态增长,不仅有助于丰富 HIN 的信息(从而缓解了稀疏性问题,MTRec 还考虑了来自不连接目标用户和候选项目的元路径的信息),而且还...
  • PathSim:异质信息图中基于元路径的top-k相似搜索 标签(空格分隔): 图模型 PathSim 本文研究异质信息网络同一类型的顶点上的相似搜索。此外,考虑网络中不同链接路径,可以推导出不同的语义相似度。这里介绍...
  • 网络游戏-对异质信息网络包含的对象进行排序的方法.zip

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,545
精华内容 3,018
关键字:

异质信息