精华内容
下载资源
问答
  • 表征学习

    2020-02-29 11:31:49
    表征学习允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。在机器学习任务中,输入数据例如图片、视频、语言文字、声音等都是高维且冗余复杂,传统的手动提取特征已变得不切合实际,所以需要借助于...

    概念:

    表征学习允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。在机器学习任务中,输入数据例如图片、视频、语言文字、声音等都是高维且冗余复杂,传统的手动提取特征已变得不切合实际,所以需要借助于优秀的特征学习技术。

    另一番解释

    1.所谓“表征学习法”,就是用学到的知识至少完成一件事情。

    2.学习的本质是“存储”和“提取”。“存储”是把知识组块存储进长时工作记忆系统的能力。“提取”是把知识组块从长时工作记忆系统中提取出来的能力。这两个能力越强,学习越高效。

    3.而“表征学习法”,就特别高效能地提升这两项能力。

    4.“表征”,是指实践之后的体会。你获得知识的时候,会有一个体会。把知识拿去实践之后,又会有另一番体会。而实践之后的体会,叫“表征”。

    5.比如管理要“抓大放小”,你学到这个知识的时候心里有一番体会。把这个知识拿去实践的时候又会有另一番体会——“噢噢,原来这件事属于抓大,原来那件事属于放小”(以前从来没这么想过的)。这一句“噢噢”就是这个知识组块的表征。

    6.表征学习法,就是你学习知识之后 至少拿这个知识去完成一件事情。一番实践下来,“存储”和“提取”的深度是很可观的。

    7.当然,不同人有不同的标准和层次,我以“最高效到最不高效”的顺序列举一下。

    8.最高标准,就是这个知识讲什么,你就原原本本的在现实生活中不打折扣地做一遍(甚至好几遍)。

    9.次级标准,有些知识可能你不方便实践,因为没资源没能力等等。比如上面的“管理要抓大放小”,我一个学生管谁呢(其实也可以用来管自己)。在这种不方便实践的情况下,启动次级标准——举几个例子。能够成功举几个例子,这知识的原理你也算走通好几遍了。

    10.最低标准,有些知识太抽象了(其实是自己视野不够宽阔),我连例子都不好找。比如“围绕某个核心领域来学习不会使我狭隘”,这怎么举例子,我及我身边的人都没有这种体验。在这种不好举例的情况下,启动最低标准——至少用作者原话理解一遍,再用自己的大白话复述一遍吧。这也算打通知识阻塞了。

    展开全文
  • 表征学习是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征
  • 表征学习与度量学习

    2021-06-16 09:31:29
    行人重识别表征学习和度量学习的区别是根据损失函数的不同而区分的。 表征学习的方法没有直接训练网络的时候考虑图片间的相似度,而把行人重识别任务当做分类问题或者验证问题来看待。 度量学习旨在通过网络学习出两...

    在这里插入图片描述
    行人重识别表征学习和度量学习的区别是根据损失函数的不同而区分的。

    表征学习的方法没有直接训练网络的时候考虑图片间的相似度,而把行人重识别任务当做分类问题或者验证问题来看待。

    度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上,表现为同一行人的不同图片间的相似度大于不同行人的不同图片。

    展开全文
  • 异质网络表征学习相关论文
  • 针对基于单条元路径的异质网络表征缺失异质信息网络中结构信息及其它元路径语义信息的问题,本文提出了基于融合元路径权重的异质网络表征学习方法.该方法对异质信息网络中元路径集合进行权重学习,进而对基于不同元...
  • 同质网络表征学习相关论文,包括DeepWalk,TADW,Grarep等
  • 文中首先介绍了数据表征的多种类型,...其次,根据数据类型将数据划分成单一类型数据和复合类型数据,针对单一类型数据,分别介绍了4种典型数据的表征学习发展现状和代表算法,包含离散数据、网络数据、文本数据和图像数据.
  • 网络表征学习简介

    千次阅读 2018-04-17 19:26:45
    中国计算机学会通讯(CCF)3月份发布了一个关于网络表征学习的专题,对于想了解这方面知识的朋友来说真是雪中送炭啊,感谢大牛们的好文章,下面就来简单谈一谈关于“网络表征学习(Network Representation Learning ...

        中国计算机学会通讯(CCF)3月份发布了一个关于网络表征学习的专题,对于想了解这方面知识的朋友来说真是雪中送炭啊,感谢大牛们的好文章,下面就来简单谈一谈关于“网络表征学习(Network Representation Learning NRL)”的那些事儿...(PS:上一篇文章中我把这个翻译为“网络表示学习”,虽然这两个意思接近,但是还是以文章里面翻译的“网络表征学习”为准吧!)

    1.背景

        为什么要提出这个概念?

        在《网络表征学习前沿与实践》这篇文章中,作者进行了详细地解释。简单来说就是,当今的数据规模随时间以指数级增长,由于数据之间错综复杂的关联,关联大数据的算力需求与算力供给之间的不平衡,使得关联大数据的处理面临着严峻的挑战。

        如何表示这些数据?

        “网络”因其强大且灵活的表征能力,成为关联大数据最自然和直接的表达方式。通常,将一个网络表示为由一个点集边集共同组成的。通常,信息网络构成的图模型可以由邻接矩阵来表示,因此,早期的处理图结构的工作大部分采用高维稀疏向量的形式,再用矩阵分析的方法。然而,由于现实中网络的稀疏性以及其不断增长的规模,又对此类方法提出了严峻的挑战

        传统基于网络拓扑的表征方式存在哪些问题?

        首先,由于拓扑结构通常导致许多网络的分析与处理算法需要许多迭代和组合计算步骤,因而不可避免地产生高复杂度运算的问题。

        其次,由于拓扑关系表示节点之间有着强耦合关系,这导致了计算复杂度高、缺乏有效的并行方案,形成了大规模网络难以处理和分析的困境。

        第三,目前机器学习尤其是深度学习已经在许多领域显示出强大的数据处理能力,但是它们针对的数据表征通常为一个向量空间中的独立性数据,而非彼此关联的非独立性网络数据,这会导致很多有效解决方案无法直接应用到网络数据上,而必须重新设计基于网络拓扑的模型。

        由此可见,传统的基于网络拓扑的表征方式已经成为限制大规模网络处理和分析的瓶颈,所以需要探索更为高效地表征方法。

     “点集”和“边集”是否为网络的唯一表征方式?

        抛开现象看本质,让我们思考一下网络的形成过程,以社交网络为例,两个人形成一条边,往往是因为两个人之间存在某种相近性,如两个人有共同兴趣,或两个人是同学或同事等等。即存在着另外一个表达“相近性”的隐含向量空间驱动着网络的形成和演化,但这个隐空间不能被人们观测到。所以,如何将观测到的网络拓扑空间“嵌入”到隐含向量空间,这个问题被称之为“网络表征学习(Network Representation Learning)”或者“网络嵌入(Network Embedding)”

    2.概念

        网络表征学习旨在将网络中的节点表示成低维、实值、稠密的向量形式,使得得到的向量形式可以在向量空间中具有表示以及推理的能力,从而可以更加灵活地应用于不同的数据挖掘任务中,举例来说,节点的表示可以作为特征,送到类似支持向量机的分类器中。同时,节点表示也可以转化成空间坐标,用于可视化任务。下图是传统的基于网络拓扑的网络分析与基于网络表征学习的网络分析的对比图,基于网络表征的网络分析摆脱了邻接矩阵中边的约束,使得每个节点成为低维空间中的独立数据,进而基于这种向量表达解决后续的应用问题。


    3.目标

        为了让网络表征更好地支持下游的网络分析任务,网络表征学习通常有两个基本目标。

        一是在低维空间中学习到的表征可以重构出原有网络结构。(如果两个节点有边连接,则它们在低维空间中的距离接近,否则,它们的距离就较远)

        二是学习到的表征可以有效地支持网络推断。(若只满足第一个目标,可能会因为过拟合而对未知边的推断起到负面作用)

    4.方法

    网络表征学习方法主要分为三种:基于矩阵分解的方法、基于随机游走的方法、基于深度神经网络的方法

    (1)基于矩阵分解的方法

        矩阵分解本身是一种最为有效的表征学习模型,通过对邻接矩阵进行分解,得到每个节点的表征。比如奇异值分解(SVD)以及非负矩阵分解都有着广泛的应用。Yang等人在其后续工作中将基于矩阵分解或者可以转化为矩阵分解的方法总结成同一个算法框架 : 第一步构建节点间的关系矩阵 , 第二步对该矩阵进行矩阵分解操作得到网络表示。

    优点:考虑全局结构性

    缺点:过高的时间和空间消耗

    (2)基于随机游走的方法

        基于随机游走的模型主要是由自然语言处理(Natural Language Process)中的word2vec启发而来,将节点对应为NLP中的单词,将随机游走得到的序列对应为NLP中的句子。2014年Bryan Perozzi等人开创新的提出了DeepWalk方法,通过随机游走的方式定义节点的上下文结构,即节点的邻居关系,进而通过skip-gram模型来学习网络节点表征。

        从基于随机游走的方法思路来看,这些算法本质上是通过保留网络的局部结构性来估计节点的表示,使用随机游走序列而不是邻接矩阵的优势有两点 : 首先 , 随机游走序列只依赖于局部信息 , 所以可以适用于分布式和在线系统 , 而使用邻接矩阵就必须把所有信息存储于内存中处理 , 面临着较高的计算时间和空间消耗 . 第二 , 对随机游走序列进行建模可以降低建模 0-1 二值邻接矩阵的方差和不确定性。

    优点:高效性和鲁棒性、没有特征工程

    缺点:只考虑局部结构性、很难找到最佳的采样策略

    (3)基于深度神经网络的方法

        深度神经网络模型的有效性已经在计算机视觉以及语音处理领域得到广泛验证,它可以得到一个有效的非线性函数学习模型,非常适合用来拟合高度非线性的结构。HNE通过CNN和MLP分别对文本和图像数据进行特征抽取,然后通过转移矩阵将不同类型的数据投影到同一个空间。

    优点:相对于浅层模型,深度模型可以更好地对非线性关系进行建模,能够抽取节点所蕴含的复杂语义信息。

    缺点:模型难以诠释,特征向量对人而言并不直观

    5.总结

        以上只是简单总结了一下网络表征学习的相关概念、分类等,具体的方法还有很多,大家可以在北京邮电大学石川老师的主页中找相关的论文研读,包括分类、聚类、嵌入、信息融合、推荐等具体的应用,http://www.shichuan.org/ShiChuan_ch.html

        本篇博文大部分总结自CCF第3期,网络表征学习专题,我会把相关的文章上传到资源中(资源链接),感兴趣的朋友可以下载。如果这篇文章对你有帮助的话,不妨点赞支持一下,给我点儿继续更新的动力~哈哈

        

        
    展开全文
  • 深度学习中的网络表征学习的算法目标简介.pdf
  • 中国计算机学会通讯(CCF)2018年3月网络表征学习专题相关论文
  • 表征学习的目的是对复杂的原始数据化繁为简,把原始数据的无效信息剔除,把有效信息更有效地进行提炼,形成特征,这也应和了机器学习的一大任务——可解释性。 也正是因为特征的有效提取,使得今后的机器学习任务...

    机器学习算法的成功与否不仅仅取决于算法本身,也取决于数据的表示。数据的不同表示可能会导致有效信息的隐藏或是曝露,这也决定了算法是不是能直截了当地解决问题。表征学习的目的是对复杂的原始数据化繁为简,把原始数据的无效信息剔除,把有效信息更有效地进行提炼,形成特征,这也应和了机器学习的一大任务——可解释性。 也正是因为特征的有效提取,使得今后的机器学习任务简单并且精确许多。在我们接触机器学习、深度学习之初,我们就知道有一类任务也是提炼数据的,那就是特征工程。与表征学习不同的是,特征工程是人为地处理数据,也是我们常听的“洗数据”。 而表示学习是借助算法让机器自动地学习有用的数据和其特征。 不过这两个思路都在尝试解决机器学习的一个主要问题——如何更合理高效地将特征表示出来。

    即稍微入门一点机器学习的都知道传统地做法都人为地设计特征或者说使用已经完全标记好的数据来试图接近最好的分类效果。但实际上很多未标记的或者说标记相对较少的训练数据,我们当然可以人为标记,但也可以自动地筛选出比较重要的特征,有点类似于PCA(主成分分析)的思路,这就是表示学习或者说特征学习。

    表示学习虽然从结构上讲只是数据的一个预处理手段,但是正如“工欲善其事,必先利其器”一样,它的出现提供了进行无监督学习和半监督学习的一种方法。其重要性不言而喻,以至于在花书中被单独列出来作为一章。表示学习一个比较典型的方法就是自编码器,有兴趣的可以自查。

    表征学习的自动化算法

    我们定义了表示学习的自动化,那么这个自动化发展得如何呢?让我们来看看有哪些已有的算法和它们背后的意义。无监督学习算法中例如PCA/auto-encoder的自动化体现在它们可以对输入数据转化而使得输入数据更有意义;树模型可以自动地学习到数据中的特征并同时做出预测;深度学习的CNN/RNN/DBN/GCN则更加灵活,CNN大量地用在图像的研究上,RNN是时间序列数据学习的摇篮,而GCN可以用在图网的数据学习中。回想特征工程则是极度依赖人的判断的,人们会根据自己的理解来筛选数据或者做数据变换。

    1) 无监督学习

    在深度学习大幅发展之前,无监督学习是很好的表征学习的工具。无监督学习中的自动编码器可以用来对数据进行含义转换。举个单词表征的例子,单词有很多表示的方法,最简单的就是one-hot encoding, 这种方法是在一个庞大的词库向量中对要标注的目标单词用1来表示,而其余的用0。这样一来所有的单词都是相互独立的,即它们之间的距离都是一样的,非常地浪费空间。而如果我们用RBM, 中文叫作单层自编码器,来做word embedding, 将词库矩阵映射到新的矩阵空间,令词义更相近的单词靠得更近,这样节约了空间,同时新的表达还定义了相近词。这种自编码过程使用的一般是无标签数据,输入数据经过编码会有一定的抽象,然后这种抽象可以通过解码得到一个近似于输入的输出数据,所以它是一种稳定的转换。其实无监督的表征学习算法的精髓是学习从高维观察到低维表征空间的映射,使得可通过地位的表征(近似地)重建出原来的观察,比如PCA的映射空间就保证了原空间的多样性。尽管自动编码器与 PCA 很相似,但我们可以看出来自动编码器比 PCA 灵活得多。在编码过程中,自动编码器既能表征线性变换,也能表征非线性变换;而 PCA 只能执行线性变换。因为自动编码器的网络表征形式,所以可将其作为层用于构建深度学习网络。

    2) 树模型

    树模型的一大优势在于算法本身的高度可解释性,因此树模型在表征学习应用上是很有潜力的。前几章我们提到过当模型是可微分模型时,反向传播的效果非常好,又精确又高效,但是当使用的模型是非可微分的时候,我们该怎么解决这类问题呢?这里有个可替代模型——基于树的集成。这种模型可以为离散或表格类数据建模,使用树的集成可以获得分层分布式表征。但此时,我们不能再用链式法则来传播误差,反向传播也不再可行。所以决策树模型很难整合深度神经网络的表征学习能力,但是多层GBDT森林可以使用层见目标传播的变体进行联合训练,这样就无需推导反向传播和可微性。

    3) 深度学习

    深度学习是最灵活的表征学习。要理解深度神经网络为什么可以做表征学习很简单,其实一般深度神经网络的最后一层都是一个线性分类器,其他层则可看成是在给这个线性分类器提供特征,所以最后一层之前的隐藏层都可被理解为是表征学习。而在这之前,深度学习在CNN图像识别的任务上大获成功,却在实际被诟病为黑箱,让很多搞理论的专家百思不得其解。所以从表征学习这点上看,深度学习的黑箱或许是可以被一窥究竟的。其实就单隐层神经网络已经很好用了,它有个普适性的特点,意思就是给足了隐节点,它就能够估算任何函数来适应你给它的训练数据,也就是单隐层就可以很好地学习表征。近期的研究已经开始为深度学习的表征建立信息论基础,比如观察到的信息瓶颈损失可以被用于计算最佳表征。

    表征学习vs. 特征工程

    说完表征学习典型的算法,那么问题来了,我们什么时候用表示学习,什么时候又用特征工程呢?第一个需要考虑的是数据的大小,如果数据量很大的时候,我们比较依赖于自动化的表示学习,如果数据量很小,其实目前特征工程的表现更加好。这是什么原因呢?因为数据小,我们根据自己的数据经验和先验知识,就可以判断用什么模型更好,但是数据一旦多了,我们对数据的理解就相对比较浅薄,先验知识所占的分量急剧下降,此时就需要依靠极其强大的计算力去弥补我们自身知识的不足。不管是全自动化的表征学习也好,人为经验的特征工程也好,都是基于数据和经验选择模型,这个过程其实是一个贝叶斯模型。在中小数据集上的机器学习往往使用的就是强假设模型(人类知识先验)+一个简单线性分类器。当数据愈发复杂,数据量逐渐加大后,我们对于数据的理解越来越肤浅,做出的假设也越来越倾向于随机,那么此时人工特征工程往往是有害的,而需要使用摆脱了人类先验的模型,比如深度学习或者集成模型。

    不管是特征工程还是特征学习,我们衡量它们作用的一个标准就是看后续的学习任务是否能够得益于这种表示。这是机器学习的一个核心问题——到底是什么因素决定了一种表示比另一种表示更好呢?大概有三个方面的解释:

    1.是否能提供解离性的线索。假设数据是基于互相独立的因素(这些因素内部也存在一定的变化范围)生成的,比如目标图像中的目标方向和光照条件,作为一个元先验,解离性更倾向于用表征中不同的独立变量表示这些因素。这样应该就能得到数据的简洁的抽象表示,从而可用于各种下游任务并有望提升样本效率。因此,某种方法更能得到数据的简介的抽象的表示就更占据优势;

    2. 是否有分布式表示的优势。分布式表示可以组合许多特征来表达指数级别的概念特征。有很多分布式表示的算法比如聚类算法,KNN算法,决策树等等,同时分布式表示也是深度学习的最重要的性质之一,深度学习的分布式实现了参数共享,即非局部繁华的目的,可以有效应对curse of dimensionality。

    3. 深度可以带来指数级别的增益。

    这篇文章写得很好,可以参考:https://blog.csdn.net/weixin_40449300/article/details/89941348

    展开全文
  • 为此提出一种基于表征学习方法的推荐算法,改进算法实现了基于二部图网络的多目标节点表征学习方法,在节点表征中通过嵌入不同层次的网络结构信息和适合推荐任务的次序信息来提升推荐性能。三个不同规模真实数据集上...
  • 全图表征学习算法之无监督学习和基于卷积神经网络的监督学习.pdf
  • Web开放信息抽取的句法表征学习
  • 什么是表征学习

    千次阅读 2019-12-21 00:02:23
    在机器学习中,特征学习或表征学习[1]是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征:学习...
  • 根据损失分类:表征学习和度量学习 表征学习:没有直接在训练网络的时候考虑图片间的相似度,而把行人重识别任务当做分类问题或者验证问题来看待 度量学习:通过网络学习出两张图片的相似度,在行人重识别问题上,...
  • 表征学习学习

    2020-01-06 19:52:10
    作者:宣廷S ...来源:知乎 著作权归作者所有。...机器学习算法的成功与否不仅仅取决于算法本身,也取决于数据的表示。数据的不同表示可能会导致有效信息的隐藏或是曝露,这也决定了算法是不是能直截了...
  • 我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量。
  • 为解决上述问题,提出了一种基于低秩表征学习的图像记忆性预测模型,将低秩表征学习和线性回归整合到一个框架下。低秩表征学习将原始的特征矩阵映射到具有低秩约束的潜在子空间中,以学习到本征稳健的特征表征;线性...
  • 标题:Multi-View Information-Bottleneck Representation Learning Summary 论文通过信息瓶颈原则,以及综合使用多视图各个视图之间的公共表征和单个视图的特定表征,来学习得到一...论文旨在解决多视图表征学习的挑
  • 基于随机遮挡辅助深度表征学习的车辆再辨识.pdf
  •   ...网络表征学习的目标是把网络中的每个节点表示成为个低维稠密的向量并且保证在这个低维空间上能够很好地保留网络的拓扑结构节点表示能够当作节点的特征用于节点分类、节点聚类、网络可视...
  • 基于异构信息网络表征学习的推荐方法.pdf
  • 针对隐式反馈推荐系统的表征学习方法.pdf
  • 通过联合表征学习对人员重新识别进行深度排名
  • 中科院周少华教授:对深度学习自动化、通用表征学习的研究心得.pdf
  • 【深度学习理论】表征学习

    千次阅读 2018-03-09 11:12:02
    \qquad在机器学习中,特征学习或者是表征学习是学习特征的技术的集合:将原始数据通过特诊提取并运行机器学习进行有效的开发。在学习使用特征的过程中,也获得了如何去提取特征的能力。 \qquad在监督特征学习中,被...
  • 在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 41,515
精华内容 16,606
关键字:

表征学习