精华内容
下载资源
问答
  • 1.局部表示 咱们常见的离散型数值,符号等,用的都是局部表示;比如鸢尾花数据集的特征值,类别号; 还有一个常见的局部表示就是one-hot编码,把一些文字性的特征值进行编码。 优点: ①经过one-hot编码后,多种特征...

    1.局部表示

    咱们常见的离散型数值,符号等,用的都是局部表示;比如鸢尾花数据集的特征值,类别号;
    还有一个常见的局部表示就是one-hot编码,把一些文字性的特征值进行编码。

    优点:

    ①经过one-hot编码后,多种特征进行组合后,是一个稀疏的矩阵,当用于线性模型的计算时效率非常高
    ②离散的表示方式有很好的解释性,有利于人工归纳和总结特征

    缺点:

    ①经过one-hot编码后,两两特征之间的相关性就是0,无法正确表示出它们之间的相关性
    ②one-hot向量维度特别大,而且还不能扩展,如果进来一个新的特征值,就得再加一维

    2.分布式表示

    分布式表示最本质的就是嵌入,将高维数据压缩到低维表示,并且不改变它们之间的基本位置关系,拓扑关系
    eg:颜色的数据用RGB三个值来表示,不是使用one-hot对各个颜色值进行编码

    优点:

    能降低数据存储维度,用低维表示高维,压缩数据

    展开全文
  • 这是深度学习的一个基本概念,看到有一篇讲的不错的博文,大家可以看看,特此转载,链接如下:...one-hot编码和分布式表示的直观理解: one-hot编码 有5个样本分别是: 样本 特征 sample1 红色卡车...

    这是深度学习的一个基本概念,看到有一篇讲的不错的博文,大家可以看看,特此转载,链接如下:https://blog.csdn.net/mawenqi0729/article/details/80698780

    除此之外,我在举一个简单的例子,让大家有一个直观的理解。 这也是目前我对one-hot编码及分布式表示的理解。

    one-hot编码和分布式表示的直观理解:

    one-hot编码
    有5个样本分别是:

    样本特征
    sample1红色卡车
    sample2红色汽车
    sample3灰色卡车
    sample4灰色汽车
    sample5灰色卡车

    我们可以知道,这个例子中共有4种不同的状态,即红色卡车、红色汽车、灰色卡车、灰色汽车,于是我们用4位来表示各个状态,依次为(0,0,0,1),(0,0,1,0),(0,1,0,0),(1,0,0,0)。
    这就是one-hot编码,N个状态就用N位状态寄存器,并且在任意时候,其中只有一位有效。

    分布式表示

    那么分布式表示在上述例子中怎么做呢?
    将颜色作为一个特征,用两位来表示红色:0,灰色:1;车类型用两位来表示汽车:0,卡车:1
    这样一来4种状态只要两位来表示了,即红色卡车、红色汽车、灰色卡车、灰色汽车,依次为(0,1),(0,0),(1,1),(1,0)。也就是共享了一些参数。
    ————————————————————————————————————————————
    通过上述例子应该就能很直观的理解one-hot编码和分布式表示啦。下面在放另一篇文章的一个不错的例子,供大家理解只用。

    我们可以把左图看成是一般的聚类方式,右图看成是基于分布式表示的聚类方式。如左图所示,假设我们把整个的空间分成几个区域,那每一个区域可以由一组参数来描述(charaterize)。 比如在高斯混合模型(Gaussian Mixture Model)里,每一个混合模块(Mixture component)都由一组高斯分布的期望和协方差来(covariance)决定。相比之下,在右图中,每一个区域由三个子模块来表达。 这个时候我们只需要三组参数,而且每一个区域都会共享这三组参数,被称之为参数共享(parameter sharing)。 这个性质带来的一个重要的优点是 – 非局部泛化(non-localgeneralization). 我们需要知道机器学习的目的就是要在测试级上(test set)得到更好的泛化(bettergeneralization)效果 。 在左图中,我们只能得到局部泛化(local generalization), 即便这样,为了达到局部泛化的目的,我们需要对每个区域有足够多的例子(training examples)。除此之外,分布式表示可以有效地应对curse of dimensionality问题 。

    在这里插入图片描述
    ——摘自:https://www.jiqizhixin.com/articles/2019-02-01-3

    展开全文
  • 标签(空格分隔): 《基于深度学习的自然语言处理》阅读笔记 NLP ...  上面的话是书中的原文,用简洁的语言表示就是,分布式描述的是把信息分布式地存储在向量的各个维度中,与之相对的是局部表示

    标签(空格分隔): 《基于深度学习的自然语言处理》阅读笔记 NLP


    分布式表示

      书上说:在分布式表示中,每个实体被表示为值的向量,并且实体的含义及其与其他实体的关系由向量中的激活以及不同向量之间的相似性来捕获。在语音处理的上下文中,这意味着不应将词(和句子)映射到离散维度,而是映射到共享的低维空间,其中每个单词将与d为向量相关联,词将被其与其他单词的关系和其向量中的激活值所捕获。
      上面的话是书中的原文,用简洁的语言表示就是,分布式描述的是把信息分布式地存储在向量的各个维度中,与之相对的是局部表示,如词的独热表示(one-hot),在高维向量中只有一个维度描述了词的语义。
      一般来说,通过矩阵降维或神经网络降维可以将语义分散存储到向量的各个维度中,因此,这类方法得到的低维向量一般都可以称作分布式表示。

    分布表示(分布语义)

      书上说:其中一个词的含义可以从其在语料库中的分布中导出,即从其被使用的语境的总和中导出。在相似的上下文中出现的词倾向于具有相似的含义。
      简洁来说:分布描述的是上下文的概率分布,因此用上下文描述语义的表示方法都可以称作分布表示。
      更加形象的来说就是,词向量里面带有上下文的信息。

    展开全文
  • 比如:编程语言,早期的机器语言现在的高级程序语言可以看作是指令的两种不同表示方式,从可读性方面评价,两者的表达能力相差甚远。再比如:数据结构,其研究的正是数据在计算机中的高效表达与存储,如下图所示,...

    一个良好的表示是内容充分高效表达的基础,作为沟通计算机与现实世界的桥梁,计算机行业人员每时每刻都在研究事物的表示。比如:编程语言,早期的机器语言和现在的高级程序语言可以看作是指令的两种不同表示方式,从可读性方面评价,两者的表达能力相差甚远。再比如:数据结构,其研究的正是数据在计算机中的高效表达与存储,如下图所示,我们可以采用链表和红黑树两种不同的数据结构对有序表进行存储。

    在对有序表进行插入或删除操作时,链表的时间复杂度将是 O ( n ) O(n) O(n),因为需要将后续所有节点的移动。而采用红黑树存储时,其时间复杂度是 O ( log ⁡ n ) O(\log n) O(logn),因为每次操作只涉及左子树或右子树。从上面两个例子,我们可以总结,一个良好的表示可以使后续任务更加容易,选择什么样的表示取决于后续任务。

    表示学习(Representation Learning)

    个人认为,表示学习是深度学习领域的一个概念,是学习数据表示的技术的集合,用于将现实世界中的数据转化成能够被计算机高效处理的形式。与之相对应,在机器学习领域,数据表示主要通过特征工程(feature engineering)实现,如下图所示:

    在机器学习时代,我们如果需要对汽车进行表示,往往依靠的是领域专家手工提取特征并表示;在深度学习时代,我们直接将汽车输入模型,汽车将自动转换成高效有意义的表示。

    • 特征工程:依靠专家提取显式特征,工程量巨大,特征选取的好坏将直接决定数据表示的质量,从而影响后续任务的性能。
    • 表示学习:采用模型自动学习数据的隐式特征,数据表示与后续任务往往是联合训练,不依赖专家经验,但需要较大的训练数据集。

    分布式表示(Distributed Representation)

    在对数据进行表示前,我们需要先确定表示方案,或者说采用哪种表示思想对数据进行表示。有了目标,我们才能训练对应的模型。假设我们对以下四种形状进行表示

    最直接的想法是对每一个形状分配一个标识符,但是符号计算机无法识别,我们稍微转变一下,将每个标识符与向量中的每一个分量对应,因此将形成一个长度为4的向量,表示每一个形状时,向量中对应的分量置1,其他分量为0。如下图所示:

    可以看到,上面的表示中,每个向量只有一位为1,其余都是0,是一种非常稀疏的表示。当有 n n n个形状需要表示时,向量的长度将达到 n n n维,是一个非常高的维度。从计算机存储的角度看,这种表示方案是对每个形状分配一个独立的内存单元进行存储,所以将其命名为局部表示(Local Representation)。

    局部表示还是简单的在个体层面上表示数据,我们可以通过提取更细粒度的特征来表示数据,例如,我们采用四种特征“水平”、“垂直”,“四边形”和“椭圆”对形状进行描述。因此,“横着的四边形”可以采用特征“水平”与“四边形”联合描述。类似于局部表示的向量形式,我们类似地将每一个特征对应到向量中的一个分量,我们同样将得到一个4维的向量,表示每个形状时,如果该形状拥有这个特征,向量中对应分量置1。如下图所示:

    可以看到,此时每个形状的向量表示中,将不再只有一位为1,向量表示相对稠密了一些。当有 n n n个形状需要表示时,向量只需要 ⌈ log ⁡ n ⌉ \lceil\log n\rceil logn维度,向量维度大大降低。从计算机存储的角度看,这种表示方案将每个形状的表示分配到多个内存单元中,所以将其命名为分布式表示(Distributed Representation)

    总结一下,局部表示与分布式表示对比如下:

    • 局部表示(Local Representation)
      • 每个内存单元存储一个数据,向量高维稀疏;
      • 向量中每个分量对应一个数据,各个分量相互排斥。
    • 分布式表示(Distributed Representation)
      • 多个内存单元共同表示一个数据,向量低维稠密;
      • 向量中每个分量单独没有意义,分量的组合才能表示具体数据。

    分布式表示 VS 局部表示

    现在我们将换一个角度理解表示:对输入空间的每个区域进行编码。

    1. 表示能力

    • 局部表示:长度为 n n n的向量,只能将输入空间划分为 n n n个区域
    • 分布式表示:长度为 n n n的向量,能给 O ( 2 n ) O(2^n) O(2n)个不同的区域分配唯一编码

    所以,相同维度的分布式表示相较于局部表示,能够将输入空间划分的更加细致,能针对更小的区域进行表示。

    • 局部表示:符号表示,任意两两概念之间的距离没有差别,无法表示数据之间的关联
    • 分布式表示:每个数据的向量表示中包含了数据间的相互关联信息,语义上相近的概念在距离上接近

    所以,分布式表示能够捕获数据间的语义相关性,并且这种捕获语义相似性的能力是分布式表示天然具有的,而不需要刻意训练。

    2. 参数数目
    无论是机器学习任务还是深度学习任务,我们都可以讲他们一般化为如下形式:

    第一层代表输入,第二层代表输出,输入与输出之间通过全连接连接。因此,对于 2 n 2^n 2n个数据

    • 局部表示:每个数据使用唯一的符号表示,向量长度为 2 n 2^n 2n,因此需要 2 n 2^n 2n个参数去识别 2 n 2^n 2n个区域
    • 分布式表示: O ( n ) O(n) O(n)个参数就能够明确表示 O ( 2 n ) O(2^n) O(2n)个不同数据,因此向量长度为 n n n,刻画 2 n 2^n 2n个数据只需要 n n n个参数

    所以,分布式表示相较局部表示能够显著减少模型参数数目,带来计算效率上的提升,参数数目少也意味着模型需要较少的训练样本。

    NLP中的分布式表示模型

    自然语言是一种符号表示,因此自然语言处理领域(NLP)首先要解决的就是词表示问题。沿袭上面介绍的局部表示与分布式表示,在NLP领域,单词也通常被表示成这两种形式,只不过在NLP中,局部表示更多被称为独热表示(one-hot representation),分布式词表示通常被称为词向量或词嵌入(word embedding)。这里主要关注分布式词表示,将简单介绍三种主要的分布式词表示模型的由来与训练。

    Distributional hypothesis

    Distributional hypothesis是指:具有相同上下文的词语,应该具有相似的语义。目前,所有的分布式词向量都是基于该假设训练得到的。根据建模的词与词的关系,可以将模型分为两大类:

    1. Syntagmatic models:关注词与词之间的组合关系,强调的是相似的词会出现在同一个语境中。
    2. Paradagmatic models:关注词与词之间的替换关系,强调的是相似的词汇拥有相似的上下文而可以不同时出现。

    下图展示了词与词之间的组合关系和替换关系

    1. Latent Semantic Analysis(LSA)

    LSA是一种Syntagmatic models,采用词-文档共现矩阵建模词语之间的组合关系。假设我们有语料doc1:“I love playing football.”、doc2:“I love playing tennis.”和doc3:“You love playing football.”。我们可以构建如下的词-文档共现矩阵:

    其中蓝色方框圈出的“love”与“playing”,因为这两个单词在三篇文档中都共现了,所以他们的向量表示很相似;而红色方框圈出的“football”与“tennis”,因为没有在一个文档中共现过,所以他们的向量表示差距很大。得到词-文档共现矩阵后,需要对齐进行处理才能得到低维稠密的词向量,具体地,LSA采用了矩阵奇异值分解(SVD):
    A m × n = U m × m S m × n V n × n T ≈ U m × r S r × r V r × r T A_{m\times n}=U_{m\times m}S_{m\times n}V^T_{n\times n}\approx U_{m\times r}S_{r\times r}V^T_{r\times r} Am×n=Um×mSm×nVn×nTUm×rSr×rVr×rT

    取前 r r r个奇异值,最终得到的 U m × r U_{m\times r} Um×r就是我们想要的词向量。更多关系LSA的介绍可以参考《奇异值分解与LSA潜在语义分析》。

    2. Global Vector(GloVe)

    GloVe是一种Paradigmatic models,采用词-词共现矩阵建模词语之间的替代关系。同样是上面三篇文档,将窗口大小设置为1,我们可以构建如下图所示的词-词共现矩阵:

    矩阵中的元素值表示:在以行标所代表的词为中心词的窗口内,列标所代表的词共现的次数。如蓝框所示,“football“与”tennis”这两个具有很强替换关系的词具有相似的向量表示,而红框内的“love”与“playing”不具备替换关系,因此两者的向量表示相差甚远。GloVec通过最小化如下所示的损失函数将词-词共现矩阵转化为低维稠密词向量:
    J = ∑ i , j N f ( X i j ) ( v i T v j + b i + b j − log ⁡ ( X i j ) ) 2 J=\sum_{i,j}^Nf(X_{ij})(v_i^Tv_j+b_i+b_j-\log (X_{ij}))^2 J=i,jNf(Xij)(viTvj+bi+bjlog(Xij))2

    其中, X i j X_{ij} Xij是矩阵中第 i i i行第 j j j列个元素, v i v_i vi v j v_j vj是单词 i i i和单词 j j j的词向量, b i b_i bi b j b_j bj是偏差项, f f f是权重函数, N N N是词汇表大小。这个模型本人暂时还没有学习过,关于该模型的介绍后续再继续补充。

    3. Word2vec

    Word2vec是一种采用神经网络训练词向量的方法,其不需要构建词-上下文共现矩阵。Word2vec可以分为基于上下文预测当前词的continuous Bag-of-Words模型与基于当前词预测上下文的continuous Skip-gram模型。

    CBOW模型对应的损失函数如下
    ∑ w ∈ C log ⁡ p ( w ∣ C o n t e x t ( w ) ) \sum_{w\in C}\log p(w|Context(w)) wClogp(wContext(w))

    Skip-gram模型对应的损失函数如下
    ∑ w ∈ C log ⁡ p ( C o n t e x t ( w ) ∣ w ) \sum_{w\in C}\log p(Context(w)|w) wClogp(Context(w)w)

    可以看到上面两个模型结构都非常简单,只有输入层、映射层和输出层,没有隐含层,词向量对应于输入层到映射层的参数。具体地关于模型训练的技巧,可以参考《word2vec之CBOW模型与skip-gram模型

    参考文献

    「特征工程」与「表示学习」
    神经网络如何学习分布式表示
    DL4NLP——词表示模型(一)表示学习;syntagmatic与paradigmatic两类模型;基于矩阵的LSA和GloVe

    展开全文
  • **2.**分布式表示(distributed represention):分布式描述的是把信息分布式地存储在向量地各个维度,相对的是局部表示,如独热表示(只存在一个维度)。一般来说,通过矩阵降维或神经网络降维可以将语义分散存储到...
  • 综述 词向量与分布式表示

    千次阅读 2020-02-21 17:18:55
    从古老的one-hot表示法,到大热的Word2vec系列的分布式表示方法,再到现在惊艳的预训练模型ELMo、BERT等,技术迭代迅速,这其中包含许多内容需要我们学习,例如语言模型LM、Transformer、CBOW、SkipGram等等。...
  • 分布表示(distributional representation)与分布式表示(distributed representation) 说在前面:真不是绕口令。 分布表示(distributional representation) 分布表示(distributional representation...
  • 第十五章 表示学习 官网 英文 2020-3-24 深度学习笔记15 - 表示学习 1(贪心逐层无监督预训练-目前已经不太使用) 2020-3-25 深度学习笔记15 - 表示学习 2(迁移学习...分布式表示Distributed Representation 分...
  • 系统和分布式设计专题

    千次阅读 2019-02-09 17:10:11
    容错机制就是在任何连接、节点、进程错误的情况下保持操作正确、高效、弹性过程、可靠的通信、分布式提交、检查点恢复、协商共识、故障检测等一定容错的机制。 八、安全。分布式系统的安全包括安全通道、控制...
  • 写论文好纠结这两个东西的概念。。。对网上查到的资料进行以下整理。...分布式表示与分布表示 1.关于Manning 在2015 年深度学习暑期学校(蒙特利尔)的澄清 Distributed: A concept is represented as cont...
  • 在本文中,我们基于稀疏土地模型局部相似性提出了一种新颖的动态全局主成分分析(PCA)视频稀疏表示算法。 首先,在解码器处根据先前恢复的关键帧实现通过匹配进行分组。 其次,我们将PCA应用于每个组(子数据...
  • 分布式事务

    千次阅读 2021-04-07 21:39:07
    分布式事务
  • 分布式优化去中心化优化概述

    千次阅读 2020-07-31 18:43:58
    分布式优化去中心化优化概述 陆嵩 中科院 数学与系统科学研究院 科学与工程计算国家重点实验室 文章目录分布式优化去中心化优化概述简介预备知识优化基础理论梯度下降方法(GD)Gradient Descent步长选取收敛...
  • 分布式系统

    千次阅读 2020-05-23 15:23:35
    Redis 上一篇 主目录 下一篇 ...分布式系统基础 ...1 分布式系统 1、分布式系统定义 分布式系统是若干独立...分布式系统的最主要目标是使用户能够方便地访问远程资源,并且以一种受控的方式与其他用户共...
  • 分布式系统是一个包含有限进程有限消息通道的系统,这些进程通道可以用一个有向图描述,其中节点表示进程,边表示通道。如下图所示:p、q分别是进程,c, c’则是消息通道。 另外为了问题描述的简洁,对上述模型...
  • 分布式思想

    2020-11-02 15:00:24
    1 分布式思想 1.1 分布式分类 1.2 分布式计算 说明:一项任务由多个服务器共同完成,就叫分布式计算。 例子:假如一项任务单独完成需要10天,如果有10个人共同完成,则一天完成。大数据处理技术——一个任务拆出来,...
  • 之前收集了一个计算机科学精彩帖子收集,渐渐发现帖子越来越大,所以现在干脆把Java和分布式的部分单独一贴。 Java jdk下载 http://openjdk.java.net/projects/jdk8/ -----------------------...
  • 分布式调度(DS)是一种方法,它使局部决策者能够在整体系统目标的边界内创建考虑局部目标约束的调度。然后,通过协调沟通机制将来自系统不同部分的地方决策整合起来。分布式调度吸引了许多不同学科的研究人员的...
  • 分布式时钟全局状态

    千次阅读 2018-12-24 19:42:46
    元学习论文总结||小样本学习论文总结 ...分布式系统中各个节点要实现时间的同步,才能为很多其他系统提供基础,例如:审计电子商务,维护数据一致性,竞争锁等等。 计算机中,时钟分为低精度的时钟...
  • 分布式理论笔记

    2020-05-17 19:28:51
    分布式系统是一个硬件或软件分布在不同的机器上,彼此之间仅通过消息传递进行通信协调的系统。 通俗的理解,所谓分布式系统,就是将一个业务拆分成多个子业务,然后部署到不同的服务器节点,组成的一个完整的系统...
  • 分布式系统概述

    千次阅读 2018-06-17 19:08:00
    分布式系统概述 总结自:A Thorough Introduction to Distributed Systems 分布式系统概述 概述 什么是分布式系统 为什么需要分布式系统? 扩展数据库 继续扩展 陷阱 去中心化与分布式 分布式系统类型 分布式...
  • 分布式系统(4)分布式事务

    千次阅读 2021-03-30 22:05:40
    分布式事务一. 什么是分布式事务二. 分布式事务理论1. CAP 理论2. CAP为什么不能同时满足3. CP,AP还是CA3.1 舍弃A,保留CP3.2. 舍弃C,保留AP3.3 舍弃P,保留CA4. BASE 理论三. 分布式事务实现方式1. 2PC(两阶段...
  • elasticsearch分布式搜索分析引擎

    千次阅读 2019-01-28 15:23:28
    Easticsearch是一个基于Lucene的实时分布式搜索分析的引擎 . 用于云计算中快速搜索 , 稳定可靠又快速 . 它基于RESTful接口 Lucene是一个库 , 使用的时候需要用java语言集成到应用 . Lucene非常复杂 . Elastic...
  • 文章目录一、写在前面的话二、数据库的事务三、分布式环境的各种问题三、CAPBASE理论四、一致性协议(1)两阶段提交(2)三阶段提交(3)Paxos算法五、写在最后的话 一、写在前面的话 在分布式来临之前,主流是...
  • 分布式互斥中,分布式互斥博客地址,讲述了同一时刻,同一个临界资源只能同一个进程访问,为了维护数据的一致性,防止分布式系统中的多个进程之间相互干扰,我们需要一种分布式协调技术(某种机制)来对这些进程...
  • Angel是腾讯开源的一个分布式机器学习框架。是一个PS模式的分布式机器学习框架。 https://github.com/Angel-ML/angel 这是github地址。 我了解的分布式机器学习概述: 对于分布式机器学习,有些简单的了解,听过...
  • 事务,其实是包含一系列操作的、一个有边界的工作序列,有明确的开始结束标志,且要么被完全执行,要么完全失败,即 all or nothing。通常情况下,我们所说的事务指的都是本地事务,也就是在单机上的事务。 而...
  • 搞懂分布式技术1:分布式系统的一些基本概念

    千次阅读 多人点赞 2018-06-19 21:30:29
    小明的公司又3个系统:系统A,系统B系统C,这三个系统所做的业务不同,被部署在3个独立的机器上运行,他们之间互相调用(当然是跨域网络的),通力合作完成公司的业务流程。 将不同的业...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 44,849
精华内容 17,939
关键字:

局部表示和分布式表示