精华内容
下载资源
问答
  • 在以太网设备中,通过PHY接RJ45时,中间都会加一个网络变压器,这个变压器的作用到底是什么呢?从理论上来说,是可以不需要接变压器,直接接到 RJ45上,也是能正常工作的。但是呢,传输距离就很受限制,而且当接到...
    在以太网设备中,通过PHY接RJ45时,中间都会加一个网络变压器,这个变压器的作用到底是什么呢?从理论上来说,是可以不需要接变压器,直接接到 RJ45上,也是能正常工作的。但是呢,传输距离就很受限制,而且当接到不同电平网口时,也会有影响。而且外部对芯片的干扰也很大。当接了网络变压器后,它主要用于信号电平耦合。其一,可以增强信号,使其传输距离更远;其二,使芯片端与外部隔离,抗干扰能力大大增强,而且对芯片增加了很大的保护作用(如雷击);其三,当接到不同电平(如有的PHY芯片是2.5V,有的PHY芯片是3.3V)的网口时,不会对彼此设备造成影响。

    如图是Gigabit Ethernet Transformer Datasheet 内部结构:

    680be25577dbd828853524f8.jpg


    总的来说,网络变压器主要有信号增强、信号杂波抑制和高电压隔离等作用。

    展开全文
  • Transformer什么位置信息?想summary一下,小白一枚。 首先,个人感觉LSTM有点像串行结构,其最明显的特点是按单词顺序一个一个进行编码的,比如我在人民广场吃炸鸡: input:[w1,w2,w3,w4,w5…w9] 但是在进行...

    前几天面试面试官问了我一个问题,Transformer的编码部分用的是attention,那么它会不会在编码后几个单词的时候丢失掉前面的信息?Transformer为什么要有位置信息?想summary一下,小白一枚。

    首先,个人感觉LSTM有点像串行结构,其最明显的特点是按单词顺序一个一个进行编码的,比如我在人民广场吃炸鸡:
    input:[w1,w2,w3,w4,w5…w9]
    但是在进行编码的时候隐状态h(t)的计算必须等到前t-1个隐变量计算完毕后才会开始计算,所以有点像串行结构。那么为什么LSTM模型后面词编码的时候会带有前面的信息呢?这是因为在计算h(t)时,是由w(t)、C(t-1)共同决定的,C(t-1)携带了前面单词的信息。

    反过来看attention,attention并不像LSTM那样有时序概念,所以在用attention的时候得有pos embedding, 而lstm并不需要。还是刚刚那个我在人民广场吃炸鸡例子:
    input:[w1,w2,w3,w4,w5…w9] word+pos-embedding
    然后计算得出key,query,value; key和query做点积,做softmax运算计算出相似度,相似度乘以value为最终结果。用pos-embedding的原因是attention是为了来理解语言的顺序。

    特别重要的一点:Transformer 与LSTM的一个明显区别:lstm作为rnn模型是迭代进行的,有语言顺序的,而Transformer是并行的,它没有时序关系。

    展开全文
  • 理解Transformer论文中的positional encoding,和三角函数有什么关系 关注这个问题有一段时间了,一直没有看到太满意的回答,来讲一下我的见解。首先,需要明确的是,建模位置信息(无论是绝对位置还是相对位置)并...

    理解Transformer论文中的positional encoding,和三角函数有什么关系

    关注这个问题有一段时间了,一直没有看到太满意的回答,来讲一下我的见解。

    首先,需要明确的是,建模位置信息(无论是绝对位置还是相对位置)并不是必须用到三角函数,否则fairseq和BERT中使用的positional embedding也不会奏效了。我想,作者在这里使用正余弦函数,只是根据归纳偏置和一些经验作出的选择罢了

    不妨从零构想一个位置编码的方法。首先,给定一个长为 [公式] 的文本,最简单的位置编码就是计数,即使用 [公式] 作为文本中每个字的位置编码了。当然这样的瑕疵非常明显,这个序列是没有上界的。设想一段很长的(比如含有500个字的)文本,最后一个字的位置编码非常大,这是很不合适的:1. 它比第一个字的编码大太多,和字嵌入合并以后难免会出现特征在数值上的倾斜;2. 它比一般的字嵌入的数值要大,难免会抢了字嵌入的「风头」,对模型可能有一定的干扰。

    从这里,我们知道位置编码最好具有一定的值域范围,这样就有了第二个版本:使用文本长度对每个位置作归一化,得到 [公式] 。这样固然使得所有位置编码都落入 [公式] 区间,但是问题也是显著的:不同长度文本的位置编码步长是不同的,在较短的文本中紧紧相邻的两个字的位置编码差异,会和长文本中相邻数个字的两个字的位置编码差异一致。这显然是不合适的,我们关注的位置信息,最核心的就是相对次序关系,尤其是上下文中的次序关系,如果使用这种方法,那么在长文本中相对次序关系会被「稀释」。

    再重新审视一下位置编码的需求:1. 需要体现同一个单词在不同位置的区别;2. 需要体现一定的先后次序关系,并且在一定范围内的编码差异不应该依赖于文本长度,具有一定不变性。我们又需要值域落入一定数值区间内的编码,又需要保证编码与文本长度无关,那么怎么做呢?一种思路是使用有界的周期性函数。在前面的两种做法里面,我们为了体现某个字在句子中的绝对位置,使用了一个单调的函数,使得任意后续的字符的位置编码都大于前面的字,如果我们放弃对绝对位置的追求,转而要求位置编码仅仅关注一定范围内的相对次序关系,那么使用一个sin/cos函数就是很好的选择,因为sin/cos函数的周期变化规律非常稳定,所以编码具有一定的不变性。简单的构造可以使用下面的形式

    [公式]

    其中 [公式] 用来调节位置编码函数的波长,当 [公式] 比较大时,波长比较长,相邻字的位置编码之间的差异比较小。

    这样的做法还是有一些简陋,周期函数的引入是为了复用位置编码函数的值域,但是这种 [公式] 的映射,还是太单调:如果 [公式] 比较大,相邻字符之间的位置差异体现得不明显;如果 [公式] 比较小,在长文本中还是可能会有一些不同位置的字符的编码一样,这是因为 [公式] 空间的表现范围有限。既然字嵌入的维度是 [公式] ,自然也可以使用一个 [公式] 维向量来表示某个位置编码—— [公式] 的表示范围要远大于[公式] (醉酒的鸟儿永远飞不回家)。

    显然,在不同维度上应该用不同的函数操纵位置编码,这样高维的表示空间才有意义。可以为位置编码的每一维赋予不同的 [公式] ;甚至在一些维度将 [公式] 替换为 [公式] …一种构造方法就是论文中的方法了

    [公式]

    [公式]

    这里不同维度上 [公式] 的波长从 [公式][公式] 都有;区分了奇偶数维度的函数形式。这使得每一维度上都包含了一定的位置信息,而各个位置字符的位置编码又各不相同。这里可以顺便为

    的疑问作一个可能的解释:为什么官方代码tensor2tensor的最初版本只是简单地分了两段,却没有什么性能差异呢?因为 [公式] 的交替使用只是为了使编码更「丰富」,在哪些维度上使用 [公式] ,哪些使用 [公式] ,不是很重要,都是模型可以调整适应的。

    当然,我觉得深究这里的三角函数形式的位置编码没有太大意义。因为至少现在看来:1. 这个函数形式很可能是基于经验得到的,并且应该有不少可以替代的方法;2. 谷歌后期的作品BERT已经换用位置嵌入(positional embedding)了,这可能说明编码的方案有一定的问题(猜测)。

    展开全文
  • 李宏毅——transformer

    千次阅读 2019-10-09 20:18:37
    李宏毅——transformer导读self-attentionmulti-head self-attention顺序问题seq2seq with attentiontransformer网络架构attention visualization例子 ...所以人提出了,CNN来替代RNN。 图中每一个三角...

    导读

    什么是transformer:
    在这里插入图片描述
    对于序列,常用的是RNN
    RNN的问题,不容易并行处理。
    所以有人提出了,用CNN来替代RNN。
    图中每一个三角形代表一个filter。
    但是CNN只能考虑有限的信息,比如图中只有三个,这种可以通过上层的叠加来考虑更多的信息。
    这种的好处是可以并行化,但是缺点是要叠很多层,才能看到长期的咨询。
    在这里插入图片描述
    所以的做法是self-attention
    它也可以输入是sequence,输出是sequence,它可以看到整个输入的序列,也可以同时计算。
    在这里插入图片描述

    self-attention

    首先出现在attention is all you need
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    是如何做平行化的呢?
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    multi-head self-attention

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    mult-head的优点是不同的head可以关注不同的信息,每个head各司其职

    顺序问题

    对self-attention来说,输入的次序是不重要的
    原paper中,使用人工设置的positional vector ei
    也可以在xi上append一个one-hot的vector,但是实际的效果是一样的。
    在这里插入图片描述
    Wp可以学习,但是实际上也是手工设置的
    如下图
    在这里插入图片描述

    seq2seq with attention

    seq2seq由encoder和decoder组成
    在这里插入图片描述
    其中的RNN可以由self-attention取代
    在这里插入图片描述
    具体思想可参考动画
    在这里插入图片描述

    transformer

    网络架构

    在这里插入图片描述
    在这里插入图片描述

    attention visualization

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    下面的head只考虑临近的关系,上面的考虑更多远的关系

    例子

    基本上可以用seq2seq的都可以用transformer
    比如从文章集合中生成wikipedia
    在这里插入图片描述
    universal transformer
    在深度上做RNN,每一层都是一样的transformer在这里插入图片描述
    transformer最早用在文字上,现在也可以用在图像上
    在这里插入图片描述

    展开全文
  • 一篇来自deepmind的paper: STABILIZING TRANSFORMERS FOR ...读后感:transformer在应对比较小的数据集时表现于LSTM相比并没有什么优势,然而在RL中数据集并不会像NLP中这么多,感觉将transformer用在RL效果。。...
  • Spatial Transformer Networks

    2018-09-20 18:06:45
    这篇论文自己也理解的不是很深,把自己的当时记的笔记拿出来和大家分享一下,有什么错误的地方希望大家指正。 一、abstract1 CNN的池化操作只有在很深的层次上才具有良好的形变容忍能力,而且能力有限,需要构建很...
  • transformer---李宏毅

    2020-04-13 01:33:48
    什么transformer?对于seq2seq模型,我们常用的是RNN,但我们所使用的RNN是按照时间步去计算的,缺少并行性,当我们的训练集很庞大时,我们的训练时间要很久,而李宏毅老师在视频里讲到,人提出CNN去替代RNN,...
  • 随着NLP的不断发展,对BERT/Transformer相关知识的研...3、不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题? 4、为什么BERT选择mask掉15%这个比例的词,可以是其他的比例吗? 5、为什么BE
  • 有什么可以借鉴 0. 前言 相关资料: arxiv github(非官方代码,只有结构没有结果) 论文解读 项目网站 论文基本信息 领域:时空行为检测 作者单位:卡耐基梅隆大学 & DeepMind 发表时间:CVPR 2019 1...
  • 上一节介绍了self-attention之后,一个问题,对self-attention来说,Input sequence的顺序好像没有什么用,因为对每一个Input Vector都做了attention,对每一个时间点来说,当前词的邻居或者很远的词,对他的影响...
  • 先说attention是什么。 attention也就是注意力机制,抽象来说是一种资源分配的方案,解决信息超载问题 注意力机制的计算可以分两步: 一、在所有输入信息上计算注意力分布 二、根据注意力分布来计算输入信息的...
  • 1、词表大小:由于 subword 的广泛...退一步讲,即便真的需要对 Softmax 进一步优化和加速,由于 HS 下面 2 & 3 所述的缺点,现在一般是 Noise Contractive Estimation 而非 HS。2、缓存友好性:HS 这个东...
  • 在自然语言领域,不论是什么问题,首先都会一种比较主流的操作,就是先对输入基于预训练的词向量做embedding,再一个结构(特征提取器)结合上下文去做多一次embedding,这样得到的词向量,就可以有效地反映出...
  • 根据通用近似定理,前馈网络和循环网络都很强的能力。但为什么还要引入注意力机制呢?计算能力的限制:当要记住很多“信息“,模型就要变得更复杂,然而目前计算能力依然是限制神经网络发展的瓶颈。 优化算法的...
  • 目录简介为什么用TransformerRNNCNNTransformerAttentionTransformer的图示query,keys和values以及输入序列的矩阵表示attention score的矩阵表示 简介 自从2014年seq2seq被提出以来,encoder和decoder框架一直被...
  • 接下来我就简单的讲下每部分代码都起到了什么作用,至于为什么要用到这些代码和这些代码主要是干什么的?大家可以看看我转载的这篇文章,模型中的代码在这篇文章中都讲到。 一. 位置编码 我们知道Transorflow优势...
  • 但是LSTM终究长期依赖问题,这是它的结构决定的,而self-attention的出现,既可以实现以上的目的,同时又避免了长期依赖问题,那为什么不用self-attention替代LSTM进行分析呢,这就是transformer提出的缘由。...
  • 词嵌入:将每一个词一个向量表示,语意相近的词他们的向量在控件的位置会比较接近。 解决一词多义的问题 根据词所在文本的上下文 1、EMLO Embeddings from Language Model Contextualized word embedding ...
  •  隔离变压器(Isolation transformer)俗称安全变压器,是指输入绕组与输出绕组带电气隔离的变压器,是以对两个或多个耦合关系的电路进行电隔离的变压器。隔离变压器一般用于机器维修、保养,起保护、防雷、滤波...
  •  隔离变压器(Isolation transformer)俗称安全变压器,是指输入绕组与输出绕组带电气隔离的变压器,是以对两个或多个耦合关系的电路进行电隔离的变压器。隔离变压器一般用于机器维修、保养,起保护、防雷、滤波...
  • transformer 时,遇到源码中用到了 Keras 的 TimeDistributed wrapper,但是参数量竟然与 Keras 的 Dense 中的参数是一样的,这就奇怪了,那么就数据来测试一下到底这两个东西啥区别吧。 首先,列出别人也...
  • 17种transformers

    2020-09-21 21:52:30
    萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI可高效处理长文本的模型Longformer、和堪称“升级版”Transformer的BigBird模型,到底有什么区别?打开百度APP,查看更多高清图片Transformer的其他各种变体(X-former...

空空如也

空空如也

1 2 3 4 5
收藏数 90
精华内容 36
关键字:

transformer有什么用