精华内容
下载资源
问答
  • Transformer改进

    2020-12-21 11:53:57
    Transformer改进Transformer简介Efficient Transformer简介Fixed PatternsCombination of PatternsLearnable PatternsMemoryLow-RankKernelsRecurrence性能比较 Transformer简介 Transformer的核心是self-...

    Transformer简介

    Transformer的核心是self-attention,通过计算输入序列中元素与其他所有元素的相关性来获取加权得分。但是这一步骤需要 O ( n 2 ) O(n^2) O(n2)的时间和空间复杂度,因为需要两个矩阵之间的每一项进行计算。
    标准Transformer结构如下,由编码器和解码器组成,其中最基本组成单位是Transformer-block.
    在这里插入图片描述
    Transformer-block可以由一下公式表达:
    X 1 = L a y e r N o r m ( M u l t i S e l f A t t e n t i o n ( X ) ) + X X_1 = LayerNorm(MultiSelfAttention(X)) + X X1=LayerNorm(MultiSelfAttention(X))+X
    X 2 = L a y e r N o r m ( F F N ( X 1 ) ) + X 1 X_2 = LayerNorm(FFN(X_1)) + X_1 X2=LayerNorm(FFN(X1))+X1
    这里 M u l t i S e l f A t t e n t i o n ( X ) = s o f t m a x ( α Q K T ) V MultiSelfAttention(X)=softmax(\alpha QK^T) V MultiSelfAttention(X)=softmax(αQKT)V
    F F N ( X ) = f e e d f o r w a r d F ( R e L U ( f e e d f o r w a r d F ( X ) ) FFN(X) = feedforwardF(ReLU(feedforwardF(X)) FFN(X)=feedforwardF(ReLU(feedforwardF(X))

    使用方法包括单纯的编码器可用于分类,解码器用于语言模型,编码+解码可以用于机器翻译。
    其中self-attention包括编码器和解码器各自的self-attention(分别是Multi-head self-attention和Masked Multi-head self-Attention),以及利用编码器进行解码的Multi-Head Cross_attention。
    在约束限制上,multi-head self-attention和Cross_attention可以是无因果关系限制(预测只来源于过去和现在token),Masked Multi-head self-Attention必须由因果关系。
    因为:Masked Multi-Head Attention的key, query, value均来自前一层decoder的输出,但加入了Mask操作,即我们只能attend到前面已经翻译过的输出的词语,因为翻译过程我们当前还并不知道下一个输出词语,这是我们之后才会推测到的。
    Multi-Head Attention的query来自于之前一级的decoder层的输出,但其key和value来自于encoder的输出,这使得decoder的每一个位置都可以attend到输入序列的每一个位置。

    Efficient Transformer简介

    18年-20年提出的Efficient Transformer方法。这里每一个圈代表一种方法,圈里的黑字代表基于这种方法(或多种)提出的具体模型。下表是一个具体的展现。

    在这里插入图片描述
    在这里插入图片描述

    Fixed Patterns

    将attention矩阵简单稀疏化,将原来全输入attention改为设定attention范围(如local windows,block patterns of fixed strides),具体包括:1)blockwise patterns,按照固定block树木划分输入2)Strided patterns,根据固定具体划分3)Compressed Patterns,使用一些合并运算对序列长度进行下采样,使其成为固定模式的一种形式

    Combination of Patterns

    通过组合两个或多个不同的访问模式(access patterns)来提高覆盖范围

    Learnable Patterns

    利用学习的方法进行FP,基于相似度将token划分到不同block.Reformer利用哈希相似度,Routing Transformer利用在线k-means

    Memory

    Low-Rank

    将self-attention矩阵转化为低秩矩阵,改善存储复杂度,如Linformer。
    注意,Albert是对输入层进行因式分解,而不是对QKV

    Kernels

    核的使用使self attention机制能够进行巧妙的数学重写,避免显式地计算NxN矩阵。由于核是attention矩阵的一种近似形式,因此也可以视为Low Rank方法的一种。

    Recurrence

    Transformer-XL

    性能比较

    参考论文资料:Efficient Transformers: A Survey

    展开全文
  • Transformer及其改进型总结

    千次阅读 2020-09-09 17:38:20
    Transformer是Google提出的用来解决LSTM建模长期依赖乏力的问题全新架构模型,同时其网络架构的设计全部考虑如何并行化,包括self-attenion机制、multi-head self-attention机制、FFW全部都是可以并行计算的,Add&...

    Transformer是Google提出的用来解决LSTM建模长期依赖乏力的问题全新架构模型,同时其网络架构的设计全部考虑如何并行化,包括self-attenion机制、multi-head self-attention机制、FFW全部都是可以并行计算的,Add&Norm中Add类似预ResNet的shortcut,是为了解决深层模型梯度消失的问题,LayerNorm可以加速计算,这全部都是在为后面的大规模预训练模型做准备。Transformer的提出在NLP中具有里程碑式的意义,现在取得成功的Bert系列基于Transforner Encoder,GPT系列基于Transformer Decoder。这篇文章将不再赘述Tranformer的架构,想必大家应该已经跟熟悉了,这方面有大量的文章可供阅读。本篇博客聚焦于Transformer的改进路线,也是NLP面试常见问题。

    Transformer

    Attention is all you need
    完全图解GPT-2:看完这篇就够了(一)
    BERT大火却不懂Transformer?读这一篇就够了

    Transformer-XL

    Transformer作为一种特征提取器,在NLP中有广泛的应用。但Trm需要对序列设置一个固定长度,如果序列超过该长度,需要将句子划分成多个segment,训练的时候每个segment单独处理,各segment之间没有联系,最长的依赖关系长度就取决于segment长度。

    预测的时候会对固定长度的segment做计算,一般取最后一个隐向量作为输出,为了充分利用上下文关系,每做一次预测,就对整个序列向右移动一个位置,在做一次计算,这导致效率非常低。
    在这里插入图片描述

    • Segment-Level Recurrence
      为了解决上面提到的问题,Transformer-XL提出一个改进,对当前Segment进行处理的时候,缓存并利用上一个segment中所有layer的隐向量序列,这些隐向量序列只参与前向计算,不再进行反向传播,这就是所谓的Segment-Level Recurrence。
      在这里插入图片描述

    • Relative Position Encodings
      Vanliia Trm使用position embedding或者正弦/余弦函数来对位置进行编码,这是一种绝对距离位置编码,而Transformer-XL使用相对位置编码。
      A t t e e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k V ) Atteention(Q, K, V) = softmax(\frac{QK^T}{d_k}V) Atteention(Q,K,V)=softmax(dkQKTV)
      Q K T QK^T QKT可以分解为以下:
      在这里插入图片描述
      在这里插入图片描述

    U i U_i Ui U j U_j Uj即为绝对距离,替换为相对距离,得到以下计算公式:
    在这里插入图片描述

    • R R R表示相对距离,是一个 s i n sin sin函数,没有参数
    • u u u v v v都是可训练参数

    即对绝对距离做替换,一部分替换成sin函数,一部分替换成可训练参数。

    XL-Net

    在Transformer-XL的基础上,增加了排列语言模型和双流注意力机制,详见这里

    排列语言模型

    传统的自回归语言模型按文本顺序进行顺序建模,这无法充分利用上下文信息,所以才有了BERT这种双向模型。而XL-Net采用了排列语言模型来获取更多更丰富的信息。

    XL-NET最大化所有可能的序列的因式分解顺序的期望对数似然。
    在这里插入图片描述

    基于表征的双向注意力机制

    在这里插入图片描述

    • Content Representation内容表述,即 h θ ( x ≤ t ) h_{\theta}(x_{\leq t}) hθ(xt),下文本用 h z t h_{z_t} hzt表示,该表述和传统的transformer一样,同样编码了自身。
      在这里插入图片描述
    • Query Representation查询表述,即 g θ ( x z < t , z t ) g_\theta(x_{z<t}, z_t) gθ(xz<t,zt),下文用 g z t g_{z_t} gzt表示,该表述包含上下文信息 x z < t x_{z<t} xz<t(注意区别),和目标地位置信息 z t z_t zt,但是不包括目标的内容信息 x z t x_{z_t} xzt
      在这里插入图片描述
      在这里插入图片描述
    展开全文
  • 2019-11-27 05:02:16 作者 | 刘旺旺 编辑 | 唐里 TENER: Adapting Transformer Encoder for Name Entity Recognition ...Transformer 模型以其良好的并行性能力以及出色的效果,被广泛应用于n...

    2019-11-27 05:02:16

    命名实体识别新SOTA:改进Transformer模型

    作者 | 刘旺旺

    编辑 | 唐里

    TENER: Adapting Transformer Encoder for Name Entity Recognition

    链接:https://arxiv.org/pdf/1911.04474.pdf

    代码:暂无

    一.动机

    Transformer 模型以其良好的并行性能力以及出色的效果,被广泛应用于nlp领域的各大任务,例如机器翻译,预训练语言模型等。博客(https://zhuanlan.zhihu.com/p/54743941)也从多个方面,实验论证Transformer 模型优于CNN和RNN模型。然而,在NER任务上,Transformer的效果远不如BiLSTM。

    二.预备知识

    NER

    命名实体识别, 简称NER,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字,通常被看做是序列标注任务,现有主流的方法是使用神经网络来做,包括三个部分:词向量层,上下文编码层,解码层。

    Transformer

    Transformer layer包含两个部分:Multi-Head Attention (MHA) 和Position-wise Feed-Forward Network (FFN)。

    MHA:

    单个attention head计算方式:

    命名实体识别新SOTA:改进Transformer模型

    多个attention head计算方式:

    命名实体识别新SOTA:改进Transformer模型

    FFN:

    命名实体识别新SOTA:改进Transformer模型

    MHA层和FFN层之间,以及FFN层之后还包含一个残差连接和norm层。详细可见论文 https://arxiv.org/pdf/1706.03762.pdf

    三.解决方法

    论文分析了Transformer在NER任务上效果不好的原因,并提出了改进方法TENER (Transformer Encoder for NER)。

    Transformer在NER任务上效果不好的原因

    命名实体识别新SOTA:改进Transformer模型

    如Figure1所示,方向信息以及相对位置,对于NER任务是重要的。例如,“Inc”单词之前的词很有可能就是机构组织(ORG),“in”单词之后的词,很有可能是时间地点(TIME);并且一个实体应该是连续的单词组成,标红的“Louis Vuitton”不会和标蓝的“Inc”组成一个实体。但是原始的Transformer无法捕获这些信息。

    针对上述问题,论文提出了两点改进:

    (1)提出带有方向与相对位置信息的 atteniton 机制;

    (2)丢弃了原有 Transformerself-attention 的 scale factor,scale factor的引入是为了得到分布相对均匀的attention权重,但是在NER中,并不需要关注所有词。

    另外,除了使用 Transformer 来建模词级别的上下文信息,还使用 Transformer 来建模 character 级别信息。

    论文改进的TENER 模型

    命名实体识别新SOTA:改进Transformer模型

    1. 词向量层

    为了改善数据的稀疏性以及 oov 问题,NER任务通常使用 CNN 编码 character 序列来表示单词。与 Bilstm 相比,CNN在编码 character 序列上更有效,论文也探索了使用 Transformer 来编码 character 序列得到单词表征。最后的词向量表示,是 character 序列表征的单词与外部预训练词向量的拼接。

    2. 带有方向与相对位置信息的 atteniton 机制

    原始transformer encoder使用如下公式来获得位置向量:

    命名实体识别新SOTA:改进Transformer模型

    t是单词在文本中的位置,d是位置向量的维度,也是词向量的维度,

    命名实体识别新SOTA:改进Transformer模型

    。根据公式,分别计算位置向量中奇数维度和偶数维度的值。论文指出,根据公式(8)(9)得到的位置向量仅仅带有相对位置信息,而不包括方向信息证明如下:

    命名实体识别新SOTA:改进Transformer模型命名实体识别新SOTA:改进Transformer模型

    其中,

    命名实体识别新SOTA:改进Transformer模型

    是一个常量

    命名实体识别新SOTA:改进Transformer模型

    ;公式(11)到公式(12)由公式

    命名实体识别新SOTA:改进Transformer模型

    得到。由公式(13)可知,第t个位置的位置向

    命名实体识别新SOTA:改进Transformer模型

    与第t+k个位置的位置向量

    命名实体识别新SOTA:改进Transformer模型

    相乘,得到的结果只与相对位置k有关。并且,令

    命名实体识别新SOTA:改进Transformer模型

    ,可得:

    命名实体识别新SOTA:改进Transformer模型

    公式(14)(15)更进一步说明了,根据公式(8)(9)得到的位置向量仅仅带有相对位置信息,而不包括方向信息,fingure3也证明了这个结论。

    命名实体识别新SOTA:改进Transformer模型

    更重要的是,在计算self-attention时,仅能捕获的相对位置信息这一特性,也会消失。由公式(1)可知,在进行self-attention时,首先需要经过矩阵

    命名实体识别新SOTA:改进Transformer模型

    ,将H(位置向量和词向量的组合)转化到相应的空间。实际上,两个位置向量,进行的运算为

    命名实体识别新SOTA:改进Transformer模型

    命名实体识别新SOTA:改进Transformer模型

    被看成一个矩阵,可得

    命名实体识别新SOTA:改进Transformer模型

    )。随机采样得到两个W,绘出结果图,如fingure4所示,在没有进行矩阵转换时,位置向量可以捕获相对位置信息,经过矩阵转换后,即进行self-attention时,相对位置信息被破坏。

    命名实体识别新SOTA:改进Transformer模型

    论文使用如下公式代替公式(1)-(3)以及公式(8)(9),来计算self-attention,同时捕获相对位置信息和方向信息:公式(16)与公式(1)相比,K不再经过映射的;t是目标token的索引,j是上下文token的索引,公式(17)在进行位置编码时,引入了相对位置以及方向信息,距离为t(j=0)与距离为-t(j=2t)的两个位置的位置向量在奇数维度上是不同的,偶数维度上是相同的,如公式(20)所示。公式(18)在计算attention权值时,将词向量与位置向量分开计算(位置对NER任务来说时及其重要的),并且加了偏置项。公式(19)相比公式(3)去掉了

    命名实体识别新SOTA:改进Transformer模型

    命名实体识别新SOTA:改进Transformer模型命名实体识别新SOTA:改进Transformer模型

    问题是,K不再是经过映射的,所以K的维度是和词向量维度一样为d,是无法与

    命名实体识别新SOTA:改进Transformer模型

    (维度为

    命名实体识别新SOTA:改进Transformer模型

    )进行矩阵相乘的运算的。论文作者也表示,这里存在一些笔误,想要表达的意思是,计算每一个attention head从K(也就是H)依次选取0到

    命名实体识别新SOTA:改进Transformer模型

    维度, 到

    命名实体识别新SOTA:改进Transformer模型

    维度,依此类推。

    3. CRF layer解码

    同先前Bilstm,主要是为了将不同tag之间的依赖信息引入。给定输入序列:

    命名实体识别新SOTA:改进Transformer模型

    ,以及标注

    命名实体识别新SOTA:改进Transformer模型

    命名实体识别新SOTA:改进Transformer模型

    代表所有可能的标注序列。标注y的概率计算如下公式:

    命名实体识别新SOTA:改进Transformer模型

    其中,

    命名实体识别新SOTA:改进Transformer模型

    计算从标注

    命名实体识别新SOTA:改进Transformer模型

    到标注

    命名实体识别新SOTA:改进Transformer模型

    的转移分数以及的分数,优化的目标是最大化

    命名实体识别新SOTA:改进Transformer模型

    。解码时,使用维特比算法,选择概率最大的y。

    四.实验结果

    数据集

    命名实体识别新SOTA:改进Transformer模型

    在中文数据集上的结果(table1),中文的NER是直接基于字的:

    命名实体识别新SOTA:改进Transformer模型

    1. TENER的效果不仅优于原有的Transformer模型,而且优于基于CNN的模型和基于Bilstm的模型. 其中因为CAN_NER使用了100维的预训练的字向量和bigram向量,所以效果较好。

    2. Weibo数据集相对较小,因此不同的模型在这个数据集上的表现效果都比较差。TENER模型相比其他模型也提高了效果,这也表明,本论文提出的改进方法,对数据集的大小具有一定的鲁棒性

    3. 带scale factor的 self-attention 会使得结果变差。

    在英文数据集上的效果(table2):

    1. TENER在英文数据集上的效果不仅优于原有的Transformer模型,而且优于基于Bilstm的模型,并取得了当前最好的结果。

    2. 同样带scale factor的self-attention会使得结果变差。

    命名实体识别新SOTA:改进Transformer模型

    不同的character编码器和word上下文编码器的组合结果(table4):

    命名实体识别新SOTA:改进Transformer模型

    在两个英文数据集上,比较了不同的character编码器和word上下文编码器的组合结果,由table4可看出,在conll2013数据集上,基于CNN的character编码器+基于TENER的word上下文编码器取得了最好的效果;然而在OntoNote5.0上,全部使用TENER模型取得了最好的效果。但是无论使用什么样的character编码器甚至不使用character编码,换用TENER模型建模word上下文都可以提升效果。

    收敛速度的比较(figure5):

    命名实体识别新SOTA:改进Transformer模型

    TENER模型的收敛速度与Bilstm相等,比transformer和ID-CNN要快。

    五.总结

    1. 分析了Transformer 在NER任务上效果不好的原因

    2. 改进了Transformer的位置编码及self-attention部分(TENER模型),用于NER,取得了较好的效果,在两个英文数据集上,达到了当前最好的效果。

    3. 论文比较出彩的地方在于对Transformer 在NER任务上效果不好原因的分析。对self-attention的改进有点类似Transformer XL。

    展开全文
  • Swin-Transformer相较于VIT改进的方法: SwinT使用类似CNN中层次化构建方法,这样的backbone有助于在此基础上构建检测和分割任务,而VIT中是直接一次性下采样16倍,后面的特征图都是维持这个下采样率不变。 在SwinT...

    swin-Transformer

    Transformer越来越火,个人感觉基于Transformer来做视觉真是把矩阵用得出神入化!!

    img

    Swin-Transformer相较于VIT改进的方法:

    • SwinT使用类似CNN中层次化构建方法,这样的backbone有助于在此基础上构建检测和分割任务,而VIT中是直接一次性下采样16倍,后面的特征图都是维持这个下采样率不变。
    • 在SwinT中使用Windows Multi-head Self-Attention(WMSA)的概念,在上图中4倍下采样和8倍下采样中,将图片划分成了多个不相交的区域(window),而Multi-head Self-Attention 只在每个独立的window中操作,相对于VIT中直接对全局window进行Multi-head Self-Attention,这样做的目的是为了减少计算量,虽然SwinT提出的WMSA有节约计算量的能力,但是它是牺牲不同window之间的信息传递为代价的,所以作者又针对WMSA的缺点,提出了Shifted Windows Multi-head Self-Attention(SW-MSA),通过这样的方法能够让信息在相邻的窗口中进行信息传递!

    SwinT的网络架构图

    在这里插入图片描述

    • 首先将图片(H * W * C)输入到Patch Partition模块进行分块,实现方法用四倍下采样的,宽高/4,通道 * 16 ,再通过Linear Embedding层,该层也是通过conv实现的,主要实现的功能降通道(H/4,W/4,16*C)—> (H/4,W/4,C)
    • 然后就是通过四个stage构建不同大小的特征图,除了stage1中先通过Linear Embedding层外,其他三个stage都是通过Patch Merging层来下采样,然后都是堆叠重复的SwinT block,可以从(b)中看到,SwinT block中有两个结构W-MSA和SW-MSA,因为这两个结构都是成对使用的,所以可以看到堆叠的block都是偶数。
    • 最后对于分类网络,后面还会接上一个Layer Norm层,全局池化层以及FC层得到最终的输出。

    接下来分别对Patch Merging、W-MSA、SW-MSA以及使用到的相对位置偏执(relative position bias)进行详解,而SwinT block中使用的MLP结构和VIT中结构是一样的

    * Patch Merging 详解

    Patch Merging跟Yolov5中focus结构差不多,隔一个像素点为一个patch,这样宽高/2,C * 4,然后通过一个Layer Norm层,最后通过一个FC层在Feature Map的深度方向做线性变化(H/2,W/2,C*4)-> (H/2,W/2,C * 2) 。


    * W-MSA详解

    引入Windows Multi-head Self-Attention模块是为了减少计算量,实现思路:就是将一张图片分成多个window,window很多分patch(像素),每个patch只在该部分的window中做Multi-head Self-Attention。注意: W-MSA中每个window并没有信息的交互。

    * SW-MSA详解

    作者根据W-MSA中window之间不能进行信息交互做出了改进,提出了SW-MSA。

    在这里插入图片描述

    如上图所示,左侧为W-MSA在layer L使用,SW-MSA则在L+1层使用,因为从SwinT block中可以看到都是成对使用的,从左右两幅图对比能够发现窗口(Windows)发生了偏移,以这个↘偏移 M/2 个像素,这就解决了不同窗口之间无法进行信息交流的问题!!

    window个数有之前4个变成现在的9个了!!!!!!!!!!!!!!!!!

    作者采用Efficient batch computation for shifted configuration 这种计算方法,也就是将右图中每个window重新组合成4个window!但是一个问题是不同区域所带的信息不同,如果强制合并在一起的话容易造成信息混乱,作者解决的方式是新区域的像素不是原区域的像素的话,在计算QK后都减去100,这样在softmax后,这部分的像素与其他像素的联系则是0了,**注意:**计算完后还要把数据给挪回到原来的位置。

    模型参数配置详解

    在这里插入图片描述

    • win.sz 7 * 7表示使用的window大小

    • dim表示feature map的通道深度(或者可以说是token的向量长度)

    • head表示多头注意力模块中head个数

    展开全文
  • Transformer模型的改进

    千次阅读 2018-11-07 11:50:16
  • PVT金字塔视觉transformer (2021.2.24) 南京大学, 港大, 南理, IIAI, 商汤 PVT提出第一个用于不同像素级密集预测任务的视觉Transformer网络。 参考论文作者解读:https://zhuanlan.zhihu.com/p/353222035 论文地址:...
  • TPH-YOLOv5:基于Transformer检测头改进YOLOv5的无人机目标检测
  • TPH-yolov5–基于transformer改进yolov5的无人机目标检测 我是目录 这里是原文~~添加链接描述 本文在YOLOv5的基础上加入了一些新的技术,比如ViT、CBAM和一些Tricks(数据增广、多尺度测试等),最终命名为TPH-...
  • Transformer模型的改进-GPT

    千次阅读 2018-11-07 11:53:49
  • incorporating long term context 多头自注意力学习 时间复杂度是关于序列长度的 o(n^2)的,这就意味着使用vanilla ttransformers 去快速处理长序列变得非常棘手。...Transformer-XL Compressive Transfo
  • Swin Transformer

    2021-09-30 17:19:39
    论文:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Github:https://github.com/microsoft/Swin-Transformer ... ... 论文提出了Transformer改进版本..
  • 本文讨论一下Transformer中相对位置编码(Relative Position Embedding,RPE)的问题,首先聊聊Vanilla Transformer的编码方式为什么不包含相对位置信息,然后主要围绕三篇论文介绍在Transformer中加入RPE的方法。...
  • 本文中要介绍的Swin Transformer全名为Swin ...相比于Vision Transformer(讲解),Swin Transformer做出了几点改进: 层次化构建方法:使用了类似卷积神经网络中的层次化构建方法(Hierarchical feature maps),比如
  • 为了解决这一问题,提出了基于改进YOLOv3的火灾检测与识别的方法.首先构建一个多场景大规模火灾目标检测数据库,对火焰和烟雾区域进行类别和位置的标注,并针对YOLOv3小目标识别性能不足的问题进行了改进.结合深度...
  • 本文回顾了ViT的结构,总结了计算机视觉中的transformer的主要改进思路:改进分块,改进位置编码,改进Encoder,增加Decoder。每个思路下都介绍了相关的论文,介绍了这些论文的提出出发点和改进思路。 本文的目的不...
  • 感谢阅读腾讯AI Lab微信号第47篇文章,NLP领域三大顶会之一的EMNLP即将举办,腾讯AI Lab第2次参加,共16篇论文入选。本文将深度解读机器翻译模型改进的相关...
  • CNN使用Transformer

    2021-04-30 16:55:33
    目录1、torch.nn.Transformer()2 、CNN使用Transformer代码 1、torch.nn.Transformer() API解释参考:《pytorch中的transformer》 2 、CNN使用Transformer代码 注意: [1]nhead必须能被d_model整除(序列被几个头...
  • 具体而言,研究者使用此前的视觉 transformer(ViT)作为主干架构,将由 ViT 提供的词袋表征重组为各种分辨率下的类图像特征表征,并使用卷积解码器逐步将这些特征表征组合到最终的密集预测中。 Transformer 主干网络...
  • 使用以下命令生成虚拟的改进Transformer模型: python THUMT/thumt/bin/trainer_ctx.py --inputs [source corpus] [target corpus] \ --context [context corpus] \ --vocabulary [source
  • swin transformer解读

    万次阅读 多人点赞 2021-05-02 14:36:41
    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows --论文解读 论文信息、概要 Swin transformer是微软今年三月25日公布的一篇利用transformer架构处理计算机视觉任务的论文。源码仅仅公布...
  • Vision Transformer (ViT)

    2021-11-27 12:37:18
    Vision Transformer (ViT) 1. 回顾Transformer (TRM) transformer网络结构如下图所示: 左半部分为编码端;右半部分为解码端。(假设汉字翻译成英文)(括号内对应上图操作)。 编码端输入汉字。转化为数字 ...
  • 本文提出了一种新的视觉Transformer,称为Swin Transformer,它可以很好地作为计算机视觉的通用主干。将Transformer从语言转换为视觉的挑战来自这两个领域之间的差异,例如视觉实体的大小差异很大,图像中的像素与...
  •   在Transformer的代码实现的基础上,采用机器翻译数据,进行基于Transformer的机器翻译实战—数据集代码链接。 如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信! ...
  • ©PaperWeekly 原创 · 作者 |王馨月学校 |四川大学本科生研究方向|自然语言处理Transformer 在自然语言处理、计算机视觉、音频处理等许多人工智能领域都取得了...
  • 其他还有在position encoding、attention机制方面的改进,和CNN+Transformer的融合等等,有空再总结一波。 作者:mileistone https://www.zhihu.com/question/451860144/answer/1812073911 Swin Transformer最重要...
  • Transformer遇见U-Net!

    千次阅读 2021-07-10 00:51:53
    点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达作者:Amusi | 来源:CVer前言留给Transformer + U-Net 组合命名的缩写不多了...之前盘...
  • 【导读】本文探索了用于提升ViT性能的各种训练技巧。通过一系列实验对比、改进与组合,本文所提方案取得了SOTA方案,超越了EfficientNet、T2TViT、DeiT、Swin Tra...
  • 机器之心报道编辑:杜伟、陈萍微软亚洲研究院升级了 Swin Transformer,新版本具有 30 亿个参数,可以训练分辨率高达 1,536×1,536 的图像,并在四个具有代表性的基准上刷新纪录。在不久之前公布的 ICCV 2021 论文...
  • 一、目前存在的问题及相应的改进 1、3D卷积来提取时序特征的计算量问题 **问题:**在视频任务下,传统卷积方法中为了更好的提取时序特征,一般采用3D的卷积方式,其中的计算量不管怎么改进也避免不了计算量大的问题...
  • 与 FLAT 中的改进 Transformer encoder 不同的是,本文的作者提出了一种使用 Cross-Transformer 模块的 two-stream 模型。作者把汉字和包含汉字的词语看作一个“元(Meta)”,把每个汉字的包含的字根看做另外一个...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,901
精华内容 3,960
关键字:

transformer改进