精华内容
下载资源
问答
  • end-to-end
    千次阅读
    2018-09-12 21:22:23

    来源:知乎
    著作权归作者所有。

    讨论:

    张旭--------------------------------->

     

    端到端指的是输入是原始数据,输出是最后的结果,原来输入端不是直接的原始数据,而是在原始数据中提取的特征,这一点在图像问题上尤为突出,因为图像像素数太多,数据维度高,会产生维度灾难,所以原来一个思路是手工提取图像的一些关键特征,这实际就是就一个降维的过程。
    那么问题来了,特征怎么提?
    特征提取的好坏异常关键,甚至比学习算法还重要,举个例子,对一系列人的数据分类,分类结果是性别,如果你提取的特征是头发的颜色,无论分类算法如何,分类效果都不会好,如果你提取的特征是头发的长短,这个特征就会好很多,但是还是会有错误,如果你提取了一个超强特征,比如染色体的数据,那你的分类基本就不会错了。
    这就意味着,特征需要足够的经验去设计,这在数据量越来越大的情况下也越来越困难。
    于是就出现了端到端网络,特征可以自己去学习,所以特征提取这一步也就融入到算法当中,不需要人来干预了。

     

    YJango---------------------------->

     


    经典机器学习方式是以人类的先验知识将raw数据预处理成feature,然后对feature进行分类。分类结果十分取决于feature的好坏。所以过去的机器学习专家将大部分时间花费在设计feature上。那时的机器学习有个更合适的名字叫feature engineering

    后来人们发现,利用神经网络,让网络自己学习如何抓取feature效果更佳。于是兴起了representation learning。这种方式对数据的拟合更加灵活。

    网络进一步加深,多层次概念的representation learning将识别率达到了另一个新高度。于是你听到了是个搞机器学习的人都知道的名字:deep learning。实指多层次的特征提取器识别器统一训练和预测的网络。

    end to end的好处:通过缩减人工预处理和后续处理,尽可能使模型从原始输入到最终输出,给模型更多可以根据数据自动调节的空间,增加模型的整体契合度。

    拿语音识别为具体实例。普遍方法是将语音信号转成频域信号,并可以进一步加工成符合人耳特点的MFCC进行编码(encode)。也可以选择Convolutional layers对频谱图进行特征抓取。这样可在encode的部分更接近end to end 中的第一个end。

    但识别出的结果并不可以告诉我们这段语音到底是什么。DNN-HMM混合模型还需要将DNN识别出的结果通过HMM来解码(decode)。而RNN-CTC就将HMM的对齐工作交给了网络的output layer来实现。在decode的部分更接近end to end 中的第二个end。

     

    王赟---------------------------->

    我的理解跟@YJango 不太一样。我就在语音识别的范围内说说我的理解吧。

    传统的语音识别系统,是由许多个模块组成的,包括声学模型、发音词典、语言模型。其中声学模型和语言模型是需要训练的。这些模块的训练一般都是独立进行的,各有各的目标函数,比如声学模型的训练目标是最大化训练语音的概率,语言模型的训练目标是最小化 perplexity。由于各个模块在训练时不能互相取长补短,训练的目标函数又与系统整体的性能指标(一般是词错误率 WER)有偏差,这样训练出的网络往往达不到最优性能。

    针对这个问题,一般有两种解决方案:

    • 端到端训练(end-to-end training):一般指的是在训练好语言模型后,将声学模型和语言模型接在一起,以 WER 或它的一种近似为目标函数去训练声学模型。由于训练声学模型时要计算系统整体的输出,所以称为「端到端」训练。可以看出这种方法并没有彻底解决问题,因为语言模型还是独立训练的。
    • 端到端模型(end-to-end models):系统中不再有独立的声学模型、发音词典、语言模型等模块,而是从输入端(语音波形或特征序列)到输出端(单词或字符序列)直接用一个神经网络相连,让这个神经网络来承担原先所有模块的功能。典型的代表如使用 CTC 的 EESEN [1]、使用注意力机制的 Listen, Attend and Spell [2]。这种模型非常简洁,但灵活性就差一些:一般来说用于训练语言模型的文本数据比较容易大量获取,但不与语音配对的文本数据无法用于训练端到端的模型。因此,端到端模型也常常再外接一个语言模型,用于在解码时调整候选输出的排名(rescoring),如 [1]。

    「端到端训练」和「端到端模型」的区分,在 [2] 的 introduction 部分有比较好的论述。

    与 @YJango 的答案不同,我觉得「输入是语音波形(raw waveform)」并不是端到端模型的本质特征,端到端模型的输入也可以是特征序列(MFCC 等)。端到端模型的本质特征是把声学模型、发音词典、语言模型这些传统模块融合在一起。

    参考文献:
    [1] Yajie Miao, Mohammad Gowayyed, and Florian Metze, "EESEN: End-to-End Speech Recognition using Deep RNN Models and WFST-based Decoding," in Proc. ASRU 2015.
    [2] William Chan, et al. "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition," in Proc. ICASSP 2016.

     

    陈永志-------------->
     

    我从目标检测角度来说说我对end-to-end的理解。

    非end-to-end方法:
    目前目标检测领域,效果最好,影响力最大的还是RCNN那一套框架,这种方法需要先在图像中提取可能含有目标的候选框(region proposal), 然后将这些候选框输入到CNN模型,让CNN判断候选框中是否真的有目标,以及目标的类别是什么。在我们看到的结果中,往往是类似与下图这种,在整幅图中用矩形框标记目标的位置和大小,并且告诉我们框中的物体是什么。
    这种标记的过程,其实是有两部分组成,一是目标所在位置及大小,二是目标的类别。在整个算法中,目标位置和大小其实是包含在region proposal的过程里,而类别的判定则是在CNN中来判定的。这种标记的过程,其实是有两部分组成,一是目标所在位置及大小,二是目标的类别。在整个算法中,目标位置和大小其实是包含在region proposal的过程里,而类别的判定则是在CNN中来判定的。

    end-to-end方法:
    end-to-end方法的典型代表就是有名的yolo。前面的方法中,CNN本质的作用还是用来分类,定位的功能其并没有做到。而yolo这种方法就是只通过CNN网络,就能够实现目标的定位和识别。也就是原始图像输入到CNN网络中,直接输出图像中所有目标的位置和目标的类别。这种方法就是end-to-end(端对端)的方法,一端输入我的原始图像,一端输出我想得到的结果。只关心输入和输出,中间的步骤全部都不管。

     

    杨楠---------------------->

     

    end-end在不同应用场景下有不同的具体诠释,对于视觉领域而言,end-end一词多用于基于视觉的机器控制方面,具体表现是,神经网络的输入为原始图片,神经网络的输出为(可以直接控制机器的)控制指令,如:

    1. Nvidia的基于CNNs的end-end自动驾驶,输入图片,直接输出steering angle。从视频来看效果拔群,但其实这个系统目前只能做简单的follow lane,与真正的自动驾驶差距较大。亮点是证实了end-end在自动驾驶领域的可行性,并且对于数据集进行了augmentation。链接:https://devblogs.nvidia.com/parallelforall/deep-learning-self-driving-cars/

    2. Google的paper: Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection,也可以算是end-end学习:输入图片,输出控制机械手移动的指令来抓取物品。这篇论文很赞,推荐:https://arxiv.org/pdf/1603.02199v4.pdf

    3. DeepMind神作Human-level control through deep reinforcement learning,其实也可以归为end-end,深度增强学习开山之作,值得学习:http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

    4. Princeton大学有个Deep Driving项目,介于end-end和传统的model based的自动驾驶之间,输入为图片,输出一些有用的affordance(实在不知道这词怎么翻译合适…)例如车身姿态、与前车距离、距路边距离等,然后利用这些数据通过公式计算所需的具体驾驶指令如加速、刹车、转向等。链接:http://deepdriving.cs.princeton.edu/

    总之,end-end不是什么新东西,也不是什么神奇的东西,仅仅是直接输入原始数据,直接输出最终目标的一种思想。

     

    胖子不胖------------------------>

     

    其实就是joint learning.

    end-to-end 的本质是你要解决的问题是多阶段的或多步的(跟所谓的raw feature没啥关系)。如果分阶段学习的话,第一阶段的最优解不能保证第二阶段的问题达到最优。end-to-end把他们堆在一起来优化,确保最后阶段的解达到最优。

     

    想飞的石头-------------------------->

     

    因为多层神经网络被证明能够耦合任意非线性函数,通过一些配置能让网络去做以前需要人工参与的特征设计这些工作,然后配置合适的功能如classifier,regression,而现在神经网络可以通过配置layers的参数达到这些功能,整个输入到最终输出无需太多人工设置,从raw data 到最终输出指标。

    更多相关内容
  • 提出Multimodal End-to-end TransformER framework,即METER,通过这个框架研究如何以一个端到端的方式( in an end-to-end manner )设计和预训练一个完全基于transformer的视觉语言模型。 端到端指的是输入是原始...

    摘要

    提出Multimodal End-to-end TransformER framework,即METER,通过这个框架研究如何以一个端到端的方式( in an end-to-end manner )设计和预训练一个完全基于transformer的视觉语言模型。

    端到端指的是输入是原始数据,输出是最后的结果,整个模型过程相当于黑箱操作;相反,非端到端的方法,数据的预处理部分是单独的模块,需要人工处理(如人工标注数据,人工提取图片特征)(笔者注)

    具体地,模型从多个维度被解剖(dissect)为:
    视觉编码器/vision encoders;
    文本编码器/text encoders;
    多模态融合模块/multimodal fusion module;
    结构设计/architectural design:encoder-only vs. encoder-decoder;
    预训练目标/pre-training objectives。

    introduction

    • Vision Transformer在VLP(vision-and-language pretrained)中的地位比language transformer更重要
    • cross-attention有益于多模态融合,在下游任务上的表现由于self-attention alone
    • 在相同的设置下,对于VQA和zero-shot的图文检索任务上,encoder-only的VLP模型比encoder-decoder模型效果更好
    • 在我们的设置下,在VLP中add masked image modeling loss并不会提升下游任务的性能

    METER框架

    overview

    给定一个文本I和一张图片V,
    一个VLP模型首先通过一个文本编码器和一个图片编码器抽取文本特征和图片特征。
    然后将文本特征和图片特征喂入一个多模态融合模块以获取跨模态表示。
    在生成最终输出前,跨模态表示选择性地喂入一个解码器。

    Model Architecture

    Vision Encoder

    在ViT(vision transformer)中,一个图片首先被分块,然后这些块被喂入transformer模型。
    在这篇文章中,分析并比较了以下ViT:
    the original ViT, DeiT, Distilled-DeiT, CaiT, VOLO, BEiT, Swin Transformer 和 CLIP-ViT.

    Text Encoder

    大部分的VLP模型仍然只使用BERT来初始化语言模型,在这篇文章中,分析并比较了以下BERT:
    BER, RoBERTa, ELECTRA, ALBERT, DeBERTa

    Multimodal Fusion

    在这里插入图片描述
    研究了两种融合方法:

    • merged attention:文本和图片特征简单拼接,然后喂入一个单一的transformer模块
    • co-attention:文本特征和图片特征分别喂入不同的transformer模块,并且使用cross-attention等技术实现跨模态交互

    architectural design

    在这里插入图片描述

    • encoder-only
    • encoder-decoder

    Pre-training Objectives

    • Masked Language Modeling
    • Image-Text Matching
    • Masked Image Modeling
    展开全文
  • 2022年1月 ... ... DETR《End-to-End Object Detection with Transformers》 Deformable DETR《Deformable Transformers for End-to-End Object Detection》 ...TransVOD 《End-to-End Video Object Detect..

    2022年1月

    https://arxiv.org/abs/2201.05047v3

    https://github.com/SJTU-LuHe/TransVOD.

    DETR《End-to-End Object Detection with Transformers》

    Deformable DETR《Deformable Transformers for End-to-End Object Detection》

    TransVOD 《End-to-End Video Object Detection with Spatial-Temporal Transformers》

    标题一脉相承

    本文笔记基于2021.5版本,比较老;新版的论文加入了TransVOD++,在此并未详述。

    1 简介

    DETR和Deformable DETR用于Object Detection,可以在减少人工设计的组件(非最大抑制、Anchor生成)的情况下仍然取得较好的效果。

    下图为DETR示意图

    而TransVOD就是将这种思想运用到VOD(video object detection)中,减少人工设计组件的数量,例如光流、RNN以及关系网络等。另外,本文的方法不需要进行后处理。

    2 网络结构

    对于当前帧,使用一系列视频帧作为输入,输出当前帧的检测结果。

    在DETR的基础上加上一个Temporal transformer。

    Temporal transformer由三个部分构成, Temporal Deformable Transformer Encoder (TDTE) ,Temporal Query Encoder (TQE) ,and Temporal Deformable Transformer Decoder (TDTD)。对于每一帧,这几个模块都是共享的,并通过端到端的方式进行训练。

    网络整体结构由以下四部分组成:

    • Spatial Transformer

    使用Deformable DETR作为静态图片的检测器,包括Spatial Transformer Encoder和Spatial Transformer Decoder,将每一帧编码成Spatial Object Query Qt和Memory Encoding Et。

    • Temporal Deformable Transformer Encoder (TDTE)

    编码时空信息,为最后的decoder输出提供位置信息。

    使用Temporal Deformable Attention采样部分有效信息,在时间维度上连接Memory Encodings Et,并抑制背景噪声。

    Temporal Deformable Attention的核心思想是只关注少部分关键的采样点,从而实现更加高效的特征聚合。

    下图中的详细解释与Deformable DETR原文基本一样,唯一的区别是l从指代输入特征层改为指代视频帧:

    • Temporal Query Encoder (TQE)

    将当前帧与其他参考帧的spatial object queries进行关联,利用参考帧来增强当前帧的输出。

    结合所有参考帧的spatial object queries,标记为Qref,以coarse-to-fine的方式来进行打分和筛选。利用一个额外的FFN来预测类别,然后计算

    根据p值对参考点进行排序,从这些参考点中选出top-k值。

    这些选出的值将会被送入feature refiners,与从不同帧中提取出的object queries进行交互,计算与当前帧输出的co-attention。

    将带有cross-attention模块的decoder层作为feature refiner,迭代地更新每个Spatial Transformer的输出queries,最后得到temporal object query,作为TDTD的输入。

    Tip:

    TopK是一种计算准确率的方法,在多分类任务中经常出现,如 cifar100 这个100分类任务中,衡量预测是否准确可以:

    1、Top1 准确率:直接对比网络计算得到的output中概率最高的那个类别和标签类别是否一致,如果一致则判断正确,否则错误。

    2、Top5 准确率:对比output中概率前五的类别中是否有标签的类别,有则判断正确,否则就是判断错误。

    很明显,K越大对于网络的评价标准越宽容。

    • Temporal Deformable Transformer Decoder (TDTD)

    TDTD以TDTE(fused memory encodings)和TQE(temporal object queries)的输出作为输入,输出当前帧最终的检测结果。

    下图中的具体解释与Deformable DETR原文完全一样:

    损失函数

    原始的DETR避免了后处理,并采用一个one-to-one的标签规则。

    用Hungarian 算法来match ground truth 和 TDTD的预测结果

    因此Spatial Transformer的训练过程与原始DETR一致。

    Temporal Transformer使用相似的损失函数。

    3 对比

    展开全文
  • 一篇MOT领域基于Transformer的工作,是第一个真正严格意义上端到端的多目标跟踪框架,超越了此前的TransTrack和TrackFormer等工作。后续的GTR也借鉴了此算法。

    简介(abstract)

    多目标跟踪的关键挑战在于轨迹上目标的时序建模,而现有的TBD方法大多采用简单的启发式策略,如空间和外观相似度。尽管这些方法具有通用性,但它们过于简单,不足以对复杂的变化进行建模,例如通过遮挡进行跟踪。 本质上,现有方法缺乏时间建模的能力。 这篇论文中,作者提出了MOTR,这是一个真正的完全端到端的跟踪框架。MOTR能够学习建模目标的长程时间变化,它隐式地进行时间关联,并避免了以前的显式启发式策略。基于Transformer和DETR,MOTR引入了track query这个概念,一个track query负责建模一个目标的整个轨迹,它可以在帧间传输并更新从而无缝完成目标检测和跟踪任务。时间聚合网络(temporal aggregation network,TAN)配合多帧训练被用来建模长程时间关系。实验结果表明MOTR达到了SOTA效果。

    介绍(introduction)

    多目标跟踪是在视频序列的每一帧中定位所有的目标并确定它们的移动轨迹的一个任务。多目标跟踪是极具挑战的一个任务,因为每帧中的目标都可能因为环境的变化而被遮挡,而且跟踪器要想进行长期跟踪或者低帧率的跟踪是比较困难的。这些复杂多样的跟踪场景为MOT方法的设计带来了诸多挑战。

    现有的多目标跟踪方法基本上都遵循tracking-by-detection(TBD)范式,它将轨迹的生成分为两个步骤:目标定位和时序关联。对目标定位而言,使用检测器逐帧检测目标即可。而对于时序关联,现有的方法要么使用空间相似性(即基于IoU关联)要么使用外观相似性(即基于ReID关联)。对于基于IoU的方法,计算两帧检测框的两两之间的IoU矩阵,若两个目标之间的IoU高于某个阈值则赋予同一个ID,如下图的(a)所示。基于ReID的方法思路类似,两帧之间目标两两计算特征相似度,具有最高相似度的两个目标赋予同一个ID,不过,单独训练一个检测器和ReID模型代价太大,最近的主流思路是一个模型联合训练检测和ReID分支,这类方法称为JDT(joint detection and tracking)方法,如下图(b)所示。

    在这里插入图片描述

    上述的时序关联方法都是启发式的,并且是相当简单的,因此它们难以建模长时间的物体复杂的空间和外观变化。本质上看,其不具备对时间变化建模的能力,这和深度学习“端到端学习”的理念是不一致的。这些方法也许大多数情况下工作正常,但是对于一些挑战性的场景缺乏鲁棒性,这些场景下IoU和外观是不可信的,而这些复杂场景才是MOT任务的关键。因此,作者为了解决这个问题,构建了一个不需要任何数据关联处理的端到端跟踪框架。

    同时本算法是基于DETR算法的,所以先简单介绍下DETR算法:

    如下图中的a所示,object queries作为object 代表,会和通过cnn以及encoder得到的image feature一起送入transfomer的decoder(cross attention)中,得到每一个object的bbox,cls等。这样object query就和GT中的object构成了一个bipartite matching问题,直接得到最终结果,而不需要后处理(NMS)

    在这里插入图片描述

    而MOTR则基于DETR算法,将object query扩展成track query。原因很明显,MOT任务是sequence prediction。所以我们将object prediction扩展成sequence prediction就可以了。其中sequence也就是我们常说的object trajectory,最终显式表示为一些列的bbox。

    我们再回过头看上图(b),当我们用track query表示track trajectory时,我们将track query和从当前帧得到的feature同时送入decoder中,track query作为隐藏层,影响着所有的跟踪结果,同时track query也会随着视频一帧帧的迭代,作为下一帧的track query。一个object如果和一个track query匹配上,则在其生命周期内,则其bbox结果都可以通过其track query解析出的的bbox,cls等表示。

    当然为了实现上诉算法,我们还有两个难点:

    1. 如何做到用给track query代表一个object trajectory
    2. 如何处理object 产生与消亡

    第一点很好解决,用同一个id的bbox去进行监督就好了。当然这里作者提出了个高大上的名字:tracklet-aware label assignment(TALA)。第二个实际用其他算法都有用到的一个query memory(track memory)就可以解决了。这里作者也起了高大上的名字:entrance and exit mechanism。当然具体细节我们后续再详说。

    除了上诉方法,作者为了增强模型的时间建模能力,还使用了CAL(collective average loss) 和 TAN(temporal aggregation network)。先简单解释下:

    CAL:训练的时候,使用video sequence作为输入,然后综合每一帧的loss,根据GT求个标准化结果,用来作为最终的loss,来backward。

    TAN:在track query输入到下一帧之前,会经过一个transformer的attention机制网络,起名temporal aggregation network,这个网络的输入还有历史的track queries,这样输出的new track query不就包含了过去的信息么。所以有了时间聚合的作用。

    相关工作(related work)

    都是常见的介绍,有需要可以看下原论文,主要讲了transformer在CV领域的应用,MOT现状以及iterative sequence prediction。

    理论(method)

    Query in Object detection

    主要讲了DETR算法用的object queries。熟悉DETR的已经了解了。简单概括:

    object queries会和image feature一起送入decoder,得到最终的cls,bbox等。同时用了bipartite matching匹配了object querie和gt。

    Detect query and track query

    在这里插入图片描述

    主要讲解了如何从detect query 扩展到track query。如上图所示,我们输入decoder的track query是有一部分的empty queries的,这些empty queries就承担了detect query的作用,用来生成新目标,也就是newborn。同时前一帧的detect queries 会作为下一帧的track queries。然后,和DETR不同的是,这里边track query的数量是不定的,会随着物体消亡而删除,是一个动态值。

    Tracklet-Aware Label Assignment

    文中有两个公式出现,但公式的实际意义不大,象征意义更多,我就不抄录了,感兴趣的可以自己去看下原文。

    简单讲下这个高大上的名词的内容。DETR中,没一帧的query和GT都是二分匹配的assignment。但本算法中,会存在newborn object以及继承上一帧的track object。所以这里就分两部分去做assignment。

    首先newborn object。用上文提到的track queries 中的empty queries作为DETR中的detect queries,与GT中的newborn object做bipartite matching。作为一个匹配结果。

    然后track object。直接上一帧的track matching 和 newborn matching的并集作为匹配结果就可以了。

    最后多说一句,为什么这样不会出问题,因为我们的backbone是transformer,attention机制呀,刚好能抑制检测的用来代表跟踪。

    MOTR Architecture

    在这里插入图片描述
    如上图所示,结构还蛮清晰的。论文不翻译了,我说下我的理解吧。训练的时候,是一个video sequence送入网络,对单帧来说,图像会先经过一个cnn(什么backbone都ok)网络,进行特真的提取融合,之后送入transformer的encoder得到最终要使用的feature,这一步在图中就是Enc表示的内容。接下来分两种情况,第一种,对第一帧来说,送入empty queries和空集的track queries和上诉的feature进行cross attention,也就是decoder得到要输入下一帧的track queries和prediction(也就是当帧结果)。第二种,对连续帧来说,送入empty queries和上一帧处理过的track queries,以及feature进行cross attention,得到最终结果。上边的empty queries在inference时,都是训练好的哦,就和DETR的object query一样。

    这里边还要简单说下,从上一帧得到的track query还要经过一个叫QIM的网络,这个网络用来聚合历史帧的信息,后续还会详细讲。

    Query Interaction Module

    object entrance and exit

    在这里插入图片描述

    在上面的叙述中,QIM负责接受上一帧的track query输出并生成当前帧的track query输入,在这一节将具体阐述Query Interaction Module(QIM)。QIM主要包括目标进出机制(object entrance and exit mechanism)和时间聚合网络(temporal aggregation network)。

    Object Entrance and Exit: 首先来看目标进出机制,我们知道,每个track query表示一个完整轨迹, 然而,一些目标可能在中间某一帧出现或者消失,因此MOTR需要输出一些边界框 { b o x i , … , b o x j } \left \{ box_i,\dots,box_j \right \} {boxi,,boxj}假定目标在 T i T_i Ti帧出现但在 T j T_j Tj帧消失。

    MOTR是如何处理目标进出的情况呢?在训练时,track query的学习可以通过二分图匹配的GT来监督。但是,在推理时,使用跟踪得分预测来决定一个轨迹的出现和消失。来看下图,这是QIM的结构图,对 T i T_i Ti帧而言,track query set q t i q_t^i qti通过QIM从 T i − 1 T_{i-1} Ti1帧生成,然后和empty query set q e q_e qe级联到一起,级联的结果继而输入到decoder并产生原始的包含跟踪得分的track query set q o t i q_{ot}^i qoti q o t i q_{ot}^i qoti随机被分割为两个query set,即 q e n i q_{en}^i qeni q c e i q_{ce}^i qcei,对目标的进入, q e n i q_{en}^i qeni中的query如果跟踪得分大于进入阈值 τ e n \tau_{en} τen则被保留,其余的被移除。对目标的退出, q c e i q_{ce}^i qcei的query如果跟踪得分连续M帧低于退出阈值 τ e x \tau_{ex} τex,将被移除,剩下的query则被保留。

    Temporal Aggregation Network

    如图四所示,TAN就是用来融合历史信息进入到当前帧的track query。简单来说上一帧的track query和当前帧的track query会作为key和query送入到的muti-head self-attention(MHA)中,然后当前帧的track query作为value进行操作,之后接一个FFN(约等于FC-layer),最后得到下一帧要用的track query。

    Collective average loss

    在这里插入图片描述

    Experments

    首先是和其他SOTA的比较,MOTR确实取得了相当不错的效果,相比此前基于Transformer的方法也有了不小的提高。
    在这里插入图片描述

    也进行了一些模块的消融实验,如下。

    在这里插入图片描述

    有什么问题和不足,欢迎指正交流~

    展开全文
  • 学习神经网络的时候,常常看到论文里说,这个网络模型是end-to-end trainable,end-to-end trainable是指什么样子的网络?不是很理解,所有在网上查找很多资料,来整理一下! 传统的语音识别系统,是由许多个模块...
  • 什么是end-to-end神经网络?

    千次阅读 2019-02-22 20:21:43
    端到端模型(end-to-end models):系统中不再有独立的声学模型、发音词典、语言模型等模块,而是从输入端(语音波形或特征序列)到输出端(单词或字符序列)直接用一个神经网络相连,让这个神经网络来承担原先所有...
  • 文章目录abstractmethodsstyle loss abstract motivation:控制TTS合成的韵律,并实现情感强度的显示可调节; methods Tacotron2-GMM attention框架 reference encoder:CNN block+GRU emotion classfier:7种情感...
  • 什么是end-to-end的模型

    千次阅读 2020-06-10 17:56:36
    端到端的模型目前很流行,那么什么是端到端的模型呢,有没有一个很比较明确的解释?在[1]中,作者是这样说的。 The entire model is trained ... We call this an end-to-end model because all the components of
  • 《Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech》 ICML 2021 Jaehyeon Kim, Jungil Kong, Juhee Son 摘要 一些基于单阶段训练和并行解码的端到端语音合成模型...
  • 简介 提出了可端到端训练的音视语音识别模型,输入waveform和唇部的每一帧,音视各通过一个conformer encoder后concat并FC得到融合特征,...包含front-end、back-end和fusion modules。 Front-end:视觉使用了将第一
  • 对于fully convolutional detectors,本文提出Prediction-aware One-To-One (POTO) label assignment,用于分类,以此实现端到端检测,取得了和NMS相近的表现。 并且,提出3D Max Filtering(3DMF),使用多尺度...
  • The architecture can be trained end-to-end and can be built upon any feed-forward neural network, is simple to implement, and is parameter efficient. We evaluate our approach on a variety of datasets...
  • FlowTrack CVPR2018
  • 谈谈端到端测试(End-to-End Testing)

    千次阅读 2021-02-13 13:10:16
    谈谈端到端测试(End-to-End Testing) 当今的软件系统是复杂的,并且与许多子系统相互关联。如果任何子系统出现故障,整个软件系统都可能崩溃。这是一个主要的风险,可以通过端到端测试来避免。 端到端测试是一种...
  • The aim of this book is to develop skills to effectively approach almost any data analysis problem, and extract all of the available information.
  • End-to-End Data Protection(Optional) E2E用来提供从应用程序到存储媒体再到应用程序自身的健壮的数据保护。如果这个可选机制被使能了,额外的保护信息(如:CRC)被添加到了Logical Block上面,这些保护信息被...
  • End-to-End Referring Video Object Segmentation with MultimodalTransformers 阅读笔记 论文下载地址 #1.摘要 参考视频对象分割(The referring vedio object segmentation ,RVOS)包含了对于给定视频帧中文本参考...
  • 仅作为记录,大量请跳过。 文章目录步骤参考 不可思议,只需两步就可以跑通目标检测的代码。 步骤 1、在coco官网下载数据集——解压缩——得到三个文件夹 解压缩后 ...linux用wget命令直接下载coco数据集 ...
  • End-to-End(端到端)的理解

    万次阅读 多人点赞 2019-06-13 18:04:40
    端到端是相较于非端到端而言的,那么什么是非端到端呢,简单来说,就是我们的输入数据首先经过人工处理,在喂给模型去训练。那么在这个过程中很有可能会出现人工提取的特征不准确或者偏差很大,导致再好的算法也无法...
  • 论文:https://arxiv.org/abs/2005.12872 代码:https://github.com/facebookresearch/detr 参考 https://blog.csdn.net/longxinchen_ml/article/details/86533005
  • ... 摘要:该算法简化了目标检测算法的流程,同时将那些需要手动设计的技巧nms(极大值抑制)和anchor成功的删除掉,实现端到端自动训练和学习。DETR算法使基于集合的全局损失函数,通过二部图匹配和编码解码网络结构...
  • DVC的pytorch版本进行环境和代码复现工作
  • Towards End-to-End Lane Detection: an Instance Segmentation Approach In IEEE Intelligent Vehicles Symposium (IV’18) https://github.com/MaybeShewill-CV/lanenet-lane-detection 以前的CNN网络将所有的车道...
  • End-to-End Object Detection with Fully Convolutional Network阅读笔记(一)Title(二)Summary(三)Research Object(四)Problem Statement(五)Method5.1 Prediction-aware One-to-one Label Assignment5.2 ...
  • 基于Attention机制的end-to-end语音识别模型 模型介绍 Listen (Encoder): 模型第一部分叫做Listener, 其input为常见的声学特征序列(mfcc/filterbank), output为经过提取后的高阶声学特征序列h = (h1,h2,h3,...)...
  • 提出的方法:In this paper, we propose a trainable end-to-end system called DehazeNet, for medium transmission estimation. DehazeNet takes a hazy image as input, and outputs its medium transmission map...
  • 论文题目:End-to-end representation learning for Correlation Filter based tracking, CVPR2017论文主页:http://www.robots.ox.ac.uk/~luca/cfnet.html源码链接:https://github.com/bertinetto/cfnet相关推导:...
  • 机器之心:就是他们说的 end-to-end。   田渊栋 :是的,end-to-end 端对端的学习。比如说自然语言这一块,并没有比以前的效果好太多,但整个流程变得很简单方便,将来进步的速度可能就会变快。比如机器翻译...
  • End-to-End Instance Segmentation with Recurrent Attention CVPR2017 https://github.com/renmengye/rec-attend-public本文针对 Instance Segmentation 使用 recurrent neural network (RNN) architecture 将每...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,747,098
精华内容 698,839
关键字:

end-to-end