精华内容
下载资源
问答
  • Multimodal Fusion(多模态融合

    万次阅读 多人点赞 2020-03-28 19:44:15
    多模态融合 (Multimodal Fusion) 一般来说,每一种信息的来源或者形式,都可以称为一种模态(Modality),目前研究领域中主要是对图像,文本,语音三种模态的处理。之所以要对模态进行融合,是因为不同模态的表现...

    在这里插入图片描述
    Jeff Dean:我认为,2020年在多任务学习和多模态学习方面会有很大进展,解决更多的问题。我觉得那会很有趣。

    多模态学习
    为了使人工智能进一步加强对我们周边事物的理解,它需要具备解释多模态信号的能力。一般多模态需要处理的任务主要如上图有:

    • 表征(Representation)。找到某种对多模态信息的统一表示,分Coordinated representations(每个模态各自映射然后用用相关度距离来约束表示),Joint representations(多个模态一起映射)。
    • 翻译(Translation)。一个模态映射到另一个模态,分example-based(有候选集,如检索任务),generative(Decoder-Encoder)。
    • 对齐(Alignment)。找模态子成份之间的关系,如某词对应某区域。分显式对齐和隐式对齐,Attention首当其冲。
    • 融合(Fusion)。整合信息。分model-agnostic(早晚融合),model-based(融合更深入),也是本篇要整理的内容。
    • 联合学习(Co-learning)。通过利用丰富的模态的知识来辅助稀缺的模态,分parallel(如迁移学习),non-parallel(迁移学习,zero shot),hybrid。

    上图来自多模态综述:Multimodal Machine Learning:A Survey and Taxonomy

    接下来重点介绍一些多模态融合方法。

    多模态融合 (Multimodal Fusion)
    一般来说,模态是指事物发生或存在的方式,多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式,都可以称为一种模态(Modality),目前研究领域中主要是对图像,文本,语音三种模态的处理。之所以要对模态进行融合,是因为不同模态的表现方式不一样,看待事物的角度也会不一样,所以存在一些交叉(所以存在信息冗余),互补(所以比单特征更优秀)的现象,甚至模态间可能还存在多种不同的信息交互,如果能合理的处理多模态信息,就能得到丰富特征信息。即概括来说多模态的显著特点是: 冗余性 和 互补性
    在这里插入图片描述

    传统特征融合算法主要可以分为三类:1.基于贝叶斯决策理论的算法 2.基于稀疏表示理论的算法 3.基于深度学习理论算法。传统方法不做整理,其中的深度学习方法按照融合的层次从下到上每一层都可以fusion:

    • pixel level。对原始数据最小粒度进行融合。
    • feature level 。对抽象的特征进行融合,这也是用的最多的。包括early 和 late fusion,代表融合发生在特征抽取的早期和晚期,如上图。early是指先将特征融合后(concat、add)再输出模型,缺点是无法充分利用多个模态数据间的互补性,且存在信息冗余问题(可由PCA,AE等方法缓解)。late分融合和不融合两种形式,不融合有点像集成学习,不同模态各自得到的结果了之后再统一打分进行融合,好处是模型独立鲁棒性强。融合的方式即在特征生成过程中(如多层神经网络的中间)进行自由的融合,灵活性比较高,如金字塔融合。
    • decision level 对决策结果进行融合,这就和集成学习很像了。
    • hybrid。混合融合多种融合方法。
      在这里插入图片描述

    就一些详细方法上,这篇文章主要整理部分博主自己看过的paper:

    • 基于矩阵;
    • 基于普通神经网络;
    • 基于生成模型;
    • 基于注意力;
    • 其他。如NAS,GAN,Graph等。
    • 融合矩阵和特征。
    • shuffle和shift等不需要额外参数的方法。

    TFN(Multimodal Tensor Fusion Network)
    首先是基于矩阵的TFN,TFN属于early fusion,是一个典型通过矩阵运算进行融合特征融合的多模态网络,即直接对三种模态的数据(如Text,Image,Audio)的三个特征向量X,Y,Z,进行: h m = [ h x 1 ] ⊗ [ h y 1 ] ⊗ [ h z 1 ] {h}_{m}=\begin{bmatrix}{{{h}_x}}\\{1}\end{bmatrix}\otimes\begin{bmatrix}{{{h}_y}}\\{1}\end{bmatrix}\otimes\begin{bmatrix}{{{h}_z}}\\{1}\end{bmatrix} hm=[hx1][hy1][hz1]

    便得到了融合后的结果m,如下图:
    在这里插入图片描述

    缺点:TFN通过模态之间的张量外积(Outer product)计算不同模态的元素之间的相关性,但会极大的增加特征向量的维度,造成模型过大,难以训练。

    LMF(Low-rank Multimodal Fusion)
    出自论文 Efficient Low-rank Multimodal Fusion with Modality-Specific Factors,ACL2018。是TFN的等价升级版,就具体模型如图。LMF利用对权重进行低秩矩阵分解,将TFN先张量外积再FC的过程变为每个模态先单独线性变换之后再多维度点积,可以看作是多个低秩向量的结果的和,从而减少了模型中的参数数量。
    在这里插入图片描述

    缺点:虽然是TFN的升级,但一旦特征过长,仍然容易参数爆炸。

    PTP (polynomialtensor pooling)
    出自论文,Deep Multimodal Multilinear Fusion with High-order Polynomial Pooling,NIPS 2019.
    以往的双线性或三线性池融合的能力有限,不能释放多线性融合的完全表现力和受限的交互顺序。 更重要的是,简单地同时融合特征忽略了复杂的局部相互关系。所以升级为一个多项式张量池(PTP)块,通过考虑高阶矩来集成多模态特征。即将concat的模型x N之后再做一个低秩分解。
    在这里插入图片描述
    关于对矩阵的操作还有一种处理方法,就是如下图这种两两组合的方式。图出自NEURAL TENSOR NETWORK(NTN),本来是做实体关系检测的,同样也是博主觉得觉得这种方法也挺有意思的。这个小模块的大致的思路就是,让我们把APO都各自看成三个模态吧,然后两两组合得到矩阵T1,T2,再继续组合最后得到U这个融合/预测的结果。
    在这里插入图片描述
    深度学习浪潮来袭后,可以在一定程度上缓解矩阵方法的缺点。

    DSSM(Deep Structured Semantic Models)
    DSSM是搜索领域的模型,属于late fusion。它通过用 DNN 把 Query 和 Title(换成不同的模态数据就行) 表达为低维语义向量,并通过 cosine 距离来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测语义相似度,又可以获得某模态的低维语义向量表达。(可以将两个模态约束至统一表示空间,多模态协同表示。与之对应的多模态联合表示是先concat再FC)在这里插入图片描述
    其他玩法:可以在DNN的过程中,用recurrent residual fusion (RRF) ,多个残差,然后将3次recurrent的结果与最开始的输入concat起来,最后将concat得到的结果做融合。

    Dynamic Fusion for Multimodal Data
    以上的融合方法都太过“生硬”,能否有更好更自然的融合方法呢?AE(autoencoder)首当其冲,如图左图,先把所有模态fc即encoder,再用decode还原特征,最后计算特征之间的损失。

    有了AE,GAN的出现不会太迟。如图右图,将不采用固定的模态融合方法,而是自动学习“how”融合。先对video和speech转换完成后,和text进行对抗(video往往和speech是搭配的,所以先融合)。
    在这里插入图片描述
    另外在CVPR2019,有一篇–MFAS:Multimodal Fusion Architecture Search,首次用神经架构搜索做how融合。

    MFN(Memory Fusion Network)
    出自Memory Fusion Network for Multi-View Sequential Learning,AAAI 2018。
    17,18年是注意力机制开始统治学术界的一年,很多工作都做了这方面的工作。MFN就是一种使用“Delta-memory attention”和“Multi-View Gated Memory”来同时捕捉时序上和模态间的交互,以得到更好的多视图融合。模型图如下,用memory的目的是能保存上一时刻的多模态交互信息,gated过滤,Attention分配权重。
    在这里插入图片描述

    淘宝视频多模态应用
    淘宝视频的多模态信息也是十分丰富,而用LMF和TFN参数量往往会爆炸,就不得已要先将每个模态特征降维,然而降维本身是有损的,导致降维后的模态特征再外积不如直接利用不同模态间特征拼接。

    不过不要紧,淘宝也就提出了基于Modal Attention的多模态特征融合方法。Modal Attention是用法是,预测基于concat后的多模态联合特征对不同模态的重要性分布概率,再将分布概率与多模态融合特征做点积,得到对于不同模态特征重要性重新加权过后的新的多模态融合特征。
    在这里插入图片描述
    最后还想提一下的是一般的分类任务都只有单一的目标,而淘宝的标签体系是结构化分层的,所以他们在后面做了HMC(分层多标签分类器)用基于类别不匹配的多目标损失函数,即损失函数由一级类别,二级类别,一二级类别不匹配损失三个部分组成。

    Multi-Interactive MemoryNetwork
    这篇文章同样是用了Attention,使用Aspect-guided attention机制来指导模型生成文本和图像的Attention向量。使用的是和Attention很类似的记忆网络技术,具体如下图分为Textual和Visual Memory Network,然后通过GRU+Attention的多跳融合优化特征表达。

    其中的重点在于,为了捕获多模态间和单模态内的交互信息,模型又使用了Multi-interactive attention机制。即Textual和Visual在多跳的时候会相互通过Attention来融合信息(感觉很像Co-Attention的处理方法)。
    在这里插入图片描述
    其他玩法:不止是Co-Attention咯,就把Attention的其他各种变体一直到Transformer,BERT系列,各种预训练模型再应用一遍。。。不过这个属于专门的多模态预训练了在另一篇文章有整理:传送门

    Neural Machine Translation with Universal Visual Representation
    补上ICLR2020的文章,这一篇是对Transformer的变形咯,不过变的比较有趣。这篇文章做的是多模态机器翻译任务,即在原来的机器翻译上融入图片信息来辅助翻译,毕竟人类的语言各异,但是认知水平是一样的,对于同一副图像描述出的语义会是一致的。
    在这里插入图片描述
    做法比较干脆利落,在Transformer的Dncoder端把图片的表示也输入进去(即上图中中间那个部分),意思应该是以句子编码为Q(图中的表示是H),然后图像的特征为K和V,即在图像中找语义相似的部分做Attention的fusion,最后一起送到Decoder端做翻译。

    Adversarial Multimodal Representation Learning for Click-Through Rate Prediction
    继续补上一篇WWW20’的阿里论文,虽然是做点击率预估,这里的融合方法非常有意思。

    以往的多模态融合要么将多个模态特征串联起来,相当于给每个模态赋予固定的重要性权重;要么学习不同模态的动态权重,用于不同的项如用Attention融合比较好,但是不同模态本身会有冗余性和互补性(相同的东西和不同的东西),即需要考虑不同的模态特性和模态不变特性。使用冗余信息计算的不同模式的动态权重可能不能正确地反映每种模式的不同重要性。

    为了解决这一问题,作者通过不同的考虑模态特异性和模态不变特征来考虑模态的非定性和冗余性。
    在这里插入图片描述
    所以在多模态融合(普通的Attention融合,即图中的MAF)旁边加上一个双判别器对抗网络(即图中的DDMA),即分别捕捉动态共性,和不变性。DDMA如下图:
    在这里插入图片描述
    双判别器是为了挖掘:

    • 各种模式共同特征的潜在模式(第一个D 识别可能来自共同潜在子空间的模态不变特征,跨越多种模式并强调已识别的模态不变特征,以进一步混淆第二个鉴别器)
    • 并推动各种模式之间的知识转让(第二个D 在模式之间学习跨多个模式的共同潜在子空间)。

    Cross-modality Person re-identification with Shared-Specific Feature Transfer
    继续继续补一篇新鲜的CVPR2020的文章,同样这篇文章是做行人重识别的,但是融合方法很有趣。

    还是沿着上一篇博文的思路,现有的研究主要集中在通过将不同的模态嵌入到同一个特征空间中来学习共同的表达。然而,只学习共同特征意味着巨大的信息损失,降低了特征的差异性。

    所以如何找不同模态间的 共性 和 个性?一方面不同模态之间的信息有互补作用,另一方面模态自己的特异性又有很强的标识功能。但是怎么把两者分开呢?即如何找到这两种表示。作者提出了一种新的跨模态共享特征转移算法(cm-SSFT):
    在这里插入图片描述
    (注:RGB图和红外IR图是两种模态)

    • Two-stream。特征提取器得到两个模态的特征。绿线是RGB,黄线是IR,这两部分是特性,然后蓝色部分是两者共享的modality-shared 共性。
    • Shared-Specific。对提取到的特征进行统一的特征表示。然后这里有个概念是Affinity modeling(博主的理解是相似度),使用共性common feature和特性specific feature建立成对亲和模型,目的是使得模态内及模态间的每个样本向关联。会拼接出一个统一的大方形(两个对角是特性,两个对角共性),和一个由RGB+共性+0和IR+共性+0拼接得到的Z。
    • shared-specific transfer network (SSTN)。确定模态内和模态间的相似性,并且在不同的模态间传播共享和特定特征,以弥补缺乏的特定信息并增强共享特征。这一部分借鉴了GAN进行消息传播,直观的理解是根据共享特征对不同模态样本的亲缘关系进行建模。
    • 在特征提取器上模块上又增加了两个项目对抗重建块(project adversarial and reconstruction blocks)和一个模式适应模块(modality- adaptation module),以获得区别性、互补性的共享特征和特定特征。1 模态鉴别器对每个共享特征的模态进行分类 2 特有特征投射到相同样本的共享特征上 3 将共享的和特定的特征拼起来。

    在这里插入图片描述
    Feature Projection for Improved Text Classification.
    共性和个性的文章还有这一篇,ACL 2020。基础思路是用特征投影来改善文本分类。直接看模型有两个网络,分别是projection network (P-net)和common feature learning network (C-net)。

    • C-net:提取common features,即抽取共性。fp表示初试特征向量,fc表示公共特征向量,这里将两者进行投影: f p ∗ = p r o j ( f p , f c ) f_p^*=proj(f_p,f_c) fp=proj(fp,fc)
    • P-net:计算净化的向量特征,即得到个性。这里是实现是通过将学习到的输入文本的信息向量投影到更具区分性的语义空间中来消除共同特征的影响。 f p ′ = p r o j ( f p , ( f p − f p ∗ ) ) f_p'=proj(f_p,(f_p-f_p^*)) fp=proj(fp,(fpfp))

    这里所谓的正交投影的做法是,将输入的特征向量fp投影到公共特征向量fc来限制公共特征向量的模,从而使新的公共特征向量fp*的语义信息仅包含xi的公共语义信息。然后相减两者再投影,就让最后的结果不是与公共特征向量fc正交的任何平面中的任何向量了。

    • code:https://github.com/Qqinmaster/FP-Net/

    MCF(Multi-modal Circulant Fusion for Video-to-Language and Backward)
    之前整理的工作要么是针对矩阵,要么是针对特征。这篇IJCAI的文章尝试同时使用vector和matrix的融合方式。
    在这里插入图片描述这篇文章最关键的点在于circulant matrix,具体的操作方式其实就是vector的每一行都平移一个元素得到matrix,这样以探索不同模态向量的所有可能交互。简单来说以V和C为视觉和文本特征,则有: A = c i r c ( V ) A=circ(V) A=circ(V) B = c i r c ( C ) B=circ(C) B=circ(C)得到矩阵之后再结合原特征做交互即可 G = 1 d ∑ i = 1 d a i ⋅ C G=\frac{1}{d}\sum^d_{i=1}a_i\cdot C G=d1i=1daiC F = 1 d ∑ i = 1 d b i ⋅ V F=\frac{1}{d}\sum^d_{i=1}b_i\cdot V F=d1i=1dbiV

    Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer Fusion
    补MM20的文章,这篇文章没有增加额外参数,而且仅在单网络下就完成了融合。首先作者指出现有多模态表示学习的两个问题:

    • 1 现有的多模态训练方法遵循一种常见的设计实践,即单个编码器分支专门针对某个模态(即一般都是双流的操作,这样往往参数会更多,而且两者的异质性没有统一),能否单流就能解决?
    • 2 多模态融合的关键要素包括如何设计融合函数和在哪里实现融合,但不管怎么设计,现有融合方法只适用于对称特征(博主 认为这同样也是从双流的视角得到的观点)。

    所以作者提出的解决方案为:

    • 私有化BN即可统一多模态的表示。由于BN层会在batch里面先激活,再与channel方向仿射参数进行转换得到偏置和方差,从这个角度来说,BN提供了可以把特征转换到任何尺度的可能性。 所以那么为什么不贡献网络参数,只私有化BN呢?这样就可以在单网络中完成多模态的表示。具体如下图,粉色的conv都是共享的,而不同模态的BN是私有的。
      在这里插入图片描述

    • 双向不对称fusion。用shuffle+shift的方式,以不增加参数的方式完成模态间的交互。channel shuffle操作加强了channel间的多模态特征交互,提高了整体特征表示能力,如下图a。而shift像素移位操作作为每个通道内空间方向的融合(这个其实就与上篇文章里面的circulant matrix很像了),倾向于增强空间特征识别,所以能在对象边缘捕获细粒度信息,特别是对于小目标,结构如下图b。同时,这两者都是无参数的!具体的融合方法如下图的c,在两个模态间做shuffle,同时完成不对称的shift。
      在这里插入图片描述

    Adaptive Multimodal Fusion for Facial Action Units Recognition
    继续补文章。来自MM2020的文章,同样的我们也只看融合部分的做法。文章题目中 自适应 的意思是模型可以自动从模态中选取最合适的模态特征,这样可以使模型具有鲁棒性和自适应性,而这一步骤是通过采样来完成的!

    • 即同时从三个模态的特征中进行采样。具体见图的后半段,单个模态得到特征后橫着拼接成矩阵,然后通过采样在每维上自动选取最合适的特征,并且可以通过多次采样得到更丰富的表示。
    • 不过值得注意的是,此时采样之后变成离散的了,无法进行梯度传播,所以作者借用了VAE里面重参数技巧,用Gumbel Softmax来解决了。
      在这里插入图片描述

    Attention Bottlenecks for Multimodal Fusion
    好久不见,继续更新21年的文章啦。这篇文章的融合方式是在两个Transformer间使用一个shared token,从而使这个token成为不同模态的通信bottleneck以节省计算注意力的代价,如下图是四种方式示意图。
    在这里插入图片描述

    • late fusion没有跨模态信息交互
    • mid fusion使用attention做交互,对后续的层有效
    • bottenleneck fusion即使用一个中间token来交互信息,对所有层有效
    • bottenleneck mid fusion如最右的图,在局部层中做shared token的交互

    这样做可以将多模态的交互限制在若干的shared token处。
    paper:https://arxiv.org/abs/2107.00135


    这篇博文好像越补越多了…不过如果您有其他有关多模态融合有意思的论文,欢迎在文章后面留言。

    另外,下一篇博文整理了在多模态领域中也很常见的应用领域:

    展开全文
  • 为了获得更好的三维模型检索分类性能,基于深度学习模型研究了多模态信息融合对三维模型的特征描述,在训练步骤提出相关性损失函数来指导不同模态之间的训练,提取更稳健的特征向量;最后将融合特征应用于三维模型的...
  • 异构信息空间中支持多模态融合实体搜索的多层时态数据模型
  • 多模态融合技术综述和应用

    千次阅读 多人点赞 2020-12-03 11:58:14
    文章目录多模态技术基础1,多模态融合架构(神经网络模型的基本结构形式)1.1联合架构1.2协同架构1.3编解码架构(自监督)2,多模态融合方法2.1早期融合2.2 晚期融合2.3混合融合3,模态对齐方法3.1显式对齐方法3.2...

    多模态技术基础

    参考论文:https://kns.cnki.net/kcms/detail/detail.aspx?doi=10.19678/j.issn.1000-3428.0057370
    参考文章:https://zhuanlan.zhihu.com/p/133990245

    深度学习多模态融合指机器从文本、图像、语音、视频等多个领域获取信息,实现信息转换和融合,从而提升模型性能的技术,是一个典型的多学科交叉领域。人们生活在一个多领域相互交融的环境中,听到的声音、看到的实物、闻到的味道等都是各领域的模态形式,为了使深度学习算法更加全面和高效地了解周围的世界,需要给机器赋予学习和融合这些多领域信号的能力。因此,研究者们开始关注如何将来自多领域的数据进行融合,以实现多种异质信息的互补。例如,对语音识别的研究表明,视觉模态提供了嘴的唇部运动和发音的信息,包括张开和关闭,从而有助于提高语音识别性能。因此,利用多种模式提供的综合语义对深度学习非常有价值。
    在机器学习中,我们已经知道模型学习的特征越多,种类越多效果越好。所以融合多模态的特征可以使得模型学到的特征越完整,也是符合人类进化的表现,人类在多种行动与决策都会综合多个模态信息,比如视觉、听觉、嗅觉等。
    多模态技术主要要素:表示(Representation),融合(Fusion)、转换(Translation)、对齐(Alignment)。由于不同模态的特征向量最初位于不同子空间中,即异质性差距,这将阻碍多模态数据在随后的深度学习模型中综合利用[3]。解决这一问题可将异构特征投影到公共子空间,其中具有相似语义的多模态数据将由相似向量表示。多模态融合技术的主要目标是缩小语义子空间中的分布差距,同时保持模态特定语义的完整性。

    1,多模态融合架构(神经网络模型的基本结构形式)

    多模态融合的主要目标是缩小模态间的异质性差异,同时保持各模态特定语义的完整性,并在深度学习模型中取得最优的性能。分为三类联合(Joint)架构、协作(Coordinated)架构和编解码(Encode-Decode)架构。三种融合架构在视频分类、情感分析、语音识别等许多领域得到广泛应用,且涉及图像、视频、语音、文本等融合内容,具体应用情况如下表 所示。
    在这里插入图片描述

    1.1联合架构

    联合架构是将单模态表示投影到一个共享语义子空间中,以便能够融合多模态特征。如下图所示,**每个单一模态通过一个单独的编码后,都将被映射到一个共享子空间中,**遵循这一策略,在视频分类[12]、事件检测[7]、情绪分析[13,14]、视觉问答[15,16]和语音识别[18]等多模态分类或回归任务中都表现出较优的性能。
    在这里插入图片描述
    多模态联合架构的关键是实现特征“联合”,最简单方法是直接连接,即“加”联合方法。该方法在不同的隐藏层实现共享语义子空间,将转换后的各个单模态特征向量语义组合在一起,从而实现多模态融合,如公式 z = f ( w 1 T v 1 + . . . + w n T v n ) z=f(w_1^Tv_1+...+w_n^Tv_n) z=f(w1Tv1+...+wnTvn)所示。
    其中z是共享语义子空间中的输出结果,v是各单模态的输入,w是权重,下标表示不同的模态,通过映射f将所有子模态语义转换到共享子空间。
    另外一种常用方法是“乘”联合方法,如文献[29]提出将语言、 视频和音频等模态融合在统一的张量(Tensor)中,而张量是由所有单模态特征向量的输出乘积构成的,如公式所示。
    在这里插入图片描述
    其中,z表示融合张量后的结果输出,v表示不同的模态, ⊗ \otimes 表示外积算子。
    尽管“加”联合方法简单且容易实现,但其特征向量语义组合易造成后期语义丢失,使模型性能降低。而“乘”联合方法弥补了这一不足,通过张量计算使特征语义得到更“充分”融合,最常见的方法是深度神经网络, 例如文献[17]的多模态情感预测模型由包括许多内部乘积的连续神经层组成,充分利用深度神经网络的多层性质,将不同模态有序安排在不同层中,并在模型训练过程中动态实现向量语义组合。

    多模态联合框架的优点是融合方式简单,且共享子空间往往具备语义不变性,有助于在机器学习模型中将知识从一种模态转移到另一种模态。缺点是各单模态语义完整性不易在早期发现和处理。

    1.2协同架构

    协同架构包括跨模态相似模型典型相关分析,其目的是寻求协调子空间中模态间的关联关系;由于不同模态包含的信息不一样,协同方法有利于保持各单模态独有的特征和排它性,如图 下图所示。
    在这里插入图片描述
    协同架构在跨模态学习中已经得到广泛应用,主流的协同方法是基于交叉模态相似性方法,该方法旨在通过直接测量向量与不同模态的距离来学习一个公共子空间[32]。而基于交叉模态相关性的方法旨在学习一个共享子空间,从而使不同模态表示集的相关性最大化[4]。
    交叉模态相似性方法在相似性度量的约束下保持模态间和模态内的相似性结构,期望相同语义或相关对象的跨模态相似距离尽可能小,不同语义的距离尽可能大。 例如: 文献[23]提出的模态间排名方法用于完成视觉和文本融合任务,将视觉和文本的匹配嵌入向量表示为, 融合目标用一个损失函数表示,如下面公式所示。
    在这里插入图片描述
    与其它框架相比,协同架构的优点是每个单模态都可以独立工作,这一特性有利于跨模式转移学习,其目的是在不同的模态或领域之间传递知识。缺点是模态融合难度较大,使跨模态学习模型不容易实现,同时模型很难在两种以上的模态之间实现转移学习。

    1.3编解码架构(自监督)

    编解码器架构是用于将一个模态映射到另一个模态的中间表示。
    编码器将源模态映射到向量 v 中,解码器基于向量 v 将生成一个新的目标模态样本。该架构在图像标注、图像合成、视频解码等领域有广泛应用。
    在这里插入图片描述
    目前,编解码器架构在研究中重点关注共享语义捕获和多模序列的编解码两个问题。为了更有效地捕获两种模态的共享语义,一种流行的解决方案是通过一些正则化术语保持模态之间的语义一致性。必须确保编码器能正确地检测和编码信息,而解码器将负责推理高级语义和生成语法,以保证源模态中语义的正确理解和目标模态中新样本的生成。为了解决多模序列的编码和解码问题,关键是训练一个灵活的特征选择模块,而训练序列的编码或解码可以看作一个顺序决策问题,因此通常会采用决策能力强的模型和方法解决。例如,深度强化学习(Deep Reinforcement Learning,DRL)是一种常用的多模序列编解工具[35]。

    与其它框架相比,编解码器框架的优点是能够在源模态基础上生成新的目标模态样本。其缺点是每个编码器和解码器只能编码其中一种模态。 此外,决策模块设计非常复杂,值得研究者进一步关注。

    2,多模态融合方法

    在这里插入图片描述
    将多模态融合方法分为两大类:模型无关的方法和基于模型的方法,前者不直接依赖于特定的深度学习方法,后者利用深度学习模型显式地解决多模态融合问题,例如基于核的方法、图像模型方法和神经网络方法等。
    模型无关的融合方法可以分为早期融合(即基于特征的)、晚期融合(即基于决策的)和混合融合。
    在这里插入图片描述

    2.1早期融合

    早期融合在提取特征后立即集成特征(通常只需连接各模态特征的表示)即特征融合。由于深度学习本质上会涉及从原始数据中学习特征的具体表示,这就导致了有时可能在没有抽取特征之前就需要进行融合,即数据融合。因此,特征层面和数据层面的融合都称为早期融合
    模态之间往往是高度相关的,但这种相关性在特征层和数据层提取难度都很大。文献[52]认为,不同的数据流所包含的信息之间往往在较高层次才能找到相关。例如,文献[53]提出多模态数据的早期融合不能充分展示模态之间的互补性,且可能导致冗余向量的输入。因此,研究者们通常采用降维技术来消除输入空间中的冗余问题,例如文献[54]中的主成分分析(Principal Component Analysis,PCA) 方法被广泛应用于多模态深度学习中的降维处理。此外,多模态早期融合方法还需要解决不同数据源之间的时间同步问题,文献[55]提出了几种解决同步问题的方法,如卷积(Convolutional)、训练(Training)和池融合(Pool Fusion)等,能很好地将离散事件序列与连续信号进行整合,实现模态间的时间同步。

    2.2 晚期融合

    晚期融合在每种模式输出结果(例如输出分类或回归结果)之后才执行集成。

    晚期融合也叫决策级融合,深度学习模型先对不同的模态进行训练,再融合多个模型输出的结果。因为该方法的融合过程与特征无关,且来自多个模型的错误通常是不相关的,因此这种融合方法往往受到青睐。目前,晚期融合方法主要采用规则来确定不同模型输出结果的组合,即规则融合,如:最大值融合(Max-Fusion)、平均值融合(Averaged-Fusion)、贝叶斯规则融合(Bayes Rule Fusion)以及集成学习(Ensemble Learning)等规则融合方法[56]。文献[55]尝试将早期和晚期融合方法进行比较,发现两种方法的性能优劣与具体问题有很大关系,当模态之间相关性比较大时晚期融合优于早期融合,当各个模态在很大程度上不相关时,例如维数和采样率极不相关,采用晚期融合方法则要更适合。因此,两种方法各有优缺点,需要在实际应用中根据需求选择。

    2.3混合融合

    混合融合结合了早期融合方法和单模态预测器的输出。
    混合融合结合了早期和晚期融合方法,在综合了二者优点的同时,也增加了模型的结构复杂度和训练难度。由于深度学习模型结构的多样性和灵活性,比较适合使用混合融合方法,在多媒体、图像问答任务、手势识别[57]等领域应用得非常广泛。例如,文献[58]的视频和声音信号融合过程中,先进行仅基于视频信号和仅基于声音信号的听深度神经网络模型训练,分别产生模型测结果,再将视频信号和声音信号的集成特征输入视听深度神经网络模型中,产生模型预测,最后采用加权方式整合各模型的预测,获得最终较好的识别结果。混合融合方法的组合策略合理性问题是提高模型性能的关键因素。例如文献[42]是利用该方法实现多媒体事件检测的典型应用,通过整合早期融合捕捉特征关系和晚期融合处理过拟合的优势,设计“双融合”的混合融合方案,达到 88.1%的准确率,是目前该领域最好的结果。

    3,模态对齐方法

    模态对齐是多模态融合关键技术之一,是指从两个或多个模态中查找实例子组件之间的对应关系。例如,给定一个图像和一个标题,希望找到图像区域与标题单词或短语的对应关系[72]。多模态对齐方法分为显式对齐和隐式对齐两种类型。显式对齐关注模态之间子组件的对齐问题,而隐式对齐则是在深度学习模型训练期间对数据进行潜在的对齐。

    3.1显式对齐方法

    1. 无监督方法
      该方法在不同模态的实例之间没有用于直接对齐的监督标签。例如,动态时间扭曲(Dynamic Time Warping ,DTW)[73]是一种动态规划的无监督学习对齐方法,已被广泛用于对齐多视图时间序列。 文献[74]是根据相同物体的外貌特征来定义视觉场景和句子之间的相似性,从而对齐电视节目和情节概要。上述两个研究成果都在没有监督信息的前提下,通过度量两个序列之间的相似性, 在找到它们之间的最佳匹配之后按时间对齐 (或插入帧),从而实现字符标识和关键字与情节提要和字幕之间的对齐。也有类似 DTW 的方法用于文本、语音和视频的多模态对齐任务,例如文献[75]使用动态贝叶斯网络将扬声器输出语音与视频进行对齐。
    2. 监督方法
      有监督对齐技术是从无监督的序列对齐技术中得到启发,并通过增强模型的监督信息来获得更好的性能,通常可以将上述无监督方法进行适当优化后直接用于模态对齐。该方法希望在不降低性能的前提下,尽量减少监督信息,即弱监督对齐。 例如,文献[76]提出了一种类似于规范时间扭曲的方法,主要是利用现有(弱)监督对齐数据完成模型训练,从而提升深度学习模型性能。文献[77]利用少量监督信息在图像区域和短语之间寻找协调空间进行对齐。文献[78]训练了一个高斯混合模型,并与一个无监督的潜变量图形模型一起进行弱监督聚类学习,使音频信道中的语音与视频中的位置及时对齐。因此,监督方法的对齐性能总体上优于无监督方法,但需要以带标注数据为基础,而较准确地把握监督信息参与程度是一个极具挑战的工作。

    3.2隐式对齐方法

    1. 图像模型方法
      该方法最早用于对齐多种语言之间的语言机器翻译, 以及语音音素的转录[79],即将音素映射到声学特征生成语音模型,并在模型训练期间对语音和音素数据进行潜在的对齐。构建图像模型需要大量训练数据或人类专业知识来手动参与,因此随着深度学习研究的进展及训练数据的有限,该方法已经用得不多。

    2. 神经网络方法
      目前,神经网络是解决机器翻译问题的主流方法,无论是使用编解码器模型还是通过跨模态检索都表现出较好的性能。利用神经网络模型进行模态隐式对齐,主要是在模型训练期间引入对齐机制,通常会考虑注意力机制。例如,图像自动标注应用中,在生成每个连续单词时[80],注意力机制将允许解码器(通常是 RNN)集中在图像的特定部分,该注意力模块通常是一个浅层神经网络,它与目标任务一起完成端到端的训练。该方法具备较好的潜力,目前已被广泛应用于语音数据标注、视频文本对齐和视频转录等多个领域[81]。但由于深度神经网络的复杂性,设计注意力模块具有一定的难度。

    4,开放数据与资源

    在这里插入图片描述

    多模态深度学习综述:网络结构设计和模态融合方法汇总

    基于注意力机制的融合方法

    基于双线性池化的融合办法

    应用1:多模态摘要(综合多模态信息生成内容摘要)

    多模态摘要(Multi-modal Summarization)是指输入多种模态信息,通常包括文本,语音,图像,视频等信息,输出一段综合考虑多种模态信息后的核心概括。目前的摘要研究通常以文本为处理对象,一般不涉及其他模态信息的处理。然而,不同模态的信息是相互补充和验证的,充分有效的利用不同模态的信息可以帮助模型更好的定位关键内容,生成更好的摘要。本文首先按照任务类型与模态信息是否同步对多模态摘要进行分类;接着介绍多模态表示中的一些基础知识;最后按照任务类型分类,简述了近几年多模态摘要在教学型视频、多模态新闻、多模态输入多模态输出以及会议中的相关工作。

    多模态摘要种类

    根据任务分类:
    (1)教学型视频摘要(How2),How2是一个教学型视频多模态摘要数据集,同时具有视频信息,作者讲解的音频信息,以及对应的文字信息,目标是生成一段教学摘要。
    (2)多模态新闻摘要旨在对一个包含文字,图片,视频的新闻进行摘要。
    (3)多模态输入多模态输出摘要(MSMO)是指输入是多模态的,包括了一段文字和一些相关的图片,输出不仅仅要输出文字摘要,还要从输入的图片中选择一个最合适的图片。(2、3)主要为中科院宗成庆老师和张家俊老师的工作。
    (4)多模态会议摘要,指给定一段会议,包含了会议的视频,每个参与者说话的音频信息,需要生成一个会议摘要。
    根据模态信息是否同步分类:
    (1)模态信息同步的多模态摘要,同步是指在每一个时刻,视频,音频,文字唯一对应。例如在一个会议中,某一个时刻,说话人的视频,说的词语,都是唯一对应的。

    (2)模态信息异步的多模态摘要,也就是多模态信息并非一一对应。例如一个多模态新闻,往往是最开始有一个视频,中间是文本信息,在段落之间会穿插一些图片,因此多模态信息是异步的。

    多模态表示基础

    多模态中的注意力机制

    论文:https://arxiv.org/abs/1704.06567
    下图是多模态注意力机制,在序列到序列框架下对多模态数据进行Attention。

    绿色和蓝色分别代表两种模态的编码端隐层表示灰色为解码器隐层状态,橙色为注意力向量。假设我们有多种模态的 Encoder,叫做 Multi Encoder,在编码之后,每一个模态会有一个向量序列隐层表示。论文共提出三种注意力机制:(1)第一种方法是flat,即平滑所有编码器端隐层表示。使用解码器隐层状态对平滑后的编码器隐层表示计算注意力得分,最终得到注意力向量;(2)第二种方法是 concat,利用解码器隐层状态分别对两个序列计算得分,并得到分别的注意力向量,然后将多个注意力向量进行拼接并转换到统一维度。(3)第三种方法是 hierarchical,首先得到两个模态对应的注意力向量,然后再利用解码器隐层表示对两个注意力向量计算权重分布,最后根据权重融合多个注意力向量。作者在多模态机器翻译任务上进行实验,发现 hierarchical 的方式是效果最好的,后人的工作基本采用的也都是 hierarchical 的注意力机制。

    多模态词表示(用非语言特征:视频、音频调整词语的表示 )

    论文地址:https://schlr.cnki.net/Detail/index/SJPD_04/SJPDC30D2BBA5D56D1AB09D357D1A3DEC122
    在这里插入图片描述
    比如上图,对于词语讨厌,讨厌在中文中是可以有很多含义的,比如真的讨厌,是一个负向的情感,也可能是女朋友的撒娇,是正向的情感。因此,仅仅根据文本,给定固定的词语表示可能会使得词语语义表示不充分,无法很好地利用到下游任务之中。论文认为引入多模态信息可以缓解这一问题。当我们提供一个白眼图片信息,讨厌词语表示可以被调整到蓝色点位置。当我们提供另一个图片信息,讨厌词语表示可以被调整到橙色位置。也就是利用非语言模态中的信息补充词语表示的语义信息,使得词语表示更加的合适,或者换一种说法:更加的多模态信息上下文敏感(context sensitive)。
    在这里插入图片描述
    整个多模态词表示模型被称为 RAVEN,分为三个模块。如图5,对于一个词语 sick,有一段对应的连续的视频和音频,分别利用现有的特征抽取工具进行特征抽取(FACET 和 COVAREP),最后得到每一个模态对应的特征表示,红色为视频特征表示,黄色为音频特征表示,绿色为词语特征表示。分别利用视频和音频表示与词语表示计算一个得分,根据该得分进行特征融合,得到一个非语言的偏移向量(紫色)。最终将该向量归一化之后加到词语向量上得到融入多模态信息的词语表示。作者在多模态情感分析和多模态对话情绪识别两个任务上进行实验,相较而言,在情感分析上结果较为显著。

    跨模态预训练
    最后这篇是周明老师组在 AAAI20 上提出来的多模态预训练模型。在这里插入图片描述
    输入部分包括了图片和文本两种模态的信息。对于图片,首先使用工具 Faster R-CNN 抽取其中的具体意义部分,例如卡车,树,马路等,同时会得到对应的特征向量表示及位置信息表示。如上图,模型输入分为三个部分。对于图片,词向量都是 [IMG],segment 都是 img,position 都是 1,除此以外,在进入模型之前需要额外输入:
    (1)每一个图片的特征向量;
    (2)图片位置特征。
    文本部分与 BERT 一致。预训练任务共有三个,其中 MLM 和 MOC 分别是遮盖文字和遮盖图片然后进行预测,VLM使用 [CLS] 标签表示判断输入的图片和文本是否是匹配的。

    教学型视频摘要

    本小节介绍教学型视频(How2)多模态摘要的相关论文:https://www.researchgate.net/publication/343759519_How2Sign_A_Large-scale_Multimodal_Dataset_for_Continuous_American_Sign_Language
    发表于 NIPS18,名字来源于 how to do sth,该数据集主要描述教学型视频,如图7,为一个高尔夫教学视频。该数据集包括了视频信息,作者讲解的音频信息,文本信息以及最终的摘要。一共包括了 2000 小时的视频,主题包括运动,音乐,烹饪等。摘要平均 2 到 3 句话。
    在这里插入图片描述
    在ACL19上提出了基础的多模态摘要模型用于教学型视频摘要任务,如上图。其模型包括了视频编码器,文本编码器与解码器。视频编码器采用的是 ResNext-101 3D 模型,可以识别 400 种人类的行为动作。文本编码器为基于 RNN 的编码器。在得到两种模态数据的隐层表示之后,结合层次化注意力机制生成最终摘要。实验证明融合文本与视频的模型可以取得最优的效果。

    多模态新闻摘要

    论文 Multi-model Summarization for Asynchronous Collection of Text,Image,Audio and Video

    https://www.aclweb.org/anthology/D17-1114.pdf
    在这里插入图片描述
    论文提出了一种抽取式多模态摘要的方法。抽取式摘要的目的是从句子集合中选取一个子集合作为最终摘要。那么对于多模态的输入来讲,这个句子集合分为两个部分。一个是文档句子,另一个是视频的 transcripts,共同作为句子集合,如图9。抽取式方法的核心是给每个句子一个打分。最简单的我们可以使用 TextRank,LexRank 这些基于相似度的方法给每个句子一个打分。但是现在引入了多模态的信息,因此我们可以利用这些多模态的信息进行改进。
    在这里插入图片描述
    作者在 LexRank 的基础上,融入视频特征和音频特征,将 LexRank 算法中的一些无向边修改为有向边,如图10。对于视频特征,作者认为当一个文档中的句子和一个 transcript 句子相似度高的时候,倾向于选择文档中的句子,因为文档句子更加的规整干净,而 transcript 噪音比较多,因此在计算相似度的时候是有方向性的。例如当 v1 和 v3 相似度高的时候,将权重从 transcript 传向文档句子,通过这种方式使得文档句子得分更高。对于音频特征,作者认为 transcript 句子都有与其对应的音频特征,例如:声学置信度,音频,音量。当一个 transcript 句子音频得分较高时,更应该被选择。因此当两个相邻的 transcript 句子音频得分一个高一个低的时候,会由得分低的句子把相似度权重传递给音频得分高的句子。通过融入视频特征与音频特征,每一个句子都会有一个得分。
    在这里插入图片描述
    作者的另一个假设是文档如果提供了图片,那么这个图片包含的应该是比较有用的信息,因此和图片对齐的句子得分应该高一些。如图11,当一个图片描述 “进口冻虾”时,右上角句子更应该被选做最终摘要句。除了文档中的图片以外,还会从视频中抽取一些关键 frame,简单来讲就是每个场景一个图片。利用图片和关键视频 frame,使用一个外部工具对齐图片和句子。最终每一个句子都可以得到对齐的得分。通过结合改进的 LexRank 得分与图文匹配得分进行最终的摘要句子选取。

    Multi-model Sentence Summarization with Modality Attention and Image Filtering

    https://www.ijcai.org/Proceedings/2018/577
    在这里插入图片描述
    论文提出了多模态句子摘要任务,输入句子和一张图片,输出一个句子摘要,如图12,并构建了任务数据集,作者利用现有 Gigaword 英文数据集去网上检索了每个句子对应的top5 的相关图片,然后又人工选取了其中最合适的一张。最终得到 train,valid, test 的划分分别是 62000,2000,2000。由于图片并非原来数据集自带,因此通过外部得到的图片也可能引入一定的噪音。

    在这里插入图片描述

    作者提出模型的重点也主要关注如何过滤图片噪音信息。模型核心包括了三个部分,如上图,句子编码器,图片编码器和解码器。句子编码器是一个双向 GRU,图片编码器是 VGG,分别会得到一个序列的隐层表示。在解码的时候,根据层次化注意力机制融合两个模态的注意力向量,最终生成摘要。这属于模型的基本部分。除此以外,为了过滤图片噪音信息,作者还提出了两种过滤机制:(1)第一种作用在图片注意力向量的权重上,相当于一个门,通过图片全局表示,解码器的初始状态与解码器的当前状态计算得到 0 到 1 之间的数值,进一步更新权重。(2)第二种作用在图片注意力向量上,利用上述三个部分计算得到一个向量,向量中的每一个部分都是 0 到 1 之间的数值,利用该门控向量过滤图片信息。最终实验发现第一种方式效果更佳。

    多模态输入多模态输出摘要

    在这里插入图片描述

    作者提出了一个新的多模态摘要任务,输入是多模态的,输出也是多模态的。具体为:输入文本以及几张相关的图片,输出对应的摘要,同时从输入图片中选取一张最重要的图片,如上图所示。
    作者提出的模型基础架构与之前类似,包括文本编码器,图片编码器,解码器以及层次化注意力机制。因为该任务的特点在于需要从输入图片中选择一个最重要的图片,作者设计了一种 Visual Coverage 机制来实现,这部分下面会详细介绍。同时作者为了衡量最终的摘要效果,提出了一个考虑多种模态的衡量指标 MMAE,ROUGE 针对文本,image precision 是指选择的图片是否在标准图片中,取值为 0 或 1。image-textrelevance 是指利用外部工具计算最终摘要与选择图片的匹配得分,最后使用逻辑斯蒂回归组合三种得分。为了完成该任务,作者构建了相关数据集,利用现有 Daily Mail 数据集,得到原始对应的相关图片,并使用人工选择至多三张图片作为标准图片。
    在这里插入图片描述
    上图展示了 Visual Coverage 机制的一个简单示例。在解码的每一步,会产生一个针对不同图片的注意力分布。当生成全部文本时,将之前所有步的注意力得分进行累加,选择累计得分最高的图片作为最终选择图片。
    在这里插入图片描述

    改论文作者认为之前的摘要模型仅仅利用文本标注进行训练,忽略了图片标注的利用。这篇工作除了利用摘要生成时候的文本损失,还利用图片选择的分类损失,如图16。具体来讲,在得到每一个图片的全局表示之后,与解码器的最后一个隐层状态进行相似度计算,然后归一化概率选择图片。但是目前的数据集具有多个图片标准标注,没有唯一的图片标注,因此为了在训练时提供图片监督信号,作者提出了两种构建唯一标注图片标注的方式:(1)ROUGE-ranking,对于每一个图片有一个与之对应的描述(caption),利用该描述与标准文本摘要计算 ROUGE 得分,最终选择 ROUGE 得分最高的描述对应的图片作为唯一标准标注图片;(2)Order-ranking,根据数据集中的图片顺序选择第一个。

    多模态会议摘要

    本小节介绍多模态会议摘要的相关工作。职员需要花费 37% 的工作时间用于参加会议,每个会议平均会陈述 5000 个词语。如此频繁的会议和冗长的内容给职员造成了极大的负担,因此会议摘要可以帮助快速的总结会议决策信息,提问信息,任务信息等核心内容,缓解职员压力,提高工作效率。但是仅仅利用会议文本信息是不够的,多模态信息,例如视频、音频可以提供更加充足和全方面的信息,例如有人加入了会议,离开了会议;通过一些动作,语音语调,面部表情,识别讨论是否有情绪,是否有争论等等。因此多模态会议摘要逐渐得到了人们的关注。
    主要有两篇论文:

    1.https://www.researchgate.net/publication/4027890_Multimodal_summarization_of_meeting_recordings

    在这里插入图片描述

    提出利用多模态特征来定位会议中的重要内容。如上图,一共从三个模态建立特征。音频方面,有两个特征,一个是单位时间窗口内,声音方向的变换次数以及声音幅度。视觉方面,是两个相邻的 frame 的亮度变化。文本方面是 TF-IDF 特征。通过结合上述三种模态的特征来最终定位关键内容。

    2.https://www.researchgate.net/publication/329855052_Fusing_Verbal_and_Nonverbal_Information_for_Extractive_Meeting_Summarization

    2018年论文,相比上文,融合了深度学习的思想
    在这里插入图片描述
    使用神经网络来完成抽取式会议摘要任务。融合视频信息,动作信息,声音信息以及文本信息来定位会议关键内容,如上图。

    https://www.aclweb.org/anthology/P19-1210/

    在这里插入图片描述

    这篇2019年论文,论文提出在生成式会议摘要中融入多模态特征 Visual Focus Of Attention (VFOA)。作者认为,当一个参与者在发表言论的时候,如果其他人都关注该说话人,那么表示该说话人当前陈述的句子比较重要。因此,对于会议中的一句话,会对应四位参与者的视频,每个视频是由一组frame 组成的。每个 frame 会对应一个五维度的特征,比如上图。将该特征输入到神经网络中,预测该视频 frame 中参与者目前正在关注的目标(在数据集中有标准标注)。训练好以后,对于会议中的一句话,将四位参与者的对应视频信息输入到网络中得到输出,进行拼接,得到该句子的 VFOA 特征向量。在解码会议摘要时,会利用到该视觉特征向量进行解码。

    总结

    1. 现有模型结构简单。现有模型架构基本为序列到序列模型结合层次化注意力机制,不同的工作会依据任务特点进行一定的改进。为了更有效的融合多模态信息,发挥模态信息的交互互补作用,在目前架构的基础上,应该思考更加合适的架构。
    2. 不同模态信息交互较少。现有工作模态融合的核心在于层次化注意力机制,除此以外,不同模态信息缺少显式的交互方式,无法充分的发挥模态信息之间的互补关系。
    3. 依赖于人工先验知识。通常来讲,需要人为预先选择不同类型的预训练特征抽取模型进行特征提取,这一过程依赖于很强的人工判断来预先决定有效的特征,需要一定的领域专业知识。
    4. 数据隐私性考虑少。多模态数据在提供更丰富信息的同时,也给数据保密带来了一定的挑战。例如多模态会议数据,其中的声纹特征与脸部特征都是非常重要的个人隐私信息。因此在实际落地中需要充分考虑数据隐私性问题。
    5. 单一文本输出缺少多样性。现有工作已经开始尝试多模态输入多模态输出,当输出摘要包含多种模态时,可以满足更广泛人群的需求。例如对于语言不熟悉时,可以通过视频和图片快速了解重要内容。在未来多模态摘要输出也将成为一个重要的研究关注点。

    说在最后

    人工智能的终极目标是能够无限的逼近人类或动物的智慧,实现机器能够对生活中的场景应对自如。而单一的计算机视觉、语音识别和自然语言处理技术从单一模态对信息的理解是与人类的行为有着明显的区别的。比如当我们判断一个衣服的质量好坏,不能单纯的依靠视觉的判断,还有触觉、嗅觉,同时品牌也是我们考虑的因素,所以还有文本信息。所以多模态任务的学习更贴合人类行为,而动物的进化也是模态搜集能力的进化,比如狗的嗅觉更灵,但是视觉也不可或缺,而模态在人们脑中的融合方式是我们孜孜以求探索的知识。可以预言,多模态学习是未来人工智能发展的重要方向,是不断逼近人类的方向之一。

    展开全文
  • 面向深度学习的多模态融合技术研究综述

    千次阅读 热门讨论 2020-05-24 02:29:56
    文章目录前言摘要正文介绍多模态融合表示联合架构协同架构编解码器表示多模态融合方法与模型无关的融合方法基于模型的融合方法模态对齐方法数据集展望总结读后感参考文献 前言 阅读国外的多模态融合综述时候,可以和...

    前言

    阅读国外的多模态融合综述时候,可以和国内最新的综述进行比对,通过比对可以进一步提升对该领域的理解。许多过来人还是觉得国内综述性文章的内容是具有价值的,在撰写之前调查了很多的相关研究,值得一看。

    面向深度学习的多模态融合技术研究综述是计算机工程近期出版的综述文章。我想通过这篇文章理解一些英文的专业术语用中文怎么表达。

    更新

    最近又写了一篇新的多模态总结,包括三篇综述,五篇特定事件下音视频融合的论文。点击这里

    摘要

    深度学习多模态融合指机器从文本、图像、语音、视频等多个领域获取信息,实现信息转换和融合,从而提升模型性能的技术,是一个典型的多学科交叉领域,已逐步成为研究热点。模态的普遍性和深度学习的快速发展赋予了多模态融合技术极大的发展潜力。旨在多模态深度学习技术发展前期,以提升深度学习模型分类或回归性能为出发点,总结多模态融合
    架构、融合方法和对齐技术。重点分析了联合、协同、编解码器三种融合架构在深度学习中的应用情况和优缺点,以及多核学习、图像模型和神经网络等具体融合方法和对齐技术。最后归纳出多模态研究常用的公开数据集,并展望了多模态融合技术的发展趋势

    正文

    介绍

    多模态融合(MFT)能够使得深度学习更好的从数据中了解世界。MFT包括模态表示(Representation)、融合(Fusion)、转换(Translation)、对齐(Alignment)[2]。这篇文章围绕了多模态融合的三个主要融合框架融合方法。模态对其和公开数据集进行了介绍,并提出了下一个观点。

    多模态融合表示

    多模态表示学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。主要包括两大研究方向:联合表示(Joint Representations)、协同表示(Coordinated Representations)、编解码。联合架构是将单模态投影到一个共享的子空间。以便能够融合多个模态的特征。协同融合是包括跨模态相似模型和典型类似分析,有点类似于通过语音做标签来对视频进行分类。编解码是用于将一个模态映射为另一个模态的中间层。下面一张图反映了各个研究领域使用上述三个方法的分布。
    在这里插入图片描述

    联合架构

    在这里插入图片描述
    多模态融合的策略是通过集成不同类型的特征来提高机器学习的泛化能力。联合架构如上图所示,它将多模态空间映射到共享语义子空间中。每个模态通过一个单独的编码都会映射到共享子空间中。这种方法在视觉问答,视频分类,事件检测等方面。获得了比较好的效果。多模态联合架构最简单的方法就是直接连接,也就是加法。该方法如下面公式所示。设置一个共享层,其中,v单个模态的输入,w是权重,下标表示不同的模态,通过这种映射方式可以将子模态的语义转换到共享空间。
    z = f ( w 1 T v 1 + … + w n T v n ) z=f\left(w_{1}^{T} v_{1}+\ldots+w_{n}^{T} v_{n}\right) z=f(w1Tv1++wnTvn)
    还有一种方式是通过乘法相连,整个联合的输出是由所有单模态特征向量输出成绩而构成的。其中o代表的是外积算子。
    z = [ v 1 1 ] ⊗ … ⊗ [ v n 1 ] z=\left[\begin{array}{l} v^{1} \\ 1 \end{array}\right] \otimes \ldots \otimes\left[\begin{array}{l} v^{n} \\ 1 \end{array}\right] z=[v11][vn1]

    尽管加法联合比较简单,但是它的特征向量语义组合会造成后期的语义丢失,让模型的性能下降,而乘法的联合方式可以通过张量计算充分的让语义得到充分的融合。此外,联合架构单个模态的完整性有个一较高的要求。如果数据不完整的话,后期融合这些问题会被放大。一些研究人员通过联合训练或者模态相关性来解决某些部分模态的数据丢失问题。
    联合架构的优点是融合方式较为简单。而且共享子空间往往具有语意不变性。但是,如果单个模态的语音完整性嗯,有缺失,那么在早期的话不会被轻易发现

    协同架构

    协同表示负责将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)。按照我的个人理解,协同架构表示是通过每个模态去训练它的特征表示子空间。但是相比较单模态,铁桶架构中每个单模态和另外一个都有一定的线性相关性。也就是他们需要牵连另一个模态的属性。这样的好处是如果在测试的时候缺少了一种模态,另一种模态也可以发挥一定的作用,但是缺点是,如果在两个以上模态中实现这种方法比较困难。具体的实现代码需要看相关领域的应用论文。
    在这里插入图片描述

    编解码器表示

    在这里插入图片描述
    编码器架构通常用于将一种模态映射为另一种模态的多模态任务转换中。这和前面的两种表示方法并不一致。编码器将原模态映射到中间向量中。哎,解码器基于中间向量生成一个新的。目标模态样本。这种架构在图像合成视频编解码中广泛应用。强化学习这种具有较高决策性的模型是常用来进行多模序列编解码的工具。比较经典的应用就是使用一个乐器翻译音乐。编解码架构和其他架构相比,它的优点是能够在原模态的基础上生成新的目标模态样本。但是缺点也很明显,每个编解码器只能编码一种膜态,因此在决策过程中设计比较复杂。

    多模态融合方法

    在这里插入图片描述
    以往的研究更重要的强调早期,晚期和混合融合方法。这篇文章中主要将多模态融合方法分为模型无关与基于模型两大类。前者不依赖于特定的深度学习方法。后者则需要深度学习方法。直观地解决融合问题。例如基于核、图像模型、神经网络等方法。

    与模型无关的融合方法

    与模型无关的融合方法可以分为早期融合。也就是基于特征的融合。以及晚期融合即基于决策的融合,最后还有混合融合。如下图所示,早期融合在特征提取后就立即集成特征。晚期融合在每个模式输出结果之后才执行集成。混合融合结合了早期融合和晚期融合的输出。

    在这里插入图片描述
    早期融合
    早期融合的方法如上图所示。为了解决各模态中原始数据的不一致问题。可以从每个模态中分别提取特征直接进行特征融合。当然深度学习的方法本质上从原始数据中学习特征。这样会导致在没有抽取特征之前就进行数据融合。二者都可以称作为早期融合。在早期融合中,在特征融合和数据融合提取模态之间的相关性难度较大。一般我们认为不同模态数据流所包含的信息在高层次维度上才能找到相关性,因此,主成分分析pca方式被广泛地应用于多模态深度学习中。此外,多模态早期融合还需要解决不同数据之间的时间同步。
    晚期融合
    晚期融合比较简单,这里从上图中我们可以看出。它只是将不同子网络的输出结果进行不同的决策部署。这种方式比较受青睐。在讨论早期融合和晚期融合的优势之中,我们发现具体问题要具体分析。多模态之间的相关性比较大时,早期融合较为合适。当各个模态在很大程度上不一致。例如维度和采样率及其不相关,采用晚期融合更为合适。
    混合融合
    混合融合如上图所示,它结合了早期和晚期融合方式。同时也增加了模型的结构复杂度和训练难度。由于深度学习模型框架多样灵活,因此,混合融合方方法常采用深度学习方法。

    总的来说,三种融合方式各有优缺点。早期融合能更好地捕捉特征之间的关系。但容易过度拟合训练数据,晚期融合可以更好地处理过拟合。但难以捕捉。不同维度的相关信息。而混合融合设计比较灵活,虽然精度够高,但是需要设计者自行设计。

    基于模型的融合方法

    基于模型的融合方法是从实现技术和模型的角度解决多模态融合问题,常用的方法有三种:多核学习方法(Multiple kernel learning,MKL)、图像模型方法(Graphical models,GM)、神经网络方法(Neural networks,NN)等。
    多核学习方法
    方法是支持向量机的扩展允许不同的和对应数据的不同视图,具体的方法因为我没有用到,这里就不做解释。
    图神经网络
    图像神经网络是最近流行的一一种络。2020年,很多研究专家认为图像神经网络在今年会有一个大的爆发。图神经网络主要通过图像分割拼接。预测。对浅层或深度图形进行融合,从而生成模态融合结果。该方法的优点是能够容易利用数据的空间和时间结构。还允许人类将专家知识嵌入到模型中,让模型的可解释性增强。但是模型的泛化能力不足。
    神经网络
    神经网络已经大量的应用于多模态任务中,一些人通过拼凑模型,可以达到比前面两种模型方式更优的性能。此外,神经网络多模态融合在图像字幕处理任务表现良好。而神经网络的方法一个很大的优势是从大量的数据中自主学习。但它的缺点也比较明显。随着网络多模态的增加,可解释性会变得越来越差。

    模态对齐方法

    模态对齐是多模态融合中关键的技术之一,它是指多模态中实例的对应关系。例如给定一个图像和标题。我们希望能够找到图像区域与标题单词的关系。多模态对齐方法中,显性对齐关注模态之间组件的对齐,隐性对齐则是在深度学习模型训练期间对数据进行潜在的对齐。
    在这里插入图片描述
    在这里插入图片描述
    显性对齐
    显性方式有无监督和监督两种方式。
    1)无监督方法。该方法在不同模态的实例之间没有用于直接对齐的监督标签。例如,动态时间扭曲(Dynamic Time Warping ,DTW)[73]是一种动态规划的无监督学习对齐方法,已被广泛用于对齐多视图时间序列。 文献[74]是根据相同物体的外貌特征来定义视觉场景和句子之间的相似性,从而对齐电视节目和情节概要。上述两个研究成果都在没有监督信息的前提下,通过度量两个序列之间的相似性, 在找到它们之间的最佳匹配之后按时间对齐 (或插入帧),从而实现字符标识和关键字与情节提要和字幕之间的对齐。也有类似 DTW 的方法用于文本、语音和视频的多模态对齐任务,例如文献[75]使用动态贝叶斯网络将扬声器输出语音与视频进行对齐。

    (2)监督方法。有监督对齐技术是从无监督的序列对齐技术中得到启发,并通过增强模型的监督信息来获得更好的性能,通常可以将上述无监督方法进行适当优化后直接用于模态对齐。该方法希望在不降低性能的前提下,尽量减少监督信息,即弱监督对齐。 例如,文献[76]提出了一种类似于规范时间扭曲的方法,主要是利用现有(弱)监督对齐数据完成模型训练,从而提升深度学习模型性能。文献[77]利用少量监督信息在图像区域和短语之间寻找协调空间进行对齐。文献[78]训练了一个高斯混合模型,并与一个无监督的潜变量图形模型一起进行弱监督聚类学习,使音频信道中的语音与视频中的位置及时对齐。因此,监督方法的对齐性能总体上优于无监督方法,但需要以带标注数据为基础,而较准确地把握监督信息参与程度是一个极具挑战的工作。

    隐式对齐方法

    (1)图像模型方法。该方法最早用于对齐多种语言之间的语言机器翻译, 以及语音音素的转录[79],即将音素映射到声学特征生成语音模型,并在模型训练期间对语音和音素数据进行潜在的对齐。构建图像模型需要大量训练数据或人类专业知识来手动参与,因此随着深度学习研究的进展及训练数据的有限,该方法已经用得不多。

    (2)神经网络方法。目前,神经网络是解决机器翻译问题的主流方法,无论是使用编解码器模型还是通过跨模态检索都表现出较好的性能。利用神经网络模型进行模态隐式对齐,主要是在模型训练期间引入对齐机制,通常会考虑注意力机制。例如,图像自动标注应用中,在生成每个连续单词时[80],注意力机制将允许解码器(通常是 RNN)集中在图像的特定部分,该注意力模块通常是一个浅层神经网络,它与目标任务一起完成端到端的训练。该方法具备较好的潜力,目前已被广泛应用于语音数据标注、视频文本对齐和视频转录等多个领域[81]。但由于深度神经网络的复杂性,设计注意力模块具有一定的难度。

    数据集

    下图是多模态融合技术中常用的数据集。但是不限于以下这些。其实很多视频都可以用于多模态的融合。这里需要注意。通过视频和音频数据做视频分类,和自己的研究很相近。
    在这里插入图片描述

    展望

    尽管现在大多数研究人员都在追求深度学习模型的性能,但是跨模态的迁移学习、特征间的语义鸿沟模型的泛化能力仍然具有很好的研究价值。这篇文章推荐了以下几个研究方向:
    1 多模态融合技术在深度学习的一些新应用领域中仍然需要进一步探索。目前基于传感器人类活动识别。医学研究等多模态问题仍然研究不够。
    2 多模态融合技术为多数据集之间的跨模态迁移学习提供了新的桥梁。尽管迁移学习已经广泛应用于多模态各个领域中。但是由于长期以来的数据标注工作量大。如果能实现多模态融合的迁移,将会大大提高视频分析的能力。
    3 目前深度学习多模态融合中语义冲突重复。噪声等问题仍未得到解决。虽然注意力机制可以解决部分的问题。但是他们是隐性的工作。不是主动控制的。研究一种主动控制方式可以更好地将逻辑推理和深度学习结合起来。
    4 未来多模态融合技术将在情感识别和分析中发挥更大的作用,如果能将人的面部表情,瞳孔扩张语言身体动作、体温等各个属性进行融合,就可以获得全面的更为详细的识别效果。
    5 缺少一个评判的标准。现在如何定义一个模型组合形式的好坏?如何解决各模态信息无障碍的互通?如何解决模型泛化能力?赵梦琪都是需要进行解决的。
    6. 在多模态中由于研究者之前并不知道数据模态对齐,深度学习算法很容易落入局部最小值。因此需要尽快提出一种非凸优化解决方法。

    总结

    近年来,人工智能飞速发展,多模态深度学习逐步成为研究热点。本文总结了深度学习领域多模态融合技术的研究现状,对融合架构、融合方法、模态对齐等方面进行了深入分析。融合架构按照特征融合方式的不同,分为联合架构、协调架构和编解码器架构。融合方法包括早期、晚期、混合三种模型无关的方法,多核学习、图像模型两种基于模型的方法。模态对齐一直是多模态融合技术的难点,常用的两种方式为显示对齐和隐式对齐。近期在模态融合技术上的研究促进了大量新的多模态算法产生,并且拓展了多模态学习的应用范围。这些模型和算法各有优缺点,可在不同领域应用中发挥其优势和作用。作为一种能让机器拥有更多人类智能特性的技术,多模态深度学习有望在今后获得长足的发展。下一步可针对模态语义冲突、多模态组合评价标准、模态泛化能力等研究不充分的问题进一步研究,对跨模态迁移学习、非凸优化等难点问题进行深入探索,并促进该技术在深度学习中一些新领域的应用。

    读后感

    个人感觉这篇论文介绍得非常详细。但是在文章的开头和结尾并没有梳理好文章的结构。文中并没有介绍多模态融合架构、多模态融合方式以及对齐技术相关的区别和联系。这使得读者在逻辑框架中混乱。我自己查阅了相关资料之后又发现其他论文和这篇综述在介绍中又有一些专业术语的不同。总的来说,这篇论文是一篇很好的多模态综述,但是,美中不足的是文章在逻辑上没有让读者直观了解。
    收获:明白了多模态融合技术大致包括三种模态架构表示,早期中期混合融合方法和基于模型的融合方法,显性和隐性对齐方式,相关数据集
    思考:一般这种多模态用cnn提取图像,rnn提取音频,attention做数据对齐。参考文献94可以参照一下,修改自己baby crying音视频融合的方法。
    不懂的地方:显性对齐的方式没看懂,多核和图像模型不会,每一节之间的联系不清楚,是先有鸡还是先有蛋?。

    参考文献

    文章的参考略,添加一个csdn的论文博客分享:
    多模态

    展开全文
  • 基于深度学习模型研究了多模态融合的特征描述,在训练时使用新的相关性损失函数进行训练优化,以此提取出更加稳健的特征向量。 从各个模态学习到的特征向量在训练步骤中相互指导以获得更稳健的特征表示。 首先,...

    王亚

    核刊名称:计算机应用研究

    1、解决的问题:

    之前的算法只能融合特定模态的融合,本文提出了更具普适性的框架,可以综合不同模态的融合。

    2、摘要:

    基于深度学习模型研究了多模态融合的特征描述,在训练时使用新的相关性损失函数进行训练优化,以此提取出更加稳健的特征向量。

    从各个模态学习到的特征向量在训练步骤中相互指导以获得更稳健的特征表示。

     

    首先,提取每个三维模型的三个模态特征。点云模态提描述结构信息,多视图模态描述描述视觉信息,Panorama全景视图模态描述三维模型的表面信息。

    其次,提出的新的相关性损失函数可以有效减轻不同模态的特征差异以获取更稳健的特征向量,并在训练步骤实现不同模态的特征表示的相互指导,提升了学习效率。

    最后,本文提出了一种基于统计思想的融合方法以融合不同模型的分类结果,用于最终的

    三维模型分类和检索。

    3、算法原理

    3.1、数据处理

    点云模态

    采用MeshLab将ply模型转换为点云数。由于数据集中的模型大小不均匀,因此需要先加载使用蝶形细分算法对数据进行网格细分,间接增加点云点数。之后对每个模型进行采样,每个模型采样都获得1024个采样点。

    多视图模态

    采用NPCA(基于网格模型的表面法向量统计属性而得到矩阵)对三维模型数据进行降维标准化,然后利用OpenGL的可视化工具提取一组视图,具体是以三维模型的Z轴为中心,每隔30°进行一次采样,每个三维模型都能得到12张不同角度的视图来表示视觉信息。

    全景视图模态

    全景视图是通过把三维模型置于半径为R,高度为H=2R的圆柱体的中心,把其表面投影到圆柱体的侧表面上获得模型的表面信息。三维模型轴线平行于X轴或者Y轴或者Z轴均可获得初始全景图。其中R=2 dmax,dmax是模型表面与其质心的最大距离,采样速率为128.圆柱形投影可以获得两种模型特征信息。

    a).模型表面在三维空间中的位置信息作为模型的空间分布图(SDM)。

    b).模型表面的方向信息作为法线偏差图(NDM)

    然后对NDM图求表面方向的梯度图,然后将3个黑白单通道图作为RGB的三个通道,获得3D模型的三通道图,

    3.2、多模态联合网络

    点云模态,利用流行的 PointNet 模型进行特征提取;

    多视图模态,利用 MVCNN 模型来实现特征提取功能;

    全景图模态,利用 PANORAMA-MVCNN 学习三维模型的特征向量。

     

    提出新的相关性损失函数:

    将两个不同的特征向量的距离度量的2范数用来表示两个不同模态下的特征向量的相关性,此值逐渐降低,说明不同特征向量之间相互指导。

    其中,f表示由不同模态网络提取的特征向量,M的下标代表1,2,3三种不同的模态,

    是一个归一化激发函数。

    本文采用交叉熵损失函数和相关性损失函数两种损失函数,首先在单模态网络训练中,使用交叉熵损失函数,以此来保证原网络的优异性。然后使用新的相关损失函数来确保多个模态之间的特征彼此指导,提高网络训练的学习速度,并且提高特征向量的鲁棒性。

    例如,模态1的最终损失函数为:

    3.3、多模态融合

    通过三模态卷积神经网络的学习,获得种基于不同模态的三维模型的特征。相较于传统方法使用池化操作融合不同特征,本文使用统计方法,采用加权融合方法融合三个特征向量。

    f代表的是不同模态下的特征向量,α是不同模态的权重,对加权融合特征的特征输入到全连接层(FC 层),全连接层的维度依次为 512,256,C。C 代表数据集类别的数量,最后通过一个 softmax 层获得三维模型的分类概率分布。

    4、实验设计

    4.1、相关性损失函数有效性实验

    4.2、多模态特性相似度度量对比实验

    4.3、多模态信息融合实验

    4.4、分类和检索对比实验

    展开全文
  • 多模态融合技术

    千次阅读 2020-08-26 09:35:03
    此文摘抄于论文《多模态情感识别综述》 论文引用格式:贾俊佳, 蒋惠萍, 张廷. 多模态情感识别综述[J]. 中央民族大学学报(自然科学版), 2020. 1 多模态的情感特征提取 一般来说,采集后的原始情感特征都会掺杂一些...
  • 视频分析与多模态融合之一,为什么需要多模态融合 FesianXu 20210130 at Baidu search team 前言 在前文《万字长文漫谈视频理解》[1]中,笔者曾经对视频理解中常用的一些技术进行了简单介绍,然而限于篇幅,...
  • PPI的多模态融合预测

    2021-03-01 14:57:11
    本博文基于《Amalgamation of protein sequence, structure and textual information for improving protein-protein interaction ...另外,作者还构建了一个模型去处理这三种模态的数据,然后预测PPI。最后.
  • 融合局部语义信息的多模态舆情分析模型 web安全 攻防实训与靶场 安全威胁 安全测试 应用安全
  • 多模态融合学习路程 一、主体内容 设定一种新知识的输入形式,单张图片(利用卷积和神经网络设计一种图片相似性检测模型,高于权重属于同类图片、处于一定权重区间则属于该图片结点的父节点、低于一定权重则无关)...
  • 计划研究多模态知识图谱方向,利用多模态信息:文本+图像+知识图谱+视频+时间序列。。。,来进行一些应用。 第一步先进行相关文献的阅读。
  • 本篇文章以多模态分类任务为契机,提出了一个新颖和通用的搜索空间,来找寻最优的多模态融合架构。为了在给定的搜索空间中为给定数据集找到最优的架构,本文使用了一种针对具体问题并基于序列模型的高效搜索方法。在...
  • 多模态融合

    2021-06-23 21:55:06
    多模态机器学习MultiModal Machine Learning (MMML),旨在通过机器学习...包括多模态表示学习Multimodal Representation,模态转化Translation,对齐Alignment,多模态融合Multimodal Fusion,协同学习Co-learning等。
  • 多模态融合的高分遥感图像语义分割方法(python) 论文地址:http://www.cnki.com.cn/Article/CJFDTotal-ZNZK202004012.htm 1、SE-UNet 网络模型 2、SE-UNet的具体设计方案 3、SE-UNet的pytorch复现 import torch.nn...
  • 纵观各大榜单KITTI,nuScenes等,lidar+camera等多种方法慢慢向榜单前面移动,精度的不断提升也说明了当前多模态融合有了一定喜人的进步。 本文总结CVPR,ECCV等多种包括 feature-fusion & late-fusion 的算法...
  • 文 献 [67] 对由深度相机提供的 RGB 图像和深度图 像分别进行处理后融合,文中提供了个可能的 融合位置,当模型提取特征前就通过向量连接 时,融合结果作为后续完整模型的输入,属于数 据融合 在 Zhou 等[53] 的...
  • mmdetection3d 源码学习 mvxnet(多模态融合) 配置文件 dv_mvx-fpn_second_secfpn_adamw_2x8_80e_kitti-3d-3class.py 模型 # model settings voxel_size = [0.05, 0.05, 0.1] point_cloud_range = [0, -40, -3, ...
  • 在上一篇论文MCAN的基础上,对多模态特征的融合方式作进一步讨论。该篇文章已被ACM MM2020接收。 摘要 设计有效的神经网络结构是深度多模态学习的关键。现有的工作大多将关注点聚焦在单一任务上并手动进行网络结构的...
  • 目录1. 简介2. 创新点3. 模型描述3.1 Low Rank Fusion3.2 Multimodal Transformer具体模块介绍Temporal ConvolutionsPositional Embedding (PE)Crossmodal ...前面文章提到基于张量低秩分解进行多模态融合,今天介绍
  • 【摘要】 很多多模态任务,都需要融合两个模态的特征。特征融合即输入两个模态的特征向量,输出融合后的向量。最常用的方法是拼接(concatenation)、按位乘(element-wise product)、按位加(element-wise sum)。...
  • 多模态特征表示和融合

    千次阅读 2020-12-15 16:51:41
    多模态融合(fusion) 多模态融合是将来自多种不同模态的信息进行整合,用于分类任务或回归任务。值得注意的是,在最近的工作中,对于像深度神经网络这样的模型,多模态表示和融合之间的界限已经模糊了,其中表示学习...
  • ▐ 视频多模态融合分类模型结构 视频帧模块优化 全局特征优化 视频内容分析的其中一个难点是从视频帧大量的无语义像素中抽取出高层语义信息。 其中一种做法是先把视频帧转化成向量,例如在imagenet上训练的Resnet...
  • 多模态预训练模型

    千次阅读 2021-01-29 18:22:56
    自从2018年Bert预训练模型大方异彩之后,预训练模型可以说百花齐放,关于预训练模型领域的一些总体概括,可以参考笔者另一篇博客 <预训练模型的那些方向和研究成果>:...
  • {强大的动态多模态数据融合模型不确定性的观点}, 作者= {刘斌}, booktitle = {arXiv预印本arXiv:2105.06018}, 年= {2021} } 感谢您在此处使用代码和/或数据后是否引用本文。 代码中和本文中算法名称之间的对应...
  • 行业分类-物理装置-基于SVM模型参数优化的多模态数据融合和分类方法.zip
  • 多模态特征融合方法调研 Jeff Dean: 我认为,在多任务学习和多模态学习方面会有很大进展,解决更多的问题。我觉得那会很有趣。...多模态融合的总体思路 TFN和LMF 基于attention的fusion (一)
  • 作者提出了一种Attention on Attention(AoA)的方法以及新的多模态融合方法以用于VQA任务中。 动机 作者认为,MACN中使用的SA和GA的不足: 尽管这种注意力的表达方式和高度灵活,但它仍有局限性。具体来说,结果总是...
  • 1.定义衡量模型性能的指标 2.梯度更新公式 3.深度框架 4.使用梯度融合法的各种模态融合结果

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,756
精华内容 2,302
关键字:

多模态融合模型