精华内容
下载资源
问答
  • 多模态

    2021-07-13 10:48:33
    多模态
  • 什么是多模态机器学习?

    万次阅读 多人点赞 2018-12-20 21:54:07
    首先,什么叫做模态(Modality)呢? 每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;...因此,多模态机器学习,英文全...

    首先,什么叫做模态(Modality)呢?

    每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

    同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。

    因此,多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

    多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。

    人其实是一个多模态学习的总和,所以也有”砖家“说了,多模态学习才是真正的人工智能发展方向。

    本文将针对多模态学习在深度学习发面的研究方向和应用做相关介绍,主要参考了来自ACL 2017的《Tutorial on Multimodal Machine Learning》。

    多模态学习的分类

    多模态学习可以划分为以下五个研究方向:

    1. 多模态表示学习 Multimodal Representation
    2. 模态转化 Translation
    3. 对齐 Alignment
    4. 多模态融合 Multimodal Fusion
    5. 协同学习 Co-learning

    下面将针对这五大研究方向,逐一进行介绍。

    多模态表示学习 Multimodal Representation

    单模态的表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表示学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。主要包括两大研究方向:联合表示(Joint Representations)协同表示(Coordinated Representations)

    • 联合表示将多个模态的信息一起映射到一个统一的多模态向量空间;
    • 协同表示负责将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)。

    联合表示和协同表示对比图

    利用多模态表示学习到的特征可以用来做信息检索,也可以用于的分类/回归任务。下面列举几个经典的应用。

    在来自 NIPS 2012 的 《Multimodal learning with deep boltzmann machines》一文中提出将 deep boltzmann machines(DBM) 结构扩充到多模态领域,通过 Multimodal DBM,可以学习到多模态的联合概率分布。

    单模态和多模态DBM对比图

    论文中的实验通过 Bimodal DBM,学习图片和文本的联合概率分布 P(图片,文本)。在应用阶段,输入图片,利用条件概率 P(文本|图片),生成文本特征,可以得到图片相应的文本描述;而输入文本,利用条件概率 P(图片|文本),可以生成图片特征,通过检索出最靠近该特征向量的两个图片实例,可以得到符合文本描述的图片。如下图所示:

    协同表示学习一个比较经典且有趣的应用是来自于《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models 》这篇文章。利用协同学习到的特征向量之间满足加减算数运算这一特性,可以搜索出与给定图片满足“指定的转换语义”的图片。例如:

    狗的图片特征向量 - 狗的文本特征向量 + 猫的文本特征向量 = 猫的图片特征向量 -> 在特征向量空间,根据最近邻距离,检索得到猫的图片

    转化 Translation / 映射 Mapping

    转化也称为映射,负责将一个模态的信息转换为另一个模态的信息。常见的应用包括:

    机器翻译(Machine Translation):将输入的语言A(即时)翻译为另一种语言B。类似的还有唇读(Lip Reading)语音翻译 (Speech Translation),分别将唇部视觉和语音信息转换为文本信息。

    图片描述(Image captioning) 或者视频描述(Video captioning): 对给定的图片/视频形成一段文字描述,以表达图片/视频的内容。

    语音合成(Speech Synthesis):根据输入的文本信息,自动合成一段语音信号。

    模态间的转换主要有两个难点,一个是open-ended,即未知结束位,例如实时翻译中,在还未得到句尾的情况下,必须实时的对句子进行翻译;另一个是subjective,即主观评判性,是指很多模态转换问题的效果没有一个比较客观的评判标准,也就是说目标函数的确定是非常主观的。例如,在图片描述中,形成怎样的一段话才算是对图片好的诠释?也许一千个人心中有一千个哈姆雷特吧。

    对齐 Alignment

    多模态的对齐负责对来自同一个实例的不同模态信息的子分支/元素寻找对应关系。这个对应关系可以是时间维度的,比如下图所示的 Temporal sequence alignment,将一组动作对应的视频流同骨骼图片对齐。类似的还有电影画面-语音-字幕的自动对齐。

    对齐又可以是空间维度的,比如图片语义分割 (Image Semantic Segmentation):尝试将图片的每个像素对应到某一种类型标签,实现视觉-词汇对齐。

    多模态融合 Multimodal Fusion

    多模态融合(Multimodal Fusion )负责联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)。

    按照融合的层次,可以将多模态融合分为 pixel level,feature level 和 decision level 三类,分别对应对原始数据进行融合、对抽象的特征进行融合和对决策结果进行融合。而 feature level 又可以分为 early 和 late 两个大类,代表了融合发生在特征抽取的早期和晚期。当然还有将多种融合层次混合的 hybrid 方法。

    融合层次示意图

    常见的机器学习方法都可以应用于多模态融合,下面列举几个比较热门的研究方向。

    视觉-音频识别(Visual-Audio Recognition): 综合源自同一个实例的视频信息和音频信息,进行识别工作。

    多模态情感分析(Multimodal sentiment analysis): 综合利用多个模态的数据(例如下图中的文字、面部表情、声音),通过互补,消除歧义和不确定性,得到更加准确的情感类型判断结果。

    手机身份认证(Mobile Identity Authentication): 综合利用手机的多传感器信息,认证手机使用者是否是注册用户。

    多模态融合研究的难点主要包括如何判断每个模态的置信水平、如何判断模态间的相关性、如何对多模态的特征信息进行降维以及如何对非同步采集的多模态数据进行配准等。

    若想了解传统的机器学习方法在此领域的应用,推荐学习清华大学出版的《多源信息融合》(韩崇昭等著)一书。

    协同学习 Co-learning

    协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。

    比如迁移学习(Transfer Learning)就是属于这个范畴,绝大多数迈入深度学习的初学者尝试做的一项工作就是将 ImageNet 数据集上学习到的权重,在自己的目标数据集上进行微调。

    迁移学习比较常探讨的方面目前集中在领域适应性(Domain Adaptation)问题上,即如何将train domain上学习到的模型应用到 application domain。

    迁移学习领域著名的还有零样本学习(Zero-Shot Learning)一样本学习(One-Shot Learning),很多相关的方法也会用到领域适应性的相关知识。

    Co-learning 中还有一类工作叫做协同训练(Co-training ),它负责研究如何在多模态数据中将少量的标注进行扩充,得到更多的标注信息。

    通过以上应用我们可以发现,协同学习是与需要解决的任务无关的,因此它可以用于辅助多模态映射、融合及对齐等问题的研究。

    结束语

    到此为止,我们对多模态机器学习领域的研究方向和应用进行了一个大致的梳理,受限于篇幅,还有许多未涉及的研究问题。

    有什么读后感吗?

    也许你以前没有听过多模态学习(MMML)这个概念,读了此文发现原来自己做的正是 MMML 一个分支;

    也许你以前觉得 CV / NLP / SSP 才是人工智能的正统,读了此文发现多学科交叉的 MMML 一样可以玩 DL 溜得飞起;

    也许你目前正苦于找不到研究的方向,读了此文发现 MMML 打开了新的大门,原来有这么多的事情可以做。

    多模态学习是一个目前热度逐年递增的研究领域,如果大家感兴趣,欢迎留言反馈,后续我们会考虑推出几个热门 MMML 方向的经典or前沿论文、模型解析。

    推荐几篇入门综述文献

    如果想入门 MMML 或者希望对该领域有初步了解,可以从以下几篇综述入手

    【1】Atrey P K, Hossain M A, El Saddik A, et al. Multimodal fusion for multimedia analysis: a survey[J]. Multimedia systems, 2010, 16(6): 345-379.

    【2】Ramachandram D, Taylor G W. Deep multimodal learning: A survey on recent advances and trends[J]. IEEE Signal Processing Magazine, 2017, 34(6): 96-108.

    【3】Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.

    展开全文
  • Multimodal Fusion(多模态融合)

    万次阅读 多人点赞 2020-03-28 19:44:15
    Jeff Dean:我认为,2020年在多任务学习和多模态学习方面会有很大进展,解决更多的问题。我觉得那会很有趣。 多模态融合 (Multimodal Fusion) 一般来说,每一种信息的来源或者形式,都可以称为一种模态(Modality...

    在这里插入图片描述
    Jeff Dean:我认为,2020年在多任务学习和多模态学习方面会有很大进展,解决更多的问题。我觉得那会很有趣。

    多模态学习
    为了使人工智能进一步加强对我们周边事物的理解,它需要具备解释多模态信号的能力。一般多模态需要处理的任务主要如上图有:

    • 表征(Representation)。找到某种对多模态信息的统一表示,分Coordinated representations(每个模态各自映射然后用用相关度距离来约束表示),Joint representations(多个模态一起映射)。
    • 翻译(Translation)。一个模态映射到另一个模态,分example-based(有候选集,如检索任务),generative(Decoder-Encoder)。
    • 对齐(Alignment)。找模态子成份之间的关系,如某词对应某区域。分显式对齐和隐式对齐,Attention首当其冲。
    • 融合(Fusion)。整合信息。分model-agnostic(早晚融合),model-based(融合更深入),也是本篇要整理的内容。
    • 联合学习(Co-learning)。通过利用丰富的模态的知识来辅助稀缺的模态,分parallel(如迁移学习),non-parallel(迁移学习,zero shot),hybrid。

    上图来自多模态综述:Multimodal Machine Learning:A Survey and Taxonomy

    接下来重点介绍一些多模态融合方法。

    多模态融合 (Multimodal Fusion)
    一般来说,模态是指事物发生或存在的方式,多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式,都可以称为一种模态(Modality),目前研究领域中主要是对图像,文本,语音三种模态的处理。之所以要对模态进行融合,是因为不同模态的表现方式不一样,看待事物的角度也会不一样,所以存在一些交叉(所以存在信息冗余),互补(所以比单特征更优秀)的现象,甚至模态间可能还存在多种不同的信息交互,如果能合理的处理多模态信息,就能得到丰富特征信息。即概括来说多模态的显著特点是: 冗余性 和 互补性
    在这里插入图片描述

    传统特征融合算法主要可以分为三类:1.基于贝叶斯决策理论的算法 2.基于稀疏表示理论的算法 3.基于深度学习理论算法。传统方法不做整理,其中的深度学习方法按照融合的层次从下到上每一层都可以fusion:

    • pixel level。对原始数据最小粒度进行融合。
    • feature level 。对抽象的特征进行融合,这也是用的最多的。包括early 和 late fusion,代表融合发生在特征抽取的早期和晚期,如上图。early是指先将特征融合后(concat、add)再输出模型,缺点是无法充分利用多个模态数据间的互补性,且存在信息冗余问题(可由PCA,AE等方法缓解)。late分融合和不融合两种形式,不融合有点像集成学习,不同模态各自得到的结果了之后再统一打分进行融合,好处是模型独立鲁棒性强。融合的方式即在特征生成过程中(如多层神经网络的中间)进行自由的融合,灵活性比较高,如金字塔融合。
    • decision level 对决策结果进行融合,这就和集成学习很像了。
    • hybrid。混合融合多种融合方法。
      在这里插入图片描述

    就一些详细方法上,这篇文章主要整理部分博主自己看过的paper:

    • 基于矩阵;
    • 基于普通神经网络;
    • 基于生成模型;
    • 基于注意力;
    • 其他。如NAS,GAN,Graph等。
    • 融合矩阵和特征。
    • shuffle和shift等不需要额外参数的方法。

    TFN(Multimodal Tensor Fusion Network)
    首先是基于矩阵的TFN,TFN属于early fusion,是一个典型通过矩阵运算进行融合特征融合的多模态网络,即直接对三种模态的数据(如Text,Image,Audio)的三个特征向量X,Y,Z,进行: h m = [ h x 1 ] ⊗ [ h y 1 ] ⊗ [ h z 1 ] {h}_{m}=\begin{bmatrix}{{{h}_x}}\\{1}\end{bmatrix}\otimes\begin{bmatrix}{{{h}_y}}\\{1}\end{bmatrix}\otimes\begin{bmatrix}{{{h}_z}}\\{1}\end{bmatrix} hm=[hx1][hy1][hz1]

    便得到了融合后的结果m,如下图:
    在这里插入图片描述

    缺点:TFN通过模态之间的张量外积(Outer product)计算不同模态的元素之间的相关性,但会极大的增加特征向量的维度,造成模型过大,难以训练。

    LMF(Low-rank Multimodal Fusion)
    出自论文 Efficient Low-rank Multimodal Fusion with Modality-Specific Factors,ACL2018。是TFN的等价升级版,就具体模型如图。LMF利用对权重进行低秩矩阵分解,将TFN先张量外积再FC的过程变为每个模态先单独线性变换之后再多维度点积,可以看作是多个低秩向量的结果的和,从而减少了模型中的参数数量。
    在这里插入图片描述

    缺点:虽然是TFN的升级,但一旦特征过长,仍然容易参数爆炸。

    PTP (polynomialtensor pooling)
    出自论文,Deep Multimodal Multilinear Fusion with High-order Polynomial Pooling,NIPS 2019.
    以往的双线性或三线性池融合的能力有限,不能释放多线性融合的完全表现力和受限的交互顺序。 更重要的是,简单地同时融合特征忽略了复杂的局部相互关系。所以升级为一个多项式张量池(PTP)块,通过考虑高阶矩来集成多模态特征。即将concat的模型x N之后再做一个低秩分解。
    在这里插入图片描述
    关于对矩阵的操作还有一种处理方法,就是如下图这种两两组合的方式。图出自NEURAL TENSOR NETWORK(NTN),本来是做实体关系检测的,同样也是博主觉得觉得这种方法也挺有意思的。这个小模块的大致的思路就是,让我们把APO都各自看成三个模态吧,然后两两组合得到矩阵T1,T2,再继续组合最后得到U这个融合/预测的结果。
    在这里插入图片描述
    深度学习浪潮来袭后,可以在一定程度上缓解矩阵方法的缺点。

    DSSM(Deep Structured Semantic Models)
    DSSM是搜索领域的模型,属于late fusion。它通过用 DNN 把 Query 和 Title(换成不同的模态数据就行) 表达为低维语义向量,并通过 cosine 距离来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测语义相似度,又可以获得某模态的低维语义向量表达。(可以将两个模态约束至统一表示空间,多模态协同表示。与之对应的多模态联合表示是先concat再FC)在这里插入图片描述
    其他玩法:可以在DNN的过程中,用recurrent residual fusion (RRF) ,多个残差,然后将3次recurrent的结果与最开始的输入concat起来,最后将concat得到的结果做融合。

    Dynamic Fusion for Multimodal Data
    以上的融合方法都太过“生硬”,能否有更好更自然的融合方法呢?AE(autoencoder)首当其冲,如图左图,先把所有模态fc即encoder,再用decode还原特征,最后计算特征之间的损失。

    有了AE,GAN的出现不会太迟。如图右图,将不采用固定的模态融合方法,而是自动学习“how”融合。先对video和speech转换完成后,和text进行对抗(video往往和speech是搭配的,所以先融合)。
    在这里插入图片描述
    另外在CVPR2019,有一篇–MFAS:Multimodal Fusion Architecture Search,首次用神经架构搜索做how融合。

    MFN(Memory Fusion Network)
    出自Memory Fusion Network for Multi-View Sequential Learning,AAAI 2018。
    17,18年是注意力机制开始统治学术界的一年,很多工作都做了这方面的工作。MFN就是一种使用“Delta-memory attention”和“Multi-View Gated Memory”来同时捕捉时序上和模态间的交互,以得到更好的多视图融合。模型图如下,用memory的目的是能保存上一时刻的多模态交互信息,gated过滤,Attention分配权重。
    在这里插入图片描述

    淘宝视频多模态应用
    淘宝视频的多模态信息也是十分丰富,而用LMF和TFN参数量往往会爆炸,就不得已要先将每个模态特征降维,然而降维本身是有损的,导致降维后的模态特征再外积不如直接利用不同模态间特征拼接。

    不过不要紧,淘宝也就提出了基于Modal Attention的多模态特征融合方法。Modal Attention是用法是,预测基于concat后的多模态联合特征对不同模态的重要性分布概率,再将分布概率与多模态融合特征做点积,得到对于不同模态特征重要性重新加权过后的新的多模态融合特征。
    在这里插入图片描述
    最后还想提一下的是一般的分类任务都只有单一的目标,而淘宝的标签体系是结构化分层的,所以他们在后面做了HMC(分层多标签分类器)用基于类别不匹配的多目标损失函数,即损失函数由一级类别,二级类别,一二级类别不匹配损失三个部分组成。

    Multi-Interactive MemoryNetwork
    这篇文章同样是用了Attention,使用Aspect-guided attention机制来指导模型生成文本和图像的Attention向量。使用的是和Attention很类似的记忆网络技术,具体如下图分为Textual和Visual Memory Network,然后通过GRU+Attention的多跳融合优化特征表达。

    其中的重点在于,为了捕获多模态间和单模态内的交互信息,模型又使用了Multi-interactive attention机制。即Textual和Visual在多跳的时候会相互通过Attention来融合信息(感觉很像Co-Attention的处理方法)。
    在这里插入图片描述
    其他玩法:不止是Co-Attention咯,就把Attention的其他各种变体一直到Transformer,BERT系列,各种预训练模型再应用一遍。。。不过这个属于专门的多模态预训练了在另一篇文章有整理:传送门

    Neural Machine Translation with Universal Visual Representation
    补上ICLR2020的文章,这一篇是对Transformer的变形咯,不过变的比较有趣。这篇文章做的是多模态机器翻译任务,即在原来的机器翻译上融入图片信息来辅助翻译,毕竟人类的语言各异,但是认知水平是一样的,对于同一副图像描述出的语义会是一致的。
    在这里插入图片描述
    做法比较干脆利落,在Transformer的Dncoder端把图片的表示也输入进去(即上图中中间那个部分),意思应该是以句子编码为Q(图中的表示是H),然后图像的特征为K和V,即在图像中找语义相似的部分做Attention的fusion,最后一起送到Decoder端做翻译。

    MCF(Multi-modal Circulant Fusion for Video-to-Language and Backward)
    之前整理的工作要么是针对矩阵,要么是针对特征。这篇IJCAI的文章尝试同时使用vector和matrix的融合方式。
    在这里插入图片描述这篇文章最关键的点在于circulant matrix,具体的操作方式其实就是vector的每一行都平移一个元素得到matrix,这样以探索不同模态向量的所有可能交互。简单来说以V和C为视觉和文本特征,则有: A = c i r c ( V ) A=circ(V) A=circ(V) B = c i r c ( C ) B=circ(C) B=circ(C)得到矩阵之后再结合原特征做交互即可 G = 1 d ∑ i = 1 d a i ⋅ C G=\frac{1}{d}\sum^d_{i=1}a_i\cdot C G=d1i=1daiC F = 1 d ∑ i = 1 d b i ⋅ V F=\frac{1}{d}\sum^d_{i=1}b_i\cdot V F=d1i=1dbiV

    Adversarial Multimodal Representation Learning for Click-Through Rate Prediction
    继续补上一篇WWW20’的阿里论文,虽然是做点击率预估,这里的融合方法非常有意思。

    以往的多模态融合要么将多个模态特征串联起来,相当于给每个模态赋予固定的重要性权重;要么学习不同模态的动态权重,用于不同的项如用Attention融合比较好,但是不同模态本身会有冗余性和互补性(相同的东西和不同的东西),即需要考虑不同的模态特性和模态不变特性。使用冗余信息计算的不同模式的动态权重可能不能正确地反映每种模式的不同重要性。

    为了解决这一问题,作者通过不同的考虑模态特异性和模态不变特征来考虑模态的非定性和冗余性。
    在这里插入图片描述
    所以在多模态融合(普通的Attention融合,即图中的MAF)旁边加上一个双判别器对抗网络(即图中的DDMA),即分别捕捉动态共性,和不变性。DDMA如下图:
    在这里插入图片描述
    双判别器是为了挖掘:

    • 各种模式共同特征的潜在模式(第一个D 识别可能来自共同潜在子空间的模态不变特征,跨越多种模式并强调已识别的模态不变特征,以进一步混淆第二个鉴别器)
    • 并推动各种模式之间的知识转让(第二个D 在模式之间学习跨多个模式的共同潜在子空间)。

    Cross-modality Person re-identification with Shared-Specific Feature Transfer
    继续继续补一篇新鲜的CVPR2020的文章,同样这篇文章是做行人重识别的,但是融合方法很有趣。

    还是沿着上一篇博文的思路,现有的研究主要集中在通过将不同的模态嵌入到同一个特征空间中来学习共同的表达。然而,只学习共同特征意味着巨大的信息损失,降低了特征的差异性。

    所以如何找不同模态间的 共性 和 个性?一方面不同模态之间的信息有互补作用,另一方面模态自己的特异性又有很强的标识功能。但是怎么把两者分开呢?即如何找到这两种表示。作者提出了一种新的跨模态共享特征转移算法(cm-SSFT):
    在这里插入图片描述
    (注:RGB图和红外IR图是两种模态)

    • Two-stream。特征提取器得到两个模态的特征。绿线是RGB,黄线是IR,这两部分是特性,然后蓝色部分是两者共享的modality-shared 共性。
    • Shared-Specific。对提取到的特征进行统一的特征表示。然后这里有个概念是Affinity modeling(博主的理解是相似度),使用共性common feature和特性specific feature建立成对亲和模型,目的是使得模态内及模态间的每个样本向关联。会拼接出一个统一的大方形(两个对角是特性,两个对角共性),和一个由RGB+共性+0和IR+共性+0拼接得到的Z。
    • shared-specific transfer network (SSTN)。确定模态内和模态间的相似性,并且在不同的模态间传播共享和特定特征,以弥补缺乏的特定信息并增强共享特征。这一部分借鉴了GAN进行消息传播,直观的理解是根据共享特征对不同模态样本的亲缘关系进行建模。
    • 在特征提取器上模块上又增加了两个项目对抗重建块(project adversarial and reconstruction blocks)和一个模式适应模块(modality- adaptation module),以获得区别性、互补性的共享特征和特定特征。1 模态鉴别器对每个共享特征的模态进行分类 2 特有特征投射到相同样本的共享特征上 3 将共享的和特定的特征拼起来。

    在这里插入图片描述
    Feature Projection for Improved Text Classification.
    共性和个性的文章还有这一篇,ACL 2020。基础思路是用特征投影来改善文本分类。直接看模型有两个网络,分别是projection network (P-net)和common feature learning network (C-net)。

    • C-net:提取common features,即抽取共性。fp表示初试特征向量,fc表示公共特征向量,这里将两者进行投影: f p ∗ = p r o j ( f p , f c ) f_p^*=proj(f_p,f_c) fp=proj(fp,fc)
    • P-net:计算净化的向量特征,即得到个性。这里是实现是通过将学习到的输入文本的信息向量投影到更具区分性的语义空间中来消除共同特征的影响。 f p ′ = p r o j ( f p , ( f p − f p ∗ ) ) f_p'=proj(f_p,(f_p-f_p^*)) fp=proj(fp,(fpfp))

    这里所谓的正交投影的做法是,将输入的特征向量fp投影到公共特征向量fc来限制公共特征向量的模,从而使新的公共特征向量fp*的语义信息仅包含xi的公共语义信息。然后相减两者再投影,就让最后的结果不是与公共特征向量fc正交的任何平面中的任何向量了。

    • code:https://github.com/Qqinmaster/FP-Net/

    在这里插入图片描述
    [ACL2021] A Text-Centered Shared-Private Framework via Cross-Modal Prediction
    for Multimodal Sentiment Analysis
    继续补挖掘共性和个性的文章,来自ACL21。这篇文章的任务是情感分析。首先作者认为在这个任务中,并不是所有模态都同等重要,即1文本在这个任务中更重要。因此2其他模态只是提供辅助信息,且可以被分为共享语义和私有语义。模型框架如上图,具体实现是通过掩码矩阵完成的。掩码矩阵的具体做法如下图,即1展开特征的每一维,可以利用注意力计算一些上下文权重,2卡阈值大的作为共享语义(图2中的卡了大于0.2),3所有维计算完毕后得到图3的结果作为共享掩码矩阵即可。而个性掩码矩阵是没有连上边的部分,数据模态独有的信息。
    在这里插入图片描述
    之后再利用掩码矩阵来算各种注意力。在Transformer架构的后面concat共享语义和两种私有语义即可以。

    Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer Fusion
    补MM20的文章,这篇文章没有增加额外参数,而且仅在单网络下就完成了融合。首先作者指出现有多模态表示学习的两个问题:

    • 1 现有的多模态训练方法遵循一种常见的设计实践,即单个编码器分支专门针对某个模态(即一般都是双流的操作,这样往往参数会更多,而且两者的异质性没有统一),能否单流就能解决?
    • 2 多模态融合的关键要素包括如何设计融合函数和在哪里实现融合,但不管怎么设计,现有融合方法只适用于对称特征(博主 认为这同样也是从双流的视角得到的观点)。

    所以作者提出的解决方案为:

    • 私有化BN即可统一多模态的表示。由于BN层会在batch里面先激活,再与channel方向仿射参数进行转换得到偏置和方差,从这个角度来说,BN提供了可以把特征转换到任何尺度的可能性。 所以那么为什么不贡献网络参数,只私有化BN呢?这样就可以在单网络中完成多模态的表示。具体如下图,粉色的conv都是共享的,而不同模态的BN是私有的。
      在这里插入图片描述

    • 双向不对称fusion。用shuffle+shift的方式,以不增加参数的方式完成模态间的交互。channel shuffle操作加强了channel间的多模态特征交互,提高了整体特征表示能力,如下图a。而shift像素移位操作作为每个通道内空间方向的融合(这个其实就与上篇文章里面的circulant matrix很像了),倾向于增强空间特征识别,所以能在对象边缘捕获细粒度信息,特别是对于小目标,结构如下图b。同时,这两者都是无参数的!具体的融合方法如下图的c,在两个模态间做shuffle,同时完成不对称的shift。
      在这里插入图片描述

    Adaptive Multimodal Fusion for Facial Action Units Recognition
    继续补文章。来自MM2020的文章,同样的我们也只看融合部分的做法。文章题目中 自适应 的意思是模型可以自动从模态中选取最合适的模态特征,这样可以使模型具有鲁棒性和自适应性,而这一步骤是通过采样来完成的!

    • 即同时从三个模态的特征中进行采样。具体见图的后半段,单个模态得到特征后橫着拼接成矩阵,然后通过采样在每维上自动选取最合适的特征,并且可以通过多次采样得到更丰富的表示。
    • 不过值得注意的是,此时采样之后变成离散的了,无法进行梯度传播,所以作者借用了VAE里面重参数技巧,用Gumbel Softmax来解决了。
      在这里插入图片描述

    Attention Bottlenecks for Multimodal Fusion
    好久不见,继续更新21年的文章啦。这篇文章的融合方式是在两个Transformer间使用一个shared token,从而使这个token成为不同模态的通信bottleneck以节省计算注意力的代价,如下图是四种方式示意图。
    在这里插入图片描述

    • late fusion没有跨模态信息交互
    • mid fusion使用attention做交互,对后续的层有效
    • bottenleneck fusion即使用一个中间token来交互信息,对所有层有效
    • bottenleneck mid fusion如最右的图,在局部层中做shared token的交互

    这样做可以将多模态的交互限制在若干的shared token处。
    paper:https://arxiv.org/abs/2107.00135


    这篇博文好像越补越多了…不过如果您有其他有关多模态融合有意思的论文,欢迎在文章后面留言。

    另外,下一篇博文整理了在多模态领域中也很常见的应用领域:

    展开全文
  • 4摘 要:深度学习多模态融合指机器从文本、图像、语音、视频等多个领域获取信息,实现信息转换和融合,从而提升模型 性能的技术,是一个典型的多学科交叉领域,已逐步成为研究热点。模态的普遍性和深度学习的快速...
  • 多模态医学图像的融合,基于拉普拉斯的重构。
  • 多模态教案设计和模态调用
  • 主要是针对近年来火热的多模态机器学习,多模态深度学习,深度多模态表示学习相关的论文做的幻灯片演示,自己分享讲解时所用,分享给大家参考
  • 导语:基本想法是优化多模态摘要训练的目标函数~ 作者 | 朱军楠、张家俊 多模态自动文摘是指利用计算机实现从含有两种或两种以上模态(如图片、文本等)的信息中生成图文式摘要的过程。该技术可以广泛应用于...
    2020-01-06 10:17

    导语:基本想法是优化多模态摘要训练的目标函数~

     

    AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

    作者 | 朱军楠、张家俊

    多模态自动文摘是指利用计算机实现从含有两种或两种以上模态(如图片、文本等)的信息中生成图文式摘要的过程。该技术可以广泛应用于新闻推送、跨境电商、产品描述自动生成等多个领域,具有重要的研究价值和丰富的应用场景。

    近年来,随着计算机视觉以及自然语言处理技术的发展,多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多模态自动文摘受限于数据集本身的原因只能采用文本模态的负对数似然损失作为目标函数训练整个网络,同时利用注意力机制来辅助挑选图片。

    这种做法容易带来模态偏差的问题,即整个网络会倾向于优化文本生成的质量而忽视了图片的挑选过程,如图1所示。若只考虑文本模态的损失,B摘要是要优于A摘要的,但是很显然B摘要中的图片的人物对应关系不对;而当我们引入图片选择的损失时,我们可以明显的判断出A摘要是优于B摘要的,并且这也符合基本事实。

     

    AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

    图 1 模态偏差的示例

     

     

    论文方法

    AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

    针对于上述问题,中科院自动化所自然语言处理组博士生朱军楠、周玉研究员、张家俊研究员、宗成庆研究员等提出了多模态基准指导的多模态自动文摘方法。基本想法是优化多模态摘要训练的目标函数,即在文本损失的基础上增加图片选择的损失函数。

     

    如图2所示,该方法由三部分组成:

    • (1)首先利用数据集本身的特征将只有文本基准的训练数据扩展至多模态基准,主要采用两种方式,即直接使用输入图片的顺序对图片进行排序或者使用图片的文字描述与标准文本摘要参考答案之间的ROUGE值大小对输入图片进行排序;

    • (2)在模型上添加图片判别器用于训练图片挑选的过程,模型的损失函数也由文本的损失函数及图片挑选的损失函数加权求和而成;

    • (3)通过数据集中的图片和文本描述构造文本-图片对齐片段从而用来训练能够更好地评价多模态片段的评价模型,具体而言我们将两对图片-描述的文本部分(或图像部分)进行交换去构造两个匹配的多模态片段,如图3所示。

    AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

    图 2 多模态基准指导的多模态自动文摘框架图

    AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

    图 3 多模态匹配片段构造示意图

     

     

     实验结果

    目前多模态自动文摘的数据集还比较匮乏,我们之前发布了一个公开数据集MSMO,这项工作也在该数据集上进行实验验证。在对比摘要方法的性能之前,我们首先需要明确应该采用哪种评价指标。在之前的工作中,图文式摘要的评价关注三个方面的指标:图片准确率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系统输出中图片文本的相关度(Msim)。在我们的方法中,我们引入一个新的自动评价指标MRmax用来直接度量两个多模态信息之间的相似度(输出和参考答案的最大相似度)。MMAE是对IP、ROUGE和Msim的组合,MMAE++是IP、ROUGE、Msim和MRmax四个自动评价指标的组合。我们利用与人工打分之间的相关度来对比不同的自动评价指标。

     

    表 1 不同评价指标与人工打分之间的相关度(分值越高、性能越好)

    AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

    表1给出了不同的自动评价指标与人工打分的相关度,可以看出融入了直接测量多模态片段的评价指标MR之后,新的自动评价模型MMAE++相比于MMAE在与人工打分的相关度上有一个显著的提升。为了衡量我们提出的多模态基准指导的模型,我们同多个强基线模型进行了对比,包括融入全局或者局部视觉特征的多模态注意力机制的生成式自动文摘模型(ATG、ATL)、层次化的多模态自动文摘模型(HAN)以及基于图模型的抽取式自动文摘模型(GR)。

     

    表 2 不同模型生成的图文式摘要的质量对比(MOF表示多模态基准指导的方法、RR表示通过ROUGE值对图片排序,OR表示通过输入图片的顺序对图片排序,enc表示利用编码器隐层状态选择图片,dec表示利用解码器隐层状态选择图片)

    AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

     

    表2给出了不同模型生成的图文式摘要的质量对比。可以看出在引入多模态基准指导后,模型的图片挑选质量(IP)得到了显著的改善,并且文本生成质量也有略微改进,从而生成更高质量的图文摘要。相对于使用编码器隐层状态而言,采用解码器隐层状态去进行图片选择效果会更好AAAI 2020 | 多模态基准指导的生成式多模态自动文摘。另一方面,使用图片描述与文本摘要之间ROUGE值的大小对图片排序获得的多模态基准对于模型的指导作用更加明显AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

     

    表 3 图片选择的损失函数的权重大小

    AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

    我们也对比了不同的图片选择损失函数权重对于模型性能的影响,可以看到当图片和文本的损失函数的权重都相同时,图文摘要的质量是最好的。

    表 4 计算图片损失中考虑的图片的数量的影响

    AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

    我们对比了在计算图片损失中考虑的图片数量(即top-K图片作为gold standard)所带来的影响,并且发现当 K=3的时候,模型取得了最好的效果。

     

    相关细节可参考发表于人工智能顶级学术会议AAAI 2020的论文:

    Junnan Zhu, Yu Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, Changliang Li. Multimodal Summarization with Guidance of Multimodal Reference. AAAI-2020.

    展开全文
  • 网络游戏-多模态网络和用于在多模态网络中分配资源的方法.zip
  • 点击下面卡片,关注我呀,每天给你送来AI技术干货!作者:冯夏冲来自:哈工大SCIR1. 摘要多模态摘要(Multi-modal Summarization)是指输入多种模态信息,通常包括文...

    点击下面卡片关注我呀,每天给你送来AI技术干货!


    作者:冯夏冲

    来自:哈工大SCIR

    1. 摘要

    多模态摘要(Multi-modal Summarization)是指输入多种模态信息,通常包括文本,语音,图像,视频等信息,输出一段综合考虑多种模态信息后的核心概括。目前的摘要研究通常以文本为处理对象,一般不涉及其他模态信息的处理。然而,不同模态的信息是相互补充和验证的,充分有效的利用不同模态的信息可以帮助模型更好的定位关键内容,生成更好的摘要。本文首先按照任务类型与模态信息是否同步对多模态摘要进行分类;接着介绍多模态表示中的一些基础知识;最后按照任务类型分类,简述了近几年多模态摘要在教学型视频、多模态新闻、多模态输入多模态输出以及会议中的相关工作,最后给出一些思考与总结。

    2. 多模态摘要分类

    本文按照多模态摘要(1)面向的任务类型(2)模态信息是否同步对该任务进行分类。

    图1 按照任务类型进行分类

    根据多模态摘要面向的任务类型进行分类,如图1所示。(1)教学型视频摘要(How2),How2是一个教学型视频多模态摘要数据集,同时具有视频信息,作者讲解的音频信息,以及对应的文字信息,目标是生成一段教学摘要。(2)多模态新闻摘要旨在对一个包含文字,图片,视频的新闻进行摘要。(3)多模态输入多模态输出摘要(MSMO)是指输入是多模态的,包括了一段文字和一些相关的图片,输出不仅仅要输出文字摘要,还要从输入的图片中选择一个最合适的图片。(2、3)主要为中科院宗成庆老师和张家俊老师的工作。(4)多模态会议摘要,指给定一段会议,包含了会议的视频,每个参与者说话的音频信息,需要生成一个会议摘要。

    图2 按照模态信息是否同步进行分类

    根据模态信息是否同步进行分类,如图2。(1)模态信息同步的多模态摘要,同步是指在每一个时刻,视频,音频,文字唯一对应。例如在一个会议中,某一个时刻,说话人的视频,说的词语,都是唯一对应的。(2)模态信息异步的多模态摘要,也就是多模态信息并非一一对应。例如一个多模态新闻,往往是最开始有一个视频,中间是文本信息,在段落之间会穿插一些图片,因此多模态信息是异步的。

    3. 多模态表示基础

    这一小节,我们将引入一些多模态表示的基础知识,包括多模态序列到序列模型中的注意力机制,多模态词表示以及多模态预训练模型。

    图3 多模态生成注意力机制

    首先是一篇 ACL17 的 Paper Libovický and Helcl, 2017[1],提出了如何在序列到序列框架下对多模态源数据进行 attention。如图3,绿色和蓝色分别代表两种模态的编码端隐层表示,灰色为解码器隐层状态,橙色为注意力向量。假设我们有多种模态的 Encoder,叫做 Multi Encoder,在编码之后,每一个模态会有一个向量序列隐层表示。论文共提出三种注意力机制:(1)第一种方法是flat,即平滑所有编码器端隐层表示。使用解码器隐层状态对平滑后的编码器隐层表示计算注意力得分,最终得到注意力向量;(2)第二种方法是 concat,利用解码器隐层状态分别对两个序列计算得分,并得到分别的注意力向量,然后将多个注意力向量进行拼接并转换到统一维度。(3)第三种方法是 hierarchical,首先得到两个模态对应的注意力向量,然后再利用解码器隐层表示对两个注意力向量计算权重分布,最后根据权重融合多个注意力向量。作者在多模态机器翻译任务上进行实验,发现 hierarchical 的方式是效果最好的,后人的工作基本采用的也都是 hierarchical 的注意力机制。

    图4 讨厌词语表示示例

    然后是一篇多模态词表示的工作,是清华大学和 CMU 发表在 AAAI19 上的 paper Wang et al., 2019[2]。核心想法是利用非语言的特征,例如视频和音频来调整词语的表示。举个例子,对于词语讨厌,讨厌在中文中是可以有很多含义的,比如真的讨厌,是一个负向的情感,也可能是女朋友的撒娇,是正向的情感。因此,仅仅根据文本,给定固定的词语表示可能会使得词语语义表示不充分,无法很好地利用到下游任务之中。论文认为引入多模态信息可以缓解这一问题,如图4。当我们提供一个白眼图片信息,讨厌词语表示可以被调整到蓝色点位置。当我们提供另一个图片信息,讨厌词语表示可以被调整到橙色位置。也就是利用非语言模态中的信息补充词语表示的语义信息,使得词语表示更加的合适,或者换一种说法:更加的多模态信息上下文敏感(context sensitive)。

    图5 RAVEN 模型

    整个多模态词表示模型被称为 RAVEN,分为三个模块。如图5,对于一个词语 sick,有一段对应的连续的视频和音频,分别利用现有的特征抽取工具进行特征抽取(FACET 和 COVAREP),最后得到每一个模态对应的特征表示,红色为视频特征表示,黄色为音频特征表示,绿色为词语特征表示。分别利用视频和音频表示与词语表示计算一个得分,根据该得分进行特征融合,得到一个非语言的偏移向量(紫色)。最终将该向量归一化之后加到词语向量上得到融入多模态信息的词语表示。作者在多模态情感分析和多模态对话情绪识别两个任务上进行实验,相较而言,在情感分析上结果较为显著。

    图6 Unicoder-VL 模型

    最后这篇是周明老师组在 AAAI20 上提出来的多模态预训练模型 Li et al., 2020[3]。输入部分包括了图片和文本两种模态的信息。对于图片,首先使用工具 Faster R-CNN 抽取其中的具体意义部分,例如卡车,树,马路等,同时会得到对应的特征向量表示及位置信息表示。如图6,模型输入分为三个部分。对于图片,词向量都是 [IMG],segment 都是 img,position 都是 1,除此以外,在进入模型之前需要额外输入:(1)每一个图片的特征向量;(2)图片位置特征。文本部分与 BERT 一致。预训练任务共有三个,其中 MLM 和 MOC 分别是遮盖文字和遮盖图片然后进行预测,VLM使用 [CLS] 标签表示判断输入的图片和文本是否是匹配的。

    4. 教学型视频摘要

    本小节介绍教学型视频(How2)多模态摘要的相关论文。

    图7 How2 数据集示例

    How2 数据集 Sanabria et al., 2018[4],发表于 NIPS18,名字来源于 how to do sth,该数据集主要描述教学型视频,如图7,为一个高尔夫教学视频。该数据集包括了视频信息,作者讲解的音频信息,文本信息以及最终的摘要。一共包括了 2000 小时的视频,主题包括运动,音乐,烹饪等。摘要平均 2 到 3 句话。

    图8 How2 数据集多模态模型

    Palaskar et al., 2019[5]在ACL19上提出了基础的多模态摘要模型用于教学型视频摘要任务,如图8。其模型包括了视频编码器,文本编码器与解码器。视频编码器采用的是 ResNext-101 3D 模型,可以识别 400 种人类的行为动作。文本编码器为基于 RNN 的编码器。在得到两种模态数据的隐层表示之后,结合层次化注意力机制生成最终摘要。实验证明融合文本与视频的模型可以取得最优的效果。

    5. 多模态新闻摘要

    本小节介绍多模态新闻摘要任务。

    图9 抽取式多模态新闻摘要

    Li et al., 2017[6] 提出了一种抽取式多模态摘要的方法。抽取式摘要的目的是从句子集合中选取一个子集合作为最终摘要。那么对于多模态的输入来讲,这个句子集合分为两个部分。一个是文档句子,另一个是视频的 transcripts,共同作为句子集合,如图9。抽取式方法的核心是给每个句子一个打分。最简单的我们可以使用 TextRank,LexRank 这些基于相似度的方法给每个句子一个打分。但是现在引入了多模态的信息,因此我们可以利用这些多模态的信息进行改进。

    图10 改进的 LexRank

    作者在 LexRank 的基础上,融入视频特征和音频特征,将 LexRank 算法中的一些无向边修改为有向边,如图10。对于视频特征,作者认为当一个文档中的句子和一个 transcript 句子相似度高的时候,倾向于选择文档中的句子,因为文档句子更加的规整干净,而 transcript 噪音比较多,因此在计算相似度的时候是有方向性的。例如当 v1 和 v3 相似度高的时候,将权重从 transcript 传向文档句子,通过这种方式使得文档句子得分更高。对于音频特征,作者认为 transcript 句子都有与其对应的音频特征,例如:声学置信度,音频,音量。当一个 transcript 句子音频得分较高时,更应该被选择。因此当两个相邻的 transcript 句子音频得分一个高一个低的时候,会由得分低的句子把相似度权重传递给音频得分高的句子。通过融入视频特征与音频特征,每一个句子都会有一个得分。

    图11 图文匹配得分

    作者的另一个假设是文档如果提供了图片,那么这个图片包含的应该是比较有用的信息,因此和图片对齐的句子得分应该高一些。如图11,当一个图片描述 “进口冻虾”时,右上角句子更应该被选做最终摘要句。除了文档中的图片以外,还会从视频中抽取一些关键 frame,简单来讲就是每个场景一个图片。利用图片和关键视频 frame,使用一个外部工具对齐图片和句子。最终每一个句子都可以得到对齐的得分。通过结合改进的 LexRank 得分与图文匹配得分进行最终的摘要句子选取。

    图12 多模态句子摘要

    Li et al., 2018[7] 提出了多模态句子摘要任务,输入句子和一张图片,输出一个句子摘要,如图12,并构建了任务数据集,作者利用现有 Gigaword 英文数据集去网上检索了每个句子对应的top5 的相关图片,然后又人工选取了其中最合适的一张。最终得到 train,valid, test 的划分分别是 62000,2000,2000。由于图片并非原来数据集自带,因此通过外部得到的图片也可能引入一定的噪音。

    图13 多模态句子摘要模型

    作者提出模型的重点也主要关注如何过滤图片噪音信息。模型核心包括了三个部分,如图13,句子编码器,图片编码器和解码器。句子编码器是一个双向 GRU,图片编码器是 VGG,分别会得到一个序列的隐层表示。在解码的时候,根据层次化注意力机制融合两个模态的注意力向量,最终生成摘要。这属于模型的基本部分。除此以外,为了过滤图片噪音信息,作者还提出了两种过滤机制:(1)第一种作用在图片注意力向量的权重上,相当于一个门,通过图片全局表示,解码器的初始状态与解码器的当前状态计算得到 0 到 1 之间的数值,进一步更新权重。(2)第二种作用在图片注意力向量上,利用上述三个部分计算得到一个向量,向量中的每一个部分都是 0 到 1 之间的数值,利用该门控向量过滤图片信息。最终实验发现第一种方式效果更佳。

    6. 多模态输入多模态输出摘要

    本节介绍多模态输入多模态输出(Multimodal Summarization with Multimodal Output,MSMO)的相关工作。

    图14 MSMO 多模态摘要

    这篇工作是张家俊老师组发表在 EMNLP18 的工作 Zhu et al., 2018[8],作者提出了一个新的多模态摘要任务,输入是多模态的,输出也是多模态的。具体为:输入文本以及几张相关的图片,输出对应的摘要,同时从输入图片中选取一张最重要的图片,如图14。作者提出的模型基础架构与之前类似,包括文本编码器,图片编码器,解码器以及层次化注意力机制。因为该任务的特点在于需要从输入图片中选择一个最重要的图片,作者设计了一种 Visual Coverage 机制来实现,这部分下面会详细介绍。同时作者为了衡量最终的摘要效果,提出了一个考虑多种模态的衡量指标 MMAE,ROUGE 针对文本,image precision 是指选择的图片是否在标准图片中,取值为 0 或 1。image-textrelevance 是指利用外部工具计算最终摘要与选择图片的匹配得分,最后使用逻辑斯蒂回归组合三种得分。为了完成该任务,作者构建了相关数据集,利用现有 Daily Mail 数据集,得到原始对应的相关图片,并使用人工选择至多三张图片作为标准图片。

    图15 Visual Coverage 机制

    如图15,展示了 Visual Coverage 机制的一个简单示例。在解码的每一步,会产生一个针对不同图片的注意力分布。当生成全部文本时,将之前所有步的注意力得分进行累加,选择累计得分最高的图片作为最终选择图片。

    图16 MSMO 任务引入多模态监督信号

    基于上面的工作,Zhu et al., 2020[9] 认为之前的摘要模型仅仅利用文本标注进行训练,忽略了图片标注的利用。这篇工作除了利用摘要生成时候的文本损失,还利用图片选择的分类损失,如图16。具体来讲,在得到每一个图片的全局表示之后,与解码器的最后一个隐层状态进行相似度计算,然后归一化概率选择图片。但是目前的数据集具有多个图片标准标注,没有唯一的图片标注,因此为了在训练时提供图片监督信号,作者提出了两种构建唯一标注图片标注的方式:(1)ROUGE-ranking,对于每一个图片有一个与之对应的描述(caption),利用该描述与标准文本摘要计算 ROUGE 得分,最终选择 ROUGE 得分最高的描述对应的图片作为唯一标准标注图片;(2)Order-ranking,根据数据集中的图片顺序选择第一个。

    7. 多模态会议摘要

    本小节介绍多模态会议摘要的相关工作。Improving Productivity Through NLP, Microsoft 指出职员需要花费 37% 的工作时间用于参加会议,每个会议平均会陈述 5000 个词语。如此频繁的会议和冗长的内容给职员造成了极大的负担,因此会议摘要可以帮助快速的总结会议决策信息,提问信息,任务信息等核心内容,缓解职员压力,提高工作效率。但是仅仅利用会议文本信息是不够的,多模态信息,例如视频、音频可以提供更加充足和全方面的信息,例如有人加入了会议,离开了会议;通过一些动作,语音语调,面部表情,识别讨论是否有情绪,是否有争论等等。因此多模态会议摘要逐渐得到了人们的关注。

    图17 多模态会议摘要

    Erol et al., 2003[10]提出利用多模态特征来定位会议中的重要内容。如图17,一共从三个模态建立特征。音频方面,有两个特征,一个是单位时间窗口内,声音方向的变换次数以及声音幅度。视觉方面,是两个相邻的 frame 的亮度变化。文本方面是 TF-IDF 特征。通过结合上述三种模态的特征来最终定位关键内容。

    图18 多模态抽取式摘要

    Nihei et al., 2018[11] 使用神经网络来完成抽取式会议摘要任务。融合视频信息,动作信息,声音信息以及文本信息来定位会议关键内容,如图18。

    图19 多模态生成式摘要

    Li et al., 2019[12] 提出在生成式会议摘要中融入多模态特征 Visual Focus Of Attention (VFOA)。作者认为,当一个参与者在发表言论的时候,如果其他人都关注该说话人,那么表示该说话人当前陈述的句子比较重要。因此,对于会议中的一句话,会对应四位参与者的视频,每个视频是由一组frame 组成的。每个 frame 会对应一个五维度的特征,如图19,将该特征输入到神经网络中,预测该视频 frame 中参与者目前正在关注的目标(在数据集中有标准标注)。训练好以后,对于会议中的一句话,将四位参与者的对应视频信息输入到网络中得到输出,进行拼接,得到该句子的 VFOA 特征向量。在解码会议摘要时,会利用到该视觉特征向量进行解码。

    8. 总结

    本文从任务分类的角度,简单介绍了多模态摘要的相关工作。尽管多模态摘要已经取得了一定的进展,但是依旧存在以下几个关键点值得认真思考:

    (1)现有模型结构简单。现有模型架构基本为序列到序列模型结合层次化注意力机制,不同的工作会依据任务特点进行一定的改进。为了更有效的融合多模态信息,发挥模态信息的交互互补作用,在目前架构的基础上,应该思考更加合适的架构。

    (2)不同模态信息交互较少。现有工作模态融合的核心在于层次化注意力机制,除此以外,不同模态信息缺少显式的交互方式,无法充分的发挥模态信息之间的互补关系。

    (3)依赖于人工先验知识。通常来讲,需要人为预先选择不同类型的预训练特征抽取模型进行特征提取,这一过程依赖于很强的人工判断来预先决定有效的特征,需要一定的领域专业知识。

    (4)数据隐私性考虑少。多模态数据在提供更丰富信息的同时,也给数据保密带来了一定的挑战。例如多模态会议数据,其中的声纹特征与脸部特征都是非常重要的个人隐私信息。因此在实际落地中需要充分考虑数据隐私性问题。

    (5)单一文本输出缺少多样性。现有工作已经开始尝试多模态输入多模态输出,当输出摘要包含多种模态时,可以满足更广泛人群的需求。例如对于语言不熟悉时,可以通过视频和图片快速了解重要内容。在未来多模态摘要输出也将成为一个重要的研究关注点。

    总体而言,在多模态火热发展的大背景下,多模态摘要作为其中的一个分支既具有多模态学习的共性问题,也具有摘要任务自身的个性问题,该任务在近几年开始蓬勃发展,在未来也会成为一个重要的研究方向。

    参考资料

    [1]

    Jindřich Libovický and Jindřich Helcl. Attention strategies for multi-source sequence-to-sequence learning. ACL 2017. https://www.aclweb.org/anthology/P17-2031

    [2]

    Yansen Wang, Ying Shen, Zhun Liu, P. P. Liang, Amir Zadeh, and Louis-Philippe Morency. Words can shift: Dynamically adjusting word representations using nonverbal behaviors. AAAI 2019.

    [3]

    Gen Li, N. Duan, Yuejian Fang, Daxin Jiang, and M. Zhou. Unicoder-vl: A universal encoder forvision and language by cross-modal pre-training. AAAI 2020.

    [4]

    R. Sanabria, Ozan Caglayan, Shruti Palaskar, Desmond Elliott, Loïc Barrault, Lucia Specia,and F. Metze. How2: A large-scale dataset for multimodal language understanding. NeurIPS 2018.

    [5]

    Shruti Palaskar, Jindřich Libovický, Spandana Gella, and F. Metze. Multimodal abstractive summarization for how2 videos. ACL 2019.

    [6]

    Haoran Li, Junnan Zhu, C. Ma, Jiajun Zhang, and C. Zong. Multi-modal summarization forasynchronous collection of text, image, audio and video. 2017.

    [7]

    Haoran Li, Junnan Zhu, Tianshang Liu, Jiajun Zhang, and C. Zong. Multi-modal sentence summarization with modality attention and image filtering. IJCAI 2018.

    [8]

    Junnan Zhu, Haoran Li, Tianshang Liu, Y. Zhou, Jiajun Zhang, and C. Zong. Msmo: Multimodal summarization with multimodal output. EMNLP 2018.

    [9]

    Junnan Zhu, Yin qing Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, and Changliang Li. Multimodal summarization with guidance of multimodal reference. AAAI 2020.

    [10]

    B. Erol, Dar-Shyang Lee, and J. Hull. Multimodal summarization of meeting recordings. ICME 2003.

    [11]

    Fumio Nihei, Yukiko I. Nakano, and Yutaka Takase. Fusing verbal and nonverbal information forextractive meeting summarization. GIFT 2018.

    [12]

    Manling Li, L. Zhang, H. Ji, and R. Radke. Keep meeting summaries on topic: Abstractive multimodal meeting summarization. ACL 2019.

    本期责任编辑:李忠阳

    本期编辑:顾宇轩


    投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

    记得备注呦

    点击上面卡片,关注我呀,每天推送AI技术干货~

    整理不易,还望给个在看!
    
    展开全文
  • 多模态复杂过程的多变量、多工序、变量时变性以及模态转换时间不确定等多种原因, 导致面向多模态生产过程的监测问题十分复杂. 对此, 基于高斯混合模型的监测方法, 结合定性知识和定量知识, 解决了多模态过程监测中...
  • 为了解决这一问题,我们开发了基于DICOM图像的多模态(CT或MR、超声)影像融合系统,该系统具备三维重建、多模态影像对比及多模态影像融合功能。通过多模态影像实时对比及影像融合显示,可以使医生更好的熟悉超声...
  • 多模态过程中新出现的模态过程短期内无法获得充足的建模数据, 且传统统计控制方法无法有效地估计过 程特性. 鉴于此, 提出一种基于历史模型数据相关特性建立初步模型的方法, 充分利用已有多模态历史数据的相关特...
  • 电信设备-基于判别式多模态深度置信网多模态数据融合方法和系统.zip
  • 近年来,多模态数据挖掘技术备受关注,如何高效地挖掘大量多模态数据成为一个研究热点。其中,基于张量表示的多模态数据挖掘,即多模态张量数据挖掘,是一个重要的研究问题。综述了多模态张量数据挖掘算法进展及其在...
  • 多模态表示学习旨在缩小不同模态之间的异质性差距,在利用普遍存在的多模态数据方面起着不可或缺的作用。基于深度学习的多模态表示学习由于具有强大的多层次抽象表示能力,近年来受到了广泛的关注。
  • 目录用于非对齐多模态语言序列的多模态转换器研究问题研究方法创新点数据集技术介绍输出思考 用于非对齐多模态语言序列的多模态转换器 研究问题 多模态情况下,各个模态的信息存在互补,另外也存在信息冗余,因此...
  • 面向深度学习的多模态融合技术研究综述_何俊,多模态特征融合,Python源码
  • 多模态召回

    2020-09-28 22:48:41
    要处理自然界、生活中多种模态纠缠、互补着的信息,多模态学习是必由之路。随着互联网交互形态的不断演进,多模态内容如图文、视频等越发丰富;
  • 社会媒体中多模态和多层次的信息资源和基于各种关系构建的用户社群为推荐系统提供了更广阔的分析和选择空间,同时也带来了更多的问题与挑战。本文分析了当前社会媒体中用户与资源的关系以及社会媒体资源推荐的特点,...
  • 关于环形拓扑多模态多目标粒子群算法的代码,直接在MATLAB上运行即可
  • Transformer 多模态

    千次阅读 2021-03-18 16:00:10
    人类语言往往是多模态的,包括自然语言,表情以及声学行为。但对时间语言序列进行多模态建模存在以下两个主要挑战: 1.不同模态的数据在时间上是不对齐的,这里不对齐一是采样率不同,二是不同模态数据采集的起始...
  • 我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量。
  • 多模态融合技术综述和应用

    千次阅读 多人点赞 2020-12-03 11:58:14
    开放数据与资源应用1:多模态摘要(综合多模态信息生成内容摘要)多模态摘要种类多模态表示基础多模态中的注意力机制多模态词表示(用非语言特征:视频、音频调整词语的表示 )教学型视频摘要多模态新闻摘要论文 ...
  • 多模态维度情感预测综述
  • 多模态多视图视频编码的新方法
  • 针对视频自动描述任务中的复杂信息表征问题,提出一种多维度和多模态视觉特征的提取和融合方法。首先通过迁移学习提取视频序列的静态和动态等多维度特征,并采用图像描述算法提取视频关键帧的语义信息,完成视频信息...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 48,205
精华内容 19,282
关键字:

多模态