精华内容
下载资源
问答
  • 交融和融合
    2021-07-03 05:57:32

    不久前,华语音乐人周杰伦的新作《Mojito》刷爆网络,各大社交媒体上出现了各种改编、翻唱版本,其中既有缉毒警察的禁毒版,也有铁路职工的高铁动车版,还有外语专业学生的小语种版,更有音乐学院毕业生的人声版……传唱范围之广、改编热情之大,凸显了拉丁风情与华语流行音乐融合的奇妙魅力。

    “当街灯亮起,哈瓦那漫步,这是世上最美丽的那双人舞。”歌词描绘了古巴的独特风情。拱廊的壁画、旧城的涂鸦、缤纷的老爷车、摇曳的棕榈,一幅幅哈瓦那城的画面,伴随着悠扬轻快的拉丁曲调浮现在听者的脑海里,令人心驰神往。歌曲中穿插的饶舌音乐,使这首曲子在异域风情的基础上,又融入了现代时尚,满足了不同年龄群体的音乐审美。中文的唱词也让中国音乐爱好者更容易理解,更能感受拉丁音乐之美。

    拉丁音乐一般指从美、墨交界到南美最南端地区的流行音乐。在这广袤的多民族土地上,白人音乐、黑人音乐、印第安音乐,甚至是远在大洋彼岸的亚洲音乐,相互交融。正是这种超越时空的文化融合,在经过长期历史沉淀和社会沿革之后,逐渐形成了当今多姿多彩、充满活力与动感的拉丁风情音乐。

    拉丁音乐基于欧洲文化,大量吸取了美洲印第安和非洲黑人文化元素,“和而不同”是对拉丁美洲各国音乐之间关系的最好诠释。这种互鉴融合,又保留了不同国家、民族特色的独特配比,为拉丁音乐注入了非凡的能量。拉丁音乐大多节奏相似,一个长拍接3个短拍,常以强有力的鼓点形式在歌曲中出现。因此,尽管在节奏之上添加了不同的旋律,使用了不同的乐器,还是会给人一种似曾相识的亲切感。

    在拉美地区,纯粹质朴的民族音乐有着很强的生命力和深厚的群众基础。比如在委内瑞拉、秘鲁等地,有一种被当地人称为“平原歌曲”的音乐类型很受欢迎,在年轻人中也有着巨大影响力。一位中国朋友听过平原歌曲后说:“闭上眼睛,仿佛能看到雄鹰从秘鲁和玻利维亚苍凉的高原上飞过。”这些独特音乐元素与传统民族乐器,被当代艺术家们灵活运用,为拉丁流行音乐的创作与发展提供了源泉。

    拉丁音乐还适合跳舞,拉丁舞也成了拉丁文化重要的符号。歌曲《Mojito》的歌词和音乐短片,都体现了拉丁舞的元素。拉丁舞有许多分支,但它们的共同特点是爆发力强,特别注重情感的表达。舞伴默契配合、自由发挥,舞步变幻莫测。在世界各地的健身房里,拉丁舞也是不可或缺的课程之一,因其易入门、亲和力强等特点,深受健身爱好者青睐。

    节奏欢快的拉丁音乐和热情浪漫的拉丁舞背后,是拉丁美洲人民的乐观、洒脱与坚韧。透过《Mojito》的音乐短片,人们看到的不仅仅是哈瓦那的浪漫景象,还有当地人的生活面貌。在粉色的老爷车和微醺的鸡尾酒背后,是千千万万普通的拉美人民,其中有加勒比海边的居民,安第斯山脉的土著,潘帕斯草原的牧民……在歌曲的一次次传唱与改编中,拉丁音乐与华语流行音乐交融碰撞,焕发出新的生命力。(黄 佳)

    更多相关内容
  • 七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合19北魏政治北方民族大交融北魏孝文帝的改革素材新人教版20191225410
  • 七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融知能演练提升新人教版
  • 2019秋七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融知识点新人教版20191211415
  • 2019秋七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融巩固练习新人教版20191211416
  • 2018年秋七年级历史上册10分钟课堂检测第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融试题pdf新人教版
  • 联想超融合AIO H1000 V4.5.2 使用手册 R1.0 2021.01.11.pdf
  • 河南省商丘市永城市龙岗镇七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融课时达标2无答案新人教版20180822464
  • 河南省商丘市永城市龙岗镇七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融课时达标1无答案新人教版20180822463
  • 河南省商丘市永城市龙岗镇七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融自学检测无答案新人教版20180822467
  • 河南省商丘市永城市龙岗镇七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融提升训练无答案新人教版20180822465
  • 河南省商丘市永城市龙岗镇七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融填充图册无答案新人教版20180822466
  • 河南省商丘市永城市龙岗镇七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融当堂达标无答案新人教版20180822462
  • 吉林省白城市通榆县七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第19课北魏政治北方民族大交融导学案无答案新人教版20180717473
  • 针对现有主流保护方法存在的特征明显、模式单一等问题,以 LLVM 开源编译框架为基础,提出了一种基于融合编译的软件多样化保护方法,该方法将目标软件进行随机化加密处理,并...能有效对抗主流代码逆向分析破解手段。
  • 兵学儒学同产生于先秦时代。兵学伴随频繁战事应运而生,儒学在诸子百家纷争中...随着历史的发展,兵儒从矛盾对峙,逐渐走向相互融合,儒家的"义战"、民本等思想深入渗透至兵学之中,兵儒交融对兵学发展产生了深远影响。
  • 第三单元三国两晋南北朝时期:政权分立与民族交融.pdf
  • 多模态融合技术综述应用

    万次阅读 多人点赞 2020-12-03 11:58:14
    文章目录多模态技术基础1,多模态融合架构(神经网络模型的基本结构形式)1.1联合架构1.2协同架构1.3编解码架构(自监督)2,多模态融合方法2.1早期融合2.2 晚期融合2.3混合融合3,模态对齐方法3.1显式对齐方法3.2...

    多模态技术基础

    参考论文:https://kns.cnki.net/kcms/detail/detail.aspx?doi=10.19678/j.issn.1000-3428.0057370
    参考文章:https://zhuanlan.zhihu.com/p/133990245

    深度学习多模态融合指机器从文本、图像、语音、视频等多个领域获取信息,实现信息转换和融合,从而提升模型性能的技术,是一个典型的多学科交叉领域。人们生活在一个多领域相互交融的环境中,听到的声音、看到的实物、闻到的味道等都是各领域的模态形式,为了使深度学习算法更加全面和高效地了解周围的世界,需要给机器赋予学习和融合这些多领域信号的能力。因此,研究者们开始关注如何将来自多领域的数据进行融合,以实现多种异质信息的互补。例如,对语音识别的研究表明,视觉模态提供了嘴的唇部运动和发音的信息,包括张开和关闭,从而有助于提高语音识别性能。因此,利用多种模式提供的综合语义对深度学习非常有价值。
    在机器学习中,我们已经知道模型学习的特征越多,种类越多效果越好。所以融合多模态的特征可以使得模型学到的特征越完整,也是符合人类进化的表现,人类在多种行动与决策都会综合多个模态信息,比如视觉、听觉、嗅觉等。
    多模态技术主要要素:表示(Representation),融合(Fusion)、转换(Translation)、对齐(Alignment)。由于不同模态的特征向量最初位于不同子空间中,即异质性差距,这将阻碍多模态数据在随后的深度学习模型中综合利用[3]。解决这一问题可将异构特征投影到公共子空间,其中具有相似语义的多模态数据将由相似向量表示。多模态融合技术的主要目标是缩小语义子空间中的分布差距,同时保持模态特定语义的完整性。

    1,多模态融合架构(神经网络模型的基本结构形式)

    多模态融合的主要目标是缩小模态间的异质性差异,同时保持各模态特定语义的完整性,并在深度学习模型中取得最优的性能。分为三类联合(Joint)架构、协作(Coordinated)架构和编解码(Encode-Decode)架构。三种融合架构在视频分类、情感分析、语音识别等许多领域得到广泛应用,且涉及图像、视频、语音、文本等融合内容,具体应用情况如下表 所示。
    在这里插入图片描述

    1.1联合架构

    联合架构是将单模态表示投影到一个共享语义子空间中,以便能够融合多模态特征。如下图所示,**每个单一模态通过一个单独的编码后,都将被映射到一个共享子空间中,**遵循这一策略,在视频分类[12]、事件检测[7]、情绪分析[13,14]、视觉问答[15,16]和语音识别[18]等多模态分类或回归任务中都表现出较优的性能。
    在这里插入图片描述
    多模态联合架构的关键是实现特征“联合”,最简单方法是直接连接,即“加”联合方法。该方法在不同的隐藏层实现共享语义子空间,将转换后的各个单模态特征向量语义组合在一起,从而实现多模态融合,如公式 z = f ( w 1 T v 1 + . . . + w n T v n ) z=f(w_1^Tv_1+...+w_n^Tv_n) z=f(w1Tv1+...+wnTvn)所示。
    其中z是共享语义子空间中的输出结果,v是各单模态的输入,w是权重,下标表示不同的模态,通过映射f将所有子模态语义转换到共享子空间。
    另外一种常用方法是“乘”联合方法,如文献[29]提出将语言、 视频和音频等模态融合在统一的张量(Tensor)中,而张量是由所有单模态特征向量的输出乘积构成的,如公式所示。
    在这里插入图片描述
    其中,z表示融合张量后的结果输出,v表示不同的模态, ⊗ \otimes 表示外积算子。
    尽管“加”联合方法简单且容易实现,但其特征向量语义组合易造成后期语义丢失,使模型性能降低。而“乘”联合方法弥补了这一不足,通过张量计算使特征语义得到更“充分”融合,最常见的方法是深度神经网络, 例如文献[17]的多模态情感预测模型由包括许多内部乘积的连续神经层组成,充分利用深度神经网络的多层性质,将不同模态有序安排在不同层中,并在模型训练过程中动态实现向量语义组合。

    多模态联合框架的优点是融合方式简单,且共享子空间往往具备语义不变性,有助于在机器学习模型中将知识从一种模态转移到另一种模态。缺点是各单模态语义完整性不易在早期发现和处理。

    1.2协同架构

    协同架构包括跨模态相似模型典型相关分析,其目的是寻求协调子空间中模态间的关联关系;由于不同模态包含的信息不一样,协同方法有利于保持各单模态独有的特征和排它性,如图 下图所示。
    在这里插入图片描述
    协同架构在跨模态学习中已经得到广泛应用,主流的协同方法是基于交叉模态相似性方法,该方法旨在通过直接测量向量与不同模态的距离来学习一个公共子空间[32]。而基于交叉模态相关性的方法旨在学习一个共享子空间,从而使不同模态表示集的相关性最大化[4]。
    交叉模态相似性方法在相似性度量的约束下保持模态间和模态内的相似性结构,期望相同语义或相关对象的跨模态相似距离尽可能小,不同语义的距离尽可能大。 例如: 文献[23]提出的模态间排名方法用于完成视觉和文本融合任务,将视觉和文本的匹配嵌入向量表示为, 融合目标用一个损失函数表示,如下面公式所示。
    在这里插入图片描述
    与其它框架相比,协同架构的优点是每个单模态都可以独立工作,这一特性有利于跨模式转移学习,其目的是在不同的模态或领域之间传递知识。缺点是模态融合难度较大,使跨模态学习模型不容易实现,同时模型很难在两种以上的模态之间实现转移学习。

    1.3编解码架构(自监督)

    编解码器架构是用于将一个模态映射到另一个模态的中间表示。
    编码器将源模态映射到向量 v 中,解码器基于向量 v 将生成一个新的目标模态样本。该架构在图像标注、图像合成、视频解码等领域有广泛应用。
    在这里插入图片描述
    目前,编解码器架构在研究中重点关注共享语义捕获和多模序列的编解码两个问题。为了更有效地捕获两种模态的共享语义,一种流行的解决方案是通过一些正则化术语保持模态之间的语义一致性。必须确保编码器能正确地检测和编码信息,而解码器将负责推理高级语义和生成语法,以保证源模态中语义的正确理解和目标模态中新样本的生成。为了解决多模序列的编码和解码问题,关键是训练一个灵活的特征选择模块,而训练序列的编码或解码可以看作一个顺序决策问题,因此通常会采用决策能力强的模型和方法解决。例如,深度强化学习(Deep Reinforcement Learning,DRL)是一种常用的多模序列编解工具[35]。

    与其它框架相比,编解码器框架的优点是能够在源模态基础上生成新的目标模态样本。其缺点是每个编码器和解码器只能编码其中一种模态。 此外,决策模块设计非常复杂,值得研究者进一步关注。

    2,多模态融合方法

    在这里插入图片描述
    将多模态融合方法分为两大类:模型无关的方法和基于模型的方法,前者不直接依赖于特定的深度学习方法,后者利用深度学习模型显式地解决多模态融合问题,例如基于核的方法、图像模型方法和神经网络方法等。
    模型无关的融合方法可以分为早期融合(即基于特征的)、晚期融合(即基于决策的)和混合融合。
    在这里插入图片描述

    2.1早期融合

    早期融合在提取特征后立即集成特征(通常只需连接各模态特征的表示)即特征融合。由于深度学习本质上会涉及从原始数据中学习特征的具体表示,这就导致了有时可能在没有抽取特征之前就需要进行融合,即数据融合。因此,特征层面和数据层面的融合都称为早期融合
    模态之间往往是高度相关的,但这种相关性在特征层和数据层提取难度都很大。文献[52]认为,不同的数据流所包含的信息之间往往在较高层次才能找到相关。例如,文献[53]提出多模态数据的早期融合不能充分展示模态之间的互补性,且可能导致冗余向量的输入。因此,研究者们通常采用降维技术来消除输入空间中的冗余问题,例如文献[54]中的主成分分析(Principal Component Analysis,PCA) 方法被广泛应用于多模态深度学习中的降维处理。此外,多模态早期融合方法还需要解决不同数据源之间的时间同步问题,文献[55]提出了几种解决同步问题的方法,如卷积(Convolutional)、训练(Training)和池融合(Pool Fusion)等,能很好地将离散事件序列与连续信号进行整合,实现模态间的时间同步。

    2.2 晚期融合

    晚期融合在每种模式输出结果(例如输出分类或回归结果)之后才执行集成。

    晚期融合也叫决策级融合,深度学习模型先对不同的模态进行训练,再融合多个模型输出的结果。因为该方法的融合过程与特征无关,且来自多个模型的错误通常是不相关的,因此这种融合方法往往受到青睐。目前,晚期融合方法主要采用规则来确定不同模型输出结果的组合,即规则融合,如:最大值融合(Max-Fusion)、平均值融合(Averaged-Fusion)、贝叶斯规则融合(Bayes Rule Fusion)以及集成学习(Ensemble Learning)等规则融合方法[56]。文献[55]尝试将早期和晚期融合方法进行比较,发现两种方法的性能优劣与具体问题有很大关系,当模态之间相关性比较大时晚期融合优于早期融合,当各个模态在很大程度上不相关时,例如维数和采样率极不相关,采用晚期融合方法则要更适合。因此,两种方法各有优缺点,需要在实际应用中根据需求选择。

    2.3混合融合

    混合融合结合了早期融合方法和单模态预测器的输出。
    混合融合结合了早期和晚期融合方法,在综合了二者优点的同时,也增加了模型的结构复杂度和训练难度。由于深度学习模型结构的多样性和灵活性,比较适合使用混合融合方法,在多媒体、图像问答任务、手势识别[57]等领域应用得非常广泛。例如,文献[58]的视频和声音信号融合过程中,先进行仅基于视频信号和仅基于声音信号的听深度神经网络模型训练,分别产生模型测结果,再将视频信号和声音信号的集成特征输入视听深度神经网络模型中,产生模型预测,最后采用加权方式整合各模型的预测,获得最终较好的识别结果。混合融合方法的组合策略合理性问题是提高模型性能的关键因素。例如文献[42]是利用该方法实现多媒体事件检测的典型应用,通过整合早期融合捕捉特征关系和晚期融合处理过拟合的优势,设计“双融合”的混合融合方案,达到 88.1%的准确率,是目前该领域最好的结果。

    3,模态对齐方法

    模态对齐是多模态融合关键技术之一,是指从两个或多个模态中查找实例子组件之间的对应关系。例如,给定一个图像和一个标题,希望找到图像区域与标题单词或短语的对应关系[72]。多模态对齐方法分为显式对齐和隐式对齐两种类型。显式对齐关注模态之间子组件的对齐问题,而隐式对齐则是在深度学习模型训练期间对数据进行潜在的对齐。

    3.1显式对齐方法

    1. 无监督方法
      该方法在不同模态的实例之间没有用于直接对齐的监督标签。例如,动态时间扭曲(Dynamic Time Warping ,DTW)[73]是一种动态规划的无监督学习对齐方法,已被广泛用于对齐多视图时间序列。 文献[74]是根据相同物体的外貌特征来定义视觉场景和句子之间的相似性,从而对齐电视节目和情节概要。上述两个研究成果都在没有监督信息的前提下,通过度量两个序列之间的相似性, 在找到它们之间的最佳匹配之后按时间对齐 (或插入帧),从而实现字符标识和关键字与情节提要和字幕之间的对齐。也有类似 DTW 的方法用于文本、语音和视频的多模态对齐任务,例如文献[75]使用动态贝叶斯网络将扬声器输出语音与视频进行对齐。
    2. 监督方法
      有监督对齐技术是从无监督的序列对齐技术中得到启发,并通过增强模型的监督信息来获得更好的性能,通常可以将上述无监督方法进行适当优化后直接用于模态对齐。该方法希望在不降低性能的前提下,尽量减少监督信息,即弱监督对齐。 例如,文献[76]提出了一种类似于规范时间扭曲的方法,主要是利用现有(弱)监督对齐数据完成模型训练,从而提升深度学习模型性能。文献[77]利用少量监督信息在图像区域和短语之间寻找协调空间进行对齐。文献[78]训练了一个高斯混合模型,并与一个无监督的潜变量图形模型一起进行弱监督聚类学习,使音频信道中的语音与视频中的位置及时对齐。因此,监督方法的对齐性能总体上优于无监督方法,但需要以带标注数据为基础,而较准确地把握监督信息参与程度是一个极具挑战的工作。

    3.2隐式对齐方法

    1. 图像模型方法
      该方法最早用于对齐多种语言之间的语言机器翻译, 以及语音音素的转录[79],即将音素映射到声学特征生成语音模型,并在模型训练期间对语音和音素数据进行潜在的对齐。构建图像模型需要大量训练数据或人类专业知识来手动参与,因此随着深度学习研究的进展及训练数据的有限,该方法已经用得不多。

    2. 神经网络方法
      目前,神经网络是解决机器翻译问题的主流方法,无论是使用编解码器模型还是通过跨模态检索都表现出较好的性能。利用神经网络模型进行模态隐式对齐,主要是在模型训练期间引入对齐机制,通常会考虑注意力机制。例如,图像自动标注应用中,在生成每个连续单词时[80],注意力机制将允许解码器(通常是 RNN)集中在图像的特定部分,该注意力模块通常是一个浅层神经网络,它与目标任务一起完成端到端的训练。该方法具备较好的潜力,目前已被广泛应用于语音数据标注、视频文本对齐和视频转录等多个领域[81]。但由于深度神经网络的复杂性,设计注意力模块具有一定的难度。

    4,开放数据与资源

    在这里插入图片描述

    多模态深度学习综述:网络结构设计和模态融合方法汇总

    基于注意力机制的融合方法

    基于双线性池化的融合办法

    应用1:多模态摘要(综合多模态信息生成内容摘要)

    多模态摘要(Multi-modal Summarization)是指输入多种模态信息,通常包括文本,语音,图像,视频等信息,输出一段综合考虑多种模态信息后的核心概括。目前的摘要研究通常以文本为处理对象,一般不涉及其他模态信息的处理。然而,不同模态的信息是相互补充和验证的,充分有效的利用不同模态的信息可以帮助模型更好的定位关键内容,生成更好的摘要。本文首先按照任务类型与模态信息是否同步对多模态摘要进行分类;接着介绍多模态表示中的一些基础知识;最后按照任务类型分类,简述了近几年多模态摘要在教学型视频、多模态新闻、多模态输入多模态输出以及会议中的相关工作。

    多模态摘要种类

    根据任务分类:
    (1)教学型视频摘要(How2),How2是一个教学型视频多模态摘要数据集,同时具有视频信息,作者讲解的音频信息,以及对应的文字信息,目标是生成一段教学摘要。
    (2)多模态新闻摘要旨在对一个包含文字,图片,视频的新闻进行摘要。
    (3)多模态输入多模态输出摘要(MSMO)是指输入是多模态的,包括了一段文字和一些相关的图片,输出不仅仅要输出文字摘要,还要从输入的图片中选择一个最合适的图片。(2、3)主要为中科院宗成庆老师和张家俊老师的工作。
    (4)多模态会议摘要,指给定一段会议,包含了会议的视频,每个参与者说话的音频信息,需要生成一个会议摘要。
    根据模态信息是否同步分类:
    (1)模态信息同步的多模态摘要,同步是指在每一个时刻,视频,音频,文字唯一对应。例如在一个会议中,某一个时刻,说话人的视频,说的词语,都是唯一对应的。

    (2)模态信息异步的多模态摘要,也就是多模态信息并非一一对应。例如一个多模态新闻,往往是最开始有一个视频,中间是文本信息,在段落之间会穿插一些图片,因此多模态信息是异步的。

    多模态表示基础

    多模态中的注意力机制

    论文:https://arxiv.org/abs/1704.06567
    下图是多模态注意力机制,在序列到序列框架下对多模态数据进行Attention。

    绿色和蓝色分别代表两种模态的编码端隐层表示灰色为解码器隐层状态,橙色为注意力向量。假设我们有多种模态的 Encoder,叫做 Multi Encoder,在编码之后,每一个模态会有一个向量序列隐层表示。论文共提出三种注意力机制:(1)第一种方法是flat,即平滑所有编码器端隐层表示。使用解码器隐层状态对平滑后的编码器隐层表示计算注意力得分,最终得到注意力向量;(2)第二种方法是 concat,利用解码器隐层状态分别对两个序列计算得分,并得到分别的注意力向量,然后将多个注意力向量进行拼接并转换到统一维度。(3)第三种方法是 hierarchical,首先得到两个模态对应的注意力向量,然后再利用解码器隐层表示对两个注意力向量计算权重分布,最后根据权重融合多个注意力向量。作者在多模态机器翻译任务上进行实验,发现 hierarchical 的方式是效果最好的,后人的工作基本采用的也都是 hierarchical 的注意力机制。

    多模态词表示(用非语言特征:视频、音频调整词语的表示 )

    论文地址:https://schlr.cnki.net/Detail/index/SJPD_04/SJPDC30D2BBA5D56D1AB09D357D1A3DEC122
    在这里插入图片描述
    比如上图,对于词语讨厌,讨厌在中文中是可以有很多含义的,比如真的讨厌,是一个负向的情感,也可能是女朋友的撒娇,是正向的情感。因此,仅仅根据文本,给定固定的词语表示可能会使得词语语义表示不充分,无法很好地利用到下游任务之中。论文认为引入多模态信息可以缓解这一问题。当我们提供一个白眼图片信息,讨厌词语表示可以被调整到蓝色点位置。当我们提供另一个图片信息,讨厌词语表示可以被调整到橙色位置。也就是利用非语言模态中的信息补充词语表示的语义信息,使得词语表示更加的合适,或者换一种说法:更加的多模态信息上下文敏感(context sensitive)。
    在这里插入图片描述
    整个多模态词表示模型被称为 RAVEN,分为三个模块。如图5,对于一个词语 sick,有一段对应的连续的视频和音频,分别利用现有的特征抽取工具进行特征抽取(FACET 和 COVAREP),最后得到每一个模态对应的特征表示,红色为视频特征表示,黄色为音频特征表示,绿色为词语特征表示。分别利用视频和音频表示与词语表示计算一个得分,根据该得分进行特征融合,得到一个非语言的偏移向量(紫色)。最终将该向量归一化之后加到词语向量上得到融入多模态信息的词语表示。作者在多模态情感分析和多模态对话情绪识别两个任务上进行实验,相较而言,在情感分析上结果较为显著。

    跨模态预训练
    最后这篇是周明老师组在 AAAI20 上提出来的多模态预训练模型。在这里插入图片描述
    输入部分包括了图片和文本两种模态的信息。对于图片,首先使用工具 Faster R-CNN 抽取其中的具体意义部分,例如卡车,树,马路等,同时会得到对应的特征向量表示及位置信息表示。如上图,模型输入分为三个部分。对于图片,词向量都是 [IMG],segment 都是 img,position 都是 1,除此以外,在进入模型之前需要额外输入:
    (1)每一个图片的特征向量;
    (2)图片位置特征。
    文本部分与 BERT 一致。预训练任务共有三个,其中 MLM 和 MOC 分别是遮盖文字和遮盖图片然后进行预测,VLM使用 [CLS] 标签表示判断输入的图片和文本是否是匹配的。

    教学型视频摘要

    本小节介绍教学型视频(How2)多模态摘要的相关论文:https://www.researchgate.net/publication/343759519_How2Sign_A_Large-scale_Multimodal_Dataset_for_Continuous_American_Sign_Language
    发表于 NIPS18,名字来源于 how to do sth,该数据集主要描述教学型视频,如图7,为一个高尔夫教学视频。该数据集包括了视频信息,作者讲解的音频信息,文本信息以及最终的摘要。一共包括了 2000 小时的视频,主题包括运动,音乐,烹饪等。摘要平均 2 到 3 句话。
    在这里插入图片描述
    在ACL19上提出了基础的多模态摘要模型用于教学型视频摘要任务,如上图。其模型包括了视频编码器,文本编码器与解码器。视频编码器采用的是 ResNext-101 3D 模型,可以识别 400 种人类的行为动作。文本编码器为基于 RNN 的编码器。在得到两种模态数据的隐层表示之后,结合层次化注意力机制生成最终摘要。实验证明融合文本与视频的模型可以取得最优的效果。

    多模态新闻摘要

    论文 Multi-model Summarization for Asynchronous Collection of Text,Image,Audio and Video

    https://www.aclweb.org/anthology/D17-1114.pdf
    在这里插入图片描述
    论文提出了一种抽取式多模态摘要的方法。抽取式摘要的目的是从句子集合中选取一个子集合作为最终摘要。那么对于多模态的输入来讲,这个句子集合分为两个部分。一个是文档句子,另一个是视频的 transcripts,共同作为句子集合,如图9。抽取式方法的核心是给每个句子一个打分。最简单的我们可以使用 TextRank,LexRank 这些基于相似度的方法给每个句子一个打分。但是现在引入了多模态的信息,因此我们可以利用这些多模态的信息进行改进。
    在这里插入图片描述
    作者在 LexRank 的基础上,融入视频特征和音频特征,将 LexRank 算法中的一些无向边修改为有向边,如图10。对于视频特征,作者认为当一个文档中的句子和一个 transcript 句子相似度高的时候,倾向于选择文档中的句子,因为文档句子更加的规整干净,而 transcript 噪音比较多,因此在计算相似度的时候是有方向性的。例如当 v1 和 v3 相似度高的时候,将权重从 transcript 传向文档句子,通过这种方式使得文档句子得分更高。对于音频特征,作者认为 transcript 句子都有与其对应的音频特征,例如:声学置信度,音频,音量。当一个 transcript 句子音频得分较高时,更应该被选择。因此当两个相邻的 transcript 句子音频得分一个高一个低的时候,会由得分低的句子把相似度权重传递给音频得分高的句子。通过融入视频特征与音频特征,每一个句子都会有一个得分。
    在这里插入图片描述
    作者的另一个假设是文档如果提供了图片,那么这个图片包含的应该是比较有用的信息,因此和图片对齐的句子得分应该高一些。如图11,当一个图片描述 “进口冻虾”时,右上角句子更应该被选做最终摘要句。除了文档中的图片以外,还会从视频中抽取一些关键 frame,简单来讲就是每个场景一个图片。利用图片和关键视频 frame,使用一个外部工具对齐图片和句子。最终每一个句子都可以得到对齐的得分。通过结合改进的 LexRank 得分与图文匹配得分进行最终的摘要句子选取。

    Multi-model Sentence Summarization with Modality Attention and Image Filtering

    https://www.ijcai.org/Proceedings/2018/577
    在这里插入图片描述
    论文提出了多模态句子摘要任务,输入句子和一张图片,输出一个句子摘要,如图12,并构建了任务数据集,作者利用现有 Gigaword 英文数据集去网上检索了每个句子对应的top5 的相关图片,然后又人工选取了其中最合适的一张。最终得到 train,valid, test 的划分分别是 62000,2000,2000。由于图片并非原来数据集自带,因此通过外部得到的图片也可能引入一定的噪音。

    在这里插入图片描述

    作者提出模型的重点也主要关注如何过滤图片噪音信息。模型核心包括了三个部分,如上图,句子编码器,图片编码器和解码器。句子编码器是一个双向 GRU,图片编码器是 VGG,分别会得到一个序列的隐层表示。在解码的时候,根据层次化注意力机制融合两个模态的注意力向量,最终生成摘要。这属于模型的基本部分。除此以外,为了过滤图片噪音信息,作者还提出了两种过滤机制:(1)第一种作用在图片注意力向量的权重上,相当于一个门,通过图片全局表示,解码器的初始状态与解码器的当前状态计算得到 0 到 1 之间的数值,进一步更新权重。(2)第二种作用在图片注意力向量上,利用上述三个部分计算得到一个向量,向量中的每一个部分都是 0 到 1 之间的数值,利用该门控向量过滤图片信息。最终实验发现第一种方式效果更佳。

    多模态输入多模态输出摘要

    在这里插入图片描述

    作者提出了一个新的多模态摘要任务,输入是多模态的,输出也是多模态的。具体为:输入文本以及几张相关的图片,输出对应的摘要,同时从输入图片中选取一张最重要的图片,如上图所示。
    作者提出的模型基础架构与之前类似,包括文本编码器,图片编码器,解码器以及层次化注意力机制。因为该任务的特点在于需要从输入图片中选择一个最重要的图片,作者设计了一种 Visual Coverage 机制来实现,这部分下面会详细介绍。同时作者为了衡量最终的摘要效果,提出了一个考虑多种模态的衡量指标 MMAE,ROUGE 针对文本,image precision 是指选择的图片是否在标准图片中,取值为 0 或 1。image-textrelevance 是指利用外部工具计算最终摘要与选择图片的匹配得分,最后使用逻辑斯蒂回归组合三种得分。为了完成该任务,作者构建了相关数据集,利用现有 Daily Mail 数据集,得到原始对应的相关图片,并使用人工选择至多三张图片作为标准图片。
    在这里插入图片描述
    上图展示了 Visual Coverage 机制的一个简单示例。在解码的每一步,会产生一个针对不同图片的注意力分布。当生成全部文本时,将之前所有步的注意力得分进行累加,选择累计得分最高的图片作为最终选择图片。
    在这里插入图片描述

    改论文作者认为之前的摘要模型仅仅利用文本标注进行训练,忽略了图片标注的利用。这篇工作除了利用摘要生成时候的文本损失,还利用图片选择的分类损失,如图16。具体来讲,在得到每一个图片的全局表示之后,与解码器的最后一个隐层状态进行相似度计算,然后归一化概率选择图片。但是目前的数据集具有多个图片标准标注,没有唯一的图片标注,因此为了在训练时提供图片监督信号,作者提出了两种构建唯一标注图片标注的方式:(1)ROUGE-ranking,对于每一个图片有一个与之对应的描述(caption),利用该描述与标准文本摘要计算 ROUGE 得分,最终选择 ROUGE 得分最高的描述对应的图片作为唯一标准标注图片;(2)Order-ranking,根据数据集中的图片顺序选择第一个。

    多模态会议摘要

    本小节介绍多模态会议摘要的相关工作。职员需要花费 37% 的工作时间用于参加会议,每个会议平均会陈述 5000 个词语。如此频繁的会议和冗长的内容给职员造成了极大的负担,因此会议摘要可以帮助快速的总结会议决策信息,提问信息,任务信息等核心内容,缓解职员压力,提高工作效率。但是仅仅利用会议文本信息是不够的,多模态信息,例如视频、音频可以提供更加充足和全方面的信息,例如有人加入了会议,离开了会议;通过一些动作,语音语调,面部表情,识别讨论是否有情绪,是否有争论等等。因此多模态会议摘要逐渐得到了人们的关注。
    主要有两篇论文:

    1.https://www.researchgate.net/publication/4027890_Multimodal_summarization_of_meeting_recordings

    在这里插入图片描述

    提出利用多模态特征来定位会议中的重要内容。如上图,一共从三个模态建立特征。音频方面,有两个特征,一个是单位时间窗口内,声音方向的变换次数以及声音幅度。视觉方面,是两个相邻的 frame 的亮度变化。文本方面是 TF-IDF 特征。通过结合上述三种模态的特征来最终定位关键内容。

    2.https://www.researchgate.net/publication/329855052_Fusing_Verbal_and_Nonverbal_Information_for_Extractive_Meeting_Summarization

    2018年论文,相比上文,融合了深度学习的思想
    在这里插入图片描述
    使用神经网络来完成抽取式会议摘要任务。融合视频信息,动作信息,声音信息以及文本信息来定位会议关键内容,如上图。

    https://www.aclweb.org/anthology/P19-1210/

    在这里插入图片描述

    这篇2019年论文,论文提出在生成式会议摘要中融入多模态特征 Visual Focus Of Attention (VFOA)。作者认为,当一个参与者在发表言论的时候,如果其他人都关注该说话人,那么表示该说话人当前陈述的句子比较重要。因此,对于会议中的一句话,会对应四位参与者的视频,每个视频是由一组frame 组成的。每个 frame 会对应一个五维度的特征,比如上图。将该特征输入到神经网络中,预测该视频 frame 中参与者目前正在关注的目标(在数据集中有标准标注)。训练好以后,对于会议中的一句话,将四位参与者的对应视频信息输入到网络中得到输出,进行拼接,得到该句子的 VFOA 特征向量。在解码会议摘要时,会利用到该视觉特征向量进行解码。

    总结

    1. 现有模型结构简单。现有模型架构基本为序列到序列模型结合层次化注意力机制,不同的工作会依据任务特点进行一定的改进。为了更有效的融合多模态信息,发挥模态信息的交互互补作用,在目前架构的基础上,应该思考更加合适的架构。
    2. 不同模态信息交互较少。现有工作模态融合的核心在于层次化注意力机制,除此以外,不同模态信息缺少显式的交互方式,无法充分的发挥模态信息之间的互补关系。
    3. 依赖于人工先验知识。通常来讲,需要人为预先选择不同类型的预训练特征抽取模型进行特征提取,这一过程依赖于很强的人工判断来预先决定有效的特征,需要一定的领域专业知识。
    4. 数据隐私性考虑少。多模态数据在提供更丰富信息的同时,也给数据保密带来了一定的挑战。例如多模态会议数据,其中的声纹特征与脸部特征都是非常重要的个人隐私信息。因此在实际落地中需要充分考虑数据隐私性问题。
    5. 单一文本输出缺少多样性。现有工作已经开始尝试多模态输入多模态输出,当输出摘要包含多种模态时,可以满足更广泛人群的需求。例如对于语言不熟悉时,可以通过视频和图片快速了解重要内容。在未来多模态摘要输出也将成为一个重要的研究关注点。

    说在最后

    人工智能的终极目标是能够无限的逼近人类或动物的智慧,实现机器能够对生活中的场景应对自如。而单一的计算机视觉、语音识别和自然语言处理技术从单一模态对信息的理解是与人类的行为有着明显的区别的。比如当我们判断一个衣服的质量好坏,不能单纯的依靠视觉的判断,还有触觉、嗅觉,同时品牌也是我们考虑的因素,所以还有文本信息。所以多模态任务的学习更贴合人类行为,而动物的进化也是模态搜集能力的进化,比如狗的嗅觉更灵,但是视觉也不可或缺,而模态在人们脑中的融合方式是我们孜孜以求探索的知识。可以预言,多模态学习是未来人工智能发展的重要方向,是不断逼近人类的方向之一。

    展开全文
  • 两幅图像融合

    2014-04-02 10:03:30
    是两幅图片进行融合,设置roi区域时可以参考这部分代码
  • 摘要:SoC是多个学科追求的目标。文中围绕SoC的学科交*情况、...SoC的成功实现了要求多学科的协作与融合。一、SoC的多学科交* 图1展现了以SoC为中心,多学科交融、渗透的关系。SoC是微电子学科、电子系统设计追求的目
  • 最新-北方民族大融合_精美学习课件ppt
  • 基于交叉信息融合的频率估计算法
  • 七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第17课西晋的短暂统一北方各族的內迁导学案无答案新人教版2.doc
  • 七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合第16课三国鼎立教案.docx
  • 满族服饰高雅华丽,在我国民族服饰中独树一帜。满族作为清朝的统治民族,满服对我国服饰发展有着巨大的影响作用。...本文主要结合当时的政治、文化背景满汉两族的民族特点,论述两族服饰的演变与融合
  • 伴随着工业转型升级的持续深入,为解决我国企业面临的突出问题,如装备化基础薄弱、流程管理缺位、企业管理与信息化两张皮、两化融合环境下企业关键能力不足等,在充分吸收借鉴国际先进经验的基础上,中国自主研制...

    两化融合是指哪两化?

    两化融合是指电子信息技术广泛应用到工业生产的各个环节,信息化成为工业企业经营管理的常规手段。信息化进程和工业化进程不再相互独立进行,不再是单方的带动和促进关系,而是两者在技术、产品、管理等各个层面相互交融,彼此不可分割,并催生工业电子、工业软件、工业信息服务业等新产业。两化融合是工业化和信息化发展到一定阶段的必然产物。 两化融合是指以信息化带动工业化、以工业化促进信息化,达到工业化和信息化的深度融合。

    在信息技术不断发展的环境下,企业围绕其战略目标,将信息化作为企业的内生发展要素,夯实工业化基础,推进数据、技术、业务流程、组织结构的互动创新和持续优化,充分挖掘资源配置潜力,不断打造信息化环境下的新型能力,形成可持续竞争优势,实现创新发展、智能发展和绿色发展的过程。

    两化融合管理体系概念

    是引导组织强化变革管理、系统推进两化融合的管理方法论,明确了组织系统地建立、实施、保持和改进两化融合管理机制的通用方法。通过规范两化融合过程,并使其持续受控,引导组织充分发挥数据要素的创新驱动潜能,推动和实现数据、技术、业务流程、组织结构四要素的互动创新和持续优化,挖掘资源配置潜力,夯实新型工业化基础,抢抓信息化发展机遇,从而帮助组织不断打造信息化环境下的新型能力,获取与其战略相匹配的可持续竞争优势,实现创新发展、智能发展和绿色发展。

    推 行两化融合管理体系的背景

    伴随着工业转型升级的持续深入,为解决我国企业面临的突出问题,如装备化基础薄弱、流程管理缺位、企业管理与信息化两张皮、两化融合环境下企业关键能力不足等,在充分吸收和借鉴国际先进经验的基础上,中国自主研制提出了一套符合中国制造业管理模式的管理方法论,即《信息化和工业化融合管理体系》,以指导和规范企业全要素协同创新过程,指导我国企业在信息时代加快战略转型、组织管理变革、核心竞争能力提升、生产方式和服务模式转变。

    两化融 合贯标怎么做?

    1、贯标咨询服务: 根据工信部发布的《信息化和工业化融合管理体系 要求》(GB/T -)等系列标准,为企业提供包括标准培训、对标诊断、体系策划、文件编写与发布、体系试运行、内审管评、现场评定辅导等全过程的两化融合贯标咨询服务,帮助企业量身定制两化融合管理体系,形成信息时代的管理机制和治理框架,最终辅助企业通过国家评定并推动体系有效运转,持续打造信息化环境下的新型能力。

    2、现场评审、专家合规审查和复核: 即企业在咨询服务机构的辅导下完成体系建设与实施后,需要邀请外部评定机构对企业进行现场审核,顺利通过后,评定机构方能将企业推荐至评定专家委员会进行合规审查、复核、公示及发证,特别指出的是,针对两化融合管理体系的评定,国家工信部指定了10家评定机构。

    两化融合如何认定?

    1、需要试运行3个月:上传企业相关资料,在官方两化融合平台上公示。

    2、资料汇总整理:内审老师通过跟企业相关负责人员沟通,整理汇总相关资料文档。

    3、内审老师辅导(1~2):内审老师通过整理相关文件后,到企业深入辅导。

    4、外审:国家认定机构评审员评审。

    两化融合好处

    政策支持(不同地区会有差异)、工业专项项目申报必要条件、项目购置仪器设备和软件资助补贴、上市加分、招投标加分、供应商优选重要依据、提升效率、降低成本、人才类奖励补贴等等,是企业含金量非常高的一种荣誉资质。

    两化融合贯标意义和价值

    1、建立可持续优化的两化融合管理体系,规范企业两化融合工作;

    2、帮助企业打造信息化环境下的新型能力;

    3、诊断出企业信息化的现状,提出需要改进的问题和方向;

    4、推动企业管理的提升和改善;

    5、提高企业信息化的应用和绩效;

    6、申报国家及各地智能制造试点示范等项目的基本条件,政策补贴。

    申请条件?

    原则上任何企业都可以实施两化融合贯标,但是根据申报的经验判断,满足以下条件的企业更容易审核通过。申报企业具有管理软件、系统、平台或计划引进相关软件、系统。包括ERP(企业资源计划)、PDM(产品数据管理)、SCM(供应链管理)、CRM客户管理管理)、EDS (工程设计自动化系统)、MDS (经营管理与决策系统)、(QAS(质量保证系统)、MAS (制造自动化系统)、MES (生产信息化管理系统)、OA (办公自动化系统)等;企业年销售额万以上。

    以上就是整理的关于两化融合如何认定的相关知识,如果需要详细了解两化融合条件、评定流程、遇到难以解决的相关问题(在两化融合中条件不足的、遇到各种难以解决的问题等,),可以联系我们。

    展开全文
  • 20世纪五、六十年代是纽约派创作的巅峰时期,诗人与同时期的先锋派音乐家进行了跨界...阐释了纽约派诗歌中的爵士音乐、古典音乐即兴音乐元素,讨论了诗歌文本与音乐艺术的有机融合,拓展了音乐精神诗歌文化的新视野。
  • 写CSS的时候会遇到这样一个需求,要求给背景图片...可以用背景图片背景颜色融合来解决。 通常我们这样写:  .bgDiv {  background:rgba(255, 0, 0, 0.1), url(...);  } 这样的写法的问题是,只有在图片覆盖

    写CSS的时候会遇到这样一个需求,要求给背景图片加上一个“遮罩层”,看起来更符合页面的整体风格。

    可以用背景图片和背景颜色融合来解决。

    通常我们这样写:

              .bgDiv {

                           background:rgba(255, 0, 0, 0.1), url(...);

               }

    这样的写法的问题是,只有在图片覆盖不到的区域才能看到背景颜色,或者png图片的透明部分,才能看到。

    这样达不到我们的要求,就需要另外的方法解决了,添加background的一个属性,background-blend-mode:multiply;

    background-blend-mode参考如下:

    mix-blend-mode: normal;          正常
    mix-blend-mode: multiply;        正片叠底
    mix-blend-mode: screen;          滤色
    mix-blend-mode: overlay;         叠加
    mix-blend-mode: darken;          变暗
    mix-blend-mode: lighten;         变亮
    mix-blend-mode: color-dodge;     颜色减淡
    mix-blend-mode: color-burn;      颜色加深
    mix-blend-mode: hard-light;      强光
    mix-blend-mode: soft-light;      柔光
    mix-blend-mode: difference;      差值
    mix-blend-mode: exclusion;       排除
    mix-blend-mode: hue;             色相
    mix-blend-mode: saturation;      饱和度
    mix-blend-mode: color;           颜色
    mix-blend-mode: luminosity;      亮度

    mix-blend-mode: initial;         初始
    mix-blend-mode: inherit;         继承
    mix-blend-mode: unset;           复原

    /* One value */
    background-blend-mode: normal;
    
    /* Two values, one per background */
    background-blend-mode: darken, luminosity;
    
    /* Global values */
    background-blend-mode: initial;
    background-blend-mode: inherit;
    background-blend-mode: unset;

    参考档案:https://developer.mozilla.org/en-US/docs/Web/CSS/background-blend-mode

    除了这个还有另外一个方法,利用css背景渐变:

    .bgDiv {

                           background:linear-gradient(bottom, rgba(255, 0, 0, 0.1), rgba(255, 0, 0, 0.1)), url(...);

               }


    很奇怪,但是有用。


    当然还有方法就是用PS先把图片做好了直接给前端使用,方法是新建图层,填充颜色,然后设置不透明度。





    展开全文
  • 七年级历史上册第四单元三国两晋南北朝时期:政权分立与民族融合20魏晋南北朝的科技与文化王羲之的故事及作品素材新人教版2019122546
  • 近年,涌现出非常多采用CSS 3D变形Parallax(视觉差,通过鼠标滑动让网页上不同层次的内容以不同的速率位移而形成一种层次感)效果的网站,让这个2D的网络世界出现了丰富的层次纵深感。但是真正的3D(除了flash实现...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,868
精华内容 747
关键字:

交融和融合