精华内容
下载资源
问答
  • GeoTIFF、Shapefile和Worldfile中空间参考的参数意义 首先提几个设定: (1)设空间坐标系的横轴为x轴,纵轴为y轴; (2)若数据为地理坐标,则数值表示为经纬度,若数据为投影坐标,则数值表示为方里网; (3)像元...

    首先提几个设定:

    1)设空间坐标系的横轴为x轴,纵轴为y轴;
    (2)若数据为地理坐标,则数值表示为经纬度,若数据为投影坐标,则数值表示为方里网;
    (3)像元宽度:单个像素在地理坐标系x轴上的长度;
    (4)像元高度:单个像素在地理坐标系y轴上的长度;
    (5)影像指向:地图的绘制方向,通常x轴上向东为正方向,y轴上向北为正方向。
    

    一、GeoTIFF

    利用Package osgeo :: Module gdal :: Class Dataset :: Function GetGeoTransform,可以获取GeoTIFF中的空间参考。参考代码如下:

    # -*- coding:utf-8 -*-
    from osgeo import gdal
    
    
    # this allows GDAL to throw Python Exceptions
    gdal.UseExceptions()
    
    gtif_path = r'D:\GIS\Samples\Lhasa.tif'
    
    # open dataset
    gtif = gdal.Open(gtif_path)
    
    gtrans = gtif.GetGeoTransform()
    print(gtrans)
    

    输出结果为:

    (10139107.183347218, 11.779945786963165, 0.0, 3464923.0918, 0.0, -11.779945786963165)
    

    共6个参数,其代表的意义如下:

    [0]左上角点x值(最小x值);
    [1]像元宽度;
    [2]影像东西指向,通常指东,为0[3]左上角点y值(最大y值);
    [4]影像南北指向,通常指北,为0[5]像元高度。
    

    二、Shapefile

    利用Package osgeo :: Module ogr :: Class Geometry :: Function GetEnvelope可获取Shapfile文件中Geomtry的地理参考。参考代码如下:

    # -*- coding:utf-8 -*-
    from osgeo import ogr
    
    
    shp_path = r'D:\GIS\Samples\Shapefile\gadm36_AUS_shp\gadm36_AUS_2.shp'
    
    driver = ogr.GetDriverByName('ESRI Shapefile')
    shp = driver.Open(shp_path, 0)  # 0 means read-only. 1 means writeable.
    
    lyr = shp.GetLayer()
    feat = lyr.GetNextFeature()
    geom = feat.GetGeometryRef()
    ext = geom.GetEnvelope()
    print(ext)
    

    输出结果为:

    (122.96166992187511, 123.55563354492188, -12.532129287719727, -12.237127304077092)
    

    共4个参数,其代表的意义如下:

    [0]最左(小)x值;
    [1]最右(大)x值;
    [2]最下(小)y值;
    [3]最上(大)y值。
    

    三、World File

    World File为Esri公司制定的给普通栅格图片添加空间参考的纯文本文件格式,可以使用记事本直接打开。World File文件名和主图片文件名一致,后缀名一般为3个字符,由主图片后缀名缩写加上字符w(如pgw、tfw、jgw等)。虽后缀名各有不同,但其读写方式与其他纯文本文件格式(如txt)一致。参考代码如下:

    # -*- coding:utf-8 -*-
    
    
    wf_path = r'D:\GIS\Samples\PNG\Arraial do Cabo.pgw'
    
    with open(wf_path, 'r') as f:
        lines = f.readlines()
        lines = [x.strip() for x in lines if x.strip()!='']
        print(lines)
    

    输出结果为:

    ['4.13411458699533529', '0', '0', '-4.13411458699533529', '-4680100.27214270643889904', '-2627341.84841968351975083']
    

    共6个参数,其代表的意义如下:

    [0]像元宽度;
    [1]影像东西指向,通常指东,为0[2]影像南北指向,通常指北,为0[3]像元高度;
    [4]左上角点x值(最小x值);
    [5]左上角点y值(最大y值)。
    

    PS:GeoTranform与World File之间的映射关系

    GeoTranform -> World File
    0->4, 1->0, 2->1, 3->5, 4->2, 5->3
    
    World File -> GeoTranform
    0->1, 1->2, 2->4, 3->5, 4->0, 5->3
    
    展开全文
  • 可微性的判定及相互关系偏导数的计算及其几何意义全微分的计算与可微性的判定多元复合函数、隐函数一阶及高阶导数的计算隐函数的存在性判定多元函数偏导数的几何应用之曲面的切平面与法线、曲线的切线与法平面方向...

    13b29710dac45137358ff20c84920d3a.png

    1efbf819d78931c69d2737a9f4018867.png

    1f186ec6bc0ff7e9eca5dd908d6e8650.png

    36352a504a4a0d56b06bad742c9ce0ae.png

    1e64fde542f9d903714e063f300da33c.png

    4bc6db597c9626091fbb71cd8ed2666b.png

    【注1】本次测试主要内容为高等数学、数学分析教材《多元函数微分法》章节内容,本节(也是本套测试题)包含的主要题型与知识点:

    • 二元函数的等值线

    • 二元函数极限的存在性判定、偏导数、偏导数的连续性,可微性的判定及相互关系

    • 偏导数的计算及其几何意义

    • 全微分的计算与可微性的判定

    • 多元复合函数、隐函数一阶及高阶导数的计算

    • 隐函数的存在性判定

    • 多元函数偏导数的几何应用之曲面的切平面与法线、曲线的切线与法平面

    • 方向导数与梯度的计算及应用

    • 多元函数极值、最值的判定与计算

    • 二元函数表达式的计算

    • 偏导数恒等式的变换与微分方程求解

    【注2】建议自己在草稿纸上动手做完以后再参见下面给出的参考答案!参考解答一般仅提供一种思路上的参考,过程不一定是最简单的,或者最好的,并且有时候可能还有些许小错误!希望在对照完以后,不管是题目有问题,还是参考解答过程有问题,希望学友们能不吝指出!如果有更好的解题思路与过程,也欢迎通过后台或邮件以图片或Word文档形式发送给管理员,管理员将尽可能在第一时间推送和大家分享,谢谢!

    6e25da6e311e9666ad7da80af1b71fb2.png

    71f3b7f5b460b201a2b5ab91d1a8a3dd.png

    1e90d0949236311b77fb1e02687c641e.png

    8043ea43951e0357ac3c22d7e9d16d8f.png

    aa421d367454365a326628e7b698e656.png

    4d3563137f61ba5d083e0295de218104.png

    1731635a6d5128763a6e955d46fbdf8e.png

    57f7b73cb79995b584f8de059e9ec3a6.png

    82303ad683dbb4ed6ff7e33ad95c1834.png

    d2b099ea8abf99eccb7bc280e93b5c46.png

    a59184a73a82bc7811081c9ff46015f6.png

    d578fc869c800f5ac483756c6ea85965.png

    76deaf0a844b2befc4e9bcad2a685199.png

    8af4cb814102e8dbf912b6715e125db0.png

    f34c018e44f663d8084282967137afec.png

    相关推荐

    更多测试与练习请参见“高数线代”菜单下的“大纲总结公式练习”选项中“综合练习”或“每日一题”选项,也可以在浏览“考研帮助”菜单中“考研指南真题练习”,或者直接进入相应课程的内容导航列表中查看!试题PDF文档下载请到QQ群文件微信公众号PDF文档按日期查找下载!

    高等数学第二学期单元测试题

    • 《常微分方程》单元测试题(一)

    • 《常微分方程》单元测试题(二)

    • 《常微分方程》单元测试题(三)

    • 《常微分方程》单元测试题(四)

    • 《向量代数与空间解析几何》单元测试题(一)

    • 《向量代数与空间解析几何》单元测试题(二)

    • 《多元函数微分法及其应用》单元测试题(一)

    • 《多元函数微分法及其应用》单元测试题(二)

    • 《二重积分》专题练习(一)

    • 《重积分》单元测试题(一)

    • 《重积分》单元测试题(二)

    • 《曲线积分与曲面积分》单元测试题(一)

    • 《曲线积分与曲面积分》单元测试题(二)

    • 《无穷级数》单元测试题(一)

    • 《无穷级数》单元测试题(二)

    微信公众号:考研竞赛数学(ID: xwmath) 支持本号请点赞分享

    3e5c776e87f480262864cbb375bf39e2.png

    ↓↓↓查看更多相关内容

    展开全文
  • 在此我做个多模态融合之音视频融合总结,概述我阅读的几个文献的核心内容,同时针对一些没有阅读到的,但比较有参考价值和重大意义的文献进行引用。我希望通过这篇文章总结能开拓我以后做研究的视野和方向,希望投稿...

    前言

    阅读了不少专题参考文献和综述后,自己对多模态的理解进一步加深。同时我针对多模态中的音视频融合也有了更深的理解。在此我做个多模态融合和音视频融合总结,概述我阅读的几个文献的核心内容,同时针对一些没有阅读到的,但比较有参考价值和重大意义的文献进行引用。我希望通过这篇文章总结能开拓我以后做研究的视野和方向,希望投稿论文别再出现如对该领域理解不够深刻的修改意见。

    文章主要内容来源:
    知乎:

    多模态机器学习的知乎最高赞回答:添加链接描述

    论文:

    1. Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(2): 423-443.

    2. Guo W, Wang J, Wang S. Deep multimodal representation learning: A survey[J]. IEEE Access, 2019, 7: 63373-63394.

    3. 陈鹏,李擎,张德政,杨宇航,蔡铮,陆子怡.多模态学习方法综述[J].工程科学学报,2020,42(05):557-569.

    4. 何俊,张彩庆,李小珍,张德海.面向深度学习的多模态融合技术研究综述[J].计算机工程,2020,46(05):1-11.

    5. 宋冠军,张树东,卫飞高.音视频双模态情感识别融合框架研究[J].计算机工程与应用,2020,56(06):140-146.

    6. 吴晓雨,顾超男,王生进.多模态特征融合与多任务学习的特种视频分类[J].光学精密工程,2020,28(05):1177-1186.

    7. 邵晨智. 基于音视频特征融合的暴力镜头识别方法研究[D].哈尔滨工业大学,2019.

    8. Tzirakis P, Trigeorgis G, Nicolaou M A, et al. End-to-end multimodal emotion recognition using deep neural networks[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(8): 1301-1309.

    9. Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653.

    10. Hazarika D, Poria S, Mihalcea R, et al. ICON: interactive conversational memory network for multimodal emotion detection[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 2594-2604.

    11. 卫飞高,张树东,付晓慧.基于情绪基调的音视频双模态情绪识别算法[J].计算机应用与软件,2018,35(08):238-242.

    12. 苏育挺,王蒙蒙,刘婧,费云鹏,何旭.基于多运动特征融合的微表情识别算法[J/OL].激光与光电子学进展:1-11[2020-06-02].

    综述1 主要探讨多模态机器学习的一些研究,并按照相关研究挑战进行分类。全文翻译参照this.

    综述6 是探讨音视频融合中一个模态如何影响另外一个模态,并讨论了时序不同步问题,实际应用时有一个模态丢失问题解决方法,深度学习在av融合中的发展。

    综述2 主要总结多模态融合架构、融合方法和对齐技术。重点分析了联合、协同、编解码器三种融合架构在深度学习中的应用情况和优缺点,以及多核学习、图像模型和神经网络等具体融合方法和对齐技术。

    综述总结

    自己研究多模态机器学习的时候对一些经典的工作和主要研究方向了解不够深入。不同的综述论文对这个领域的分类不同,这里我主要参照【1】和其他的综述资料,写下自己的多模态研究综述,希望对自己以后的研究有一个较大的指导。

    摘要

    1.1 介绍

    首先,什么叫做模态(Modality)呢?

    每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。
    在这里插入图片描述
    同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集(多视角),亦可认为是两种模态。

    因此,多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

    多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。

    本文我们将介绍多模态的发展历史和应用、一些主要技术的介绍和经典论文。

    1.2 多模态机器学习研究方向

    多模态学习可以划分为以下五个研究方向:
    多模态表示学习 Multimodal Representation
    模态转化 Translation
    对齐 Alignment
    多模态融合 Multimodal Fusion
    协同学习 Co-learning

    1)表示基本挑战是学习如何以利用多种模态的互补性和冗余性的方式表示和总结多模态数据。多模态数据的异质性使得构建这种表示具有挑战性。例如,语言通常是符号,而音频和视觉模态将表示为信号。

    2)翻译第二个挑战涉及如何将数据从一种模态转换(映射)到另一种模态。不仅数据是异质的,而且模态之间的关系通常是开放式的或主观的。例如,存在许多描述图像的正确方式,并且可能不存在一个完美的翻译。

    3)对齐第三个挑战是识别来自两种或更多种不同形式的(子)元素之间的直接关系。例如,我们可能希望将配方中的步骤与显示正在制作的菜肴的视频对齐。为了应对这一挑战,我们需要测量不同模态之间的相似性,并处理可能的长期依赖性和模糊性。

    4)融合第四个挑战是加入来自两个或多个模态的信息以执行预测。例如,对于视听语音识别,唇部运动的视觉描述与语音信号融合以预测说出的话语。来自不同模态的信息可能具有变化的预测能力和噪声拓扑,在至少一种模态中可能缺少数据。

    5)共同学习第五个挑战是在模态,表示和预测模型之间传递知识。这可以通过小样本学习算法来举例说明。共同学习探索了如何从一种模态学习知识可以帮助计算模型在不同的模态下训练。当其中一种模式具有有限的资源(例如,注释数据)时,该挑战尤其相关。

    1.3 多模态机器学习发展和应用

    多模式研究最早的例子之一是视听语音识别(AVSR)[243]。
    它的动机是麦格劳克效应[138] - 在言语感知过程中听觉和视觉之间的相互作用。当人类受试者听到音节/ ba-ba /同时观看一个人的嘴唇说/ ga-ga /时,他们会感觉到第三种声音:/ da-da /。这些结果促使来自语言社区的许多研究人员用视觉信息扩展他们的方法。鉴于当时语音社区隐藏马尔可夫模型(HMM)的突出,AVSR的许多早期模型基于各种HMM扩展[24]并不奇怪。虽然目前对AVSR的研究并不常见,但多模态在深度学习社区再次引起了人们的兴趣[151]。虽然AVSR的最初愿景是在所有情况下提高语音识别性能(例如,文字错误率),但实验结果表明视觉信息的主要优点是当语音信号有噪声时(即,低信噪比)比例)[151],换句话说,模式之间捕获的相互作用是补充而非互补。两者都捕获了相同的信息,提高了多模式模型的稳健性,但没有提高无噪声场景下的语音识别性能。

    **第二个重要的多模式应用类别来自多媒体内容索引和检索领域。早期的索引和搜索这些多媒体视频的方法都是基于关键词的[188],但在尝试直接搜索视觉和多模式内容时出现了新的研究问题。这导致了多媒体内容分析的新研究课题,如自动镜头边界检测视频摘要[53]。这些研究项目得到了美国国家标准与技术研究所的TrecVid计划的支持,该计划引入了许多高质量的数据集,包括2011年开始的多媒体事件检测(MED)任务[1]。

    第三类应用是在21世纪初围绕多模式互动的新兴领域建立的,其目标是在社会交往中理解人类多模态行为。视听情绪挑战AVEC的挑战随后每年都在继续,后来的事例包括医疗应用,如自动评估抑郁和焦虑。D’Mello等人发表了关于多模式情感识别最近进展的一个很好的总结。 [50]。他们的分析显示,最近大多数关于多模态情绪识别的研究表明,当使用多模态时,准确率有所改善,但在识别自然发生的情绪时,这种改善会减少。

    最近,出现了一种新的多模式应用,强调语言和愿景:媒体描述。最具代表性的应用之一是图像字幕,其任务是生成输入图像的文本描述[83]。这是因为这种系统能够帮助视障人士完成日常工作[20]。媒体描述的主要挑战是评估:如何评估预测描述的质量。最近提出了视觉问答(VQA)的任务,以解决一些评估挑战[9],其目标是回答关于图像的特定问题。

    为了将一些上述应用程序带入现实世界,我们需要解决多模式机器学习所面临的许多技术挑战。我们总结了表1中上述应用领域的相关技术挑战。最重要的挑战之一是多模式表示,这是我们下一部分的重点。

    在这里插入图片描述

    多模态表示

    好的特征表示对于模型来说是非常关键的,好的特征表示能够大大地提升模型精度。【18】好的特征表示应该具有平滑,空间分开等性质。

    特征表示发展时间久,早期是提取手工特征,例如描述图片有人设计sift特征【127】,近年来关于大规模数据很多人用CNN。音频方面之前的MFCC手工特征被dnn和rnn取代了【207】。自然语言中用词嵌入取代之前的方法去学习上下文。然而这些只是单模态,多模态表示有新的架构创新:联合表示和协同表示。如下图所示联合表示多模态的输入共同作用于一个共享空间,协同表示每个模态都有一个表示,但是它和另外的模态有一定的关系和结构约束。

    在这里插入图片描述

    联合表示

    联合表示: 联合表示的最简单示例是各个模态特征的串联(也称为早期融合[50])。在本节中,我们将讨论从神经网络开始创建联合表示的更高级方法,然后是图形模型和循环神经网络(表2中可以看到代表性的工作)。

    在这里插入图片描述

    神经网络

    由于深度神经网络的多层性质,通常使用最终或倒数第二个神经层作为数据表示的形式。为了使用神经网络构建多模态表示,每种模态都从几个单独的神经层开始,然后是隐藏层,将模态投射到关节空间[9],[145],[156]。联合多模态表示通过多个隐藏层本身或直接用于预测。这些模型可以端到端地进行训练 - 学习既可以表示数据又可以执行特定任务。当使用神经网络时,**这导致多模态表示学习和多模态融合之间的密切关系。**由于神经网络需要大量标记的训练数据,因此通常在无监督数据上使用自动编码器预训这样的表示。Ngiam等人提出的模型。 [151]扩展了使用自动编码器到多模式域的想法。他们使用堆叠去噪自动编码器分别表示每个模态,然后使用另一个自动编码器层将它们融合成多模态表示。
    基于神经网络的联合表示的主要优点来自于它们通常优越的性能以及以无人监督的方式预先训练表示的能力。但是,性能增益取决于可用于培训的数据量。其中一个缺点来自于模型无法自然处理缺失的数据 。

    图形模型

    概率图形模型是通过使用潜在随机变量构建表示的另一种流行方式。在本节中,我们将描述概率图形模型如何用于表示单模态和多模态数据。 欧阳等人[156]探索多模式DBM用于从多视图数据进行人体姿态估计的任务。他们证明,在单峰数据经历非线性变换之后,在稍后阶段整合数据对于模型是有益的。在来自 NIPS 2012 的 《Multimodal learning with deep boltzmann machines》一文中提出将 deep boltzmann machines(DBM) 结构扩充到多模态领域,通过 Multimodal DBM,可以学习到多模态的联合概率分布。

    在这里插入图片描述
    论文中的实验通过 Bimodal DBM,学习图片和文本的联合概率分布 P(图片,文本)。在应用阶段,输入图片,利用条件概率 P(文本|图片),生成文本特征,可以得到图片相应的文本描述;而输入文本,利用条件概率 P(图片|文本),可以生成图片特征,通过检索出最靠近该特征向量的两个图片实例,可以得到符合文本描述的图片。如下图所示:
    在这里插入图片描述

    使用多模式DBM学习多模态表示的一大优势是它们的生成性质,它允许一种简单的方法来处理丢失的数据 - 即使缺少整体模态,模型也有一种自然的应对方式。它还可以用于在存在另一个模态的情况下生成一种模态的样本,或者从表示中生成两种模态。 与自动编码器类似,可以以无人监督的方式训练表示,使得能够使用未标记的数据。DBM的主要缺点是难以训练 - 计算成本高。

    序列模型

    到目前为止,我们已经讨论了可以表示固定长度数据的模型,但是,我们经常需要表示不同长度的序列,例如句子,视频或音频流。在本节中,我们描述了可用于表示此类序列的模型。

    递归神经网络(RNN)及其变体(如长短期记忆(LSTM)网络,最近因其在各种任务中顺序建模的成功而受到欢迎[12],[213]。到目前为止,RNN主要用于表示单词,音频或图像的单峰序列,在语言域中取得最大成功。类似于传统的神经网络,RNN的隐藏状态可被视为数据的表示,即,在时间步t的RNN的隐藏状态可被视为直到该时间步长的序列的概括。这在RNN解码器框架中尤其明显。RNN表示的使用不限于单峰域。使用RNN构建多模态表示的早期使用来自Cosi等人关于AVSR的工作。 它们还被用于多模态情感识别[37]。

    协同表示

    协同多模表示是通过每个输入模态都对应有一个输出的表示。但是他们的表示之间有一个约定也就是相似地表示不同模态之间的表示距离要满足一个相关性最大,距离最小。

    在这里插入图片描述
    协同表示学习一个比较经典且有趣的应用是来自于《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models 》这篇文章【105】。利用协同学习到的特征向量之间满足加减算数运算这一特性,可以搜索出与给定图片满足“指定的转换语义”的图片。例如:

    狗的图片特征向量 - 狗的文本特征向量 + 猫的文本特征向量 = 猫的图片特征向量 -> 在特征向量空间,根据最近邻距离,检索得到猫的图片:
    在这里插入图片描述

    章节小结

    在本节中,我们确定了两种主要类型的多模式表示 - 联合和协调。联合代表将多模态数据投射到一个公共空间,最适合在推理期间存在所有模态的情况。它们已被广泛用于AVSR,情感和多模态手势识别。另一方面,协调表示将每种模态投射到一个单独但协调的空间,使其适用于在测试时只有一种模态的应用,例如:多模式检索和翻译(第4节),接地(第7.2节)和小样本学习(第7.2节)。最后,虽然在情境中使用联合表示来构建两种以上模态的表示,但到目前为止,协调空间主要限于两种模态,三种模态非常困难。

    翻译

    对齐挑战

    多模态对齐是两个模态或者多个模态间查找实例子组件之间的关系和对应。一般有两种方式,一种是显性对齐,另外一种是隐性对齐,隐性对齐主要有注意力机制。这个领域面临问题是显性对齐标注的数据量较少,两种模态之间的相似制度难以设计。一种模式的元素不一定在另一种模式中有对应的关系。因此在这个领域中它依赖于手工定义的模型直接相似性的度量,或者在无监督的情况下学习他们。

    融合

    多模态融合和多模态表示是非常像的。在我看来他们之间最本质的区别可能就是多模态融合方法,后面有一个分类而多模态表示只需要用到表示。在这一部分我们将多模态分为两种,一种是模型不可知的方法,另外一种是模型可知的方法,针对模型不可知的方法,我们将多模态融合分为,早期融合,中期融合,混合融合。在这里面你可以使用任意的方法,而模型可知的方法中我们需要控制特定的模型去满足特定的需求,例如在多模态中多核学习和图形模型是天生适合多模态数据进行融合的,而且由于他们的数学可控性强,因此适合于可解释性比较强的任务中。此外还有一种模型:神经网络。适合在大数据上的分析。尽管多模态融合取得了这些进展,但是他仍面临着以下的挑战,一个是信息可能不是对齐的,另外一个挑战是每个模态之间可能偶尔会出现一定的噪声。最后一点是难以利用其他的补充模型。

    在这里插入图片描述

    协同学习

    。多模态协同学习是通过一个数据量较好的模态去影响另一个模态。需要注意的是联合学习是独立于任务的,经过处理的数据可以用于更好的融合转换对齐。在去年的顶级会议上有很多论文都是关于这方面的。

    综述总结

    文章中作者按照5个挑战去分类了每个应用所面临的挑战。总的来说,这篇文章具有很高的参照价值。根据这篇文章我理解了我自己的研究点在多模态机器学习的整个地位以及分布。也明白了我下一个研究的方向在多模态中机器学习中属于哪一部分。我将针对从这章学习的内容对我以前看到的一些应用型的论文进行分类。

    参考文献

    [243] B. P. Yuhas, M. H. Goldstein, and T. J. Sejnowski, "Integration of Acoustic and Visual Speech Signals Using Neural Networks,"IEEE Communications Magazine, 1989.

    [24] H. Bourlard and S. Dupont,“A mew ASR approach based on independent processing and recombination of partial frequency bands," in International Conference on Spoken Language, 1996.
    [37]S. Chen and Q. Jin, “Multi-modal Dimensional Emotion Recognition Using Recurrent Neural Networks,” in Proceedings of the 5th International Workshop on Audio/Visual Emotion Challenge, 2015.
    [53]G. Evangelopoulos, A. Zlatintsi, A. Potamianos, P. Maragos,
    K. Rapantzikos, G. Skoumas, and Y. Avrithis, “Multimodal saliency and fusion for movie summarization based on aural, visual, and textual attention,” IEEE Trans. Multimedia, 2013.
    [50]S. K. D’mello and J. Kory, “A Review and Meta-Analysis of Multimodal Affect Detection Systems,” ACM Computing Surveys,2015.
    [9]S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. Lawrence Zitnick, and D. Parikh, “VQA: Visual question answering,” in ICCV, 2015.
    [20]J. P. Bigham, C. Jayant, H. Ji, G. Little, A. Miller, R. C. Miller, R. Miller, A. Tatarowicz, B. White, S. White, and T. Yeh, “VizWiz: Nearly Real-Time Answers to Vvisual Questions,” in UIST, 2010.
    [18]Y. Bengio, A. Courville, and P. Vincent, “Representation learning: A review and new perspectives,” TPAMI, 2013.

    [105]R. Kiros, R. Salakhutdinov, and R. S. Zemel, “Unifying Visual- Semantic Embeddings with Multimodal Neural Language Models,” 2014.
    [127]D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” IJCV, 2004.

    [138]H. McGurk and J. Macdonald, "Hearing lips and seeing voices.“Nature, 1976.
    [145]Y. Mroueh, E. Marcheret, and V. Goel, “Deep multimodal learning for Audio-Visual Speech Recognition,” in ICASSP, 2015.
    [151]J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee, and A. Y. Ng, “Multimodal Deep Learning,” ICML, 2011.
    [156]W. Ouyang, X. Chu, and X. Wang, “Multi-source Deep Learning for Human Pose Estimation,” in CVPR, 2014.

    [198]N. Srivastava and R. R. Salakhutdinov, “Multimodal Learning with Deep Boltzmann Machines," in NIPS, 2012.
    [207]G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M. A. Nico- laou, B. Schuller, and S. Zafeiriou, “Adieu features? End-to-end speech emotion recognition using a deep convolutional recurrent network," in ICASSP, 2016.

    多模态融合应用场景论文分析

    音视频双模态情感识别融合框架研究

    摘要

    针对双模态情感识别框架识别率低、可靠性差的问题,对情感识别最重要的两个模态语音和面部表情进行 了双模态情感识别特征层融合的研究。采用基于先验知识的特征提取方法和VGGNet-19网络分别对预处理后的音 视频信号进行特征提取,以直接级联的方式并通过PCA进行降维来达到特征融合的目的,使用BLSTM网络进行模 型构建以完成情感识别。将该框架应用到AViD-Corpus和SEMAINE数据库上进行测试,并和传统情感识别特征层 融合框架以及基于VGGNet-19或BLSTM的框架进行了对比。实验结果表明,情感识别的均方根误差(RMSE)得到 降低,皮尔逊相关系数(PCC)得到提高,验证了文中提出方法的有效性。

    内容

    这篇文章开始主要介绍了情感识别的研究意义并提出了多模态融合在情感分析的一些研究或者指出特征层融合框架仍有一些不足。主要是不能直接级联。融合之后的网络没有考虑双向时效性,因此作者提出了双向长短期记忆网络和特征降维。

    在这里插入图片描述

    我那整个架构是参照上图,首先在音频信号作者将音频进行了参数统一化,高通滤波窗函数双门限端点检测法以及特征提取通过以上的方法提取了很多的语音的特征。。对于视频中的话采用了参数统一,通过68个特征点将人脸翻转到同一个角度后使用vgg网络去提取相应的特征。以上步骤处理完毕之后,作者将特征直接进行了级联,也就是每三秒的音频片段对应三秒内的90个面部表情数据维度。完成连接之后级联,特征数据进行了降温。由于输入的是连续信号,作者使用了双向长短期记忆网络去训练这段数据最后得出来的效果如下图,我做了对比和分析,得出了论文的结果。

    在这里插入图片描述

    总结

    这篇文章给我的启发就是针对音视频的一个处理以及PC降维和双向长短期记忆网络这几个点都是非常有用的,但是作者在吉林的时候介绍得很笼统。而且作者在音频当中并没有采用深度学习的方法,也就是一个深度学习方法和一个传统方法他们进行相连。感觉实验对比还是不够详细,如果将音频加入深度神经网络的话,效果会怎么样呢?这一点值得思考。我希望把双向长短期记忆网络和PCA降维方法纳入我的论文当中

    音视频双模态情感识别融合框架研究

    摘要

    特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多 模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别 方法。首先,提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征;然 后,构 建 具 有 语 义保持的共享特征子空间,以实现音视频多种模态特征的融合;最后,提出基于音视频特征的语义一致性度量和特种视 频分类的多任务学习特种视频分类理论框架,设计了对应的损失函数,实现了端到端的特种视频智能识别。实验结果表 明,本文提出的算法在 ViolentFlow 和 MediaEvalVSD2015两个数据集上平均精度分别为97.97%和39.76%,优 于 已 有研究。结果证明了该算法的有效性,有助于提升特种视频监控的智能化水平。

    内容

    这篇文章专门用来检测暴力视频,和我的婴儿哭声有异曲同工之妙。作者在之前介绍了暴力的概念以及暴力检测的作用之后,介绍了相关的工作有人通过静态视频帧和光流图作为两路简单融合。作者强调之前的算法,暴力地将经典特征和深度网络自动提取的特征进行简单的拼接,就认为这种多模态是非常好的,这是不可取的。作者又提到了早期融合也就是特征融合和决策融合的一个对比决策融合的话没有提取共有信息,因此本文提出静态图运动和音频多种特征有效的特征融合结构。该方法可以很好解决共享子空间与一致性。

    在这里插入图片描述

    作者的整个网络架构如上图所示,首先在原始的视频帧和光流中使用p3d长短期记忆网络提取具有时空相关特性的视觉语义特征。然后使用vgg网络去提取音频的语义特征。在融合的过程中音视频语义的一致性设置loss监督,可以自动学习并求取具有语义保持的特征映射变换矩阵。之后呢,作者介绍了每一步的音频提取时,直接将梅尔频谱图放入其中,并使用训练好的模型去进行微调。视频方面采用了类三D+长短期记忆网络提取了对应的特征。以上就是所有模型的内容,而且主要的创新点在于添加了语义一致性损失函数。

    在这里插入图片描述

    作者还描述了其他的约束条件具有一定的缺点。但是我并不认为如此,可能会有新的方法。

    在这里插入图片描述

    上图是作者在公开数据中得到的结果。由于数据集正样本很少,作者采用了ap方式进行比对。

    总结

    这篇文章对我的收获也很大,自己从这里面了解如何进行共享此空间的设置以及如何保持共享此空间的语义一致性。针对数据正样本和反样本差距过大的方法,作者也提出了一些公开的标准用来评价这种分布的识别效果。最后作者关于图像采集的部分让我学到了光流可以捕捉运动信息。但是文中的语义一致性标签怎么做并没有介绍。这里我暂且认为和分类标签是一致的。。将这篇论文结合到我的婴幼儿哭声分析中,我可以做以下的改进,一个是增加共享子空间另外可以通过对共享子空间的约束性或者动态规划调整特征。

    基于情绪基调的音视频双模态情绪识别算法

    摘要

    在音视频决策层融合过程中,当单模态间的情绪识别结果不一致时,融合后的识别结果不准确。针对 这类问题,提出一种基于情绪基调的音视频双模态情绪识别算法。采用连续混合高斯分布的隐马尔科夫模型 ( GMM-HMM) 和随机森林( RF) 分别对音频和视频进行情绪识别; 基于情绪基调对音频和视频的情绪识别结果进 行修正; 在不同情绪基调下运用线性相关性分析方法进行决策层融合。实验结果表明: 将该算法应用到 SEMA- INE 数据库上,情绪识别的均方根误差( RMSE) 得到降低,皮尔逊相关系数( PCC) 得到了提高。

    内容

    针对单模态间情绪识别结果不一致导致识别结果 不准确的问题,本文将情绪基调考虑在内,提出了一种 基于情绪基调的音视频双模态情绪识别算法。首先对 音频和视频进行单模态情绪识别;其次对音频和视频 的单模态识别结果进行线性加权和零均值归一化处理,得到音视频双模态的情绪基调;然后基于不同的情 绪基调对单模态间不一致的识别结果进行修正;最后, 基于情绪基调对音视频双模态进行决策层融合,得到 最终的情绪识别结果。

    在这里插入图片描述

    在音视频双模态决策层融合过程中,当单模态间 情绪识别结果不一致时,融合后的识别结果不准确。 本文将单模态间识别结果不一致情况予以考虑,提出 一种基于情绪基调的音视频双模态的情绪识别算法。 当音频和视频的单模态情绪识别结果不一致时,本文 创新性地使用情绪基调对两个模态的识别结果进行修 正,解决了单模态间识别结果不一致导致融合后识别 结果准确率不高的问题。决策层融合阶段,在不同音 视频情绪基调下,使用线性相关性分析算法进行音视 频双模态决策层融合,识别结果的准确率也有了一定 提升。使用 SEMAINE 数据库对该算法进行验证,结果 表明,音视频双模态情绪识别的 RMSE 得到下降,PCC 得到提升

    总结

    这篇文章是介绍决策融合的,决策融合的方法有多种,而这篇文章的创新点在于他并没有修改决策融合的机制还是去修正了音频和视频表示结果不一样的情况。这篇文章创新的使用了情绪基调对两各模态的识别结果进行了修正,这样方便以后的决策融合,但是这篇文章我没怎么看懂他是怎么修正的。以后涉及到决策融合的话,可能还需要再看看一下这篇文章,但是这篇文章主要不是传统的决策融合修正,而是基于自己的想法去修改了模型。。

    基于音视频特征融合的暴力镜头识别

    方法研究(我在这过滤镜头捕捉)

    摘要

    ,本文分别从视觉通道、听觉通道、视听双通道对于单个镜头的暴力 成分进行了深入分析。在视觉通道上,本文比较了视频行为分析领域效果最好 的密集轨迹特征方法和目前业界使用较广泛的深度学习方法。在深度学习方法 中,本文将相邻两帧图像的帧间差分图作为卷积神经网络(Convolutional Neural Network,CNN)的输入,之后将 CNN 学习到的每个帧间差分图的特征送入长 短时记忆(Long Short-Term Memory,LSTM)网络中,对时序信号进行建模。 本文在 LSTM 结构中,使用卷积操作进行了改进,改进后的 ConvLSTM 网络ᨀ 取到了更高层的空间特征。在听觉通道上,本文针对目前暴力音频数据集稀缺 问题,基于 MediaEval 电影数据构建了一个 VioAudio 数据集,然后比较了传统 的声学特征方法和分别用原始音频波形图和音频语谱图作为网络输入的深度学 习方法。最后,本文基于视觉通道和听觉通道上结果最好的深度学习模型进行 了融合实验。我们将视频中相邻图像帧的帧间差分图及其对应的音频波形图分 别送入两个 CNN 网络中进行特征的ᨀ取,之后对特征进行融合送入 LSTM 网 络中,利用长短时记忆网络对时序信息进行建模与分类。实验表明了该音视频 融合方法的有效性。

    内容

    单模态音频网络:

    在这里插入图片描述

    单模态视频网络:

    融合网络:本文使用预训练的 AlexNet网络ᨀ取相邻帧间差分图的特征;

    同时在听觉通道上利用 AlexNet 网络ᨀ取每帧音频信号原始波形的特征。最后,
    将每个时刻的两类特征融合,送入 LSTM 网络中,对时序信息进行建模,进而
    判断在该片段中是否存在暴力事件。
    在这里插入图片描述

    本文不足: (1)在音视频特征融合中,可能存在音频和视频信息不同步的问题,针对 该问题,可考虑先将音频特征和视频特征进行对齐,然后将对齐后的特征进行 建模,进而构建暴力镜头检测系统。 (2)扩大暴力检测数据集,现有的数据集主要针对电影片段,可构建真实结论的监控视频数据,对于监控中的暴力行为进行及时地检测,这将具有更大的现 实意义和应用价值

    总结

    整体来说这篇论文相比较之前来看的论文细节比较多,但是创新方法可能有所不足。因为这是一篇硕士论文,作者的工作量很多,而他的创新点在镜头检测中也有不少,所以这一点也是可以理解的,但是作为一篇优秀的硕士论文是值得我去参考的,它里面的很多环节,例如如何撰写音视频相关的一些理论以及如何撰写基础理论都是值得我以后写论文进行参考。我将这篇论文定义为硕士论文的标准。其次作者也提到了他没有对数据进行很好的融合以及对其这是一个比较关键的点,而在之前的暴利检测中有一篇文章是对该方法进行了研究,因此可以结合起来。总的来说,这篇文章参考价值在于工作细节的描述至于方法,则只能基于他这个在改进了。参考的创新点比较少。

    End-to-End Multimodal Emotion Recognition using Deep Neural Networks

    摘要

    摘要情感自动识别是一项具有挑战性的任务,因为情感表达的方式多种多样。在多媒体检索和人机交互等领域都有应用。近年来,深度神经网络已被成功地用于确定情绪状态。受此启发,我们提出了一个使用听觉和视觉模式的情感识别系统。为了捕捉各种说话风格的情感内容,需要提取健壮的特征。为了达到这个目的,我们使用卷积神经网络(CNN)从语音中提取特征,而视觉模态使用50层的深度残差网络(ResNet)。除了特征提取的重要性,机器学习算法还需要对离群值不敏感,同时能够建模上下文。为了解决这个问题,使用了长短期内存(LSTM)网络。然后训练系统在一个端到端的时尚——也利用每个流的相关性,我们设法表现明显优于传统方法基于听觉和视觉手工特性预测的自然和自然情感的RECOLA数据库用2016情感识别研究的挑战。

    内容

    文中作者总结了之前工作不怎么考虑时间信息,本文提出一种LSTM方法去捕捉时间信息。

    L0310在本文中,我们提出了一个多模态系统操作的原始信号,以执行端到端的自发情绪预测任务从语音和视觉数据。为了考虑数据中的上下文信息,使用了LSTM网络。为了加快模型的训练,我们分别预先训练了语音网络和视觉网络。此外,我们研究了语言模态中循环层的门激活,并发现了与韵律特征高度相关的细胞,这些韵律特征通常被认为是引起觉醒的原因。我们在单峰模态上的实验表明,与使用RECOLA数据库的其他模型(包括提交给AVEC2016挑战的模型)相比,我们的模型在测试集上取得了明显更好的性能,从而证明了更好地适应当前任务的学习特性的有效性。另一方面,与其他模型相比,我们的多模态模型在价态维度上比在唤醒维度上表现得更好。

    总结

    这篇文章我是一个个单词的看过来了,做作者在目标函数上做了一定的处理,将两个模特的相关性以及个性都体现了出来。从作者这篇论文中我学到最多的知识是如何介绍你的模型参数?如何介绍你的对比实验和步骤?还有一个小窍门是,如何使用长短期网络的激活细胞去证明你的方法是正确的,如下图。

    在这里插入图片描述

    之前我对这个方向了解不深,看起来比较吃力,现在理解这个方向之后来看感觉还好,确实以后要经常读英文的论文了,收获很多。我在文中需要标注的地方都笔记了,这篇文章中就不重复介绍了,下一阶段就是将该方法应用到我的论文中以及跑通这个作者提供的代码。

    总结

    可以增加光流,共享子空间,loss保持语义一致性,lstm激活响应,pca降维到我的论文中。

    展开全文
  • 双面神亲/疏膜可用于实现水下气泡的单向运输,在学术研究和工业应用中具有重要的意义。利用纳秒脉冲激光打孔,并结合加热改性工艺,在锌箔上下表面制备出锥形微孔阵列。通过控制激光加工参数,研制出双面神锌箔,其上下...
  • 5.1.4 定义索引列排序方向 172 5.1.5 查看索引元数据 172 5.1.6 禁用索引 174 5.1.7 删除索引 174 5.1.8 使用DROP_EXISTING改变既有索引 174 5.2 控制索引创建的性能和并发性 175 5.2.1 在tempdb中...
  • 机器学习算法汇总

    2018-07-20 16:39:38
    基本概念以及数学定义 基本性质及其物理意义 具体算法应用(详细举例讲解) 该算法与其他类似算法的分析比较 可能的发展方向参考文献
  • 包含机器学习基本概念以及数学定义;基本性质及其物理意义;具体算法应用(详细举例讲解);该算法与其他类似算法的分析比较;可能的发展方向,附参考文献,作为个人学习,教学都很不错
  • 以平朔公司为例,分露天和井工2个部分对平朔公司大型设备及其国产化工作现状做了介绍,提出了国产化工作的发展方向,总结了国产化开发工作中存在的问题,对平朔公司国产化开发工作具有借鉴和参考意义
  • 对全面预算管理及其体系构建在煤矿企业中的应用现状以及在其它企业中的应用现状进行综述,为全面预算管理理论在煤矿企业中的应用研究提供参考。同时,阐明了研究符合该领域应用研究的趋势和方向,其应用价值和意义较大...
  • 在航带的一维方向上检测极值点,同时利用区域中心的极值点及其地形表面的切线作为参考,利用地形极值点相对于参考点和参考线的相对位置关系构造地形的具有不变性的特征,基于特征的距离计算和比较,实现了具有抵抗...
  • 介绍财务共享服务及其云平台服务体系的构建,综述其在煤矿企业和其它企业中的应用现状,为财务共享服务理论在煤矿企业中的应用研究提供参考。同时,阐明"面向国有大型煤矿企业需求的财务共享云平台服务体系构建"的研究...
  • 本文综述了基于 CNN 的语义分割在医学图像领域中的研究进展,回顾了多种经典的语义分割方法及其架构变化,并重点介绍了它们在该领域的贡献和意义。在此基础上,进一步总结和讨论了它们在一些重要的生理与病理解剖...
  • 15.1.3 Fourier系数的几何意义 15.1.4 例题 15.1.5 练习题 515.2 Fourier级数的收敛性 15.2.1 Dirichler核和点收敛性 15.2.2 Gibbs现象 15.2.3 Fourier级数的?eshro求和 15.2.4 Fourier级数的平方平均收敛 15.2.5 ...
  • 第11章介绍了连续小波变换、二进小波变换和多分辨率分析的概念、性质及其物理意义,讨论了小波的构造,并给出了小波的例子;第12章介绍了连续维格纳分布和离散信号的维格纳分布的定义、性质及其例子,分析了连续信号...
  • 3.8 高斯曲率的几何意义 习题 2.3 §4 直纹面和可展曲面 4.1 直纹面 4.2 可展曲面 习题 2.4 §5 曲面论的基本定理 5.1 曲面的基本方程和克里斯托费尔符号 5.2 曲面的黎曼曲率张量和高斯-科达齐-迈因纳尔迪公式 5.3 ...
  • 第一部分是前言,通过国内IT产业的发展现状和中望公司所面临的发展障碍,导出论文的选题及其意义,并初步阐明研究的总体目标、具体目标和基本内容。第二部分是战略分析,从采用SWOT模型对中望公司的业务发展战略进行...
  • 知识点:通过教师讲解,让学生了解人工智能的研究、应用现状及未来的一些发展方向,使学生明确学习本课程的目的、意义、任务。本节的教学目的是让学生一般掌握、了解人工智能的基本研究和应用领域以及未来的发展方向...
  • 汽车操纵动力学

    2018-11-14 21:22:20
    第九节 识别汽车方向控制特性的能量相平面表示方法 一、能量相平面 二、能量相平面上的车轮侧偏角 三、能量相平面上直角坐标与极坐标的意义 四、能量相平面的一般特征 五、相平面轨迹的一些特例 六、不同输入响应的...
  • 嵌入式系统详细文档

    热门讨论 2004-04-28 00:00:00
    第一部分,在第一章交代本课题的意义、背景和研究方向,使读者能够了解课题的来由和基本研究思路。 第二部分包括两章,在第二章中介绍嵌入式系统的相关知识和概念,并介绍了MCGS嵌入式实时控制软件的特点、软件结构...
  • 书名:供暖系统温控与热计量技术 出版社:中国计划出版社 定价:32 条形码:9787800588884 ISBN:ISBN 7-80058-888-2 作者:徐伟 邹瑜 印刷日期:2000-11-1 出版日期:2000-11-1 精装平装_开本_页数:平装16...参考文献
  • 因此,多年以来,微软软件测试的理念、方法、技术、工具、流程,及其与其他角色的协作等 诸多方面,都一直是业界研究、探讨和借鉴的中心。本书第一次由微软的权威人士从内部系统地揭示这一奥秘。本书应该成为中国...
  • 1.2 课题意义 1 1.3 国内外在该方向的研究概况 1 1.4 本文的主要工作 3 第2章 系统总体分析和设计 4 2.1 系统概述 4 2.2 恒压供水系统的节能原理 4 2.3 恒压供水系统硬件设计 6 第3章 器件的选型及介绍 10 3.1 可...
  • 适合做高校面向对象编程课程的教科书,也可作为c++爱好者的参考书。 [center] [a href=http://www.china-pub.com/main/sale/c++tb.htm target=_blank]c++之父bjarne stroustrup博士专访[/a]  [a href=...
  • 适合做高校面向对象编程课程的教科书,也可作为c++爱好者的参考书。 [center] [a href=http://www.china-pub.com/main/sale/c++tb.htm target=_blank]c++之父bjarne stroustrup博士专访[/a]  [a href=...
  • 书中全面分析了复杂性理论的经典原理和现代主题,适合作为“非密码专业方向”的计算机、信息安全等相关专业的研究生教材。 第0章 记号约定 1 0.1 对象的字符串表示 1 0.2 判定问题/语言 2 0.3 大O记号 2 习题 3...
  • C++程序设计语言(特别版)--源代码

    热门讨论 2012-04-23 07:33:51
    适合做高校面向对象编程课程的教科书,也可作为c++爱好者的参考书。 [center] [a href=http://www.china-pub.com/main/sale/c++tb.htm target=_blank]c++之父bjarne stroustrup博士专访[/a]  [a href=...
  • 本书可为高等院校计算机科学、信息科学、人工智能、控制科学与工程、电子科学与技术等领域的研究及教学人员提供参考,也可为相关专业本科生及研究生提供思考方向,还可为深度学习及计算机视觉领域的初、中级研究人员...
  • 随着互联网技术向宽带、高速、多媒体方向的发展,人类正快速进入一个信息化的时代。各种信息工具、技术、载体等应运而生。在众多类型的信息资源中,图像具有直观、形象、易于理解和信息量大等特点,成为资源库的重要...
  • 《ASP.NET 完全入门》

    2011-11-12 22:12:28
    微软的.NET技术目前正是风风火火,作为全球软件业最大的公司,微软在.NET技术上投入了大量的人力物力,把公司未来战略重心放在了.NET上,而从目前看来,.NET技术无疑代表了未来Internet技术的方向。 ASP.NET技术就是...

空空如也

空空如也

1 2 3
收藏数 56
精华内容 22
关键字:

参考方向及其意义