精华内容
下载资源
问答
  • 多模态体育视频语义分析刘宇驰;栾悉道;戴端辉;吴玲达【期刊名称】《计算机科学》【年(卷),期】2007(034)001【摘要】以足球运动为例提出了一种体育视频语义结构,并提出相应的语义分析框架.视频被分解为纯视频流和音频...

    多模态体育视频语义分析

    刘宇驰

    ;

    栾悉道

    ;

    戴端辉

    ;

    吴玲达

    【期刊名称】

    《计算机科学》

    【年

    (

    ),

    期】

    2007(034)001

    【摘要】

    以足球运动为例提出了一种体育视频语义结构

    ,

    并提出相应的语义分析

    框架

    .

    视频被分解为纯视频流和音频流两种模态

    ,

    每种模态均可依次提取和综合出

    低层内容和中层内容

    .

    视频流可根据低层

    (

    物理

    )

    内容分割为物理镜头

    ,

    然后根据特

    定的中间层内容可以确定为语法镜头

    .

    音频也可以在物理特征的基础上形成有意

    义的中间层内容

    ,

    如解说员兴奋时的声音

    .

    最后

    ,

    根据视频流和音频流的中间层内

    ,

    按照足球比赛转播的规律

    ,

    分析出比赛中的精彩事件

    ,

    并选取相关的镜头作为

    反映此事件的序列组合

    .

    【总页数】

    3

    (109-111)

    【关键词】

    体育视频

    ;

    多模态

    ;

    语义分析

    ;

    语法镜头

    【作者】

    刘宇驰

    ;

    栾悉道

    ;

    戴端辉

    ;

    吴玲达

    【作者单位】

    国防科学技术大学信息系统与管理学院

    ,

    长沙

    ,410073;

    空军雷达学

    院一系

    ,

    武汉

    ,430019;

    国防科学技术大学信息系统与管理学院

    ,

    长沙

    ,410073;

    陆军

    航空兵学院模拟训练中心

    ,

    北京

    ,101114;

    国防科学技术大学信息系统与管理学院

    ,

    长沙

    ,410073

    【正文语种】

    中文

    【中图分类】

    TP3

    【相关文献】

    1.

    一个基于概率潜语义分析的多模态多媒体检索模型

    [J],

    张宇

    ;

    袁野

    ;

    王国仁

    展开全文
  • 【中关村在线新闻资讯】7月4日消息:Baidu Create 2018”百度AI开发者大会今天在北京国家会议中心正式召开,百度高级副总裁王海峰在主题演讲中介绍了百度大脑3.0,指出多模态深度语义理解是百度大脑3.0最大的变化。...

    【 中关村在线新闻资讯】7月4日消息:Baidu Create 2018”百度AI开发者大会今天在北京国家会议中心正式召开,百度高级副总裁王海峰在主题演讲中介绍了百度大脑3.0,指出多模态深度语义理解是百度大脑3.0最大的变化。

    王海峰博士表示,百度大脑3.0的多模态深度语义理解包含视觉、语音、自然语言、数据语义以及多元语义这些因素。用一句话概括就是,多模态深度语义理解,不仅让机器听清、看清,更要深入理解其背后的含义,从而更好地支撑各种应用。

    基于百度大脑的视觉语义化技术,机器可以全面识别视频中内容。现场展示了AI是如何看世界杯的,机器可以识别出比赛视频中的球员、裁判、球、以及球门、球场线等人、物和场景,可以捕捉射门、进球、角球、任意球、换人等事件,进而提炼出结构化语义信息。基于这样的信息,既可以完成机器人自动解说,还可以进行精彩片段集锦、以及各种数据统计分析等等。

    百度大脑

    百度大脑视觉语义化技术还能被运用到无人超市中去。王海峰博士指出,在无人超市等新零售场景中,视觉语义化技术可以准确识别顾客“拿起商品”、“放下商品”、“将商品从A处放到B处”等行为,从而判断用户购买了哪些商品,并在用户离店时通过人脸支付主动扣款。

    百度大脑的语音语义一体化技术,配合WaveNet+拼接 情感语义合成技术,可以大大提高语音识别的流畅度以及自然度。比如对百度地图导航进行的改进,更加智能的通过语音识别进行道路规划。

    百度大脑3.0将芯片纳入技术体系,使百度大脑具备更完备的软硬一体化能力,带动百度大脑算力爆发式增长。AI芯片还将与今天公布的PaddlePaddle 3.0深度学习框架深度结合。

    本文属于原创文章,如若转载,请注明来源:百度大脑3.0正式发布 多模态深度语义理解http://news.zol.com.cn/692/6927611.html

    http://news.zol.com.cn/692/6927611.html

    news.zol.com.cn

    true

    中关村在线

    http://news.zol.com.cn/692/6927611.html

    report

    1374

    【 中关村在线新闻资讯】7月4日消息:Baidu Create 2018”百度AI开发者大会今天在北京国家会议中心正式召开,百度高级副总裁王海峰在主题演讲中介绍了百度大脑3.0,指出多模态深度语义理解是百度大脑3.0最大的变化。  王海峰博士表示...

    展开全文
  • 摘要:随着计算机网络和...基于语义的多媒体信息检索,视频语义内容安全分析是处理上述问题亟需攻克的技术难题。视频数据包含着丰富的语义内容,作为视频的一种高级语义线索,视频中的文本(包括主题字幕信息和语音脚...

    摘要:

    随着计算机网络和多媒体技术的飞速发展,数字视频在人们的生活中成为不可或缺的信息载体。如何帮助人们从海量视频数据中找到自己感兴趣的内容?国家有关部门如何对危害社会稳定、团结和影响青少年健康成长的不良视频内容进行有效监管?基于语义的多媒体信息检索,视频语义内容安全分析是处理上述问题亟需攻克的技术难题。视频数据包含着丰富的语义内容,作为视频的一种高级语义线索,视频中的文本(包括主题字幕信息和语音脚本)所包含的信息对于视频内容的理解具有很高的价值。如何从视频中检测、抽取主题字幕,如何得到视频语音脚本,如何对同一视频故事的字幕信息和音频脚本进行有效融合等是视频语义信息提取的关键问题。 本文提出了一种基于多模态特征融合的新闻视频语义信息提取框架。首先,对主题字幕进行检测、定位、识别;其次,对视频中的音频信息进行分类和语音识别;最后,为解决语音识别结果错误率较高的问题,由主题字幕信息通过搜索引擎得到与视频故事相关的网页,利用网页文本对语音识别的结果纠错。通过自然语言层次上视频字幕信息和音频信息的跨模态融合提高了视频语义提取的准确率。 通过对中等规模的实验数据集(包括视频数据和网页库)的测试,结果表明本文提出的分析研究方法的有效性,经纠错后的语音识别准确率达到65%左右。

    展开

    展开全文
  • 原标题:「CV学霸开讲」卷积神经网络压缩、多模态语义分析研究 【新智元导读】2017年度百度奖学金10位候选人中,人大的陈师哲和北大的王云鹤所学专业主要集中在计算机视觉,本文将详细呈现CV学子的求学经历和研究...

    原标题:「CV学霸开讲」卷积神经网络压缩、多模态的语义分析研究

    【新智元导读】2017年度百度奖学金10位候选人中,人大的陈师哲和北大的王云鹤所学专业主要集中在计算机视觉,本文将详细呈现CV学子的求学经历和研究感悟,并独家分享他们和自己的学术大牛导师的相处轶事。

    陈师哲同学在“多模态情感识别”和“视频内容自然语言描述”研究方面取得了突出的研究成果,在领域顶级会议和期刊发表论文十余篇,并在多项高水平学术竞赛中取得优异成绩,表现出很强的科研能力、实践动手能力和科研潜力。

    王云鹤在神经网络加速压缩方面做了深入研究。他提出利用离散余弦变换将卷积神经网络预测过程中的卷积计算从空间域转换为频率域,在准确度只有轻微下降的前提下,预测速度大幅度提升、模型消耗的存储大幅度降低。该方法极具创新性和实用性。

    陈师哲:人民大学

    人大信息学院直博三年级的学生,导师是金琴老师。我的研究方向是多媒体计算,通过多模态的语义分析实现更加和谐自然的人机交互,主要分为两个方面:

    1)客观语义分析:根据视频内容生成自然语言描述(video captioning),客观地理解多模态视频中的物体/动作/关系等等;

    2)情感语义分析:多模态情感识别和理解(multimodal affective computing),通过不同模态分析人物的情感状态从而更好地与人类交互。

    阶段性研究成果介绍:

    1)视频内容的自然语言描述生成(video captioning)

    视频内容的自然语言描述生成(video captioning)的研究目标是为视频内容生成自然语言描述,这是视频语义内容理解的最高目标之一。这一研究具有非常广泛的应用价值,例如帮助视力有障碍的人群理解认识周围的世界;更好地对互联网视频进行索引、存储、分析和推荐,使得用户能够更好地浏览、选择、搜索视频内容等等。

    目前图片内容描述的自动生成(image captioning)已经取得了非常显著的进步,但是和imagecaptioning相比,video captioning这一研究更为挑战,主要的难点包括:

    A. 多模态:视频包含多种模态信息,例如视觉/声音/文本等等。为全面准确理解视频内容,我们提取了多模态特征,提出多模态融合模型有效利用融合多模态。

    B. 时序性:物体或事件的时间发展顺序影响着对视频内容的理解。因此,我们采用了时序模型和时序注意力机制对视频的时序特性进行建模。

    C. 主题广:视频的主题跨度非常广泛,不同主题下,多模态融合策略和语言描述空间有较大差异。因此,我们提出隐含主题指导模型,自动挖掘视频中的隐含主题,利用这些主题指导生成更准确和细节的描述。

    我们的视频内容描述模型在2016-2017年连续2年获得了在国际多媒体顶级会议ACM Multimedia上由微软组织的视频内容描述挑战赛MSR-VTT的冠军,和2017年NISTTRECVID上举办的国际视频内容描述冠军。

    2)多模态情感识别(multimodal emotion recognition)

    理解人类的情感是构建自然的人机交互非常重要的一步。这一研究在服务/教育/娱乐/医业等不同产业都有着非常广泛的应用,例如通过对用户的自动情感识别改善自动服务中对用户的交互方式等等。

    我们的研究主要致力于情感识别的两大基本模型:离散情感识别和维度情感识别。主要的技术难点包括:

    A. 情感特征构建:人的情感是通过不同的模态信息反映的,包括面部表情/肢体动作/语音语调/说话内容/生理信号等等。因此,我们基于信号处理和深度学习等方法从不同的模态中提取情感区分力显著的情感特征。

    B. 多模态情感特征融合:不同模态特征在不同场合情形下的可信度和情感表现力是不同的。 因此,我们提出了条件注意力模型动态地进行多模态情感特征融合。

    C. 时序性:人的情感状态是动态变化的,且非常具有时序依赖性。因此,我们提出了动态时序模型进行连续的维度情感识别。

    与导师相处轶事:

    1)治学严谨:从金老师身上我感受到的是一个学者严谨务实的态度。例如,在我最初论文写作的过程中,她会跟我反复斟酌论文的逻辑框架,每一个公式都会严谨地推算,每一个词都会细细地推敲。当时距离论文截止日期非常近,我们就连续十多个小时在办公室里讨论和修改,最终呈现出令人满意的工作。

    2)工作投入:金老师对待工作热情投入的态度给我极大的鼓舞。平时,我经常收到金老师在凌晨3、4点的工作邮件;去开会的旅途中,大家一般都选择休息闲聊,而金老师却仍然保持着积极的工作状态,阅读钻研前沿论文;即使放假的时候,哪怕是春节等重大节日,金老师也依然会和我们保持紧密的联系,保证科研工作的推进。

    3)关心学生:金老师不仅是我在学术研究中的导师,更是我人生生涯中的良师。有一次在论文死线前压力大想放弃的时候,她没有苛责我,而是非常温柔地告诫我说放弃是很简单一件事,并不会有有特别严重的后果,但是很多事情的机会就只有一次,错过了就不能重来,为什么不激励自己坚持做完不留遗憾呢。

    金老师在生活上也非常关心我。这次出国以后,有次和老师不经意聊天提到一件在国外不好买的东西,结果之后一起参加学术会议时她竟然就从国内带过来送给我了。更让我感动的是,即使在科研一线、百忙之中,金老师每年都会给学生发去生日祝福。

    王云鹤:北京大学

    北京大学智能科学系2013级直博研究生,我在神经网络加速压缩方面做了深入研究,提出利用离散余弦变换将卷积神经网络预测过程中的卷积计算从空间域转换为频率域,在准确度只有轻微下降的前提下,预测速度大幅度提升、模型消耗的存储大幅度降低。该方法极具创新性和实用性。

    深度卷积神经网络压缩这个课题非常具有应用前景,因为深度学习模型在大多数任务(例如图像识别、图像超分辨率等)上的精度已经达到了落地需求,但是它们的线上速度和内存消耗还没有达到落地需求。

    深度卷积神经网络已经在计算机视觉上得到了广泛的应用,例如图像分类、人脸验证等。然而,大多数的卷积神经网络难以被应用在移动端设备上。例如,利用AlexNet或VGGNet对一张图片进行处理需要消耗超过232MB的内存以及数十亿次的浮点数乘法计算。因此,如何压缩并且加速这些复杂的卷积神经网络是非常重要的一个研究课题。

    为了解决上述问题,我的研究提出利用离散余弦变换(DCT)在频域上对卷积神经网络进行压缩与加速。卷积核被看做小尺度的光滑图像块,每个卷积核在频域上的表示被分解为共有部分和私有部分的和;共有部分用来指代每个卷积核与其他卷积核相似的方面,而私有部分用来指代其独特的信息。

    这两个部分都可以通过舍弃大量微弱系数来实现压缩和加速的目的。在标准数据集上的实验证实了本研究所提出的算法要优于其它算法。

    图1: CNNpack算法流程图

    图2: CNNpack算法的压缩结果

    深度卷积神经网络压缩这个课题非常具有应用前景,因为深度学习模型在大多数任务(例如图像识别、图像超分辨率等)上的精度已经达到了落地需求,但是它们的线上速度和内存消耗还没有达到落地需求。然而,越来越多的实际应用需要用到这些深度学习模型,例如手机、智能摄像头、无人车等。所以如何设计更轻便、更高精度的深度神经网络仍旧是一个亟需解决的问题。

    很幸运在读博期间能有两个指导老师,第一个是北京大学的许超老师,印象最深刻的一句话是“磨刀不误砍柴工”,曾经在一个小的数据集上跑检索实验需要半个小时,优化代码后只需要两分钟,从此走向了一个略有强迫症性质的coding之路。许超老师给人的感觉很平和,正如他微信号的签名一样,“上善若水”,有次ddl前生病了,许老师说“生病了就好好休息,会议还有很多,我们去投下一个”,泪目。

    另外一位是悉尼大学的陶大程老师,陶老师经常给予我非常大的鼓励,印象最深刻的一句话是“anyway,云鹤,我觉得你这个idea,very smart”哈哈。陶老师是一个在学术上非常严谨,成果非常多,业内知名的华人学者。最佩服的品质还是敬业,按道理,一个某种程度上来说功成名就的人,对每一个学生的每篇论文都认真修改。有时候自己读了几遍都没发现的错别字和语法错误都会被陶老师发现并作出修改。并且陶老师每天的工作时间超越了他的所有学生。

    读博最大的收获就是提出了CNNpack算法,发表在NIPS2016上,并于海思合作,第一次体会到了学术上的算法可以受到工业界的关注。期间最大的困难在于深度学习的模型都需要非常大的计算量和计算资源,所以许超老师购置了新的服务器,并把组内的计算资源都先优先给我使用,非常信任和认可我的工作。同时,结合传统图像压缩和视频压缩的算法,给出了很重要的算法上的意见。

    此外,现有的方法大多数都是在图像分类的实验上进行验证的,例如VGGNet,ResNet等。实际应用中,神经网络的需求是多种多样的,例如语音语义识别、物体分割等。这些模型具有和图像分类神经网络不一样的功能和结构,所以更具体的算法也需要被提出。返回搜狐,查看更多

    责任编辑:

    展开全文
  • 原标题:【CV学霸开讲】卷积神经网络压缩、多模态语义分析研究 新智元原创作者:弗朗西斯【新智元导读】2017年度百度奖学金10位候选人中,人大的陈师哲和北大的王云鹤所学专业主要集中在计算机视觉,本文将详细...
  • 前言信息的来源与形态具有多样性,每种形态的...多模态机器学习旨在让机器能够处理和理解多模态信息的能力,也就是同时利用文本、图像、语音等信息以及它们之间的交互,而不是只利用一种信息去做下游任务。只要能...
  • 这里整理一下平时所用的多模态情感数据集以备之用,后面会不断地去添加,也希望能够帮到其他人,欢迎大家补充。最近发现有一个网站的数据集很全,包含了各种任务各种语言不同规模的数据集#The Big Bad NLP Database#...
  • 张德禄-多模态话语分析理论与外语教学2. 用科技手段提高模拟实践环节,如录像、实景学习软件等。也就是说,如果找不到合适的主模态,则需要寻找相近的、等效的或者近效的模态来替代它,以求尽量产生好的效果。 (1)用...
  • 摘要:随着计算机技术及互联网应用的迅速发展,多媒体数据特别是视频数据呈海量趋势增长,如何有效存储...本文针对视频数据中多种模态之间的时序关联特性,通过特征融合和变量选择来进行视频语义分析与理解. 在视频语义...
  • 百度大脑新阶段:多模态深度语义理解 “多模态深度语义理解”是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言理解等多...
  • 随着互联网和数字设备的普及与发展,互联网上的图像等多媒体数据飞速增长。...为了缩小语义鸿沟,研究者们提出了多模态图像检索方法,通过融合图像的文本信息和底层特征进行检索,但是如何实现两种信息的有效融...
  • 未来的多模态数字人应当具备类似人的看、听、说和知识逻辑的能力,在人工智能更像人这个进程中更进一步。 追一科技数字人本文为追一科技联合创始人、CTO刘云峰博士在腾讯5G+AI论坛演讲《多模态数字人,5G时代下的人...
  • 导读:知识图谱在人工智能应用中的重要价值日益突显。...本文将介绍百度基于知识图谱,从文本到多模态内容的理解技术及应用的最新进展。本文主要内容包括:背景知识图谱文本语义理解知识图谱视频语义理解总结01▬背...
  • 陈师哲同学在“多模态情感识别”和“视频内容自然语言描述”研究方面取得了突出的研究成果,在领域顶级会议和期刊发表论文十余篇,并在多项高水平学术竞赛中取得优异成绩,表现出很强的科研能力、实践动手能力和科研...
  • 赛博智能团队的袁志强、杜润岩、魏楷文、刘帆帆等研究生组成的队伍,在孙显和张文凯两位老师的指导下,从全国8654支参赛队伍中脱颖而出,夺得多模态情感分析与识别挑战赛赛道冠军,本篇为其冠军方案分享。...
  • 目录视觉对话的模态平衡模型 对注意力的通用攻击和对应的数据集DAmageNet半结构化表的组合语义分析从输入输出示例合成高表达性SQL查询DeeperCut: 一种更深入,更强,更快速的多人姿态估计模型视觉对话的模态平衡模型 ...
  • 多模态深度语义理解”是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。王海峰表示,...
  • 分享嘉宾:冯知凡 百度 主任研发架构师编辑整理:付一韬内容来源:DataFunTalk·年终...同时,随着文本、语音、视觉等智能技术的不断深入,知识图谱在复杂知识表示、语义理解技术与应用等方面都面临新的挑战与...
  • 在本次报告会上,专家们围绕《文本中的情绪与原因联合抽取》、《多模态自然语言处理与智能人机交互》、《Machine Translation for 45,582 Language Pairs》三大主题展开了精彩报告。 嘉宾分享回顾 首先,北京大学...
  • 在本次报告会上,专家们围绕《文本中的情绪与原因联合抽取》、《多模态自然语言处理与智能人机交互》、《Machine Translation for 45,582 Language Pairs》三大主题展开了精彩报告。 嘉宾分享回顾 首先,北京大学...
  • 陈师哲同学在“多模态情感识别”和“视频内容自然语言描述”研究方面取得了突出的研究成果,在领域顶级会议和期刊发表论文十余篇,并在多项高水平学术竞赛中取得优异成绩,表现出很强的科研能力、实践动手能力和科研...
  • 2020-02-07 14:23 导语:为了更好地服务广大 AI 青年,AI 研习社正式推出全新「论文... 半结构化表的组合语义分析 从输入输出示例合成高表达性SQL查询 DeeperCut: 一种更深入,更强,更快速的多人姿态估计...
  • 基于多模态数据的情感分析

    千次阅读 2020-10-23 17:09:40
    多模态机器学习旨在让机器能够处理和理解多模态信息的能力,也就是同时利用文本、图像、语音等信息以及它们之间的交互,而不是只利用一种信息去做下游任务。只要能够转换成数字形式并且保留语义信息的数据,都能被...
  • 目录视觉对话的模态平衡模型 对注意力的通用攻击和对应的数据集DAmageNet半结构化表的组合语义分析从输入输出示例合成高表达性SQL查询DeeperCut: 一种更深入,更强,更快速的多人姿态估计模型 视觉对话的模态平衡模型 ...
  • 相关技术包含语义表示、语义匹配、语义分析多模态计算等。本文主要介绍百度在语义表示方向的技术发展和最新的研究成果艾尼 ( ERNIE ),同时也会介绍工业应用价值很大、百度积累多年的语义匹配 SimNet 的相关内容.....
  • 这两个领域的相关论文很少,主要原因还是数据获取和对齐的难度较大以及有效的多模态融合算法设计难度较大,两种模态间的信息差异性较大,因此使用简单融合方法的效果比较差。多光谱语义分割和行人检测都是目前只有两...
  • 分析了足球机器人运动控制系统组成和电机数学模型的基础上,对足球机器人运动控制器采用多模态控制的仿人智能控制(Human-Simulated Intelligent Control,HSIC)算法,利用改进的遗传算法(Improved Genetic ...
  • 同时阅读了关于多模态以及特征融合的论文,使用LSTM-Attention和CNN进行文档尺寸特征提取,同时结合Mairesse语言学特征,将多个分割提取的特征融合起来进行分析,最终使用Pytorch进行模型实现。 其中4个类别的提升...

空空如也

空空如也

1 2 3
收藏数 48
精华内容 19
关键字:

多模态语义分析