精华内容
下载资源
问答
  • 为研究多模态人机交互系统的理论及构造方法,提出了一种快速的、单笔划手势识别方法。该方法通过提取手势轨迹的关键点及各关键点的运移方向,形成特征码,然后与标准手势符号的各种可能的特征码进行匹配。其中方向...
  • 人机交互 多通道 多模态 知网格式 智能界面
  • 人机交互多模态 多通道 服务机器人 智能化
  • 基于多模态视觉特征的自然人机交互,管业鹏,,针对目前人机交互中存在的问题与不足,提出了一种基于多模态视觉特征的人机交互新方法.采用二维Gabor小波提取全局人脸朝向视觉特征,�
  • 人机交互多模态技术在产品虚拟展示中的应用
  • 然而,由于多数服务机器人仅能被动响应用户的请求,同时,大多数宾客不了解服务机器人的功能,甚至可能不知道它能否正常工作,这种情况下很多不会选择贸然去咨询服务机器人。 这种现象导致多数时候服务机器人...

    图片

    欢迎关注【百度NLP】官方公众号,及时获取自然语言处理领域核心技术干货!!
    阅读原文:
    https://mp.weixin.qq.com/s/hcgfTPdBjG9ADuaQPPQ7Ww

     

    近年来服务机器人逐渐进入商场、餐馆、银行、机场等场所,给人们提供了简单的咨询、导航等服务。然而,由于多数服务机器人仅能被动响应用户的请求,同时,大多数宾客不了解服务机器人的功能,甚至可能不知道它能否正常工作,这种情况下很多人不会选择贸然去咨询服务机器人。

     

    这种现象导致多数时候服务机器人难以起到实际作用,且使用和交互的频率非常低,变成“移动平板电脑”。如果服务机器人能主动关注工作区域的场景,针对有潜在需求的访客,在客户主动请求之前,就能发起交互,既能给人宾至如归的感受,又能主动让用户了解到服务机器人的功能,使得机器人更加智能化,人性化,提升宾客体验。

     

    为此,百度的工程师们率先在小度机器人(DuRobot)上开展了一项技术革新。小度机器人落地于百度公司各个办公大厦大堂,提供迎宾咨询、引领讲解、互动娱乐等功能,是百度对外迎宾的重要一环。这项技术的目的在于让小度机器人能理解当前场景,发掘用户潜在意图,主动发起第一步交互。

     

    虽然主动交互也在学术界已经有一些初步的工作,主要通过距离传感器、摄像头等设备感知行人意图,按照预设的交互规则,发起简单的、宽泛的交互,比如简单问候“你好”和握手等等。但这些交互模式通常非常有限(比如小于10种)。

     

    为了使得机器人能够更加理解场景的细节,带来更加智能、友好、和自然化的交互体验,百度提出了全新的“基于视觉记号和Transformer模型的人机主动交互系统”(TransFormer with Visual Tokens for Human-Robot Interaction,简称TFVT-HRI)。这套系统不仅能观察场景主动发起交互和引导,其交互的动作更是包含千余种多模态动作,使其能够像人类一样表现出自然的主动问候。接下来让我们跟着demo视频,看看小度机器人的新技能吧。

     

     

     

     工作原理解释

     

    百度提出的TFVT-HRI框架,是业内首次尝试将主动交互扩展到集表情、动作、丰富话术于一体的多模态交互模式。通过目标检测器,将可能对主动交互产生影响的相关物体,提取为涵盖视觉以及相对空间信息的视觉标记(visual tokens),然后利用Transformer网络学习一段时间内visual tokens之间的关系,从而实现对交互主体的时空建模,预测该交互主体是否有潜在交互意愿,当前帧合适的多模态动作是什么。

     

    图片

     

    该工作以小度机器人为主体,构建数据采集、模型训练、端上嵌入式设备部署一套完整的主动交互解决方案。小度机器人工作的真实环境(通常是公共场所,大堂等)十分复杂,各种各样的光照环境也给计算机视觉技术为基础的主动交互计算带来很大挑战。

     

    为此,百度在多个大堂采集了不同场景的视频片段,标注其中合适的触发时间点,以及合适触发的多模态动作。共计标注了上千小时的视频片段,其中包含了3800个需要发起主动交互的场景。数据和交互专家们标注了超过1000组多模态动作组合,同时使用采样技术获得足量负样本,辅助训练。

     

    TFVT-HRI框架包含三个模块:Visual Token提取器、多模态动作表征、基于Transformer的交互决策模型,如下图所示。TFVT-HRI框架首先以Yolo作为视觉特征提取器,提取了每帧图像中的多个物体和人物的区域,并结合了位置信息生成表示(a)。接下来,多帧连续信息,通过Transformer模型进行编码(b)。通过这种方式,模型不仅仅能获取图像中每一个物体随时间运动的轨迹,人物的表情和动作变化,还能获取到人物之间的互动关系,对于场景的理解起到了至关重要的作用。另一方面,我们将专家标注的多模态动作进行编码,其中,语言利用百度的大规模语义理解模型ERNIE进行编码,动作则利用Embedding表示(c)。这种编码方式在语言上具有很好的泛化和理解能力。模型最终需要决策是否发起主动交互,以及选择的多模态动作。

     

    图片

     

     效果评估

     

    该项目由于使用视频流作为输入,输出多模态动作ID,这样的做法和当前的视频动作识别十分类似,因此百度采样目前最优的视频动作识别模型R(2+1D)+ig65m作为基线模型和TFVT-HRI进行对比。该基线模型使用65M社交网络视频数据做预训练,并且利用收集的数据集finetune。考虑到多模动作的合适性很难自动化评估,百度采用了采样真机部署模型,真人体验问卷调查的方式评估动作的合适性,这样自动化评估指标只注重多模动作触发的时机的合适性,因而使用精准率、召回率、F1等指标。从下表可以看出,基线模型由于缺少交互对象时空建模能力,在全新的测试集上精准率显著低于TFVT-HRI模型。

     

    图片

     

    基于Paddle Inference,将模型部署到机器人的嵌入式运算设备Jetson AGX后发现,TFVT-HRI模型可以达到6.25FPS,而基线模型(使用轻量版本)只有1.89FPS,考虑到基线模型延迟明显,严重影响用户体验,在用户实验部分,百度团队主要对比了不使用主动交互的传统模式。

     

    有30名新入职员工参加了我们的用户问卷实验,他们之前全都没有体验过小度机器人,避免了主观印象的影响。问卷涵盖了情绪指标:效价(Valence)和唤醒度(Arousal);态度指标:整体舒适程度、自然程度、友好和智能程度。

     

    独立样本T检验(Independent-Samples T Test)结果显示:两组被试在效价(t(28)=1.218,p=0.233>0.05)和唤醒度(t(28)=1.906,p=0.067>0.05)均不存在显著差异。将Valence-Arousal数据映射到社会心理学中常用的Russel情感极坐标模型,可以发现两种交互系统都能给用户带来偏向『激动』(EXCITED)的正向情绪。

     

    图片

     

    虽然两种模式唤起的用户情绪无显著差异,但在其他主观指标上,两种交互系统差异明显。Levene’ Test表明,除了“智能的”之外,其他变量方差齐性(homogeneity of variance)的假设成立,因此我们对“整体舒适度”、“自然的”、“ 友好的”进行了独立样本T检验,对“智能的”进行了t'检验。结果显示,两组被试对“整体舒适度”(t(28)=2.141,p=0.041<0.05)、“智能的”(t' (24.679)=2.225,p=0.035<0.05)、“自然的”(t(28)=2.354,p=0.026<0.05)和“友好的”(t(28)=2.705,p=0.012<0.05)评分均存在显著差异,TFVT-HRI框架的评分显著高于被动交互组。

     

    据悉,百度的这项新技术已经全面落地于小度机器人,并且在统计数据上取得了显著的效果。以小度机器人服务的某大堂为例,10月用户对比去年成功Query查询量从1070个提升到5077个,平均有效服务时间从3.109% 提升到9.268%,提升十分显著。

     

     总结

     

    作为小度机器人进化的第一步,百度提出的TFVT-HRI主动交互框架使用visual tokens和Transformer对交互主体进行时空建模,理解他们的行为、意图,然后引导机器人主动发出包含表情、动作、丰富话术的多模态交互,带给用户更加舒适、自然、友好的体验。目前该框架专注于主动发起第一次交互,后续百度也在探索引入用户反馈机制,实现在线学习、强化学习、以及更大的交互动作空间。百度该技术也已经开源于PaddleRobotics库,致力于向机器人行业输出高质量的AI和深度学习解决方案。

     

    开源地址:

    https://github.com/PaddlePaddle/PaddleRobotics

     

    论文地址:

    https://arxiv.org/abs/2012.04832

     

    百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

     

     

    展开全文
  • 现在,看在线视频已经成为很多的一种生活习惯,人们乐于在忙完一天的工作和家庭生活后抽空看视频放松娱乐一下。然而,由于在线视频平台众多,视频资源丰富,现在的观众们已不满足于视频本身好不好看和视频资源的...

    现在,看在线视频已经成为很多人的一种生活习惯,人们乐于在忙完一天的工作和家庭生活后抽空看视频放松娱乐一下。然而,由于在线视频平台众多,视频资源丰富,现在的观众们已不满足于视频本身好不好看和视频资源的丰富度了,他们还希望拥有更好的观看体验。

    因此,视频平台如果能够提高观众的观看体验,自然能够吸引更多观众。爱奇艺便是众多试图利用技术改善用户服务和体验的在线视频平台之一,他们采用的一项技术,就是今天这篇文章的主题——多模态技术。视频中最重要的信息,包括音频信息和视频帧信息,单独利用某一个模态的信息,会比较局限,难以全面的对视频内容进行理解,而多模态能够综合多模态信息,让视频服务和功能更贴近人类真实生活习惯,对于视频内容理解非常必要。

    2016年,爱奇艺在世界竞赛emotioW视频人脸表情识别国际竞赛中,综合利用人脸和音频的多模态信息获得比赛第一名,在这一契机下,爱奇艺从此开始进行多模态方面更加深入的研究。

    发布全球最大明星数据集iQIYI-VID

    为了促进多模态技术研发,爱奇艺在2018年举办了爱奇艺多模态视频人物识别挑战赛,发布了当时全球首个最大明星数据集(iQIYI-VID)。目前,2019年爱奇艺视频人物识别挑战赛已经启动,3月18日爱奇艺开源了最接近实际媒体应用场景的视频人物数据集(iQIYI-VID-2019)。与2018年的数据集相比,这个数据集更具有挑战性,总共包含10000个明星人物、200个小时、20万影视剧与短视频人物数据集,全部采用人工标注。相对于iQIYI-VID,iQIYI-VID-2019增加了5000个明星艺人,新增人物主要来自短视频,包括化妆、特效、不同场景的动作等。

    \"image\"

    iQIYI-VID数据库生产流程

    \"image\"

    iQIYI-VID视频人物库样本实例

    iQIYI-VID-2018数据集链接

    iQIYI-VID-2019数据集下载链接

    这些数据集,是爱奇艺在业务中落地多媒体技术的基础,有了这些数据,才让展开各种实践成为可能。

    爱奇艺多模态实践及技术详解

    爱奇艺已经将视频识别技术应用于实际业务中,上线了一系列基于AI技术的产品,如只看TA、电视端AI雷达、Starworks智能生产、爱创媒资系统、艺汇选角、广告创可贴点位、智能审核系统等。这些基于AI的技术可以帮助爱奇艺提升人物识别精准度,优化爱奇艺生态系统,以下为多模态技术在爱奇艺实际业务场景中的一些应用实例及其技术详解:

    只看TA:人脸识别、人体识别及场景识别

    在爱奇艺APP中,只看TA这个功能可以使得用户在观看视频的时候,可以选择只看某个演员或只看某对CP的功能,这是AI人物识别技术在爱奇艺的一个典型应用。目前,只看TA已经实现完全自动化的分析,该功能已经在爱奇艺APP移动端上线。

    \"image\"

    爱奇艺APP端的只看TA功能:只看吴谨言的片段,只播放进度条中绿色为吴谨言片段

    只看TA背后的技术设计利用人脸识别、人体识别及场景识别等信息,可更精确地捕捉视频画面,打破单模态的局限,为用户带来更为个性化的观看体验,并保证人物只看TA信息的剧情的完整性。

    TV端银河奇异果-AI雷达:人脸识别、场景识别、音频分析技术

    爱奇艺TV端的银河奇异果-AI雷达这个功能让用户在看电视时可以通过按遥控器上健来识别画面中的人物,背后的身份识别技术也用到了多模态,比如为了保证只看TA人物片段的剧情完整性,除了人脸识别技术,还需要结合场景识别、音频分析技术。

    \"image\"

    AI雷达-电视中的人物角色瞬间可知

    逗芽表情

    聊天斗图、看剧追星、搞笑沙雕,你的聊天页面永远缺一个有趣的表情包!爱奇艺基于日益增长的表情分发需求及场景,结合AI技术和爱奇艺IP视频资源,设计了一款通过AI生产动图+人工运营+IP设计模式的表情分发产品——逗芽表情小程序。逗芽表情不仅可以通过AI技术自动识别视频中的人物表情并截取生成动图,还根据识别出的人物情绪自动匹配上相同情感的文字。目前逗芽表情日均可更新5000张高质量动图,并实时追踪热点,保证了动图的新鲜度和丰富度。

    \"image\"

    逗芽表情及文案生成

    明星视频混剪Starworks:智能生成视频剪辑

    在追星族中,盛行着剪辑爱豆视频的风气,有才华粉丝不但会想方设法把所有关于爱豆的镜头剪辑到视频中,甚至会把素材自编自导成有故事有情节的小剧场,被称为“剪刀手”。但是,剪辑爱豆视频是一个痛并快乐着的过程,在浩如烟海的视频中找到并剪辑关于爱豆的镜头非常耗时耗力,煞费心血。现在,爱奇艺基于多媒体技术的明星视频混剪Starworks,就可以让这些“剪刀手下岗”了。

    Starworks(演示视频)可以实现根据剧本自动搜索素材,智能生成符合某个话题的视频集锦,支持不同画面的不同输出方式,如横竖屏效果、自动卡点配乐、台词集锦、CP等。如漫威老爷子,在他的100部大片中,他均有几秒钟的客串镜头,如果有人在他去世的时候想剪辑出只有他出现的镜头并拼接成短视频来纪念他,纯人工的工作量有多大可想而知。但是,Starworks可以在不到1分钟内完成。

    \"image\"

    Starworks智能生产流程图

    以此为例来说明一下,Starworks是如何做到在一分钟之内完成只看TA。

    首先,爱奇艺长视频中所有的人物,都已经用人脸识别技术打上了明星的点位信息,爱奇艺拥有百万级的明星人物库,使得人脸识别可以识别出从一线到十八线的相关明星艺人;然后,人工需要设置视频时长、人物、剪辑模式、配乐与否等信息,AI根据这些设置参数,直接输出该明星的视频。也就是说Starworks自动生产视频,其实分为两步,一是给视频打点,二是镜头合成策略。合成策略里会分为好多子模块,就像一个剪辑师有自己的素材库、音乐库、特效库、花字库一样,AI这里除了有这些库以外,还有不少算法来模仿剪辑师的行为,如音乐分类、节拍点检测等算法,来完成镜头与音乐的匹配合拍等。

    Starworks还可以利用台词搜索,实现相同或相关台词的集锦(演示视频)。比如《延禧攻略》这个巨火的宫斗剧,你知道有多少人骂魏璎珞“疯了”吗?有多少人嫉恨魏璎珞,歇斯底里地骂她“贱人”吗?Starworks根据台词索引,可以马上把相关片段找出来,是不是很疯狂?

    这个功能涉及到的技术主要包括人脸识别、人脸表情等属性识别、场景识别、服饰和职业识别、台词OCR、NLP、声音和音乐检测、音乐节拍点提取、镜头切分、专场特效、视频滤镜等模态。

    Starworks还可以人脸表情识别,如吴亦凡是不是很酷?很少见他笑?Starworks可以根据表情搜索,找到所有吴亦凡的笑的镜头(演示视频)。

    在人脸识别方面的进步得益于爱奇艺创建的明星人物库,收录了100万多知名明星或不太知名的艺人,同时,爱奇艺AI技术会监听热搜、播放VV等多方数据,将大家感兴趣的明星人物自动同步到爱奇艺明星人物库,完成人脸识别模型的快速更新。

    此外,爱奇艺的人脸识别技术不仅支持真人识别,还支持卡通角色识别。爱奇艺的卡通角色库已经支持热剧中2万多卡通角色,是目前已知的最大规模卡通角色库,也是爱奇艺AI技术独有的虚拟形象识别。

    距离完美的情绪识别和分析、视觉语义化还很远

    在爱奇艺科学家、PersonAI团队负责人路菊香看来,要实现完美的情绪识别和分析、视觉语义化,我们还有很长的一段路要走。人和机器最大的区别在于,人有感情,而机器没有,这就是机器人在现在和未来永远都不可能取代人类的原因之一。识别人的情绪,人机交互才能进行得更加顺畅,让人更有代入感,但目前在情绪识别和分析这一方面,AI技术还任重而道远。

    路菊香表示,所谓的情感识别,在AI里就是转换成某种行为的标签,比如对于爱情,AI可以识别CP同框,以及两人是否拥抱、接吻、牵手、微笑等,但是并不知道两个人是否真的相爱。所以,AI识别情感,只能从这些标签中抽象,但有时候,仅从标签中无法抽象出来一些感情的。
    目前,AI情绪识别主要用于识别表情、声音、台词等标签,爱奇艺在这些方面均有应用,如Starworks生产符合某个主题的视频,需要综合利用多种标签。

    另一方面,人类接收信息的方式多种多样,包括听觉、触觉、嗅觉等,但是最重要的方式还是视觉,因此,视觉语义化对人类来说是一个具有重要意义的应用方向。

    路菊香介绍道,从多模态学习到视觉语义,一般有两种方式:一种是输入多模态特征,输出高层语义,直接训练,即端到端的黑盒模式;另外一种是输入单个模态的特征,提取单模态的标签,再从这些标签中抽象出高层语义。现实应用中往往根据具体问题,多种策略并用。 
     
    目前,视觉语义化已经可以结合人脸、表情、行为、台词等方式进行视频内容的简单描述,并进行检索人物情感分析,而这些从单一模态难以获得准确的结果。因为人的表达是通过表情、声调、语言三个方面来综合进行的,所以多模态信息的利用是最准确的解决方案,在多个维度上建立视频的标签gragh,节点表示不同模态的标签输出,节点的连接表示标签的关联,实现语义化的推理,视频人物表情识别。

    但是,利用视觉语义化完成更多日常任务,业界仍在努力。

    多模态技术和应用难点

    将多模态技术应用于视频业务场景中不是一件容易的事。路香菊表示,多模态技术应用的主要难点在于,多模态信息不能生搬硬凑,需要探索高效整合的方式,挖掘各模态之间的信息关联性和可迁移性,采用模型学习和人工先验结合的方式进行多模态信息整合,其中,文本的抽象内容标签和图片、音频的具体标签的对应关系是最困难的,简单来说,就是多模态信息融合策略、如何加速的问题。

    路香菊建议应该具体问题具体分析,主要难点在于各个模态的关联表达与融合,如在人物识别时,声纹特征与身体特征有时都可以有效地表示人的身份,但是,两者加起来,并不一定会达到更好的效果,如何将两者有效地结合在一起,如何把人的身份信息综合在一个超维度上表达,是非常有挑战的。

    虚拟主播是多模态里程碑式突破

    在国内,多模态研究相对国外来说起步较晚,目前还是集中在诸如情感识别、人物识别、音视频语音识别、事件检测等比较传统的方向。

    但是,国内多模态研究的发展速度非常快,目前在一些主流的学术数据库上已经达到了世界领先的水平,比如爱奇艺在2016年的EmotioW情感识别竞赛上取得了第一名,超过了英特尔和微软;在在iQIYI-VID多模态人物识别数据集上,爱奇艺利用多模态技术也取得了最高的精度。

    在应用方面,国内的多模态技术已经基本实现了和国际同步,爱奇艺在视频智能生产的多个项目中都采用了多模态技术,如视频说话人身份识别,爱奇艺使用了人脸、台词、声纹来精确判断哪句台词是谁说的,这是视频理解当中的一个最核心问题;另外,爱奇艺还实现了视频和表情包的自动配乐,音乐节拍提取和明星精彩片段切分来实现明星的视频混剪,都实现了业务落地。

    在路菊香看来,爱奇艺的手语主播,以及有些公司推出的虚拟主持人,都是今年来多模态应用的一个里程碑。虚拟人物形象的出现,代表多模态已经可以简单模仿人的行为,完成特定的使命。

    多模态未来会打破单模态限制,更贴近人类习惯

    多模态未来的应用前景广阔,比如表情包自动配文案算法,采用的就是多模态内容迁移来实现表情包的自动生成。另外,学术上也一直有一些很活跃的方向,如看图说话、跨模态内容检索、视觉问答等。

    路菊香表示,多模态技术未来发展的方向,会越来越打破单模态输入输出限制,从而更贴近人类真实使用习惯,因为在人类的实际生活中,多模态是无处不在的。在人类日常生活当中,综合利用多模态信息可以帮助我们更准确的理解人类行为,如学生上课状态监控、健康监护等。

    采访嘉宾介绍

    \"image\"

    路香菊博士,爱奇艺科学家,PersonAI团队负责人,专注人物识别及视频分析,创建百万人物库及两万卡通库。组织创办“爱奇艺多模态视频人物识别赛”,开放全球首个影视视频人物数据库iQIYI-VID。

    展开全文
  • 在高工智能汽车研究院看来,再加上AR HUD、生命体征监测、智能触控面板等其他舱内技术,结合多模态人机交互,意味着智能座舱进入真正的智能2.0时代。 这其中,基于语音、触觉、手势、视线追踪等多模交互技术已经...

    一直以来,在智能汽车的舱内感知交互部分,汽车制造商的目标是打造一个对驾驶员及乘客有深刻理解、能够满足驾驶相关需求和非驾驶相关需求的个人助理。

    从早期的语音交互,到驾驶员注意力监控、疲劳预警再到手势交互,这样的多模态交互系统与驾驶员辅助系统一起形成合力,帮助提升行车安全以及舱内的体验。

    在高工智能汽车研究院看来,再加上AR HUD、生命体征监测、智能触控面板等其他舱内技术,结合多模态人机交互,意味着智能座舱进入真正的智能2.0时代。

    这其中,基于语音、触觉、手势、视线追踪等多模交互技术已经进入新车前装量产的标配序列。同时,过去多家供应商提供离散功能的模式也被彻底打破。

    高工智能汽车研究院监测数据显示,2020年国内市场新车7英寸及以上中控多媒体系统搭载率已经突破80%,4G联网搭载率已经接近50%,语音识别搭载率超过60%,1.0时代的数字座舱已经完成阶段性的前装覆盖。

    一、

    这一次,中国企业没有落后。

    6月30日,搭载地平线征程汽车智能芯片及Halo车载智能交互方案的广汽传祺GS4 PLUS正式上市。背后是集成疲劳提醒、语音识别、视线检测、手势交互、表情识别等主动人机交互技术的量产落地。

    在广汽,上述多模态人机交互技术结合ADiGO 4.0智驾互联生态系统,被命名为“超感交互智能座舱”,背后的合作伙伴包括华为、腾讯、科大讯飞、地平线、苏州智华、商汤、德赛西威以及马瑞利等供应商。

    智能座舱“试水”多模态交互

    同时,“超感交互智能座舱”基于G-OS操作系统、多屏联动、大屏娱乐系统、HUD抬头显示系统、空调和座椅全域控制等功能模块,实现全场景、全过程的沉浸式智能交互体验。

    从目前公开信息来看,这套系统并没有搭载基于时下高端车型采用的座舱域控制器电子架构,但已经基本上构建了未来智能座舱人机交互的下一个阶段的功能部署。

    智能座舱“试水”多模态交互

    同时,这套系统的供应商组合,也再次验证了在量产系统中,如何实现人机界面组件(尤其是软件部分)模块化、高性价比的另一种实现方式,这降低对仪表、信息娱乐控制等传统硬件的复杂性要求。

    在高工智能汽车研究院看来,接下来几年时间,座舱的电子架构部署将呈现多元化的市场格局。其中,整车智能中央域控制器、高度集成化的座舱域控制器架构、传统分布式ECU+智能交互控制器等模式都会并存。

    尤其是10万级别车型,未来的智能化竞争日趋激烈。而不断增加的ADAS和智能座舱功能,在车企考虑成本的前提下,技术路线会更加偏向务实的策略。

    同时,规模化量产,意味着背后的供应商需要能力更强的成本控制实力。

    近日,Stellantis(PSA和FCA合并后)公司宣布与富士康联手成立了一家名为Mobile Drive的合资企业,联手开发智能座舱系统。除了背靠富士康的硬件成本控制能力,还有软件方面的功能交付,涉及语音、导航以及更多的车载应用功能。

    “目前公司的汽车业务收入主要来自传统显示屏、机械和塑料部件,但我们将扩展到系统和模块层面。”富士康为此还打造了一个“开放电动汽车联盟”(MIH),目标是制定行业标准,并开发硬件和软件的“套件”,帮助汽车制造商削减新车的开发时间和成本。

    而其中的关键部分,则是零部件的模块化,并集成为软硬件子系统。这种模式,意味着未来汽车智能化系统的模块化组装,就像智能手机一样,这可能会让供应商更有能力协同工作。

    二、

    “汽车驾驶舱正在发生变化。随着更多的显示器、摄像头、传感器和人工智能功能的加入,它变得越来越复杂。此外,车内和车外的界限越来越模糊,无缝的交互体验正在成为趋势,”大陆集团北美人机界面主管Jens Brandt表示。

    在这个过程中,智能座舱的交互模式,也开始逐步从过去用户被动接受车机端提供的特定内容服务转向更多主动交互场景的部署。

    以长安汽车UNI系列推出的首款车型UNI-T为例,搭载了与地平线(基于征程2芯片)联合开发的智能驾驶舱NPU计算平台,全方位实现车内场景化感知,并基于感知结果为用户提供更精准的智能推荐以及智能车控等服务。

    例如,中控屏处于熄屏状态时,驾驶者注视屏幕1秒,屏幕即会自动亮起;乘员接听电话时,系统自动降低多媒体音量,保证通话清晰;识别到副驾乘员抽烟时,根据车速适度打开车窗并开启车内空气净化。

    这意味着,座舱芯片的算力需要进行大幅提升。同时,针对座舱人机交互的特定需求,尤其是涉及到眼球跟踪、多模语音交互、多音区检测等视觉、语音和多融合算法的高效处理支持,也在重塑智能座舱异构计算的全新平台架构。

    相对而言,类似恩智浦、TI、瑞萨以及高通这样的芯片公司,则更多“负责”多屏交互、底层系统稳定、虚拟化环境安全部署、支持导航、数字多媒体、云端互联等显示、联网类功能的落地。

    去年,新的Cerence Drive 2.0发布,彻底改进了语音人工智能平台和Cerence云服务,日本丰田将率先量产搭载这一服务。还有新的Cerence Look,结合了在线数据库和视线跟踪摄像头,将汽车的语音助手变成实时导游。

    全新的Cerence Look功能,已经搭载于梅赛德斯-奔驰最新一代MBUX上,驾驶员不需要使用特定的唤醒词,而是使用环境重建和传感器数据来确定车辆的位置,并确定驾驶员提出问题时正在看什么。

    这是未来基于人机多模态交互的典型解决方案,涉及自然语言处理、手势识别和眼球追踪功能。此外,还有从现阶段相对成熟的双音区交互技术发展为四音区、六音区交互技术,可以让每个位置的乘客通过语音或其他交互方式控制各自的交互设备。

    更进一步,就是基于情感化体验的智能主动式服务,也是语音交互的重要方向。通过多模态感知,基于用户行为、历史使用习惯、用车场景和时间等情况主动推送应用服务。

    随着智能驾驶与座舱交互的融合度越来越高,还需要底层硬件能力的加持。比如,地平线已经推出的面向整车智能的征程5中央计算芯片,基于征程5的Halo5.0方案也即将发布,目标是集成自动驾驶和智能交互。

    展开全文
  • 随着云、物联网、互联网网络、光网、宽带、5G的发展,大数据燃料非常充足,未来的少人化工厂、虚拟社区、私人定制等服务都将是智能化场景的最终形态,这使得如何实现更自然的人机交互成为当下十分重要的课题。...

    弥补深度学习不足,杨志明认为内脑AI是“最佳人选”。

    随着云、物联网、互联网网络、光网、宽带、5G的发展,大数据燃料非常充足,未来的少人化工厂、虚拟社区、私人定制等服务都将是智能化场景的最终形态,这使得如何实现更自然的人机交互成为当下十分重要的课题。

    在刚刚结束的“2018硬科技行业领袖峰会暨镁客网年会”活动上,杨志明发表了主题为《多模态深度语义理解开启人机交互新时代》的演讲,他直言行业急需改进:目前的AI技术在产业化中已经有很多问题出现,比如深度学习非常依赖大数据,而人脑是依赖小数据的,看到一个新的人脸就可以很快的记住并认识他,但AI不行。那么,我们就得思考如何让AI模仿人脑举一反三。

    演讲中,杨志明通过案例呈现做了深度的探讨。

    TB1VhClx5rpK1RjSZFhXXXSdXXa.png

    以下为杨志明先生的演讲实录:

    各位听众大家上午好,非常荣幸跟大家分享一下多模态深度语义理解和人机交互。

    首先我介绍一下什么是内脑人工智能。现在AI概念比较普及,我们做AI的一线从业者发现了一些问题,目前的人工智能大多数突破的是深度学习的方法,其实到现在我们逐渐的产业化过程中已经发生了一些问题,深度学习主要存在哪些问题?当然深度学习比传统学习要好很多,但深度学习也存在一些问题,在我们产业化和研究中出现一些问题,比如深度学习非常依赖大数据。人脑是可以依赖小数据的,我们看到一个新的人脸的时候很快可以认识他/她,小数据也可以做到非常好的结果。另外深度学习功耗非常大,运算速度也非常慢。人脑功耗非常低,运行速度也非常快。第三我们人脑举一反三,但是深度学习、机器学习没法做到很好的推移,它必须依赖大量的数据学习数据的规律。

    以上三点是内脑AI要去解决的问题,怎么使得我们的人工智能不完全依赖大数据,小数据也可以运行,人工智能可以实现快速的迁移。现在所谓的人工智能都在聚焦某个场景,但其实怎么模拟的人脑举一反三,怎么在目前AI小的计算资源下快速和低功耗的运行?这是我们要致力解决的内脑AI的技术。

    目前,从取得的成果来看,我们已经在多模态语义理解这块做了突破。比如看一个电视剧、眼睛看画面、耳朵听声音、眼睛看着字幕,对不同事物不同状态,人脑可以同时做理解,但AI还停留在识别阶段,人脑更多是语义理解,而且是多模态理解,这是我们专注的人工智能技术领域。

    其中,我们在做同时实现理解文本和理解视觉图像的技术,本身这块是多模态的输入。举例来说,如果传统时代做AI识别,一个小狗在小树荫下面我们去识别的时候,发现识别分类两个目标,一个目标是小狗,另外一个目标是一棵树,基于视觉语义理解,一个小狗在树荫下乘凉,我们人脑理解更加深度的理解文本背后的深度含义,这是我们的多模态语义理解,我们把这个用在人机交互产生了很多技术特点和变化。

    比如自由切换场景,人跟人交流的时候自由切换场景,比如第一个场景买一张机票,对方问你要去哪?我可以答非所问,你放一点音乐我来听一听我先想一想,我想明天下午两点以后去,其实是针对一个场景的上一个问题的答非所问,我们人类交互的时候就是这样。大量的时候是缺省。比如日本国土面积是多少?中国呢?人机对话的时候是大量存在缺省,我们用多模态语义理解现在取得突破,相比一些友商我们能够自由切换对话场景。

    在医疗方面,我们的第一场景是医疗宫颈癌筛查,这是一个刚需场景,医生做筛查,准确率在60%左右,用我们目前的做到99%。我们用多模态语义理解做这个里边有技术特点,在宫颈细胞里有腺细胞,我们收集了北京市600例数据,做了非常好的结果腺细胞本身识别的话没有问题,但是做多模态语义理解发现本身的问题,我们是能够唯一筛出腺细胞异常。目前我们在第三方解决机构包括30多家知名一线的三甲医院在实际的运行。

    此外,在汽车应用上,汽车人机交互和语义理解有一些刚性场景,第一实时性,如果不用完全云端运行的场景,比如针对用户的问题用户的反馈反应比较慢,上云以后这个车可能开过去了,实时性比较高,我们针对这个场景做实时运算。对车内个性化需求,包括针对用户的习惯和爱好做计算,根据不同场景、不同用户的习惯跟用户实现人机对话。

    车机这块APP太多了,用语音识别产品还不够。语音识别能解决听见的问题,比如我比较热,语音识别翻译不出来了,加上我们多模态语义对话的产品就可以,主人你是要开空调开展开窗?这样对话就可以延续下去。

    深思考AI落地在车场景这块可以实现多地上下文话语理解对话,包括信息同步到家庭、汽车、个人手机,另外在出行这块服务,以及对内视觉多模态理解。我们通过8度摄像头做车外视觉模组切换。我们现在车外视觉模组侦测到室外场景,夕阳西下,风景无限好。

    目前,包括国内外的本田、丰田、奇瑞、现代等都与我们有合作。

    谢谢大家。

    展开全文
  • 在2020云栖大会上,天猫精灵发布了首个全场景人机交互系统AliGenie5.0,将视觉、语音、触觉等多种形态的交互方式融合在一起,能更精准地感知物理世界,深入理解使用者的意图。当天发布...
  • 什么是多模态交互

    千次阅读 2021-02-21 09:16:57
    多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟之间的交互方式。 多模态交互包括了视觉、听觉、嗅觉...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,425
精华内容 2,170
关键字:

多模态人机交互