精华内容
下载资源
问答
  • 声源定位技术定位出外界声源相对于机器人的方向和位置,机器人听觉声源定位系统可以极大地提高机器人与外界交互的能力。总结和分析面向机器人听觉的声源定位技术对智能机器人技术的发展有着重要的意义。首先总结了...
  • 人体动作捕捉技术综述

    千次阅读 2021-01-03 21:25:00
    人体动作捕捉技术综述 摘 要:本文综述了目前动作捕捉领域几大主流解决方案,并重点挑选出目前在专业领域应用最广泛的光学式捕捉以及惯性式捕捉进行了原理的阐述和分析。 关键词:动作捕捉;传感器;加速度 1 引言...

    人体动作捕捉技术综述

    摘  要:本文综述了目前动作捕捉领域几大主流解决方案,并重点挑选出目前在专业领域应用最广泛的光学式捕捉以及惯性式捕捉进行了原理的阐述和分析。

     

    关键词:动作捕捉;传感器;加速度

     

    1 引言

    近几年来,在促进影视特效和动画制作发展的同时,运动捕捉技术的稳定性、操作效率、应用弹性以及降低系统成本等得到了迅速提高。如今的运动捕捉技术可以迅速记录人体的动作,进行延时分析或多次回放,通过被捕捉的信息,简单的可以生成某一时刻人体的空间位置,复杂的则可以计算出任何面部或躯干肌肉的细微变形,然后很直观的将人体的真实动作匹配到我们所设计的动作角色上去。

    1915年动画师MaxFleischer发明的“动态影像描绘(Rotoscoping)”技术被认为是动作捕捉的先驱,该技术主要原理是将实际拍摄出的动作影像作为动画描绘的底样,然后动画师以此为基础逐帧描绘出所需的动作。第一部使用动态影像描摹的长片动画是迪斯尼1937年的《白雪公主与七个小矮人》。从1970年开始,随着计算机的发展,动画师开始使用计算机来制作动画人物。在纽约大学计算机图形实验室,艾伦博士使用一面半镀银的镜子将一段真实演员跳舞的录像带添加到计算机的屏幕上,利用它来对计算机制作的动画模型进行定位,使计算机制作出的舞蹈少女生成和真人相仿的动作姿势,计算机把这些姿态作为关键帧,然后计算生成一段平滑的动作[[1]][[2]]。

    随后逐渐衍生出了其它的动作捕捉技术。1999年AMenach将动作捕捉定义为“在一定空间范围内通过对特殊标记点的跟踪来记录捕捉对象运动信息,然后将其转换为可使用数学方式进行表达的运动的过程”[[3]]。

    2 动作捕捉技术原理

    从技术的角度来说,运动捕捉的实质就是要测量,跟踪,记录物体在三维空间中的运动轨迹.典型的运动捕捉设备一般由以下几个部分组成:

    传感器:传感器是固定在运动物体特定部位的跟踪装置,它将向系统提供运动物体运动的位置信息,会随着捕捉的细致程度确定跟踪器的数目。

    信号捕捉:将运动数据从信号捕捉设备快速准确地传送到计算机系统。它们负责位置信号的捕捉。

    数据传输:将大量的运动数据从信号捕捉设备快速准确地传输到计算机系统进行处理。

    数据处理:经过系统捕捉到的数据需要修正,处理后还要有三维模型结合才能完成。

    3 动作捕捉技术的分类及其优缺点

    目前主流的动作捕捉技术可分为机械式、声学式、电磁式、光学式以及惯性导航式5类,每项技术也有各自的特长与应用方向,一般从以下几个方面进行评价:定位精度,实时性,使用方便程度,可捕捉运动范围大小,抗干扰性,多目标捕捉能力以及与相应领域专业分析软件连接程度。

    3.1 机械式运动捕捉

    机械式运动捕捉依靠机械装置来跟踪和测量运动轨迹。典型的系统由多个关节和刚性连杆组成,在可转动的关节中装有角度传感器,可以测得关节转动角度的变化情况。装置运动时,根据角度传感器所测得的角度变化和连杆的长度,可以得出杆件末端点在空间中的位置和运动轨迹。实际上,装置上任何一点的运动轨迹都可以求出,刚性连杆也可以换成长度可变的伸缩杆,用位移传感器测量其长度的变化。

    早期的一种机械式运动捕捉装置是用带角度传感器的关节和连杆构成一个" 可调姿态的数字模型 " ,其形状可以模拟人体,也可以模拟其他动物或物体。使用者可根据剧情的需要调整模型的姿态,然后锁定。角度传感器测量并记录关节的转动角度,依据这些角度和模型的机械尺寸,可计算出模型的姿态,并将这些姿态数据传给动画软件,使其中的角色模型也做出一样的姿态。这是一种较早出现的运动捕捉装置,但直到现在仍有一定的市场。

    机械式运动捕捉的一种应用形式是将欲捕捉的运动物体与机械结构相连,物体运动带动机械装置,从而被传感器实时记录下来。

    这种方法的优点是成本低,精度也较高,可以做到实时测量,还可容许多个角色同时表演。但其缺点也非常明显,主要是使用起来非常不方便,机械结构对表演者的动作阻碍和限制很大。特别是很难用于连续动作的实时捕捉,主要用于静态造型捕捉和关键帧的确定。

    3.2 声学式运动捕捉

    常用的声学式运动捕捉装置由发送器、接收器和处理单元组成。发送器是一个固定的超声波发生器,接收器一般由三角形排列的三个超声探头组成。通过测量声波从发送器到接收器的时间或者相位差,系统可以计算并确定接收器的位置和方向。

    这类装置成本较低,但对运动的捕捉有较大延迟和滞后,实时性较差,精度一般不很高,声源和接收器间不能有大的遮挡物体,受噪声和多次反射等干扰较大。由于空气中声波的速度与气压、湿度、温度有关,所以还必须在算法中做出相应的补偿[[4]]。

    3.3 电磁式运动捕捉

    电磁式运动捕捉系统是比较常用的运动捕捉设备。一般由发射源、接收传感器和数据处理单元组成。发射源在空间产生按一定时空规律分布的电磁场;接收传感器(通常有10 ~ 20 个)安置在表演者身体的关键位置,随着表演者的动作在电磁场中运动, 通过电缆或无线方式与数据处理单元相连。

    表演者在电磁场内表演时,接收传感器将接收到的信号通过电缆传送给处理单元,根据这些信号可以解算出每个传感器的空间位置和方向。 电磁式运动捕捉的优点首先在于它记录的是六维信息,即不仅能得到空间位置,还能得到方向信息,这一点对某些特殊的应用场合很有价值。其次是速度快,实时性好,表演者表演时,动画系统中的角色模型可以同时反应,便于排演、调整和修改。装置的定标比较简单,技术较成熟,成本相对低廉。

    它的缺点在于对环境要求严格,在表演场地附近不能有金属物品,否则会造成电磁场畸变,影响精度。系统的允许表演范围比光学式要小,特别是电缆对表演者的活动限制比较大,对于比较剧烈的运动和表演则不适用。

    3.4 光学式运动捕捉

    光学式运动捕捉通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务。常见的光学式运动捕捉大多基于计算机视觉原理。从理论上说,对于空间中的一个点,只要它能同时为两部相机所见,则根据同一时刻两部相机所拍摄的图像和相机参数,可以确定这一时刻该点在空间中的位置。当相机以足够高的速率连续拍摄时,从图像序列中就可以得到该点的运动轨迹。

    光学式运动捕捉的优点是表演者活动范围大,无电缆、机械装置的限制,表演者可以自由地表演,使用很方便。其采样速率较高,可以满足多数高速运动测量的需要。

    这种方法的缺点是系统价格昂贵,它可以捕捉实时运动,但后处理的工作量较大[[5]]。

    3.5 惯性导航式动作捕捉

    惯性导航式动作捕捉是在表演者的重要节点佩戴集成加速度计,陀螺仪和磁力计等惯性传感器设备,传感器设备捕捉表演者的运动数据,包括身体部位的姿态、方位等信息,再将这些数据通过数据传输设备传输到数据处理设备中,经过数据修正、处理后,最终建立起三维模型,并使得三维模型随着运动物体真正、自然地运动起来。

    惯性式动作捕捉优点是,采集到的信号量少,便于实时完成姿态跟踪任务,解算得到的姿态信息范围大、灵敏度高、动态性能好;对捕捉环境适应性高,不受光照、背景等外界环境干扰。而且使用方便,设备小巧轻便,便于佩戴,成本相对低廉。

    缺点是系统采用MEMS三轴陀螺仪、三轴加速度计和三轴磁力计组成的惯性测量单元(IMU,Inertial Measurement Unit)来测量传感器的运动参数。而由IMU所测得的传感器运动参数有严重噪声干扰,MEMS器件又存在明显的零偏和漂移。需要通过后期对数据的处理解决无法长时间地对人体姿态进行精确的跟踪。

    4 两种典型的动作捕捉系统实现原理浅析

    4.1 光学式动作捕捉

    光学式动作捕捉分为无标记式光学动作捕捉和标记式光学动作捕捉。

    无标记点式光学动作捕捉原理大致有三种,第一种是基于普通视频图像的运动捕捉,通过二维图像人形检测提取关节点在二维图像中的坐标,再根据多相机视觉三维测量计算关节的三维空间坐标。由于普通图像信息冗杂,这种计算通常鲁棒性较差,速度很慢,实时性不好,且关节缺乏定量信息参照,计算误差较大,这类技术目前多处于实验室研究阶段;第二种是基于主动热源照射分离前后景信息的红外相机图像的运动捕捉,即所谓的热能式动作捕捉,原理与第一种类似,只是经过热光源照射后,图像前景和背景分离使得人形检测速度大幅提升,提升了三维重建的鲁棒性和计算速率;第三种是三维深度信息的运动捕捉,系统基于结构光编码投射实时获取视场内物体的三维深度信息,根据三维形貌进行人形检测,提取关节运动轨迹。无标记点式光学动作捕捉技术普遍存在关节定位计算误差大、缺少骨骼自旋运动自由度、层级骨骼运动误差累积导致动作变形等问题。

    标记点式光学动作捕捉系统一般由光学标识点(Markers)、动作捕捉相机、信号传输设备以及数据处理工作站组成,人们常称的光学式动作捕捉系统通常是指这类标记点式动作捕捉系统。在运动物体关键部位(如人体的关节处等)粘贴Marker点,多个动作捕捉相机从不同角度实时探测Marker点,数据实时传输至数据处理工作站,根据三角测量原理精确额计算Marker点的空间坐标,再从生物运动学原理出发解算出骨骼的6自由度运动。

    根据标记点发光技术不同还分为主动式和被动式光学动作捕捉系统。主动式光学动作捕捉系统的Marker点由LED组成,LED粘贴于人体各个主要关节部位,LED之间通过线缆连接,由绑在人体表面的电源装置供电,可在一定程度上进行室外动作捕捉,LED受脉冲信号控制明暗,以此对LED进行时域编码识别,识别鲁棒性好,有较高的跟踪准确率;缺点是存在捕捉精度不够高,容易因遮挡引起数据缺失,受原理局限的运动变形导致不利于快速动作的捕捉等问题。

    被动式光学动作捕捉系统,也称反射式光学动作捕捉系统,其Marker点通常是一种高亮回归式反光球,粘贴于人体各主要关节部位,由动作捕捉镜头上发出的LED照射光经反光球反射至动捕相机,进行Marker的检测和空间定位。其主要优点是技术成熟,精度高、采样率高、动作捕捉准确,表演和使用灵活快捷,Marker点可以很低成本地随意增加和布置,适用范围很广;缺点是受视场内阳光干扰不适于室外应用,Marker点容易混淆需要在后处理中进行人工干预的数据清洗,工作量大。

    4.2 惯性式动作捕捉

    惯性式虽然后于光学式出现,但以其超低廉成本和简便成熟的处理流程,以及完全实时的数据计算和回传机制,成为了更加炙手可热的技术。

    惯性式动作捕捉中加速度计是用来检测传感器受到的加速度的大小和方向的,它通过测量组件在某个轴向的受力情况来得到结果,表现形式为轴向的加速度大小和方向(XYZ),但用来测量设备相对于地面的摆放姿势,则精确度不高,该缺陷可以通过陀螺仪得到补偿。

    陀螺仪的工作原理是通过测量三维坐标系内陀螺转子的垂直轴与设备之间的夹角,并计算角速度,通过夹角和角速度来判别物体在三维空间的运动状态。它的强项在于测量设备自身的旋转运动,但不能确定设备的方位。而又刚好磁力计可以弥补这一缺陷,它的强项在于定位设备的方位,可以测量出当前设备与东南西北四个方向上的夹角。

    在动作捕捉系统中,陀螺仪传感器用于处理旋转运动,加速计用来处理直线运动,磁力计用来处理方向。通俗易懂地讲——陀螺仪知道“我们是否转了身”,加速计知道“我们运动多长距离”,而磁力计则知道“我们的运动方向”。在动作捕捉系统中三种传感器充分利用各自的特长,来跟踪表演者的运动。

    为了解决惯性式动作捕捉系统无法长时间对人体姿态进行精确的跟踪,首先对IMU所测得的传感器运动数据做预处理,滤掉原始惯性数据中掺杂的噪声干扰;然后不断地进行标定和校准,即不断地对各惯性器件进行相应的补偿以解决MEMS器件的零偏和漂移,提高其数据的精确度和可靠程度。接下来在进行姿态解算,并利用姿态参考系统验证姿态角度数据的精确度,最终实现整个惯性式动作捕捉。

    另一种解决方法式则采用IK+(InverseKinematics)室内定位技术做主动作捕捉算法,使用惯性式动作捕捉做辅助算法。这套方案中利用室内定位技术对惯性式动作捕捉技术做实时校准,避免了不断校准的麻烦。

    在人体分层结构中,关节和骨骼实际构成了运动链,比如肩关节、肘关节、腕关节及其子骨骼就是一条运动链,是整个人体运动链上的一条分支,身体即是利用运动链对运动进行控制。运动分为正向运动和反向运动。已知链上各个关节旋转角,求各关节的位置信息和末端效应器(endeffector)的位置信息,这是正向运动学的问题;而己知末端效应器的位置信息,反求其祖先关节的旋转角和位置,这是就是反向运动学。

    反向运动学根据决定运动的几个主关节最终角度确定整个骨架的运动,通常用于环节物体,由不同运动约束的关节连接成环节构成的分级结构骨架。分级结构骨架由许多采用分级方式组的环节链构成,包括分级结构关节或链,运动约束和效应器,由效应器带动所有部分同时运动。但必须遵循特定的等级关系,以便在变换时阻止各个部件向不同方向散开。如:投球动作,只规定出球的起始位置、终了位置和路径,手臂等即跟随关节的转动可按反向运动学自动算出。反向运动学方法在一定程度上减轻了正向运动学方法的繁琐工作,是生成逼真关节运动的最好方法之一。

    如果己知末端效应器的位置信息,反求其祖先关节(也称父关节)的旋转角和位置,这是就是反向运动学。也就是我们通过室内定位技术,获取末端效应器的位置信息,然后利用IK算法推算出祖先关节的旋转角和位置,从而知道运动者的运动信息,再利用运动信息实现实时动作跟踪显示。

    这里所用的室内定位技术是激光定位技术,通过墙上的激光发射器扫描佩戴者佩戴的机身上的位置追踪传感器(即IK算法中的末端效应器),从而获得位置和方向信息。具体来说,这种室内定位技术是靠激光和光敏传感器来确定运动物体的位置。若干个激光发射器会被安置在对角,形成一个矩形区域,这个区域可以根据实际空间大小进行调整。每个激光发射器内设计有两个扫描模块,分别在水平和垂直方向轮流对定位空间发射横竖激光扫描定位空间。运动者身上有光敏传感器,通过光敏传感器接收到激光的时间计算出光敏传感器的准确位置[[6]]。

    通过激光室内定位技术获取传感器的精确位置后,即可利用IK算法反向推算出祖先关节的旋转角和位置,从而知道运动者的运动信息。但是由于激光定位过程中可能存在遮挡问题,比如下蹲、拥抱、扭打等动作。于是应用惯性传感器做补充跟踪,即当出现遮挡情况时, 室内定位技术+IK算法相结合的动作捕捉技术无法完全准确地实现,这个时候利用惯性式动作捕捉技术可做补充。反过来可以利用室内定位技术对惯性式动作捕捉技术做实时校准,不需要另行校准,从而解决遮挡问题的同时,也避免了惯性式动作捕捉无法长时间精确工作的弊端。

    5 结束语

    文章综述目前几大流行的动作捕捉技术并对其相关发展情况、实现方式和优缺点进行了比较分析,并着重的选择了目前专业捕捉最常使用的光学式捕捉和价格低廉的惯性式动作捕捉两套方案进行了实现原理上的分析。相信随着科技水平和相关领域的不断发展,动作捕捉技术会得到越来越深入的研究和越来越广泛的应用。

    参考文献

     

    [[1]] 黄波士,陈福民. 人体动作捕捉及运动控制的研究[J].计算机工程与应用, 2005,7.

    [[2]] 冯远淑,陈福民. 基于动作捕捉的计算机动画探讨与实现[J].同济大学学报(自然科学版),2004,9.

    [[3]] Menache A. Understanding Motion Capture for Computer Animation andvideo Games[M].Morgan Kaufmann,1990,10.

    [[4]] 殷  俊, 张  凯, 崔  晋, 郑  洁. 游戏动画中的动作捕捉[J].江苏大学学报(自然科学版),2006.

    [[5]] 苏惠童. 动作捕捉标记摆放方案基本原理及运用[J]. 影视技术, 2005,10.

    [[6]] 黄海明,刘金刚. 一种精确而快速的关节中心判定算法[J]. 系统仿真学报,2005.

    展开全文
  • HRTF音频3D定位技术

    千次阅读 2011-05-04 15:06:00
    HRTF音频3D定位技术  这篇文章,虽然有些老,但详细的阐述了3D定位技术的原理,国内这样的文章并不多,这也是国内音频研究最薄弱的地方,推荐仔细阅读。 1. 序:  实际上,不仅仅是我们的...

    HRTF音频3D定位技术

            这篇文章,虽然有些老,但详细的阐述了3D定位技术的原理,国内这样的文章并不多,这也是国内音频研究最薄弱的地方,推荐仔细阅读。

    1. 序:

            实际上,不仅仅是我们的眼睛可以分辨物体的三维定位,我们的耳朵也能做到。在我们的日常生活中,看和听相互弥补。因此,如果有一天被剥夺了视觉,听力会自告奋勇来弥补改善这个缺陷。尝试着闭上您的眼睛去感觉,您不觉得你的听力变得比以前更敏锐吗?

    人们开始研究3D图形有些年头了,因而所有的相关技术都发展成熟。再现现实和虚幻世界中的物体并不困难,然后在PC上再现。此时,人们不再满意仅仅是虚拟再现。人们现在关心的是:如何利用仿真科技于音频领域?换句话说,什么样的音频技术能帮助我们感受到三维效果?答案就是――HRTF(Head Related Transfer Function)。

    2. HRTF 3D定位音频和3D环绕的区别:

            1996年出现了一个新的术语,描述了PC音效卡的新功能――3D sound。根据要求,仅仅通过在音效卡电路中加入IC来实现。这种看上去如魔术般的效果,实际上是另外一种环绕声的表现,不是真正的3D音频效果表现。从本质上来说,这种技术利用的不过是一些简单的时延电路和滤波器。此外,它将左右声道混频。因此,人的大脑会感受到音场变的更开阔的效果。这使得人们非常方便的使用先进和专业的水平来编辑和编译CD音乐。不过,这种技术有其缺点。处理电路混合了从左声道和右声道传来的音源。就是说,原始的声源已经失真,这种失真是老鸟级的立体声爱好者所无法忍受的。

    标准的环绕声技术无法展示从上和下方传来的音源,也无法依靠软体在虚拟环境中随意定位声源,或者实时计算和比较3D游戏的声音关系。以严格的感受来评判,这种技术不能被称作3Dsound;最多只能算作2.5D,因为它仅相对改进了聆听扬声器的方位的局限。(见下图)

    标准立体声只能从扬声器的所在位置发出,因此它是固定的。

    环绕音频有一定的音场,如图所示,它更加开阔。

    当HRTF3D技术应用之后就有所改观了。HRTF使用人耳和人脑的频率振动预知来合成3D音效,通过高速DSP计算,HRTF可实时处理虚拟世界的音源。当声音晶片计算包含3D声音的波形时,通过耳机,人脑可感知到真实的定位感受,比如从前方/后方,上方/下方或者是三维空间内任意方位传来的声音。

    3. HRTF 3D定位音频技术

        要明白3D定位音频技术,首先必须明白人脑是如何使用耳朵来确定音源的位置的。让我们从人耳的结构开始说起:

    人耳可分成三个部分:耳廓,耳道和鼓膜。当声音被外耳察觉,会通过耳道传递到耳膜。在这个时候,鼓膜背部会转换机械能量为生物和电能量,然后通过神经系统传送到大脑。当我们出生后,我们大脑所有的神经原都记录有曾经验过的任何数据,这些神经原具有非常快的分辨不同内容声波的能力。它让一只耳朵分析声波内容,让两只耳朵分析声波的位置。这和人眼看东西一样,一只眼睛无法看出对象的多面性。

    尝试闭上您的一只眼,伸出您双手的食指。有意的拉开距离,然后慢慢的让您的左手食指去碰右手食指。

    您左手的食指碰到了右手的食指了吗?您认为您可以两指毫不困难的相触,但实际上您惊奇的发现它们却“擦肩”而过了!实际上,一只眼看不会妨碍判断眼前的是手指,但是这样看却是没有立体空间感的。现在,您可以睁开另一只眼,别累坏了。既然视觉能够分辨不同位置的对象,那么听觉也能做到。那么,问题来了:我们耳朵的哪个部分负责处理声源的定位?
    声音定位的基本原理:

    1) ITD(Inter Aural Time Delay)两耳时间延迟量差

    声波在空气中以每秒345米每秒的速度传播。我们假设两耳的距离为20厘米,声源在左边。无疑声波会首先到达左耳,580us(声波走过二十厘米所需的时间),声音会到达右耳。如果声源从我们正前方传来,那么声波会同时到达双耳。至于声源从其他角度发出,很容易通过三角函数得出结果。因此,人脑通过ITD可以毫不困难分辨不同的方位。

    (不同角度传来的声音到达聆听者双耳明显具有不同的时间差)

    2)IAD(Inter Aural Amplitude Difference)两耳音量大小差

    我们都会有这样的经验:如果声音被物体挡住,我们听到的声音音量会变小。想象一下,如果声音从我们的正左方传来,那么我们的左耳觉察到的声音保留了原始声音,而我们的右耳察觉到的声音的音量会减小,因为我们的头吸收了一部分音量。理论上说,可以对人耳听到从360度的空间中任意一点传来的振幅进行测量,其相对关系可以描绘成图。

    (人脑会吸收部分音量。当声源从不同的角度传来,其音量不同)


    声波的耳廓绕射效应和耳道频率振动:

    仅仅帮助我们的大脑分辨声源的方向的话,ITD和IAD就够了。但是,ITD和IAD不能描述声源从正前方和正后方传来的区别。在这样的情况下,两个数据值几乎是一样的。这种情况也会发生在当声源发声于我们的正头顶部和正脚下的时候。因此,只依靠ITD和IAD还不算很好。要解决这个问题,我们的耳廓扮演着关键的角色。

    声波遇到物体的时候会反弹。我们的耳朵是内空的卵圆型,因此,不同波长的声波相应的在外耳产生不同的效应。按照频率分析的观点,当不同的声源从不同的角度传来,它们肯定会在鼓膜上产生不同的频率振动。正是因为耳廓的存在,才造成了从前面和从后面传来的声音截然不同。

    鼓膜和耳廓之间是一段2厘米的通道,中空的结构造成的谐振会极大的增益5kHz的讯号,正好是人听觉的最敏感频段。因此,我们在别人耳边小声说话的时候必须很小心,因为这样说话我们的声音很可能被别人听到。

    现在我们进行另外一项试验。仅封住耳廓,用一串钥匙在你面前抖动,你会发现您分辨声音上下位置的能力严重削弱了。试着将耳廓贴紧头部,你又发现你辨别前后左右的感觉和以前大不相同了。不过,我们的大脑很聪明,所以仍然能够辨别前后左右。所以,上述所有的差异仍然能够通过依靠视觉和房间反射效应来改善。这是心理学上的“听音辨位”。比如,当我们听到直升飞机的轰鸣,我们会抬头寻找音源。因此补上心理预测之后,就最终形成了整个声音定位的所有要点。

    反射和吸收:

    房间或者环境反射效应也是重要的参数。反射物体有其特有的声波吸收系数,如,瓦砖和木夹板就有不同的反射值。闭上眼睛您会毫不困难的分辨您是在浴室还是在日本式的卧室里,不是吗?

    所以,如果我们想测量3D定位音频效应,最好考虑到所有的因素,如房间的大小,形状和建筑材料。以此增强声音的表现质量。

    声源的心理预测:

    其他因素如侧反射波,心理预测声源(比如,我们知道飞机在天上轰鸣,蟋蟀在草丛里歌唱)也是告诉我们声音方位的有用因素。

    总结起来,我们有三个主要的因素:ITD、IAD和耳廓频率振动。

    这三个元素是HRTF――头部相关传输函数的参数。其他元素如室内反射和吸收可通过音频物理学处理。

    [LiuPin 补充]

    /********************************************************************/

    HRTF is a series of algorithms utilized to synthesize simulated binaural(stereo) signals from a monaural source.

    HRTF algorithms achieve this by manipulating four variables in the sound:

    • Distance (Near/Far)
    • Azimuth (Left/Right)
    • Elevation (Up/Down)
    • Frequency

    /*********************************************************************/

    如何测量获得HRTF库?

    在了解声音的三个元素之后(ITD,IAD和耳廓效应),我们面临的问题是:如何测量获得HRTF库?

    首先我们提出一个设想,在人耳里放置一个麦克风,认为HRTF参数可通过这个方法进行测量。但是通过耳道的频率振动会有损失,如果把麦克风放在外耳,测量的参数就不够准确。因此,人为制造人头模型是解决这个问题最佳方案。

    实际上,按照测量HRTF库的要求,人造耳朵的形状更为重要。有些研究机构使用塑料来做耳朵模子,更高级的使用CAD/CNC来重建电脑模拟耳朵模型,使其更适合人造头。在人造头里放入高品质的麦克风,就可以进行测量工作了。这类科技由英国中心研究实验室开发,称作“Digital Ear”。Digital Ear可帮助研究人员测量非常精确的HRTF参数,远比其他可用的商业解决方案要好。

    下图是从正水平前方测得的声波图。从理论上说,正前方声源,频率振动对两耳的效应相同。就是说,红色和蓝色的曲线应该非常接近,甚至是重合。很显然,CRL的Digital Ear能获得比其他技术更精确的测量频率的振动。

    第三方的HRTF曲线

                   由Digital Ear生成的HRTF曲线

    在拥有了人造头之后,下一步开始进行测量工作。测量必须在回声环境中,虽然回声会增加从收集的数据中提取声音特征的难度。封闭的房间是合适的测量环境。在封闭的房间内放置人造头模型,在房间的四周、天花板和地板铺满锥形海绵,在房间内放入可在三维环境中任意移动的声源,就可以开始测量工作了。一般来说,一套完整的测量参数,包括后期的调整,需要数月的时间来完成。

    当在三维空间内,从不同的位置录制了20Hz到20kHz波段的不同类型声波的时候,完整的HRTF原始数据就形成了。原始数据通过精确计算的EQ数学公式生成HRTF参数(因为测量装置可能不一定能够达到要求),得到我们想要的――HRTF库。通常,测量工作采用最高质量的采样,48kHz。为了适合硬体成本要求,也使用44.1kHz和22kHz。这并不是说选择的频率越高,质量就越高。但是,更高的频率需要更高的数字滤波器。因此,根据成本和质量的关系,权衡首选的频率。


    如何通过HRTF库合成3D定位音效?

     

    HRTF合成仿真电路可分为两个主要部分:数字滤波器和时延

    1、应用程式首先发送经过优选的合成坐标给HRTF,找到适当的参数,然后他会返回参数给数字滤波器。左右声道的滤波器会计算人容易听到的频率曲线――IAD degree和此频率的耳廓效应合成。

    2、当模拟了频率段的3D特性之后,剩下的事情就只有ITD了。相比数字滤波,合成ITD就显得容易的多:只需按照数字延迟电路来重建大概的估计时延,ITD就成功了。

    3、其他的比如反射的时延,墙壁吸收效应,场效应和多普勒效应可通过应用程式接口实现。

    声波直接通过鼓膜传到内耳,就是虚拟的3D音频效应,可以欺骗人脑了。如何传输呢?当然是通过耳机了。一对频响出色的耳机是最合适的装置了;walkman使用的耳塞也能获得很好的效果。不要考虑花费时间和精力在购买低性能的耳机上了,牺牲3D功能,效果会受到破坏性的削弱。

    根据3D音频的收听理论,用两个扬声器代替耳机可行吗?

    在炎热的夏天,戴着耳机玩游戏不是件惬意的事情。能够有方案解决这个问题吗?比如,可以用两个扬声器代替耳机吗?答案是:在某些环境下是可以的。

    对于听音,使用扬声器最大的问题就是串话干扰:我们如何用左耳只听从左边的扬声器传出来的声音,用右耳只听从右边的扬声器发出的声音而相互不干扰?下图显示,双耳会明确的听到从两个喇叭发出来的声音。而且,如果聆听者来回走动,干扰会变的更严重。


     

    不过,如果聆听者站在两扬声器的中间,位于等边三角形的顶点,如下图,则不会有干扰。就是说,我们可以同时发送已计算的抵消讯号到聆听者的耳朵来抵消串音干扰,这样的电路因此被叫做串音抵消。

    安全的串音干扰抵消公式可保证在频率段内的声质顺滑流畅,低音不会变形失真。必须十分注意:

    l 当使用两个扬声器,必须使用串话抵消回路抵消不必要的讯号A。l 聆听者必须坐在扬声器的焦点位(皇帝位)来抵消讯号A。


    焦点位的局限是什么?有办法消除这些局限吗?

    在实际应用中,串话抵消的局限包括:聆听者必须坐成和两扬声器呈三角形,人所在的位置就是我们所知道的焦点(sweet spot)。同时,聆听者不能随意转动脑袋,否则ITD会变得不够精确。此外,扬声器的摆放也非常重要:扬声器必须有和聆听者耳朵相等的高度,不能在聆听者近前或者近后有反射材料,比如隔板和墙等等,否则反射的声波会干扰大脑的方位辨别能力。当然,扬声器的质量也非常重要。有频率失真和左右声道分离模糊的的扬声器就不要考虑用于3D听音了。

    因此,如果没有严格的准备,对于大众来说享受完美的3D音效是非常困难的。即使是花费大量的资金购买所有必须的装置,还是有一个最大的局限:聆听者不能转动脑袋或者离开焦点位置。

    有问题出现,就会有解决方案。当聆听者在焦点处徘徊,人脑只能分辨左/右区别,无法察觉前/后的方位变化,因此,只要有增强前/后差别的方法,就可以弥补回来。最简单的方法就是增加一对环绕扬声器。就是说,当声音晶片对环绕声进行处理时,它发送经过计算的环绕声数据到环绕扬声器。换句话说,让前置扬声器处理前置的数据,让环绕扬声器处理环绕的数据。在这种架构下,焦点比以前更宽,允许聆听者合理的转动头部。同时,具有一般多媒体音效的扬声器可充分补充环绕的特性。C-Media的CMI-8338/C3DX

    PCI单晶片提供4声道综合回放功能,因此在没有增加预算的情况下,也可以通过此类声音晶片达到清晰的3D音效。

    HRTF3D定位音频的应用

    毋庸置疑,最优秀的HRTF 3D定位音频应用是用于pcgame。因此,数以百计的游戏支援3D定位音效。

    除了游戏之外,HRTF 3D也应用于DVD。DVD提供6声道输出功率,当HRTF 3D定位应用后,聆听者可以得到非常类似于在影院才能得到的效果。

    家庭影院THX:使用3D定位音频后,只要使用两个喇叭就可以产生环绕音效,其他三个扬声器已由虚拟扬声器取代。

    EMI唱片公司,利用CRL的3D定位音频技术制作了很多录音,给大家带来很多特别的听觉体验:当聆听这些录音,聆听者可感觉自己站在指挥的位置,在听一场盛大的管弦乐。此外,EMI也有让歌手围着听众随意走动的设计

    在日本的一个大娱乐公园有座“鬼屋”,也在其娱乐设计中应用了3D音频定位技术。戴着耳机进入一间黑房子,游客可听到鬼在到处飘,甚至地板跟着声音转动,使得效果非常的令人惊骇。

    美国NASA使用3D定位科技来增强飞行模拟的效果,宇航员可更好的为各种可能的情况作准备。将来宇航员在太空执行相同的任务的时候可以轻松完成。

    来自台湾的主流3D定位音频源代码和其成果:CRL 3D音频

    CRL(Central Research Laboratories),UK是英国EMI唱片公司的子公司,有68年的历史了。CRL因其长期领导科技前沿而闻名:发明了著名的CAT扫频仪,获得诺贝尔奖金。为了开辟音乐产品的新记元,CRL花费6~7年时间研究3D定位音频科技,至1995年,技术成熟起来了。在那时,台湾经济事务部门、台北计算机协会、资讯工业学会(III)举办了第一届科技转化为工程赞助会。在这个工程中,出现了一个被称作“3D sound”的子学科类别,具备潜能的科技转换到两个公司:Crystal River(即后来的Aureal)和CRL。CRL因其卓越的音频科技和完整的科技转化计划而发展壮大,公司也因此受到相关政府,学院和学会的关注。

    在那时,一共有三个研究学会:III、C-Media和Mitac,他们各自带领其种子工程师到英国接受半个月的训练,这个训练有助于建立扎实的基础,使台湾能够开发出高阶音频晶片。一年以后(1996年),台北Computex的技术转化企业工程的展览会上,C-Media在众人的焦点之下成功的放出其第一代3D定位音频晶片。在那个时期,日本Yamaha公司决定拥有相同的音频技术。1997年,声音晶片制造商ESS在选择Qsound 3D作为低段产品的引擎后,也选择CRL 3D作为其高阶3D音频产品的引擎。

    CRL利用数字耳技术作为3D音频研究的基础;同时,为了完善音频科技,CRL也同一些高保真录音公司合作,确保CRL 3D音频科技符合音乐工业的严格的质量要求。也正因如此,CRL证明了其3D音频科技在专业音频领域的领先地位。

     

    3D定位音频功能已经变成选择下一代PCI声音晶片时必须考虑的因素了。在了解了HRTF 3D定位音频技术后,我们对其有了一个清晰直观的认识,从而有分辨HRTF库的好坏的能力。在主机板集成声音晶片成为PC工业的主流。更可喜的是,性价比实质性的提高了不少。尽管大牌公司提供高性能的声音晶片,台湾人的设计室设计的声音晶片也展示出其竞争力,比如4声道的3D定位音频,数字立体声接口SPDIF

    IN/OUT和DLS(动态加载的音色库)音乐和成器等等。

    转自:

    http://www.hifidiy.net/index.php?action-viewnews-itemid-1099

    展开全文
  • 该方法将被动声定位技术用于目标初定位,结合目标图像动静态特征和目标声源特征用于目标的特征提取和自动识别,根据视频跟踪和轨迹预测算法,得出期望的目标误差信号控制伺服机构进行精确跟踪。实验结果表明该算法...
  • 游戏中的现代音频技术综述

    千次阅读 2012-09-09 19:32:16
     现在让我们看看3D 音效是如何产生的,我们首先要从2D Panning(定位) 开始讲起(目前这项技术仍然在ID Software 的Doom中被使用)。在这项技术中,每个单声道的音源都被当作立体声来运行,并且它们左-右声道的...

    http://blog.csdn.net/csdn_gamedev/article/details/336216

     

     

    3D Sound vs Surround Sound

       在游戏开发中,声音(Sound)的地位并不如图象那么重要。游戏开发者们会发费大部分的时间来增加3D图形的新功能和特效;但是,想要说服他们花更多的时间和金钱,来开发具有高质量音频效果的游戏可以说是非常的困难。同时,在硬件方面,玩家们也更乐意购买最新款式的3D图象加速卡,而对新的声卡似乎也并不是那么感冒。

        然而,随着显示卡的发展正在呈现出顶峰的状态,玩家对游戏也表现出越来越挑剔的姿态,认为优秀的游戏除了具有赏心阅目的图象和绚丽的特效外,音效也是不可缺少的,所以现在的形势似乎有急转的趋势 - 用户和开发者比以往任何时候都专著于音频系统的效果。在现代的游戏开发计划中,声音效果占据了40 %的预算,时间和人力。

        音效芯片制造商和3D音效的开发者们在竭力使用户和应用程序的开发者们相信:良好的3D音效将是现代多媒体电脑的主要组成部分。

        以前的音效是立体的,这是非常模糊的说法;在引如了3D Sound之后,我们全面进入了多通道音频效果的新纪元:4.1,5.1,和7.1通道。

        现在让我们走近3D音效,看它与多通道解决方案的雷同和区别。



    图1:3D 音效的概念

       3D 音效的概念是对听众周围3D空间的音源进行精确的定位。在虚拟游戏世界里,每个能够发出声音的物体都代表了1个音源。

       我们这里以Action发布的典型第一人称射击游戏"Vivisector:Beast Inside"(活体解剖者:人面兽心)为例深入浅出地解释本文中的问题。上面的图象里有观众和音源,其中有些音源是立体声的(例如背景音乐;在这个特别的游戏里,风和丛林的沙沙声都将是主要的环境(噪)声);怪物有8个音源;玩家的射击,脚步等作为1个音源;还有3个环境的音源(昆虫,小鸟等等)。

       为了在场景里获得更加逼真的音效,虚拟世界的3D 音效都被进行了深度的处理:模拟或者夸大现实世界的声音,这里使用到了各种各样的音频处理技术,例如:混响,反射,闭塞,阻碍物,远方传来的声音(音源与听众的距离).....等等。

       3D 音频技术:定位

       每个人能够感知到的声音都是不同的(这依赖于耳朵的形状,年龄和心理状态),因此在1项3D技术里关于不同的声卡或者处理效果不可能只有1个质量的选项。声音是否能够真实地再现,则主要依赖于声卡和扬声器,还有游戏中采用的音效处理引擎。


    图2:3D空间

       现在让我们看看3D 音效是如何产生的,我们首先要从2D Panning(定位) 开始讲起(目前这项技术仍然在ID Software 的Doom中被使用)。在这项技术中,每个单声道的音源都被当作立体声来运行,并且它们左-右声道的音量水平能够互相对调。这样虽然系统里没有垂直的定位,但它还是能够改变声音的效果(例如,进行高频的过滤),所以当声音从听众后面发出来的时候,他能够听到压抑的声音。

        现在硬件已经能够实现这种效果了。声卡能够使用HRTF(头部相关传输函数)技术在两个扬声器或者耳机中模拟音源的位置;通过过滤或者其它转换来模拟人类的听觉。  

        HRTF(头部相关传输函数)- 使用两个耳朵决定音源在空间位置中传输的函数。在声音的传递过程中,我们的头和身体实际成了改变声音的障碍物,我们的耳朵藏在音源的后面,能够感知到声音信号的改变;接着声音信号会进入我们的脑子,并被解码来决定音源在空间中正确的位置。


    图3:HRTF(头部相关传输函数)

        在上图的你可以看到从左耳到右耳各有不同的3个HRTF(头部相关传输函数):音源定位,135度数和36度数。而这些数据的所有处理过程基本上都是一致的,通常的做法是在特殊的耳麦下使用特殊的方法把这些数据记录起来。Sensaura ,在平滑的法则下((例如,在2500 Hz的峰值,和5000 Hz的低谷下使用间隔)利用人工合成HRTF,而其它的公司通常都使用平均的HRTF。

        上面的HRTF系统由两个FIR 滤镜组成,而HRTF就是它们的传输函数。既然HRTF具有智能,那么我们储存容量巨大的HRTF似乎就显得浪费了,因为真实音源的定位能够通过HRTF插补来实现。 

        逐渐没落的HRTF

    1. 声音会发生严重的扭曲

    2. 处理的进程非常慢

    3. 如果音源是固定的,那么它们的位置将不能够精确地定位, 因为人的脑子需要移动的音源(音源的移动或者在听众脑海的移动)才能够知道音源在几何空间的精确定位。

       人们突然其来地向音源转过头去,这是常有的事情;而就在头转过去的一瞬间,脑海里就能够知道声音在空间的确切位置。在前后的HRTF函数之间,如果音源没有产生特殊的频率,那么脑海就会忽略这样的声音;相反,它会把这样的数据与记忆中的数据进行对比,并定位音源在空间中的位置。

      4. 耳机能够获得最理想的音频效果。耳机能够很好地解决把声音的信号从1个耳朵输送另外1个耳朵的问题。然而,大部分人并不是很喜欢耳机,即使是无线的型号。

       此外,玩家带上耳机之后,会使声音听起来更近一点,这个问题还有待解决。


    图4:最佳听音位置和
    串话干扰

       音响学的发展可以避免耳机出现的这些问题,然而新的难题又出现了:首先,不明确怎么使用扬声器生成立体声的声音。例如,在HRTF传输之后,怎么让声音信号的一部分在两个耳朵之间互相输送呢?当我们使用扬声器而不是耳机之后,两个耳朵就会获得相同的声音,这里解决该问题的办法就是串话干扰(crosstalk cancellation (CC))。

      在 最佳听音位置(sweet spots)听众能够理想地听到所有的3D音频效果,而在其它的区域声音会发生失真。这样我们在倾听声音的时候就就需要选择正确的位置。 对于一对音箱来说,有一个平衡、声带、细节、立体感最好的听音位置,称作Sweet Spot。录音和制作的时候始终在这一点对监听具有重要的意义。Sweet Spot通常位于一对立体声音箱中间,前方数英尺的地方。许多专家认为从高音头的上方到听音者的鼻尖构成一个虚幻的等边三角形,就是Sweet Spot的所在。因为受到许多客观条件的影响,这个位置可能有一些偏移,例如调音台面板的反射就会有影响,音箱的差异也会影响到Sweet Spot,一些音箱具有较宽大的最佳位置。准确的实际位置通常要经过连续的试听和调整来确定。Sweet Spot的范围越广阔,效果就越佳,这也是为什么开发者们在努力寻找能够扩展Sweet Spot覆盖范围的方法。



    图5:多扬声器的配置

      在多扬声器系统(4.1,5.1)里,声音从听众周围的扬声器里分布式的传出来;声音从不同的扬声器系统里传出来,听众就能够定位音源的所在了。

      在规则来说,使用Panning就足够了,i.e.所有的扬声器同步地播放数个流(根据扬声器的数量),但是却在不同的音量水平 - 因此效果就产生了。例如,杜比数字(Dolby Digital)在5.1和7.1配置分别利用6和8个音频流。

       Sensaura MultiDrive, Creative(创新) CMSS(Creative 创新多音箱环绕)技术,能够使用4个或者更多的扬声器重现使用HRTF 函数的声音。

       Sensaura MultiDrive3D音效技术基本上都必须至少透过4声道以上喇叭来表现3D音效的定位临场感,而每一只喇叭所输出的音效内容都是不一样的。Creative 多音箱环绕(CMSS)技术可将任意的单声道或立体声音源处理为 360 度的音效。

       扬声器的每部分有前后两个半球。既然声场是基于HRTF函数,那么sweet spot允许听众每边的音源和前后轴的音源定位具有最佳的感知觉。随着覆盖角落的拓宽,Sweet Spot的空间也会变得足够大。

       没有串话干扰(crosstalk cancellation (CC)),音源的定位是不可能的。既然HRTF在MultiDrive技术上主要是用于4个以上的扬声器,那么在所有的4个扬声器上应用CC运算法则就显得非常必要了,但这需要音频处理芯片有非常强大的计算能力。

       在使用了HRTF之后,后置的扬声器也能够如前置的扬声器般获得精确的定位。前置的扬声器通常放在显示器的附近,重低音的单元则可以放在中心的地板上,而后置的扬声器可以放在听众喜欢的任何地方,但我相信没有人会把它放在身后吧。

       要记住,HRTF和CC用在4个扬声器系统的时候会需要非常强大的计算能力,所以厂家们想出了很多的应对方法。例如傲锐(Aureal,已经被创新给收购了)在后置扬声器上使用了Panning算法,因为对后置扬声器的定位并没有那么严格。

       NVIDIA在3D 音响上使用了Dolby Digital 5.1。在定位的时候,整个音频流会解码为AC-3格式,接着会以数字的格式输送到外部的解码器(例如,家庭影院)。

       最小/大 距离,空气效果,Macro FX(Min/Max Distance, Air Effects, Macro FX)


    图6:距离模式

        声音引擎的主要特点之一就是它的距离效果,音源的距离越远,声音就显得越安静。其中采取最简单的办法是在远距离的时候降低音量级;在声音开始淡出的时候,声音效果的设计师必须分配给它一个最少的距离。当声音在该距离范围之内,它仅改变方位;每当他穿越1米的距离,声音的强度将降低6 dB。在最远的距离之前,声音会一直减弱,而在最后声音会因为距离太远而听不见。在声音接近1个音量级的时候,引擎会把声音关掉以释放资源。最大的距离越远,听到声音的消逝也会越持久。

        在大多数情况下,音量级是有对数相关性的。设计师能够鉴别较大的声音和安静的声音,音源也可以被区分为最小和最大的距离。例如,蚊子的声音在50cm之外就听不见了,而飞机引擎的声音在几公里之外还是能够清晰的听见。

         A3D EAX HF Rolloff

        A3D API 通过模块化高频率的衰减开扩展DirectSound3D的距离 - 与真实世界的相同,高频部分会依据相应的法则被大气吸收 - 每米大概0.05dB(选择的频率:默认为5000 Hz)。但在迷雾的天气,空因为气会更加厚,高频的衰减就会更加快。EAX3 允许处理低阶的模块化空气效果:这里分配了两个参考频率 - 低频和高频,它们的效果要依据环境的参数。

         MacroFX

        大部分HRTF的测量都是在远声场里执行的,这样能够简化计算,但如果音源是在1米之内(在附近的区域),HRTF将不能够充分地工作。这时候就出现了MacroFX,MacroFX 技术是用于重现接近区域发出的声音。MacroFX 算法适用于在接近区域的声音,而声音被定位为与听众似乎非常近,好象声音是从扬声器向听众传去,甚至穿透 他/她的耳朵。效果基于在听众周围所有空间声波传输的精确模块化,数据的传输使用了高效率的算法。

        该算法整合到了Sensaura引擎,并且在DirectSound3D 操控之下,i.e. 它对应用程序的开发者是透明的,能够利用它开发出大量新的特效。

       例如,在飞行模拟程序中,作为飞行员的听众能够听到空中交通控制员的对话,就像他戴了耳机一样。

        多普勒,大型音源效果(ZOOM FX),多听众(Doppler, Volumetric Sound Sources (ZOOM FX),  Multiple Listeners)

       多普勒效应(Doppler effect):传输系统中因源与观察点间的有效传播距离,会随时间的改变,而引起观察到的波频率有所改变的现象。赛车或者飞行游戏将能够从Doppler effect 获益良多,而在射击中,它能够用在喧闹,激光或者等离子射击时候的声音效果,i.e.任何移动非常快的目标。

        大型音源效果

       大型音源(volumetric sources)效果让设计师们可以创造出大型的发声源,你可以这么想:一个人在跑步、或是一把小型武器开火的声音都算是非常小的声源;但如果是一群正在欢呼的人,一台巨大的发电机,或是一条往来频繁的高速道路,他们所发出的声音都是属与大范围的区域。更大和合成的音源与最佳音源相比能够获得更加逼真的效果。

       最佳音源能够很好地应用到宽大但是却在远方的物体,例如,移动的汽车。在现实生活中,当汽车接近的时候,听众的位置将不会再是最佳的音源位置。然而,DS3D模式的算法会认为它是最佳的音源,图画就没有那么逼真(i.e.它看起来像是1辆小的火车在接近而非是巨大的火车)。

       Aureal 首个在它的A3D API 3.0里应用到了大型音源;接着是Sensaura 在它的ZoomFX加入了对大型音源的支持。ZoomFX技术把几个音源定义为一块很大的对象(假设火车合成的音源能够由车轮,引擎,耦合的车厢等组成)。

      

    图8:多听众

        多听众(Multiple Listeners)是供游戏控制台(PlayStation 2,Xbox,GameCube)支持两个或更多玩家使用的新技术。例如在TV控制器的PS2游戏"GT赛车3"(Polyphony Digital Inc.)能够支持多个玩家,两个玩家都是在不同的电脑和游戏中的不同区域;因此,他们必须仅听到围绕在附近的声音。无疑,他们能够听到互相发出的声音,但这项技术简化了实现过程。不幸的是,目前还没有任何的硬件API支持多听众。这项技术也仅是使用在商业的声音API - FMOD中。等一下我们会说明它的细节。

    3D 音响技术:声波追踪 VS 缠绕(wavetracing vs reverb)



    图9:多种音效技术

        在1997-1998年,每个芯片制造商都加大力度开发它们认为有前途的音频技术。Aureal,当时业界的领先者,将赌注放在极限真实的游戏上,它采用的技术为"声波追踪"(Wavetracing)。Creative 则认为使用缠绕的预前运算会更有更好的效果,于是它便开发了EAX。Creative 在1997年收购了Ensoniq / EMU:专门研究开发和制造音效芯片的公司 - 这也是为什么它在当时拥有缠绕技术的原因。Sensaura 出现在市场的时候,它使用了EAX作为基础,命名为EnvironmentFX版本的技术实际上就是:MultiDrive, ZoomFX 和MacroFX。NVIDIA是最迟进入该领域的厂家 - 它为3D 声音的定位实现了唯一的真实的Dolby Digital 5.1解码。

       声波追踪 (Wavetracing)


    图10:声音路径/声波追踪

       为了把音效完全融合到游戏里面,必须要计算出声环境和它与音源的交互作用。随着声音的传播,声波与环境具有干涉的作用。声波能够以几种不同的途径传输到听众的耳朵:

    • 直接通道(direct path)

    • 1st 次序反射(1st order reflection)

    • 2nd 次序或者晚期反射(2nd order or late reflection)

    • 封闭(occlusion)

      Aureal 的声波追踪算法通过分析3D空间的几何描述,然后决定声波在实时模式传输的方法,接着它们会被反射,抑或通过3D环境的无源物体。

      几何引擎在A3D的接口程序来说是非常独特的机制,它能够模块化声音的反射和穿越障碍物。它从几何的水平上来处理数据:线,三角形和四边形(声频几何)。 

       声频多边形有它自己的位置,大小,形状和制造材料的属性。它的形状位置与音源紧密相关,听众能够感觉到每个独立的声音是被反射、穿越或者围绕着多边形。材料的属性则能够决定传输的声音声是被整个吸收或者被反射了。

       图象几何结构的数据库能够通过转换器,在游戏水平被装载的时候把所有的图形多边转换为声频多边形。  全局反射或者封闭的值可以通过设置参数进行修改。另外,它还可以在高级模式处理多边型转换算法,和以独立的卡文件形式把音频几何数据库给储存起来,然后在游戏装载的时候进行文件的交换。

       最后,声音就能够获得更加正式的效果:混合的3D声音,经过声学设计的房间和环境,声音信号能够在听众的耳朵里精确再现。Aureal实现的环境模式并不是太理想,即使是Creative 最新版本的EAX也是如此。

       无论如何“声波追踪”技术所分配的用于计算反射的硬件流是非常有限的。这就是为什么说获得真实的声音效果还有很长的路要走。例如,目前它对迟反射的处理能力不足,就更不要说图形化声音的处理了。另外,声波追踪技术不够敏捷;并且实现的时候需要巨大的资源开支。这也是为什么你不能够对EAX技术的纹理渲染置之不理了。3D图形目前还没有使用到基于光线追踪方法来实现实时的渲染。

        封闭

        现在让我们来研究封闭效果。在原理上来说,它可以通过调低音量来实现,但更加实际的实现办法是使用低通过(low-pass)的过滤。


    图11:封闭

      在大部分情况下,1种类型的封闭(occlusion)就已经足够了 - 音源被定位为在看不见的障碍物后面。直接通路被遮挡住了,过滤的度数要依据几何的参数(厚度)和墙壁的制造材料。既然音源和和听众之间没有直接的接触,音源的回波也根据同样的原则被压抑了。

     

    图12:障碍

       Creative的API开发者使用了更加可行的概念,使用意味着直接通路被包住的障碍物 - 和听众没有直接的接触,但源和听众是在相同的房间内;接着,反射会以相同的形式传输到听众的耳里。

      

    图12:排斥

       使用得最多的是排斥。源和听众在不同的房间,但他们有直接的接触,直接的声音可以传到听众,但反射的声音会发生失真(依据材料的厚度,形状和属性)。

        总之,无论效果怎么的真实(使用Aureal A3D,Creative Labs EAX 或者手动选择你自己的音擎),都必须跟踪几何(完全或者部分声音)以找出是否与音源有直接的接触。这对性能有莫大的关联,这也是为什么在大多数情况下要为声音搭建最简单的几何空间(为了能够获得更加逼真的效果,特别是射击,3D RPG或者其它类似的游戏)。幸运的是,该类型的几何通常要经过处理,以找出碰撞 - 为了不在玩家的房间内跟踪整个路径。这就是为什么我们能够使用相同的几何结构来表现出更多的声音细节。

        环境渐变(Environments morphing)


    图13:环境渐变

       Creative Lab的另外一个解决办法是在2001年发布的EAX3。这是一个环境到另外一个环境的逐步转换参数的算法。上面的图片论证了两个效果的实现。

    • 首先进行的是位置转换:混响(reverb)参数会根据玩家在两个环境位置的绝对不同参数而逐渐地改变(在该情况下,户外的空间和户内的空间隔着金属的墙)。随着玩家与户外的更加临近,户外的回响参数就能够工作得更加有效率,反之亦然。

    • 接下来的类型是极限变化:当玩家穿越边界(BORDER)=1的区域,参数会自动地进行改变。

        环境渐变是与回响相关的最重要函数。但是目前在对已经预先设置的参数进行修改的时候会有点问题。即使没有使用到逐渐过渡,你也能够通过设置渐变因素等于0.5而使用这些函数形成一定的平均环境(例如,我们在户外的石头走廊),这样我们就能够得到不同声场的平均效果。

        在环境渐变被开发出来之前,游戏(例如游戏"食肉动物2"/Carnivores 2)的效果并不能够通过使用不同的参数进行逐渐地(它们在EAX1和EAX2已经预先设定好了)改变。中间的环境有25个预先设定的变量组成。例如,有岩洞渐变到山谷的设定;而在听的过程中会选择石走廊作为中间的参数。现在有了环境渐变,你就可以避免很多纷繁复杂的处理工作了。

    接口程序和API(Interfaces 和 API)

      

    图14:各种流行的API技术

        现在让我们讨论音频引擎中API编程的应用。可供选择的选项并不多:Windows Multimedia, Direct Sound, OpenAL, Aureal A3D。

        不幸的是,Aureal A3D 的驱动仍旧臭虫(bug)连篇,在目前最流行的Windows 2000和XP操作系统,它工作效率的稳定性仍然非常差。

       视窗媒体系统(Windows Multimedia system)是从早期的Windows 3.1继承而来的最基本的声音再现系统。它较大的缓冲会造成比较大的延迟,所以在游戏中很少有应用;但是,某些准职业声卡使用的WinMM为WDM驱动作了特别的优化。 

       OpenAL是Loki Entertaiment公司的跨平台API解决方案,与OpenGL类似。它被Creative推动作为Direct Sound可供选择之一。该主意是很好的,但现实却是残酷的,因为它的效果比较差。此外,Loki Entertaiment在最近已经宣布了破产。我们希望新的可供选择的声音API尽快出现,因为OpenAL对程序员们来说是简直就是恶梦。然而,NVIDIA在最近发布了它nForce 芯片组里支持的OpenAL硬件驱动,效果让人好到不相信。

       Direct Sound 和 Direct Sound 3D 是目前最优秀的API。它们现在还没有势均力敌的对手,它有点自命不凡;毕竟,它能够在没有任何辅助的前提下,能够真实地重现声音的效果。

       这些硬件API(拥有硬件驱动程序的API,而非通过DirectSound或者WinMM来模拟声音的再现),它们被称为包装(使用准备好的软-硬接口程序,来创建它们自己的应用程序接口)。

       作为规则,每个游戏都有它自己打包好的应用程序接口。目前有很多这类型的API组件包(它们没有真正的硬件支持):Miles Sound System, RenderWare Audio, GameCoda, FMOD, Galaxy, BASS, SEAL。

       MilesSS是其中最著名之一 - 2700种游戏完全使用了该组件包。 它获得了Intel RSX技术的许可,现在能够作为软件3D Sound的可选选项择之一。该技术有很多可供选择的功能,但这不足以弥补它的缺陷:它仅能够应用在Win32和Mac平台,并且需要极昂贵的授权费用。

       Galaxy Audio原被开发为用于虚幻,现在它使用在所有基于虚幻引擎的游戏上;但Unreal 2却是基于OpenAL,这就是为什么我们可以认为Galaxy已经死了的原因。

        Game coda和RenderWare Audio 分别来自Sensaura 和Renderware,它们具有几乎相同的大小,都支持PC,PS2,GameCube,XBOX还有其它很多的特性,但它的授权费用也是非常的昂贵。

       FMOD,最近引入的技术,它具有广泛的功能选择和对API技术的完美支持,它占据了目前的领导地位。

       EAX(环境音效果扩展)

       EAX全名为Environmental Audio Extension,这是创新公司在推出SB Live声卡时所推出的API插槽标准,主要是针对一些特定环境,如音乐厅、走廊、房间、洞窟等,作成声音效果器,当电脑需要特殊音效时,可以透过DirectX和驱动程序让声卡处理,可以展现出不同声音在不同环境下的反应,并且通过多件式音箱的方式,达到立体的声音效果。EAX在刚推出时为1.0版,目前是4.0版,目前许多游戏都支持此项规格。

      EAX Advanced HD  (高品质音频及3D音频技术)

       在2001年,Creative宣布了Audigy声卡和新的称为EAX Advanced HD的EAX函数。它包括听众可以精确进行调整的25个参数和18个用于源的参数(其中两个用于新的封闭效果)。

     

    图15:EAX Advanced HD 模式

       ● 用户可选的设置,可针对耳机、2、4 或 5.1 音箱系统及外接A/V功放系统进行优化
       ● Dolby 数码音频解码以模拟或数字模式输出至5.1音箱
       ● 可升级的 3D 音频架构
       ● 游戏中硬件加速EAX ADVANCED HD 
       ● Creative 多音箱环绕 (CMSS) 技术可将任意的单声道或立体声音源处理为 360 度的音效 
       ● EAX预置效果-用户可选、模拟声学环境的 DSP 模式
       ● 高级的时间缩放技术在不改变声音频率的情况下调节曲目播放的速度
       ● 音频去噪功能去除录音磁带的背景噪声及CD光盘爆音


    图16:

        这些效果并不是典型的真实效果。它们用于创建情绪的波动,例如,如果你感到晕眩,兴奋等等。我们还有可以调制的深度(0....1)和调制的时间(0.4....4秒)。

          EAX4 (EAX Advanced HD 版本4)

       2003年3月,Creative 发布了EAX Advanced HD 版本 4,预计将在4月份底或者5月初开始开始正式提供。可惜的是,Creative 并没有对它的技术细节进行详细的描述。EAX3与EAX4的区别也只是概念上的。

       EAX Advanced HD 版本4具有以下的新元素:

    • 工作室质量效果(Studio quality effects )

    • 多效果插槽(Multiple effect slots) 

    • 多环境和区域效果(Multiple Environments and Zoned effects)

      工作室质量效果

       EAX4 提供11种工作室质量效果。你能够在2D和3D源中选择以下的效果。

    • AGC Compressor(压缩) -  自动调节音源音量的水平

    • Auto-Wah - 自动调节Wah pedal的版本

    • Chorus(和音 - 使单个乐器能够发出多个乐器的声音

    • Distortion (失真)- 模拟“过度”,结它放大器

    • Echo - 带入运动和扩展源的音频空间

    • Equalizer(均衡器 - 4-波段均衡器

    • Flanger - 产生呼啸的效果

    • Frequency Shifter(移频器):用于输入信号

    • Vocal Morpher(声音元素) 

    • Pitch Shifter (定调移位)

    • Ring Modulator (环形调制器)

    • Environment Reverb - EAX的基本组件

       多效果插槽

       你可以加入多种的效果。例如,你能够同时听到几个环境的声音,或者增加失真到环境的渐变效果。

      


    图17:EAX Advanced HD v3的特定情节

      在EAX4中,每个源和听众都有它们自己的环境;从源传过来的声音在它自己和听众的环境都在扩散;封闭,障碍和排斥同时在源和听众上应用。因此我们能够获得环境和听众之间声音的互相干扰作用。

       区域效果

        区域的概念与房间或者环境的非常类似。

       区域效果是我们最理想的技术,但是它的实现应用要远比理论困难。目前面临的主要困难是,要找出源的位置,修正装载每个源的最近区域和跟踪每个源的扩散、封闭、障碍参数。当然,我们并不需要使用EAX4提供的所有效果;我们仅需要使用现实工作中需要的效果就可以了。



    展开全文
  • 【前沿】凌空手势识别综述

    万次阅读 2018-01-06 17:13:31
    普适计算技术和可穿戴设备的快速发展为自然的手势识别技术提出了新的挑战:应能使用户尽可能摆脱对环境和输入设备的束缚,与环境进行自然而有效的手势交互。凌空手势(mid-air gestures)识别是应对新挑战的一类有效...

    普适计算技术和可穿戴设备的快速发展为自然的手势识别技术提出了新的挑战:应能使用户尽可能摆脱对环境和输入设备的束缚,与环境进行自然而有效的手势交互。凌空手势(mid-air gestures)识别是应对新挑战的一类有效的手势识别技术。本文首先对凌空手势的定义进行了描述,然后分析和总结了现有的基于计算机视觉、超声波和电磁信号的三大类凌空手势识别技术,并指出了凌空手势识别技术的应用领域、开放性问题及未来发展。

    普适环境是一个信息空间与物理空间融合的、充满计算与通信能力的环境。在该环境中,计算以人为中心,人机交互类似于人与人之间的自然交流方式,用于计算的设备无处不在,融入到人们生活的环境中,并能够便捷地为人们提供所需要的服务;人们可以随时随地透明地获得数字化的服务,而使用计算设备的人却感知不到计算机的存在。麻省理工学院著名科学家Michael Dertouzos指出“未来的技术应该适应人的需求,而不是与之相反”,手势识别技术也应该能够主动去适应用户需求和环境,而不应该要求用户和环境做出太多的变化。普适环境下的手势识别技术应能主动感知与适应用户及其上下文环境,使用户尽可能摆脱对输入设备、环境和规则的束缚,与环境进行自然而有效的手势交互。

    凌空手势(mid-air gestures是一类非接触式的、能够使用户以徒手方式进行操作的空中手势,其本质是一种不给用户手势交互带来任何不便的自然人机交互方式。

    凌空手势通过用户自然地利用手指、手腕和手臂动作表达其交互意图,主要包括指、挥手、握拳、手掌转动等[1],具有更广阔的交互空间、更高的灵活度和更好的交互体验等特点。近年来,在《钢铁侠》、《少数派报告》等科幻电影中随处可见凌空手势交互的场景,为电影添加了许多未来感和科技感(图1)。然而,这种“未来”的交互手段已经悄然进入了人们的日常生活中,例如微软公司(Microsoft Inc.2009年发行的带有体感设备的Xbox,突破传统的鼠标-键盘组合,用户仅需要挥动手臂即可凌空操控游戏。凌空手势作为一种最贴近人-人交互的自然交互方式,使得凌空手势识别技术成为人机交互(human computer interactionHCI)研究中的热点问题之一。Kinect[2]Leap Motion[3]Soli[4]等新型交互传感设备的出现,为凌空手势识别注入了新的活力,使其从传统的手掌、手臂等大幅度动作的识别向手指精细动作的识别方向发展,为普适环境下的人机交互提供了更加自然和谐的解决方案。

    图1 《钢铁侠》、《少数派报告》中凌空手势操控场景

    凌空手势识别是普适环境下一种重要的新型交互技术,是手势识别未来的发展趋势。本文对凌空手势识别技术进行综述,分析和总结了现有的凌空手势识别方法、凌空手势的应用领域,并指出了凌空手势识别存在的问题及未来发展。

    凌空手势识别技术

    凌空手势识别技术主要包括手势数据感知、手势分割、有效特征提取和手势识别模型构建等关键模块,依据凌空手势数据感知设备的不同,目前主要分为基于计算机视觉、超声波和电磁信号的三大类凌空手势识别技术。

    基于计算机视觉的凌空手势识别

    随着各种彩色摄像头和Kinect等深度摄像头的发展,基于计算机视觉的主动感知方式的凌空手势识别近年来越来越受到国内外研究人员的关注,并取得了大量的研究成果。

    基于彩色摄像头的凌空手势识别。为了实现基于彩色摄像头的凌空手势识别,首先需要将人手从图像中分割出来,因此,基于肤色信息人手分割的手势识别技术受到了研究人员的青睐。Lars[5]选择肤色特征,利用粒子滤波检测手掌及手指,之后用模板匹配的方法进行手势识别。Bjom[6]采用肤色与运动特征跟踪人手,使用最近邻分类器进行手势识别。Kaufmann[7]通过肤色信息进行人手分割,提出了利用智能进化算法进行手势识别的方法。Weng[8]通过贝叶斯肤色模型进行人手分割,采用多特征融合的方法进行手势识别。FlasinskiMyslinski[9]构建了一个高斯肤色模型,并在此基础上提出了一种手势图解析分类法用于手势识别。任海兵、徐光祐和林学訚[10]融合肤色、运动和边缘等多种信息提取能够反映人手结构特性的特征线条,通过抽取平移不变的平面模型参数进行手势识别。朱继玉等[11]通过对视频流中空域和时域上的背景、运动、肤色等执行模糊运算,分割出人手,使用图像金字塔提取手势特征进行手势识别。杨波等[12]利用高斯亮度模型分割肤色区域,通过“搜索窗口”筛选肤色区域实现手势定位,提出了一种基于手势空间分布特征的手势识别算法。Jounghoon Beh[13]提出一种基于手部轨迹角度的凌空手势建模方法,利用隐马尔科夫模型实现了对动态凌空手势的精准识别。Song[14]提出一种多阶段的随机森林算法,利用一个彩色摄像头同时识别手部形状并估计手部的深度位置,进而实现了在智能手机、智能手表和智能眼镜等终端设备上的凌空手势识别,如图所示。目前来看,基于肤色信息人手分割的凌空手势识别方法较多,但此类方法易受到肤色的限制和环境光照的影响。

    图2 利用设备自带的彩色摄像头实现的凌空手势识别应用

    基于深度摄像头的凌空手势识别。基于光学和光波传感器进行深度信息获取和骨骼跟踪,进而实现基于手势识别的体感人机互动,是近年来手势识别领域的研究热点。微软的基于结构光编码及人体骨架实时跟踪技术的Kinect体感装置是这方面的代表性成果,其他还包括PrimeSensorXtion PROSoftKineticBumblebee等,如图3所示,其特点是能够以相对较好的实时性获取深度图像序列,实现3D数据捕捉、人体识别和骨骼跟踪[15],并可进一步支持复杂手势识别应用的研究。

    图3 深度摄像头

    基于深度摄像头的新型视觉方法主要是利用深度传感器获取的深度信息克服复杂环境与杂乱背景对手势分割的影响,同时能够很好地适应不同的光照条件[16]Ren[17]提出了一个基于深度摄像头Kinect的对人手种类和形状变化不敏感的手势识别系统,该系统同时采用深度信息和颜色信息从杂乱的环境中检测出人手,并利用形状距离度量方法对数字0~94种数学运算符等14种手势进行识别。Wang[18]基于Kinect深度摄像头,将人手形状及相应的纹理和深度信息组合形成“超像素”,提出了一种基于超像素的手势距离度量方法,提高了手势识别的鲁棒性。Elmezain[19]使用Bumblebee立体摄像头,通过肤色信息提取人脸和人手,利用深度信息区分出人手,进而实现了基于隐马尔可夫模型(hidden Markov modelHMM)的孤立手势和连续手势识别。Sanchez[20]使用深度摄像头提出了一种新的人体手势识别方法,该方法包括光照不变的肤色分割,并支持机器人和人之间通过动作进行通讯。以上方法虽然利用了深度信息,在一定程度上提高了人手分割效果,但仍然没有完全摆脱肤色的限制。

    Molina[21]利用基于Time-of-Flight的深度摄像头,将在距离深度摄像头最近点20 cm以内的像素点作为人手进行分割,实现了一个用于控制窗口应用程序的手势识别系统,此方法对人手的分割虽然摆脱了肤色限制,但是当人手不位于人体最前面时将无法实现对人手的准确分割。文献[22]利用Kinect采集的深度数据进行手指检测,然后将手指检测的结果用于手势识别,如图4所示,但该方法在实际操作中,用户需要将手掌张开并正对深度摄像头才能较好地对指尖进行检测。因此,以上方法均没有完全摆脱人手姿态的限制。文献[23]为了解决上述问题,提出了一种手掌姿态自适应的单指尖动态识别方法,并将该方法应用到了数字0~9和字母a~z36种凌空手势的识别[24]和脑卒中疾病的检测预警中[25-26],取得了较好的效果。

    图4 基于深度摄像头的手指检测和手势识别方法

    基于超声波的凌空手势识别

    基于计算机视觉的凌空手势识别易受可视角的范围限制和环境光照的影响,而超声波固有的特性能够很好地解决这些问题,因此,国内外学者广泛开展了基于超声波的凌空手势识别技术的研究。超声波是指频率超过20 kHz的声音信号(正常成年人的听力范围是20 Hz~20 kHz),利用超声波的多普勒效应(Doppler effect)和飞行时间(time of flightTOF)可以表征手部的运动情况,从而实现对凌空手势的准确识别。值得关注的是,笔记本电脑、智能手机等常见终端内置的麦克风和扬声器即可发射和接收较低频率的超声波信号,为基于超声波的凌空手势识别技术研究与推广提供了普适化的硬件基础。下面将介绍基于超声波的凌空手势识别技术的基本原理。

    多普勒效应由奥地利物理学家及数学家克里斯琴·约翰·多普勒(Christian Johann Doppler)于1842年提出,是指物体辐射的波长随波源和观测者的相对运动而产生变化。生活中常见此类现象,例如当一辆汽车迎面驶来时,会听到声音越来越高;而当车离去时,声音会越来越低(声音的高低与频率有关)。如图5所示,在运动的波源前面,波被压缩,波长变得较短,频率变得较高,发生蓝移;在运动的波源后面会产生相反的效应,波长变得较长,频率变得较低,发生红移。根据波红(蓝)移的程度,可以计算出波源循着观测方向运动的速度。

    图5 多普勒效应

    当扬声器持续发射超声波信号时,用户进行手势运动将反射超声波;对超声波接收设备麦克风而言,人的手部将被视为声源,手部运动产生的多普勒效应将反映在接收到的超声波信号中。通过对接收的超声波信号进行时频分析,即可判断手势移动的方向和速度。如图6所示,当手势相对于麦克风运动时,将引起信号频率的含量发生变化。

    图6 手势的相对运动

    除了利用多普勒效应,超声波测距技术同样被应用于凌空手势识别中。超声波测距技术主要利用信号在两个异步收发装置之间往返的飞行时间测量节点间的距离,如图7所示。由超声波发射器发射脉冲信号,通过探测发射脉冲和接收脉冲之间的相位差感知手势的轨迹,从而实现手势识别。

    图7 超声波测距技术

    早在2009年就出现了利用超声波进行凌空手势识别的方法[27],但由于需要特定的传感器搭建识别系统,难以进行实用和推广。如图8a)所示,该装置由一个超声波发射器和3个超声波接收器组成,通过感知多个超声波接收装置的频率变化,实现凌空手势识别。随着个人计算机(PC)、智能手机、智能可穿戴设备等移动终端的硬件升级以及计算能力的提升,面向移动终端的超声波凌空手势交互技术蓬勃发展。

    图8 基于超声波的凌空手势识别应用

    PC 平台上,微软研究院Gupta [28]设计的Soundwave系统,如图8b)所示,利用设备内置的传感器发射和采集18kHz声波信号,通过信号的频域特征判断手势的方向和速度等属性,实现了对向前、向后、剪刀手等凌空手势的有效识别;Pittman[29]Soundwave系统的基础上提出了Multiwave系统,使用双声道扬声器分别发射不同频率的超声波,将麦克风采集到的频率偏移转换到欧式空间,从而生成手势的运动路径、表征相应的动态手势,实现了二维空间的凌空手势识别。

    在智能手机Android平台上,Qifan[30]设计的Dolphin系统,如图8c)所示,利用内置的扬声器和麦克风发射和接收连续的21 kHz超声波信号,提取多普勒效应相关的频域特征,采用机器学习模型实现了多达17 种凌空手势的识别;Wang[31]利用智能手机的扬声器发射脉冲式超声波,通过比较原始信号与接收信号的相位,获得细粒度的手势运动方向和距离,实现了二维空间的凌空手势识别,如图8d)所示;Nandakumar[32]根据声纳原理发射超声波信号,同时利用麦克风采集手指反射的信号,利用无线通信中的正交频分复用(orthogonal frequency division multiplexingOFDM)技术识别手势,在毫米级别的误差上实现了二维手势的跟踪,即使智能设备放在口袋中也能实现精准的手势跟踪。

    在智能可穿戴设备中,加州大学伯克利及戴维斯分校的研究人员研究出一种面向可穿戴设备的超声波微型芯片,能够支持三维空间中的凌空手势识别,极大扩展了可穿戴设备的交互空间,如图8e)所示;中国科学院计算技术研究所的杨晓东等[33]针对可穿戴设备的计算资源和功耗有限的问题,提出了基于Goertzel算法和隐马尔可夫模型的超声波凌空手势识别方法,不仅保证了手势识别的准确率,而且有效降低了手势识别过程中的资源消耗和功耗。

    除了利用移动终端内置的传感器,挪威Ellipitic Labs公司[34]利用设置在终端上方的两对40 kHz超声波发射器和接收器,根据用户手部操作对超声波产生的影响来确定手部的位置,实现了围绕设备180°的全方位三维凌空手势交互,如图8f)所示。

    总的来说,超声波手势识别技术能够在一定程度上克服环境光照的影响并扩大了手势操控的范围,但由于其鲁棒性较弱、信噪比需求较高等问题还有待进一步研究和解决,所以将其应用于实际生活仍有一段距离。

    基于电磁信号的凌空手势识别

    早在20世纪30年代,雷达电磁波(radio frequencyRF)因具有不受光线、噪声、大气环境的影响,能够穿越大部分材料等优势,已经被应用于构建快响应、高精准的物体移动监测和追踪系统,例如,空中交通管制、潜水艇雷达、地理监测等。其原理如图9所示,利用原始RF信号与接收的反射信号之间的时间间隔、相位、频率差异及能量衰减等信息,可以推测出目标物体的距离、速度、形状、大小、表面光滑程度和材料等特性。如果目标物体是人的手部,则接收到的RF反射信号是手部多个动态散射中心(如手掌和多个手指)反射信号的叠加;在特定的手势下,信号将呈现特定的模式,通过对叠加接收信号的分析和转换,进而实现对手势的识别。

    图9 电磁波基本原理

    在此方面最具有代表性的工作是谷歌Touchstone团队的Soli项目。由于移动可穿戴设备的微型化、计算资源有限、操控距离近(小于5 mm)等要求,现有的RF技术无法实现基于可穿戴设备的凌空手势识别,该团队针对以上问题,设计并实现了从底层硬件到顶层应用的一整套端到端的解决方案。该项目于2014年启动,历经两年时间发展,至2016年成功将芯片面积缩小了70%、功耗从1.2 W下降到0.054 W(下降了22倍)、算法效率提升了256倍,并将其应用于智能手表等微型的移动可穿戴设备中。

    人的手部由手掌、手指等多个运动单元组成,因此Soli接收手部反射的雷达信号是多个离散的、动态散射中心反射信号的叠加。电磁雷达信号的反射参数不仅依赖于信号频率,并且随着手部纹理的变化而改变,通过对信号反射参数的描述,能够实现对手部的形态估计和运动跟踪,如图10所示,其中和为电磁雷达信号的反射参数。

    图10 Soli 接收的信号是多个散射中心反射信号的叠加

    与在空间维度上进行目标识别的经典雷达技术不同,Soli提出了基于高时间分辨率的感知机制,通过超高帧速测量人手的反射信号检测微小且复杂的手部动作和手势,进而提取与之相对应的精细信号变化。为了分析手部反射的信号,Soli以一定时间间隔重复发射雷达信号,发射的雷达信号频率从1 kHz逐渐增加至10 kHz;在每一个信号发射周期内,按照相应的采样频率接收反射信号。与雷达信号重复发射的频率相比,人的手部运动相对较慢,可以认为反射信号的特性在单个雷达重复时间间隔内近似为恒定。通过对单个雷达重复间隔内信号的处理,提取瞬时的手部姿势、方向等特征;综合多个连续间隔内提取的瞬时特征,利用其变化情况获得手势的动态运动,例如手部移动的速度等,如图11所示。

    图11 Soli 进行信号处理的两个时间粒度

    与传统的基于图像的凌空手势识别方法不同,Soli不是基于特征推断手部的骨骼结构或者手指的空间方向,而是将提取的特征直接应用于机器学习模型中,与更传统的统计特征一起表征手势,并进行相应的识别。这样的设计能够有效地减少计算负荷,即使在智能手表或物联网中一些低功率设备上也能够实现基于Soli的凌空手势识别。另外,为了保证凌空手势识别模型在计算速度、运算空间和泛化能力等方面的性能,Soli采用“随机森林(Random Forest)”作为分类模型;并利用“贝叶斯过滤器(Bayesian filter)”,基于最近预测结果加权平均的时序先验和基于应用的情境先验,对识别的结果进行修正,进一步提升手势识别的准确率和鲁棒性。

    Soli识别凌空手势的关键是通过提取信号特征对手部运动的动作、范围和速度等属性进行表征,因此Soli擅长识别动态手势(action gesture)、而非静态手势(sign gesture)。为此,Soli提出了“虚拟工具(virtual tools)”的概念,通过手指运动模拟按钮、滑块等工具的使用过程,如图12a)“虚拟按钮(virtual button)”、图12b)“虚拟滑块(virtual slider)”所示。另外,对一些传统的动态凌空手势,如图12c)、(d)所示,Soli同样能够表现出良好的性能。

    图12 动态凌空手势集合

    总的来说,Soli为基于电磁信号的凌空手势识别这一全新的人机交互方式提供了从底层硬件到顶层应用的、端到端的完整解决方案,对未来该领域的工作具有先驱指导意义,为微型设备上凌空手势的识别提供了可能。然而,如何克服电磁信号本身所固有的衰减、多路、碰撞等问题,以及如何设计更加行之有效的机器学习模型等,均是未来研究者亟需解决的问题。

    凌空手势识别技术的应用

    凌空手势为用户提供了一种更加自然、方便的交互方式,能够解决娱乐、日常生活、医疗等领域中某些传统接触式交互方式无法满足的需求,下面将介绍几类凌空手势识别技术的具体应用。

    凌空手势识别在日常生活中的应用

    凌空手势识别在日常生活中的应用主要体现在对电视、平板电脑等常用设备的自然操控和对汽车的安全辅助驾驶中。

    三星电子、TCL集团股份有限公司、乐视致新电子科技(天津)有限公司等公司在其电视产品中加入了凌空手势控制功能(例如,三星智能电视ES8000),通过电视自带的体感摄像头捕获用户挥手、握拳、移动、拖拽等常见的凌空手势,以实现对电视的节目切换、音量调节等操控,如图13所示。阿尔卡特公司(Alcatel)设计了一款适应于厨房使用情境(烹饪时双手沾满油渍、面粉等,同时需要查阅菜谱,基于鼠标、键盘、触摸屏的传统操控方式已难以满足)的平板电脑One⁃Touch Xess,利用深度摄像头实现凌空手势操控,如图14所示。

    图13 智能电视

    图14 OneTouch Xess

    在汽车安全驾驶方面,传统的人机交互技术需要用户通过按键或触摸屏幕的方式与手机和车机进行交互,使得驾驶员不得不从前方道路转移视线且至少占用单手进行触摸输入,从而导致危险的“盲目”驾驶,目前因驾驶时进行触摸式手机输入导致的交通事故率已经上升到第4位;相比之下,凌空手势交互只需驾驶员自然地做出手势,无需转移注意力就能获得手机或车机的反馈,如图15所示。此方面的代表性工作是中国科学院计算技术研究所和深圳市车音网科技有限公司联合承担的科技部国际科技合作专项项目,将基于超声波的凌空手势交互与语音识别技术相结合,实现了基于自然人机交互技术的安全驾驶辅助系统,使驾驶时所有操控符合“手眼同向”的安全驾驶原则,极大地保障了行车安全。

    图15 安全驾驶

    凌空手势识别在医疗领域中的应用

    医疗领域中,凌空手势识别在方便医生诊疗和辅助患者康复方面发挥了重要作用。

    医生在手术过程中,由于无菌的严格环境要求,外科医生在术中进行病人资料查阅时难以通过鼠标、键盘、触摸屏等直接操控电脑,而凌空手势识别技术能够帮助医生无需接触即可进行操控,能够极大提高手术效率。例如,协助外科医生浏览MRT图像的Gestix系统等[35]- [37](图16),都是该方面比较成熟的产品,已应用于实际的医疗环境中。

    图16 医疗领域凌空操控系统

    在辅助患者康复方面,主要是针对身体运动功能损伤的病人,帮助他们进行康复训练,或者在康复期间辅助进行日常活动。此方面具有代表性的是Kuno[38]设计的一款支持凌空手势操控的轮椅(图17),用户只需要通过手势就能控制轮椅的活动,方便了病人的日常生活;为缩短截肢病人义肢训练的时间,Phelan[39]开发了一种肌电义肢手臂训练原型系统,融合了虚拟现实技术,可使病人在虚拟场景中开展义肢训练,提高病人康复的主动性。

    图17 凌空手势操控轮椅

    凌空手势识别在智能机器人领域中的应用

    随着机器人技术的发展,智能机器人已经逐渐成为了人们日常生活中的重要组成部分,而凌空手势不仅提供指令类信息,而且能够提供含有空间信息的操控命令,在与智能机器人的交互中具有显著的必要性[40]。例如,常见的凌空手势“指”,不仅可以为机器人提供移动位置的指令,而且能够明确指出机器人位置移动的方向,如图18所示。目前,比较成熟的产品主要有:深圳优必选科技有限公司(UBTECH)推出的仿“人脑”智能机器人Alpha,支持用户通过凌空手势操控Alpha完成股市、天气、航班等信息查询和拨打电话等功能,如图19所示;ZeroUI公司推出了面向儿童的智能机器人Ziro,通过“挥手”手势便可指挥其进行旋转,如图20所示。

    图18 人与智能机器人进行凌空手势交互

    图19 仿“人脑”智能机器人阿尔法

    图20 面向儿童的智能机器人Ziro

    凌空手势识别在娱乐领域的应用

    凌空手势识别技术的进步加速了体感游戏的发展。体感游戏是通过肢体动作变化和肢体感受进行操控的一类新型电子游戏,不仅能运动健身、有益于身心健康,而且能够让玩家“全身”投入到游戏当中,享受体感互动的新体验。Leap MotionMicrosoft Kinect 等体感设备的出现开启了体感游戏的新篇章(图21)。带有体感设备KinectXbox 360游戏机是微软于2009年推出的一款体感游戏机,截至20129月,Xbox 360全球累积销售量达到7000万部,《生化奇兵》、《荒野大镖客:救赎》、《水果忍者》等都是经典的Xbox 360 游戏;《Boom Ball》、《Dropchord》、《Block54》是依靠Leap Motion进行操控的体感游戏,在为用户带来娱乐体验的同时,也展现了Leap Motion独特的凌空手势操控体验。

    图21 体感游戏界面

    开放性问题

    凌空手势交互范式设计

    凌空手势交互作为最接近“人-人交互”的方式之一,“自然性”是其优于其他交互方式的主要特点。“自然性”在此表现为交互方式符合自然人手的交互行为习惯,即凌空手势的交互语义集合是自然人手交互语义集合的子集,若以庞大而复杂的自然人手交互语义集合作为凌空手势交互设计的参考,容易造成凌空手势的自然性和识别准确性之间的冲突。因此,如何设计更加自然且易识别的交互范式,一直是凌空手势交互的重要问题之一,在此方面,交互界面范式设计、凌空手势集合设计等方面值得关注。

    用户个性化问题

    精准的凌空手势识别是良好交互体验的前提和基础,然而凌空手势很大程度上依赖于用户习惯,易导致识别模型面对新用户时的“漂移”现象,影响识别效果。凌空手势的主体是人的手部,手作为人类身体最灵活的部分之一,具有很高的自由度,并且凌空手势在空中操作,具有较大的波动性。因此即使定义了凌空手势规范,交互过程中手移动的速度、幅度和角度等同样会导致执行同一种手势时“轨迹”的差异,甚至具有不可再现性。除了主观因素造成的手势差异,一些客观因素也会影响手势交互的性能,例如在基于表面肌电的解决方案中,肌肉、毛发、汗液等因素会对表面肌电信号产生较大的影响。

    此外,由于在手势识别模型的训练阶段将所有用户的凌空手势数据进行采集、标定和训练是不现实的,训练得到的只是能够适用于部分用户的离线模型,如何动态调整模型以适应特定的用户习惯,是一个值得探索的新方向。在此意义上,用户间的迁移学习、用户无关的特征提取等方法值得关注。

    从单模态到多模态

    传感技术的发展推动着凌空手势交互技术的革新,为之提供了新的解决方案。但与此同时,任何单个模态的感知手段都存在固有的缺陷和不足,限制了以此为基础的凌空手势交互的自然性和用户体验,例如,基于计算机视觉的手势识别方法在精细手势的识别上存在不足,因此,融合多模态传感器的凌空手势识别方法成为一个值得关注的研究方向。从传感的角度看,不同尺度的手部运动采用不同模态的传感器进行针对性感知,能够极大丰富手势集合;同时,不同模态数据间的相互协同,也有助于提高手势识别的精准度。尽管目前已经有此方面的相关工作,如将摄像头与加速度计结合起来,但尚处于起步阶段。

    结论与展望

    随着普适计算技术的发展,计算资源将以各种形态融入到生活的每个角落,使人们的日常生活充满着人机交互。凌空手势交互将更加通用自然,通过自适应交互对象,用户可以在不同的应用界面和场景之间实现无缝切换和自由交互;同时,凌空手势交互将更加精准细微,通过与力学触觉反馈等技术的结合,实现高精准凌空交互,逐渐取代日常的输入设备,例如键盘、鼠标、遥控器甚至汽车方向盘等,用户依靠双手即可进行自然交互;另外,凌空手势交互将更加丰富多样,随着虚拟现实技术、增强现实技术以及3D立体成像技术的发展,凌空手势识别技术将与之深入融合,实现3D图形的设计、虚拟场景下的自然互动等,从而更加激发人们的主动性和创造力。

    总之,凌空手势作为最自然的人机交互方式之一,将在未来自然人机交互中发挥不可替代的作用。

    参考文献

    [1] Cabreira A T,Hwang F. An analysis of mid-air gestures used across three platforms[C]//Proceedingsof the 2015 British HCI Conference.New York: ACM, 2015:257-258.

    [2] Zhang Z.Microsoft kinect sensor and its effect[J]. IEEE Multimedia,2012, 19(2): 4-10.

    [3] Khademi M,Mousavi Hondori H, McKenzie A, et al. Free-hand interaction with leap motioncontroller for stroke rehabilitation[C]//Proceedings of the ExtendedAbstracts of the 32nd Annual ACM Conference on Human Factors inComputing Systems. New York: ACM, 2014: 1663-1668.

    [4] Lien J, GillianN, Karagozler M E, et al. Soli: Ubiquitous gesture sensing with millimeterwave radar[J]. ACM Transactions on Graphics(TOG), 2016, 35(4):142.

    [5] Bretzner L,Laptev I, Lindeberg T. Hand Gesture Recognition using Multi-Scale ColourFeatures, Hierarchical Models and Particle Filtering[C]//Fifth IEEEInternational Conference on Automatic Face and Gesture Recognition.Washington DC: IEEE, 2002: 423-428.

    [6] Stenger B.Template-based hand pose recognition using multiple cues[C]//ACCV 2006:Computer Vision . BerlinHeidelberg: Springer,2006: 551-560.

    [7] Kaufmann B,Louchet J, Lutton E. Hand posture recognition using realtime artificialevolution[C]//Applications of Evolutionary Computation.Berlin Heidelberg:Springer, 2010: 251-260.

    [8] Weng C, Li Y,Zhang M, et al. Robust hand posture recognition integrating multi-cuehand tracking[C]//Edutainment 2010: Entertainment for Education.Digital Techniques and Systems. Berlin Heidelberg:Springer, 2010:497-508.

    [9] Flasiński M, My-lińskiS. On the use of graph parsing for recognition of isolated handpostures of Polish Sign Language[J]. Pattern Recognition, 2010, 43(6):2249-2264.

    [10] 任海兵徐光祐林学訚基于特征线条的手势识别[J]. 软件学报,2002, 13(5): 987-993.

    Ren Haibin, XuGuangyou, Lin Xueyin. Hand gesture recognition based oncharacteristic curves[J]. Journal of Software, 2002, 13(5):987-993.

    [11] 朱继玉王西颖王威信基于结构分析的手势识别[J]. 计算机学报, 2006,29(12): 2130-2137.Zhu Jiyu, WangXiying, Wang Weixin, et al. Hand gesture recognition based on structureanalysis[J]. Chinese Journal of Computers, 2006, 29(12): 2130-2137.

    [12] 杨波宋晓娜冯志全复杂背景下基于空间分布特征的手势识别算法[J]. 计算机辅助设计与图形学学报, 2010, 22(10): 1841-1848.Yang Bo, Song Xiaona,Feng Zhiquan, et al. Gesture recognition in complex backgroundbased on distribution features of hand[J]. Journal of Computer- AidedDesign & Computer Graphics, 2010, 22(10):1841-1848.

    [13] Beh J, Han D, KoH. Rule-based trajectory segmentation for modeling hand motiontrajectory[J]. Pattern Recognition, 2014, 47(4): 1586-1601.

    [14] Song J, Sörös G, PeceF, et al. Real-time hand gesture recognition on unmodified wearabledevices[C/OL]. [2017-03-31]. http://www.vs.inf.ethz.ch/publ/papers/soeroesg-cvpr2015-MobileGestures.pdf.

    [15] Kar A. Skeletaltracking using microsoft kinect[R/OL]. [2017-03-31].http://people.eecs.berkeley.edu/~akar/IITK_website/cs397/Skeletal%20Tracking%20Using%20Microsoft%20Kinect.pdf.

    [16] Doliotis P,Stefan A, McMurrough C, et al. Comparing gesture recognition accuracy usingcolor and depth information[C]//Proceedings of the 4th InternationalConference on PErvasive Technologies Related to Assistive Environments.New York: ACM, 2011: 20.

    [17] Ren Z, Meng J,Yuan J, et al. Robust hand gesture recognition with kinectsensor[C]//Proceedings of the 19th ACM international conference on Multimedia. New York:ACM, 2011: 759-760.

    [18] Wang C, Liu Z,Chan S C. Superpixel-based hand gesture recognition with kinect depthcamera[J]. IEEE transactions on multimedia, 2015,17(1): 29-39.

    [19] Elmezain M,Al-Hamadi A, Appenrodt J, et al. A hidden markov model-based isolated andmeaningful hand gesture recognition[J]. International Journal ofElectrical, Computer, and Systems Engineering,2009, 3(3): 156-163.

    [20] Gonzalez-SanchezT, Puig D. Real-time body gesture recognition using depth camera[J].Electronics letters, 2011, 47(12): 697-698.

    [21] Molina J,Escudero-Viñolo M,Signoriello A, et al. Real-time user independent handgesture recognition from time-of-flight camera video using static anddynamic models[J]. Machine Vision and Applications,2013, 24(1): 187-204.

    [22] Lee U, Tanaka J.Finger identification and hand gesture recognition techniques fornatural user interface[C]//Proceedings of the 11th Asia Pacific Conference onComputer Human Interaction. New York: ACM,2013: 274-279.

    [23] 于汉超唐晓庆刘军发手掌姿态自适应的单指尖鲁棒跟踪方法[J]. 计算机辅助设计与图形学学报, 2013, 25(12):1793-1800.Yu Hanchao, TangXiaoqing, Liu Junfa, et al. Robust Single Fingertip Tracking Method Basedon Palm Posture Self-adaption[J]. Journal of Computer-Aided Design& Computer Graphics, 2013, 25(12): 1793-1800.

    [24] Yu H C, Chen YQ, Liu J F, et al. Adaptive and iterative online sequential ELM basedmulti-degree-of-freedom gesture recognition system[J]. IEEEIntelligent Systems, 2013, 28(6): 55-59.

    [25] Yu H C, Yang XD, Chen Y Q, et al. strDoctor: Indicate Stroke for Elderly through BodySensing Game[C]// Proceedings of the 12th IEEE InternationalConference on Ubiquitous Intelligence and Computing.Beijing: IEEE, 2015:360-363.

    [26] Chen Y Q, Yu HC, Miao C Y, et al. Using motor patterns for stroke detection[R/OL].[2017-03-31]. http://www.ntulily.org/wp-content/uploads/journal/Using_motor_patterns_for_stroke_detection_accepted.pdf.

    [27] Kalgaonkar K,Raj B. One-handed gesture recognition using ultrasonic Dopplersonar[C]//IEEE International Conference on Acoustics,Speech and SignalProcessing. Washington DC: IEEE, 2009:1889-1892.

    [28] Gupta S, MorrisD, Patel S, et al. Soundwave: Using the doppler effect to sensegestures[C]//Proceedings of the SIGCHI Conference on Human Factors in ComputingSystems. New York: ACM, 2012: 1911-1914.

    [29] Pittman C,Wisniewski P, Brooks C, et al. Multiwave: Doppler Effect Based GestureRecognition in Multiple Dimensions[C]//Proceedings of the 2016 CHIConference Extended Abstracts on Human Factors in Computing Systems.New York: ACM, 2016: 1729-1736.

    [30] Yang Q F, TangH, Zhao X B, et al. Dolphin: Ultrasonic-based gesture recognition onsmartphone platform[C]//Computational Science and Engineering(CSE), 2014 IEEE 17th International Conference on.Washington DC: IEEE,2014: 1461-1468.

    [31] Wang W, Liu A X,Sun K. Device-free gesture tracking using acousticsignals[C]//Proceedings of the 22nd Annual International Conference on MobileComputing and Networking. New York: ACM, 2016:82-94.

    [32] Nandakumar R,Iyer V, Tan D, et al. FingerIO: Using Active Sonar for Fine-Grained FingerTracking[C]//Proceedings of the 2016 CHI Conference on HumanFactors in Computing Systems. New York: ACM,2016: 1515-1525.

    [33] 杨晓东陈益强于汉超面向可穿戴设备的超声波手势识别方法[J]. 计算机科学, 2015, 42(10): 20-24.Yang Xiaodong, ChenYiqiang, Yu Hanchao, et al. Ultrasonic waves based gesturerecognition method for wearable equipment[J]. Computer Science, 2015,42(10): 20-24.

    [34] Dahl T, Ealo JL, Pazos-Ospina J, et al. High-resolution ultrasonic gesture trackingsystems for future portable devices[C]//Ultrasonics Symposium (IUS), 2012IEEE International. Washington DC: IEEE,2012: 150-153.

    [35] Wachs J P, SternH I, Edan Y, et al. A hand gesture sterile tool for browsing MRI imagesin the OR[J]. Journal of the American Medical InformaticsAssociation, 2008, 15(3): 321-323.

    [36] Ruppert G C S,Reis L O, Amorim P H J, et al. Touchless gesture user interface forinteractive image visualization in urological surgery[J].World journal ofurology, 2012, 30(5): 687-691.

    [37] Jacob M G, WachsJ P. Context-based hand gesture recognition for the operatingroom[J]. Pattern Recognition Letters, 2014, 36: 196-203.

    [38] Phelan I, ArdenM, Garcia C, et al. Exploring virtual reality and prosthetic training[C]//2015IEEE Virtual Reality (VR). Washington DC:IEEE, 2015: 353-354.

    [39] Phelan I, ArdenM, Garcia C, et al. Exploring virtual reality and prosthetictraining[C]//2015 IEEE Virtual Reality (VR). Washington DC:IEEE, 2015: 353-354.

    [40] Lee S W. Automaticgesture recognition for intelligent human-robot interaction[C]//AutomaticFace and Gesture Recognition, 2006. FGR 2006. 7thInternational Conference on. Washington DC: IEEE, 2006:645-650.

    本文作者:  于汉超,杨晓东,张迎伟,钟习,陈益强。
    作者简介  于汉超,中国科学院计算技术研究所,研究方向为人机交互、手势识别。
    展开全文
  •  现在让我们看看3D 音效是如何产生的,我们首先要从2D Panning(定位) 开始讲起(目前这项技术仍然在ID Software 的Doom中被使用)。在这项技术中,每个单声道的音源都被当作立体声来运行,并且它们左-右声道的...
  • 波束形成算法综述

    千次阅读 2021-01-31 20:21:25
    w^{H} C=f}\end{array}\right.$$ 其中,一组线性约束条件可以定位为M*P维的约束矩阵C,其中麦克风数量M需要小于线性约束条件P的个数。$f$表示P*1维的约束矢量,$R_x=E[x(t)x^H(t)]$表示输出协方差矩阵。 采用...
  • 转贴-游戏中的现代音频技术综述

    千次阅读 2005-04-12 19:43:00
     现在让我们看看3D 音效是如何产生的,我们首先要从2D Panning(定位) 开始讲起(目前这项技术仍然在ID Software 的Doom中被使用)。在这项技术中,每个单声道的音源都被当作立体声来运行,并且它们左-右声道的...
  • 3、随着机器学习技术的快速发展,对于侧信道泄露信息的恢复和推断变得更加便捷和准确,这会导致未来操作系统安全变得更加困难。 综上,基于以上三点原因,我认为该篇文章具有一定研究价值,故选取其为综述文献 二、...
  • 2013年,Hinton 加入谷歌并带领一个AI团队,他将神经网络带入到研究与应用的热潮,将“深度学习”从边缘课题变成了谷歌等互联网巨头仰赖的核心技术,并将BP算法应用到神经网络与深度学习。 Hinton在2017年的NIPS会议...
  • 欢迎观看Oculus Spatializer VST使用指南!   Welcome to this guide ...综述(Overview)  该指南主要阐述如何安装及使用Oculus Spatializer VST。   This integration guide describes how to install and u
  • 视觉三维建模

    千次阅读 2017-06-19 13:32:49
    结构光方案优点:技术成熟,深度图像分辨率可以做得比较高; 价格低廉。 缺点:容易受光照影响,室外环境及夜间环境基本不能使用; 无法得到深度信息。 三维重建法 探针法时期:早期采用的 特点:简单粗暴 原理:直接...
  • 本文对汪徳亮于2017年发表的语音分离的综述性论文进行简单地翻译,如有不当之处欢迎批评指正 目录 1. 论文目的 2. 摘要 3. 介绍 4. 分类器和学习机 5. 训练目标 A. ideal Binary Mask B. Target Binary Mask C. ...
  • 最近在arXiv上看到一篇关于深度学习在音频信号处理中的进展的文章,感觉写的不错,所以根据自己的理解和大家...这篇文章是奥尔堡大学,Google等几个研究机构的一篇关于深度学习在音频信号处理中的进展的综述。这篇文...
  • 2.2 去混响 2.3 语音分离(盲分离) 2.4 波束形成 用于多通道语音增强、信号分离、去混响以及声源定位。主要是:多通道语音增强和声源定位。 2.5 噪声抑制 消除或抑制环境噪声,还有一点是增强语音信号。 2.6 幅度...
  • 《虚拟现实应用技术》 《虚拟现实应用技术》 版本 作者 参与者 完成日期 备注 YanlzVR_Tech_V01_1.0 严立钻 ...
  • Machine learning in ...上一篇综述总结了声学传感中的几类问题,相关工作以及挑战.在未来展望中,作者提到对于使用深度学习来解决传统声学中的问题十分看好.今天我们来看一下关于机器学习在声学中的综述. 摘要 ...
  • 音视频多模态研究点

    千次阅读 2020-03-25 13:13:24
    7.Learning to Separate Object Sounds by Watching Unlabeled Video 摘要:介绍了一种新颖的声源分离方法,实现了这种直观感觉。我们的方法首先对大量未加注释的视频进行处理,以发现每个可见对象的潜在声音表示。...
  • 因此,从声源估计的角度来看,浅表声源(如初级听觉或体感皮层的声源)比位于脑深部结构(如海马或小脑深部亚结构)的声源更容易通过MEG或EEG进行无创定位小脑皮质的结构也可能是一个特殊的限制因素,由于信号消除的...
  • 我们进一步介绍了基于几何声学模拟的音频渲染,用于一组公开可用的3D资产和仪器AI Habitat,以支持新传感器,从而可以在公寓,办公室和酒店环境中插入任意声源。我们的结果表明,音频极大地有益于3D空间中的可视化...
  • 这里涉及的技术包括语音端点检测、回声消除、声源定位和去混响、语音增强等。另外,对于通常处于待机状态的智能音箱,通常都会配备语音唤醒功能。为了保证用户体验,语音唤醒必须要足够灵敏和快速地做出响应,同时...
  • 为了实现这一目标,开发了一种利用注意力机制处理每个模式的两流网络结构,用于声源定位。网络自然显示场景中的本地化响应,而无需人工注释。此外,还开发了一个新的声源数据集用于性能评估。但是,我们的经验评估...
  • 这里涉及的技术包括语音端点检测、回声消除、声源定位和去混响、语音增强等。另外,对于通常处于待机状态的智能音箱,通常都会配备语音唤醒功能。为了保证用户体验,语音唤醒必须要足够灵敏和快速地做出响应,同时...
  • 在遇到危险时,情绪要么将我们的身体拉离声源,要么在感觉吸引他们的情况下将我们的身体推向声源。这突出了身体感知在事件情绪反应中的核心作用,因为一个人的身体被视为建立一个与我们周围的物体,个体,事件和情境...
  • 这是一个与物理距离无关,基于声源测距的定位模式。根据麦克风节点构建的网络进行当前位置的精确估计。首先根据局部泰森多边形法找到距离最近的麦克风节点,再根据有限测距方法定位。 11. TRIM: A Truthful ...
  • 语音增强来解决噪声环境 图表 声源定位确认移动的说话人 图表 思必驰环形“6+1”远场麦克风阵列特性 图表 中国智能语音市场AMC模型 图表 语音是人工智能重要入口 图表 2016-2020年中国语音市场规模 图表 美国...

空空如也

空空如也

1 2
收藏数 38
精华内容 15
关键字:

声源定位技术综述