精华内容
下载资源
问答
  • 感觉(Sensation): 觉察到刺激的存在,并立即...听觉通路的最初阶段:声波使 鼓膜运动-鼓膜运动传递给 听小骨-听小骨带动 卵圆膜-孵圆膜的运动推动 耳蜗内液体-耳蜗内液体的运动导致 感觉神经元的反应。 一

    感觉(Sensation): 觉察到刺激的存在,并立即分辨出刺激的属性,在心理学上,称此一层次为感觉。
    知觉(Perception) : 不仅觉察到刺激的存在及其重要属性,而且知道该刺激所代表的意义,在心理学上,称此一层次为知觉。

    人耳的构造主要分为三部分: 外耳,收集外来声音; 中耳传导声音; 内耳将物理性的声音刺激转化为生理性的神经冲动。

    听觉通路的最初阶段:声波使 鼓膜运动-鼓膜运动传递给 听小骨-听小骨带动 卵圆膜-孵圆膜的运动推动 耳蜗内液体-耳蜗内液体的运动导致 感觉神经元的反应。

    一旦在内耳发生对声音的神经反应,信号会被传递至脑干的一系列 神经核团,并为之处理。这些核团的输出被进一步传递至丘脑的 内侧膝状体核(MGN),最后MGN向 颞叶的 初级听皮层A A1 1投射。

    上颞叶的 初级听皮层(紫色)和 次级听皮层(黄色)

    前庭系统向大脑报告头部的位置和运动,以产生平衡的感觉,并帮助协调头部和眼部的活动,以及调整身体的姿势。

    视觉与听觉的神经回路重要,其他的回路了解一下

    离开视网膜的神经节细胞轴突穿过三个结构,然后到达脑干。这个离视网膜投射的组成部分依次为 视神经、 视交叉和 视束。

    位于丘脑背部左右两个侧膝状体核是两条视束的主要目标。LGN分层的三结构就像由6张薄饼堆叠而成。但这些薄饼并不是铺而成,他们在视束周围形成膝状弯曲。由于如此形状,它被称为“膝状体”。 LGN

    有两大皮层视觉信息处理通路, 背侧通路和腹侧通路。

     

     

     

     

    ________________________________________________

    静息电位是外正内负,动作电位外负内正 。动作电位过程中细胞的 去极化是由钠离子跨膜内流引起的,而 复极化(就是恢复正常电位)是由钾离子的外流所致。

    突触的类型一般有电突触和 化学突触. .

     

     

    展开全文
  • 人类在语言交流中发出的声音进入人耳被听觉系统接收、转化、传导、综合处理和加工,最终在大脑中被理解。听觉系统可以从声音中分辨出语音的含义及其发出声音的物体,并能提取声源的位置信息,从而辨别声音发出的方向...

    听觉是人类和动物所具备的重要感觉功能,是感知和获取自然界环境信息的重要方式。随着时代的进步,人工智能技术不断发展,听觉同样称为机器人模型研究的重点。人类社会的进步离不开语言的发展,听觉是语言交流的基础,是人类语言交流的通道。人类在语言交流中发出的声音进入人耳被听觉系统接收、转化、传导、综合处理和加工,最终在大脑中被理解。听觉系统可以从声音中分辨出语音的含义及其发出声音的物体,并能提取声源的位置信息,从而辨别声音发出的方向,这种声音辨别能力优于所有现有的机器。

    研究听觉神经网络处理声纹识别、语音识别、听觉情感识别、语音问答等任务时,需要对听觉系统的结构和功能尽心相近的了解,本文对人脑听觉系统的结构和功能进行详细叙述。

    听觉信号是声压随时间的变化,听觉系统从耳朵所接收到的刺激出发,在声音信号的分解和合成两方面都取得了卓越的成就,构建起一个完整的多功能听觉世界。

    听觉系统可以分为听觉外周听觉中枢两个组成部分,这一节对听觉系统的基本结构和功能进行介绍。

    听觉外周

    听觉外周部分包括外耳中耳内耳(如图1所示),主要负责语音信号的接收和传导,是一个复杂的换能器,能够将机械形式的信号转换为传输到大脑的神经冲动,这一过程耳朵完成了声音振动的感受、声源位置信息的接收,并根据环境和自身状态意识的改变进行主动调节与反馈。

    图1 人耳的解剖结构[2]
    图1 人耳的解剖结构[2]

    外耳主要包括耳廓外耳道。耳廓的形状有助于声音的聚集,使收集反射的声音能够最有效地在外耳道聚集,同时耳廓褶皱有助于进行声音定位[3]。外耳道起始于耳廓中心,终止于鼓膜,长度大约为 25~35mm。成人的外耳道呈“S”形弯曲,外段向内前而微向上,中段向内向后向下,内段向内前微向下。外耳道主要是声波传导的通道,可以将声音信号传递到鼓膜,通过共振效应,对声音进行增益,从而将声音放大。鼓膜介于鼓室与外耳道之间,是一个类似锥形的、顶点朝向中耳内部的软膜,高约9mm、宽约8mm、厚约0。1mm。它可以随着声波的振动而振动并产生位移,即具有将声波信号转换为机械能的作用。

    图2 耳廓结构
    在这里插入图片描述

    中耳由鼓室、咽鼓管、鼓窦和乳突等结构组成。鼓室又称为中耳腔,是由鼓膜和侧壁形成的密闭腔体,内部充满了空气,包含有听骨链。听骨链由三块听小骨组成,分别为锤骨、砧骨、镫骨,是人体最小的骨头;咽鼓管具有维持鼓室内气体压力平衡的能力。镫骨具有平面形的底板,与卵圆窗相接,可以将振动传到内耳中的耳蜗内。中耳一般被认为是传声装置,主要生理功能是实现声阻抗匹配。耳蜗的输入阻抗(定义为产生椭圆形窗口单位位移的压力)大约是自由空气输入阻抗的200倍[4]。如果声音振动直接遇到前庭窗,我们可以计算出大部分能量会被反射,只有2%的能量被传递。然而,外耳和中耳大大增加了这种声音能量传播效率。传播过程中的增益效果分两个阶段完成。

    首先,外耳可以视为一个方向性灵敏的助听器,通过共振效应来收集耳廓较大区域内的声压,从而增加较小鼓膜处的声压。主共振的频率峰值是互补的,因此鼓膜的压力相对均匀地升高,在2-8 kHz的频率范围内升高15-20 dB,传输也同样升高。然后,中耳主要通过两种阻抗匹配机制增加振动压强:(1)面积比机制:最大的因素来自于前庭窗中鼓膜面积与镫骨底板面积之比,这两部分的面积分别是60平方毫米和3。2平方毫米,前庭窗的压力增加了18。75倍。(2)杠杆作用:锤骨臂(即鼓膜凸)比镫骨臂长2.1倍[5]。

    内耳包括感受声音信息的耳蜗和感受位置信息的前庭器官。其中,内耳中的耳蜗,是听觉外周最重要的一个部分。作为人类听觉系统的感受器,耳蜗的重要作用在于它实现了声波与神经冲动的换能过程,将声音的振动信号转换为大脑可以感受和处理的神经脉冲信号。同时耳蜗还起机械性频率分析器的作用。

    人的耳蜗形状类似于蜗牛,是一个充满液体的螺旋状管。该螺旋状管绕中间的蜗轴2。5~2。75圈盘旋而成,总宽度为1厘米,高5毫米。耳蜗管被软组织分成3个充满液体的部分:前庭阶、中阶和鼓阶(如图3)。3个部分在耳蜗内围绕着蜗轴一起旋转, 沿耳蜗卷曲方向平行排列,包括听神经和许多血管。耳蜗的基部有两个膜性窗口,分别为卵圆窗和圆窗。前庭阶和鼓阶分别终止于蜗底的卵圆窗和圆窗。前庭阶和鼓阶充满外淋巴液,在蜗顶有一开口(蜗孔)将二者彼此连通。中阶是一个盲管,将前庭阶和鼓阶分隔开,其内部充满内淋巴液,在蜗顶处关闭。中阶和鼓阶之间的隔膜状结构称为基底膜,其上有毛细胞、神经终末等组成的神经感受器。分隔前庭阶和中阶的膜状结构称为前庭膜。

    图3 前庭阶、中阶和鼓阶解剖结构
    在这里插入图片描述

    含有听觉感受神经元的科蒂氏器官(如图4)位于基底膜上,盖膜悬于科蒂氏器官之上。耳蜗毛细胞是听觉感受器细胞,位于基底膜上的科蒂氏器官内。毛细胞是上皮细胞的变种,其顶端有毛(静纤毛)伸出,这些纤毛与覆盖其上的辅助结构相靠近或接触。毛细胞的基底部与听神经轴突远端形成轴突连接。受到声音振动的刺激时,听觉毛细胞的膜电位会发生变化,然后释放神经递质,进而使得支配毛细胞的听觉神经产生兴奋和冲动,将声音信息传到听觉中枢。耳蜗毛细胞分为外毛细胞和内毛细胞。毛细胞被支持细胞维持在一定位置。哺乳类动物的外毛细胞沿着蜗管方向排列成三排,而内毛细胞排列为一排。 人类的外毛细胞数约为12000个,内毛细胞数约为3500个。

    图4 科尔蒂(Corti)器官的横截面,出现在基部转弯处,显示出网状薄层中的毛细胞,其束成束的纤毛延伸到保护膜。Deiters的细胞将延伸部分向上延伸至网状层,在外部毛细胞周围的空间中运行[9]。
    在这里插入图片描述

    图5 Corti的人体器官:从耳蜗中转(500 Hz 处)的断面扫描电子显微照片。在该标本中,内部柱状 细胞(箭头)已部分塌陷,并且盖膜从网状薄层缩小。 有四排外部毛细胞(OHC)[10].

    在这里插入图片描述

    到达内耳的声波使基底膜运动,从而也使Corti 器官运动(如图6),这就在盖膜和毛细胞顶端之间引起剪切运动,这一运动转而使静纤毛移位,感觉毛的弯曲诱发一串电活动,导致感受器细胞基底部化学神经递质的释放和听神经动作电位的发生。内毛细胞和外毛细胞形成突触连接到听神经纤维,将声音由听觉外周传入到听觉中枢。内毛细胞的数量虽少,但受95%的听觉传入神经纤维的支配,每个内毛细胞受16~20 根传入纤维的支配。而外毛细胞主要受起源于听觉脑子的上橄榄核的传出神经纤维的支配。因此,根据这类解剖学上的特征,可以得出结论:内毛细胞主要完成听觉信息向中枢的传递,而外毛细胞主要参与听觉信号转换中的离心调节和主动过程,决定听觉灵敏度和精细辨别能力。

    在两种类型的细胞中,前向转导在内毛细胞和外毛细胞中的发生基本相同。每个毛细胞顶表面上的大量静纤毛(每个毛细胞60 – 120个)通过尖端连接的细纤维相互连接,这些细纤维 从束中较短的静纤毛的尖端中出来,向上延伸以连接相邻的较高的静纤毛。沿兴奋性方向的静纤毛偏转会拉伸末端连接,通过直接的机械作用将机械换能器通道拉开[6][7]。机械换能器通道被认为位于每个束中较短的静纤毛的末端,因此将与每个末端连接的底端相关联[8]。外毛细胞因其在反向转导中具有特殊的机械作用而具有专门化的特征,它具有相对较硬的静纤毛束和活动的细胞体。 内毛细胞具有更直接的功能,充当简单的感觉受体细胞。在这里,由机械换能器通道的打开和关闭引起的细胞内电位的变化改变了细胞基端神经递质的释放,从而激活了听神经的纤维。

    图6 基底膜的向上运动造成的纤毛倾斜
    在这里插入图片描述

    基底膜的机械振动模式在很大程度上决定了听觉反应的特性。声音振动首先由中耳的听骨链通过卵圆窗传入耳蜗,在前庭阶和鼓阶之间形成机械压力差,使得整个基底膜上下振动(如图7)。

    图7 基底膜振动机理
    在这里插入图片描述

    人类的基底膜在耳蜗的基部的宽度为0.08~0.16 mm,向耳蜗的顶部旋转盘旋过程中逐渐变宽,最终达到0. 423~0. 651 mm. 同时基底膜耳蜗基部较大的韧度,在顶部较小,进而基底膜和Corti 器官的质量在耳蜗的基部较小而在顶部较大。基底膜在耳蜗基部和顶部的这种差异,决定了耳蜗基部和顶部的最佳响应频率的不同。

    通过研究表明,基底膜的运动可以用行波理论[9][10]来描述,即沿着基底膜分布着不同的特征频率,其值是由基底膜上各个位点之间的参数值决定的。有关基底膜振动形式的研究始于Békésy对动物和人尸体的观察,他在光镜下观察到,声音引起基底膜振动从耳蜗基部开始,逐渐向蜗顶传播,此即行波(如图7)。在行波的传播过程中,振幅逐渐增大,到达某一位置后便迅速衰减。行波在基底膜上传播的距离以及振幅最大点的位置均与刺激声的频率有关:刺激声频率越高,行波传播距离越短,振幅最大点位置越靠近蜗底。这种声音频率与基底膜部位之间的对应关系称为频率组织结构。后来一些先进的测量技术进一步证实了Békésy的上述观察(如图8)。

    图8 (A)基底膜的行波,首先由贝凯西(Békésy)证明。低频刺激的行波在耳蜗中更尖锐。显示了连续时间(1、2、3)处的波;这些波在包络线(虚线)内顶峰移动,该包络线对于恒定频率的音调保持恒定。
    (B)当前的实验表明,在最佳状态下,耳蜗的行波要比Békésy所示的大得多,并且波峰要尖得多。如果以与A部分中的波浪相同的比例绘制行进波,则该行波将比B部分中所示的波窄5倍,高30倍。摘自Pickles(2013)。
    在这里插入图片描述

    听觉中枢

    来自耳蜗听觉感受器的信号经听神经纤维向听觉中枢传导。听觉中枢各个核团的结构及其相互间的连接极为复杂,主要核团如下:
    耳蜗核:位于延髓,是哺乳动物第一级听觉中枢。在耳蜗核中,神经元通过连接的听神经形成对听觉环境的多种平行的表达方式。来自听神经的传入纤维全部终止于同侧的耳蜗核。耳蜗核主要包含三个亚区:前腹侧耳蜗核(AVCN)、后腹侧耳蜗核(PVCN)和背侧耳蜗核(OCN)。腹侧耳蜗核包括四种主要的神经元:球状丛细胞、球形丛细胞、屋状细胞和章鱼细胞。球状丛细胞主要分布在腹侧耳蜗核的前端,章鱼细胞分布在尾端,星状细胞和球形丛细胞集中在中央位置。腹侧耳蜗核中的球状丛细胞和球形丛细胞主要的投射到上橄榄核、外侧丘系核以及下丘。背侧耳蜗核的结构较腹侧耳蜗核复杂,并有显著的层状结构特征.背’因耳蜗核主要的投射细胞是在核团表面呈规则排列的梭状细胞和深部的巨细胞。

    图9 猫的耳蜗核中细胞类型的分布
    在这里插入图片描述

    图10 听神经及耳蜗核细胞的锁相特征
    在这里插入图片描述

    上橄榄复合体:包括外侧上橄榄核、内侧上橄榄核和内侧斜方体核。

    图11 集中哺乳动物的上橄榄复合体的主要核团在冠状切面上的分布
    在这里插入图片描述

    外侧丘系:包含大量的上行和下行听觉通路的神经纤维。其中上行的纤维由耳蜗核、上橄榄复合体以及外侧丘系内部核团中神经元的轴突组成。这些轴突绝大部分终止于下丘。但也有相当数量的从外侧丘系核发出的神经纤维经过下丘而终止子上丘或内侧膝状体。在外侧丘系的神经纤维当中,有一条细胞群带从外侧上橄榄核一直伸展到下丘腹侧,形成了三个明显的外侧丘系核团. 根据在外侧丘系的位置、细胞结构及神经连接的差异,这三个外侧丘系核团分别被称为外侧丘系腹侧核、外侧丘系中间核和外侧丘系背侧核。

    下丘:包括中央核、中央旁核和外核。中央核是由碟形神经元和多极细胞所形成的层状结构。几乎所有脑子听觉核团对中央核的投射都具有音频拓扑结构。这表明来自于多个听觉脑子结构的神经上行传人按照特征频率汇集在中央核内并被高度整合。

    图12 听觉中脑下丘中的按特征频率分布的层状结构
    在这里插入图片描述

    内侧膝状体:听觉丘脑的最主要的结构,它包含腹侧区、内侧区和背侧区。腹侧区是内侧膝状体主要的听觉信号中转部位,内侧区接受下丘的投射,还接受躯体感觉系统的传人, 与听觉、情绪、学习有密切的关系.背侧区则是显著的多感觉结构,它也接受躯体感觉、视觉的信息传入。

    图13 猫内侧膝状体腹侧区的一个频率段
    在这里插入图片描述

    听觉大脑皮质:听觉神经系统中最高的一级信息处理中心,进一步分为初级区(AI)和若干高级区。在猴类中,文献将听皮质分为"核心区"、“带区"和"外带区”,其中"核心区"包括AI 、R和RT 三个区域;“带区”包括若干个环绕核心区的区域;“外带区”由数个在带区外侧的区城组成,如图13、14。

    图14 猴类听皮质区域分布图
    在这里插入图片描述
    图15 猫听皮质区域分布图
    在这里插入图片描述

    连接性研究表明,听觉皮层的这些区域(核心区、带区和外带区)与其最近的邻域是连续相连的,但与被进一步移除的区域不相连。因此,虽然核心区与带区相互连接,带区与外带区相互连接,但核心区域与外带区带之间没有直接投影。从听觉皮层外侧的外带区到高阶皮层结构的投射定义了听觉背(空间)处理流和腹(非空间)处理流。

    参考文献:

    [1] Barr J Rich N M. The anatomist Andreas Vesalius at 500 years old[J]. Journal of Vascular Surgery 2015 ,61(5) 1370~1374.
    [2] Bear M. Connors B . Paradiso M N Neuroscience: Exploring the Brain. 2nd ed. New York: üppincott Williams &. Wilkins lnc. 2001
    [3] 王建军. 神经科学——探索脑(第2版). 高等教育出版社.
    [4] Nakajima HH, Dong W, Olson ES, et al (2009). Differential intracochlear sound pressure measurements in normal human temporal
    [5] Auditory Pathways: Anatomy and Physiology
    [6] Corey DP, Hudspeth AJ (1983). Kinetics of the receptor current in bullfrog saccular hair cells. J Neurosci 3: 962-76.
    [7] Ryan A , Dallos P. Physiology of the cochlea[M]. In : Hearing Disorders , Northern J ed , Boston : Little Brown , 1984.
    [8] Oghalai J S. The cochlear amplifier : augmentation of the traveling wave within the inner ear[J]. Current Opinion in Otolaryngology & Head & Neck Surgery , 2004 , 12(5) : 431~438.
    [9] Pickles JO (2012). An Introduction to the Physiology of Hearing, 4th edition. Brill, Leiden.
    [10] Glueckert R, Pfaller K, Kinnefors A, et al (2005). High resolution scanning electron microscopy of the human organ of Corti. A study using freshly fixed surgical specimens. Hear Res 199: 40-56.

    展开全文
  • 什么是听觉?机器听觉

    千次阅读 2017-09-15 11:31:25
    什么是听觉?机器听觉听觉作用于,使其感受细胞兴奋并引起的冲动发放传入信息,经各级分析后引起的感觉。 外界通过介质传到外耳道,再传到鼓膜。鼓膜振动,通过听小骨放大之后传到,刺激耳蜗内的纤(也称:...

    什么是听觉?机器听觉?


    听觉作用于,使其感受细胞兴奋并引起的冲动发放传入信息,经各级分析后引起的感觉。

    外界通过介质传到外耳道,再传到鼓膜。鼓膜振动,通过听小骨放大之后传到,刺激耳蜗内的纤(也称:听觉感受器)而产生。神经冲动沿着传到的,形成听觉。作用于,使其感受处于兴奋并引起的冲动以至于传入信息,经各级分析后引起的震生感。听觉是仅次于的重要。它在人的生活中起着重大的作用。人耳能感受的声波频率范围是(重点16~20000赫兹),以(重点1000~3000赫兹)是最为敏感。除了视分析器以外,听分析器是人的第二个最重要的远距离分析器。从生物进化上看,随着专司听觉的器官的产生,声音不仅成为动物攫取食物或逃避灾难的一种信号,也成为它们彼此相互的一种工具。

    声音的属性

    空气振动传导的作用于人的耳朵产生了听觉。人们所听到的声音具有三个属性。称为感觉特性,即、和。音强指声音的大小,由声波的物理特性,即振动时与平衡位置的最大距离所决定。音强的单位称分贝,缩写为dB。0分贝指正常听觉下可觉察的最小的声音大小。音高指声音的,由声波的物理特性频率,即每秒振动次数决定。频率的单位称,缩写为Hz。常人听觉的音高范围很广。可以由最低20赫兹听到20 000赫兹。日常所说的长波指频率低的声音,短波指频率高的声音。由单一频率的波引起的声音是纯音,但大多数声音是许多频率与振幅的混合物。混合音的复合程序与形式构成声音的质量特征,称音色。音色是人能够区分发自不同的同一个音高的主要依据,如男声、女声、钢琴声、提琴声表演同一个曲调,听起来各不相同。音色的不同由发生物体本身决定。


    听觉的适应与疲劳

    所需时间很短,恢复也很快。听觉适应有选择性,即仅对作用于耳的那一频率的声音发生适应,对其他未作用的声音并不产生适应现象。如果声音较长时间(如数小时)连续作用,引起听觉感受性的降低,便称作听觉疲劳。听觉疲劳和听觉适应不同,它在声音停止作用后还需很长一段时间才能恢复。如果这一疲劳经常性地发生,会造成听力减退甚至耳聋。如果只是对小部分频率的声音丧失听觉,叫做。若对较大一部分声音丧失听觉叫做音岛。再严重就会完全。


    声音的混合与掩蔽

    两个声音同时到达耳朵相混合时,由于两个声音的频率、不同,混合的结果也不同。如果两个声音强度大致相同,频率相差较大,就产生混合音。但若两个声音强度相差不大,频率也很接近,则会听到以两个声音频率的差数为频率的声音起伏现象,叫做。如果两个声音强度相差较大,则只能感受到其中的一个较强的声音,这种现象叫做声音的。声音的掩蔽受频率和强度的影响。如果掩蔽音和被掩蔽音都是纯音,那么两个声音频率越接近,掩蔽作用越大,低频音对高频音的掩蔽作用比高频音对低频音的掩蔽作用大。掩蔽音强度提高,掩蔽作用增加,覆盖的频率范围也增加,掩蔽音强度减小,掩蔽作用覆盖的频率范围也减小。


    婴儿的听觉

    新生儿除了应给予丰富的外,还应接受丰富的听觉刺激。婴儿刚出生时,和听觉“各司其职”,对小儿进行视觉和听觉的,有助于感觉之间的“接通”,促进小儿感知觉的发展。促进小儿听觉的音响玩具品种很多,如各种音乐盒、哗铃棒、拨浪鼓、各种形状的吹塑捏响玩具、能拉响的及各种发出声响的悬挂玩具等。在宝宝清醒时,家长可在宝宝耳边轻轻摇动玩具,发出响声,引导宝宝转头寻找声源。除了用音响玩具外,大人还可以拍拍手、学小猫“喵呜”叫、学小狗“汪汪”叫等逗引小儿,使他作出向声音方向的转头反应。

    解释听觉现象及其机制的各种学说。如何产生听觉,一直是人们感兴趣的问题。一个完整的听觉理论应当是对整个听觉机制的阐述。但是,历史上的一些经典的听觉理论,实际上只涉及到耳是如何辨别音高的,因而只是一种耳蜗的音高学说。随着近代电子计算机技术和神经的进展,虽然对的功能有了某些了解,但总的说来,对听觉系统如何加工来自外周的听觉信息以及如何产生听觉,仍然知道很少。


    机器听觉(语音识别)

    【制出能听懂人类语言的智能计算机的设想看来最终会实现的, 而成功者却是数学家们。】

    人们常常把语音识别比做为“机器的听觉系统”。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。车联网也得到了充分的引用,例如在翼卡车联网中,只需按一键通客服人员口述即可设置目的地直接导航,安全、便捷。

    语音识别是一门交叉学科。近二十年来,取得显著进步,开始从实验室走向市场。人们预计,未来10年内,将进入工业、家电、通信、汽车电子、、家庭服务、等各个领域。 语音识别听写机在一些领域的应用被新闻界评为1997年计算机发展十件大事之一。很多专家都认为是2000年至2010年间领域十大重要的科技发展技术之一。所涉及的领域包括:、、概率论和信息论、发声机理和听觉机理、等等。


    发展史

    1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字的实验系统。

    1960年英国的Denes等人研究成功了第一个计算机。

    大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。

    进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。

    进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在的应用及产品化方面出现了很大的进展。

    DARPA(Defense Advanced Research Projects Agency)是在70年代由国防部远景研究计划局资助的一项10年计划,其旨在支持语言理解系统的研究开发工作。

    到了80年代,国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”。

    到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。

    日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关的研究有了大幅度的加强和进展。

    1987年起,日本又拟出新的国家项目---高级人机口语接口和自动系统。


    中国发展

    中国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。

    进入80年代以后,随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上在经过了多年的沉寂之后重又成为研究的热点,发展迅速。就在这种形式下,国内许多单位纷纷投入到这项研究工作中去。

    1986年3月中国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,中国开始了有组织的的研究,并决定了每隔两年召开一次语音识别的专题会议。从此中国的进入了一个前所未有的发展阶段。


    识别模式

    这一时期的语音识别方法基本上是采用传统的策略。其中以苏联的Velichko和Zagoruyko、日本的迫江和千叶,以及当时在的板仓等人的研究工作最具有代表性。

    苏联的研究为应用于语音识别这一领域奠定了基础;

    日本的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式之间进行非线性时间匹配的方法;

    板仓的研究提出了如何将线性预测分析技术(LPC)加以扩展,使之用于语音信号的特征抽取的方法。


    数据库

    在语音识别的研究发展过程中,相关研究人员根据不同语言的特点,设计和制作了以(包括不同方言)、英语等各类语言的语音数据库,这些语音数据库可以为国内外有关的科研单位和大学进行汉语连续语音识别算法研究、、及产业化工作提供充分、科学的训练语音样本。例如:MIT Media lab Speech Dataset(麻省理工学院媒体实验室语音数据集)、Pitch and Voicing Estimates for Aurora 2(Aurora2语音库的基因周期和声调估计)、Congressional speech data(国会语音数据)、Mandarin Speech Frame Data(普通话语音帧数据)、用于测试盲源分离算法的语音数据等。


    技术发展

    目前在大词汇语音识别方面处于领先地位的IBM语音研究小组,就是在70年代开始了它的大词汇语音识别研究工作的。AT&T的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年,其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。

    这一时期所取得的重大进展有:

    ⑴(HMM)技术的成熟和不断完善成为语音识别的主流方法。

    ⑵以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型。

    ⑶在语音识别中的应用研究的兴起。在这些研究中,大部分采用基于(BP算法)的多层感知网络。人工神经网络具有区分复杂的分类边界的能力,显然它十分有助于模式划分。特别是在电话语音识别方面,由于其有着广泛的应用前景,成了当前语音识别应用的一个热点。

    另外,面向个人用途的连续语音听写机技术也日趋完善。这方面,最具代表性的是IBM的和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。


    中国的的发展

    ⑴在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。

    ⑵现在,国内有不少已研制成功。这些系统的性能各具特色。

    · 在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。

    · 在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语——语音翻译演示系统。

    ·在非特定人语音识别方面,有清华大学在87年研制的声控电话查号系统并投入实际使用。


    分类应用

    根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。

    根据针对的人,可以把分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人更符合实际需要,但它要比针对特定人的识别困难得多。

    另外,根据语音设备和通道,可以分为(PC)语音识别、电话语音识别和(手机、PDA等)语音识别。不同的采集通道会使人的的声学特性发生变形,因此需要构造各自的识别系统。

    语音识别的应用领域非常广泛,常见的应用系统有:系统,相对于输入方法,它更符合人的日常,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。


    识别方法

    语音识别方法主要是模式匹配法。

    在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库。

    在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。


    主要问题

    语音识别主要有以下五个问题:

    对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。

    语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。

    语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和中常见。

    单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和速度等

    环境噪声和干扰对语音识别有严重影响,致使识别率低


    前端处理

    前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。


    声学特征

    声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。


    LPC

    线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。


    CEP

    利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。


    Mel

    不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个相近的音调同时发出时,人只能听到一个音调。临界指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界的度量方法之一。


    MFCC

    首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。


    声学模型

    模型通常由声学模型和语言模型两部分组成,分别对应于语音到概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。

    HMM声学建模:的概念是一个离散时域有限状态自动机,HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。

    语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。

    上下文相关建模:协同,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。

    英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的标注。


    语言模型

    语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中简单有效,被广泛使用。

    N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

    语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。


    搜索

    连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。

    Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。

    由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或,进行重新打分。最新的实时大词表连续许多都使用这种多遍搜索策略。

    N-best搜索产生一个候选列表,在每个要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选以一种更紧凑的方式给出多候选,对N-best作相应改动后可以得到生成候选网格的算法。

    前向后向是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。


    系统实现

    选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,的协同不如英语严重,可以采用建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。

    听写机:大词汇量、非特定人、连续通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成,用Viterbi算法进行解码。针对易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。

    对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、等等。其前端是一个语音识别器,识别产生的N-best候选或词候选,由进行分析获取语义信息,再由对话管理器确定应答信息,由器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。


    适应强健

    的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。

    解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。

    说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。

    语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道包括录音时话筒的、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。


    识别引擎

    在office和中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用,例如《语音游戏大师》《语音控制专家》《芝麻开门》《警卫》等等软件。其中《警卫》是唯一可以控制单片机类的硬件设施!!

    2009年发布操作系统,语音识别得到了更好的推广!


    性能指标

    性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。


    小结

    以上介绍了实现的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。


    最新进展

    近几年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

    1、技术新发展

    1)将机器学习领域深度学习研究引入到语音识别声学模型训练,使用带RBM预训练的多层神经网络,极大提高了声学模型的准确率。在此方面,微软公司的研究人员率先取得了突破性进展,他们使用深层神经网络模型(DNN)后,语音识别错误率降低了30%,是近20年来语音识别技术方面最快的进步。

    2)目前大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络,该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,大大提高了解码的速度,为语音识别的实时应用提供了基础。

    3)随着互联网的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。

    2、技术新应用

    近期,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。

    目前,国外的应用一直以苹果的为龙头。

    而国内方面,科大讯飞、云知声、盛大、捷通华声、搜狗语音助手、紫冬口译、百度等系统都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。


    原网站:http://www.sohu.com/a/115815727_464088

    展开全文
  • 计算机视觉概述

    2021-06-16 17:50:11
    我们可以这么来看待人工智能技术,它可以说是利用计算机技术来对人的感官,例如视觉听觉、触觉以及思维进行模拟,从而建立起逻辑推断等智能才具备的能力。其中,计算机视觉技术无疑是至关重要的,也是非常困难的。...

    计算机视觉概述

    可以说,计算机视觉技术是人工智能技术的核心方向,特别是深度学习技术在计算机视觉中的应用,在最近五六年的人工智能浪潮中担当了先锋者的角色。甚至可以说,如果没有深度学习技术在过去几年对计算机视觉一些核心领域的推动和促进,就很可能没有这一波的人工智能技术浪潮。

    我们可以这么来看待人工智能技术,它可以说是利用计算机技术来对人的感官,例如视觉、听觉、触觉以及思维进行模拟,从而建立起逻辑推断等智能才具备的能力。其中,计算机视觉技术无疑是至关重要的,也是非常困难的。

    今天我会带你先来看看究竟什么是计算机视觉,以及这个方向的研发都需要解决哪些核心问题。

    计算机视觉定义

    关于计算机视觉(Computer Vision,CV),有两种人们普遍接受的定义。

    第一种定义认为,计算机视觉是从数字图像(Digital Images)中提取信息。这些信息可以是图像中的物品识别(Identification)、导航系统的位置测量(Space Measurement)以及增强现实(Augmented Reality)的应用。

    计算机视觉的第二种定义主要是从应用的角度出发,认为计算机视觉是为了构建可以理解数字图像内容的算法,从而有多种应用。

    那到底什么是计算机视觉呢?主要解决哪些问题?我们可以拿人类视觉的主要功能来做类比,就比较容易理解了。

    当人类面对一个现实中的场景时,我们有一个感官器官来收集信号,那就是“眼睛”。眼睛收集的原始信号转换为人可以处理的信息之后,这些信息就来到了“大脑”这一个人类信息处理中心,进行分析和处理。

    这个过程中最主要的一个处理模块,就是对信号产生“语义”(Semantic)解释或者进行逻辑上的理解。比如,当我们看到一个公园的一角以后,需要识别这个场景里的桥梁、水、树等物体,并且在头脑中形成这些物体的概念。可以说,这就是人类视觉系统的一个简单的框架,眼睛收集信息,大脑处理信息。

    那么,在整体的框架上,计算机视觉其实就是希望模仿人类的视觉系统构架。输入依然是一个现实中的场景,但是我们需要借助其他的感知仪器(Sensing Device)来从中获取原始信息。最常见的感知仪器包括照相机、摄像机以及现在广泛普及的手机摄像头。从这些感知仪器中获取了最初级的信息之后,计算机视觉的“大脑”就是计算机。这里的“计算机”其实是指计算机算法,通过算法理解原始数据,构建语义信息。

    这么理解起来,计算机视觉技术好像挺简单的。就像 1966 年,麻省理工大学的一个本科生想做这样一个暑期项目,并且认为这个项目可以在一个暑假里解决。这或许就是计算机视觉的一个起源了。但是,令人感慨的是,计算机视觉绝不是可以在一个假期内解决的项目,整整半个多世纪已经过去了,计算机视觉依然有很多值得挑战的课题,也依然还在高速发展中。

    2.2 计算机视觉的领域特点

    了解了计算机视觉的定义之后,我们来进一步聊一聊这个领域的一些特点。

    首先,计算机视觉是一个“跨学科领域”。正如刚才所说,对人类视觉的研究给计算机视觉带来了重要的启发。那这里就涉及到生物领域的研究,包括对人的眼睛以及视觉神经的研究。一方面,我们需要感知器来从现实世界中获取信息。那么,对于感知仪器来说,设备越是精确,就越能完整地捕捉外界世界的信息。这里就涉及到物理,特别是光学的研究。另一方面,人脑是处理所有信号并且形成语义概念的器官,理解人脑的信息处理机制就会对计算机视觉的发展有重要的作用,这就涉及到脑科学和认知科学等领域。

    除此以外,计算机视觉毕竟是一个和计算机结合得很紧密的学科方向。因此,要想设计高效的计算机视觉算法,就必须和计算机科学的很多其他方向结合并借鉴,例如信息检索、计算机体系结构、机器学习等。

    计算机视觉的另外一个特点,就是这个领域包含了很多非常深刻的困难问题。我们说,从计算机视觉被当作一个暑假项目到现在,五十多年已经过去了,这个领域依然在蓬勃发展着。时至今日,我们依然不能说计算机视觉是一个已经被完全解决的问题。

    那计算机视觉任务“难”在哪里呢?我认为根本原因在于计算机视觉算法处理的输入,也就是数字化了的图像信息和我们需要理解的语义信息之间存在巨大的鸿沟。举例来说,一个 200 乘以 200 的 RGB 图像其实就是一个由 12 万个数字组成的矩阵,但是这个矩阵可能代表一个非常复杂的图像。从数字到具体的图像中的物体,再到去理解这个图像的语义,这中间有很长的距离。

    一直以来,计算机视觉也在尝试去构造和逼近一些人类视觉系统的特点,但是困难重重。比如,人类视觉系统的反应很快。有实验表明,从一幅普通场景的图像中,人类只需要 150 毫秒就能够识别出里面的物体。另外,人类视觉系统的复杂性还来自于对世界认知的理解。例如,人可以依靠过去的记忆或者经验,还可以依靠其他外界知识,来对图像中的物体进行判断。这些都是计算机视觉系统难以企及的。

    当然,在经历了半个世纪的研究之后,也有不少学者提出怀疑的观点,计算机视觉研究是否要对人类视觉系统进行完全的模仿呢?一种观点是,计算机视觉系统并不需要亦步亦趋地完全照搬人类视觉系统,这可能也并不是一条切实有效的道路。有一种观点认为,计算机视觉系统可以从人类视觉或者其他领域得到灵感,但是究竟应该如何搭建一个有效的系统,还是需要开辟新的研究道路。

    2.3 计算机视觉的应用

    计算机视觉技术的领用非常广泛,可以说是深入到了普通人生活的方方面面。在这些应用中,除了我们日常比较容易接触到的,例如面部识别、光学字符识别(OCR)、电影特效、视觉搜索以外,还包括最近几年飞速兴起的自动驾驶、自动无人商店、虚拟现实、增强现实等等。

    可以说计算机视觉的应用任务领域众多。近几年都受到深度学习的影响,绝大多数领域都得到了高速发展,但是依然需要领域知识来构建更加有效的模型。

    2.4 计算机视觉任务的基础模型和操作

    2.4.1 像素表达

    我们在上一次的分享中谈到了计算机视觉任务中一个非常重要的步骤,那就是把现实世界的信号通过感知仪器(Sensing Device)收集起来,然后在计算机系统中加以表达。那么,在所有的表达中,最基础的就是“像素表达”(Pixel)。我们这里就展开说一说这种表达的思路。

    把图像信息利用像素来进行表达是一种非常直观简单的表达方式。

    对于黑白图像来说,图像就被转换为了 0 或者 1 的二元矩阵。这个矩阵的每一个元素就是一个像素,0 代表黑,1 则代表白。

    对于灰度图像来说,每一个像素,或者说是矩阵的每一个元素,代表灰度的“强度”(Intensity),从 0 到 255,0 代表黑,255 代表白。

    对于彩色的图像来说,我们一般要先选择一种模型来表示不同的颜色。一种较为流行的表达方式是 RGB(红、绿、蓝)模型。在这样的模型中,任何一个彩色图像都能够转化成为 RGB 这三种颜色表达的叠加。具体来说,就是 RGB 分别代表三种不同的“通道”(Channel)。每一种通道都是原始图像在这个通道,也就是这个原始颜色下的表达。每一个通道都是一个矩阵像素表达。每一个像素代表着从 0 到 255 的值。换句话说,一个彩色图像在 RGB 模型下,是一个“张量”(Tensor),也就是三个矩阵叠加在一起的结果。

    针对像素,你需要建立一种概念,那就是像素本身是对真实世界中的“采样”(Sample)。每一个像素是一个整数,整个像素表达并不是一个“连续”(Continuous)表达。因此,在把世界上的连续信号采样到离散像素的这一过程中,难免会有失真。而不同的“分辨率”,会带来失真程度不同的像素表达。

    2.4.2 过滤器

    既然已经把图像表达成为了像素,也就是某种矩阵的形式,那么我们就可以利用线性代数等工具在这个矩阵上进行变换,从而能够对图像进行某种操作。这就是“过滤器”(Filter)的一个基本思想。

    很多计算机视觉的操作本质上都是过滤器操作。除了把过滤器想成某种线性代数变换之外,更普遍的一种思路是把在矩阵上的操作想成某种函数的操作。因此,我们也可以认为过滤器是函数在某一个特定区间内的操作。

    举一个最简单的过滤器的例子,就是“移动平均”(Moving Average)。这个过滤器的本质就是针对每一个像素点,计算它周围 9 个像素点的平均值。如果我们针对每一个像素进行这样的操作,就会得到一个新的矩阵。然后我们把这个矩阵当作新的像素表达进行视觉化,就会发现是在原有图像基础上进行了“柔化”处理。反过来,如果我们需要对某一个图像进行柔化处理,就需要对其进行“移动平均”过滤操作。

    有了这个直观的例子,你一定能够想到,很多我们熟知的图像特效处理,其实都对应着某种过滤器操作。

    这里,我们提及一种比较特殊的过滤处理,那就是“卷积”(Convolution)。这个概念我们在深度学习中经常接触到。

    刚才我们说到“移动平均”这个过滤器。如果我们把图像看作是一个函数 F 在某一个区域的取值,那么,“移动平均”这个过滤器是针对函数在某一点的取值(也就是某一个像素的取值),通过利用同样的函数 F 在周围的取值,从而得到一个新的计算值。

    那卷积操作的思想是怎样的呢?卷积是针对 F 在某一个点的取值,除了需要利用 F 在周围的点以外,还需要利用另外一个函数,这里称作是 H 的取值。也就是说,我们要利用 H 来针对 F 进行操作。

    2.4.3 边界探测

    除了通过过滤器对图像进行简单操作之外,还有一些图像的基本操作蕴含了计算机视觉的基本原理。我们这里也稍微做一些介绍。

    例如我们通常需要了解图像的边界。有研究表明,图像的边界对于人类认知图像的内涵有着特殊的意义。因此从一个完整的图像中找到不同物体的边界是一个很有现实意义的任务,并且通常被称作是“边界探测”(Edge Detection)。

    那么,怎么来认识图像中的物体边界呢?我们先从直观上来想一想,在图像中,“边界”都有什么特征?一般来说,如果我们遇到了色彩、景深、照明的突然变化,或者是其他某种图像特质上的突然变化,我们就有可能遇到了边界。现在的问题是,在像素或者函数表达的情况下,如何来描述和检测这些“突然变化”?

    在数学分析中我们学过,描述函数值变化的概念叫“导数”或者“梯度”(Gradient)。梯度大小(Gradient Magnitude)和梯度方向(Gradient Direction)都包含了函数变化的重要信息。

    虽然梯度从数学的角度来说刻画了函数的变化,但是这对于设计一个实际的边界探测器依然是不够的。一个好的边界探测器需要真正能够探测到边界,也就是要尽可能少地出现错误,能够对边界进行定位(Location)的同时还需要尽量使边界平滑和链接。

    在真实的边界探测中,我们往往先让图像变得更加平滑,比如利用“高斯柔化”(Gaussian Blur)的办法,然后在这个基础上计算梯度大小和方向,有了这些之后再进行一些后期处理。

    2.5 计算机视觉中的特征提取

    2.5.1 特征提取的目的

    在深入讨论特征提取之前,我们先来了解一下特征提取的目的,或者说是研究特征提取的必要性。

    从大的方面来说,计算机视觉的一部分任务是实现对图像的智能理解。那么,理解图像的语义就是其中一个非常重要的任务。

    我们提到的边界检测或者是颜色检测,虽然都是理解图像的任务,但是这些任务并不理解图像中具体的物体,比如哪里是一只动物、哪里是行人等。那么,怎样才能理解图像中具体的物体呢?或者更进一步,整个图像表达了怎样的社会关系或者说是场景关系?例如一张会议室的图像,我们不仅关心里面的陈设和人物,还关心会议室的整体气氛,以及这样的气氛是不是传递出了更复杂的人物之间的社会关系。

    那么,如何实现这种更高维度的语义理解呢?这往往需要我们对底层的一些图像先进行抽象,然后再在抽象出来的特征基础上,进一步来建模。

    除了我们这里提到的对图像本身的理解以外,在很多任务中,我们还需要对图像和其他信息结合起来进行理解和分析。一种常见的形式是图像和一段文字结合起来,对某一个物品或者某一个事件进行描述。例如电商网站的商品信息,一般都有精美的图片和详细的介绍,这些信息组合起来完整地描述了整个商品的信息。

    这个时候,我们就要同时理解图像和文字信息。很明显,在这样的任务中,一种比较容易想到的模式是先从图像和文字中分别抽取一定的抽象特征,有了高度概括的图像特征和文字特征之后,我们再在这个基础上进行建模。

    从比较小的计算机视觉的任务来说,很多时候,一个任务会涉及到两个步骤:把任务抽象为提取特征,然后转换为一个普通的机器学习任务。这个流程的第二步可以是一个监督学习任务,例如回归或者分类;也可以是一个非监督学习任务。需要注意的是,我们这里提到的两个步骤,并不一定是绝对地把建模过程当作两个完全独立的步骤,而是从逻辑上对这两个步骤进行区分。事实上,在现代的深度学习架构中,这两个步骤往往都在统一的一个架构下进行训练,从而能够得到更好的效果。

    今天,我们就从传统的计算机视觉的角度,来看看特征提取有哪些难点和经典方法。

    2.5.2 特征提取的难点及基本思路

    图像数据的特征提取为什么有难度呢?原因在于图像信息本身的复杂性。

    试想我们有两张人民大会堂的建筑物照片,一张是从地面拍摄的,一张是从空中拍摄的。虽然这两张照片可能在角度、色彩、位置等方面有很多的不同,但是因为这两张照片本身所描述的对象是一致的,都是人民大会堂,因此我们希望从这两个图片中提取的特征有一些相似性。也就是说,我们需要找到在诸多变化因素中不变的成分。

    一个经典的思路是从局部信息(Local Information)入手,从图像中提取相应的特征。从实际的效果来看,局部特征(Local Feature)比全局特征更加稳固。

    回到上面的例子,如何构造一个能够匹配两个图片的普遍的局部特征呢?过程如下:第一,找到一组关键的点或者是像素;第二,在关键点周围定义一个区域;第三,抽取并且归一化这个区域;第四,从归一化后的区域提取“局部描述子”(Local Descriptor)。得到局部描述子之后,我们就可以利用它来进行匹配了。

    从上面这个流程来看,整体的思路其实就是希望从局部找到具有代表性的特征,然后把所有因为各种因素造成的特征变化归一化掉。

    当然,这个简单的流程是有一些问题的。比如,如果我们针对两幅不同的图像分别进行上述的流程,那么很有可能最后得到的关键点和局部描述子都不一样。所以我们需要一种更具普适性的方法。

    其实从 70 年代开始,就有一大部分的计算机视觉工作是在研究如何构建局部特征描述子。在这 30 多年的发展历程中,很多研究工作者提出了不少既有理论基础又有实用价值的特征提取方法。甚至是最近的深度学习热潮,从某种程度上来说也是一个重要的特征提取成果。

    在这些研究成果中,比较有代表性的局部描述子包括 SIFT(Scale-invariant feature transform)描述子和 HOG(Histogram of oriented gradient)描述子。关于这两个描述子,我在这里不展开介绍它们的细节,因为在深度学习浪潮中,大部分利用描述子来对特征进行提取的方法都被淘汰了,但是这些方法的思路,我们在很多类似的工作中依然可以借鉴。

    展开全文
  • 计算机视觉简介

    2017-11-29 21:39:35
    计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。...
  • 西电计算机视觉大作业课程:计算机视觉专业:模式识别与智能系统学号:姓名:数字水印技术引言随着互联网广泛普及的应用,各种各样的数据资源包括文本、图片、音频、视频等放在网络服务器上供用户访问。但是这种网络...
  • 稳态视觉诱发电位SSVEP介绍

    千次阅读 2020-04-24 21:28:25
    目录SSVEP产生信号原理视觉刺激频率 本分享为脑机学习者Rose整理发表于公众号:脑机接口社区(微信号:Brain_Computer).QQ交流群:941473018 诱发电位是当大脑受到脉冲电流...诱发电位主要有视觉诱发电位、听觉诱发...
  • 计算机视觉自学笔记

    千次阅读 2017-10-13 19:59:05
    计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。...
  • 标题 小白计算机视觉学习报告 视觉学习报告 第一次写CSDN博客,没想到是自己五周来的视觉学习报告。 和大家分享一下,供大家参考。 总述: 在这篇学习报告中,我将从三个方面来阐述我这段时间以来所学的东西。首先,...
  • YY0709-2009规定了报警系统和报警信号的要求,其中最核心的依然是视觉报警信号和听觉报警信号的要求,今天主要谈一谈视觉报警。 视觉报警信号的要求主要集中在标准第201.3.2条款 标准规定每一个报警状态应引起...
  • 计算机视觉

    千次阅读 2016-11-12 15:11:18
    计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样。 计算机视觉是一门关于如何运用...
  • 机器视觉带你看清智慧工业

    千次阅读 2018-09-25 11:13:13
    智慧工业离不开智能制造,智能制造离不开机器视觉。机器视觉是近年来发展迅速的一项新技术,利用光机电一体化的手段使机器具有视觉的功能。机器视觉为工业自动化打开了“新窗口”。智能制造时代,机器视觉发展潜力...
  • 双目视觉立体匹配算法的研究

    千次阅读 2020-12-24 19:01:32
    双目视觉立体匹配算法的研究 摘要 立体视觉匹配技术是机器视觉领域里最重要的研究方向之一,立体视觉匹配的主要目标是从两个或多个同一场景的图像中找到对应点,进而生成参考图像视差图。基于立体匹配生成的视差图,...
  • 智慧工业离不开智能制造,智能制造离不开机器视觉。机器视觉是近年来发展迅速的一项新技术,利用光机电一体化的手段使机器具有视觉的功能。机器视觉为工业自动化打开了“新窗口”。智能制造时代,机器视觉发展潜力...
  • 视觉的目的是什么?

    2021-03-12 15:35:55
    作者:周纵苇、亚利桑那州立大学博士导读:视觉,对于人类或动物来说,似乎是一件稀松平常的事情,我们甚至都不需要去有意识地训练自己,就可以天赋一般地认识世界。对于机器而言,理解图片却是一项极其...
  • 点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达 本文转自丨极市平台导读视觉的目的是什么?设计匹配亦或是分类。作者从“视觉的目的”引发讨论,简要回顾...
  • 但在重大研究计划中,无人驾驶汽车所扮演的角色并不仅仅是“中国智能车未来挑战赛”中的“选手”,它们有更重要的任务——验证图像与视觉信息的计算、语音与听觉信息的计算、脑—机接口这些方面的研究成果。...
  • 本文转自知乎,已获作者授权转载,请勿二次转载。https://zhuanlan.zhihu.com/p/151696020文章略有修改。 01 前言近年来计算机视觉和深度学习...
  • 词袋模型是计算机识别领域中有效且稳定的视觉物体识别方法。...借助语音合成技术,将识别结果转化为语音并输出,最终帮助盲人实现视觉听觉的感知替代。以家居环境4类典型物体识别为例,设计实验结果证明了方案的有效性。
  • 视觉感知与认知

    千次阅读 2021-03-15 10:37:10
    2. 视觉感知与认知 2. 视觉感知与认知2.1 感知与认知2.1.1 视觉感知处理过程2.1.2 格式塔理论2.1.2.1 贴近法则 (proximity)2.1.2.2 相似法则 (similarity)2.1.2.3 连续原则 (continuity)2.1.2.4 闭合原则 (closure)...
  • ▲ 视听觉信息研究对象 数据显示,人类获取外界的信息80%来自视觉,而且,大脑皮层的60%都与视觉相关。当然,听觉也是非常重要的部分。 先锋科学家揭示,自然图像经过稀疏编码以后的基函数与微曲的皮层细胞感受的...
  • 电商行业转化率到底如何计算?

    千次阅读 2020-12-14 18:16:39
    行为转化率 = 期望行为数 / 行为总数总体功能转化率 = 行为转化率1 * 行为转化率2 *行为转化率3 * ...*行为转化率N 期望行为是希望考量目标做到的行为,比如阅读完一篇文章、完成一次注册、绑定银行卡、支付成功等...
  • 干货 || 分析9款常用视觉软件

    千次阅读 2018-06-16 10:55:32
    一、开源的OpenCVOpenCV(Open Source Computer Vision Library:http://opencv.org)是一个开源的基于BSD许可的库,它包括数百种计算机视觉算法。文档OpenCV 2.x API描述的是C++ API,相对还有一个基于C语言的...
  • 摘自于:汤勃, 孔建益, 伍世虔....图像识别【视觉】机器视觉表面缺陷检测综述(上)【视觉】机器视觉表面缺陷检测综述(中)2.4 表面缺陷目标识别算法统计模式识别(statistical pattern recognition)和句法(...
  • 视觉求索公众号编辑 朱松纯  加州大学洛杉矶分校UCLA统计学和计算机科学教授(Song-Chun Zhu;www.stat.ucla.edu/~sczhu) 时 间 2016年10月  杨: 朱教授,你在计算机视觉领域耕耘20...
  • 计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。...
  • 转载自 视觉求索2016-11-22 谈话人: 杨志宏  视觉求索公众号编辑 朱松纯  加州大学洛杉矶分校UCLA统计学和计算机科学教授  Song-Chun Zhu  www.stat.ucla.edu/~sczhu 时间: ...
  • 视觉系统:人类最重要的感觉

    千次阅读 2020-04-03 19:07:39
    (五)视觉信号在大脑中的第一站:外侧膝状体(六)视觉信号在大脑中的第二站:初级视觉皮层(七)视觉信号在大脑中的第三站:高级视觉皮层们 (零)前言 近期打算和小伙伴一起,创作一个专栏,专门讲解人类最重要的...
  • 早在50年前,工业机器人就已经横空出世,给人类带来更多的方便...视觉对人非常重要,人类获得的讯息90%以上都是依靠眼睛,而我们就来看看人工智能的前沿技术——机器视觉。 技术的演进与创新,推动制造业的变革与进...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,337
精华内容 934
关键字:

听觉转化视觉