精华内容
下载资源
问答
  • 听觉转化视觉
    2021-03-03 15:20:00

    点击上方“小白学视觉”,选择加"星标"或“置顶

    重磅干货,第一时间送达
    

    本文转自丨极市平台

    导读

     

    视觉的目的是什么?设计匹配亦或是分类。作者从“视觉的目的”引发讨论,简要回顾计算机视觉在通用视觉特征学习的发展历程,以及近期在这个领域取得的众多突破,最后对自监督学习框架提出一些作者自己的想法。 

    摘要: 视觉,对于人类或动物来说,似乎是一件稀松平常的事情,我们甚至都不需要去有意识地训练自己,就可以天赋一般地认识世界。对于机器而言,理解图片却是一项极其困难的任务,计算机视觉是一门教机器如何“看”的科学。当给定一个明确的目标函数并加以不断地迭代,当前的计算机已经可以完成很多复杂的任务,比如图像视频分类,目标跟踪和检测,实例分割,关键点检测等。完成单一的复杂任务虽然能够清晰地定义目标函数,但是训练成本高,数据收集困难,并且复杂任务的数量不胜枚举,尤其是对于跨学科的图像理解任务。人类的视觉恰恰相反:通过长时间的观察学习,只需很少的监督样本就可以快速达到多个领域的专家水平。要给这种长期的,无监督的学习定义一个清晰的目标函数或目标任务,却是一项非常具有挑战的课题,也是计算机视觉一直在探索的问题。这次分享,我将会从“视觉的目的”引发讨论,简要回顾计算机视觉在通用视觉特征学习的发展历程,以及近期在这个领域取得的众多突破,最后对自监督学习框架提出一些我自己的想法。

    为什么问“视觉的目的是什么?”

    大家好,我是周纵苇,现在是亚利桑那州立大学的博士生,再过几个月我就毕业了,今天很高兴在这里和大家聊一聊计算机视觉。视觉不是人类特有的,大多数的动物,或者更宽泛地来说,摄像头,都有所谓视觉,来收集光线,并做出某些反应。比如现在我没有真的坐在大家的面前,但是你们可以通过摄像头看到我。现在的摄像头变得越来越聪明了,它不光能检测到物体,还能跟踪,能识别人脸,能给我实时地做美颜,这还不算什么,现在的摄像头还能辅助自动驾驶,自动手术等等。真的和我们的视觉越来越像了。问题是,既然摄像头这么智能,如果用它来替换动物的眼睛,能好使吗?小猫小狗的视觉系统可能还远远做不到像现在的摄像头一样,把图片中的大大小小的东西都识别出来,打上标签,甚至把边缘都分割得那么好,它们的视觉系统看起来笨笨的,但是很稳定,很可靠。摄像头背后的秘密就是我们今天讨论的计算机视觉,它的最终目标就是能让计算机像人一样地看见,理解照片,视频,和周围的环境,并且能作出某些反应。

    我们先来看看为什么现在的计算机视觉在某些任务中这么厉害——比如人脸识别——因为它目的明确。在训练计算机的时候,我们就告诉它,你把这个事儿做了,其他不用管,跟我们小时候差不多,你把学习弄好了,其他大大小小的家务不用你管。那这个事情就简单了,我们需要做的就是把目标函数设计好,计算机的任务就是不停地学,不停地迭代,直到无限靠近这个目标。用这一套方法论,你会发现计算机视觉很简单嘛,很多任务,只要我们能清晰地设计出目标函数,并且能收集到大量的数据集,计算机视觉非常容易在某个任务中超越人眼。我说到这儿,不知道大家有没有在想一个问题?如果说计算机视觉的终极目标是让计算机拥有像人类或者动物一样看上去笨笨的但是可靠的视觉理解系统,那我就请问,

    • 视觉的目的是什么?或者视觉的目标函数是什么?

    • What is the Will of Vision?

    “视觉的目的是设计和匹配特征?“

    这个问题很有意思,基本上贯穿了整个计算机视觉的研究脉络。在我还没生出来的时候,计算机视觉是以规则为主的,对于所有的概念,我们都需要很详细地去设计它的特征。比如要让计算机了解猫,最简单的特征就是它的脸,形状,四肢,尾巴等等,为了和狗做区分,我们还要设计那些显著的特征。有了这些特征,计算机就去匹配,能匹配上的就是猫。现在回过来看,你会发现这种方法特没谱,首先,就算计算机认出了这只猫,这算不上理解,只是对一些规则的数学匹配;其次,普遍的规则很难用在复杂的现实情况中,这只猫必须站的非常端正,计算机才能把它认出来;再有,定义一个概念是非常不容易的,何况有那么多概念要定义。那时候的计算机视觉,目的就是特征的计算和匹配——无论是人为设计的还是用公式算出来的特征,只要匹配上了,计算机就算认出了这个东西。它的弊端虽然不言而喻,但为了解决它还是费了很多时间的。

    “视觉的目的是大规模分类?“

    后来是怎么解决这个问题的呢?我们就得回头分析人的视觉系统了,在我们认识世界的时候,没有人给设计特征,完全是靠大量地长时间地看,不知不觉地就形成了视觉理解。“不知不觉”这个事情很玄,没法在工程上实现,那么我们就退一步,给计算机看很多很多的图片,并且告诉它里面有什么,通过这个方法来形成计算机视觉。最有名的就是ImageNet,这个图片数据集,里面包含了很多人工标注的概念,比如猫,狗。它和之前方法不同的是,从此我们不再需要人为地设计特征了,而是让计算机自己从大量的图片和标签配对中学习这么多概念和它们对应的视觉特征。

    用这个方法学习的计算机视觉很强,怎么看出来的呢?是在众多的benchmark任务中体现出来的。我们称这些模型为ImageNet预训练模型。计算机视觉,在这个任务中的目的也很明确,就是准确分类,让计算机的识别和人类标注越接近越好。是不是顺着这个思路,我们可以训练出一个至少像动物一样可靠的视觉系统呢?如果答案是的话,问题就简单多了,扩充ImageNet数据集,增加类别数,增加图片量,增强模型设计。虽然有人说这样很费时间也很费钱,但是如果这个思路真的可行,能用钱解决的问题都不是大问题。可是我们想一想,人类或者动物的视觉是这么形成的吗?或者说

    • 分类是视觉的目的吗?

    再回到我们小时候,我们的视觉系统是否是这样形成的?当我们看东西的时候,有没有一个人在边上一直告诉我们:这是猫,那是狗,这个桌子,那是椅子。如果这个不够直接,那不妨考虑一下动物,家里的宠物狗是否需要区分这些概念才能建立起它们的视觉系统?在大量的例子中我们可以发现,概念的分类可能是一个有效的途径,但并不是建立视觉系统的必要条件。进一步讲,基于人类语言的标签不是视觉系统的必要条件,换句话说,不需要“分类”,只需要“分辨”,也就是说,是猫是狗是桌子是椅子没所谓的,重要的是把这些概念区分开即可。

    这里展开来阐述一下“分类”和“分辨”的差异。它们貌似差不多,但在我们今天聊的“视觉的目的”上有本质的区别。

    • 首先,在分类问题中,所有类是完全独立的,或者说在空间中是两两正交的。但是实际情况下却并非如此,比如类别猫和老虎,猫和椅子,在分类问题的设定下,它们类之间的差异是一样的,但很显然,猫和老虎的类间差异比猫和椅子低很多。这就出来两个问题:我们如何去标注这样一个数据集,如何去训练一个模型才能够让它知道类之间的不同?

    • 第二点,人工标注的数据集中类之间是很平衡的,猫和狗的数量一样多,但是现实情况下,类别是长尾分布的,也就是大多数类的图片是很稀有的,这里的问题是如何解决大多数类的长尾标注问题?

    • 最后一点,也是最关键的一点是,类别这个事情,本身就是不胜枚举的。世界上有多少正交的类,类中还有子类,子类还有子子类,子子孙孙无穷尽也。同样是狗,狗中还有特别多的子类,如何去定义类和子类,以及如何去定义“有用的”类。比如,ImageNet里面大多是动物,那么植物呢,其他的物件,或者说背景信息,比如天空,大海,星辰呢?

    目前来说,训练完一个计算机模型,它能做的分类只能是数据集里面有的类而已,如果测试集中出来新的类,它是完全不知道的。那么如果说分类真的是视觉的目的,为了去真正地实现像人和动物这样的视觉系统,其中最大的难点就是去定义和标注这些类。不知道你是否认同,定义类本身这个工作,和定义特征的工作没有本质的区别。它们的目标都是让模型能更好的理解图片,但是定义类和定义特征这两个工作都是无穷尽的,并且有很多人为主观的干预,比如什么样的特征能刻画一个概念,什么样的类能帮助建立可靠的视觉系统。但是,话说回来,你是否认同分类是视觉的目的这个假设?

    也许不见得吧,再回想我们小时候,监督学习,或者类别学习占的毕竟少数,特别是对动物而言,它们很少很少会出现监督学习这个情况。大多数情况下,视觉系统的建立是无监督的,靠我们自己和环境之间的互动,来理解图片和视频。这个简单的想法就促成了无监督或者自监督的视觉学习方法。其实这方面的研究开始的挺早的,为什么一直都没有像现在这么火呢?关键还是当时的实验结果没有像全监督的分类学习那么好,虽然它蛮符合我们对视觉的期望,实验结果还是硬道理。不过就这几年,自监督学习发展地特别快,某些方法已经在实验中被验证比有监督的分类学习要好。这又是我们在了解视觉系统中迈出的很大的一步。那么我们就来聊一聊自监督学习是如何回答“视觉的目的是什么”这个问题的。

    我们所有的系统,视觉,听觉,触觉,嗅觉都是自我迭代学习的,很多时候它们在学习而我们是不自知的。有人会问自监督学习是不是就是给一堆数据,让计算机自己实现智能?不是的,一个很简单的例子,我给一条狗看MNIST数据集,不停地看,不停地看,很多很多的数字,它会建立起对数字的认知吗?我再换一个方法,还是让它不停地看,但是每次看到数字9的时候,给吃的。第二个方法狗的视觉系统会产生学习,但是第一个不会。也就是说,视觉系统,或其他系统的学习是天生惰性的,虽然说我们的视觉系统感觉上是自发学习的,如果没有明确的动机,它是不会在脑回路中真的产生变化的,那也就回到了我们一直在讨论的问题,视觉的目的是什么?如果我们了解了它的动机,那么实现通用的计算机视觉算法就没有那么困难了。现在那么多的自监督学习方法,其实本质上都在探索这个问题的答案。

    我们可以先猜一猜,视觉的目的是什么?科学研究就是先提出假设,然后验证这个假设。那好,生物最基本的动机就是活着,为了活着,视觉必须学会一个很重要的功能,那就是

    • 预判

    试想一直老虎向你跑过来了,你不会等它到了才跑吧,视觉系统需要做准确的预判并且马上采取行动。对于那些不能做预判的,可能就被自然淘汰了。另一个不那么极端的例子,你看到苹果从树上掉下来,应该会躲吧,这也是一种预判。往大里说是你的视觉系统学习到了牛顿定理,其实就是它学习到了重力的表现形式。很多很多生活上的例子表明,视觉系统需要学习预判的能力。那么预判在自监督学习上体现在哪儿呢?其实有很多,最基本的就是auto-encoder,还有去噪声的auto-encoder,in-painting,out-painting,在视频处理中应用的更多,根据当前帧来预测下一帧的图片。这些方法在实验中被证明是非常有效的,并且不需要人工的标注,因为图片和视频本身就是最好的标注。

    但是这一系列的预判方法在某些时候可能会不太好用。比如,我随机遮住一只猫脑袋的一部分,让计算机去脑补,如果它知道这只猫,就会补全它的脑袋,这没有问题。但是,如果我遮住那只猫的尾巴,计算机去脑补的时候就会出问题,因为就算我知道这只猫需要补一条尾巴,但是我不知道那尾巴原来是朝哪儿的。再看原图,它只是提供了某一种可能性,但并不唯一的可能性。发现问题了吗?这一系统方法被人诟病的最重要的一个点就是,预判是一个概率的问题,不能用原图的每一个像素来做严格训练,特别是需要预判的内容特别多的时候,会出现问题。Yann Lecun有一个非常经典的例子,视频中一只铅笔笔尖朝下竖直放着,预测下一时间,我们都知道铅笔会因为重力倒下,但是具体往哪个放下倒是一个随机的问题,并不能用原数据来监督学习。最近有论文就对这个问题做了详细的诠释和提出了解决方案,大家有机会可以去看一看:

    https://openai.com/blog/image-gpt/

    好,我们再想想还有什么是视觉系统需要自发学习的。刚刚说了一只老虎朝你跑过来,你需要预判并且躲避,那么如果一只小猫跑过来呢?注意这里需要学习的是

    • 分辨(而不是分类)

    最简单的动机,还是为了生存,我们需要区分能吃的和不能吃的,往大里说,我们需要区分不同物体的差异,并不是分出来猫和狗的类别差异就可以了,更需要分出来不同的猫之间的差异,大小胖瘦,毛色等等,从这个角度讲,每一只猫个体都是不一样的,并且,即便是一只猫,在早中晚也是不一样的。这就和刚刚说的以分类为核心,类与类之间正交的学习方法完全不同了,广义上说,我们需要承认世界上没有两片一样的雪花,即便给的标签是一摸一样的,(0,1,0,0),计算机也需要看出物与物之间的不同。这个思路引出了最近火的不行的对比学习。和预判不同的是,这一系列的方法不需要“脑补”,而是能在对比中发现不同即可。很有代表性的工作包括聚类,旋转,和最近的SimCLR,MoCo等。特别一提的是,就是这种方法最近被发现比ImageNet上的分类学习更有效。SimCLR和MoCo假设是世界上没有两片一样的雪花,我们在这个基础上又加了一个假设,也就是我们承认没有两片一样的雪花,但是雪花和雪花之间的差异还是会比雪花和树叶之间的差异更大。

    这个很重要,对比学习,除了对比出不同点,也应该同时发现相似处。这就是我们去年在MICCAI Workshop中发表的一篇工作。大家有兴趣的也可以看一看。

    Parts2Whole: Self-supervised Contrastive Learning via Reconstructionlink.springer.com

    https://link.springer.com/chapter/10.1007/978-3-030-60548-3_9

    这也引出了一个更深层的讨论,不同概念的内涵(connotation)和外延(denotation):内涵是一个概念中事物的共有属性,外延是一切属于这个概念的具体事物。分类问题事先给定了一个概念的外延的一部分,比如在所有ImageNet数据集中,“猫”这个概念的外延就是它对应的那几张图片,模型根据这个外延,来学习“猫”这个概念中图片的共有属性(内涵)。分辨则不同,它是不断地放缩一个概念的外延,来辨别两幅图片的相似点和差异性,即便是两幅“猫”,当外延只缩到每一幅图本身了,模型在承认这两幅图都有猫的同时,还需要辨别出两只猫细微的差异的,比如颜色,动作,长相,年龄。对比学习在缩放不同概念的内涵和外延之间,学习到更立体,更丰满的视觉特征。

    前沿成果的比较

    谈到这里,我们离学术前沿是越来越近了。回顾一下我们到底想要一个什么东西?我们需要一个通用的,可靠的,可延展的视觉模型,这个模型不是去做博士干的事情,比如分割一个细胞,区分一个肿瘤是恶性还是良性的,从图片中找病灶等等,这些工作都是后话,有足够标签就能做好,我们需要的是一个五岁小朋友的视觉系统,一种虽然看上去傻乎乎的什么都不会,但是很稳定,很全面的一个模型。很多人在诟病深度学习说需要很多的标签,而人只需要学习一两个样本中就掌握一项任务。这个认识是有偏见的,人确实可以通过学习一两个样本就能大概分清什么是肋骨,什么是心脏,但是这个人想必不是刚出生的婴儿,婴儿视觉系统是没有办法短时间内完成这个one-shot或者few-shot的任务的。而这个五岁左右的视觉系统,就是我们追求的视觉模型。这个模型,是有机会让无数的下游任务实现少样本学习。这相当于是一件“磨刀不误砍柴工”的工作。在众多的下游任务中,我们只需要极少的模型参数量的调整,极少的人工标注,就可以达到一个不错的水平。

    我们离这个梦想是有距离的。现在我们就来看看自监督学习离真正回答“视觉的目的是什么”还差多少。现在每天都有那么多自监督学习的方案发表,可以说是公说公有理,婆说婆有理,大家都从不同的角度去思考如何训练一个通用的视觉模型,所以给模型设定的目标也是非常不一样的。有说脑补可以的,有预测旋转角度的,有做拼图游戏的,有比较学习的。一时间出现这么多套训练方案百家争鸣,正常吗?非常正常。想想我们在建立视觉基础的时候也不就是自己摸索出自己的一套方法吗?打个比方,如果说一个厉害的视觉预训练模型是高考状元,高考每年有那么多的状元,他们成功背后的方法也是不一样的嘛。每一个方法都可以发表一篇论文,每个家长都说自己的一套方法是训练状元的有效途径。但是,真的要去评价孰好孰坏是不容易的,确实可能某些自监督方法在特定的情况下会很强,它的通用性是需要在很多具体任务来评判。最新的一篇论文

    How Well Do Self-Supervised Models Transfer?

    https://arxiv.org/pdf/2011.13377.pdf

    就有对大部分自监督学习方法做一个比较,得到的结果参差不齐,有时候这个方法好,有时候那个方法好。这方面的研究论文一般来说有两种,一种是提出新的自监督学习方法,说新提出的方法比其他的方法好。随着越来越多的方案的提出,另一种文章是对这么多方法的一个综述和比较。除了这两种论文,现在又有一种论文的题目特别有趣儿,形如:

    Do Better ... Transfer Better?

    这里的省略号代表不同的预训练方法。你可能会觉得很奇怪,人家论文都说了,比如预测旋转角度可以让模型更好地迁移学习,为什么还有问这个问题呢?其实这两个论述不太一样,一个是实然层面的,我做了实验,结果表明预测旋转角度可以提高迁移学习的效果,另一个是应然层面的,意思是说预测旋转角度是不是视觉的目的,也就说如果我提升了预测旋转的能力,是否保证这个预训练模型一定会更好?这是一个很有意思的问题,我们可以从实验中总结出来一个自监督学习的方法,比如预测旋转角,是不是直接地学习了视觉特征,还是在预测角度的同时间接地学到了视觉特征。还是高考状元为例,我写一篇论文说根据我的统计结果,发现高考状元的家境普遍比较贫寒。我再写一篇论文,问是不是家境越贫寒,高考成绩越好呢?这就是这一类论文的价值所在,它简直就是灵魂拷问,它从本质上去测试一个自监督学习方法是不是学习到了视觉的目的。大家能明白我接下来要讲什么吗?如果这个类的论文“Do Better ... Transfer Better?”,但凡有一篇的回答是Yes,那真的是,学习通用视觉特征这个问题就大体解决了,或者变成了一个可解的问题了。为什么呢?打个比方,我发现脑补图片的技能越强,模型的迁移学习能力越强。视觉的目的一下子被清晰的定义下来了,也就说训练模型的目标函数被定义下来了。我们把一个模糊的,抽象的所谓“视觉的目的”,转化成了一个具体的,可量化的函数,接下来的任务就是刷高分数,像ImageNet竞赛一样,有一个清晰的评价指标,然后每年把分数往上刷。

    现在我们没有办法这么直接地解决问题,还在一个探索期,视觉的目的是什么?刚刚总结了两大块主流任务,预判与分辨。计算机科学为什么是一门科学,是因为在解决工程问题的时候,我们需要做底层的分析和研究,也需要多学科的交流,比如视觉和脑科学的研究会对解决这个预训练的问题很有帮助。那我们来看看这一路走来学到了什么。从一开始的定义特征,到后来自动学习特征(但是需要定义好类别和类别数),到现在完全不需要人工的类别标签,一个趋势就是,当学习通用的视觉模型时,人为定义的东西越少越好,让计算机自主学习的东西越多越好。沿着这个思路下去,和我们的视觉系统相比,这些自监督学习的方法,至少到目前为止,我认为还有几个方面需要解决:

    • 首先,视角是人为设计的。

    • 其次,模型是人为设计的。

    • 最后,任务是人为设计的。

    这三个方向的研究都非常有意思,今天我没办法一一细说,我会在后续的博客中讨论。这边我展开来讨论一下最后一条,任务是人为设计的。首先我觉得在现在的阶段,人为设计预训练的任务是可以被接受的,毕竟我们人类上课学习的时候也有一个培养计划,让计算机自己给自己设计一套学习方案,我现在还不敢想。那就看看如何去设计任务,让计算机可以学到通用的视觉特征?回溯到自监督学习一开始的时候,它是先在自然语言处理领域得到突破,为什么自然语言可以做自监督呢?原因是(1)语言可以切成词汇,(2)词汇的排列是有意义的。计算机从网上的那么多语料中学习,一个很重要的点是你不能把语料中的词汇打乱,打乱了就没有语义了。比如

    视 · 觉 · 的 · 目 · 的 · 是 · 什 · 么

    一共八个字组成,是一段有意义的话,但是,这八个字有很多中排列组合的形式,绝大多数的排列是没有语义特征的,而计算机就只在这种有意义的排列中学习特征,所以是有效的。反观自然图片,猫的图片可谓说是千奇百怪什么都有,像自然语言那样的理想情况是什么?最好所有的猫都端端正正地给我坐好,一个姿势,一种表情,然后计算机去学习它的纹理,形状,或其他的抽象特征。在这种严格的规定下,我清楚地知道什么在上,什么在下,什么在左,什么在右,就像自然语言一样人为地创造了一种特定的语法。计算机就可以比较直接地学习到图片的上下文语义特征。请问这一段对理想图片的描述让你想到了什么?

    医学影像

    首先在拍影像的时候,医生是不会让你有天马行空的姿势的,基本上两种姿势,要不站着,要不躺着。其次,如果姿势是固定的,人体的组织器官的分布也是有序的,五脏六腑都有固定的位置。所以最后拍出来的图片都看起来差不多,就像一个句子,你反复地用不同的词汇说,但是表达的内容相似。

    视觉的目的是什么?视觉的动机是什么?视觉的目标是什么?

    医学影像这个独特的优势和自然语言非常的类似。所以我有理由相信在医学影像处理中的自监督学习也可以得到像BERT一样很猛的预训练模型,而不依赖于人工标签。那如何去利用这个天然的优势呢?我们还需要参考自然语言处理,它们是先定义了词的概念,然后根据大量的语料学习每个词的特征,或者每个词在句子中的特征。相似地,我们也可以给医学影像定义视觉词汇,因为刚才说了,这些视觉词汇在医学影像中是有序的,并且传达出人体组织结构的语义信息,那么一个简单的思路就是去学这些视觉词汇的特征。在计算机视觉早期的时候就有Bag of Visual Word的概念,我们最近的一篇TMI就是让这些视觉词汇通过深度网络的学习,使之具备迁移学习的能力。大家有机会可以去看看,应该马上就能见刊了,下面这篇是它的会议版本:

    Learning Semantics-enriched Representation via Self-discovery, Self-classification, and Self-restoration

    https://arxiv.org/abs/2007.06959

    我们来看看这个方法背后想要传达的信息和整体框架的基本假设。梳理一下刚刚的逻辑:

    1. 自然语言处理的预训练特别猛,而且不依靠人工标注,因为语料中自带了上下文语义特征

    2. 医学影像也具备相似的属性,因为拍照是的姿势固定的,人体内部的组织结构是有序的

    3. 因此,我们只需要定义医学影像中的视觉词汇,并学习它的上下文语义特征即可

    可能这个时候有小伙伴会质疑,你说的这个特征确实在医学影像中表现地非常明显,但自然图像难道不具备这个特征吗?没错,自然图片也可以有这个特征,比如说人脸识别,只要能把人脸从图片中框出来,并加上一定的旋转,也可以得到一个具有固定上下文语义特征的数据集, 也就是一个近似对齐的数据集,计算机同样可以通过自监督的视觉词汇学习,从图像中学到特征。只是构建这种数据集需要一定的工作,不像医学影像(比如ChestXray)那样是自带的属性。

    再往上想一层,其实自然图片是包含了弱弱的上下文语义的。刚刚说的语义特征是来自于有序的词汇排列,如果打乱了,语义就没了。从这个逻辑出发,严格意义上讲,所有能被理解的自然图片都是有一定意义的,真的打乱图片中的像素才能说它是一堆乱码。一张图中这么多像素,它们能根据一定的规则拼成有意义的图片,本身就是一种语义信息。

    如果云层是天空的一封信,能不能再听一听,听你的声音。(无人之岛)

    Images are the Language of the Creator

    只是没有像医学影像那么直接,看起来那么有规则。总结来讲,医学影像本身具有很好的属性,让我们可以有针对性地设计自监督学习的策略,原因是它比自然图片更有规则,总结来说,人体组织结构的一致性是自监督学习在医学影像处理中一个很独特也是很直接的学习目的。除了这个特性,医学影像和自然图片相比,还有很多宝藏可以挖,比如影像的像素值有物理意义,大多数影像是三维的等等,这些特性都是设计预训练算法的非常宝贵的参考,我今天就不细说了,因为很多想法都还没有发表,等以后和大家分享。

    最后,上一个价值: 计算机视觉在学习通用特征时,需要大量参考人类或者动物的视觉系统,也就是一种跨学科的概念。当然也不是说必须我们要用电脑模拟一个一摸一样的视觉系统,很多工具在借鉴生物学的同时也会根据工程的实际需要进行调整。比如飞机借鉴了鸟的翅膀,但是最后的成品是在这个鸟的基础上优化了很多,甚至改进地面目全非。这是在了解了鸟类飞行的机理的前提下,我们才有可能进行仿真和优化。其实这方面是有争论的,我们会因为脑科学的研究对大脑有一个完整的认识,还是会先在计算机科学上有一个突破,从而反推回大脑的机理,建立起更深的认识,这个我不清楚。但是今天讨论“视觉的目的”是想给计算机找出一个可量化的目标函数,这个目标函数可以和通用视觉特征有一个很紧密的关联,而做到Better ... Better Transfer。这个目的从一开始计算和匹配人为设计的特征,到后来匹配人为定义的类别的监督学习,再到现在的预判,分辨为核心的自监督学习。除了从视觉本身出发去设计不同的预训练任务,探索视觉的目的,我们也可以通过对图片本身性质的理解出发来设计任务,也就是所谓先验的特征,特别是医学影像中那么多的模态,各有千秋,各有各的语义特征。

    下载1:OpenCV-Contrib扩展模块中文版教程

    在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

    下载2:Python视觉实战项目52讲

    在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

    下载3:OpenCV实战项目20讲

    在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

    交流群

    欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

    更多相关内容
  • 脑科学(四)听觉视觉

    千次阅读 2020-06-05 09:40:26
    感觉(Sensation): 觉察到刺激的存在,并立即...听觉通路的最初阶段:声波使 鼓膜运动-鼓膜运动传递给 听小骨-听小骨带动 卵圆膜-孵圆膜的运动推动 耳蜗内液体-耳蜗内液体的运动导致 感觉神经元的反应。 一

    感觉(Sensation): 觉察到刺激的存在,并立即分辨出刺激的属性,在心理学上,称此一层次为感觉。
    知觉(Perception) : 不仅觉察到刺激的存在及其重要属性,而且知道该刺激所代表的意义,在心理学上,称此一层次为知觉。

    人耳的构造主要分为三部分: 外耳,收集外来声音; 中耳传导声音; 内耳将物理性的声音刺激转化为生理性的神经冲动。

    听觉通路的最初阶段:声波使 鼓膜运动-鼓膜运动传递给 听小骨-听小骨带动 卵圆膜-孵圆膜的运动推动 耳蜗内液体-耳蜗内液体的运动导致 感觉神经元的反应。

    一旦在内耳发生对声音的神经反应,信号会被传递至脑干的一系列 神经核团,并为之处理。这些核团的输出被进一步传递至丘脑的 内侧膝状体核(MGN),最后MGN向 颞叶的 初级听皮层A A1 1投射。

    上颞叶的 初级听皮层(紫色)和 次级听皮层(黄色)

    前庭系统向大脑报告头部的位置和运动,以产生平衡的感觉,并帮助协调头部和眼部的活动,以及调整身体的姿势。

    视觉与听觉的神经回路重要,其他的回路了解一下

    离开视网膜的神经节细胞轴突穿过三个结构,然后到达脑干。这个离视网膜投射的组成部分依次为 视神经、 视交叉和 视束。

    位于丘脑背部左右两个侧膝状体核是两条视束的主要目标。LGN分层的三结构就像由6张薄饼堆叠而成。但这些薄饼并不是铺而成,他们在视束周围形成膝状弯曲。由于如此形状,它被称为“膝状体”。 LGN

    有两大皮层视觉信息处理通路, 背侧通路和腹侧通路。

     

     

     

     

    ________________________________________________

    静息电位是外正内负,动作电位外负内正 。动作电位过程中细胞的 去极化是由钠离子跨膜内流引起的,而 复极化(就是恢复正常电位)是由钾离子的外流所致。

    突触的类型一般有电突触和 化学突触. .

     

     

    展开全文
  • 人类在语言交流中发出的声音进入人耳被听觉系统接收、转化、传导、综合处理和加工,最终在大脑中被理解。听觉系统可以从声音中分辨出语音的含义及其发出声音的物体,并能提取声源的位置信息,从而辨别声音发出的方向...

    听觉是人类和动物所具备的重要感觉功能,是感知和获取自然界环境信息的重要方式。随着时代的进步,人工智能技术不断发展,听觉同样称为机器人模型研究的重点。人类社会的进步离不开语言的发展,听觉是语言交流的基础,是人类语言交流的通道。人类在语言交流中发出的声音进入人耳被听觉系统接收、转化、传导、综合处理和加工,最终在大脑中被理解。听觉系统可以从声音中分辨出语音的含义及其发出声音的物体,并能提取声源的位置信息,从而辨别声音发出的方向,这种声音辨别能力优于所有现有的机器。

    研究听觉神经网络处理声纹识别、语音识别、听觉情感识别、语音问答等任务时,需要对听觉系统的结构和功能尽心相近的了解,本文对人脑听觉系统的结构和功能进行详细叙述。

    听觉信号是声压随时间的变化,听觉系统从耳朵所接收到的刺激出发,在声音信号的分解和合成两方面都取得了卓越的成就,构建起一个完整的多功能听觉世界。

    听觉系统可以分为听觉外周听觉中枢两个组成部分,这一节对听觉系统的基本结构和功能进行介绍。

    听觉外周

    听觉外周部分包括外耳中耳内耳(如图1所示),主要负责语音信号的接收和传导,是一个复杂的换能器,能够将机械形式的信号转换为传输到大脑的神经冲动,这一过程耳朵完成了声音振动的感受、声源位置信息的接收,并根据环境和自身状态意识的改变进行主动调节与反馈。

    图1 人耳的解剖结构[2]
    图1 人耳的解剖结构[2]

    外耳主要包括耳廓外耳道。耳廓的形状有助于声音的聚集,使收集反射的声音能够最有效地在外耳道聚集,同时耳廓褶皱有助于进行声音定位[3]。外耳道起始于耳廓中心,终止于鼓膜,长度大约为 25~35mm。成人的外耳道呈“S”形弯曲,外段向内前而微向上,中段向内向后向下,内段向内前微向下。外耳道主要是声波传导的通道,可以将声音信号传递到鼓膜,通过共振效应,对声音进行增益,从而将声音放大。鼓膜介于鼓室与外耳道之间,是一个类似锥形的、顶点朝向中耳内部的软膜,高约9mm、宽约8mm、厚约0。1mm。它可以随着声波的振动而振动并产生位移,即具有将声波信号转换为机械能的作用。

    图2 耳廓结构
    在这里插入图片描述

    中耳由鼓室、咽鼓管、鼓窦和乳突等结构组成。鼓室又称为中耳腔,是由鼓膜和侧壁形成的密闭腔体,内部充满了空气,包含有听骨链。听骨链由三块听小骨组成,分别为锤骨、砧骨、镫骨,是人体最小的骨头;咽鼓管具有维持鼓室内气体压力平衡的能力。镫骨具有平面形的底板,与卵圆窗相接,可以将振动传到内耳中的耳蜗内。中耳一般被认为是传声装置,主要生理功能是实现声阻抗匹配。耳蜗的输入阻抗(定义为产生椭圆形窗口单位位移的压力)大约是自由空气输入阻抗的200倍[4]。如果声音振动直接遇到前庭窗,我们可以计算出大部分能量会被反射,只有2%的能量被传递。然而,外耳和中耳大大增加了这种声音能量传播效率。传播过程中的增益效果分两个阶段完成。

    首先,外耳可以视为一个方向性灵敏的助听器,通过共振效应来收集耳廓较大区域内的声压,从而增加较小鼓膜处的声压。主共振的频率峰值是互补的,因此鼓膜的压力相对均匀地升高,在2-8 kHz的频率范围内升高15-20 dB,传输也同样升高。然后,中耳主要通过两种阻抗匹配机制增加振动压强:(1)面积比机制:最大的因素来自于前庭窗中鼓膜面积与镫骨底板面积之比,这两部分的面积分别是60平方毫米和3。2平方毫米,前庭窗的压力增加了18。75倍。(2)杠杆作用:锤骨臂(即鼓膜凸)比镫骨臂长2.1倍[5]。

    内耳包括感受声音信息的耳蜗和感受位置信息的前庭器官。其中,内耳中的耳蜗,是听觉外周最重要的一个部分。作为人类听觉系统的感受器,耳蜗的重要作用在于它实现了声波与神经冲动的换能过程,将声音的振动信号转换为大脑可以感受和处理的神经脉冲信号。同时耳蜗还起机械性频率分析器的作用。

    人的耳蜗形状类似于蜗牛,是一个充满液体的螺旋状管。该螺旋状管绕中间的蜗轴2。5~2。75圈盘旋而成,总宽度为1厘米,高5毫米。耳蜗管被软组织分成3个充满液体的部分:前庭阶、中阶和鼓阶(如图3)。3个部分在耳蜗内围绕着蜗轴一起旋转, 沿耳蜗卷曲方向平行排列,包括听神经和许多血管。耳蜗的基部有两个膜性窗口,分别为卵圆窗和圆窗。前庭阶和鼓阶分别终止于蜗底的卵圆窗和圆窗。前庭阶和鼓阶充满外淋巴液,在蜗顶有一开口(蜗孔)将二者彼此连通。中阶是一个盲管,将前庭阶和鼓阶分隔开,其内部充满内淋巴液,在蜗顶处关闭。中阶和鼓阶之间的隔膜状结构称为基底膜,其上有毛细胞、神经终末等组成的神经感受器。分隔前庭阶和中阶的膜状结构称为前庭膜。

    图3 前庭阶、中阶和鼓阶解剖结构
    在这里插入图片描述

    含有听觉感受神经元的科蒂氏器官(如图4)位于基底膜上,盖膜悬于科蒂氏器官之上。耳蜗毛细胞是听觉感受器细胞,位于基底膜上的科蒂氏器官内。毛细胞是上皮细胞的变种,其顶端有毛(静纤毛)伸出,这些纤毛与覆盖其上的辅助结构相靠近或接触。毛细胞的基底部与听神经轴突远端形成轴突连接。受到声音振动的刺激时,听觉毛细胞的膜电位会发生变化,然后释放神经递质,进而使得支配毛细胞的听觉神经产生兴奋和冲动,将声音信息传到听觉中枢。耳蜗毛细胞分为外毛细胞和内毛细胞。毛细胞被支持细胞维持在一定位置。哺乳类动物的外毛细胞沿着蜗管方向排列成三排,而内毛细胞排列为一排。 人类的外毛细胞数约为12000个,内毛细胞数约为3500个。

    图4 科尔蒂(Corti)器官的横截面,出现在基部转弯处,显示出网状薄层中的毛细胞,其束成束的纤毛延伸到保护膜。Deiters的细胞将延伸部分向上延伸至网状层,在外部毛细胞周围的空间中运行[9]。
    在这里插入图片描述

    图5 Corti的人体器官:从耳蜗中转(500 Hz 处)的断面扫描电子显微照片。在该标本中,内部柱状 细胞(箭头)已部分塌陷,并且盖膜从网状薄层缩小。 有四排外部毛细胞(OHC)[10].

    在这里插入图片描述

    到达内耳的声波使基底膜运动,从而也使Corti 器官运动(如图6),这就在盖膜和毛细胞顶端之间引起剪切运动,这一运动转而使静纤毛移位,感觉毛的弯曲诱发一串电活动,导致感受器细胞基底部化学神经递质的释放和听神经动作电位的发生。内毛细胞和外毛细胞形成突触连接到听神经纤维,将声音由听觉外周传入到听觉中枢。内毛细胞的数量虽少,但受95%的听觉传入神经纤维的支配,每个内毛细胞受16~20 根传入纤维的支配。而外毛细胞主要受起源于听觉脑子的上橄榄核的传出神经纤维的支配。因此,根据这类解剖学上的特征,可以得出结论:内毛细胞主要完成听觉信息向中枢的传递,而外毛细胞主要参与听觉信号转换中的离心调节和主动过程,决定听觉灵敏度和精细辨别能力。

    在两种类型的细胞中,前向转导在内毛细胞和外毛细胞中的发生基本相同。每个毛细胞顶表面上的大量静纤毛(每个毛细胞60 – 120个)通过尖端连接的细纤维相互连接,这些细纤维 从束中较短的静纤毛的尖端中出来,向上延伸以连接相邻的较高的静纤毛。沿兴奋性方向的静纤毛偏转会拉伸末端连接,通过直接的机械作用将机械换能器通道拉开[6][7]。机械换能器通道被认为位于每个束中较短的静纤毛的末端,因此将与每个末端连接的底端相关联[8]。外毛细胞因其在反向转导中具有特殊的机械作用而具有专门化的特征,它具有相对较硬的静纤毛束和活动的细胞体。 内毛细胞具有更直接的功能,充当简单的感觉受体细胞。在这里,由机械换能器通道的打开和关闭引起的细胞内电位的变化改变了细胞基端神经递质的释放,从而激活了听神经的纤维。

    图6 基底膜的向上运动造成的纤毛倾斜
    在这里插入图片描述

    基底膜的机械振动模式在很大程度上决定了听觉反应的特性。声音振动首先由中耳的听骨链通过卵圆窗传入耳蜗,在前庭阶和鼓阶之间形成机械压力差,使得整个基底膜上下振动(如图7)。

    图7 基底膜振动机理
    在这里插入图片描述

    人类的基底膜在耳蜗的基部的宽度为0.08~0.16 mm,向耳蜗的顶部旋转盘旋过程中逐渐变宽,最终达到0. 423~0. 651 mm. 同时基底膜耳蜗基部较大的韧度,在顶部较小,进而基底膜和Corti 器官的质量在耳蜗的基部较小而在顶部较大。基底膜在耳蜗基部和顶部的这种差异,决定了耳蜗基部和顶部的最佳响应频率的不同。

    通过研究表明,基底膜的运动可以用行波理论[9][10]来描述,即沿着基底膜分布着不同的特征频率,其值是由基底膜上各个位点之间的参数值决定的。有关基底膜振动形式的研究始于Békésy对动物和人尸体的观察,他在光镜下观察到,声音引起基底膜振动从耳蜗基部开始,逐渐向蜗顶传播,此即行波(如图7)。在行波的传播过程中,振幅逐渐增大,到达某一位置后便迅速衰减。行波在基底膜上传播的距离以及振幅最大点的位置均与刺激声的频率有关:刺激声频率越高,行波传播距离越短,振幅最大点位置越靠近蜗底。这种声音频率与基底膜部位之间的对应关系称为频率组织结构。后来一些先进的测量技术进一步证实了Békésy的上述观察(如图8)。

    图8 (A)基底膜的行波,首先由贝凯西(Békésy)证明。低频刺激的行波在耳蜗中更尖锐。显示了连续时间(1、2、3)处的波;这些波在包络线(虚线)内顶峰移动,该包络线对于恒定频率的音调保持恒定。
    (B)当前的实验表明,在最佳状态下,耳蜗的行波要比Békésy所示的大得多,并且波峰要尖得多。如果以与A部分中的波浪相同的比例绘制行进波,则该行波将比B部分中所示的波窄5倍,高30倍。摘自Pickles(2013)。
    在这里插入图片描述

    听觉中枢

    来自耳蜗听觉感受器的信号经听神经纤维向听觉中枢传导。听觉中枢各个核团的结构及其相互间的连接极为复杂,主要核团如下:
    耳蜗核:位于延髓,是哺乳动物第一级听觉中枢。在耳蜗核中,神经元通过连接的听神经形成对听觉环境的多种平行的表达方式。来自听神经的传入纤维全部终止于同侧的耳蜗核。耳蜗核主要包含三个亚区:前腹侧耳蜗核(AVCN)、后腹侧耳蜗核(PVCN)和背侧耳蜗核(OCN)。腹侧耳蜗核包括四种主要的神经元:球状丛细胞、球形丛细胞、屋状细胞和章鱼细胞。球状丛细胞主要分布在腹侧耳蜗核的前端,章鱼细胞分布在尾端,星状细胞和球形丛细胞集中在中央位置。腹侧耳蜗核中的球状丛细胞和球形丛细胞主要的投射到上橄榄核、外侧丘系核以及下丘。背侧耳蜗核的结构较腹侧耳蜗核复杂,并有显著的层状结构特征.背’因耳蜗核主要的投射细胞是在核团表面呈规则排列的梭状细胞和深部的巨细胞。

    图9 猫的耳蜗核中细胞类型的分布
    在这里插入图片描述

    图10 听神经及耳蜗核细胞的锁相特征
    在这里插入图片描述

    上橄榄复合体:包括外侧上橄榄核、内侧上橄榄核和内侧斜方体核。

    图11 集中哺乳动物的上橄榄复合体的主要核团在冠状切面上的分布
    在这里插入图片描述

    外侧丘系:包含大量的上行和下行听觉通路的神经纤维。其中上行的纤维由耳蜗核、上橄榄复合体以及外侧丘系内部核团中神经元的轴突组成。这些轴突绝大部分终止于下丘。但也有相当数量的从外侧丘系核发出的神经纤维经过下丘而终止子上丘或内侧膝状体。在外侧丘系的神经纤维当中,有一条细胞群带从外侧上橄榄核一直伸展到下丘腹侧,形成了三个明显的外侧丘系核团. 根据在外侧丘系的位置、细胞结构及神经连接的差异,这三个外侧丘系核团分别被称为外侧丘系腹侧核、外侧丘系中间核和外侧丘系背侧核。

    下丘:包括中央核、中央旁核和外核。中央核是由碟形神经元和多极细胞所形成的层状结构。几乎所有脑子听觉核团对中央核的投射都具有音频拓扑结构。这表明来自于多个听觉脑子结构的神经上行传人按照特征频率汇集在中央核内并被高度整合。

    图12 听觉中脑下丘中的按特征频率分布的层状结构
    在这里插入图片描述

    内侧膝状体:听觉丘脑的最主要的结构,它包含腹侧区、内侧区和背侧区。腹侧区是内侧膝状体主要的听觉信号中转部位,内侧区接受下丘的投射,还接受躯体感觉系统的传人, 与听觉、情绪、学习有密切的关系.背侧区则是显著的多感觉结构,它也接受躯体感觉、视觉的信息传入。

    图13 猫内侧膝状体腹侧区的一个频率段
    在这里插入图片描述

    听觉大脑皮质:听觉神经系统中最高的一级信息处理中心,进一步分为初级区(AI)和若干高级区。在猴类中,文献将听皮质分为"核心区"、“带区"和"外带区”,其中"核心区"包括AI 、R和RT 三个区域;“带区”包括若干个环绕核心区的区域;“外带区”由数个在带区外侧的区城组成,如图13、14。

    图14 猴类听皮质区域分布图
    在这里插入图片描述
    图15 猫听皮质区域分布图
    在这里插入图片描述

    连接性研究表明,听觉皮层的这些区域(核心区、带区和外带区)与其最近的邻域是连续相连的,但与被进一步移除的区域不相连。因此,虽然核心区与带区相互连接,带区与外带区相互连接,但核心区域与外带区带之间没有直接投影。从听觉皮层外侧的外带区到高阶皮层结构的投射定义了听觉背(空间)处理流和腹(非空间)处理流。

    参考文献:

    [1] Barr J Rich N M. The anatomist Andreas Vesalius at 500 years old[J]. Journal of Vascular Surgery 2015 ,61(5) 1370~1374.
    [2] Bear M. Connors B . Paradiso M N Neuroscience: Exploring the Brain. 2nd ed. New York: üppincott Williams &. Wilkins lnc. 2001
    [3] 王建军. 神经科学——探索脑(第2版). 高等教育出版社.
    [4] Nakajima HH, Dong W, Olson ES, et al (2009). Differential intracochlear sound pressure measurements in normal human temporal
    [5] Auditory Pathways: Anatomy and Physiology
    [6] Corey DP, Hudspeth AJ (1983). Kinetics of the receptor current in bullfrog saccular hair cells. J Neurosci 3: 962-76.
    [7] Ryan A , Dallos P. Physiology of the cochlea[M]. In : Hearing Disorders , Northern J ed , Boston : Little Brown , 1984.
    [8] Oghalai J S. The cochlear amplifier : augmentation of the traveling wave within the inner ear[J]. Current Opinion in Otolaryngology & Head & Neck Surgery , 2004 , 12(5) : 431~438.
    [9] Pickles JO (2012). An Introduction to the Physiology of Hearing, 4th edition. Brill, Leiden.
    [10] Glueckert R, Pfaller K, Kinnefors A, et al (2005). High resolution scanning electron microscopy of the human organ of Corti. A study using freshly fixed surgical specimens. Hear Res 199: 40-56.

    展开全文
  • 词袋模型是计算机识别领域中有效且稳定的视觉物体识别方法。...借助语音合成技术,将识别结果转化为语音并输出,最终帮助盲人实现视觉听觉的感知替代。以家居环境4类典型物体识别为例,设计实验结果证明了方案的有效性。
  • 视觉的目的是什么?

    2021-03-12 15:35:55
    作者:周纵苇、亚利桑那州立大学博士导读:视觉,对于人类或动物来说,似乎是一件稀松平常的事情,我们甚至都不需要去有意识地训练自己,就可以天赋一般地认识世界。对于机器而言,理解图片却是一项极其...


    作者:周纵苇、亚利桑那州立大学博士

    导读:视觉,对于人类或动物来说,似乎是一件稀松平常的事情,我们甚至都不需要去有意识地训练自己,就可以天赋一般地认识世界。对于机器而言,理解图片却是一项极其困难的任务,计算机视觉是一门教机器如何“看”的科学。当给定一个明确的目标函数并加以不断地迭代,当前的计算机已经可以完成很多复杂的任务,比如图像视频分类,目标跟踪和检测,实例分割,关键点检测等。完成单一的复杂任务虽然能够清晰地定义目标函数,但是训练成本高,数据收集困难,并且复杂任务的数量不胜枚举,尤其是对于跨学科的图像理解任务。

    人类的视觉恰恰相反:通过长时间的观察学习,只需很少的监督样本就可以快速达到多个领域的专家水平。要给这种长期的,无监督的学习定义一个清晰的目标函数或目标任务,却是一项非常具有挑战的课题,也是计算机视觉一直在探索的问题。

    这次分享,我将会从“视觉的目的”引发讨论,简要回顾计算机视觉在通用视觉特征学习的发展历程,以及近期在这个领域取得的众多突破,最后对自监督学习框架提出一些我自己的想法。

    01

    为什么问“视觉的目的是什么?”

    视觉不是人类特有的,大多数的动物,或者更宽泛地来说,摄像头,都有所谓视觉,来收集光线,并做出某些反应。比如现在我没有真的坐在大家的面前,但是你们可以通过摄像头看到我。现在的摄像头变得越来越聪明了,它不光能检测到物体,还能跟踪,能识别人脸,能给我实时地做美颜,这还不算什么,现在的摄像头还能辅助自动驾驶,自动手术等等。真的和我们的视觉越来越像了。

    问题是,既然摄像头这么智能,如果用它来替换动物的眼睛,能好使吗?小猫小狗的视觉系统可能还远远做不到像现在的摄像头一样,把图片中的大大小小的东西都识别出来,打上标签,甚至把边缘都分割得那么好,它们的视觉系统看起来笨笨的,但是很稳定,很可靠。摄像头背后的秘密就是我们今天讨论的计算机视觉,它的最终目标就是能让计算机像人一样地看见,理解照片,视频,和周围的环境,并且能作出某些反应。

    我们先来看看为什么现在的计算机视觉在某些任务中这么厉害——比如人脸识别——因为它目的明确。在训练计算机的时候,我们就告诉它,你把这个事儿做了,其他不用管,跟我们小时候差不多,你把学习弄好了,其他大大小小的家务不用你管。那这个事情就简单了,我们需要做的就是把目标函数设计好,计算机的任务就是不停地学,不停地迭代,直到无限靠近这个目标。用这一套方法论,你会发现计算机视觉很简单嘛,很多任务,只要我们能清晰地设计出目标函数,并且能收集到大量的数据集,计算机视觉非常容易在某个任务中超越人眼。我说到这儿,不知道大家有没有在想一个问题?如果说计算机视觉的终极目标是让计算机拥有像人类或者动物一样看上去笨笨的但是可靠的视觉理解系统,那我就请问,

    • 视觉的目的是什么?或者视觉的目标函数是什么?

      What is the Will of Vision?

    02

    “视觉的目的是设计和匹配特征?”

    这个问题很有意思,基本上贯穿了整个计算机视觉的研究脉络。在我还没生出来的时候,计算机视觉是以规则为主的,对于所有的概念,我们都需要很详细地去设计它的特征。比如要让计算机了解猫,最简单的特征就是它的脸,形状,四肢,尾巴等等,为了和狗做区分,我们还要设计那些显著的特征。有了这些特征,计算机就去匹配,能匹配上的就是猫。现在回过来看,你会发现这种方法特没谱,首先,就算计算机认出了这只猫,这算不上理解,只是对一些规则的数学匹配;其次,普遍的规则很难用在复杂的现实情况中,这只猫必须站的非常端正,计算机才能把它认出来;再有,定义一个概念是非常不容易的,何况有那么多概念要定义。那时候的计算机视觉,目的就是特征的计算和匹配——无论是人为设计的还是用公式算出来的特征,只要匹配上了,计算机就算认出了这个东西。它的弊端虽然不言而喻,但为了解决它还是费了很多时间的。

    03

    “视觉的目的是大规模分类?“

    后来是怎么解决这个问题的呢?我们就得回头分析人的视觉系统了,在我们认识世界的时候,没有人给设计特征,完全是靠大量地长时间地看,不知不觉地就形成了视觉理解。“不知不觉”这个事情很玄,没法在工程上实现,那么我们就退一步,给计算机看很多很多的图片,并且告诉它里面有什么,通过这个方法来形成计算机视觉。最有名的就是ImageNet,这个图片数据集,里面包含了很多人工标注的概念,比如猫,狗。它和之前方法不同的是,从此我们不再需要人为地设计特征了,而是让计算机自己从大量的图片和标签配对中学习这么多概念和它们对应的视觉特征。

    用这个方法学习的计算机视觉很强,怎么看出来的呢?是在众多的benchmark任务中体现出来的。我们称这些模型为ImageNet预训练模型。计算机视觉,在这个任务中的目的也很明确,就是准确分类,让计算机的识别和人类标注越接近越好。是不是顺着这个思路,我们可以训练出一个至少像动物一样可靠的视觉系统呢?如果答案是的话,问题就简单多了,扩充ImageNet数据集,增加类别数,增加图片量,增强模型设计。虽然有人说这样很费时间也很费钱,但是如果这个思路真的可行,能用钱解决的问题都不是大问题。可是我们想一想,人类或者动物的视觉是这么形成的吗?或者说

    • 分类是视觉的目的吗?

    再回到我们小时候,我们的视觉系统是否是这样形成的?当我们看东西的时候,有没有一个人在边上一直告诉我们:这是猫,那是狗,这个桌子,那是椅子。如果这个不够直接,那不妨考虑一下动物,家里的宠物狗是否需要区分这些概念才能建立起它们的视觉系统?在大量的例子中我们可以发现,概念的分类可能是一个有效的途径,但并不是建立视觉系统的必要条件。进一步讲,基于人类语言的标签不是视觉系统的必要条件,换句话说,不需要“分类”,只需要“分辨”,也就是说,是猫是狗是桌子是椅子没所谓的,重要的是把这些概念区分开即可。

    这里展开来阐述一下“分类”和“分辨”的差异。它们貌似差不多,但在我们今天聊的“视觉的目的”上有本质的区别。

    • 首先,在分类问题中,所有类是完全独立的,或者说在空间中是两两正交的。但是实际情况下却并非如此,比如类别猫和老虎,猫和椅子,在分类问题的设定下,它们类之间的差异是一样的,但很显然,猫和老虎的类间差异比猫和椅子低很多。这就出来两个问题:我们如何去标注这样一个数据集,如何去训练一个模型才能够让它知道类之间的不同?

    • 第二点,人工标注的数据集中类之间是很平衡的,猫和狗的数量一样多,但是现实情况下,类别是长尾分布的,也就是大多数类的图片是很稀有的,这里的问题是如何解决大多数类的长尾标注问题?

    • 最后一点,也是最关键的一点是,类别这个事情,本身就是不胜枚举的。世界上有多少正交的类,类中还有子类,子类还有子子类,子子孙孙无穷尽也。同样是狗,狗中还有特别多的子类,如何去定义类和子类,以及如何去定义“有用的”类。比如,ImageNet里面大多是动物,那么植物呢,其他的物件,或者说背景信息,比如天空,大海,星辰呢?

    目前来说,训练完一个计算机模型,它能做的分类只能是数据集里面有的类而已,如果测试集中出来新的类,它是完全不知道的。那么如果说分类真的是视觉的目的,为了去真正地实现像人和动物这样的视觉系统,其中最大的难点就是去定义和标注这些类。不知道你是否认同,定义类本身这个工作,和定义特征的工作没有本质的区别。它们的目标都是让模型能更好的理解图片,但是定义类和定义特征这两个工作都是无穷尽的,并且有很多人为主观的干预,比如什么样的特征能刻画一个概念,什么样的类能帮助建立可靠的视觉系统。但是,话说回来,你是否认同分类是视觉的目的这个假设?

    也许不见得吧,再回想我们小时候,监督学习,或者类别学习占的毕竟少数,特别是对动物而言,它们很少很少会出现监督学习这个情况。大多数情况下,视觉系统的建立是无监督的,靠我们自己和环境之间的互动,来理解图片和视频。这个简单的想法就促成了无监督或者自监督的视觉学习方法。其实这方面的研究开始的挺早的,为什么一直都没有像现在这么火呢?关键还是当时的实验结果没有像全监督的分类学习那么好,虽然它蛮符合我们对视觉的期望,实验结果还是硬道理。不过就这几年,自监督学习发展地特别快,某些方法已经在实验中被验证比有监督的分类学习要好。这又是我们在了解视觉系统中迈出的很大的一步。那么我们就来聊一聊自监督学习是如何回答“视觉的目的是什么”这个问题的。

    我们所有的系统,视觉,听觉,触觉,嗅觉都是自我迭代学习的,很多时候它们在学习而我们是不自知的。有人会问自监督学习是不是就是给一堆数据,让计算机自己实现智能?不是的,一个很简单的例子,我给一条狗看MNIST数据集,不停地看,不停地看,很多很多的数字,它会建立起对数字的认知吗?我再换一个方法,还是让它不停地看,但是每次看到数字9的时候,给吃的。第二个方法狗的视觉系统会产生学习,但是第一个不会。也就是说,视觉系统,或其他系统的学习是天生惰性的,虽然说我们的视觉系统感觉上是自发学习的,如果没有明确的动机,它是不会在脑回路中真的产生变化的,那也就回到了我们一直在讨论的问题,视觉的目的是什么?如果我们了解了它的动机,那么实现通用的计算机视觉算法就没有那么困难了。现在那么多的自监督学习方法,其实本质上都在探索这个问题的答案。

    我们可以先猜一猜,视觉的目的是什么?科学研究就是先提出假设,然后验证这个假设。那好,生物最基本的动机就是活着,为了活着,视觉必须学会一个很重要的功能,那就是

    • 预判

    试想一直老虎向你跑过来了,你不会等它到了才跑吧,视觉系统需要做准确的预判并且马上采取行动。对于那些不能做预判的,可能就被自然淘汰了。另一个不那么极端的例子,你看到苹果从树上掉下来,应该会躲吧,这也是一种预判。往大里说是你的视觉系统学习到了牛顿定理,其实就是它学习到了重力的表现形式。很多很多生活上的例子表明,视觉系统需要学习预判的能力。那么预判在自监督学习上体现在哪儿呢?其实有很多,最基本的就是auto-encoder,还有去噪声的auto-encoder,in-painting,out-painting,在视频处理中应用的更多,根据当前帧来预测下一帧的图片。这些方法在实验中被证明是非常有效的,并且不需要人工的标注,因为图片和视频本身就是最好的标注。

    但是这一系列的预判方法在某些时候可能会不太好用。比如,我随机遮住一只猫脑袋的一部分,让计算机去脑补,如果它知道这只猫,就会补全它的脑袋,这没有问题。但是,如果我遮住那只猫的尾巴,计算机去脑补的时候就会出问题,因为就算我知道这只猫需要补一条尾巴,但是我不知道那尾巴原来是朝哪儿的。再看原图,它只是提供了某一种可能性,但并不唯一的可能性。发现问题了吗?这一系统方法被人诟病的最重要的一个点就是,预判是一个概率的问题,不能用原图的每一个像素来做严格训练,特别是需要预判的内容特别多的时候,会出现问题。Yann Lecun有一个非常经典的例子,视频中一只铅笔笔尖朝下竖直放着,预测下一时间,我们都知道铅笔会因为重力倒下,但是具体往哪个放下倒是一个随机的问题,并不能用原数据来监督学习。最近有论文就对这个问题做了详细的诠释和提出了解决方案,大家有机会可以去看一看:

    https://openai.com/blog/image-gpt/

    好,我们再想想还有什么是视觉系统需要自发学习的。刚刚说了一只老虎朝你跑过来,你需要预判并且躲避,那么如果一只小猫跑过来呢?注意这里需要学习的是

    • 分辨(而不是分类)

    最简单的动机,还是为了生存,我们需要区分能吃的和不能吃的,往大里说,我们需要区分不同物体的差异,并不是分出来猫和狗的类别差异就可以了,更需要分出来不同的猫之间的差异,大小胖瘦,毛色等等,从这个角度讲,每一只猫个体都是不一样的,并且,即便是一只猫,在早中晚也是不一样的。这就和刚刚说的以分类为核心,类与类之间正交的学习方法完全不同了,广义上说,我们需要承认世界上没有两片一样的雪花,即便给的标签是一摸一样的,(0,1,0,0),计算机也需要看出物与物之间的不同。这个思路引出了最近火的不行的对比学习。和预判不同的是,这一系列的方法不需要“脑补”,而是能在对比中发现不同即可。很有代表性的工作包括聚类,旋转,和最近的SimCLR,MoCo等。特别一提的是,就是这种方法最近被发现比ImageNet上的分类学习更有效。SimCLR和MoCo假设是世界上没有两片一样的雪花,我们在这个基础上又加了一个假设,也就是我们承认没有两片一样的雪花,但是雪花和雪花之间的差异还是会比雪花和树叶之间的差异更小。

    这个很重要,对比学习,除了对比出不同点,也应该同时发现相似处。这就是我们去年在MICCAI Workshop中发表的一篇工作。大家有兴趣的也可以看一看。

    https://link.springer.com/chapter/10.1007/978-3-030-60548-3_9

    这也引出了一个更深层的讨论,不同概念的内涵(connotation)和外延(denotation):内涵是一个概念中事物的共有属性,外延是一切属于这个概念的具体事物。分类问题事先给定了一个概念的外延的一部分,比如在所有ImageNet数据集中,“猫”这个概念的外延就是它对应的那几张图片,模型根据这个外延,来学习“猫”这个概念中图片的共有属性(内涵)。分辨则不同,它是不断地放缩一个概念的外延,来辨别两幅图片的相似点和差异性,即便是两幅“猫”,当外延只缩到每一幅图本身了,模型在承认这两幅图都有猫的同时,还需要辨别出两只猫细微的差异的,比如颜色,动作,长相,年龄。对比学习在缩放不同概念的内涵和外延之间,学习到更立体,更丰满的视觉特征。

    04

    前沿成果的比较

    谈到这里,我们离学术前沿是越来越近了。回顾一下我们到底想要一个什么东西?我们需要一个通用的,可靠的,可延展的视觉模型,这个模型不是去做博士干的事情,比如分割一个细胞,区分一个肿瘤是恶性还是良性的,从图片中找病灶等等,这些工作都是后话,有足够标签就能做好,我们需要的是一个五岁小朋友的视觉系统,一种虽然看上去傻乎乎的什么都不会,但是很稳定,很全面的一个模型。

    很多人在诟病深度学习说需要很多的标签,而人只需要学习一两个样本中就掌握一项任务。这个认识是有偏见的,人确实可以通过学习一两个样本就能大概分清什么是肋骨,什么是心脏,但是这个人想必不是刚出生的婴儿,婴儿视觉系统是没有办法短时间内完成这个one-shot或者few-shot的任务的。而这个五岁左右的视觉系统,就是我们追求的视觉模型。这个模型,是有机会让无数的下游任务实现少样本学习。这相当于是一件“磨刀不误砍柴工”的工作。在众多的下游任务中,我们只需要极少的模型参数量的调整,极少的人工标注,就可以达到一个不错的水平。

    我们离这个梦想是有距离的。现在我们就来看看自监督学习离真正回答“视觉的目的是什么”还差多少。现在每天都有那么多自监督学习的方案发表,可以说是公说公有理,婆说婆有理,大家都从不同的角度去思考如何训练一个通用的视觉模型,所以给模型设定的目标也是非常不一样的。有说脑补可以的,有预测旋转角度的,有做拼图游戏的,有比较学习的。一时间出现这么多套训练方案百家争鸣,正常吗?非常正常。想想我们在建立视觉基础的时候也不就是自己摸索出自己的一套方法吗?打个比方,如果说一个厉害的视觉预训练模型是高考状元,高考每年有那么多的状元,他们成功背后的方法也是不一样的嘛。每一个方法都可以发表一篇论文,每个家长都说自己的一套方法是训练状元的有效途径。但是,真的要去评价孰好孰坏是不容易的,确实可能某些自监督方法在特定的情况下会很强,它的通用性是需要在很多具体任务来评判。最新的一篇论文

    https://arxiv.org/pdf/2011.13377.pdf

    就有对大部分自监督学习方法做一个比较,得到的结果参差不齐,有时候这个方法好,有时候那个方法好。这方面的研究论文一般来说有两种,一种是提出新的自监督学习方法,说新提出的方法比其他的方法好。随着越来越多的方案的提出,另一种文章是对这么多方法的一个综述和比较。除了这两种论文,现在又有一种论文的题目特别有趣儿,形如:

    Do Better ... Transfer Better?

    这里的省略号代表不同的预训练方法。你可能会觉得很奇怪,人家论文都说了,比如预测旋转角度可以让模型更好地迁移学习,为什么还有问这个问题呢?其实这两个论述不太一样,一个是实然层面的,我做了实验,结果表明预测旋转角度可以提高迁移学习的效果,另一个是应然层面的,意思是说预测旋转角度是不是视觉的目的,也就说如果我提升了预测旋转的能力,是否保证这个预训练模型一定会更好?这是一个很有意思的问题,我们可以从实验中总结出来一个自监督学习的方法,比如预测旋转角,是不是直接地学习了视觉特征,还是在预测角度的同时间接地学到了视觉特征。还是高考状元为例,我写一篇论文说根据我的统计结果,发现高考状元的家境普遍比较贫寒。我再写一篇论文,问是不是家境越贫寒,高考成绩越好呢?这就是这一类论文的价值所在,直击灵魂的拷问,它从本质上去测试一个自监督学习方法是不是学习到了视觉的目的。大家能明白我接下来要讲什么吗?如果这个类的论文“Do Better ... Transfer Better?”,但凡有一篇的回答是Yes,那真的是,学习通用视觉特征这个问题就大体解决了,或者变成了一个可解的问题了。为什么呢?打个比方,我发现脑补图片的技能越强,模型的迁移学习能力越强。视觉的目的一下子被清晰的定义下来了,也就说训练模型的目标函数被定义下来了。我们把一个模糊的,抽象的所谓“视觉的目的”,转化成了一个具体的,可量化的函数,接下来的任务就是刷高分数,像ImageNet竞赛一样,有一个清晰的评价指标,然后每年把分数往上刷。

    现在我们没有办法这么直接地解决问题,还在一个探索期,视觉的目的是什么?刚刚总结了两大块主流任务,预判与分辨。计算机科学为什么是一门科学,是因为在解决工程问题的时候,我们需要做底层的分析和研究,也需要多学科的交流,比如视觉和脑科学的研究会对解决这个预训练的问题很有帮助。那我们来看看这一路走来学到了什么。从一开始的定义特征,到后来自动学习特征(但是需要定义好类别和类别数),到现在完全不需要人工的类别标签,一个趋势就是,当学习通用的视觉模型时,人为定义的东西越少越好,让计算机自主学习的东西越多越好。沿着这个思路下去,和我们的视觉系统相比,这些自监督学习的方法,至少到目前为止,我认为还有几个方面需要解决:

    • 首先,视角是人为设计的。

    • 其次,模型是人为设计的。

    • 最后,任务是人为设计的。

    这三个方向的研究都非常有意思,今天我没办法一一细说,我会在后续的博客中讨论。这边我展开来讨论一下最后一条,任务是人为设计的。首先我觉得在现在的阶段,人为设计预训练的任务是可以被接受的,毕竟我们人类上课学习的时候也有一个培养计划,让计算机自己给自己设计一套学习方案,我现在还不敢想。那就看看如何去设计任务,让计算机可以学到通用的视觉特征?回溯到自监督学习一开始的时候,它是先在自然语言处理领域得到突破,为什么自然语言可以做自监督呢?原因是(1)语言可以切成词汇,(2)词汇的排列是有意义的。计算机从网上的那么多语料中学习,一个很重要的点是你不能把语料中的词汇打乱,打乱了就没有语义了。比如

    视 · 觉 · 的 · 目 · 的 · 是 · 什 · 么

    一共八个字组成,是一段有意义的话,但是,这八个字有很多中排列组合的形式,绝大多数的排列是没有语义特征的,而计算机就只在这种有意义的排列中学习特征,所以是有效的。反观自然图片,猫的图片可谓说是千奇百怪什么都有,像自然语言那样的理想情况是什么?最好所有的猫都端端正正地给我坐好,一个姿势,一种表情,然后计算机去学习它的纹理,形状,或其他的抽象特征。在这种严格的规定下,我清楚地知道什么在上,什么在下,什么在左,什么在右,就像自然语言一样人为地创造了一种特定的语法。计算机就可以比较直接地学习到图片的上下文语义特征。请问这一段对理想图片的描述让你想到了什么?

    医学影像

    首先在拍影像的时候,医生是不会让你有天马行空的姿势的,基本上两种姿势,要不站着,要不躺着。其次,如果姿势是固定的,人体的组织器官的分布也是有序的,五脏六腑都有固定的位置。所以最后拍出来的图片都看起来差不多,就像一个句子,你反复地用不同的词汇说,但是表达的内容相似。

    视觉的目的是什么?视觉的动机是什么?视觉的目标是什么?

    医学影像这个独特的优势和自然语言非常的类似。所以我有理由相信在医学影像处理中的自监督学习也可以得到像BERT一样很猛的预训练模型,而不依赖于人工标签。那如何去利用这个天然的优势呢?我们还需要参考自然语言处理,它们是先定义了词的概念,然后根据大量的语料学习每个词的特征,或者每个词在句子中的特征。相似地,我们也可以给医学影像定义视觉词汇,因为刚才说了,这些视觉词汇在医学影像中是有序的,并且传达出人体组织结构的语义信息,那么一个简单的思路就是去学这些视觉词汇的特征。在计算机视觉早期的时候就有Bag of Visual Word的概念,我们最近的一篇TMI就是让这些视觉词汇通过深度网络的学习,使之具备迁移学习的能力。大家有机会可以去看看,应该马上就能见刊了,下面这篇是它的会议版本:

    https://arxiv.org/abs/2007.06959

    我们来看看这个方法背后想要传达的信息和整体框架的基本假设。梳理一下刚刚的逻辑:

    1. 自然语言处理的预训练特别猛,而且不依靠人工标注,因为语料中自带了上下文语义特征

    2. 医学影像也具备相似的属性,因为拍照是的姿势固定的,人体内部的组织结构是有序的

    3. 因此,我们只需要定义医学影像中的视觉词汇,并学习它的上下文语义特征即可

    可能这个时候有小伙伴会质疑,你说的这个特征确实在医学影像中表现地非常明显,但自然图像难道不具备这个特征吗?没错,自然图片也可以有这个特征,比如说人脸识别,只要能把人脸从图片中框出来,并加上一定的旋转,也可以得到一个具有固定上下文语义特征的数据集, 也就是一个近似对齐的数据集,计算机同样可以通过自监督的视觉词汇学习,从图像中学到特征。只是构建这种数据集需要一定的工作,不像医学影像(比如ChestXray)那样是自带的属性。

    再往上想一层,其实自然图片是包含了弱弱的上下文语义的。刚刚说的语义特征是来自于有序的词汇排列,如果打乱了,语义就没了。从这个逻辑出发,严格意义上讲,所有能被理解的自然图片都是有一定意义的,真的打乱图片中的像素才能说它是一堆乱码。一张图中这么多像素,它们能根据一定的规则拼成有意义的图片,本身就是一种语义信息。

    如果云层是天空的一封信,能不能再听一听,听你的声音。(无人之岛)

    Images are the Language of the Creator

    只是没有像医学影像那么直接,看起来那么有规则。总结来讲,医学影像本身具有很好的属性,让我们可以有针对性地设计自监督学习的策略,原因是它比自然图片更有规则,总结来说,人体组织结构的一致性是自监督学习在医学影像处理中一个很独特也是很直接的学习目的。除了这个特性,医学影像和自然图片相比,还有很多宝藏可以挖,比如影像的像素值有物理意义,大多数影像是三维的等等,这些特性都是设计预训练算法的非常宝贵的参考,我今天就不细说了,因为很多想法都还没有发表,等以后和大家分享。

    最后,上一个价值:计算机视觉在学习通用特征时,需要大量参考人类或者动物的视觉系统,也就是一种跨学科的概念。当然也不是说必须我们要用电脑模拟一个一摸一样的视觉系统,很多工具在借鉴生物学的同时也会根据工程的实际需要进行调整。比如飞机借鉴了鸟的翅膀,但是最后的成品是在这个鸟的基础上优化了很多,甚至改进地面目全非。这是在了解了鸟类飞行的机理的前提下,我们才有可能进行仿真和优化。其实这方面是有争论的,我们会因为脑科学的研究对大脑有一个完整的认识,还是会先在计算机科学上有一个突破,从而反推回大脑的机理,建立起更深的认识,这个我不清楚。

    但是今天讨论“视觉的目的”是想给计算机找出一个可量化的目标函数,这个目标函数可以和通用视觉特征有一个很紧密的关联,而做到Better ... Better Transfer。这个目的从一开始计算和匹配人为设计的特征,到后来匹配人为定义的类别的监督学习,再到现在的预判,分辨为核心的自监督学习。除了从视觉本身出发去设计不同的预训练任务,探索视觉的目的,我们也可以通过对图片本身性质的理解出发来设计任务,也就是所谓先验的特征,特别是医学影像中那么多的模态,各有千秋,各有各的语义特征。


    欢迎加入智源CVPR兴趣组

     

    (加入CVPR兴趣组,共同讨论最新进展)


    CVPR 研究组成员招募

    智源社区作为一个以构建高度合作为目的的人工智能社区,为了推动人工智能领域,特别是计算机视觉领域研究者和从业者之间的交流和合作,我们将组织「CVPR 兴趣研究组」(以下简称“CVPR研究组”),以在线合作的方式来推动CVPR的交流工作。

    CVPR研究组将以在读硕博为主要群体,围绕「CVPR」会议做(但不限于)以下工作,包括撰写论文解读文章、邀请并主持CVPR论文报告、专题讨论及领域进展分析等,以期促进大家的研究工作,并激发研究灵感,做出创新研究。

    本研究组采用申请入组机制:

    • 详情可点击「阅读原文」查看

    • 报名请扫描二维码

    (申请加入「CVPR 研究组」)

    展开全文
  • 计算机视觉(Computer Vision)是人工智能领域的一个重要分支。它的目的是:看懂图片里的内容。 本文将介绍计算机视觉的基本概念、实现原理、8 个任务和 4 个生活中常见的应用场景。 计算机视觉为什么重要? 人...
  • 计算机视觉概述

    2021-06-16 17:50:11
    我们可以这么来看待人工智能技术,它可以说是利用计算机技术来对人的感官,例如视觉听觉、触觉以及思维进行模拟,从而建立起逻辑推断等智能才具备的能力。其中,计算机视觉技术无疑是至关重要的,也是非常困难的。...
  • 计算机视觉论文.doc

    2021-07-09 00:55:29
    中国矿业大学公选课计算机视觉论文学院:计算机科学与技术班级:信安10-2姓名:吴健东学号:081036952011年10月(一)引言:计算机视觉是人工智能领域的一个重要部分,它的研究目标是使计算机具有通过二维图像认知三维...
  • 摘要:视觉,对于人类或动物来说,似乎是一件稀松平常的事情,我们甚至都不需要去有意识地训练自己,就可以天赋一般地认识世界。 对于机器而言,理解图片却是一项极其困难的任务,计算机视觉是一门教机器如何“看”...
  • 什么是听觉?机器听觉

    千次阅读 2017-09-15 11:31:25
    什么是听觉?机器听觉听觉作用于,使其感受细胞兴奋并引起的冲动发放传入信息,经各级分析后引起的感觉。 外界通过介质传到外耳道,再传到鼓膜。鼓膜振动,通过听小骨放大之后传到,刺激耳蜗内的纤(也称:...
  • 但在重大研究计划中,无人驾驶汽车所扮演的角色并不仅仅是“中国智能车未来挑战赛”中的“选手”,它们有更重要的任务——验证图像与视觉信息的计算、语音与听觉信息的计算、脑—机接口这些方面的研究成果。...
  • 视觉感知与认知

    千次阅读 2021-03-15 10:37:10
    2. 视觉感知与认知 2. 视觉感知与认知2.1 感知与认知2.1.1 视觉感知处理过程2.1.2 格式塔理论2.1.2.1 贴近法则 (proximity)2.1.2.2 相似法则 (similarity)2.1.2.3 连续原则 (continuity)2.1.2.4 闭合原则 (closure)...
  • 稳态视觉诱发电位SSVEP介绍

    千次阅读 2020-04-24 21:28:25
    目录SSVEP产生信号原理视觉刺激频率 本分享为脑机学习者Rose整理发表于公众号:脑机接口社区(微信号:Brain_Computer).QQ交流群:941473018 诱发电位是当大脑受到脉冲电流...诱发电位主要有视觉诱发电位、听觉诱发...
  • 原标题:探索计算机视觉与音频的交叉:基于视觉的音乐相关研究ReviewJiangmen作 者: 香港中文大学MMLab在读博士生 周航探索视觉 和音频(听觉) 的联合学习任务(Audio-Visual Learning)是近年来依然小众却又充满前景...
  • 工程师将大脑信号直接转化为语音

    千次阅读 2022-02-08 00:58:14
    最终,他们希望他们的系统可以成为植入物的一部分,类似于一些癫痫患者佩戴的植入物,将佩戴者的想法直接转化为文字。 客观、易懂的不同模型的评分。(A)基于四种模型的所有受试者的平均ESTOI分数。(B)电极的覆盖...
  • 综述 | 机器视觉表面缺陷检测

    千次阅读 2022-05-06 01:09:08
    点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达0 引言中国是一个制造大国,每天都要生产大量的工业产品。用户和生产企业对产品质量的要求越来越高,除要求满足使用性能外,还要有良好的外观...
  • 本文转自知乎,已获作者授权转载,请勿二次转载。https://zhuanlan.zhihu.com/p/151696020文章略有修改。 01 前言近年来计算机视觉和深度学习...
  • 电商行业转化率到底如何计算?

    千次阅读 2020-12-14 18:16:39
    行为转化率 = 期望行为数 / 行为总数总体功能转化率 = 行为转化率1 * 行为转化率2 *行为转化率3 * ...*行为转化率N 期望行为是希望考量目标做到的行为,比如阅读完一篇文章、完成一次注册、绑定银行卡、支付成功等...
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达“一眼就能学会动作”,或许对人而言,这样的要求有点过高,然而,在机器人的身上,这个想法正在逐步实现中。马斯克(Elon Musk)创...
  • YY0709-2009规定了报警系统和报警信号的要求,其中最核心的依然是视觉报警信号和听觉报警信号的要求,今天主要谈一谈视觉报警。 视觉报警信号的要求主要集中在标准第201.3.2条款 标准规定每一个报警状态应引起...
  • 前言和基础知识准备1、前言1、1从人工智能到计算机视觉和模式识别1、2计算机视觉可以做什么2、基础知识准备2、1传感器及其搭载平台2、2多视几何基础知识 ...模式识别: 可以模拟人类的视觉听觉
  • 干货 || 分析9款常用视觉软件

    千次阅读 2018-06-16 10:55:32
    一、开源的OpenCVOpenCV(Open Source Computer Vision Library:http://opencv.org)是一个开源的基于BSD许可的库,它包括数百种计算机视觉算法。文档OpenCV 2.x API描述的是C++ API,相对还有一个基于C语言的...
  • 西电计算机视觉大作业课程:计算机视觉专业:模式识别与智能系统学号:姓名:数字水印技术引言随着互联网广泛普及的应用,各种各样的数据资源包括文本、图片、音频、视频等放在网络服务器上供用户访问。但是这种网络...
  • 计算机视觉简介

    2017-11-29 21:39:35
    计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。...
  • 视觉系统:人类最重要的感觉

    千次阅读 2020-04-03 19:07:39
    (五)视觉信号在大脑中的第一站:外侧膝状体(六)视觉信号在大脑中的第二站:初级视觉皮层(七)视觉信号在大脑中的第三站:高级视觉皮层们 (零)前言 近期打算和小伙伴一起,创作一个专栏,专门讲解人类最重要的...
  • 十、【python计算机视觉编程】OPENCV

    千次阅读 2019-07-15 16:11:39
    在读取原图像之后,紧接其后的是 OpenCV 颜色转换代码,其中最有用的一些转换代码如下所示: cv2.COLOR_BGR2GRAY (原图像转化为灰度图像) cv2.COLOR_BGR2RGB (原图像转化为RGB图像) cv2.COLOR_GRAY2BGR (灰度图像...
  • 闭屏状态下,喜马拉雅任意节目时长超过8分钟的免费专辑,在每期节目自动切换的过程中面向非会员用户和会员用户的30秒声音广告流正强化品牌在用户中的听觉+视觉印象加成,支持品牌实现跳转转化。简单来说就是闭屏时...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,741
精华内容 1,096
热门标签
关键字:

听觉转化视觉