精华内容
下载资源
问答
  • 【AI白身境】计算机视觉有哪些研究方向

    万次阅读 多人点赞 2019-03-01 07:22:52
    【AI白身境】一文览尽计算机视觉研究方向 今天是新专栏《AI白身境》的第10篇,所谓白身,就是什么都不会,还没有进入角色。 相信看了前面的几篇文章后很多朋友已经等不及快速入行了,今天就来介绍一下计算机视觉的...

    文章首发于微信公众号《有三AI》

    【AI白身境】一文览尽计算机视觉研究方向

    今天是新专栏《AI白身境》的第10篇,所谓白身,就是什么都不会,还没有进入角色。

    相信看了前面的几篇文章后很多朋友已经等不及快速入行了,今天就来介绍一下计算机视觉的各大研究方向及其特点

    所谓计算机视觉,即compute vision,就是通过用计算机来模拟人的视觉工作原理,来获取和完成一系列图像信息处理的机器。计算机视觉属于机器学习在视觉领域的应用,是一个多学科交叉的研究领域,涉及数学,物理,生物,计算机工程等多个学科,由此也可以想象到计算机视觉的研究范围非常广,也是图像,语音,自然语言处理领域中从业人数最多的。

    作者 | 言有三

    编辑 | 言有三

     

    01 图像分类

    1.1 基本概念

    图像分类是计算机视觉中最基础的一个任务,也是几乎所有的基准模型进行比较的任务,从最开始比较简单的10分类的灰度图像手写数字识别mnist,到后来更大一点的10分类的cifar10和100分类的cifar100,到后来的imagenet,图像分类任务伴随着数据库的增长,一步一步提升到了今天的水平。

    现在在imagenet这样的超过1000万图像,2万类的数据集中,计算机的图像分类水准已经超过了人类。

    图像分类,顾名思义,就是一个模式分类问题,它的目标是将不同的图像,划分到不同的类别,实现最小的分类误差。

    总体来说,对于二分类的问题,图像分类可以分为跨物种语义级图像分类,子类细粒度图像分类,以及实例级图像分类三大类别。

    传统机器学习方法:

    通过各种经典的特征算子+经典分类器组合学习,比如HoG+SVM。

    深度学习方法

    各种分类网络,最为大家熟知的就是ImageNet竞赛了。

    2012年Alexnet诞生,意味着GPU训练时代的来临。

    Alexnet是第一个真正意义上的深度网络,与LeNet5的5层相比,它的层数增加了3 层,网络的参数量也大大增加,输入也从32变成了224。

    2014年VGG诞生,它共包含参数约为550M。全部使用3*3*的卷积核*和2*2的最大池化核,简化了卷积神经网络的结构。VGG很好的展示了如何在先前网络架构的基础上通过增加网络层数和深度来提高网络的性能,网络虽然简单,但是却异常的有效,在今天VGG仍然被很多的任务选为基准模型。

    同一年GoogleNet诞生,也被成为Inception Model,它的核心是Inception Module。一个经典的inception 结构,包括有四个成分,1*1卷积,3*3 卷积, 5*5 卷积,3*3 最大池化,最后对运算结果进行通道上组合,可以得到图像更好的表征。自此,深度学习模型的分类准确率已经达到了人类的水平(5%~10%)。 

    2015年,ResNet被提出。ResNet以 3.57%的错误率表现超过了人类的识别水平,并以152层的网络架构创造了新的模型记录。由于resnet采用了跨层连接的方式,它成功的缓解了深层神经网络中的梯度消散问题,为上千层的网络训练提供了可能。

    2016年ResNeXt诞生,101层的ResNeXt可以达到ResNet152 的精确度,却在复杂度上只有后者的一半,核心思想为分组卷积。即首先将输入通道进行分组,经过若干并行分支的非线性变换,最后合并。

    在resnet基础上,密集连接的densenet将前馈过程中将每一层与其他的层都连接起来。对于每一层网络来说,前面所有网络的特征图都被作为输入,同时其特征图也都被其他网络层作为输入所利用。 

    2017年,也是imagenet图像分类比赛的最后一年,senet获得了冠军。这个结构,仅仅使用了“特征重标定”的策略来对特征进行处理,也就是通过学习获取每个特征通道的重要程度,根据重要性去抑制或者提升相应的特征。 

    1.2 方向特点

    图像分类的比赛基本落幕,也接近算法的极限。但是在实际的应用中却面临着比比赛中更加复杂,比如样本不均衡,分类界面模糊,未知类别等。如果想了解更多,请查看往期文章。

    【技术综述】你真的了解图像分类吗?

     

    02 目标检测

    2.1 基本概念

    分类任务给出的是整张图片的内容描述,而目标检测任务则关注图片中特定的目标。

    检测任务包含两个子任务,其一是这一目标的类别信息和概率,它是一个分类任务。其二是目标的具体位置信息,这是一个定位任务。 

    与计算机视觉领域里大部分的算法一样,目标检测也经历了从传统的人工设计特征和浅层分类器的思路(以),到大数据时代使用深度神经网络进行特征学习的思路

    在传统方法时代,很多的任务不是一次性解决,而是需要多个步骤的。而深度学习时代,很多的任务都是采用End-To-End的方案,即输入一张图,输出最终想要的结果,算法细节和学习过程全部丢给了神经网络,这一点在物体检测这个领域,体现得尤为明显。

    不管是清晰地分步骤处理,还是深度学习的end-to-end的方法,目标检测算法一定会有3个模块。第一个是检测窗口的选择,第二个是图像特征的提取,第三个是分类器的设计。 

    2.2 方法分类

    传统机器学习方法:

    以保罗·维奥拉和迈克尔·琼斯于2001年提出的维奥拉-琼斯目标检测框架为代表,这是第一篇基于Haar+Adaboost的检测方法,也是首次把检测做到实时的框架,此方法在opencv中被实现为cvHaarDetectObjects(),是opencv中最为人熟知的目标检测方法。速度非常快,检测召回率相对如今的算法较低。

    深度学习方法:

    仍然要解决区域选择、提取特征、分类回归三个问题。但是在演变过程中,却发展出了multi-stage和one-stage的方法。其中multi-stage方法,是分步骤完成上面的任务,甚至可能需要单独训练各个网络。而one-stage则是一步到位。

    RCNN的框架是multi-stage方法的典型代表。它使用了Selective search先生成候选区域再检测,候选窗口的数量被控制在了2000个左右。选择了这些图像框之后,就可以将对应的框进行resize操作,然后送入CNN中进行训练。由于CNN非常强大的非线性表征能力,可以对每一个区域进行很好的特征表达,CNN最后的输出,使用多个分类器进行分类判断。该方法将PASCAL VOC上的检测率从 35.1% 提升到了53.7%,其意义与Alexnet在2012年取得分类任务的大突破是相当的,对目标检测领域影响深远。  

    随后Fast R-CNN提出RoIPooling从整图对应的卷积特征图选取区域特征,解决了重复提取特征的问题。Faster R-CNN则提出Region Proposal, anchors把一张图片划分成n*n个区域,每个区域给出9个不同ratio和scale的proposal,解决了重复提取候选proposal的问题。 RCNN系列在工业届应用非常广泛,因此从事目标检测的同学必须掌握。 

    除了multi-stage方法,还有one-stage方法。以YOLO为代表的方法,没有显式的候选框提取过程。它首先将图片resize到固定尺寸,将输入图片划分成一个7x7的网格,每个网格预测2个边框,对每一个网络进行分类和定位。YOLO方法也经过了许多版本的发展,从YOLO v2到YOLO v3。YOLO的做法是速度快,但是会有许多漏检,尤其是小的目标。所以SSD就在 YOLO的基础上添加了Faster R-CNN的Anchor 概念,并融合不同卷积层的特征做出预测。虽然YOLO和SSD系列的方法没有了region proposal的提取,速度更快,但是必定会损失信息和精度。

    如果想了解更多,可以去阅读我们的往期文章。

    【技术综述】一文道尽R-CNN系列目标检测

    【技术综述】万字长文详解Faster RCNN源代码

    2.3 方向特点

    目标检测方向有一些固有的难题,比如小脸,遮挡,大姿态

    而在方法上,多尺度与级联网络的设计,难样本的挖掘,多任务loss等都是比较大的研究小方向,咱们也写过一些文章,感兴趣的朋友可以去翻。

     

    03 图像分割

    3.1 基础概念

    图像分割属于图像处理领域最高层次的图像理解范畴。所谓图像分割就是把图像分割成具有相似的颜色或纹理特性的若干子区域,并使它们对应不同的物体或物体的不同部分的技术。这些子区域,组成图像的完备子集,又相互之间不重叠。

    在图像处理中,研究者往往只对图像中的某些区域感兴趣,在此基础上才有可能对目标进行更深层次的处理与分析,包括对象的数学模型表示、几何形状参数提取、统计特征提取、目标识别等。

    传统方法:

    图像分割问题最早来自于一些文本的分割,医学图像分割。在文本图像分割中,我们需要切割出字符,常见的问题包括指纹识别,车牌识别;由于这一类问题比较简单,因为基于阈值和聚类的方法被经常使用。

    基于阈值和聚类的方法虽然简单,但因此也经常失效。以graphcut为代表的方法,是传统图像分割里面鲁棒性最好的方法。Graphcut的基本思路,就是建立一张图,其中以图像像素或者超像素作为图像顶点,然后移除一些边,使得各个子图不相连从而实现分割。图割方法优化的目标是找到一个切割,使得移除边的和权重最小。

    深度学习方法:

    全卷积神经网络(Fully connected Network)是第一个将卷积神经网络正式用于图像分割问题的网络。 

    一个用于分类任务的深度神经网络通过卷积来不断抽象学习,实现分辨率的降低,最后从一个较小的featuremap或者最后的特征向量,这个featuremap通常为5*5或者7*7等大小。而图像分割任务需要恢复与原尺度大小一样的图片,所以,需要从这个featuremap恢复原始图片尺寸,这是一个上采样的过程。由于这个过程与反卷积是正好对应的逆操作,所以我们通常称其为反卷积。

    实际上并没有反卷积这样的操作,在现在的深度学习框架中,反卷积通常有几种实现方式,一个是双线性插值为代表的插值法,一个是转置卷积。 

    3.2 方向特点

    在基于深度学习的图像分割中,有一些比较关键的技术,包括反卷积的使用,多尺度特征融合,crf等后处理方法。

    多尺度与上下文信息:

    多尺度的信息融合可以从特征图,还可以直接采用多尺度的输入图像,不过这两者本质上没有太多的差异。使用金字塔的池化方案可实现不同尺度的感受野,它能够起到将局部区域上下文信息与全局上下文信息结合的效果。对于图像分割任务,全局上下文信息通常是与整体轮廓相关的信息,而局部上下文信息则是图像的细节纹理,要想对多尺度的目标很好的完成分割,这两部分信息都是必须的。  

    CRF:

    由于经典的cnn是局部的方法,即感受野是局部而不是整个图像。另一方面,cnn具有空间变换不变性,这也降低了分割的边缘定位精度。针对cnn的这两个缺陷,crf可以进行很好的弥补。crf是一种非局部的方法,它可以融合context信息,Deeplab系列就使用了cnn加上全连接的crf的方式。

    另一方面,前面我们说的图像分割,是属于硬分割,即每一个像素都以绝对的概率属于某一类,最终概率最大的那一类,就是我们所要的类别。但是,这样的分割会带来一些问题,就是边缘不够细腻,当后期要进行融合时,边缘过渡不自然。此时,就需要用到image matting技术。

    更多请查看往期文章:

    【技术综述】闲聊图像分割这件事儿

     

    04 目标跟踪

    4.1 基本概念

    目标跟踪,指的其实就是视频中运动目标的跟踪,跟踪的结果通常就是一个框。目标跟踪是视频监控系统中不可缺少的环节。 

    根据目标跟踪方法建模方式的不同,可以分为生成式模型方法与判别式模型方法

    生成式模型跟踪算法以均值漂移目标跟踪方法和粒子滤波目标跟踪方法为代表,判别式模型跟踪算法以相关滤波目标跟踪方法和深度学习目标跟踪方法为代表。

    生成类方法:

    在原始影像帧中对目标按指定的方法建立目标模型,然后在跟踪处理帧中搜索对比与目标模型相似度最高的区域作为目标区域进行跟踪。算法主要对目标本身特征进行描述,对目标特征刻画较为细致,但忽略背景信息的影响。在目标发生变化或者遮挡等情况下易导致失跟现象。

    判别类方法:

    通过对原始影像帧,对目标及背景信息进行区分建立判别模型,通过对后续影像帧搜索目标进行判别是目标或背景信息进而完成目标跟踪。 

    判别类方法与生成类方法的根本不同在于判别类方法考虑背景信息与目标信息区分来进行判别模型的建立,由于判别类方法将背景与目标进行区分,因此该类方法在目标跟踪时的表现通常更为鲁棒,目前已经成为目标跟踪的主流跟踪方式。判别类方法包括相关滤波,深度学习方法。

    4.2 方向特点

    目标跟踪有一些难点:

    (1) 目标表征表达问题,虽然深度学习方法具有很强的目标表征能力,但是仍然容易受相似环境的干扰。

    (2) 目标快速运动,由于很多跟踪的物体都是高速运动,因此既要考虑较大的搜索空间,也要在保持实时性的前提下减小计算量。

    (3) 变形,多尺度以及遮挡问题,当目标发生很大的形变或者临时被遮挡如何保持跟踪并且在目标重新出现时恢复跟踪。

     

    05 图像滤波与降噪

    5.1 基本概念

    现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为含噪图像或噪声图像。减少数字图像中噪声的过程称为图像降噪,有时候又称为图像去噪。 

    降噪可以应用于图像增强和美颜等领域。

    传统方法:

    传统降噪算法根据降噪的原理不同可分为基于邻域像素特征的方法,基于频域变换的方法,和基于特定模型的方法。

    基于空域像素特征的方法,是通过分析在一定大小的窗口内,中心像素与其他相邻像素之间在灰度空间的直接联系,来获取新的中心像素值的方法,因此往往都会存在一个典型的输入参数,即滤波半径r。此滤波半径可能被用于在该局部窗口内计算像素的相似性,也可能是一些高斯或拉普拉斯算子的计算窗口。在邻域滤波方法里面,最具有代表性的滤波方法有以下几种:算术均值滤波与高斯滤波,统计中值滤波,双边滤波,非局部平均滤波方法,BM3D算法。

    深度学习方法:

    在2012年,随着Alexnet的出现,深度学习做去噪的工作取得了一些进展,可以达到和BM3D差不多的水平。对于仿真的噪声和固定的噪声,深度学习已经可以很好的去除,达到或超过传统领域里最好的算法。

    利用卷积神经网络去除噪声的原理很简单,输入是一张有噪声的图,标签是一张无噪声的图,输出是一张降噪后的图,损失函数是无噪声groundtruth与网络输出的L2距离,网络通常就是与图像分割算法一样的网络,卷积+与之对称的反卷积。

    5.2 方向特点

    降噪的研究聚焦在真实数据的去噪声,因为真实世界的噪声不符合高斯加性噪声的假设,而且是依赖于信息本身的。不过,真实噪声图像和相应的无噪声图像获取是非常困难,慢慢的也有了一些benchmark,大家以后关注我们就知道了。

     

    06 图像增强

    6.1 基本概念

    图像增强,即增强图像中的有用信息,改善图像的视觉效果。

    图像增强实际上包含了很多的内容,上面的降噪也属于其中,只是因为降噪多了美颜这一个应用单独拿出来说一下。

    对比度增强,用于扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,可用于改善图像的识别效果,满足某些特殊分析。

    超分辨,使图像变得更加清晰,可以用于视频的传输先进行降采样,再进行升采样,即降低了传输成本,又增加了视觉效果。

    图像修复,重建图像和视频中丢失或损坏的部分,也被称为图像插值或视频插值,主要是替换一些小区域和瑕疵,如photoshop中的印章工具。随着发展,已经从原先针对划痕、污点等的修复到现在对图像、视频中文字、物体等的移除,比如水印等。

    传统方法:

    传统的方法就是一个预定义好的非线性变换,主要有三大类方法,一类是点操作,一类是直方图操作,一类是Retinex理论。

    点操作也被称为直接对比度增强,将每个像素独立操作,包括对数变化,指数变化,负图像,阈值化等。我们熟知的gamma变换如下,可以进行不同形状的映射。

    直方图操作也被称为间接对比度增强,包括直方图均衡,直方图匹配等。直方图均衡化通常用来增加图像的全局对比度,尤其是当图像中主体和背景对比度相当接近的时候。直方图均衡化的效果就是让直方图更均衡的分布,这种方法对于背景和前景都太亮或者太暗的图像非常有用,通常是曝光过度或者曝光不足的图片。

    Retinex理论,即颜色恒常知觉的计算理论,Retinex是一个合成词,它的构成是retina(视网膜)+cortex(皮层),它将图像认为是reflectance和illumination的点乘,理论基础是在不同的照明条件下,物体的色彩不受光照非均性的影响是恒定的,而物体的颜色是由物体对长波、中波和短波光线的反射能力决定的而不是由反射光强度的绝对值决定。

    深度学习方法:

    以增强对比度为例,深度学习方法使用了CNN来进行非线性变换的学习,而且通常不仅仅局限在对比度增强,经常会同时学习到降噪。深度学习的方法有两种,一种是采用成对的图片训练,比如pix2pix,learning in the dark,缺点是没有普适性,只能对所实验的数据集有用。一种是不需要成对图片训练,只需要好图,比如WESPE,常配合GAN使用。

    6.2 方向特点

    一个图像增强任务,传统方法需要分别进行降噪,颜色校正,对比度增强等各种操作,而深度学习算法的好处就是end-to-end输出,将整个流程丢给了网络。目前图像增强相对于前面的一些方向还是一个蓝海,覆盖的方向和应用非常广,有精力的朋友可以好好研究。

     

    07 风格化

    7.1 基本概念

    图像风格化之所以引起我们的注意,完全是因为2015年的一个研究,可以将任意的图像转换为梵高的画作风格。 也是得益于深度学习技术的发展,传统的方法做不到这么好的效果。而随着美图秀秀,天天P图等app层出不穷的滤镜,风格化已经成为了单独的一个研究领域。 

    图像风格化是一个综述性的技术应用,为了简单起见,就理解为艺术类滤镜把,它指通过算法,将数码相机拍摄的照片,变成绘画、素描等艺术类的非数码相机效果,是后期程度最深的操作,将彻底改变相片的风格。

    深度学习方法:

    以A Neural Algorithm of Artistic Style 论文发表为起始,Prisma滤镜为典型代表。虽然风格迁移技术的发展日新月异,但是最革命性的还是该文章的方法,这是德国图宾根大学的研究,它通过分析某种风格的艺术图片,能将图片内容进行分离重组,形成任意风格的艺术作品,最开始的时候需要将近一个小时来处理。

    就是把一幅图作为底图,从另外一幅画抽取艺术风格,重新合成新的艺术画,可以参考上面的图。

    研究者认为,图片可以由内容层(Content)与风格层(Style)两个图层描述,相互分离开。在图像处理中经常将图像分为粗糙层与细节层,即前者描述图像的整体信息,后者描述图像的细节信息,具体可以通过高斯金字塔来得到。

    卷积神经网络的各个神经元可以看做是一个图像滤波器,而输出层是由输入图像的不同滤波器的组合,深度由浅到深,内容越来越抽象。 

    底层信息重建,则可以得到细节,而从高层信息重建,则得到图像的”风格“。因此,可以选择两幅图像,一幅构建内容信息,一幅构建风格信息,分别进行Content重建与Style 重建。通过将内容与风格组合,可以得到新的视觉信息更加有意思的图像,如计算机油画,这就是它的基本原理。方法的核心在于损失函数的设计,包括内容损失和风格损失。 

    内容损失在像素空间,要求风格化后的图能够保证内容的完整性。风格损失使用vgg特征空间的gram矩阵,这样就有了较高的抽象层级,实践结果表明可以很好的捕捉风格。

    7.2 方向特点

    如今风格化方法在很多地方都有应用,比如大家熟悉的变脸等。方法也演变成了几个方向;

    (1)单模型单风格,即一个网络只能做一种风格化。

    (2)单模型多风格,即一个网络可以实现多种风格,比(1)实用的多。

    (3)单模型任意风格,即一个网络可以任意风格,视输入图像而定,这是最好的,更多的研究我们以后会开专题。

     

    08 三维重建

    8.1 基本概念

    什么是三维重建呢?广义上来说,是建立真实世界的三维模型。随着软硬件的成熟,在电影,游戏,安防,地图等领域,三维重建技术的应用越来越多。目前获取三维模型的方法主要包括三种,手工建模,仪器采集与基于图像的建模

    (1) 手工建模作为最早的三维建模手段,现在仍然是最广泛地在电影,动漫行业中应用。顶顶大名的3DMax就是典型代表,当然了,它需要专业人士来完成。

    (2) 由于手工建模耗费大量的人力,三维成像仪器也得到了长期的研究和发展。基于结构光(structured light)和激光扫描技术的三维成像仪是其中的典型代表。这些基于仪器采集的三维模型,精度可达毫米级,是物体的真实三维数据,也正好用来为基于图像的建模方法提供评价数据库。由于仪器的成本太高,一般的用户是用不上了。

    (3) 基于图像的建模技术(image based modeling),顾名思义,是指通过若干幅二维图像,来恢复图像或场景的三维结构,这些年得到了广泛的研究。

    我们这里说的三维重建,就特指基于图像的三维重建方法,而且为了缩小范围,只说人脸图像,并简单介绍其中核心的3DMM模型。

    3DMM模型:

    人脸三维重建方法非常多,有基于一个通用的人脸模型,然后在此基础上进行变形优化,会牵涉到一些模板匹配,插值等技术。有基于立体匹配(各种基于双目,多目立体视觉匹配)的方法,通过照相机模型与配准多幅图像,坐标系转换,获取真实的三维坐标,然后进行渲染。有采用一系列的人脸作为基,将人脸用这些基进行线性组合的方法,即Morphable models方法。

    其中,能够融会贯通不同传统方法和深度学习方法的,就是3D Morphable Models系列方法,从传统方法研究到深度学习。

    它的思想就是一幅人脸可以由其他许多幅人脸加权相加而来,学过线性代数的就很容易理解这个正交基的概念。我们所处的三维空间,每一点(x,y,z),实际上都是由三维空间三个方向的基量,(1,0,0),(0,1,0),(0,0,1)加权相加所得,只是权重分别为x,y,z。

    转换到三维空间,道理也一样。每一个三维的人脸,可以由一个数据库中的所有人脸组成的基向量空间中进行表示,而求解任意三维人脸的模型,实际上等价于求解各个基向量的系数的问题。

    每一张人脸可以表示为:

    形状向量Shape Vector:S=(X1,Y1,Z1,X2,Y2,Z2,...,Yn,Zn)

    纹理向量Texture Vector:T=(R1,G1,B1,R2,G2,B2,...,Rn,Bn)

     而一张任意的人脸,其等价的描述如下:

    其中第一项Si,Ti是形状和纹理的平均值,而si,ti则都是Si,Ti减去各自平均值后的协方差矩阵的特征向量。 基于3DMM的方法,都是在求解α,β这一些系数,当然现在还会有表情,光照等系数,但是原理都是通用的。

    原理就说到这里,我们以后会专门讲述。

    8.2 方向特点

    人脸的三维建模有一些独特的特点。

    (1)预处理技术非常多,人脸检测与特征点定位,人脸配准等都是现在研究已经比较成熟的方法。利用现有的人脸识别与分割技术,可以缩小三维人脸重建过程中需要处理的图像区域,而在有了可靠的关键点位置信息的前提下,可以建立稀疏的匹配,大大提升模型处理的速度。

    (2)人脸共性多。正常人脸都是一个鼻子两只眼睛一个嘴巴两只耳朵,从上到下从左到右顺序都不变,所以可以首先建立人脸的参数化模型,实际上这也是很多方法所采用的思路。

    人脸三维重建也有一些困难。

    (1)人脸生理结构和几何形状非常复杂,没有简单的数学曲面模型来拟合。

    (2)光照变化大。同一张脸放到不同的光照条件下,获取的图像灰度值可能大不一样的,这些都会影响深度信息的重建。

    (3)特征点和纹理不明显。图像处理最需要的就是明显的特征,而光滑的人脸除了特征关键点,很难在脸部提取稠密的有代表性的角点特征。这个特点,使得那些采用人脸配准然后求取三维坐标的方法面临着巨大的困难。

     

    09 图像检索

    9.1 基本概念

    图像检索的研究从20世纪70年代就已经开始,在早期是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本来描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。随着计算机视觉技术的发展,90年代开始出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,也就是基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术,本小节的图像检索就特指基于内容的图像检索。

    基于内容的图像检索也经历了传统方法和深度学习方法两个主要阶段,传统的基于内容的图像检索通常包括以下流程:

    预处理,通常包括一些图像归一化,图像增强等操作。特征提取,即提取一些非常鲁棒的图像特征,比如SIFT,HoG等特征。特征库就是要查询的库,库中不存储图像而是存储特征,每一次检索图像完成特征提取之后,就在特征库中进行匹配和相似度计算。索引就是在某种相似性度量准则下计算查询向量到特征库中各个特征的相似性大小,最后按相似性大小进行高效的排序并顺序输出对应的图片。

    图像检索的中最复杂的一步就是检索,在这一步完成验证过程。

    最简单的方法就是暴力(brute-force) 搜索方法(又称线性扫描),即逐个与数据库中的每个点进行相似性计算然后进行排序,这种简单粗暴的方式虽然很容易实现,但是会随着数据库的大小以及特征维度的增加其搜索代价也会逐步的增加,从而限制在数据量小的小规模图像数据库,在大规模图像库上这种暴力搜索的方式不仅消耗巨大的计算资源,而且单次查询的响应时间会随着数据样本的增加以及特征维度的增加而增加,为了降低搜索的空间的空间复杂度与时间复杂度,研究者们提出了很多高效的检索技术,其中最成功的大家也最熟悉到方法是基于哈希的图像检索方法

    深度学习在图像检索里面的作用就是把表征样本的特征学习好,就够了。

    9.2 方向特点

    图像检索系统具有非常大的商业价值,从搜索引擎的以图搜图,到人脸验证和识别系统,到一些搜索排序系统(比如基于美学的摄影图库)。由于图像特征的学习是一个通用的研究方向,因此更多的在于设计高效的检索系统。

     

    10 GAN

    10.1 基本概念

    GAN,即Generative adversarial net,被誉为新的深度学习,涉及的研究非常多,可以单列为一个方向,一个经典的网络结构如下。

    GAN的原理很简单,它包括两个网络,一个生成网络,不断生成数据分布。一个判别网络,判断生成的数据是否为真实数据。

    上图是原理展示,黑色虚线是真实分布,绿色实线是生成模型的学习过程,蓝色虚线是判别模型的学习过程,两者相互对抗,共同学习到最优状态。

    关于GAN的基础,我们以前已经写过相关的内容,大家去看就可以了。

    【技术综述】有三说GANs(上)

    10.2 方向特点

    作为新兴和热门方向,GAN包含的研究方向非常的广,包括GAN的应用,GAN的优化目标,GAN的模型发展,GAN的训练技巧,GAN的理论分析,GAN的可视化等等,以后等着我们的分享即可。

    最后发个通知,2019年有三AI学习季划之“春季计划”开始了,目标就是掌握计算机视觉的各项技能,欢迎参与。

    2019年有三AI“春季”划,给我一个荣耀,还你一生荣耀

     

    总结

    深度学习彻底点燃和推进了计算机视觉各大领域的研究,这是个可以投以终身的行业,希望你会喜欢,别忘了持续关注我们噢。

    下期预告:下一期我们讲AI在当前工业界的应用。

     

    转载文章请后台联系

    侵权必究

    AI白身境系列完整阅读:

    第一期:【AI白身境】深度学习从弃用windows开始

    第二期:【AI白身境】Linux干活三板斧,shell、vim和git

    第三期:【AI白身境】学AI必备的python基础

    第四期:【AI白身境】深度学习必备图像基础

    第五期:【AI白身境】搞计算机视觉必备的OpenCV入门基础

    第六期:【AI白身境】只会用Python?g++,CMake和Makefile了解一下

    第七期:【AI白身境】学深度学习你不得不知的爬虫基础

    第八期: 【AI白身境】深度学习中的数据可视化

    第九期:【AI白身境】入行AI需要什么数学基础:左手矩阵论,右手微积分

    第十期:【AI白身境】一文览尽计算机视觉研究方向

    第十一期:【AI白身境】AI+,都加在哪些应用领域了

    第十二期:【AI白身境】究竟谁是paper之王,全球前10的计算机科学家

    AI初识境系列完整阅读

    第一期:【AI初识境】从3次人工智能潮起潮落说起

    第二期:【AI初识境】从头理解神经网络-内行与外行的分水岭

    第三期:【AI初识境】近20年深度学习在图像领域的重要进展节点

    第四期:【AI初识境】激活函数:从人工设计到自动搜索

    第五期:【AI初识境】什么是深度学习成功的开始?参数初始化

    第六期:【AI初识境】深度学习模型中的Normalization,你懂了多少?

    第七期:【AI初识境】为了围剿SGD大家这些年想过的那十几招

    第八期:【AI初识境】被Hinton,DeepMind和斯坦福嫌弃的池化,到底是什么?

    第九期:【AI初识境】如何增加深度学习模型的泛化能力

    第十期:【AI初识境】深度学习模型评估,从图像分类到生成模型

    第十一期:【AI初识境】深度学习中常用的损失函数有哪些?

    第十二期:【AI初识境】给深度学习新手开始项目时的10条建议

    感谢各位看官的耐心阅读,不足之处希望多多指教。后续内容将会不定期奉上,欢迎大家关注有三公众号 有三AI

     

    展开全文
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达整理:3D视觉工坊 | 来源:知乎https://www.zhihu.com/question/330153893/answer/1...

    点击上方“3D视觉工坊”,选择“星标”

    干货第一时间送达

    整理:3D视觉工坊 | 来源:知乎

    https://www.zhihu.com/question/330153893/answer/1293995463

    本文仅作为学术分享,如果有侵权,会删文处理

    2020年,计算机视觉领域会有哪些新的研究方向值得提前探索?

    作者:罗浩.ZJU
    https://www.zhihu.com/question/330153893/answer/721238966


    作者:
    育心https://www.zhihu.com/question/330153893/answer/740254474

    结合计算机视觉、机器人领域5大顶会(CVPR/ICCV/IROS/ICRA/ECCV),以及产业界的需求,总结3个当下热门及前沿的研究领域。

    三维视觉

    三维视觉是传统的研究领域,但最近5年内得到快速发展。三维视觉主要研究内容有:三维感知(点云获取及处理)、位姿估计(视觉SLAM)、三维重建(大规模场景的三维重建、动态三维重建)、三维理解(三维物体的识别、检测及分割等)。

    图 1 3D 视觉的应用场景

    3D视觉在CV顶会上的论文比例,也在逐年增加。

    图 2  3D视觉在3大视觉顶会的论文比例

    视频理解

    随着新型网络媒体的出现,以及5G时代的到来,视频呈现爆炸式增长,已成为移动互联网最主要的内容形式。面对于海量的视频信息,仅靠人工处理是无法完成的,因此实现视频的智能化理解则成为了亟待解决的问题。

    自2012年,深度学习在图像理解的问题上取得了较大的突破,但视觉理解比图像的目标检测识别要复杂的多。这是因为视频常有许多动作,动作往往是一个复杂概念的集合,可以是简单的行为,但也可能是带有复杂的情绪、意图。举个简单的例子,对一段视频分类,与对一幅图像分类,哪个更容易一些?

    从最近几年知名的计算机视觉竞赛,也可以看出,图像层面的竞赛在减少,视频层面的竞赛在增加。

    多模态融合

    多模态融合的知识获取是指从文本、图片、视频、音频等不同模态数据中交叉融合获取知识的过程。

    随着计算机视觉越来越成熟之后,有一些计算机视觉解决不了的问题慢慢就会更多地依赖于多个传感器之间的相互保护和融合。

    小结

    怕什么真理无穷,进一寸有一寸的欢喜!

    作者:oneTaken
    https://www.zhihu.com/question/330153893/answer/730187742

    个人感觉视觉和语言的联合还是很有前途的,虽然说目前坑比较多,但是万一那一天有了突破就是飞速的发展。

    他还举了个例子,一团烟雾的行为可以用公式描述,但是一颗树的生长行为是由温度、光照、水、气候等等许多复杂的因素在很长时间内连续变化所影响的,那么它就是没办法简单地解释的。

    举的这个例子并不恰当,反而恰恰说明了神经网络模型解释性的迫切性。一棵树生长的影响因素虽然说是有很多,但是至少我们明确知道控制变量条件下,恰当的温度、恰当的水分等条件可以明确引导树向生长较好的方向生长。

    然后对于一个神经网络模型而言,无论是哪个任务,我们都很难说控制只控制某一种因素就可以往预期的方向发展。

    推荐阅读

    重磅!3DCVer-学术论文写作投稿 交流群已成立

    扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

    同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

    ▲长按加微信群或投稿

    ▲长按关注公众号

    3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

    学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

     圈里有高质量教程资料、可答疑解惑、助你高效解决问题

    展开全文
  • 作者:akkaze-郑安坤 ...来源:知乎 著作权归作者所有。...毫无疑问,3d方向,是非常值得研究的,包括深度估计,立体匹配,3d检测(包括单目,双目,lidar和rgbd,19年也终于出现了真正的点云卷积pointconv)...

    作者:akkaze-郑安坤
    链接:https://www.zhihu.com/question/366016644/answer/971983556
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
     

    毫无疑问,3d方向,是非常值得研究的,包括深度估计,立体匹配,3d检测(包括单目,双目,lidar和rgbd,19年也终于出现了真正的点云卷积pointconv),3d分割,三维重建,3dlandmark,并且我个人认为如何减少3d标注,完全使用多视图几何做是一个很有意义,有前途,并且有挑战的方向。

    更新一下,补充一个非常重要的方向,视频方向,也就是考虑时间维度的cv,这包括运动目标检测,目标跟踪,运动语义分割。目标跟踪受相关滤波启发的一系列siamese工作已经非常漂亮了,剩下运动目标检测,运动语义分割,大体有几种思路,1.conv+lstm(memory based),slow fast架构,还有两者的结合,另外还有基于光流的架构,在已知光流的情况下,通过前向warp或者后向warp,能在时间维度上前后转移featuremap,这是基本的出发点。个人其实挺喜欢光流的,因为如果不追求end2end的话,光流可以被用在很多地方(当然,如果考虑时间的话,memory based方法产生的feature map也可以用在其他任何地方,只是不像光流那样可以从网络里面拆出来),当然对于特别追求精度的地方,e2e会更好。memory based方面的工作我个人非常推崇google的looking fast and slow

    memory结合slowfast,fast的参数一般很少。架构是通用的,修改head它能被用在其他任何task上

     

    slowfast交错在一起(并且可以是异步的),能同时提高检测分割等其他各类任务的精度和速度

    2.当然光流也可以e2e,光流完全可以作为conv+lstm或者slowfast的旁支输出,然后作用在featuremap上,但是一般深度学习光流的计算量都比较大,需要在一个比较大的区域内做匹配。并且如果联合训练的话,flow本身的自监督算法不一定是使用,比如unflow之类的算法。

    3.memory based和flow based方法的结合点会非常有趣,或者说是否可以通过memory去估计flow,因为memory可以和slowfast架构结合,从而减小计算量。

    4.3d卷积,随着tcn崛起成为新的序列建模方法,时间卷积和空间卷积可以合成成为3d卷积,另外slowfast架构里面,fast可以看成dilation rate更大的时间卷积,这方面的代表工作有c3d,i3d,tsn等,另外不得不提19年的Temporal Shift Module,它利用了时间卷积基本都是前向这个特点,用移位极大的减小了计算量数字图像开始,本人就是卷积的忠实粉丝,我个人热爱一切全卷积架构。

    光流可以把feature map在时间维度上前向后向warp。这决定了flow的另一个好处,它能找到两帧计算结果之间的对应关系。flow的缺点是计算量可能会稍大

     

    3d部分具体说来包括

    1.单目深度估计如何提高计算性能,如何提高自监督的鲁棒性,前者有fastdepth,在tx2上已经能达到140fps的预测性能,后者包括monodepth2 ,struct2depth和geonet等一系列工作,使用多视图几何和运动估计来进行自监督,loss一般都是重投影误差的推广。struct2depth使用了一个预训练的实例分割模型,这样做的好处是能够单独建模每个物体的运动,另外和分割的联合能让深度估计aware物体的尺度,物体的大小通常和深度有直接联系,geonet使用刚性流来替代光流,将相机运动和物体运动隔离开,同时预测物体深度和刚性流。进一步的发展一定是在线训练,在相机运动的过程中自我训练改进。

    2.立体匹配的话,如何解决低纹理区域处的匹配,如何和语义分割联合,如何提高计算性能。

    立体匹配方面的在线训练模型已经出现了,就是madnet,19年的cvpr oral,仔细看了一下基本没用3d conv,所以会不会还有改进的空间也是很有意思的,madnet冻结一部分网络,在线训练只训练底层的几个adaption domain。

    在线训练的意思是,在运行的时候训练

    3.3d检测点的话,全卷积的架构,如何fuse不同传感器的信息,比如fuse camera和lidar点云,19年出现真正的点云卷积,pointconv和kpconv,相信能为点云分割和3d检测带来更丰富的内容。双目的话,msra今年有一篇论文,triangulation learning network,个人感觉很惊艳,使用2d anchor来引导3d anchor。单目6d姿态估计的话,还需要补充。

    4.3d landmark,自监督的方法,如何提高性能,代表性的工作有learable triangulation of human pose,最惊艳的是它的volumetric triangulation,直接将2d heatmap投影到3d heatmap,然后使用3d convnet refine heatmap,个人感觉是一个非常优的架构,但是是否还可以考虑投影part affinity呢,目前part affinity代表一个向量,投影回三维有很严重的不唯一性问题,因为从三维的一个点投影到二维,有很多可能性得到同一个向量,考虑非向量的part affinity是否可以,也是可以思考的。这里我想到的是直接在二维情况下估计一个3d的paf出来,然后重投影到volume里,也可以估2d的paf,然后重投影的时候认为paf的第三个分量为1,后面再用3d convnet refine。

    重投影过程,这样的重投影也许也能用来重投影featuremap,但是volume的大小和分辨率与task直接相关,从而直接影响计算量。一个直接的改进是给多视图每个featuremap一个weightmap,也就是每个点一个权重,加权融合到一起

    这是一个非常好的架构,直接把2d提升到了3d,可能被用在多视角的各个领域,包括三维重建,并且最后的结果可以投影回原视角,做自监督,缺点可能是计算量会比较大。

    msra的一篇论文cross view fusion of human pose也很惊艳,使用epipolar几何来融合不同视角的2d heatmap达到互相改进的效果,个人感觉这一点不止可以用在landmark上(凡是使用了heatmap的地方都可以考虑用这种方式fuse,其实不止如此,,这个方法会把一个视图里的极限上所有的heatmap值通过一个权重矩阵w加权相加到另一个视图的极线上的点,而这个矩阵本质上是全局的,可能只和对极几何相关,它是否能被用来fuse featuremap个人感觉是非常有意思的一件事,但是这个计算量应该会很大)。

    fuse可能只和对极几何相关,并能够被用在其他地方,但是计算量会大很多。我跟作者交流过这个方法,可行性是有的,但是问题是参数冗余和计算量大,很明显的其实作者自己也说过,这种连接方式应该沿着极线,而不是所有像素都连接上。

     

    fuse只和对极几何有关

    这里还推另一篇文章DAVANet: Stereo Deblurring with View Aggregation,这是双目去模糊的,主要思路是使用dispnet提取左右视差,然后将左右featuremap进行warp然后经过fusion layer,这里面有一点问题是,dispnet的监督其实和其他分支是半独立的,fusion layer里面也会考虑把这个dispmap concat起来

    先估计视差,然后利用视差进行fusion也许才是更合理的做法

    dispnet的计算量会比较大,双目特征融合还有一种方法被称为stereo attention,主要思路就是生成两个mask,这个mask表示对应视图极线上的feature对本视图的贡献的权重,

    关于3d pose,另外有一篇epipolarpose也是自监督的,epipolarpose使用2d pose和对极几何来自监督生成3d posr。

    5.三维重建的话,如何提升重建细节,是否有自监督的算法,代表性的工作有pointmvsnet,rmvsnet。相信meshcnn的出现能被应用到重建里。

    另外,自监督的mvsnet果然已经出来了。

    6.深度和光流的联合训练,19 年有一篇论文bridge optical flow and depth estimation。3d的flow,sceneflow也就是场景流,这里待补充。

    7.自监督学习很重要,尤其在一些很难获得标注的场景,比如上面说到的立体匹配,深度估计,我在做的时候还遇到过特征点检测和描述子生成,自监督学习通常要有一个定义良好的,即使没有监督数据也能反应问题的loss。弱监督学习也很重要,比如在分割这种标注比较困难的场景。

    还有一些传统方法做的比较好的领域也可以尝试,图像自动曝光,图像增强,特征点提取。

    细粒度识别,19年的learn to navigate,个人觉得如何构建一个可微分的子模块是一个有意思的问题,难点在nms通过attention module或者learned nms或许有这个希望。centernet出现之后没有nms,或许会改进这个问题。

    再补一个方向,scene parsing,如何利用物体之间的先验关系建模提高检测,反过来是否可以帮助无监督或者弱监督学习。

    最后补上我个人的一些想法,深度学习如果高效使用数据,如何做更好的multitasking,一个网络,如果既有检测头,又有分割头,我们希望图像本身既有检测又有分割标注,但是实际上一般是一部分有检测标注,一部分有分割标注,如何发明出一个更好的训练算法充分利用数据是个很大的问题。我个人探索过交错训练法,也就是以不同的采样率分别训练不同的头,只要数据没有语义冲突,类似的想法应该能work。

     

    总结一下就是,考虑时间连贯性,考虑多视角,考虑新的传感器和传感器之间的融合,更好的multitasking,更好的训练方法使得数据能被更好的利用,自监督和弱监督的算法,轻量化网络。

     

     

    ===============================================================================================

     

     

    作者:育心
    链接:https://www.zhihu.com/question/366016644/answer/997000048
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
     

    结合计算机视觉、机器人领域5大顶会(CVPR/ICCV/IROS/ICRA/ECCV),以及产业界的需求,总结3个当下热门及前沿的研究领域。

    三维视觉

    三维视觉是传统的研究领域,但最近5年内得到快速发展。三维视觉主要研究内容有:三维感知(点云获取及处理)、位姿估计(视觉SLAM、三维姿态估计、三维姿态跟踪)、三维重建(大规模场景的三维重建、动态三维重建)、三维理解(三维物体的识别、检测及分割等)。

    图 1 3D 视觉的应用场景

    3D视觉在CV顶会上的论文比例,也在逐年增加。

    图 2 3D视觉在3大视觉顶会的论文比例

    视频理解

    随着新型网络媒体的出现,以及5G时代的到来,视频呈现爆炸式增长,已成为移动互联网最主要的内容形式。面对于海量的视频信息,仅靠人工处理是无法完成的,因此实现视频的智能化理解则成为了亟待解决的问题。

    自2012年,深度学习在图像理解的问题上取得了较大的突破,但视觉理解比图像的目标检测识别要复杂的多。这是因为视频常有许多动作,动作往往是一个复杂概念的集合,可以是简单的行为,但也可能是带有复杂的情绪、意图。举个简单的例子,对一段视频分类,与对一幅图像分类,哪个更容易一些?

    从最近几年知名的计算机视觉竞赛,也可以看出,图像层面的竞赛在减少,视频层面的竞赛在增加。

    多模态融合

    多模态融合的知识获取是指从文本、图片、视频、音频等不同模态数据中交叉融合获取知识的过程。

    随着计算机视觉越来越成熟之后,有一些计算机视觉解决不了的问题慢慢就会更多地依赖于多个传感器之间的相互保护和融合。

    展开全文
  • 计算机视觉是一门研究如何使机器“看”的科学。 更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等...目前,非常火的VR、AR,3D处理等方向,都是计算机视觉的一部分。 计算机视觉的应用 无人...

    计算机视觉是一门研究如何使机器“看”的科学。

    更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给一起检测的图像

    作为一个科学学科,计算机视觉研究相关的理论和技术,视图建立能够从图像或者多维数据中获取“信息”的人工智能系统。

    目前,非常火的VR、AR,3D处理等方向,都是计算机视觉的一部分。

    计算机视觉的应用

    无人驾驶

    无人安防

    人脸识别

    车辆车牌识别

    以图搜图

    VR/AR

    3D重构

    医学图像分析

    无人机

    其他

    了解了计算机视觉是什么之后,给大家列了一下当前计算机视觉领域的一些应用,几乎可以说是无处不在,而且当前最火的所有创业的方向都涵盖在里面了。其中包括我们经常提到的无人驾驶、无人安防、人脸识别。人脸识别相对来说已经是一个最成熟的应用领域了,然后还有文字识别、车辆车牌识别,还有以图搜图、VR/AR,还包括3D重构,以及当下很有前景的领域–医学图像分析。
    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    深度学习与计算机视觉的具体介绍
    http://www.duozhishidai.com/article-15924-1.html
    人工智能与计算机视觉
    http://www.duozhishidai.com/article-15129-1.html
    计算机视觉影响人工智能的发展方式,主要有哪五种?
    http://www.duozhishidai.com/article-2903-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 作者:言三 ...来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。...第二个是如何系统性学习,涉及到计算机视觉的各个方向。 第一个问题,如何系统性进阶,我斗胆将...
  • 链接:https://www.zhihu.com/question/349899328/answer/1752872326编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:CS GO...
  • 相信很多来这里的人和我第一次到这里一样,都是想找一种比较好的目标跟踪算法,或者想对目标跟踪这个领域比较深入的了解,虽然这个问题是经典目标跟踪算法,但事实上,可能我们并不需要那些曾经辉煌但已被拍在沙滩...
  • 第一部分:目标跟踪速览先跟几个SOTA的tracker混个脸熟,大概了解一下目标跟踪这个方向都有些什么。一切要从2013年的那个数据库说起。。如果你问别人近几年什么比较niubility的跟踪算法,大部分人都会扔给你吴毅...
  • 人工智能一个很大的应用方向是CV(计算机视觉)。CV在如制造业、检验、文档分析、医疗诊断和军事等领域中各种智能系统中不可分割。具体的像无人驾驶、人脸识别、VR/AR等,未来在医疗领域等还将更大的发展。 ...
  • 目标跟踪是计算机视觉领域中研究的热点之一,分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪...那么,跟踪算法有哪些主要分支?不同的跟踪算法是如何实现的呢?让我们带着这些问题开始多目
  • 人工智能学习离不开实践的验证,推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练...在2020年,你觉得计算机视觉有哪些值得研究的领域? 未来5-10年计算机视觉发展趋势 AI大厂算法测试心得:人脸识别关键性能指标...
  • 第一部分:目标跟踪速览先跟几个SOTA的tracker混个脸熟,大概了解一下目标跟踪这个方向都有些什么。一切要从2013年的那个数据库说起。。如果你问别人近几年什么比较niubility的跟踪算法,大部分人都会扔给你吴毅...
  • 计算机视觉分很多方向,个人比较熟悉的是图像方面的,包括:图像分类、目标检测、图像分割、视频处理等,这些小的方面每一个也学要很长的一段时间去学习. 入门这个东西很难定义,如果只是对一个方向看一下,了解...
  • 人脸图像属于最早被研究的一类图像,也是计算机视觉领域中应用最广泛的一类图像,可以说掌握好人脸算法,基本就玩转了计算机视觉领域。在经历了几十年的发展后,现在人脸图像都有哪些研究和应用领域呢?本文从人脸...
  • 在2020年,你觉得计算机视觉有哪些值得研究的领域? 未来5-10年计算机视觉发展趋势 AI大厂算法测试心得:人脸识别关键性能指标有哪些? 一文看懂人脸识别(4个特点+4个实现步骤+5个难点+算法发展轨迹) 人脸...
  • 计算机视觉应用综述

    千次阅读 2018-12-09 10:05:19
    近年来,我们随处可以听到一个词,“人工智能”。机器的智能化成为了现今的一大研究热点,...那么计算机视觉具体有哪些应用呢? 无人驾驶  无人驾驶又称自动驾驶,是目前人工智能领域一个比较重要的研究方向,让汽...
  • 1.问了问项目和竞赛,包括里面用到哪些技术,追问了一下技术的实现方法 2.Batchnorm的价值、原理和公式 3.是否对其他领域了解(分类、检测)。追问了efficientnet的原理 4.一道很简单编程题:排序数组的二分查找 ...
  • 一直没搞清楚计算机图像分析和计算机视觉会议有哪些,通过网上查阅了下,简单的整理如下: ICCV  全称是 IEEE International Conference on Computer Vision,国际计算机视觉大会,是计算机方向的三...
  • 2019计算机视觉-包揽所有前沿论文源码

    万次阅读 多人点赞 2019-10-23 11:36:33
    大家是否遇到过这种情况,就是在工作或者学习的时候,想去某些方向的网络,但是呢,尴尬的是,老旧的网络里不想要,前沿的网络又不知道有哪些。为了解决大家的这个困扰,本人收集了2019年大部分前沿的网络相关链接,...
  • 问题1:SLAM与计算机视觉的联系与区分 问题2:SLAM在移动机器人上的特殊点及动态SLAM是怎么回事? 问题3:SLAM的研究方向有哪些呢? 问题4:导航中的一些逻辑 ...
  • 编者按:2014年度计算机视觉方向的顶级会议CVPR上月落下帷幕。在这次大会中,微软亚洲研究院共有15篇论文入选。今年的CVPR上有哪些让人眼前一亮的研究,又反映出哪些趋势?来听赴美参加会议的微软亚洲研究院实习生...
  • 计算机视觉(Computer Vision)是近十几年来计算机科学中最热门的方向之一,而国际计算机视觉与模式...计算机视觉方向的顶级会议CVPR每年都召开,每年CVPR上有哪些让人眼前一亮的研究,又反映出哪些趋势? 1.2014
  • 2021计算机视觉-包揽所有前沿论文源码 -上半年

    千次阅读 多人点赞 2020-12-19 11:11:41
    大家是否遇到过这种情况,就是在工作或者学习的时候,想去找一些方向的网络,但是呢,尴尬的是,老旧的网络里不想要,前沿的网络又不知道有哪些。为了解决大家的这个困扰,本人决定收集2020年大部分前沿的网络相关...
  • SLAM方向国内有哪些优秀公司?

    万次阅读 2019-07-09 19:08:24
    计算机视觉life为读者整理了国内几十家涉及SLAM的优秀公司,涵盖自动驾驶、仓储机器人、服务机器人、无人机、AR、芯片相机等领域。 一 自动/辅助驾驶: 1.百度: 主要产品:自动驾驶软件 百度智能汽车开启未来...
  • 2020计算机视觉-包揽所有前沿论文源码

    万次阅读 多人点赞 2020-01-07 20:16:57
    大家是否遇到过这种情况,就是在工作或者学习的时候,想去找一些方向的网络,但是呢,尴尬的是,老旧的网络里不想要,前沿的网络又不知道有哪些。为了解决大家的这个困扰,本人决定收集2020年大部分前沿的网络相关...

空空如也

空空如也

1 2 3 4
收藏数 76
精华内容 30
关键字:

计算机视觉有哪些方向