2016-11-25 17:08:40 oMengLiShuiXiang1234 阅读数 42209

主要做了基于深度学习的图像识别与检测的研究,下面是一些整理内容

1、深度学习的优势


(1)从统计,计算的角度看,DL特别适合处理大数据

       a、用较为复杂的模型降低模型偏差

       b、用大数据提升统计估计的准确度

       c、用可扩展的梯度下降算法求解大规模优化问题

这个大数据是除了数量上的大,还有更重要的是维度的大,很多算法本身是无法处理高纬度数据的,例如Kernel学习机相关的算法, 虽然理论上是先将数据向高维空间映射,然后在高维空间进行线性的求解,实际上在处理的时候还是回到原空间处理。传统的BP算法针对高维的数据也是效果不佳。

 

CNN等为什么对图像领域更加有效,因为其不但关注了全局特征,更是利用了图像识别领域非常重要的局部特征,应该是将局部特征抽取的算法融入到了神经网络中。图像本身的局部数据存在关联性,而这种局部关联性的特征是其他算法无法提取的。深度学习很重要的是对全局和局部特征的综合把握


(2)深度学习不是一个黑箱系统。它像概率模型一样,提供一套丰富的、基于联接主义的建模语言。利用这套语言系统,我们可以表达数据内在的丰富关系和结构。比如用卷积处理图像中的二维空间结构,用递归神经网络(Recurrent Neural Network)处理自然语言等数据中的时序结构


(3)深度学习几乎是唯一的端到端的学习系统

它直接作用于原始数据,自动逐层进行特征学习,整个过程直接优化目标函数。


2、深度学习在图像识别中的发展趋势


(1)模型层次不断加深

       2012Alex 获得ImageNet 冠军,其所用的AlexNet5个卷积层 3个pool层 和2个全连接层

       2014年获得ImageNet的GoogleNet,使用了59个卷积层,16个pool层和2个全连接层。

       2016年微软的ResNet深度残差网络,用了152层的架构


(2)模型结构日趋复杂

       传统的卷积神经网络都是简单的 conv-pool-FC

       后来NIN 用mlpconv 代替传统的 conv层(mlp 实际上是卷积加传统的多层感知器 )。这样做一方面降低过拟合程度提高模型的推广能力,另一方面为大规模并行训练提供非常有利的条件


(3)海量的标注数据和适当的数据扰动

       DL需要大量的数据,现有的图像数据不能满足需求,结合图像数据的特点,通过平移、水平翻转、旋转、缩放等数据扰动方式可以产生更多的有效数据,普遍提高识别模型的推广能力。


3、如何应用深度学习


(1)  将ImageNet上训练得到的模型作为起点,利用目标训练集和反向传播对其进行继续训练,将模型适应到特定的应用

(2)  如果目标训练集不够大,可以将底层的网络参数固定,沿用ImageNet上的训练集结果,只对上层进行更新。

(3)  直接采用ImageNet上训练得到的模型,把最高的隐含层的输出作为特征表达,代替常用的手工设计的特征。

 

4、卷积神经网络


(1)什么是卷积神经网络

     

 卷积神经网络是一种为了处理二维输入数据而特殊设计的多层人工神经网络。网络中的每层都由多个二维平面组成,而每个平面由多个独立的神经元组成。相邻两层的神经元之间互相连接。

A、       卷积特征提取(局部连接,权值共享

从图像中随机选取一小块局域作为训练样本,从该样本中学习到一些特征,然后将这些特征作为滤波器,与原始整个图像作卷积运算,从而得到原始图像中任意位置上的不同特征的激活值(见动图)


B、       池化

通过将卷积层提取的特征输入至分类器中进行训练,可以实现输出最终的分类结果。理论上可以直接输出,然而这将需要非常大的计算开销,特别是对于大尺寸高分辨率图像

由于图像具有一种“静态性”的属性,在图像的一个局部区域得到的特征极有可能在另一个局部区域同样适用。因此,对图像的一个局部区域中不同位置的特征进行聚合统计操作,这种操作统称为池化


(2)卷积神经网络的发展


A、 1990年,LeCun等在研究手写体数字识别问题时,首先提出来使用梯度反向传播算法训练的卷积神经网络模型,并在MNIST手写数字数据集上表现出了好的性能。

B、 2012年ImageNet比赛中 AlexKrizhevsky等提出的AlexNet首次将深度学习应用到大规模图像分类,并获得了冠军。

AlexNet用了5层卷积层和3层全连接层,最后用softmax进行分类。

改进点:

a、       采用dropout训练策略,在训练过程中将输入层和中间层的一些神经元随机置零。这模拟了噪声对输入数据的各种干扰使一些神经元对一些视觉模式产生漏检的情况。使得训练过程收敛过慢,但得到的网络模型更加鲁棒。

b、       采用ReLU(修正线性单元)作为激励函数,降低了计算的复杂度

c、        通过对训练样本镜像映射和加入随机平移扰动,产生了更多的训练样本,减少了过拟合

C、 2013 ImageNet的获胜队伍Clarifai 提出了卷积神经网络的可视化方法,运用反卷积网络对AlexNet的每个卷积层进行可视化,以此来分析每一层所学习到的特征从而加深了对于卷积神经网络为什么能在图像分类上取得好的效果的理解,并据此改进了该模型。


D、 2014 ImageNet Google团队


网络有22 层,受到赫布学习规则的启发,同时基于多尺度处理的方法对卷积神经网络作出改进。该文基于Network in Network思想提出了Inception模块。Inception 模块的结构如图所示,它的主要思想是想办法找出图像的最优局部稀疏结构,并将其近似地用稠密组件替代。这样做一方面可以实现有效的降维,从而能够在计算资源同等的情况下增加网络的宽度与深度;另一方面也可以减少需要训练的参数,从而减轻过拟合问题,提高模型的推广能力。


E、 2015年微软亚洲研究院所提出的152层的深度残差网络以绝对的优势获得图像检测、图像分类和图像定位3个项目的冠军

 

5、物体检测

(1)物体分类与检测的难点与挑战

物体分类与检测是视觉研究中的基本问题,也是一个非常具有挑战性的问题.物体分类与检测的难点与挑战在本文中分为3个层次:实例层次、类别

层次和语义层次,如图所示

 

 

 

a)       实例层次

针对单个物体实例而言,通常由于图像采集过程中光照条件、拍摄视角、距离的不同、物体自身的非刚体形变以及其他物体的部分遮挡,使得物体实例的表观特征产生很大的变化,给视觉识别算法带来了极大的困难

b)       类别层次

困难与挑战通常来自3个方面,

类内差大,也即属于同一类的物体表观特征差别比较大,其原因有前面提到的各种实例层次的变化,但这里更强调的是类内不同实例的差别,例如图(a)所示

类间模糊性,即不同类的物体实例具有一定的相似性,如图(b)背景的干扰在实际场景下,物体不可能出现在一个非常干净的背景下,往往相反,背景可能是非常复杂的、对我们感兴趣的物体存在干扰的,这使得识别问题的难度大大增加

c)        语义层次.

困难和挑战与图像的视觉语义相关,这个层次的困难往往非常难处理,特别是对现在的计算机视觉理论水平而言,一个典型的问题称为多重稳定性.如图(C)左边既可以看成是两个面对面的人,也可以看成是一个燃烧的蜡烛;右边则同时可以解释为兔子或者小鸭.同样的图像,不同的解释,这既与人的观察视角、关注点等物理条件有关,也与人的性格、经历等有关,而这恰恰是视觉识别系统难以处理的部分



(2)物体检测的发展(详细算法介绍见后续)

       较有影响力的工作包括:

A、       RCNN (2013)

B、       Fast RCNN

C、       Faster RCNN

D、      R-FCN

E、       YOLO

F、       SSD


 

参考文献


【1】  基于深度学习的图像识别进展:百度的若干实践 (2015 百度公司)

【2】  图像识别中的深度学习 (2015 香港中文大学 王晓刚)

【3】  图像无图分类与检测算法综述 (2014 中国科学院自动化研究所模式识别国家重点实验室智能感知与计算研究中心)

【4】  深度卷积神经网络在计算机视觉中的应用研究综述 (2016 上海交通大学)

【5】  Rich feature hierarchies foraccurate object detection and semantic segmentation (2014)

【6】  Fast R-CNN (2015)

【7】  Faster R-CNN :Towards Real-Time Object Detection with Region Proposal Networks (2016)

【8】  Detection(网址上面描述各种检测算法)

2018-07-09 14:31:49 qq_34759239 阅读数 3578

目前,深度学习在图像、语音、自然语言处理都取得了重大突破。深度学习(卷积神经网络)最初是为解决图像识别问题而提出的。目前深度学习在图像识别中的应用主要集中于图像分类、目标检测、图像分割等领域。

图像分类

图片分类的任务是对于一个给定的图片,预测其类别标签。

深度学习在图像分类上的应用可追溯到最初银行支票上的手写数字自动识别,现在的人工智能三巨头之一Yan LeCun在1994年提出了LeNet,使用卷积来提取空间特征,进行手写字符的识别与分类,准确率达到了98%,并在美国的银行中投入了使用,被用于读取北美约10%的支票,LeNet将卷积、池化和非线性激活函数相结合,奠定了现代卷积神经网络的基础。

之后随着每年ImageNet比赛的成功举办,深度学习在图像分类中的精度逐渐提升。2012年Hinton的学生Alex Krizhevsky提出了AlexNet,并获得当年Imagenet比赛冠军,AlexNet可以算是LeNet的一种更深更宽的版本,证明了卷积神经网络在复杂模型下的有效性,算是神经网络在低谷期的第一次发声,确立了深度学习,或者说卷积神经网络在计算机视觉中的统治地位。

2014年,牛津大学计算机视觉组和Google DeepMind公司一起研发了深度卷积神经网络VGGNet,并取得了当年Imagenet比赛定位项目第一名和分类项目第二名。该网络主要是泛化性能很好,容易迁移到其他的图像识别项目上,可以下载VGGNet训练好的参数进行很好的初始化权重操作,现在很多卷积神经网络都是以该网络为基础,比如FCN,UNet,SegNet等。vgg版本很多,常用的是VGG16,VGG19网络。

2015年,ResNet(残差神经网络)由微软研究院的何凯明等4名华人提出,成功训练了152层超级深的卷积神经网络,效果非常突出,而且容易结合到其他网络结构中。在五个主要任务轨迹中都获得了第一名的成绩(ImageNet分类任务,ImageNet检测任务,ImageNet定位任务,COCO检测任务,COCO分割任务)。

2015年 Szegedy等人提出了 GoogLeNet,在卷积神经网 络中搭建多个 inception模块,以增加卷积神经网络的深度和宽度。由于 inception模块中卷积核的尺寸较小,GoogLeNet的训练参数大约 50万个,只有 AlexNet参数数量的 1/12,但是在 ImageNet数 据集上图像识别的准确度提高了 10%左右。

2016,2017年的ImageNet比赛,来自中国的团队大放异彩,商汤科技,公安部三所,HikVision(海康威视),NUIST(南京信息工程大学)都拿到过各个项目的冠军,网络结构多采用多个网络做集合。

目标检测

目标检测是指从一幅场景(图片)中找出目标,并用矩形框确定目标的位置。多应用于人脸识别、自动驾驶、遥感影像识别等领域。

目前基于深度学习的目标检测算法大致分为两类:

  • 基于区域建议的目标检测与识别算法,如R-CNN, Fast-R-CNN, Faster-R-CNN
  • 基于回归的目标检测与识别算法,如YOLO, SSD

2014年,Girshick(RGB大神)等人提出了 R-CNN模型。该模型利用 selective search方法从待检测图像中提取若干个候选区;然 后将候选区转换为统一的大小,使用卷积神经网络对其进行特征提取;最后运用多个 SVM对特征进行分类,完成多目标检测。 由于选择了较好的候选区以及使用了AlexNet判定候选区所 属的类别,识别效果非常好,极大地提高了 PascalVOC数据集上的检测效果。

2015年,Girshick为了提高 R-CNN模型的检测速度,提出了 fast-R-CNN模型。该模型仍然利用selective search方法从待检测图像中提取若干个候选区。相比于 R-CNN模型对每个候选区都提取特征,fast-R-CNN只对待检测 图像提取特征;然后将候选区对应的特征图通过空间金字塔池 化层映射为固定长度的特征向量;最后特征经过全连接的神 经网络进行分类,并且预测边界框的坐标,对候选区进行修正,大幅提升了目标检测的速度。

2015年,继R-CNN,fast-R-CNN之后,目标检测界的领军人物Ross Girshick团队(包括华人科学家任少卿,何凯明大神,孙剑)又推出faster-R-CNN模型,该模型由用于提取候选区的卷积神经网络(RPN)和用于目标检测的卷积神经网络 fast-R-CNN构成。RPN对待检测图像中的每个位置都预测是否存在目标,并给出可能性最大的候选区。Fast-R-CNN 判别所有候选区的类别并预测目标的边界框,对候选区进行修正。由于RPN和fast-R-CNN共享了卷积神经网络特征提取的部分,只需提取一次待检测图像的特征,加快了目标检测的速度。

2015年,Joseph Redmon等人(Ross Girshick挂名)提出 YOLO模型,即you only look once,用来实现实时目标检测的一种神经网络,将一个物体检测作为一个回归问题求解,输出图像只需经过一次inference,便可直接获取到图像中物体位置,物体对应的类别及其置信度。由于YOLO没有显示求解region proposal,而是将该过程直接融合在网络中,所以避免了很多麻烦。

2015年Wei Liu等人提出了SSD,结合了YOLO中的回归思想和Faster-RCNN中的Anchor机制,使用全图各个位置的多尺度区域特征进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟Faster-RCNN一样比较精准。SSD的核心是在特征图上采用卷积核来预测一系列Default Bounding Boxes的类别、坐标偏移。为了提高检测准确率,SSD在不同尺度的特征图上进行预测。

语义分割

语义分割也就是像素级别的分类,让计算机根据图像的语义来进行分割,确定边缘位置。目前应用有自动驾驶、医疗影像识别、遥感影像识别等领域。

传统的语义分割主要依赖使用人工提取特征和概率图模型,2015年Jonathan Long等提出了全卷积网络(FCN),将深度学习引入了语义分割领域,FCN这篇论文(Fully Convolutional Networks for Semantic Segmentation)的发表,成为了语义分割的一个重要转折点。FCN主要使用了卷积化(Convolutional)、上采样(Upsample)、跳跃结构(Skip Layer)三种技术。

2015年Vijay Badrinarayanan等人提出SegNet,主要贡献:将最大池化指数转移至解码器中,改善了分割分辨率。SegNet 没有复制 FCN中的编码器特征,而是复制了最大池化索引,这使得 SegNet 比 FCN 更节省内存。

2016年Liang-Chieh Chen等提出了DeepLab网络,DeepLabv1:结合深度卷积神经网络,使用空洞卷积(atrous convolution)进行语义分割。DeepLabv2:基于 DeepLabv1 的优化,使用空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)对物体进行有效的分割。DeepLabv3:采用多比例的带孔卷积级联或并行来捕获多尺度背景,基于图像特征优化 ASPP。DeepLabv3+ :对 DeepLabv3 的扩展,包括一个简单而高效的改善分割结果的解码器模块目前,DeepLabv3+版本已经开源。

2016年Hengshuang Zhao等提出了PSPNet网络,提出的金字塔池化模块( pyramid pooling module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。

2017年何凯明等人提出了Mask R-CNN,在原有Faster R-CNN的基础上添加了一个分支网络把目标像素分割出来,对每个实例生成一个高质量的分割掩码。该论文(Mask R-CNN)获得了ICCV 2017的best paper,作为大神级人物,这也是他第三次斩获顶会最佳论文,另外,他参与的另一篇论文:Focal Loss for Dense Object Detection,也被大会评为最佳学生论文。

2016-10-24 12:34:34 youyuyixiu 阅读数 11239

作者:丰晓霞
学校:太原理工大学
时间:2015
类型:硕士学位论文


思想
深度学习和支持向量机结合–>构建图像识别的模型
利用卷积限制性玻尔兹曼机–>构建深度网络、改进训练过程

摘要
本文研究的主要工作包括:
(1)认真分析了图像识别的方法及存在的问题,对现有的图像识别算法进行了对比研究,详细叙述了深度学习的发展和进展,对比了深度学习结构相比浅层结构的优势所在,总结了深度学习的常用方法,详细介绍了限制性玻尔兹曼机和卷积限制性玻尔兹曼机的原理和训练过程。
(2)将深度学习和支持向量机相结合,将多个限制性玻尔兹曼机与支持向量机连接构建多层分类模型,用深度学习的方法提取样本特征,然后用支持向量机方法进行分类,并将其应用到图像识别任务中。通过实验验证,在样本较少的情况下,与支持向量机和深度信念网络进行比较效果良好,并且通过不同样本数、层数、节点数与正确率的比较,讨论了隐含层节点数与支持向量数的关系,并且讨论了相关参数对结果的影响。
(3)对由卷积限制性玻尔兹曼机构成的卷积深度信念网络的训练过程进行改进,通过交替进行无监督和有监督学习来训练网络,最后将该网络用于图像识别中,通过实验验证了可行性和有效性,讨论了卷积核大小对结果的影响。

关键词
深度学习,图像识别,限制性玻尔兹曼机,卷积限制性玻尔兹曼机,支持向量机

创新点
(1)将深度学习和支持向量机相结合,构建了用于图像分类的模型,详述了训练过程,通过实验,在样本较少的情况下,与支持向量机和深度信念网络进行比较,效果均优于二者,并对不同样本数、层数、节点数与正确率进行了比较,讨论了隐含层节点数与支持向量数的关系,另外,讨论了相关参数对结果的影响。
(2)对用卷积限制性玻尔兹曼机构建深度网络训练过程进行改进,通过交替进行无监督和有监督学习来训练网络的方法,将该网络用于图像识别任务中,取得了良好的效果。

问题
(1)深度学习的理论研究还不够充分,深度学习的有效性还缺乏严格的证明,如对比散度算法,并没有获得充分的研究,其收敛性等问题并不明确。
(2)在数据量比较大的情况下,深度学习算法虽然有准确率的优势,但相比传统算法速度比较慢。如何提高算法的效率,需要编程人员较高的编程水平,并且模型的质量受限于编程人员的经验。
(3)如何降低相关参数调整的难度,降低深度学习算法的难度,也是亟需解决的问题。

改进思路
(1)从深度学习方法同其他方法相结合的思路完善网络,从而提高准确率或者训练速度。
(2)进一步优化相关参数的选取方法,训练方法以及适用范围。
(3)预先通过其他较优的特征提取方法来提取特征,以及使用特征的融合技术,再用深度学习方法来进行识别。

2019-11-21 15:27:21 yoggieCDA 阅读数 149

作者 | 周伟能 
来源 | 小叮当讲SAS和Python

Python在机器学习(人工智能,AI)方面有着很大的优势。谈到人工智能,一般也会谈到其实现的语言Python。前面有几讲也是关于机器学习在图像识别中的应用。今天再来讲一个关于运用google的深度学习框架tensorflow和keras进行训练深度神经网络,并对未知图像进行预测。

导入python模块

导入图像数据

合并列表数据

将图片数据转化为数组

显示一张图片

训练神经网络

我们可以看到测试集的准确率达到99.67%

预测一个图像

预测为汽车的概率为100%。(括号内为真实标签)

预测为美女的概率为100%。(括号内为真实标签)

测试集中前15个图像预测完全正确。Nice!

最后我们来识别单张图片。

结果预测为汽车。Nice!

最后来预测一下外部随便下载的汽车或美女图片

预测为汽车,不错!

小编这里有10张图片,前5张为汽车图片,后五张为美女图片。

下面进行批量预测:

结果也是完全正确。

看到这里,感觉神经网络是不是很神奇,要想让神经网络预测得准确,我们就必须给予大量的数据进行训练模型,优化模型,以至于达到准确识别图像的目的,图像识别作为人工智能的一部分,现在已经慢慢走向成熟,虽然机器也有出错的时候,但是进过不断优化,错误率将会越来越小,相信机器智能或者人工智能时代能够创造出更多智能而美好的东西。为社会,为人类的自由做出更大的贡献。

2019-04-10 20:08:02 weixin_37799689 阅读数 451

本人学习机器学习、深度学习已经有一段时间了,考虑到毕业之后的就业方向和自己的毕业论文,最终确定主要研究方向为图像识别,主要研究的算法为基于CNN的各种图像分类模型(研究深度学习一定要确定研究领域,毕竟时间有限,不要盲目的看许多深度学习文献,最后杂而不精)。如果,毕业之前有时间或者读博的话会从事目标检测相关的研究。同时,如果有志同道和之士,可以联系我,大家相互学习,如果人多可以建个群,哈哈。

正文:《深度卷积神经网络在计算机视觉中的应用研究综述》笔记

摘要部分

着大数据时代的到来,含更多隐含层的深度卷积神经网络(Convolutional neural networks,CNNs)具有更复杂的网络结构,与传统机器学习方法相比具有更强大的特征学习和特征表达能力。使用深度学习算法训练的卷积神经网络模型自提出以来在计算机视觉领域的多个大规模识别任务上取得了令人瞩目的成绩。本文首先简要介绍深度学习和卷积神经网络的兴起与发展,概述卷积神经网络的基本模型结构、卷积特征提取和池化操作。然后综述了基于深度学习的卷积神经网络模型在图像分类、物体检测、姿态估计、图像分割和人脸识别等多个计算机视觉应用领域中的研究现状和发展趋势,主要从典型的网络结构的构建、训练方法和性能表现3个方面进行介绍。最后对目前研究中存在的一些问题进行简要的总结和讨论,并展望未来发展的新方向。

关键词:深度学习;卷积神经网络;图像识别;目标检测;计算机视觉

总结:

1)与传统神经网络比好在哪里? 答:具有更强大的特征学习和特征表达能力。

2)成绩如何:多个大规模识别任务上取得了令人瞩目的成绩(本人主要研究特定领域的“小规模”识别任务,希望有较好的识别效果)

3)摘要主要从卷积网络的基本结构、卷积网络的应用领域(重要介绍典型网络)

引言(不要觉得没有用,它会为你捋清知识脉络,如果写论文的话会启发你的研究方向)

正文 笔记

图像识别是一种利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是计算机视觉领域的一个主要研究方向,在以图像为主体的智能化数据采集与处理中具有十分重要的作用和影响。使用图像识别技术能够有效地处理特定目标物体的检测和识别(如人脸、手写字符或是商品)、图像的分类标注以及主观图像质量评估等问题。目前图像识别技术在图像搜索、商品推荐、用户行为分析以及人脸识别等互联网应用产品中具有巨大的商业市场和良好的应用前景,同时在智能机器人、无人自动驾驶和无人机等高新科技产业以及生物学、医学和地质学等众多学科领域具有广阔的应用前景。

主要交待研究背景,说明图像识别是什么,(总感觉他说的图像分类是基于检测后的分类)

早期的图像识别系统主要采用尺度不变特征变换(Scale—invariant feature transform,SIFT)和方向梯度直方图(Histogram of oriented gradients,HOG)等特征提取方法,然后将提取到的特征输入至分类器中进行分类识别。这些特征本质上是一种手工设计的特征,对不同的识别问题,提取到的特征好坏对系统性能有着直接的影响,因此需要研究人员对所要解决的问题领域进行深入的研究,以设计出适应性更好的特征,从而提高系统的性能。这个时期的图像识别系统一般都是针对某个特定的识别任务,且数据的规模不大,泛化能力较差,难以在实际应用问题当中实现精准的识别效果。

介绍早期图像识别的方法:使用SIFT和HOG提取特征,再用分类器分类。

缺点是:特征需要人工设计、需要结合识别的相关领域。

注:所以使用深度学习可以自主提取特征,而在学习过程中同时学习分类器以及分类器所需要的变换特征就是表征学习

深度学习是机器学习的一个分支,是近些年来机器学习领域取得的重大突破和研究热点之一。2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffery Hinton和他的学生Ruslan Salakhutdinov在国际顶尖学术刊物《Science))上发表了一篇文章,第一次提出了深度学习的思想。这篇文章主要提出了两个观点:(1)含多个隐层的人工神经网络具有十分强大的特征学习能力,通过训练模型所提取的特征对原始输人数据具有更抽象和更本质的表述,从而有利于解决特征可视化或分类问题;(2)通过使用无监督学习算法实现一种称作“逐层初始化”的方法,实现对输入数据信息进行分级表达,从而可以有效地降低深度神经网络的训练难度。随后,深度学习在学术界和工业界持续升温,在语音识别、图像识别和自然语言处理等领域获得了突破性的进展。2011年以来,研究人员首先在语音识别问题上应用深度学习技术,将准确率提高了20%~30%,取得了十多年来最大的突破性进展。仅仅一年后,基于卷积神经网络的深度学习模型就在大规模图像分类任务上取得了非常大的性能提高,掀起了深度学习研究的热潮。文献提出了两种基于深度神经网络的声学建模方法,相比于传统建模方法提取到了更有效的声学特征,并在维吾尔语的大词汇量连续语音识别应用上取得了较大的性能提升。目前,谷歌、微软和Facebook等众多国际互联网科技企业争相投入大量的资源,研发布局大规模的深度学习系统。

主要介绍深度学习的发展

重点:

第一次提出了深度学习的思想。这篇文章主要提出了两个观点:(1)含多个隐层的人工神经网络具有十分强大的特征学习能力,通过训练模型所提取的特征对原始输人数据具有更抽象和更本质的表述,从而有利于解决特征可视化或分类问题;(2)通过使用无监督学习算法实现一种称作“逐层初始化”的方法,实现对输入数据信息进行分级表达,从而可以有效地降低深度神经网络的训练难度。(感觉大部分还是BP训练)

注:语音识别也用卷积网络,不研究暂时不看

 

1、卷积网络(基本概念不介绍,主要说一下疑问)

1.2 网络结构部分

注意S1层与C2层之间,卷积操作不是指对一个特征图进行操作,应该是卷积核对每个或者个别特征图都进行操作并求和。之后的C2层与S2层倒是正确,毕竟一个卷积核一个特征图

1.3卷积操作

卷积操作都只知道,这里不做赘述,这里主要说以下几个问题:

为什么图像可以用卷积:自然图像有其固有特性,即对于图像的某一部分,其统计特性与其他部分相同。这意味着在这一部分学习到的特征也能用在另一部分上,因此对于图像上的所有位置,可以使用同样的学习特征。(感动,别光想着参数减少)

卷积操作局部图像后,会出现什么问题:遍历整个图像后所提取的特征要输入到分类器中,将如此高维度的特征输入至分类器中进行训练需要耗费非常庞大的计算资源,同时也会产生过拟合(因为参数过多,模型的容量越大,越易提取出过于复杂的函数,进而泛化能力弱)

1.4池化操作

池化操作用于减少参数,那为什么可以用它来减少参数呢:

1)由于图像具有一种“静态性”的属性,在图像的一个局部区域得到的特征极有可能在另一个局部区域同样适用。因此,可以对图像的一个局部区域中不同位置的特征进行聚合统计操作。(所以说池化的本质是对特征进行统计,之前看得不细,惭愧惭愧)

2)如果选择图像中的连续范围作为池化区域(即连续滑动),同时只对相同的隐含神经元产生的卷积特征使用池化,则这些池化后的特征单元具有平移不变性。原始图像中的物体产生了一个较小的平移,依然可以得到相同的池化特征,分类器也依然能够输出相同的分类结果。例如,如果使用最大池化,可能图像平移后产生的新特征不变(反正取最大)。

2、图像分类

什么是图像分类:图像分类问题是通过对图像的分析,将图像划归为若干个类别中的某一种,主要强调对图像整体的语义进行判定。

主要用哪些数据集:CIFAR一10/100,Caltech-101/256u和ImageNet,其中ImageNet包含超过15 000 000张带标签的高分辨率图像,这些图像被划分为超过22 000个类别(没GPU就跑跑CIFAR一10吧)

主要的图片分类模型:这些大家都知道,我主要说模型的改进点

1)AlexNet:中最后一层采用softmax进行分类。该模型采用(ReLU)来取代传统的Sigmoid和tanh函数作为神经元的非线性激活函数,并提出了Dropout方法来减轻过拟合问题。(看一下这篇论文是怎么证明过拟合的,不然自己写论文的时候总是不会说,哈哈)

2) ILSVRC2013的获胜队伍Clarifai叼提出了一套卷积神经网络的可视化方法,运用反卷积网络对AlexNet的每个卷积层进行可视化,以此来分析每一层所学习到的特征,从而加深了对于卷积神经网络为什么能够在图像分类上取得好的效果的理解,并据此改进了该模型,取得了11.7%的错误率。(使用反卷积可视化,改进模型是主流的CNN改进方式,反卷积一定要会)

3)GoogleNet:提出了Inception模块,它的主要思想是想办法找出图像的最优局部稀疏结构,并将其近似地用稠密组件替代(为什么能找到最优局部稀疏结构?)。这样做一方面可以实现有效的降维,从而能够在计算资源同等的情况下增加网络的宽度与深度;另一方面也可以减少需要训练的参数,从而减轻过拟合问题,提高模型的推广能力。

4)SPP-Net:新的池化方法,叫作空间金字塔池。空间金字塔池化的作用是对任意维数的输入均产生固定维数的输出,从而使网络
可以接受任意大小的图像作为输入。(原因:因为全连接层,多了我就不说了)

5)ReLU—Nets:提出参数化修正线性单元(PReLU)。该激活函数可以适应性地学习修正单元的参数,并且能够在额外计算成本可
以忽略不计的情况下提高识别的准确率。(没啥多说的,看这个论文就是为看看他怎么比较计算成本的)

6)BN:Google的研究人员将归一化的方法运用于网络内部的激活函数中,对层与层之间的传输数据进行归一化。由于训练时使用随机梯度下降法,这样的归一化只能在每个mini—batch内进行,所以被命名为Batch normalization。该方法可以使得训练时能够使用更高的学习率,减少训练时间;同时减少过拟合,提高准确率。(原因:只能梯度下降中归一化,为什么归一化)

7)Google DeepMind(特殊说明一下,尽管卷积神经网络已经拥有强大的图像学习能力,然而这类模型缺乏对于图像空间不变性的学习,尤其是缺乏对于图像旋转不变性的学习):提出了Spatial transformer提高卷积神经网络对于图像空间不变性的学习能力,来加强其图像分类的准确率。

Spatial transformer:可以在卷积神经网络的任意深度位置加入的模块,它可以将输入数据进行一系列空间变换,使得输出特征更加易于进行分类。在训练过程中,该模块可以自主地学习到空间变换所需要的参数,并且不需要在训练中增加任何额外的监督处理。

8)ResNet:太有名了,啥也不说了。

3、物体检测

与图像分类比起来,物体检测是计算机视觉领域中一个更加复杂的问题,因为一张图像中可能含有属于不同类别的多个物体,需要对它们均进行定位并识别其种类。因此,在物体检测中要取得好的效果也比物体分类更具有挑战性,运用于物体检测的深度学习模型也会更加复杂。

R—CNN模型:该模型首先使用Selective search这一非深度学习算法来提出待分类的候选区域,然后将每个候选区域输入到卷积神经网络中提取特征,接着将这些特征输入到线性支持向量机中进行分类。为了使得定位更加准确,R—CNN中还训练了一个线性回归模型来对候选区域坐标进行修正,该过程被称为Bounding box regression。(先选区域,再分类,两个过程)

Fast R—CNN

Fast R—CNN设计了一个多任务损失函数,来同时训练用于分类和修正候选区域坐标信息的两个全连接层。Fast R—CNN中不再需要额外的训练SVM分类器,实现了从提取图像特征到完成检测的一体化。

DeeplD-Net:。该模型在R—CNN训练流程的基础上进行了进一步完善,改进了模型预训练方式,提出了Bounding box rejection Contextual modeling等新的网络训练步骤。除此之外,在卷积神经网络结构中,DeeplD-Net在可变形部件模型(Deformable part model)的启发下设计了新的池化层,叫作Deformation constrained pooling(Def-pooling)层。这一池化层可以实现对图像局部信息的学习,并使得模型能够更好地适应于输入图像中某些部件位置发生偏移的情况。

Faster R—CNN:aster R—CNN网络在Fast R—CNN模型的基础上,在最后一层卷积层输出的特征映射上设置了一个滑动窗,该滑动窗与候选区域网络进行全连接。对于滑动窗滑过的每个位置,模型中给定若干个以滑动窗中心为中心、不同尺度与长宽比的锚点,候选区域网络将以每个锚点为基准相应地计算出一个候选区分类层回归层卷积特征映射图域。候选区域网络是一个全卷积网络口“,网络的第一层将滑动窗的输入特征映射到一个较低维的向量,然后将该向量输入到两个并列的全连接子层,其中分类层用于输出该向量对应图像属于物体还是背景的概率分布,回归层用于输出候选区域的坐标信息。为了让候选区域网络与用于检测的Fast R—CNN模型的前几层卷积层能够实现共享,从而提高这些卷积层所提取特征的利用率与运行效率,Faster R—CNN提出了一套多阶段训练算法进行网络训练。由于Faster R—CNN提出候选区域的过程是根据用于检测的Fast R-CNN网络的前几层卷积层所提取的特征,且候选区域网络也在GPU上实现,从而提出
候选区域的时间开销大大减少,检测所需时间约为原来时间的1/10,且准确率也有所提高,说明候选区域网络不仅能更加高效地运行,还能提高所产生的候选区域的质量。

4、姿态估计

除了大家熟知的图像分类和目标检测任务外,实际上随着各种网络游戏的发展、动画视频的普及,正确快速地识别和理解图像中人的姿态动作也成为了一个非常热门的话题。这种问题统称为姿态检测。姿态检测中包含许多类别和子问题,姿态估计就是其中之一。姿态估计是时下最为重要的计算机视觉挑战性问题之一,原因在于它可以被很快地应用到人物追踪、动作识别以及视频相关的视频分析上,比如视频监控和视频搜索等实际应用面非常广。

姿态估计的主要任务就是,给定一张图,图中会有一个人,你需要给出这个人的姿态动作是什么样的。人们会提前选定出比较重要的几个人体关节(比如肩膀、肘部、脖子等),然后用一个固定维数(比如维和11维)的坐标向量来表示这个动作,每一维都表示图中人物的重要关节所在的具体坐标。换句话说,你需要给出一个火柴人的形状来表示这个人的姿态。(不研究多了就不说了)

5、图像分割

深度神经网络在图像分类、目标检测和姿态估计等方面取得了巨大的成功,进一步的发展便是对图像上每个像素点的预测,这个任务就是图像分割。图像分割是这样一类问题:对于一张图来说,图上可能有多个物体、多个人物甚至多层背景,希望能做到对于原图上的每个像素点,能预测它是属于哪个部分的(人、动物、背景⋯⋯)(对像素点分类)

6、人脸识别

人脸识别是图像识别领域一个非常重要的研究方向,由于人脸图像具有易采集的特性,因此受到了许多行业的关注,具有非常广阔的应用前景和巨大的商业市场。人脸识别技术主要包括人脸检测、人脸特征提取和人脸识别3个过程

7、结束语

正文 笔记

深度学习目前是一个非常热门的研究方向,利用卷积神经网络的卷积层、池化层和全连接层等基本结构,就可以让这个网络结构自己学习和提取相关特征,并加以利用。这种特性对许多研究提供了许多便利,可以省略过往非常繁杂的建模过程。

深度学习优势:自主学习,又快又好
此外,深度学习现在在图像分类、物体检测、姿态估计和图像分割等方面都已经有了非常大的成果和进步。一方面,深度学习应用面非常广,而且通用性强,完全可以继续努力将其拓展到其它应用领域。另一方面,深度学习仍有许多潜力可挖,值得不断去探索和发现。 说明深度学习目前状况,引出发展方向,承上启下。

另一方面,深度学习仍有许多潜力可挖,值得不断去探索和发现。就未来而言,尽管之前讨论的许多内容都是有监督的学习(比如训练的网络最后一层会根据真实值计算一个loss值,进而进行参数调整),并且有监督的学习确实取得了非常大的成功。深度学习在无监督的学习方面的应用很可能是未来的发展趋势。毕竟,就人或者动物而言,大部分情况下,我们并不是通过知道事物的名字来了解它是什么的。

在未来的计算机视觉领域,预计基于深度学习的卷积神经网络和循环神经网络(Recurrent neural network,RNN)将会成为十分流行的网络模型,并将在更多的应用研究中取得更好的突破与进展。

此外,结合强化学方法来训练一个端到端的学习系统逐渐成为可能,从而使得该学习系统具有自主学习能力,能够主动去学习相关特征的表示和抽象。目前,结合深度学习与强化学习的研究尚处于起步阶段,但已经有一些这方面的研究工作在多物体识别任务和进行视频游戏的学习口上取得了不错的表现,这也是让许多相关领域的研究者们兴奋的原因之一。

 

 

卷积网络的未来:

1)无监督化

2)与RNN结合(感觉不少人都做了)

3)与强化学习结合(查一下端到端)

值得注意的是,自然语言处理同样也是深度学习未来能够大展身手的潜在舞台,比如说,对于一篇文章或者一大段文字,能够设计出基于一些深度神经网络模型(比RNN)的方法和策略,能够有效地理解文本内容。总体来说,人们现在使用深度学习以及一些简单的推理,就已经在语音和图像领域取得了非常不错的成果。有理由相信,如果将目前对于网络提取的特征表示能够进一步优化,使得其能够更“自如”地表达特征,再加上一些复杂推理,那么深度学习将会在人工智能的各个应用方面取得更大的进展。

深度学习的未来总结

都说完了,之后会根据这篇文献对一些模型进行总结,讲真的听网课不如看论文,哈哈哈哈。

没有更多推荐了,返回首页