精华内容
下载资源
问答
  • 卷积神经网络发展历程
    千次阅读
    更多相关内容
  • [总结] 卷积神经网络发展历程

    千次阅读 多人点赞 2019-07-31 16:21:51
    本文用于总结卷积神经网络(CNN)发展历程

    一直都想梳理一下 CNN 网络结构的发展过程,却感觉无从下手,直到最近看到这篇文章:CNN网络结构的发展:从LeNet到EfficientNet
    于是我便下决心依照这篇文章所述顺序,对卷积神经网络的发展历程做一次粗略的梳理,也算对之前的知识框架做一次梳理。
    写这篇博文肯定有所疏漏或者理解错误的地方,有些定义我也不能清楚的进行表达,请各位谅解。

    1. LeNet

    论文链接:Gradient-based learning applied to document recognition, 发表时间:1998 年

    以现在的眼光来看,LeNet 绝对是一个小网络,也没什么特点。但是,LeNet 是 CNN 网络结构的开山鼻祖,第一次定义了 CNN 网络结构
    LeNet 的特点如下所示:

    • 定义了卷积神经网络(Convolutional Neural Network, CNN)的基本框架:卷积层 + 池化层(Pooling Layer) + 全连接层
    • 定义了卷积层(Convolution Layer),与全连接层相比,卷积层的不同之处有两点:局部连接(引进“感受野”这一概念)、权值共享(减少参数数量)
    • 利用池化层进行下采样(Downsampooling),从而减少计算量
    • 用 Tanh 作为非线性激活函数(现在看到的都是改进过的 LeNet 了,用 ReLU 代替 Tanh。相较于 Sigmoid,Tanh 以原点对称(zero-centered),收敛速度会快。关于其解释,请看:谈谈激活函数以零为中心的问题

    PS: 关于全连接层,作者 Yann LeCun 曾在推特上指出:直接将特征图(Featuremap)展开输入到全连接层,会导致 CNN 仅适用于指定尺度的图像上。LeCun 认为 CNN 应该尽可能适用与各种尺度的图像上,这一点也得到许多人的认同。对于分类(Classification)问题,利用全局平均池化(Global Average Pooling, GAP)操作代替特征图的拉伸,这样 CNN 便可以处理各种尺度的图像了。而对于语义分割(Semantic Segmentation)问题,Fully Convolutional Networks for Semantic Segmentation 已经提出了一个完全没有全连接层的全卷积网络了,可以在这个问题上处理任意大小的图像。

    PPS: 一般来说,卷积和池化的核的宽与高相等。
    卷积计算公式: S i z e o u t = ( S i z e i n − K e r n e l P o o l i n g + 2 ∗ P a d d i n g ) / S t r i d e + 1 Size_{out} = (Size_{in} - Kernel_{Pooling}+2*Padding)/Stride + 1 Sizeout=(SizeinKernelPooling+2Padding)/Stride+1
    池化计算公式: S i z e o u t = ( S i z e i n − K e r n e l P o o l i n g ) / S t r i d e + 1 Size_{out} = (Size_{in} - Kernel_{Pooling})/Stride + 1 Sizeout=(SizeinKernelPooling)/Stride+1

    2. AlexNet

    论文链接:ImageNet Classification with Deep Convolutional Neural Networks, 发表时间:2012 年

    2012 年,Krizhevsky 与 Hinton 推出了 AlexNet,并在当年的 ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)中以超过第二名10.9个百分点的绝对优势一举夺冠,引起了许多学者对深度学习的研究,可以算是深度学习的热潮的起始标志吧。

    当时的算力不如现在这样强劲,AlexNet 用的 GTX 580 也只有 3GB 的显存(这也导致其设计出双 GPU 框架,现在的许多深度学习框架都有这样的能力,不过当时只能通过手动编写底层代码,工作量可想而知),却完成了在 ImageNet 上的巨大突破,这在当时是非常轰动的,变相证明了深度学习的能力。

    由于算力的不断进步,AlexNet 在许多任务显得太"小"了,很少见到它的身影。所以我认为相较于 AlexNet 的框架,作者所做的一些其他改进更有值得研究的地方。

    AlexNet 的特点如下所示:

    • 采用双 GPU 网络结构,从而可以设计出更“大”、更“深”的网络(相较于当时的算力来说)
    • 采用 ReLU 代替 Tanh,稍微解决梯度消失问题(Gradient Vanishing Problem),加快网络收敛速度。(关于常见激活函数的比较,可以看这篇:常用激活函数的比较 - 徐小贱民的文章 - 知乎
    • 提出局部相应归一化(LRN, Local Response Normalization),据作者所言,该操作能减少指标 Top-1/Top-5 Error Rate 1.4%/1.2%。(我个人不喜欢 LRN,因为我觉得它的超参数太多了,不具备很好的泛化能力。关于 Normalization 的发展历程可以看这篇:[笔记] 神经网络中 Normalization 的发展历程
    • 令 Pooling 操作中的 stride 小于池化核的大小,从而使相邻的池化区域存在重叠部分,这一操作称为 Overlapping Pooling。据作者所言,这一操作能减少指标 Top-1/Top-5 Error Rate 0.4%/0.3%,并且减少过拟合现象。
    • 对训练数据进行随机裁剪(Random Crop),将训练图像由 256 × 256 裁剪为 224 × 224,并做随机的镜像翻转(Horizontal Reflection)。并在测试时,从图像的四个角以及中心进行裁剪,并进行镜像翻转,这样可以得到 10 个 Patch,将这些 Patch 的结果进行平均,从而得到最终预测结果。(之前在一个人脸识别比赛中,我师兄用这样的操作直接提高了4~5个点,算是一种简单的集成操作吧)
    • 对训练图像做 PCA(主成分分析),利用服从 (0,0.1) 的高斯分布的随机变量对主成分进行扰动。作者指出,这一操作能减少指标 Top-1 Error Rate 1%。
    • 利用 Dropout 避免网络过拟合。(我觉得这也算是集成操作的一种,因为随着模型的复杂度的提高,弱分类器也会越来越大,纯粹由弱分类器进行 Ensemble 应该不实际。最近谷歌对 Dropout 的专利貌似申请下来了,据说相关文档详细到可以作为 Dropout 的使用指南。)

    PS: PyTorch 中的 TORCHVISION.MODELS 提供基于 ImageNet 训练好的 AlexNet 模型,将其加载到显存中占了 1191 MiB(训练与测试所占显存大小依赖于实验设置,故不做讨论)。

    3. VGG

    论文链接:Very Deep Convolutional Networks for Large-Scale Image Recognition, 发表时间:2014.09

    2014 年,Simonyan 和 Zisserman 提出了 VGG 系列模型(包括VGG-11/VGG-13/VGG-16/VGG-19),并在当年的 ImageNet Challenge 上作为分类任务第二名、定位(Localization)任务第一名的基础网络出现。对于当时而言,VGG 属于很”深“的网络,已经达到 19 层的深度(虽然同年的 GooLeNet 有22层),这是一个不小的突破,因为理论上神经网络模型的拟合能力应该是随着模型”大小“不断增加的。

    虽然 VGG 的出现时间比较早,而且隔年又出现了 ResNet 这样现象级的网络模型,但是至今仍经常出现在论文中(虽然往往作为比较对象出现)。此外,VGG 的一些设置至今都在使用,所以,有必要了解一下 VGG 的网络结构。

    网络结构:

    VGG 其实跟 AlexNet 有一定的相似之处,都是由五个卷积层与激活函数叠加的部分和三个全连接层组成,但是不同的是,VGG加“深”了前面由五个卷积层与激活函数叠加的部分,使得每部分并不是一个卷积层加一个激活函数组成,而是多个这样的组合组成一部分(有人习惯称这个为 Conv Layer Group),每个部分之间进行池化操作。

    此外,VGG 与当时其他卷积神经网络不同,不采用感受野大的卷积核(如:7 × 7,5 × 5),反而采用感受野小的卷积核(3 × 3)。关于这样做的好处,作者指出有如下两点:减少网络参数量;由于参数量被大幅减小,于是可以用多个感受野小的卷积层替换掉之前一个感受野大的卷积层,从而增加网络的非线性表达能力。

    从 VGG-16 开始,VGG 引进卷积核大小为 1 × 1 的卷积层(最早应该在 Network In Network 提到),使得在不影响特征图大小的情况下,增加网络的非线性表达能力。

    由上图可以看出,VGG 每个“大”部分计算得到的特征图大小应该是固定的,以输入大小为 (224,244,3) 的图像举例,所计算得到的特征图大小分别为 (112,112,64),(56,56,128),(28,28,256),(14,14,512),(7,7,512)。(VGG 的最后三层全连接层太大了,尤其是第一层,大小达到了 (25088,4096) )

    其他细节:

    • 作者提到曾使用 LRN,但是并没有任何效果提升,反而还使得内存使用和计算时间增加。
    • 在训练过程中,作者为避免随机初始化对训练带来负面影响,于是利用小的网络参数初始化大的网络参数(比如用以训练好的 VGG-11 去初始化部分 VGG-13 的网络参数)。
    • 对训练图像进行预处理时,先做宽高等比缩放(原文用的词是 isotropically rescaled,即同质化缩放),使其最短边长度达到 S,接着再做随机裁剪。其中,关于 S 的设置,作者提出了两种训练方案:Single-Scale Training,Multi-Scale Training。

    PS: PyTorch 中的 TORCHVISION.MODELS 提供基于 ImageNet 训练好的 VGG-11/VGG-13/VGG-16/VGG-19 模型,以及对应使用 Batch Normalization 的版本,分别将其加载到显存中占了 1467/1477/1501/1527 MiB(训练与测试所占显存大小依赖于实验设置,故不做讨论)。

    4. Inception Net

    • Inception Net V1 (GoogLeNet)

    论文链接:Going Deeper with Convolutions, 发表时间:2014.09

    2014 年,Google 提出了 Inception 网络结构,并以此构建了 GoogLeNet(之所以这样命名,是为了向LeNet致敬;此外,GoogLeNet 也经常被称为 Inception Net V1,而该论文经常被称为 Inception V1),从而在同年的 ImageNet Challenge 的分类与检测(Detection)任务上夺得第一名。

    与 VGG 不同,Inception 结构虽然也倾向于加“深”网络结构,从而提高模型的表达能力,但是作者充分考虑到现实中计算资源的限制,所以对模型中局部结构进行了精心设计,并且抛弃全连接层(虽然 GoogLeNet 最后加了一层全连接层,但这是作者为了其他人能更方便的利用模型进行微调(Finetune))。

    作者在文中指出,提高模型表达能力的最直接的办法就是增加模型的“大小”,而这又会导致两个问题的产生:模型越大,其网络参数也就越大,就越容易产生过拟合现象,所以就需要更大的数据集,然而大型数据集的构建成本是很高昂的;模型越大,对于计算资源的需求就越大,这在现实任务中是难以接受的。而作者认为解决这两个问题的基本方法是将全连接层,甚至是卷积层改为稀疏的网络结构。(作者还在文中指出,GoogLeNet 的参数仅有 AlexNet 的 1/12,而 AlexNet 的全连接层的参数量甚至占到了自身参数量的 90% 以上)

    受到 Network In Network 以及 HeHebbian Principle 的启发,作者通过增加网络的宽度,从而提高网络的表达能力,并尝试找到卷积神经网络中的最优局部稀疏结构,即 Inception Module(如上图所示)。

    作者所设计的 Inception Module 与常见的网络结构不同,打破了常规的卷积层串联的设计思路,选择将卷积核大小为 1 × 1,3 × 3,5 × 5 的卷积层和池化核大小为 3 × 3 的池化层进行并联,并将各自所得到的特征图进行 Concatenate 操作合并在一起,作为后续的输入。

    之所以 Inception Module 由上图左侧发展被改进为上图右侧,是因为:作者希望希望模型中深层的 Inception Module 可以捕捉到 Higher Abstraction,所以作者认为深层的 Inception Module中的卷积层的空间集中度应该逐渐降低,以此捕捉更大面积的特征。故,作者令越深层的 Inception Module 中,卷积核大小为 3 × 3 和 5 × 5 这两个卷积层的输出通道数占比越多。但这又将导致计算量增加,所以为了解决这个问题,作者在原有 Inception Module 的基础上,利用卷积核大小为 1 × 1 的卷积层进行降维操作,从而减小计算量(这建立在一个假设之上:即使是低维的映射也可能包含关于相关图像区域的大量信息)。

    由于 Inception Module 保持了输入输出的尺寸一致,故 GoogLeNet 可以由 Inception Module 进行模块化搭建。仔细观察 GoogLeNet 的结构,你会发现作者在 Inception Module (4a) 和 (4d) 设置了额外的辅助 Loss,用以增加向后传导的梯度,缓解梯度消失问题,同时增加额外的正则化操作。在文章中,作者指出这样操作的目的主要是使得模型中低层的特征也具备很好的区分能力。(文章中,这两个额外的 Loss 会乘上衰减系数 0.3,与最后的 Loss 相加,作为整个模型的 Loss)

    • Inception Net V2

    论文链接:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, 发表时间:2015.02

    2015 年,谷歌提出了 Batch Normalization 操作,将其添加在之前的 GoogLeNet,并修改了一定的结构与实验设置,得到了 Inception Net V2,在 ImageNet 上达到分类任务超过 GoogLeNet。(关于 BN 的详细笔记,可以参考这篇博文:[笔记] 神经网络中 Normalization 的发展历程

    网络结构:

    • 将 Inception Module 中卷积核大小为 5 × 5 的卷积层用两个相连的卷积核大小为 3 × 3 的卷积层进行替换。作者指出,这一操作是的模型参数增加了 25%,计算成本提高了 30%。
    • 将输出大小为 28 × 28 的 Inception Module 的个数由两个提升到三个,即增加 Inception Module (3c)。
    • 在 Inception Module 中进行池化操作(有时为平均池化(Average Pooling),有时为最大池化(Max Pooling))
    • 两个 Inception Module 之间不再进行池化操作,仅在 Inception Module (3c) 和 (4e) 前添加 stride-2 conv/pooling layer。
    • 将网络第一层的卷积层替换为深度乘子为 8 的可分离卷积(Separable Convolution,关于这个概念,可以参考:卷积神经网络中的Separable ConvolutionCNN中千奇百怪的卷积方式大汇总)。

    其他细节:

    • 作者在文中指出,他们并不是直接简单的将 BN 添加到网络中的,还做了如下的改动:增大学习率,移除 Dropout,减小 L2 正则化项,加速学习率衰减,移除 LRN,更彻底的打乱训练数据,减少光学畸变( Photometric Distortion,关于这个概念,可以参考这篇文章:SSD中的数据增强细节)。下图为作者关于学习率的对比实验:
    • Inception Net V3

    论文链接:Rethinking the Inception Architecture for Computer Vision, 发表时间:2015.12

    时隔将近一年,谷歌又发了篇论文对之前提出的 Inception Module 进行了思考。在这篇论文中,作者首先四条设计神经网络的原则,接着提出如何分解大卷积核的卷积层,接着反思辅助分类器(Auxiliary Classifier)的作用,接着按照自己所提的第一条原则对常见的 Size Reduction 做了改进,最后将以上改进添加进之前的网络结构中。

    关于四条设计神经网络的原则:(没能完全理解,直接放原文吧)

    • Avoid representational bottlenecks, especially early in the network.
    • Higher dimensional representations are easier to process locally within a network.
    • Spatial aggregation can be done over lower dimensional embeddings without much or any loss in representational power.
    • Balance the width and depth of the network.

    关于如何分解大卷积核的卷积层:

    作者提出两种解决办法:利用连续的两层小卷积核的卷积层代替大卷积核的卷积层(下图左侧所示);利用连续的两层非对称的卷积层(卷积核大小为 n × 1 和 1 × n)代替原有卷积层(卷积核大小为 n × n)(下图右侧所示)。

    这样做的好处自然是减少参数量以及计算量。此外,作者对于这两种操作都做了相应的实验并发现:使用第一种操作时,添加在卷积层后的激活函数都为 ReLU 比 Linear+ReLU 好;使用第二种操作,最好在模型的中间层使用(适用的FeatureMap大小范围为 12~20)。

    关于辅助分类器的作用:

    GoogLeNet 曾在 Inception Module (4a) 和 (4d) 设置了额外的辅助 Loss,即设置了辅助分类器,当时作者对其的理解是:使梯度更好的回传到低层,避免梯度消失问题,提高模型的收敛速度与最终表现。但是作者通过实验发现:在训练初期,有无辅助分类器并无区别;在训练后期,有辅助分类器将提高模型的最终表现;此外,作者去掉 GoogLeNet 中较低的辅助分类器的分支,发现此举并不会导致模型性能有明显的降低。最后,作者认为:辅助分类器起到的作用更像是正则化。

    关于如何有效减少特征图尺寸:

    在分类任务中,许多模型都会随着深度的整长不断通过池化操作缩小特征图尺寸,以此减小模型的“体积”。由于池化操作会导致特征图中的许多信息丢失,许多模型都习惯在特征图的宽与高缩小一半的同时,利用卷积核为 1 × 1 的卷积层使得特征图的通道数量翻倍(即 C × W × H -> 2C × W/2 × H/2),以此减少池化操作所带来的信息丢失。

    这样操作有两种选择:先进行升维操作,再进行池化操作;先进行池化操作,再进行升维操作。作者指出,根据原则一,我们应先进行升维操作,再进行池化操作。(我觉得挺好理解的,本来升维就是为了避免池化操作带来的信息丢失,但是在已经池化后的特征图上做升维的效果肯定不如在未池化的特征图上做升维的效果好)

    当然,这样做会导致计算量增加,于是作者提出了另一种做法,如下图所示:

    • Inception Net V4

    论文链接:Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, 发表时间:2016.02

    在 Inception-v4 中,作者将 Inception 和 ResNet 结合在一起,推出了 Inception-ResNet-v1,Inception-ResNet-v2,Inception-v4。其中,Inception-v4 的总体结构如上图所示,各个模块细节如下图所示。

    可以看得出来,Inception-v4 的结构设计非常复杂,需要大量的实验验证以及工程经验,一般只有大厂才有能力做这样的工作,这也是为什么最近 NAS 这么火的原因吧。

    • Xception

    论文链接:Xception: Deep Learning with Depthwise Separable Convolutions , 发表时间:2016.10

    在这篇论文中,Google 利用 Depthwise Separable Convolution 对 Inception V3 进行了改进,并结合 Residual Connection 设计了新的网络:Xception(含有 Extreme Inception 的意味)。

    作者在文章开头便指出 Inception Module 背后的思路是通过一系列操作使得模型的学习更加简单有效(分别单独学习通道之间的关系和空间关系),这意味着 Inception Module 假设通道之间的关系和空间关系是可以被分离开的(这个假设的一个变体就是 width-wise correlation and height-wise correlation,即 Inception V3 里的卷积核大小为 7×1 和 1×7 的卷积层)。接着,作者由 Inception V3 中的 Inception Module 进行演变,得到极端版本的 Inception Module,与 Depthwise Separable Convulotion 思路一致,如下图所示:

    作者指出 “extreme” version of Inception Module 与 Depthwise Separable Convolution 主要存在两点不同:

    • Depthwise Convolution 和 Pointwise Convolution 的顺序不同。不过,作者认为这一点并不重要。
    • 在 Inception Module 中,Depthwise Convolution 和 Pointwise Convolution 后都会接着 ReLU;而 Depthwise Separable Convolution 一般仅在 Pointwise Convolution 后接着 ReLU。作者认为这一点差异比较重要,并在后续的实验中进行了讨论(后面发现在 Pointwise Convolution 后接 ReLU/ELU,都不如中间不添加激活函数的表现效果)。

    最后,作者提出了新的网络:Xception(结合了 Inception Module, Residual Connection, Depthwise Seperable Convolution),网络结构如下所示:

    5. ResNet

    • Residual Network

    论文链接:Deep Residual Learning for Image Recognition,发表时间:2015.12

    2015 年,Kaiming He 提出了 ResNet(拿到了 2016 年 CVPR Best Paper Award),不仅解决了神经网络中的退化问题(Degrade Problem,即相较于浅层神经网络,深层神经网络的深度到达一定深度后,拟合能力反而更差,训练/测试误差更高),还在同年的 ILSVRC 和 COCO 竞赛横扫竞争对手,分别拿下分类、定位、检测、分割任务的第一名。(个人觉得,ResNet真的属于现象级论文,所提出的残差结构大幅提高了神经网络的拟合能力)

    网络结构:

    简单来说,Kaiming 在文中提出了残差结构(Residual Block,如上图左侧所示),使得原本所要拟合的函数 H ( x ) H(x) H(x),改为 F ( x ) F(x) F(x),其中, H ( x ) = F ( x ) + x H(x)=F(x)+x H(x)=F(x)+x。虽然在“多个非线性层可以拟合任意函数”这一假设下二者并无区别,但是 Kaiming 假设模型学习后者,将更容易进行优化与收敛。(在残差结构中,模型利用 Shorcut 进行 Identity Mapping,这样也解决了梯度消失现象)

    由于 Residual Block 并不需要额外的参数以及计算量,Kaiming 在文中以此做了多组对照实验,证明该网络结构的有效性(所用的两个 ResNet 为 ResNet-18 和 ResNet-34)。但是,若要将模型的深度继续不断增加,需要对其进行改进:将原先的 Residual Block(上图右侧所示,也被称作 Basic Block) 改进为 Bottleneck Block,减少模型的参数与计算量。

    其他细节:

    • 对训练数据进行数据增强:从 [256,480] 随机采样,作为图像最短边长度,进行宽高等比缩放;随机裁剪 224 * 224,并进行随机镜像翻转;并对所有训练图像的每个像素值进行统计,并减去该平均值。
    • 对测试数据使用 10-crop 测试方法。
    • ResNet 在非线性层后,激活函数前使用 Batch Normalization。

    PS: PyTorch 中的 TORCHVISION.MODELS 提供基于 ImageNet 训练好的 ResNet-18/ResNet-34/ResNet-50/ResNet-101/ResNet-152 模型,以及对应使用 Batch Normalization 的版本,分别将其加载到显存中占了 1007/1113/1179/1227/1443 MiB(训练与测试所占显存大小依赖于实验设置,故不做讨论)。

    • 关于 Residual Network 中 Identity Mapping 的讨论

    论文链接:Identity Mappings in Deep Residual Networks,发表时间:2016.03

    Kaiming 在这篇论文中对 ResNet 中的 Identity Mapping 进行了详细的讨论(前向传导、后向传导的分析),并且设计并尝试了多种不同的 Shortcut Connection 设计(如上图所示),并在最后对激活函数做了讨论,从而提出了新的 Residual Block(为与原版结构区分,Kaiming 称其为 full pre-activateion Residual Block)。

    我个人是比较喜欢这篇论文的,不仅对照实验设置的很详细,也对各类实验现象进行了分析,尤其是最后关于激活函数的讨论(到现在为止,这应该都还是开放问题,大家并没有一个统一的观点)。总的来说,Kaiming 在这篇论文中做出了两处改动:移除了 Short Connection 中的 ReLU,并将 Residual Mapping 中的 BN 和 ReLU 提前至对应的神经网络层前。

    PS: 阅读 PyTorch 所提供的源码,可以发现 PyTorch 中的 TORCHVISION.MODELS 所提供的 ResNet 模型,都是按照之前文章所述实现的,即 original Residual Block 版本。

    6. DenseNet

    论文链接:Densely Connected Convolutional Networks,发表时间:2016.08

    2016 年,DenseNet 横空出世,在当年也引起过热议。与 ResNet、Inception Net 不同,DenseNet 即没从网络的深度入手,也没从网络的宽度入手,而是对每层的 FeatureMap 进行特征复用,以此缓解梯度消失问题,加强网络中特征的传递,有效对特征进行复用,并在提高网络的表现效果的同时减少了网络的参数量

    在论文中,作者提出了一种网络结构:Dense Block(如下图所示)。在 Dense Block 中,每层卷积层的输入为在该 Block 中之前所有卷积层所输出的 FeatureMap 的 concation 结果 (此处与 ResNet 不同,ResNet 中将结果进行 add )。作者在文中指出,ResNet 成功的关键点在于:‘they create short paths from early layers to later laters’;作者认为自己之所以提出的 Dense Block 这样的结果,就是为了保证层与层之间的信息能最大程度的保存。

    网络结构:

    • DenseNet 与其他 CNN 类似,同样保留着 down-sampling layers 的设计,网络中包含四个 Dense Block 和四个 Transition Layer,分别处理不同 Size 的 FeatureMap / 对 FeatureMap 进行 Pooling 操作。
    • 根据 Identity Mappings in Deep Residual Networks,作者在 Dense Block 中将 BN 和 ReLU 设置在卷积层前面。由于 Dense Block 的特征复用操作,越后面的卷积层,其输入的 Channel 越大。故作者在 DenseNet 中引用了 Bottleneck Layer,即:BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3),以此避免计算量的快速增长。(文中记使用 Bottleneck Layer 的 DesnseNet 为 DenseNet-B)
    • 作者还尝试在 Transition Layer 中对 FeatureMap 的 Channel 数量进行缩减,设输入的 FeatureMap 的 Channel 数为 m, θ \theta θ 为压缩因子,则输出的 FeatureMap 的 Channel 数为 ⌊ θ m ⌋ \lfloor \theta m \rfloor θm。(实验中,作者设置 θ \theta θ为0.5;,并记使用Bottleneck Layer 以及设置 Transition Layer 的 θ < 1 \theta < 1 θ<1 的 DesnseNet 为 DenseNet-BC)
    • 为保持特征复用的实现(即同意 DenseNet 中的所有 FeatureMap 大小一致),作者令 Dense Block 中的卷积层的卷积核大小为 3 × 3,padding 为 1,且采用zero-padding。

    PS: PyTorch 中的 TORCHVISION.MODELS 提供基于 ImageNet 训练好的 DenseNet-121/DenseNet-161/DenseNet-169/DenseNet-201 模型,分别将其加载到显存中占了 1115/1201/1135/1153 MiB(训练与测试所占显存大小依赖于实验设置,故不做讨论)。

    7. MobileNet

    • MobileNet V1

    论文链接:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications,发表时间:2017.04

    (关于 MobileNet 系列文章,可以参考我之前所写的一篇博文:[论文笔记] MobileNet 系列论文笔记,链接如下,虽然当时也是刚刚开始接触深度学习)

    2017年左右,神经网络模型轻量化已经逐渐引起人们的关注,常见的手段分为两种:设计轻量化网络模型以及对已经训练好的复杂网络进行压缩(比如:降低精度、剪枝等等)。此时,Google 提出了一个轻量化模型:MobileNet,成为后续人们常使用的 Baseline Model。

    在 MobileNet 中,作者利用 Depthwise Separable Convolution 设计了一个轻量化网络,并通过设置 Width Multiplier 和 Resolution Multiplier 这两个超参数方便用户根据需求任意更改网络宽度与输入分辨率大小,从而使得人们可以根据任务需要与实际场景对模型进行 latency 和 accuracy 的权衡。

    关于 Depthwise Separable Convolution:

    Depthwise Separable Convolution 其实是将 Standard Convolution 拆分成两个部分:Depthwise Convolution 和 Pointwise Convolution。

    其实这个概念不难理解,只需要看作者所提供的图就好了:

    原先的 Standard Convolution 中每个 Filter 的 shape 为 ( D k , D k , M ) (D_k,D_k,M) (Dk,Dk,M),其中 M M M 为所输入 Feature Map 的 channel 数。每个 Filter 在所输入的 Feature Map 上进行卷积,输出的 shape 为 ( D o u t , D o u t , 1 ) (D_{out},D_{out},1) (Dout,Dout,1),如果有 N N N 个 Fliter,则输出的 shape 为 ( D o u t , D o u t , N ) (D_{out},D_{out},N) (Dout,Dout,N)

    反观 Depthwise Separasble Convolution:在 Depthwise Convolution 阶段,每个 Depthwise Convolution Fliter 的 shape 为 ( D k , D k , 1 ) (D_k,D_k,1) (Dk,Dk,1),共有 M M M 个 Filer,则输出结果的 shape 为 ( D o u t , D o u t , M ) (D_{out},D{out},M) (Dout,Dout,M);接着在 Pointwise Convolution 阶段, 每个 Pointwise Convolution Filter 的 shape 为 ( 1 , 1 , M ) (1,1,M) (1,1,M),共有 N N N 个 Filter,则输出结果的 shape 为 ( D o u t , D o u t , N ) (D_{out},D_{out},N) (Dout,Dout,N)

    可以明显看出,Standard Convolution 所需参数为 D k ∗ D k ∗ M ∗ N D_k*D_k*M*N DkDkMN,而 Depthwise Separable Convolution 所需参数为 D k ∗ D k ∗ M + M ∗ N = M ∗ ( D k ∗ D k + N ) D_k*D_k*M + M*N = M*(D_k*D_k+N) DkDkM+MN=M(DkDk+N),与 Standard Convolution 相比,所减少的参数数量为 ( N − 1 ) ∗ D k ∗ D k − N (N-1)*D_k*D_k-N (N1)DkDkN

    作者在论文中,也分别对 Standard Convolution 和 Depthwise Separable Convolution 的计算代价做了对比:

    关于 Width Multiplier:

    作者在论文中提出,可以利用超参数 α \alpha α 控制 MobileNet 的通道数,使得输入 Feature Map 的 channel 数变为 α M \alpha M αM,输出 Feature Map 的 channel 数变为 α N \alpha N αN
    其中, α = 1 \alpha=1 α=1为 baseline MobileNet, α < 1 \alpha<1 α<1为 reduced MobileNet。

    关于 Resolution Multiplier:

    作者在论文中提出,可以利用超参数 ρ \rho ρ 控制 MobileNet 的 resolution。
    其中, ρ = 1 \rho=1 ρ=1为 baseline MobileNet, ρ < 1 \rho<1 ρ<1为 reduced MobileNet。

    • MobileNet V2

    论文链接:MobileNetV2: Inverted Residuals and Linear Bottlenecks,发表时间:2018.01

    2018年,Google 在 MobileNet 基础上提出了新的模型 MobileNet V2。其中,提出了新的结构 Inverted Residuals and Linear Bottlenecks,并利用MobileNet V2 实现分类/目标检测/语义分割多目标任务。

    关于 Inverted Residuals and Linear Bottlenecks:

    首先,先讲清楚什么是 Inverted Residuals and Linear Bottlenecks 结构:

    下图是 Residual Block 与 Invereted Residual Block 的区别,可以看到原先的 Residual block 是先降 Channel 再升 Channel 的,不过现在 Inverted Residual Block 却是先升 Channel 再降 Channel 的。

    其次是 Linear 的部分,作者在文中指出 ReLU 的使用将会使得 low-dimension channel tensor 产生崩塌,造成信息损失,故将最后的 ReLU6 去掉,直接进行线性输出。(关于 ReLU6:卷积之后通常会接一个ReLU非线性激活,在Mobile v1里面使用ReLU6,ReLU6就是普通的ReLU但是限制最大输出值为6(对输出值做clip),这是为了在移动端设备float16的低精度的时候,也能有很好的数值分辨率,如果对ReLU的激活范围不加限制,输出范围为0到正无穷,如果激活值非常大,分布在一个很大的范围内,则低精度的float16无法很好地精确描述如此大范围的数值,带来精度损失。)

    作者对于这部分做了详细的实验与推导,在此我尽量进行描述:

    作者首先提到 It has been long assumed that manifolds of interest in neural networks could be embedded in low-dimensional subspaces ,其次利用实验探究 ReLU 所带来的信息损失:

    他人见解:

    1. 这意味着,在较低维度的张量表示(兴趣流形)上进行ReLU等线性变换会有很大的信息损耗。因而本文提出使用线性变换替代Bottleneck的激活层,而在需要激活的卷积层中,使用较大的M使张量在进行激活前先扩张,整个单元的输入输出是低维张量,而中间的层则用较高维的张量。
    2. 用线性变换层替换channel数较少的层中的ReLU,这样做的理由是ReLU会对channel数低的张量造成较大的信息损耗。我个人的理解是ReLU会使负值置零,channel数较低时会有相对高的概率使某一维度的张量值全为0,即张量的维度减小了,而且这一过程无法恢复。张量维度的减小即意味着特征描述容量的下降。

    关于这部分我的理解比较肤浅,建议大家阅读论文,并查阅他人的见解:

    To summarize, we have highlighted two properties that are indicative of the requirement that the manifold of interest should lie in a low-dimensional subspace of the higher-dimensional activation space:

    1. If the manifold of interest remains non-zero volume after ReLU transformation, it corresponds to a linear transformation.
    2. ReLU is capable of preserving complete information about the input manifold, but only if the input manifold lies in a low-dimensional subspace of the input space.
    • MobileNet V3

    论文链接:Searching for MobileNetV3,发表时间:2019.05

    (还没看,之后有空再写)

    8. ShffuleNet

    • ShuffleNet V1

    论文链接:ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices,发表时间:2017.07

    2017年,Face++ 的张翔宇(跟 Kaiming 一起推出 ResNet)推出了 ShffuleNet(一种极高效的移动端卷积神经网络模型),其 Insight 是:许多 Basic Architecture (比如:Xception, ResNet) 在计算资源受限时,其性能将大幅下降,而这是由于其中包含大量的 1 ∗ 1 1*1 11 Convolution 所导致的。

    因此,在ShffuleNet中,作者利用 Group Convolution, Depthwise Separable Convolution 结合,提出 Pointwise Group Convolution 以避免大量 1 ∗ 1 1*1 11 Convoltuion,并利用 Channel Shuffle 缓解由 Group Convolution 带来的副作用,并在 Residual Block 的基础上进行网络结构设计,使得网络的计算量减少的同时,仍能保持较高的性能。

    网络结构:

    • Group Convolution and Channel Shffule

      关于 Group Convolution 的概念,最早应该是在 AlexNet 中所提出来的,用于解决当时 GPU 显存不够用的尴尬境地。不过,本篇论文中作者利用 Group Convolution 减少模型的计算量与参数量(关于 Group Convolution 的参数量与其他细节可以阅读:Group Convolution分组卷积,以及Depthwise Convolution和Global Depthwise Convolution)。为避免由于 Group Convolution 导致所学习特征较为局限(多个 Group Convolution 叠加,将导致某个输出channel仅仅来自输入channel的一小部分),作者引进 Channel Shuffle 操作(作者将 Channel Dimension 由 g ∗ n g * n gn reshape 为 ( g , n ) (g,n) (g,n),进行转置为 ( n , g ) (n,g) (n,g),并进行 flattening,以此完成 Channel Shuffle,使得该操作是可微分的)。

    • Depthwise Separable Convolution and Residual Connection

      作者利用 Depthwise Separable Convolution 对 Residual Block 进行改进,从而设计出 ShffuleNet Unit。其中,Pointwise Convolution 由于 Group Convolution 的缘故,需改为 Pointwise Group Convolution。作者还指出:之所以不在 Depthwise Convolution 后接 ReLU,是根据 Xception所述;使用 BN 与 ReLU 的方式,是模仿 ResNet 以及 Inception V2。(作者还提到,之所以只利用 Depthwise Convolution 处理 Bottleneck Feature Map,是因为 Depthwise Convolution 很难在移动端上有高效的实现,尽管理论上其参数量与计算量都较小 )

    • ShuffleNet Architecture
    • ShuffleNet V2

    论文链接:ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design,发表时间:2018.07

    近几年来,人们对如何设计高效的神经网络模型的讨论较为热烈,许多针对移动端设备使用的模型结构相继推出,如:MobileNet 系列模型, ShffuleNet 系列模型等等。人们都称这样的网络是“小”网络,衡量标准便是其参数量与运算量,但是这样的衡量标准是否精确呢?

    2018年,Face++ 对衡量模型复杂度的指标(如:FLOPs)进行讨论,提出应该使用更为直接的指标(如:运行速度),并应直接在目标平台上进行测试。此外,Face++ 还提出了四条关于高效网络设计的实用准则,并依据此提出了 ShffuleNet V2。

    在论文中,作者对 Xception, ShffuleNet V1/V2, MobileNet V2进行了详细测试:

    作者认为,之所以出现“运算量差不多的两个模型的速度却会差很多”这一现象,是因为许多影响运行速度的因素并不能通过运算量进行体现,如: Memory Access Cost (MAC) 和模型的并行化程度往往没被纳入考虑范围中,而且模型在不同的平台上的运行速度往往也不一样。

    关于高效网络设计的实用准则:

    • Equal channel width minimizes memory access cost (MAC).(卷积层输入、输出的通道数量一致可以减少 MAC)
    • Excessive group convolution increases MAC.(组卷积的分组数量的增加将导致 MAC 增加)
    • Network fragmentation reduces degree of parallelism.(网络过多的分支将影响其并行性能)
    • Element-wise operations are non-negligible.(元素级别的操作不应被忽略)

    ShffuleNet V2 网络结构:

    参考资料:

    在这里插入图片描述

    展开全文
  • 卷积神经网络发展历程及经典论文

    万次阅读 多人点赞 2019-05-01 23:28:51
    1980年日本学者福岛邦彦(Kunihiko Fukushima)提出的神经认知机模型(Neocognitron) Fukushima K, Miyake S. Neocognitron: A self-organizing neural network model for a mechanism of visual pattern ...

    2012年,AlexNet横空出世,以极大优势赢得了ImageNet 2012图像识别挑战赛的冠军,也引发研究人员对早期神经网络、卷积神经网络的思考和再研究。至此,卷积神经网络开始领衔掀起此轮人工智能浪潮。这篇文章将简要介绍卷积神经网络的发展历程以及其中涉及到的经典论文。

    涉及的论文已在以下仓库中分享:Awesome-CNN-Papers

    卷积神经网络的前身与早期发展

    这阶段的卷积神经网络发展为现代卷积神经网络的蓬勃发展提供了必要的理论基础。

    • 1980年日本学者福岛邦彦(Kunihiko Fukushima)提出神经认知机模型Neocognitron;福岛邦彦因此获得 2021 年度鲍尔奖「Bower Award and Prize for Achievement in Science」,获奖理由为:通过发明第一个深度卷积神经网络Neocognitron将神经科学原理应用于工程的开创性研究,这是对人工智能发展的关键贡献。
      Fukushima K, Miyake S. Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition[M].Competition and cooperation in neural nets. Springer, Berlin, Heidelberg, 1982: 267-285.

    • 1989年Yann LeCun提出第一个真正意义上的CNN:LeNet 1989
      LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.

    • 1998年Yann LeCun进一步介绍了LeNet(又称LeNet-5),影响力巨大。
      LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

    现代卷积神经网络的基本架构与经典模块的提出

    • 2012年ILSVRC(分类)冠军:AlexNet,掀起深度学习计算机视觉狂潮
      Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C].Advances in neural information processing systems. 2012: 1097-1105.

    • 2013年ILSVRC(分类)冠军:ZFNet
      Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C].European conference on computer vision. Springer, Cham, 2014: 818-833.

    • 2014年ILSVRC(分类)冠军:GoogLeNet,提出Inception结构
      Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]. Cvpr, 2015.

    • 2014年ILSVRC(分类)亚军:VGGNet,亮点是对网络深度的研究
      Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

    • 2015年ILSVRC(分类)冠军:ResNet,提出Residual结构
      He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C].Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

    • 2016年Google团队结合了Inception结构与Residual 结构,提出Inception-Residual Net
      Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[C].AAAI. 2017, 4: 12.

    • 2016年何凯明提出新的ResNet的想法:Identity Mapping
      He K, Zhang X, Ren S, et al. Identity mappings in deep residual networks[C].European Conference on Computer Vision. Springer, Cham, 2016: 630-645.

    • 2017年DenseNet
      Huang G, Liu Z, Weinberger K Q, et al. Densely connected convolutional networks[C].Proceedings of the IEEE conference on computer vision and pattern recognition. 2017, 1(2): 3.

    卷积注意力机制的探索与完善

    • 2017年ILSVRC(分类)冠军:SENet(Squeeze-and-Excitation Networks),提出了Squeeze-and-Excitation Block,网络结合SE Block和Res Block
      Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7132-7141.

    轻量级卷积神经网络的发展

    2016年以来,轻量级卷积神经网络的研究开始逐渐浮现,为视觉深度学习模型在移动设备上的应用提供条件。

    • 2016年MobileNet
      Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017.

    • 2016年ShuffleNet
      Zhang X, Zhou X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[J]. arXiv preprint arXiv:1707.01083, 2017.

    • 2016年Xception【注:Xception目标并不是使卷积神经网络轻量化,而是在不增加网络复杂度的情况下提升性能,但其中使用的depthwise convolution思想是MobileNet等轻量级卷积神经网络的关键,故也列在这里】
      Chollet F. Xception: Deep learning with depthwise separable convolutions[J]. arXiv preprint, 2017: 1610.02357.

    • 2016年ResNeXt【注:ResNeXt也是为了在不增加网络复杂度的情况下提升性能,列在此处的原因与Xception相同】
      Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C].Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on. IEEE, 2017: 5987-5995.

    • 2018年MobileNet V2
      Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4510-4520.

    • 2018年ESPNet【ESPNet这篇文章不是纯粹介绍CNN网络的,而是为语义分割任务设计的,但是其CNN网络也是轻量的。】
      Mehta S, Rastegari M, Caspi A, et al. Espnet: Efficient spatial pyramid of dilated convolutions for semantic segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 552-568.

    • 2018年ShuffleNet V2
      Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 116-131.

    • 2018年ESPNetV2
      Mehta S, Rastegari M, Shapiro L, et al. ESPNetv2: A Light-weight, Power Efficient, and General Purpose Convolutional Neural Network[J]. arXiv preprint arXiv:1811.11431, 2018.

    展开全文
  • 中科院自动化所的卷积神经网络PPT,包括卷积神经网络发展历程、基本原理,以及近年来的应用,强烈推荐。
  • 卷积神经网络发展历程

    千次阅读 2019-11-09 20:12:43
    卷积神经网络取得的第一个进步是AlexNet网络,它是在2012年提出的。这里有一些关键的改进:它提出了ReLu,也就是有助于防止消失的梯度问题;它也引入了dropout的概念,使得每层中神经元随机地打开和关闭,防止过拟合...

    AlexNet

    卷积神经网络取得的第一个进步是AlexNet网络,它是在2012年提出的。这里有一些关键的改进:它提出了ReLu,也就是有助于防止消失的梯度问题;它也引入了dropout的概念,使得每层中神经元随机地打开和关闭,防止过拟合。如果你的数据过于相似,它不能够对相似但不同的图像进行分类,因为它过拟合了你的训练数据。

    因此dropout是一种防止过拟合的正则化技术,通过随机地打开和关闭神经元,数据被迫寻找新的路径,因为它被迫寻找新的路径,网络能够更好地泛化;卷积网络也引入了数据增强的想法,AlexNet或者AlexNet的作者将经过不同角度旋转的图像送入AlexNet网络,而不是仅仅放入单一角度的,这使得它更好的适用于不同的角度,这是一个更深的网络,所以他们增加了更多的层,这提高了分类的准确性。

    VGG Net

    在这之后,就是VGG Net。其中最大的变化是,我们添加了更多的层

    GoogLeNet

    GoogLeNet卷积核的尺寸不同。我们在同一个输入中,把它连接在一起。在单独的层操作,而不是只经过一次卷积操作。我们先是乘法,接下来是求和操作。它先是乘一些东西,再乘一些东西,然后把所有这些乘法的输出连接在一起,进行前向传播。这使得它更好地学习在每一层中的特征表示。

    ResNet

    接下来是ResNet,这是在resin之后的创意。如果我们只是保持堆叠层,那么网络每次都会变得更好吗?答案是否定的。如果你增加更多的话,性能会发生下降。ResNet说没关系。每隔两层进行数组元素依次相加操作,它只是增加了这个操作,并且改进梯度传播,从而使得反向传播更加容易。进一步解决了梯度消失的问题。

    DenseNet

    这之后是DenseNet。DenseNet 提出将网络中每一层的所有块与其他层连接起来。这是一种更复杂的连接策略。网络被设计的越来越深。还有一些计算技巧正在被添加到这些卷积网络上,比如ReLu或dropout或批量标准化(Batch Normalization),从而提升了性能。另外,我们还在网络层之间使用越来越多的连接,但是Hinton说卷积神经网络存在问题。

    展开全文
  • 人工智能发展史——卷积神经网络

    千次阅读 2021-12-29 18:18:24
    1、卷积神经网络发展史(convolutional neural networks,CNN) CNN是针对图像领域任务提出的神经网络,经历数代人的发展,在2012年之后大部分图像任务被CNN统治,例如图像分类,图像分割,目标检测,图像检索等 CNN...
  • 我的毕设做的是基于opencv和卷积神经网络的人脸识别项目。在做完这个项目之后,我一直想好好总结一下所学到的关于卷积神经网络的知识。现在趁着有点空闲,随手记录一点以前学过的,或者正在学习的知识点,相当于一个...
  • 卷积神经网络(0)——发展历程

    千次阅读 2020-04-04 23:26:09
    视频来源:图神经网络在线研讨会2020 1. GNN在干什么 目前较火的CNN在欧式空间中已经表现出了强大的处理能力,其最大的特点在于平移不变性,这种特性能够很好的处理欧式空间的中的数据,但是, 图则是一类典型的非欧...
  • CNN主要的经典结构包括:LeNet、AlexNet、ZFNet、VGG...LeNet是卷积神经网络的祖师爷LeCun在1998年提出,用于解决手写数字识别的视觉任务。自那时起,CNN的最基本的架构就定下来了:卷积层、池化层、全连接层。如今...
  • 经典CNN卷积神经网络发展

    千次阅读 2021-11-18 11:13:48
    本文详细介绍了CNN卷积神经网络的历史发展历程,以及详细分析了各阶段具有代表性的网络,如LeNet AlexNet VGG GoogLeNet ResNet等
  • 随着ReLU和dropout的提出,以及GPU和大数据带来的历史机遇,CNN在2012年迎来了历史突破–AlexNet,从此CNN呈现爆炸式发展。  从此,Deep Learning一发不可收拾,ILSVRC每年都不断被Deep Learning刷榜,如图1所示,...
  • 卷积神经网络内容概括

    千次阅读 2019-08-22 15:52:03
    卷积神经网络内容概括 卷积神经网发展历程和基本概念 内容概括 什么是卷积神经网络 以卷积结构为主,搭建起来的深度网络。 将图片作为网络的输入(n(批次),w(宽度),h(长度),c(图的通道数量)),自动提取特征...
  • 很好的文章!!!!! https://www.jiqizhixin.com/articles/2019-05-27-4 http://www.lunarnai.cn/2018/07/03/Brief_history_CNN/
  • 周飞燕在2017年的计算机学报发表的一篇《卷积神经网络研究综述》,里面对卷积神经网络从开始有这个概念到2017年的发展历程,以及各个算法的优缺点等进行了综合概述。
  • 卷积神经网络发展综述

    万次阅读 多人点赞 2017-12-31 18:52:50
    在各种类型的神经网络当中,卷积神经网络是得到最深入研究的。早期由于缺乏训练数据和计算能力,要在不产生过拟合的情况下训练出高性能卷积神经网络是很困难的。ImageNet这样的大规模标记数据的出现和GPU计算性能的...
  • 卷积神经网络(CNN)近年来取得了长足的发展,是深度学习中的一颗耀眼明珠。CNN不仅能用来对图像进行分类,还在图像分割(目标检测)任务中有着广泛的应用。CNN已经成为了图像分类的黄金标准,一直在不断的发展和...
  • 卷积神经网络取得的第一个进步是AlexNet网络,它是在2012年提出的。这里有一些关键的改进:它提出了ReLu,也就是有助于防止消失的梯度问题;它也引入了dropout的概念,使得每层中神经元随机地打开和关闭,防止过拟合...
  • 卷积神经网络发展概览 一、早期探索LeNetAlexNetVGG二、深度化ResNetDenseNet三、模块化GoogLeNetInception V2Inception V3Inception V4ResNeXtXception四、注意力SENetscSECBAM五、高效化... 卷积神经网络的结构发展...
  • 卷积神经网络进化史

    千次阅读 2018-05-16 13:10:58
    卷积神经网络-进化史 主要讨论CNN的发展,并且引用刘昕博士的思路,对CNN的发展作一个更加详细的介绍,将按下图的CNN发展史进行描述: 上图所示是刘昕博士总结的CNN结构演化的历史,起点是神经认知机模型,此时...
  • 原创:邹旭 唐杰学术头条卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和...
  • 深度学习-卷积神经网络发展

    千次阅读 2020-03-17 23:18:58
    文章目录1.... Inception Net(2014)4.1 Inception V1(GoogLeNet)4.2 Inception V2(2015)4.3 Inception V3(2015)4.3.1 关于四条设计神经网络的原则4.3.2 关于如何分解大卷积核的卷积层4.3.3 ...
  • 卷积神经网络CNN历史漫步(一)

    千次阅读 2022-04-05 20:56:13
    1. 卷积神经网络CNN——起源 参考链接:CNN简史:https://zhuanlan.zhihu.com/p/39068853 神经网络这一概念最早是生物界提出的,而人工智能界的神经网络很大程度上是在模拟人类的神经元。 影响到CNN起源的相关研究是...
  • 在CV领域,我们需要熟练掌握最基本的知识就是各种卷积神经网络CNN的模型架构,不管我们在图像分类或者分割,目标检测,NLP等,我们都会用到基本的CNN网络架构。 CNN从最初的2012年AlexNet横空出世到2014年VGG席卷...
  • 文章目录1 卷积神经网络简介2 卷积神经网络发展3 卷积神经网络的应用参考资料 注:转载请标明原文出处链接:https://xiongyiming.blog.csdn.net/article/details/99733020 1 卷积神经网络简介 2 卷积神经网络的...
  • 卷积神经网络基本概念 最近有一个词特别火啊,那就是“内卷”,我一开始看到还以为是说头发弄卷了呢,但是好像不太对,那么什么是内卷呢?通俗的讲就是内部竞争,内卷是从内卷化而来,内卷化最早是描述农业问题的...
  • CNNAuthor:louwillFrom:深度学习笔记本文将为大家介绍一种用途更为广泛、性能更加优越的神经网络结构——卷积神经网络(Convolutional Neural Netw...
  • 解析卷积神经网络

    2019-01-27 11:42:39
    包含2017深度学习的发展历程网络介绍。 具体内容如下: 1.绪论 2.基础理论篇 3.实践应用篇 4.附录
  • 现流行的AlexNet,VGGNet,GoogleNet,SENet,ResNet等11篇经典卷积神经网络

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,094
精华内容 1,237
关键字:

卷积神经网络发展历程

友情链接: lcd.rar