图像处理应用 神经网络

2017-04-17 20:36:34 u012931582 阅读数 126681

最近在研究全卷积神经网络在图像分割方面的应用,因为自己是做医学图像处理方面的工作,所以就把一个基于FCN(全卷积神经网络)的神经网络用 keras 实现了,并且用了一个医学图像的数据集进行了图像分割。

全卷积神经网络

大名鼎鼎的FCN就不多做介绍了,这里有一篇很好的博文 http://www.cnblogs.com/gujianhan/p/6030639.html。
不过还是建议把论文读一下,这样才能加深理解。

医学图像分割框架

医学图像分割主要有两种框架,一个是基于CNN的,另一个就是基于FCN的。

基于CNN 的框架

这个想法也很简单,就是对图像的每一个像素点进行分类,在每一个像素点上取一个patch,当做一幅图像,输入神经网络进行训练,举个例子:

cnnbased

这是一篇发表在NIPS上的论文Ciresan D, Giusti A, Gambardella L M, et al. Deep neural networks segment neuronal membranes in electron microscopy images[C]//Advances in neural information processing systems. 2012: 2843-2851.

这是一个二分类问题,把图像中所有label为0的点作为负样本,所有label为1的点作为正样本。

这种网络显然有两个缺点:

  1. 冗余太大,由于每个像素点都需要取一个patch,那么相邻的两个像素点的patch相似度是非常高的,这就导致了非常多的冗余,导致网络训练很慢。
  2. 感受野和定位精度不可兼得,当感受野选取比较大的时候,后面对应的pooling层的降维倍数就会增大,这样就会导致定位精度降低,但是如果感受野比较小,那么分类精度就会降低。

基于FCN框架

在医学图像处理领域,有一个应用很广泛的网络结构----U-net ,网络结构如下:

这里写图片描述

可以看出来,就是一个全卷积神经网络,输入和输出都是图像,没有全连接层。较浅的高分辨率层用来解决像素定位的问题,较深的层用来解决像素分类的问题。

问题分析

我采用的数据集是一个isbi挑战的数据集,网址为: http://brainiac2.mit.edu/isbi_challenge/

数据集需要注册下载,我的GitHub上也有下载好的数据集。

这个挑战就是提取出细胞边缘,属于一个二分类问题,问题不算难,可以当做一个练手。

这里写图片描述

这里最大的挑战就是数据集很小,只有30张512*512的训练图像,所以进行图像增强是非常有必要的。

在这里,我参考了一篇做图像扭曲的论文,http://faculty.cs.tamu.edu/schaefer/research/mls.pdf

实现的效果如下:

这是扭曲之前:

这里写图片描述

这是扭曲之后:

这里写图片描述

这是我进行图像增强的代码: http://download.csdn.net/detail/u012931582/9817058

keras 实现

keras是一个非常简单地深度学习框架,可以很方便的搭建自己的网络,这是我的keras实现: https://github.com/zhixuhao/unet

效果

最后在测试集上的精度可以达到95.7。

效果如下所示:

这里写图片描述

这里写图片描述

2018-11-25 21:29:19 weixin_43797554 阅读数 2700

电子科技大学 格拉斯哥学院 通信二班 鲍佳慧 2017200602004

一. 背景介绍

在大一下学期我参加了格拉斯哥学院所开展的一系列新生研讨课活动,其中曾兵院长介绍了有关图像处理,三维电视和“可视”大数据,让我对我们日常的图像和视频有了全新的认识并激发了我对视频图像处理的兴趣。

二. 应用于图像视频处理的图像识别

  1. 发展
    图像处理的发展依赖于计算机的应用和发展,它是计算机应用领域中非常活跃的一部分。图像处理系统分为通用图像处理系统和专用图像处理系统两大类。图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。

  2. 应用
    图像视频处理在各个领域应用都十分广泛。
    航天航空方面:主要运用在太空成像、飞机遥感和卫星遥感技术中。这些图像无论是在成像、存储、传输过程中,还是在判读分析中,都必须采用图像处理方法。
    军事公安方面:主要用于公安业务图片的判读分析,指纹识别,人脸鉴别,不完整图片的复原,以及交通监控、事故分析等。目前己投入运行的高速公路不停车自动收费系统中的车辆和车牌的自动识别都是图像处理技术成功应用的例子。

  3. 现状(社会问题)
    图像识别一直是现今热门话题,对于人来说,识别物体并不困难。对于计算机,却比较艰巨。因为我们不需要学习就可以判断物体种类,而计算机需要不断学习,不停地识别才能判断出它是什么。例如现在大众十分关心的无人驾驶汽车的问题。当涉及无人驾驶汽车的导航系统,计算机将如何将道路上的行人与各种其他车辆区分开来或过滤,这对计算机的图像识别能力提出了更高的挑战。
    识别
    虽然现在的图像识别较为普及,例如电子科大的图书馆也已经应用了人脸识别系统,但识别仍不是非常精准,也出现了不少机器无法识别或者识别到其他人脸的情况。如若用此精确度的计算机应用在判案辨别上,可能会出现判案不准的情况,伤及无辜,让罪犯逃之夭夭。同时在观看视频录像时,尤其是光线较暗肉眼难以分辨五官等形象特征时,图像识别就显得格外重要。就是因为如今图像识别在我们的日常生活中起着不可替代的作用,我们在提高图像识别的精确度的同时,也要避免操作的复杂程度。
    解决这个问题的一个方法是利用神经网络。
    三.神经网络与图像识别
    1.卷积神经网络的定义
    卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积或相关计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。CNN 由不同的卷积层和池化层组成。它广泛应用于计算机视觉。例如图像识别(image classification),物体识别(object recognition),行为认知(action recognition),姿态估计(pose estimation)以及神经风格转换(neural style transfer)。
    2.卷积神经网络的工作过程
    卷积神经网络工作过程
    卷积神经网络将进行多次采样,多次记录物体的多种特征。除了这些连接层,还有池化和卷积层。CNN使图像识别中保留了重要特征信息的同时也减少了输入的大小。卷积层的输入和输出都是多重矩阵。卷积层包含多个卷积核,每个卷积核都是一个矩阵,每一个卷积核相当于是一个滤波器,它可以输出一张特定的特征图,每张特征图也就是卷积层的一个输出单元。
    基于卷积网络识别的鸟类识别
    举个例子。计算机要进行图像处理。首先要读取图片。计算机并不能像人一样几秒内捕捉完物体的所有特征特点,它需要理解。为了方便理解,它会将每个图像转化为一系列特定排序的图点(像素)。如果你改变像素的顺序或颜色,图像也随之改变。计算机会试图通过使用图像的空间的安排从图像中提取特征。为了理解图像,理解像素如何安排对于一个网络极其重要。这就是卷积网络所要做的。
    3.使用卷积网络的好处
    (1)我们可以采用输入图像,定义权重矩阵,并且输入被卷积以从图像中提取特殊特征而无需损失其有关空间安排的信息。
    (2)减少图像的参数数量。CNN把含义相似的特征合并成相同特征,以及把位置上相邻的特征合并到更接近的位置。由于形成特定主题的每个特征的相对位置可能发生微小变化,因此可以通过采样的方法输入特征图中强度最大的位置,减小了中间表示的维度(即特征图的尺寸),从而,即使局部特征发生了一定程度的位移或者扭曲,模型仍然可以检测到这个特征。

2018-04-26 18:52:43 qq_40716944 阅读数 37566

基于深度卷积神经网络的图像去噪方法

 

摘要:图像去噪在图像处理中仍然是一个具有挑战性的问题。作者提出了一种基于深度卷积神经网络(DCNN)的图像去噪方法。作者设计的不同于其他基于学习的方法:一个DCNN来实现噪声图像。因此,通过从污染图像中分离噪声图像可以实现潜在清晰图像。在训练阶段,采用梯度裁剪方案来防止梯度爆炸,并使网络能够快速收敛。实验结果表明,与现有技术的去噪方法相比,所提出的去噪方法可以实现更好的性能。同时,结果表明,去噪方法具有通过一个单一的去噪模型抑制不同噪声水平的不同噪声的能力。

1.介绍

图像去噪,其目的是从其噪声观察值y中估计潜在干净图像x,对于随后的图像处理非常重要。给定一个加性高斯白噪声模型,它可以表示为:

y = x +z

因此,图像去噪的目标是从中找出x的估计值 y,其中x∈RN表示干净的(未知的)干净图像,其中,表示具有零均值和协方差矩阵σ2I(其中I是单位矩阵)的高斯噪声向量,y∈N表示观察到的噪声图像。

基于滤波的方法[1],基于扩散的方法[2],基于总变差的方法[3,4],基于小波/曲线波的方法[5-7]等,基于稀疏表示的方法[8-11],基于非局部自相似性(NSS)的方法[11-18]等。在这些方法中,NSS模型在现有方法中很流行。它们表现出很好的去噪效果,特别是对于具有规则和重复纹理的图像。这是因为非局部的基于方法的方法通常对于具有规则和重复纹理的图像更好,而基于区别性训练的方法更好方法通常对不规则纹理或光滑区域的图像产生更好的结果[19]。然而,NSS模型不可避免地存在两个主要缺点[12,17,18]。首先,他们经常需要指定一个特定的去噪功能结果是该算法可能不能对各种图像实施良好的去噪作业。其次,这些模型通常是非凸的,并且涉及多个手动选择的参数,为提高去噪性能提供了一些余地。

为了解决这些问题,最近开发了几种有区别的学习方法来学习图像先验模型,如可训练的非线性反应扩散(TNRD)模型[20]。TNDR模型是通过展开固定数目的梯度下降推断步骤。然而,TNDR模型固有地局限于特定形式的先验。 具体而言,TNRD采用的先例是基于分析模型,该模型在捕获图像结构的全部特征方面有限。

实际上,TNRD模型是一种深度神经网络,可以表示为前馈深层网络。还有一些深度神经网络用于图像去噪[21-23]。Jain和Seung首先使用深度神经网络进行图像去噪[21]。他们声称深度神经网络具有相似或甚至比马尔可夫随机场模型在图像去噪方面具有更好的表示能力。Burger等人提出使用多层感知器(MLP)进行图像去噪[22]。此外,他们将稀疏编码和预先训练过的深度神经网络结合起来去噪自动编码器[23]。尽管这些深度神经网络在图像去噪方面取得了很好的性能,但这些网络并没有有效地探索图像的固有特征,因为它们将类似MLP的网络级联起来。

目前,深度卷积神经网络(DCNN)吸引了越来越多的研究人员,因为它通过大量数据具有很好的自学习能力,不需要严格选择特征,只需要引导学习来达到期望的目的。它被广泛应用于图像预处理领域,如图像超分辨率[24-26]。由于图像超分辨率的成功,一些研究人员尝试将DCNN应用于图像去噪[27-29]。 Lefkimmiatis提出了一种基于非局部图像模型的基于灰度和彩色图像去噪的新型深度网络体系结构[29]。正如作者所声称的那样,所提出的方法确实是一种NSS方法,它利用DCNN学习NSS方法的参数。在[27,28]中,作者直接使用DCNN来实现去噪任务,其中将被污染的图像输入到DCNN中并且输出相应的潜在干净图像。此外,随机梯度下降法被用作训练策略,这将在训练中耗费大量时间。

尽管DCNN成功实现了图像超分辨率,但不能直接用于图像去噪。这是因为图像超分辨率和图像去噪的任务完全不同。对于图像超解决方案,其任务是从丢失了很多的低分辨率图像重建高分辨率图像因此,DCNN可以通过低分辨率图像直接预测高分辨率图像,因为卷积图层可能涉及预测输出图像中的丢失信息。对于图像去噪,其任务是从噪声叠加在原始干净图像上的污染图像中重建潜在干净图像。与噪声图像相比,潜在的干净图像包含更多信息。如果DCNN直接预测像图像超分辨率的DCNN那样的潜在干净图像,则输出图像中的现有信息比噪声图像中存在的信息更复杂。这意味着预测噪声图像的网络的学习负担远远低于预测潜在干净图像的网络的负担。

受噪声分量与污染图像分离的启发[30-32],我们精心设计了一个DCNN来预测本文中的噪声图像,称为IDCNN。然后,潜在的干净的图像可以通过分离预测来实现来自污染图像的噪声图像。此外,我们讨论网络深度对降噪性能的影响。 此外,还讨论了一些网络参数。最后,我们进行了一系列比较实验来验证所提出的图像去噪方法。

本文的结构如下:在第2节中,我们详细说明了IDCNN的网络体系结构和实现。在第3节中,演示了实验结果和讨论。结论在第4节中提出。

2设计的DCNN的网络结构

卷积神经网络是线性滤波和非线性变换操作的交替序列。输入层和输出层包含一个或多个图像,输出层也可以是矢量。网络的中间层称为隐藏单元,每个隐藏单元的输出称为特征映射。

2.1卷积层和激活功能

在第l卷积层(隐藏单元),先前层的特征映射(xil-1)与卷积核(wijl)卷积,并且输出特征映射(xjl)通过激活函数F实现。每个输出特征映射 可以将卷积与多个输入特征图结合起来,制定为:

  

其中Mj表示输入特征图的选择,bj表示偏差,*表示卷积算子。

相同的尺寸。其整体结构如图1所示。给定深度d的IDCNN,每一层使用相同的卷积运算。卷积运算实际上是一种线性滤波。卷积运算的线性组合由于其线性特性而不能代表非平凡问题。因此,在DCNN中,非线性激活函数被应用于每个卷积层的输出作为下一层的输入,以便允许这样的网络仅使用少量节点来计算非平凡问题。整流线性单元(ReLU)[33]通常用作DCNN中的激活函数,它是一种非线性映射。已经证明使用整流器作为非线性可以在不需要无监督的预训练的情况下训练深度监督神经网络。与S形函数或类似的激活函数相比,ReLU可以在大型复杂数据集上快速有效地训练深度神经结构。

 

2.2损失函数和梯度裁剪

X和Y^表示输入被污染的图像和输出噪声图像,分别。给定一个训练数据集{Xi,Yi }i= 1N,我们的目标是学习一个预测值的模型,其中Y ^是所需干净图像Y的估计值。因此,损失函数是

 

其中θ=[ W,b]是DCNN的网络参数。W是权重矩阵,b是(2)中定义的偏向量。我们的目标是最小化损失函数以找到DCNN的最优参数θ。

显然,最小化F(θ)是解决非凸优化问题。随机梯度下降法通常用于解决这个优化问题,它通过反向传播不断调整和优化网络参数。我们试图用随机梯度下降来训练提出的DCNN。不幸的是,在我们提出的网络中,我们发现无论如何调整学习速率和其他网络参数,网络几乎不会收敛,网络性能也不好。当学习率> 0.01时,网络甚至不能收敛。这表明随机梯度下降在我们提出的网络中使用时可能导致梯度爆炸。为了避免这些问题,常用的策略之一是将单个渐变剪裁到预定范围[-β,β]。因此,在训练过程中,梯度保持在一定范围内。我们使用给定的渐变裁剪方案阈值[34,35]。假设给定的梯度阈值为β,则当前梯度值为g。如果| | G | | ≥β,那么

 

因此,当训练期间当前梯度值超过给定阈值时,将当前梯度值分配给

β/ || g ||)g。所以,梯度在固定范围内变化,以便设计的DCNN快速收敛。

2.3设计的网络架构

设计的网络结构如图1所示。一个大小为43×43的污染图像被输入到设计的DCNN中,相应的输出是预测的噪声图像,输出的尺寸是43×43。深度的本文设计的网络设置为10。在设计的DCNN中有几个卷积层,但没有池化层。在每个卷积层中,有64个5×5卷积核。

众所周知,增加感受域的大小可以利用更大图像区域中的上下文信息[21]。在这里,感受野在CNN中在空间上是连续的。CNN通过强化相邻层神经元之间的局部连通性模式来利用空间局部相关性[36]。换句话说,第m层中的卷积层的输入是第(m-1)层中卷积层的子集的输出。因此,形成了空间上连续的感受野。然而,每个卷积层对于输入之外的感受域之外的变化没有响应,这确保学习的卷积核对空间局部输入模式产生最强响应。然而,我们可以堆叠许多这样的层以使卷积核变得越来越全球化(即,响应于更大的像素空间区域)。换一种说法,随着网络深度的增加,感受野的大小增加。假设我们对所有图层使用n×n相同大小的卷积核。对于第一层,接受场的大小是n×n。对于第二层,大小感受野在高度和宽度上增加(n-1)等等。因此,如果设计的DCNN的深度是d,其感受野是[(n-1)d + 1]×[(n-1)d + 1]。

由于实验平台的局限性,设计的DCNN的深度d被设置为10.似乎卷积核的尺寸越大,设计的DCNN的接收场的尺寸越大,其中固定深度是并且设计的DCNN实现更好的性能。但值得一提的是,所有卷积操作都不使用零填充来避免训练期间的边界效应。在测试阶段,所有的卷积层都有足够的零填充。因此,过零填充会导致严重失真。而且,尺寸较大的卷积核与较小尺寸的卷积核相比,会导致较大的计算负担[26]。因此,卷积核的适当大小有助于设计的DCNN。在这里,我们将卷积核的大小设置为5×5。如上面的段落所示,接受但为了确保网络在训练过程中具有良好的灵活性,我们选择了尺寸为43×43的输入图像。我们还进行了一个实验来验证输入训练与那些尺寸为43×43的图像相比,可以实现良好的性能其他尺寸。详情请参阅第3.4节。

每个卷积层上的更多卷积核可以获得更多的特征映射,这表明可以表示输入图像的更多潜在特征。然而,超过一定水平的特征映射太多会使训练过程在数值上不稳定[37]。64个卷积核通常用于大多数DCNN [24,26]。所以,我们在每个卷积层也使用64个卷积核。

 

3实验结果和讨论

3.1设计的DCNN的实现

我们使用Caffe [38]来训练设计的DCNN。Caffe是一个深思熟虑的表达,速度和模块化的深度学习框架。它是一个完全开源的框架,可以提供对深层体系结构的明确访问。它的代码是用干净,高效的C ++编写的,CUDA用于GPU计算,以及几乎完整的支持Python / Numpy和MATLAB的绑定。使用协议缓冲区语言将Caffe模型定义写为配置文件。使用Caffe训练DCNN时,网络架构和训练参数预先配置为配置文件。如果有新图层的话在原有的Caffe框架中不存在的都是在DCNN中添加的,他将与这些新层相关的代码编入原来的Caffe框架中。

在实验中,动量和重量衰减参数分别设为0.9和0.0001。采用[39]中描述的方法来初始化权重。

所有的实验都是通过一台带有NVIDIA Quadro K4200 4G,CPU Intel Xeon E5-2630 @ 2.3 GHz和16 GB内存的图形工作站进行的。我们使用MatConvNet软件包[40]进行了比较实验。

3.2数据预处理和度量

在下面的实验中,从数据集[41]和伯克利分割数据集[42]中选择的图像被用来构建训练数据集。图像通过旋转和缩放来增强。为了简单起见,所有图像都转换成灰度图像。具有不同噪声水平的高斯噪声叠加到所有图像上。图像由43×43像素的滑动窗口裁剪,两个相邻子图像之间的滑动距离为14像素。该值位于重叠窗口中的像素对于两个相邻的子图像是相同的。因此,这些裁剪的子图组成了训练数据集。

采用峰值信噪比(PSNR,以dB为单位)作为评估去噪方法性能的指标。

3.3设计的DCNN的非固定噪声掩膜

通常,在DCNN方法中,具有相同噪声水平的训练污染图像通常使用固定噪声掩模[23]。换句话说,ε是(1)中的固定矩阵。但是,我们发现具有非固定噪声掩码的训练数据集可以与固定噪声掩模相比,表现更好。也就是说,对于我们的训练数据集,对于每个噪声水平,ε是(1)中的非固定矩阵。

为了证明非固定噪声掩模的优势,我们进行了一项实验,以比较设计的DCNN针对固定和非固定噪声掩模所实现的去噪性能。从[41]中选择的91个图像按3.2节所述进行预处理以组成训练数据集。如图2所示,选择三个图像进行测试,分别是'摄影师','家'和'莉娜'。不失一般性,我们将噪声水平设为δ= 20。我们设定了设计的深度 DCNN到10。图3说明了由固定和未固定噪声掩模设计的DCNN实现的去噪结果。如图3所示,可以看出,使用非固定噪声掩模设计的DCNN比使用固定噪声掩模的DCNN具有更好的去噪性能。

 

3.4初始学习率

学习率对于所提议的网络的收敛是重要的。我们进行了一个实验来讨论初始学习率对网络性能的影响。培训和测试数据与第3.3节所述的相同。我们相应地将初始学习率设置为0.2,0.1,0.01和0.001。在每20个训练时期后,他们减少0.1。如图4所示,设计的具有梯度限幅的DCNN可以在不同的初始学习速率下获得良好的收敛性和良好的去噪效果。当初始学习率为0.1时,设计的DCNN达到最佳收敛。事实表明,通过调整初始学习速率,我们可以实现(3)中的优化问题函数的近似最优解,尽管梯度限幅不能保证全局最小。 

 

3.5设计的DCNN的深度和输入训练图像的大小

为了研究设计的DCNN的性能与其深度之间的关系,我们进行了一些实验,其中设计的DCNN的深度被设置为4,6,8和10.由于我们的计算性能的限制 硬件,为了方便起见,我们将网络的最大深度设置为10。训练和测试数据与第3.3节所述的相同。如表1所示,网络深度越大,PSNR的值越高,这意味着所提出的去噪方法实现的性能越好。该主观评估也验证了这一事实,如图5所示。然而,网络的深度通常意味着更多的参数,这使得扩大的网络更容易出现过度拟合[43]。所以,一个适当的深度网络对融合和网络性能非常重要。




输入训练图像的大小与卷积核的大小和网络的深度有关。我们进行了一个实验来证明输入训练图像的大小对设计的DCNN的去噪性能的影响。在这里,我们设置网络深度为10,卷积核的大小为5×5。我们用不同大小(20×20,43×43,96×96)的输入图像训练了设计网络。第一种和第三种尺寸分别在[27,28]中使用。第二个被认为是合适的大小在本文中。在实验中,被污染图像的噪声水平均为σ= 20。同时,选择PSNR作为度量。如表2所示,输入43×43的训练图像的设计网络达到最佳去噪结果。事实验证43×43是设计网络输入训练图像的适当大小,这在2.3节中讨论。


3.6几种噪声级别的单一模型

我们发现,单个模型提出的去噪方法能够同时抑制不同噪声水平的不同噪声。这意味着具有不同噪声水平的图像可以作为训练集被同时输入,因此我们可以使用训练过的单一网络模型去除具有不同噪声水平的图像中存在的噪声。

在这里,我们进行了实验来验证网络的这一特性。 培训和测试数据与第3.3节所述的相同。噪声水平δ= 15,20和25时,图像受到不同噪声的污染。在实验中,我们独立训练设计的DCNN相对于不同的噪声等级,相应地在表3中分别表示为Model_15,Model_20和Model_25。为了说明单个模型对于多个噪声水平的能力,设计的DCNN也通过同时输入具有不同噪声水平的训练对来训练,在表3中表示为Model_mixture。显然,与混合模型相比,Model_mixture也可以实现相当好的去噪性能 独立训练的模型。

 

3.7拟议方法与最先进方法之间的比较

在本节中,我们将对18个广泛使用的自然图像进行比较实验(如图6所示)。 标准偏差σ= 15,25,50的高斯白噪声被添加到那些测试图像中。我们训练设计的DCNN超过60个时期(每个时期包括9771次迭代,批量大小为64)。

 

为了验证所提出的去噪方法,我们将其与几种最先进的去噪方法(包括BM3D [12],EPLL [27],WNNM [17],加权Schatten p-范数最小化(WSNM)[18] ,MLP [22]和TNRD [19]。这些比较方法的实现代码由相应的作者提供,可以从作者的网站下载。请注意,由[22]中的方法实现的噪声水平δ= 15的去噪结果未提供,因为作者没有提供具有此噪声水平的模型。对于我们提出的方法,我们通过3.6节所示的两种方案来训练设计的DCNN。一个训练对由每个噪音水平独立训练。然后,训练的DCNN用于抑制具有相同噪声水平的噪声。在这里,我们将这个降噪模型称为IDCNN-1。另一个是通过同时输入具有不同噪声水平的训练对来训练的。然后,训练的DCNN用于抑制具有不同噪声级别的噪声。我们将此降噪模型称为IDCNN-2。

如表4-6所示,每个图像的每个噪声级别的最佳PSNR以粗体突出显示。可以看出,与其他去噪方法相比,所提出的去噪方法,特别是IDCNN-1,可以实现大部分图像的最佳性能。这是因为DCNN对于大量的训练数据具有良好的学习能力,并且探索了图像中存在的固有特征。IDCNN-2也能实现很好的去噪效果,尽管它只是一个噪声级别的单一模型。特别是,IDCNN-2在几种图像中实现了最佳的去噪性能,噪声水平δ= 50。这表明IDCNN-2对图像具有很好的泛化能力降噪。不幸的是,我们的方法不能仅在两个图像'House'和'Barbara'具有每个噪声级别时才能实现最佳性能。正如文献[19]所推论的,BM3D和NSS方法(这里是WNNM和WSNM)是内部去噪方法,在主要是具有规则和重复纹理的图像上,其优于外部去噪方法。学习方法(这里是MLP,TNRD和IDCNN)和EPLL是外部去噪方法[19]。但是,对于包含平滑区域或不规则纹理的图像,外部去噪方法优于内部去噪方法。这里有两个例子在图7中对平滑区域或不规则纹理与规则和重复纹理进行了说明。虽然[22]和TNRD中的MLP是深度神经网络,但我们提出的方法也比这两种方法获得更好的去噪性能。这是因为与我们设计的DCNN相比,这两种方法并没有有效地探索图像的固有特性,因为它们级联了类MLP网络。


另外,我们在表4-6中说明每种方法的运行时间。WNNM和WSNM方法是两种NSS方法,它们应该找到非凸模型的解。这会导致沉重的计算负担。 因此,WNNM和WSNM方法消耗表中方法中的运行时间最多。EPLL方法涉及最大后验估计以在每次迭代中更新图像块。这个操作会导致EPLL方法在计算速度上不好。BM3D是一种基于过滤的去噪方法。所以,这是非常耗时的。TNRD和IDCNNs也取得了相当好的计算性能,因为这些方法是端到端的学习方法。

选择两个例子来说明通过不同方法去噪视觉表现(如图8和9所示)。 图8说明了在噪声水平δ= 25的情况下通过不同方法获得的视觉结果,并且图9表示噪声水平δ= 50的情况下的视觉结果。每个图像的一小部分被放大并显示以用于清晰显示,这是由一个突出显示的红色窗口标记。从图8和图9可以看出,与其他IDCNN-1和IDCNN-2相比,它可以实现很好的去噪效果并且很好地重建了潜在的清晰图像去噪方法,特别是由于保留尖锐的边缘和细节。因此,视觉效果评估的对比实验与上述客观评估一致,验证了我们提出的去噪方法的有效性。

 


4、结论

在本文中,我们提出一种基于深度卷积神经网络的图像去噪方法,称为IDCNN。与其他最先进的学习方法不同,所设计的DCNN在污染图像输入网络时预测噪声图像。然后,通过将预测噪声图像与污染图像分离来实现潜在清晰图像。 我们进行了一些实验来探索设计的DCNN的特性。我们发现网络的深度越大,所提出的去噪方法的性能越好。此外,提出了一种单一模型的去噪方法具有同时抑制不同噪声级别的不同噪声的能力。对比实验结果验证了该方法的良好去噪能力,表明它为图像去噪提供了一种有效的解决方案。

2017-09-30 17:06:55 weixin_38208741 阅读数 4582

一,前言

卷积神经网络(Constitutional Neural Networks, CNN)是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。先回顾一下多层神经网络: 
这里写图片描述 
多层神经网络包括一个输入层和一个输出层,中间有多个隐藏层。每一层有若干个神经元,相邻的两层之间的后一层的每一个神经元都分别与前一层的每一个神经元连接。在一般的识别问题中,输入层代表特征向量,输入层的每一个神经元代表一个特征值。

在图像识别问题中,输入层的每一个神经元可能代表一个像素的灰度值。但这种神经网络用于图像识别有几个问题,一是没有考虑图像的空间结构,识别性能会受到限制;二是每相邻两层的神经元都是全相连,参数太多,训练速度受到限制。

而卷积神经网络就可以解决这些问题。卷积神经网络使用了针对图像识别的特殊结构,可以快速训练。因为速度快,使得采用多层神经网络变得容易,而多层结构在识别准确率上又很大优势。

二,卷积神经网络的结构

卷积神经网络有三个基本概念:局部感知域(local receptive fields),共享权重(shared weights)和池化(pooling)。

局部感知域: 在上图中的神经网络中输入层是用一列的神经元来表示的,在CNN中,不妨将输入层当做二维矩阵排列的神经元。

与常规神经网络一样,输入层的神经元需要和隐藏层的神经元连接。但是这里不是将每一个输入神经元都与每一个隐藏神经元连接,而是仅仅在一个图像的局部区域创建连接。以大小为28X28的图像为例,假如第一个隐藏层的神经元与输入层的一个5X5的区域连接,如下图所示: 
这里写图片描述 
这个5X5的区域就叫做局部感知域。该局部感知域的25个神经元与第一个隐藏层的同一个神经元连接,每个连接上有一个权重参数,因此局部感知域共有5X5个权重。如果将局部感知域沿着从左往右,从上往下的顺序滑动,就会得对应隐藏层中不同的神经元,如下图分别展示了第一个隐藏层的前两个神经元与输入层的连接情况。 
这里写图片描述 
这里写图片描述 
如果输入层是尺寸为28X28的图像,局部感知域大小为5X5,那么得到的第一个隐藏层的大小是24X24。

共享权重: 上面得到的第一隐藏层中的24X24个神经元都使用同样的5X5个权重。第j个隐藏层中第k个神经元的输出为: 

σ(b+l=04m=04wl,maj+l,k+m)

这里σ是神经元的激励函数(可以是sigmoid函数、thanh函数或者rectified linear unit函数等)。b是该感知域连接的共享偏差。wl,m是个5X5共享权重矩阵。因此这里有26个参数。 ax,y 代表在输入层的x,y处的输入激励。

这就意味着第一个隐藏层中的所有神经元都检测在图像的不同位置处的同一个特征。因此也将从输入层到隐藏层的这种映射称为特征映射。该特征映射的权重称为共享权重,其偏差称为共享偏差。

为了做图像识别,通常需要不止一个的特征映射,因此一个完整的卷积层包含若干个不同的特征映射。下图中是个三个特征映射的例子。 
这里写图片描述 
在实际应用中CNN可能使用更多的甚至几十个特征映射。以MNIST手写数字识别为例,学习到的一些特征如下: 
这里写图片描述
这20幅图像分别对应20个不同的特征映射(或称作filters, kernels)。每一个特征映射由5X5的图像表示,代表了局部感知域中的5X5个权重。亮的像素点代表小的权重,与之对应的图像中的像素产生的影响要小一些。暗的像素点代表的大的权重,也意味着对应的图像中的像素的影响要大一些。可以看出这些特征映射反应了某些特殊的空间结构,因此CNN学习到了一些与空间结构有关的信息用于识别。

池化层(pooling layers) 池化层通常紧随卷积层之后使用,其作用是简化卷积层的输出。例如,池化层中的每一个神经元可能将前一层的一个2X2区域内的神经元求和。而另一个经常使用的max-pooling,该池化单元简单地将一个2X2的输入域中的最大激励输出,如下图所示: 
这里写图片描述 
如果卷积层的输出包含24X24个神经元,那么在池化后可得到12X12个神经元。每一个特征映射后分别有一个池化处理,前面所述的卷积层池化后的结构为: 
这里写图片描述 
Max-pooling并不是唯一的池化方法,另一种池化方法是L2pooling,该方法是将卷积层2X2区域中的神经元的输出求平方和的平方根。尽管细节与Max-pooling不一样,但其效果也是简化卷积层输出的信息。

将上述结构连接在一起,再加上一个输出层,得到一个完整的卷积神经网络。在手写数字识别的例子中输出层有十个神经元,分别对应0,1, … ,9的输出。 
这里写图片描述 
网络中的最后一层是一个全连接层,即该层的每个神经元都与最后一个Max-pooling层的每个神经元连接。

这个结构这是一个特殊的例子,实际CNN中也可在卷积层和池化层之后可再加上一个或多个全连接层。

三,卷积神经网络的应用

3.1 手写数字识别

Michael Nielsen提供了一个关于深度学习和CNN的在线电子书,并且提供了手写数字识别的例子程序,可以在GitHub上下载到。该程序使用Python和Numpy, 可以很方便地设计不同结构的CNN用于手写数字识别,并且使用了一个叫做Theano的机器学习库来实现后向传播算法和随机梯度下降法,以求解CNN的各个参数。Theano可以在GPU上运行,因此可大大缩短训练过程所需要的时间。CNN的代码在network3.py文件中。

作为一个开始的例子,可以试着创建一个仅包含一个隐藏层的神经网络,代码如下:

>>> import network3
>>> from network3 import Network
>>> from network3 import ConvPoolLayer, FullyConnectedLayer, SoftmaxLayer
>>> training_data, validation_data, test_data = network3.load_data_shared()
>>> mini_batch_size = 10
>>> net = Network([
        FullyConnectedLayer(n_in=784, n_out=100),
        SoftmaxLayer(n_in=100, n_out=10)], mini_batch_size)
>>> net.SGD(training_data, 60, mini_batch_size, 0.1, 
            validation_data, test_data)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

该网络有784个输入神经元,隐藏层有100个神经元,输出层有10个神经元。在测试数据上达到了97.80%的准确率。

如果使用卷积神经网络会不会比它效果好呢?可以试一下包含一个卷积层,一个池化层,和一个额外全连接层的结构,如下图 
这里写图片描述 
在这个结构中,这样理解:卷积层和池化层学习输入图像中的局部空间结构,而后面的全连接层的作用是在一个更加抽象的层次上学习,包含了整个图像中的更多的全局的信息。

>>> net = Network([
        ConvPoolLayer(image_shape=(mini_batch_size, 1, 28, 28), 
                      filter_shape=(20, 1, 5, 5), 
                      poolsize=(2, 2)),
        FullyConnectedLayer(n_in=20*12*12, n_out=100),
        SoftmaxLayer(n_in=100, n_out=10)], mini_batch_size)
>>> net.SGD(training_data, 60, mini_batch_size, 0.1, 
            validation_data, test_data)   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

这种CNN的结构达到的识别准确率为98.78%。如果想进一步提高准确率,还可以从以下几方面考虑:

  1. 再添加一个或多个卷积-池化层
  2. 再添加一个或多个全连接层
  3. 使用别的激励函数替代sigmoid函数。比如Rectifed Linear Units函数: f(z)=max(0,z). Rectified Linear Units函数相比于sigmoid函数的优势主要是使训练过程更加快速。
  4. 使用更多的训练数据。Deep Learning因为参数多而需要大量的训练数据,如果训练数据少可能无法训练出有效的神经网络。通常可以通过一些算法在已有的训练数据的基础上产生大量的相似的数据用于训练。例如可以将每一个图像平移一个像素,向上平移,向下平移,向左平移和向右平移都可以。
  5. 使用若干个网络的组合。创建若干个相同结构的神经网络,参数随机初始化,训练以后测试时通过他们的输出做一个投票以决定最佳的分类。其实这种Ensemble的方法并不是神经网络特有,其他的机器学习算法也用这种方法以提高算法的鲁棒性,比如Random Forests。

3.2 ImageNet图像分类

Alex Krizhevsky等人2012年的文章“ImageNet classification with deep convolutional neural networks”对ImageNet的一个子数据集进行了分类。ImageNet一共包含1500万张有标记的高分辨率图像,包含22,000个种类。这些图像是从网络上搜集的并且由人工进行标记。从2010年开始,有一个ImageNet的图像识别竞赛叫做ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)。 ILSVRC使用了ImageNet中的1000种图像,每一种大约包含1000个图像。总共有120万张训练图像,5万张验证图像(validation images)和15万张测试图像(testing images)。该文章的方法达到了15.3%的错误率,而第二好的方法错误率是26.2%。 
这里写图片描述

这篇文章中使用了7个隐藏层,前5个是卷积层(有些使用了max-pooling),后2个是全连接层。输出层是有1000个单元的softmax层,分别对应1000个图像类别。

该CNN使用了GPU进行计算,但由于单个GPU的容量限制,需要使用2个GPU (GTX 580,分别有3GB显存)才能完成训练。

该文章中为了防止过度拟合,采用了两个方法。一是人工生成更多的训练图像。比如将已有的训练图像进行平移或者水平翻转,根据主成分分析改变其RGB通道的值等。通过这种方法是训练数据扩大了2048倍。二是采用Dropout技术。Dropout将隐藏层中随机选取的一半的神经元的输出设置为0。通过这种方法可以加快训练速度,也可以使结果更稳定。 
这里写图片描述
输入图像的大小是224X224X3,感知域的大小是11X11X3。第一层中训练得到的96个卷积核如上图所示。前48个是在第一个GPU上学习到的,后48个是在第二个GPU上学习到的。

3.3 医学图像分割

Adhish Prasoon等人在2013年的文章“Deep feature learning for knee cartilage segmentation using a triplanar convolutional neural network”中,用CNN来做MRI中膝关节软骨的分割。传统的CNN是二维的,如果直接扩展到三维则需要更多的参数,网络更复杂,需要更长的训练时间和更多的训练数据。而单纯使用二维数据则没有利用到三维特征,可能导致准确率下降。为此Adhish采用了一个折中方案:使用xy,yzxz三个2D平面的CNN并把它们结合起来。 
这里写图片描述

三个2D CNN分别负责对xy,yzxz平面的处理,它们的输出通过一个softmax层连接在一起,产生最终的输出。该文章中采用了25个病人的图像作为训练数据,每个三维图像中选取4800个体素,一共得到12万个训练体素。相比于传统的从三维图像中人工提取特征的分割方法,该方法在精度上有明显的提高,并且缩短了训练时间。

3.4 谷歌围棋AlphaGo战胜人类

谷歌旗下DeepMind团队使用深度卷积神经网络在电脑围棋上取得了重大突破。早期,IBM的深蓝超级计算机通过强大的计算能力使用穷举法战胜了人类专业象棋选手,但那不算“智能”。

围棋上的计算复杂度远超象棋,即使通过最强大的计算机也无法穷举所有的可能的走法。计算围棋是个极其复杂的问题,比国际象棋要困难得多。围棋最大有3^361 种局面,大致的体量是10^170,而已经观测到的宇宙中,原子的数量才10^80。国际象棋最大只有2^155种局面,称为香农数,大致是10^47。

DeepMind所研究的AlphaGo使用了卷积神经网络来学习人类下棋的方法,最终取得了突破。AlphaGo在没有任何让子的情况下以5:0完胜欧洲冠军,职业围棋二段樊麾。研究者也让AlphaGo和其他的围棋AI进行了较量,在总计495局中只输了一局,胜率是99.8%。它甚至尝试了让4子对阵Crazy Stone,Zen和Pachi三个先进的AI,胜率分别是77%,86%和99%。可见AlphaGo有多强大。

在谷歌团队的论文中,提到“我们用19X19的图像来传递棋盘位置”,来“训练”两种不同的深度神经网络。“策略网络”(policy network)和 “值网络”(value network)。它们的任务在于合作“挑选”出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里,本质上和人类棋手所做的一样。

其中,“值网络”负责减少搜索的深度——AI会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑;而“策略网络”负责减少搜索的宽度——面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。利用蒙特卡洛拟合,将这些信息放入一个概率函数,AI就不用给每一步以同样的重视程度,而可以重点分析那些有戏的棋着。 
这里写图片描述 
参考论文:David Silver, et al. “Mastering the game of Go with deep neural networks and tree search.” Nature doi:10.1038/nature16961. 

2018-10-09 14:59:29 weixin_41783077 阅读数 22980

(最开始接触医学图像分割时写的综述,写的比较幼稚,传上来的时候格式可能有些乱。需要原文的小伙伴可以加我qq:604395564联系,也欢迎做医学图像处理的小伙伴一起交流学习。自己写的,欢迎转载,但请注明出处哦^_^)

 

 

摘 要 医学图像分割是决定医学图像在临床诊疗中能否提供可靠依据的关键问题。医学图像分割技术的发展不仅影响到医学图像处理中其他相关技术的发展,如可视化、三维重建等,而且在生物医学图像的分析中也占有极其重要的地位。近年来,由于一些新兴学科在医学图像处理中的应用, 医学图像分割技术取得了显著的进展。本文从分割所应用的特定理论工具的角度, 对近年来医学图像分割的新方法或改进算法进行综述, 并简要讨论了每类分割方法的特点,并着重对卷积神经网络在医学图像分割上的应用进行研究, 综述了其发展历程和基本原理, 分析和比较了基于神经网络的图像分割的优缺点, 展望了该技术领域以后一段时间内的发展趋势。

 

关键词:医学图像;图像分割;卷积神经网络

 

1. 国内外常用的医学图像分割方法

医学图像分割是医学图像处理与分析领域的复杂而关键的步骤,其目的是将医学图像中具有某些特殊含义的部分分割出来,并提取相关特征,为临床诊疗和病理学研究提供可靠的依据,辅助医生作出更为准确的诊断。由于医学图像自身的复杂性,在分割过程中需要解决不均匀及个体差异等一系列问题,所以一般的图像分割方法难以直接应用于医学图像分割。当前,医学图像分割仍在从手动分割或半自动分割向全自动分割发展。本文在对国内外医学图像分割技术文献研习的基础上,对几种常用的医学图像分割方法进行了深入的研究和比较,总结了各种方法的优缺点及其在国内外医学图像分割领域的应用。

 

1.1 阈值法

图像阈值分割是一种广泛应用的分割技术,利用图像中要提取的目标区域与其背景在灰度特性上的差异,把图像看作具有不同灰度级的两类区域(目标区域和背景区域)的组合,选取一个比较合理的阈值,以确定图像中每个像素点应该属于目标区域还是背景区域,从而产生相应的二值图像。阈值分割法的特点是:适用于目标与背景灰度有较强对比的情况,重要的是背景或物体的灰度比较单一,而且总可以得到封闭且连通区域的边界。图1中显示了图像灰度直方图中潜在的两个分界点,如图中虚线所示。如果需要在阈值法的过程中寻找不止一个的阈值来对图像的像素点进行分类,那么这种方法叫做多阈值法。

 

图1  图像灰度上确定阈值示例

阈值法在实际应用中主要存在两个问题:(1)该方法只考虑到图像中像素点本身的灰度值,没有考虑到图像中像素点的空间分布,容易对噪声敏感。(2)该方法对于背景与目标区域灰度差异较小的图像分割效果不好。医学图像因个体差异而复杂多样,如:不均匀的人体组织器官常导致图像灰度不均匀;人体组织的蠕动及成像设备的局限性常导致图像中存在伪影和噪声;局部体效应常导致组织边缘模糊;病变组织的病变边缘不明确等。阈值法在医学图像分割中具有一定的局限性。

近几年,有许多阈值法的改进算法被提了出来,如Tang,Xu- Dong等人[1]提出了一种新的基于阈值的快速图像分割算法,在传统阈值方法的基础上通过简化隶属函数,同时结合一个新的递归策略,从而降低了计算的复杂性,加快了运算速度,较传统算法相比其具备较好的实时时序和噪声抑制性能。

MR图像对比度往往较低,很难通过阈值法将目标区域从背景中精确地提取出来,所以阈值分割法在MR图像分割中的应用较少,但阈值分割法可以用在MR图像预处理过程中,并与其他图像分割算法相结合,如卷积神经网络算法,从而提高图像分割的准确率。

 

1.2 区域生长法

区域生长法是根据图像预先的先验知识和标准,利用初始点周围的生长提取出图像中的连接的区域。区域生长方法中通常利用图像的灰度信息,或者是根据图像的边界的信息得到其所需的标准。区域生长法中最简单的模型中,需要手动初始化,即选定一个点作为区域增长的起始点,然后基于一些预先定于的标准在初始点的邻域搜索,提取所有符合标准的像素区域。例如:一个常用的标准就是,提取初始点的邻域像素点直到遇到图像边界。如图1中所示,区域生长用于隔离图2中所示结构。

图2  区域生长法选取初始点

区域生长法对噪声敏感,如果种子像素点选取不当,分割结果就会出现错误,并且对于图像中灰度值相近但不相邻的多个区域不能一次全部分割出来。在医学图像分割中进行病灶分割时,如果种子点选取得当,这种方法可以自动找到病灶的边界,能为医生的诊断提供定量及定性的依据。在医学图像分割中,区域生长法与阈值法一样,一般不单独使用,多与其他分割方法相结合。如Jiang,Hui- Yan等人[2]将区域生长算法和OSTU算法相结合对30个边缘模糊的腹部MRI图像进行了有效分割;Wu,Hai- Shan和Gil,Joan等人[3]使用一个迭代的区域生长算法对卵巢细胞内染色质进行了有效分割;Angelina,S.等人[4]在2012年提出了一种新的区域生长及合并算法与遗传算法相结合的医学图像分割算法,用于对恶性黑色素瘤等皮肤癌进行早期诊断,和其他常规算法相比提高了分割效率,解决了利用非侵入性诊断工具皮肤镜对皮肤癌进行早期诊断耗时长等问题。

 

1.3 边缘检测法

边缘检测法主要基于图像灰度级的不连续性,它通过检测不同均匀区域之问的边界来实现对图像的分割,这与人的视觉过程有些相似。依据执行方式的不同,这类方法通常又分为串行边缘检测技术和并行边缘检测技术。在串行边缘检测技术中,当前像素是否属于待检测的边缘受到先前象素的检测结果的影响,使用该方法进行分割可得到连续的边缘,但分割结果比较依赖初始边缘点,不合适的初始边缘点可能导致错误的边缘。而在并行边缘检测技术中,一个象素与其相邻像素之间的关系决定了该像素是否属于检测的边缘,由于只与相邻像素有关,所以并行检测技术可以并行对图像中的所有象素进行检测。常用的并行方法有Canny算子、Sobel算子、Laplacian算子、Prewitt算子、LOG算子等。图3为分别用各类算子检测的细胞边缘。

在实际应用中。由于并行方法比串行方法分割时间短,所以并行边缘检测法在医学图像分割中更为常用。如2012年Park,J.等人[5]使用并行边界与区域相结合的方法对不同医学图像进行分割,实验结果表明,该方法能可靠准确地分割低对比度的复杂医学图像。

                

(a)细胞原始图像        (b)Roberts算子检测的边缘    (c)Sobel算子检测的边缘

               

(d)Prewitt算子检测的边缘   (e)Canny算子检测的边缘     (f)LOG算子检测的边缘

图3  各种边缘检测算子检测的细胞边缘

 

1.4 基于形变模型的方法

形变模型[6]起源于1987 年Kass 等提出Snake 模型,其数学基础是泛数最优逼近理论。Snakes 是一条由相应能量函数控制的可形变参数曲线,以能量函数最小化为目标,控制轮廓线变形使其具有最小能量就是目标轮廓。

形变模型按其不同轮廓曲线的表达形式,可分为参数形变模型[6]和几何形变模型[7-8]两种。参数变形模型在变形过程中以显式参数的形式表达曲线或曲面,该表达形式允许与模型直接交互,利于模型快速实时地实现。然而,变形过程中发生拓扑结构变化时该方法难以处理。相反,几何形变线模型将活动曲线看成是两个区域的分界线,活动曲线的运动过程就是分界线的进化过程。这样,轮廓曲线运动过程就独立于轮廓曲线的参数,因此可以自动处理拓扑结构的变化。    图4(a)所示为一个心脏 MR 图像上应用形变模型(或者称为活动曲线)进行分割。图4(b)中,活动曲线在图片中初始化为一个圆,然后随后慢慢形变为左心室的边缘曲线。

           

(a)心脏 MR 图像                           (b)左心室分割结果

图4  使用形变模型提取左心室MR 图像的内壁

 

1.5 模糊聚类法

模糊技术是建立在模糊集合理论基础上的, 能很好地处理三维医学图像内在的模糊性, 而且对噪声不敏感。模糊分割技术主要有模糊阈值、模糊聚类、模糊边沿检测等。近年来模糊C -均值(FCM)聚类技术的应用最为广泛。FCM 用于图像分割是一种无监督(Unsupervised)模糊聚类后的标定过程, 易于应用,但其中各像素点的数据是相互独立的,没有利用图像的空间信息,所以可以将空间信息引入算法当中以提高分割算法的准确率,非常适合于医学图像中存在不确定性和模糊性的特点。

图1为对一幅大脑医学图像应用模糊C-均值聚算法分割的结果,该方法中应用模糊C-均值聚类算法完成了对医学图像的分割,将其分为各具特性的4部分。图5(a)是一幅原始医学图像,图5(b)是分割的结果。

图5  模糊C-均值聚类方法分割大脑医学图像

从图5中可以看出对于图中面积比较大的部分取得了较好的分割结果,但是对于一些面积很小的部分结果不太好。还要进一步研究。

近年来,基于模糊聚类的图像分割方法及其改进算法在医学领域得到了广泛应用,如Kaur,P.等人[9]在2012年提出了一种自动的直观模糊聚类方法,在模拟和真实的脑部MRI图像中进行实验,对比传统的模糊C- 均值、噪声聚类、核化模糊C- 均值等方法,实验结果显示Kaur,P.等人提出的方法更为可靠有效;Liu,Y.等人[10]提出一种带有双边滤波的模糊C- 均值(FCM) 聚类方法进行医学图像分割,通过实验结果和定量分析表明,与传统的FCM相比,该方法具备更高标准的抑制噪声能力和细节保护;Christ,M.C.J.等人[11]提出根据不同类型的模糊C-均值算法改进的医学图像分割技术,并将模糊C- 均值和其他聚类算法如KM、EM和KNN相比较,实验证明模糊C- 均值可提供更好的结果。

 

1.6 基于遗传算法的方法

遗传算法(Evolutionary Algo rithms)基本思想是建立在自然选择和群体遗传学机理基础上的随机、迭代、进化, 它采用非遍历寻优搜索策略, 是一种简单、适于并行处理、具有鲁棒性和广泛适用性的搜索方法。此算法的搜索过程不直接作用在变量上, 而是在参数集进行了编码的个体, 这使得遗传算法可直接对结构对象(图像)进行操作。整个搜索过程是从一组解迭代到另一组解, 采用同时处理群体中多个个体的方法, 降低了陷入局部最优解的可能性, 并易于并行化。搜索过程采用概率的变迁规则来指导搜索方向, 而不采用确定性搜索规则, 而且对搜索空间没有任何特殊要求(如连通性、凸性等), 只利用适应性信息, 不需要导数等其它辅助信息, 适应范围广。

遗传算法擅长于全局搜索, 但局部搜索能力不足, 所以常把把遗传算法和其它算法结合起来应用。如Guan,X.-W.等人[12]在2011年提出一种遗传算法,用全局搜索能力和类间最大变化作为适应度函数,算法结合形态学理论提取图像边缘,实现分割,分割结果如图6所示。实验结果表明,这种遗传算法性能稳定,融合结果理想;Jaffar,M.A.等人[13]在2009年提出一种结合支持向量机的遗传算法,在肺部CT图像中对肺结节进行检测,分割效果理想;Liu,J.等人[14]提出了一种遗传神经网络算法来分割皮肤癌图像,执行基于遗传算法的神经网络的权重和阈值优化来改进BP神经网络的收敛速度,由该方法分割的皮肤癌图像可得到连续的边缘和清晰的轮廓,可以用于皮肤癌的定量分析和鉴定。

图6  遗传算法分割医学图像。(a)原始图像(b)提取边缘的图像(c)边缘图像曲线拟合结果(d)分割后的图像

 

1.7 基于小波变换的方法

小波变换是对Fourier分析的继承与发展,利用小波变换进行医学图像分割的基本方法是通过小波变换将图像直方图分解成不同级别的系数,用尺度控制并依照小波系数和给定的分割准则来选择阈值。小波变换在较大尺度上由噪音引起的细小突变较少,容易描述医学图像信号的整体行为,可检测出医学图像灰度值变化较大的轮廓,因此可以通过在不同尺度下逐步确定阈值来处理医学图像。

Bindu,Ch.Hima1等人[15]在2011年提出了一种基于小波变换的全自动医学图像分割方案。整个计划分为3个阶段。在第一阶段中,计算图像的小波变换,随后融合LH,HL和HH系数;在第二阶段中,通过计算全局阈值来确定初始点;在第三阶段中,从每个初始点开始进行搜索程序,得到闭环轮廓;Alzubi,S.等人[16]在2011年使用小波、脊波和曲波变换的多分辨率分析建立了一个医学图像分割系统。在不同的医学图像如PET,CT或MRI图像进行实验研究,对曲波变换的医疗数据集进行了测试,并与从其他变换所得到的结果进行了比较。试验表明,使用曲波扫描显著提高了异常组织分类,并减少了噪声。

图7(a)是一幅原始肝脏CT图像,图7(b)是基于小波变换后的叠加了分割线的分割结果。从结果中可以看出,肝脏左叶也被成功地划进了肝脏的区域,该结果同样受到了“体效应”的影响,部分胃部的气泡也被划进了肝脏的区域,但所得结果还是可以接受的。

         

(a)肝脏CT图像                          (b)分割结果

图7  基于小波变换的图像分割

 

1.8 基于神经网络的方法

在八十年代后期,在图像处理、模式识别和计算机视觉的主流领域,受到人工智能发展的影响,出现了将更高层次的推理机制用于识别系统的做法。这种思路也开始影响图像分割方法,在解决具体的医学问题时,出现了基于神经网络模型(ANN)的方法。

神经网络模拟生物特别是人类大脑的学习过程,它由大量并行的节点构成。每个节点都能执行一些基本的计算。学习过程通过调整节点间的连接关系以及连接的权值来实现。神经网络技术的产生背景也许是为了满足对噪声的鲁棒性以及实时输出要求的应用场合而提出的,一些研究人员也尝试了利用神经网络技术来解决图像分割问题。

多数神经网络方法的出发点是将图像分割问题转化为诸如能量最小化、分类等问题,从而借助神经网络技术来解决问题,其基本思想是用训练样本集对 ANN 进行训练以确定节点间的连接和权值,在用训练好的 ANN 去分割新的图像数据。这种方法的一个问题是网络的构造问题。这些方法需要大量的训练样本集,然而收集这些样本在实际中是非常困难的。ANN 同样也能用于聚类或形变模型,这时 ANN 的学习过程是无监督的。

卷积神经网络(CNN)作为神经网络的一种,在医学图像分割领域的应用尤为重要,其结构和应用将在文章第2部分具体介绍。

以上介绍的各种图像分割算法,在不同应用领域表现不同。在医学图像分割领域,如今表现最好的便是卷积神经网络的方法。在2015年组织的糖尿病视网膜病变监测(Diabetic Retinopathy Detection)挑战赛中(https://www.kaggle.com/c/diabetic-retinopathy-detection),参赛者需要对彩色眼底图像进行病变识别监测,该比赛共有661支队伍参加,其中排名靠前的队伍使用的大多都是卷积神经网络的方法。无独有偶,在用MRI测量心脏体积和射血分数的医学图像处理竞赛中(https://www.kaggle.com/c/secon-dannual-data-science-bowl),取得领先的队伍使用的也是卷积神经网络的方法。文章接下来便会对卷积神经网络这一算法进行具体介绍。

 

2.卷积神经网络

2.1 卷积神经网络的发展历程

卷积神经网络的发展历程大致可以分为三个阶段: 理论提出阶段、模型实现阶段以及广泛研究阶段。

2.1.1 理论提出阶段

20 世纪60 年代,Hubel 等[17]的生物学研究表明,视觉信息从视网膜传递到大脑中是通过多个层次的感受野(Receptive Field ) 激发完成的。1980 年,Fukushima 第一次提出了一个基于感受野的理论模型Neocognitron[18]。Neocognitron 是一个自组织的多层神经网络模型,每一层的响应都由上一层的局部感受野激发得到,对于模式的识别不受位置、较小形状变化以及尺度大小的影响。Neocognitron采用的无监督学习也是卷积神经网络早期研究中占据主导地位的学习方式。

2.1.2 模型实现阶段

1998 年,Lecun等[19]提出的LeNet-5采用了基于梯度的反向传播算法对网络进行有监督的训练。经过训练的网络通过交替连接的卷积层和下采样层将原始图像转换成一系列的特征图,最后,通过全连接的神经网络针对图像的特征表达进行分类。卷积层的卷积核完成了感受野的功能,可以将低层的局部区域信息通过卷积核激发到更高的层次。LeNet-5 在手写字符识别领域的成功应用引起了学术界对于卷积神经网络的关注。同一时期,卷积神经网络在语音识别[20]、物体检测[21]、人脸识别[22]等方面的研究也逐渐开展起来。

2.1.3 广泛研究阶段

2012 年,Krizhevsky等[23]提出的AlexNet在大型图像数据库ImageNet[24]的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军,使得卷积神经网络成为了学术界的焦点。AlexNet之后,不断有新的卷积神经网络模型被提出,比如牛津大学的VGG(Visual GeometryGroup)[25]、Google的GoogLeNet[26]、微软的ResNet[27]等,这些网络刷新了AlexNet在ImageNet上创造的纪录。并且,卷积神经网络不断与一些传统算法相融合,加上迁移学习方法的引入,使得卷积神经网络的应用领域获得了快速的扩展。一些典型的应用包括:卷积神经网络与递归神经网络(Recurrent Neural Network,RNN) 结合用于图像的摘要生成[28-29]以及图像内容的问答[30-31];通过迁移学习的卷积神经网络在小样本图像识别数据库上取得了大幅度准确度提升[32];以及面向视频的行为识别模型———3D 卷积神经网络[33]等。

 

2.2 感知器神经网络模型

感知器(Perceptron)是神经网络中的一个概念。感知器模型是美国学者罗森勃拉(Rosenblatt)特为研究大脑的存储、学习和认知过程而提出的一类具有自学习能力的神经网络模型,它是第一个机器学习模型,它把对神经网络的研究从纯理论探讨引向了从工程上的实践。感知器是经典的线性分类模型,是神经网络和支持向量机的基础。

 

2.2.1 单层感知器

Rosenblatt提出的感知器模型是一个只有单层计算单元的前向神经网络,称为单层感知器,它是一种二元线性分类器。单层感知器是最简单的神经网络,它包含输入层和输出层,而输入层和输出层是直接相连的。单层感知器模型的结构如图7所示。

图8  单层感知器模型

 

图8显示,对于每一个输入值 X=(x1,x2,…,xd),通过一个权重向量W,进行加权求和,并作为阈值函数的输入,可以写成如下线性函数的形式:

       (1)

式(1)中,xi是输入分量,wi是权值分量,w0是阈值,O是目标输出。作为分类器,可以用已知类别的模式向量或特征向量作为训练集。利用式(1),计算输入层中,每一个输入端和其上的权值相乘,然后将这些乘积相加得到乘积之和。如果乘积和大于临界值(一般是0),输出为1;如果小于临界值,输出为 0,从而将输入向量分成了两类,实现分类器的作用。

 

2.2.2 多层感知器

单层感知器的缺点是只能解决线性可分的分类模式问题。对于非线性问题,采用多层网络结构可以增加网络的分类能力,即在输入层与输出层之间增加一个隐含层,从而构成多层感知器。由输入层、隐含层(可以是一层或多层)和输出层构成的神经网络称为多层前馈神经网络。多层感知器的拓扑结构如图9所示。

 

图9  多层感知器模型

 

 

2.3 反向传播(Back Propagation,BP)算法

反向传播算法也称为误差后向传播神经网络,它是一种用于前向多层神经网络的反向传播学习算法,也是神经网络模型中应用最广泛且最重要的一类学习算法。它具有理论依据坚实、推导过程严谨及通用性好的优点。

算法的学习过程由信号的正向传播与误差的反向传播两个过程组成,即:①正向传播: 输入层接收外来的输入样本,各隐含层进行逐层处理后,输出层输出结果。将输出层的实际输出与期望输出进行比较,若两者不相吻合,则进入误差的反向传播阶段;②误差反向传播: 用输出后误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此逐层反传下去,各层单元产生的误差信号,用来修正各单元误差(权值),以期误差最小。

在BP模型的学习训练过程中,可利用一些方法如梯度下降法,使权值不断的朝着输出误差减少的方向调整,直到网络输出的误差减少到允许的程度,或者可以事先指定必要的学习次数,达到既定次数即可停止训练#由此可知,BP算法的信号正向传播与误差反向传播的各层权值的调整过程是交替的、多次反复的。

BP算法的流程图如图10表示。

 

图10  BP算法流程图

 

2.4 卷积神经网络结构

卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。 这些良好的性能是网络在有监督方式下学会的,网络的结构主要有稀疏连接和权值共享两个特点,包括如下形式的约束:

(1)特征提取。每一个神经元从上一层的局部接受域得到突触输人,因而迫使它提取局部特征。一旦一个特征被提取出来, 只要它相对于其他特征的位置被近似地保留下来,它的精确位置就变得没有那么重要了。

(2)特征映射。网络的每一个计算层都是由多个特征映射组成的,每个特征映射都是平面形式的。平面中单独的神经元在约束下共享 相同的突触权值集,这种结构形式具有如下的有益效果:a.平移不变性。b.自由参数数量的缩减(通过权值共享实现)。

(3)子抽样。每个卷积层后面跟着一个实现局部平均和子抽样的计算层,由此特征映射的分辨率降低。这种操作具有使特征映射的输出对平移和其他 形式的变形的敏感度下降的作用。

卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。 

http://img.my.csdn.net/uploads/201304/10/1365562094_2229.jpg

图11  卷积神经网络的概念示范图

卷积神经网络的概念示范如图11所示。输入图像通过和三个可训练的滤波器和可加偏置进行卷积,卷积后在C1层产生三个特征映射图,然后特征映射图中每组的四个像素再进行求和,加权值,加偏置,通过一个Sigmoid函数得到三个S2层的特征映射图。这些映射图再进过滤波得到C3层。这个层级结构再和S2一样产生S4。最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。

一般地,C层为特征提取层,每个神经元的输入与前一层的局部感受野相连,并提取该局部的特征,一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来;S层是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射为一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。

此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数,降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层(C-层)都紧跟着一个用来求局部平均与二次提取的计算层(S-层),这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。

 

2.5 卷积神经在医学图像分割上的应用

深度卷积神经网络(CNN)因其具有优良的自主特征能力和良好的特征表达能力,在对医学影像(MRI、CT、X射线等)分割领域以及辅助诊断方面取得了巨大成功。

文献[34]提出了一种使用卷积神经网络实现在X射线图像中骨骼结构分割的方法,文献采用四种卷积神经网络模型提取图像特征,四种不同配置如表1所示,并在最后一层用softmax分类器对像素进行二分类,将骨骼区域从周围组织中分割出来。由于X射线图像的分辨率很高,为了减少训练的时间,选取局部感兴趣的区域进行训练。在分割的过程中,再不需要人为干涉,避免了人为选取特征存在误操作的风险。骨骼分割结果如图12所示,实验结果表明,第四种神经网络模型在像素误差(Pixel error)、兰德误差(Rand error)和分裂合并翘曲误差(Warping error)三个指标上均取得了优良的性能,如表2所示。

 

表1  四种卷积神经网络模型的配置

 

图12  四种卷积神经网络模型下的骨骼轮廓提取结果。从左到右依次为:原图像,模型1,模型2,模型3,模型4

 

表2  四种卷积神经网络模型的性能和训练时间

 

文献[35]提出乳房X射线图像中肿瘤分割的框架,如图13所示。该框架结合了深度卷积网络具有优良特征表达能力的特性,将其整合到框架中作为势函数,用于基于像素点的和像素点之间边的势能转换。并且在该框架中跟其他的势函数作比较,比如高斯混合模型、形状先验模型。最后通过实验表明,深度学习模型作为结构化预测模型势函数的分割准确率相比于高斯混合模型、形状先验模型有大幅提升。

图13   乳房X射线图像中肿瘤分割的CNN模型

 

卷积神经网络在医学影像分割的准确率方面是毋庸置疑的,但扫描一张图像往往需要几分钟时间,对于分辨率高的图像需要的时间则更长。文献[36][37]分别指出在卷积和池化的过程中,在一个滑动窗口和它的后续窗口之间存在重复的卷积计算和最大池化操作,这是卷积神经网络计算时间代价大的一个重要原因。并且分别提出了减少神经网络中冗余计算的方法,用于实现医学图像的快速扫描。文献[37]提出了一种快速扫描卷积神经网络(FCNN)的方法,用于乳腺癌核磁共振图像诊断。在卷积层用卷积核去卷积整张图像或者上一层的特征图,以及在池化层将最大池化层重新排列的方法减少冗余计算,在不减少分割精度的条件下大幅提高了图像分割速度,满足了实时诊断的需求。

 

图14  FCNN最大池化层结构图。(a)由前一个卷积层计算得到的12×12扩展特征图。注意,这个扩展的功能图包含整个输入映射的所有信息,而不仅仅是一个滑动窗口。不同颜色方块框对应4个不同的滑动窗口;(b)包含所有滑动窗口的信息。所有的位置都标为红色,(c)-(e)每个方格包含滑动窗口开始的所有位置的信息,分别标为绿色,蓝色,橙色。

 

文献[38]提出了一种基于最大池化卷积神经网络快速扫描医学图像的方法,提出了扩充的特征图,即该图包含输入图像每个patch的特征,这样只用一次卷积操作就可以对获得全部的特征。同样,在最大池化层只需要一次池化操作即可。因此,基于最大池化卷积神经网络对扫描医学图像的速度有明显提高。

卷积神经网络不仅在处理医学影像辅助患者进行疾病诊断方面取得了巨大成功,在电子显微成像中对细胞膜分割方面同样有着积极的意义。文献[39][40]提出了基于卷积神经网络实现电子显微图像细胞膜自动分割的方法,方法中用卷积神经网络的监督训练去恢复patches中移除的中心像素标签,能够自动改善用于执行电子显微图像自动分割的细胞膜检测概率图。其中,patches是从细胞膜检测概率图中采样得到的,细胞膜检测概率图是通过分类器算法判断是否图像中的一个像素对应在细胞膜上得到。最后实验表明,相比于传统的机器学习算法,文献[39]方法性能有显著的提高,其结构如图15所示。

 

图15  深度神经网络监测细胞膜

 

在文献[40]中又提出了基于迭代的卷积神经网络的细胞膜分割方法,通过在细胞膜检测概率图上迭代地使用卷积神经网络算法,细胞膜分割结果又有了一定的提升。文献[41][42]提出了用卷积神经网络和随机森林相结合的方法实现了对神经细胞图像的分割,这两种方法均获得了优良的分割性能,但他们的侧重点有些不同。文献[41]中对传统的卷积神经网络模型进行了改进,如图16所示,用随机森林分类器代替了传统的softmax分类器。在整个模型中,分别训练卷积神经网络特征提取模型和分类器模型。卷积神经网络模型训练好之后,用其学习到的特征训练随机森林分类器,最后完成电子显微图像的神经细胞膜的分割。通过实验表明,分割准确度明显高于传统的分割算法SVM,而且用随机森林做分类器比用传统的softmax做分类器效果也要好一些。

图16  基于卷积神经网络和随机森林的细胞分割流程

 

而文献[42]提出了级联的随机森林和卷积神经网络相结合的模型,在这个模型中结合了级联的随机森林执行速度快和卷积神经网络性能好的优势,并且有两种结合方式。一种方式利用随机森林容易训练的特点,训练好的随机森林模型作为卷积神经网络的初始化,这样会大幅较少卷积神经网络模型的训练时间。另一种方式将训练好的卷积神经网络模型映射到级联的随机森林模型,在保持级联的随机森林能有快速推理性能不变的情况下提高分割的准确率,该模型如图17所示。

 

        (a)          (b)          (c)             (d)

图17  (a)级联RF训练预测密集的语义标签。(b)级联RF然后映射到一个卷积神经网络,并进一步训练,以提高性能。(c)最后,卷积神经网络被映射到一个级联RF更新参数,以改善在测试时的速度。(d)三个分类器在斑马鱼胚胎显微图像语义分割中的应用:输入滤波器组(d1)和相应的分割输出(d2-d4)。

 

综上,大量的文献研究表明,卷积神经网络在医学图像分割领域取得了巨大成功,它不仅提供了一个统一的方法对所有图像进行特征提取,而且它大大提高了分割的准确率。

 

3.结论

卷积神经网络在医学图像分割上的研究时间不是很长,但近几年发展迅速。大量的科研工作者们投身深度学习领域,随着对卷积神经网络的进一步的研究,卷即神经网络在医学图像分割以及辅助疾病诊断方面有着更广阔的应用前景。

深度学习目前仍有一些工作需要研究。首先就是训练的时间过长问题,由于深度学习模型有大量的隐层,从输入层将低级特征表示为高级特征需要大量的计算,而且在高层运用反向传播算法优化模型权重同样需要大量运算,需要很长的时间。因此有效的可并行训练框架是一个有前景研究的方向。

 

[参考文献]

[1] Tang, Xu Dong, et al. "Fast image segmentation method based on threshold." Control and Decision Conference, 2008. Ccdc IEEE, 2008:3281-3285.

[2] Jiang, Hui Yan, S. I. Yue-Peng, and X. G. Luo. "Medical Image Segmentation Based on Improved Ostu Algorithm and Regional Growth Algorithm." Journal of Northeastern University 27.4(2006):398-401.

[3] Wu, Hai Shan, J. Gil, and L. Deligdisch. "Region Growing Segmentation of Chromatin Clumps of Ovarian Cells Using Adaptive Gradients." Journal of Imaging Science & Technology 48.1(2004):22-27.

[4] Angelina, S, L. P. Suresh, and S. H. K. Veni. "Image segmentation based on genetic algorithm for region growth and region merging." International Conference on Computing, Electronics and Electrical Technologies IEEE, 2012:970-974.

[5] Park, Jonghyun, S. Park, and W. Cho. "Medical Image Segmentation Using Level Set Method with a New Hybrid Speed Function Based on Boundary and Region Segmentation." Ieice Transactions on Information & Systems E95.D.8(2012):2133-2141.

[6] Kass, Michael, A. Witkin, and D. Terzopoulos. "Snakes: Active contour models." International Journal of Computer Vision 1.4(1988):321-331.

[7] Caselles, Vicent, R. Kimmel, and G. Sapiro. "Geodesic active contours." International Journal of Computer Vision 22.1(1997):61-79.

[8] Malladi, Ravikanth, J. A. Sethian, and B. C. Vemuri. "Shape Modeling with Front Propagation: A Level Set Approach." IEEE Transactions on Pattern Analysis & Machine Intelligence 17.2(1995):158-175.

[9] Kaurabc, Prabhjot. "RETRACTED: A robust kernelized intuitionistic fuzzy c-means clustering algorithm in segmentation of noisy medical images." Pattern Recognition Letters 34.2(2013):163–175.

[10] Liu, Yuchen, et al. Fuzzy C-means Clustering with Bilateral Filtering for Medical Image Segmentation. Hybrid Artificial Intelligent Systems. Springer Berlin Heidelberg, 2012.

[11] Christ, M. C. Jobin, and R. M. S. Parvathi. "Fuzzy c-means algorithm for medical image segmentation." International Conference on Electronics Computer Technology IEEE, 2011:33-36.

[12] Guan, Xiaowei, X. Zhu, and S. Gao. "Medical Image Segmentation Based on Genetic Algorithm." International Conference on Information Technology, Computer Engineering and Management Sciences IEEE, 2011:359-362.

[13] Jaffar, M. Arfan, et al. GA-SVM Based Lungs Nodule Detection and Classification. Signal Processing, Image Processing and Pattern Recognition. Springer Berlin Heidelberg, 2009:133-140.

[14] Jianli, L., and Z. Baoqi. "The Segmentation of Skin Cancer Image Based on Genetic Neural Network." CSIE 2009, 2009 WRI World Congress on Computer Science and Information Engineering, March 31 - April 2, 2009, Los Angeles, California, USA, 7 Volumes DBLP, 2009:594-599.

[15] Bindu, Ch Hima, and P. K. Satya. "A Fully Automatic Scheme for Medical Image Segmentation with Wavelet Based Image Fusion." Ipcv 2011,2011(1):230- 235.

[16] Alzubi, Shadi, N. Islam, and M. Abbod. "Multiresolution Analysis Using Wavelet, Ridgelet, and Curvelet Transforms for Medical Image Segmentation." International Journal of Biomedical Imaging 2011.4(2011):136034.

[17] Hubel, D. H, and T. N. Wiesel. "Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. " Journal of Physiology 160.1(1962):106.

[18] Fukushima, Kunihiko. "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position." Biological Cybernetics 36.4(1980):193-202.

[19] Lecun, Y., et al. "Gradient-based learning applied to document recognition." Proceedings of the IEEE 86.11(1998):2278-2324.

[20] Waibel, A., et al. "Phoneme recognition using time-delay neural networks." Readings in Speech Recognition 37.3(1990):393-404.

[21] Vaillant, R, C. Monrocq, and Y. L. Cun. "An original approach for the localization of objects in images." International Conference on Artificial Neural Networks IET, 1993:26-30.

[22] Lawrence, S, et al. "Face recognition: a convolutional neural-network approach. " IEEE Transactions on Neural Networks 8.1(1997):98.

[23] Krizhevsky, Alex, I. Sutskever, and G. E. Hinton. "ImageNet classification with deep convolutional neural networks." International Conference on Neural Information Processing Systems Curran Associates Inc. 2012:1097-1105.

[24] Deng, Jia, et al. "ImageNet: A large-scale hierarchical image database." Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on IEEE, 2009:248-255.

[25] Simonyan, Karen, and A. Zisserman. "Very Deep Convolutional Networks for Large-Scale Image Recognition." Computer Science (2014).

[26] Szegedy, Christian, et al. "Going deeper with convolutions." Computer Vision and Pattern Recognition IEEE, 2014:1-9.

[27] He, Kaiming, et al. "Deep Residual Learning for Image Recognition." (2015):770-778.

[28] Donahue, J, et al. "Long-term recurrent convolutional networks for visual recognition and description." IEEE Conference on Computer Vision and Pattern Recognition IEEE, 2015:2625-2634.

[29] Vinyals, Oriol, et al. "Show and tell: A neural image caption generator." Computer Science (2015):3156-3164.

[30] Malinowski, Mateusz, M. Rohrbach, and M. Fritz. "Ask Your Neurons: A Neural-Based Approach to Answering Questions about Images." (2015):1-9.

[31] Agrawal, Aishwarya, et al. "VQA: Visual Question Answering." International Journal of Computer Vision (2015):1-28.

[32] Zeiler, Matthew D., and R. Fergus. "Visualizing and Understanding Convolutional Networks." 8689(2013):818-833.

[33] Ji, Shuiwang, et al. "3D Convolutional Neural Networks for Human Action Recognition." Pattern Analysis & Machine Intelligence IEEE Transactions on 35.1(2013):221-231.

[34] CERNAZANUGLAVAN, and HOLBAN. "Segmentation of Bone Structure in X-ray Images using Convolutional Neural Network." Advances in Electrical & Computer Engineering 13.1(2013):87-94.

[35] Dhungel, Neeraj, G. Carneiro, and A. P. Bradley. "Deep Learning and Structured Prediction for the Segmentation of Mass in Mammograms." International Conference on Medical Image Computing and Computer Assisted Intervention 2015:605-612.

[36] Havaei, M, et al. "Brain tumor segmentation with Deep Neural Networks. " Medical Image Analysis 35(2016):18-31.

[37] Su, Hai, et al. "Region segmentation in histopathological breast cancer images using deep convolutional neural network." IEEE International Symposium on Biomedical Imaging IEEE, 2015:55-58.

[38] Giusti, A, et al. "Fast Image Scanning with Deep Max-Pooling Convolutional Neural Networks." Computer Sciences (2013):4034-4038.

[39] Dan, C Cirean, et al. "Deep Neural Networks Segment Neuronal Membranes in Electron Microscopy Images." Advances in Neural Information Processing Systems 25(2012):2852--2860.

[40] Wu, Xundong. "An Iterative Convolutional Neural Network Algorithm Improves Electron Microscopy Image Segmentation." Computer Science (2015).

[41] 曹贵宝. 随机森林和卷积神经网络在神经细胞图像分割中的应用研究. Diss. 山东大学, 2014.

[42] Richmond, David L., et al. "Relating Cascaded Random Forests to Deep Convolutional Neural Networks for Semantic Segmentation." Computer Science (2015).