2019-11-19 22:09:08 weixin_43876801 阅读数 116
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1155 人正在学习 去看看 CSDN讲师

导读

随着人工智能,尤其是深度学习技术的迅速发展,基于深度学习的分割方法已在图像分割领域取得了良好的效果,相比传统的机器学习和计算机视觉方法,深度神经网络在分割精度和速度等方面都具有一定的优势。其分割准确度已经超过了传统的分割算法。可以说,深度学习算法在图像处理中具有重要的理论研究意义以及实用价值。然而,目前的深度学习算法主要依靠训练数据,需要大量的手工标记数据用于训练。由于医学图像数据量较大,而且人工标记非常的耗时费力,可能还会有主观意识产生的误差,限制了深度学习方法在医学图像分割领域的应用[1]。
半监督方法通过引入领域知识降低了算法对人工标记数据的需求量,很大程度上缓解了数据标注的难度,是解决数据标记问题的一种重要途径。

半监督

半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视[2]。
在这里插入图片描述
详见参考这篇博客:https://www.cnblogs.com/kamekin/p/9683162.html

论文1

title:
Transfer Learning from Partial Annotations forWhole Brain Segmentation

下载地址:https://link_springer.xilesou.top/chapter/10.1007/978-3-030-33391-1_23

具体介绍详见下篇博客
https://blog.csdn.net/weixin_43876801/article/details/103158165

论文2

title:
Removing segmentation inconsistencies with semi-supervised non-adjacency constraint

下载地址:
https://sciencedirect.xilesou.top/science/article/pii/S1361841519300866

具体介绍详见下篇博客
https://blog.csdn.net/weixin_43876801/article/details/103155799

参考:
[1]基于深度学习的医学图像分割技术
[2]百度百科 半监督

2018-11-20 10:04:47 liaopiankun0618 阅读数 1800
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1155 人正在学习 去看看 CSDN讲师

医学图像数据格式

医学图像采用数字成像和通信(DICOM)作为存储和交换医学图像数据的标准解决方案。这个标准的第一个版本是在1985年发布的。发展到现在,该方案有了一些改变。该标准使用文件格式和通信协议。

文件格式 - 所有患者医疗图像都以DICOM文件格式保存。除了其他图像相关数据(例如用于拍摄图像的设备以及医疗处理的一些背景)之外,该格式具有关于患者的PHI(受保护的健康信息),例如姓名,性别,年龄。医学影像设备创建DICOM文件。医生使用DICOM查看器,可显示DICOM图像的计算机软件应用程序,读取和诊断图像中的发现。

通信协议 - DICOM通信协议用于搜索档案中的成像研究,并将成像研究恢复到工作站以显示。连接到医院网络的所有医疗成像应用程序都使用DICOM协议来交换信息,主要是DICOM图像,还包括患者和手术信息。还有更先进的网络命令,用于控制和跟踪治疗,调度程序,报告状态,分担医生和成像设备之间的工作量。关于DICOM标准细节,在这里推荐一个很好的博客http://dicomiseasy.blogspot.com

分析DICOM图像

用于分析DICOM图像的一个很好的python包是pydicom。初次之外,我们还可以用pandas,scipy, skimage,mpl_toolkit 进行数据处理和分析。
接下来,我们介绍一些可以获得DICOM 数据库,如下:

  • kaggle competitions and Datasets
  • Dicom Library
  • Osirix Datasets
  • Visible Human Datasets
  • The Zubal Phantom

在医学影像处理中使用的到的深度学习的模型框架主要有:

  • SAE(stack auto-encoder) 无监督学习方案,逐层训练,得到特征描述为主
  • RBM(restricted Boltzmann machine) 无监督学习方案,与SAE 类似
  • CNN(convolutional neural network)
    卷积神经网络,使用最为广泛,可以用来提取图片特征或者直接完成分类检测等任务
  • RNN(recurrent neural network) 循环神经网络,用来获取时序上的信息,在CT等逐行扫描图像中使用
  • U-net (with a single downsampling stage)
    类似于带short-cut的全卷机网络,用来融合不同尺度的图像的特征
  • FCNN(fully convolutional neural network)
  • 全卷机网络,可以获取与原图相同分辨率的图片,常用于分割等任务 FRCNN(Faster Region-proposal based neural network)

深度学习框架

  • caffe
  • tensorflow
  • torch
  • Theano

暂时没有使用到的深度学习技术

  • VAE
  • GAN

State of Arts
在这里插入图片描述

深度学习在医学图像领域的一些限制

  • 缺少高质量的标注的训练样本,因此训练出来的模型可能是过拟合的或者说推广性不好,因此需要将的到的模型放在各种情况下测试推广性]

  • 深度学习得到的模型是一个黑盒子,无法解释其有效性,在一些特殊的情况下会出现非常奇怪无法解释的问题,因此在医疗行业中的接受度也是一个问题[^doc3]
    在商业系统中使用临床上的图片资料会存在法律和伦理上的问题而不使用这样的样本无法进一步的提高深度学习模型的水平

2D VS 3D

从文献综述来看,大部分的工作都是基于2D图像的,其实在医学图像中,CT 和 MRI都是3D的数据2D化的结果,在医疗图像处理的算法中3D重建等等也是非常重要的一大类算法,但是现有的基于3D的算法一来耗时比较高,二来并没有比基于2D的算法提高很多,使用2D还是3D是一个值得思考的问题。

Feature vs Result

从文献综述中来看,稍微久远一些的算法就是把CNN当作是一个特征提取的算子获得图像的描述特征而最新的一些方法直接将CNN的结果就作为最终的输出结果来使用, 这里喔感觉直接使用CNN的输出作为结果,会涉及到文献中所说的黑盒子的限制,可解释型一般是比较差的,而作为特征来使用解释性可能会好一些,因为后续的一些后处理中可以增加的规则类的比较多,解释性会更佳

过滤 vs 诊断

一直以来作者觉得在医疗行业中,计算机能做的最大的贡献就是帮助医生做大量医学影像的过滤工作,至于使用诊断上最多也只是一个辅助的诊断工具,而机器学习到达了深度学习的时代,有些本来以为不太可能的任务都被深度学习算法一个一个的攻克了,在未来的工作做,计算机深度学习是不是可能独立的进行本属于医生独享的诊断工作我还是不得而知,然后我们可以知道的是,技术的发展使得过滤的正确率大大的提高,极大的提高生产的效率,这一方面是肯定有助于医疗行业的,相应深度学习在医疗领域的前景还是很广阔的。
原文:https://zhuanlan.zhihu.com/p/27568550

2018-01-19 16:23:34 qq_25624231 阅读数 3940
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1155 人正在学习 去看看 CSDN讲师

Recent Advances in the Applications of Convolutional Neural Networks to Medical Image Contour Detection 是一篇关于神经网络用于医学轮廓检测的综述。


摘要:
深度学习技术,由于其快速发展,已经成为医学图像分析中很多机器学习问题的主要解决方案。深度卷积神经网络(DCNN),作为深度学习技术中最重要的分支,被广泛应用到各种计算机辅助诊疗技术中,包括长期存在的和不断涌现的问题。图像轮廓检测是一个基础又具有挑战性的问题,已经有四十多年的研究历史。近来,由于CNN的发展,我们已经见证了轮廓检测方面极大的性能提升。除了在现有的自然图像数据集上追求好的表现,轮廓检测也在医学图像中发挥重要作用。放射图像和病理图像中的各类物体分割都需要对轮廓的准确检测。然而,有些问题,如不连续性和形状限制,其在CNN中的研究并不充分。因此,很有必要去阐明这些挑战性来鼓励新的探索。目前,基于CNN的轮廓检测方法的表现主要依赖于先进的CNN结构。对这些网络结构的设计思想和动机进行仔细的研究有助于轮廓检测。在这篇文章中,作者首先回顾了近年来医学图像轮廓检测的发展,并指出目前的前沿问题和挑战。然后谈论了一般CNN的发展和其在图像轮廓(边缘)检测上的应用,并对这些方法在细节上进行比较,阐明其优缺点。然后回顾最近这些网络在医学轮廓检测的应用和局限性,希望由此能够指出一些医学图像分析上的潜在方向。

医学图像轮廓检测综述

1. 挑战性和重要性

自然图像通常会包含多种类的语义对象,而医学图像则偏向modality-specific。特定模态的医学图像中,目标内部和物体之间的语义及纹理信息较少。因此,往往是目标的形状和结构在医学图像分割中起到了重要作用。
在图像获取和处理过程中的质量下降(噪声)也是个重要问题。噪声降低了真实边缘的可见度并引入了伪边缘信息。传统方法尝试在边缘检测前使用去噪算法,有一定的效果,但是并不promising。相对而言,利用目标物体先验知识的全局方法更能够克服局部噪声的影响。所以,一个好的轮廓检测算法,精细的边缘检测和物体的全局轮廓理解同样重要。
医学图像中,如何不受遮挡和伪影的影响,获取相连或重叠物体之间的(弱,破损)边缘是个长期存在的问题。有些时候检测这些视觉不可见的边缘几乎是不可能的,一个可行的补救方法是将破损的边缘连接起来。这个问题是边缘检测中一个active的研究主题。早期,可变型模型是一种流行的技术,能够保证轮廓的连续性和光滑性,比如参数化和非参数化的主动轮廓模型。但是,由于基于特定的假设,这一领域目前不再流行。最近,Deep active contours使用神经网络来预测主动轮廓的演变。
除了直接的轮廓检测,一些文献研究如何从一系列不连续的轮廓段来得到全局的轮廓。但是由于其很强的先验假设,如对称性等,这些方法在实际数据集场很难应用。此外,有一些使用CRF,RNN和Autoencoder来完成轮廓补全的文章,如Shape Completion with Recurrent Memory
人类能够从那些视觉不可见的地方推断出存在的轮廓,其中推理在这一过程中非常重要。进一步分析,应当与以下两个因素有密切的关系:
1. 基于周围信息的推理。
2. 对于Appearance的先验记忆。
这两种推理都大量利用需要context信息。然而,目前大多数CNN并没有把注意力放到这种类型的context信息中。目前语义分割任务中,很多工作利用CRF和MRF来结合context,但是对于边缘检测,这种方法是困难的,因为边缘含有较少的语义信息,需要对目标形状和结构更深的理解。Occlusion boundary detection via deep exploration of context 利用CNN中的深度信息实现被遮挡边缘的检测。
此外,对于有限标记数据的高效学习是一个重要的课题,因为医学图像中大量级的训练数据是难以获得的。然而CNN通常都需要大量数据来训练,所以半监督和无监督以及迁移学习在最近得到了讨论。Deep convolutional neural networks for computer-aided detection: Cnn architectures, dataset characteristics and transfer learning. 是一篇针对医学图像的迁移学习文章。同时,在网络结构上好的设计能够提高参数利用到的效率。

总结一下:
医学图像的特点是:1)modality-specific; 2)纹理和语义信息少;3)噪声严重
解决方案:1)边缘和轮廓检测; 2)从破损的边缘中连接出轮廓
具体方法:1)context信息; 2)先验记忆; 3)学习方法

2. 早期医学图像轮廓检测

在深度学习兴起之前,轮廓检测有很多方向, Robust nucleus/cell detection and segmentation in digital pathology and microscopy images: A comprehensive review. 是一篇很详细的综述。
按照发展流程大约如下:
1. 基于灰度的阈值分割。缺点是不适用于复杂的图像。
2. 基于分水岭的分割。缺点是容易因为噪声的影响导致过分割。Deep Watershed Transform for Instance Segmentation将其和深度学习结合起来。
3. 基于活动模型的分割。其中具有代表性的有水平集,参数模型(Snake,GVF)。An automatic learning-based framework for robust nucleus segmentation 在分割中结合了形状先验模型。这类方法的一个缺点是需要合适的初始化,同时我个人觉得演化过程中和图像的交互比较rigid,对于图像质量有较高要求。
4. 基于图模型的分割。对图像建立图模型,然后利用minicut算法求解。Normalized cut是其中比较优秀的一种。
5. 传统机器学习分割算法。其中基于piexl-wise的分类通常需要后处理来连接断裂的部分。基于superpixel-wise分类的算法提高了效率,但是形成superpixel的过程需要很好的贴合图像边缘。这类方法一个比较显著的缺点是:需要人为设计特征,这在很多医学应用中难以实现,或者说可行性较低。

CNN

这一部分我先略过

图像轮廓检测

作者首先简要回顾边缘/轮廓检测的历史,然后介绍基于CNN的新型轮廓检测方法。接下来介绍一些重要的端到端的CNN网络,实现了目前最好的轮廓检测方法。最后,指出现用方法的不足之处。
原则上来说,好的边缘/轮廓检测算法能够检测到目标轮廓而忽略物体内部或背景中的边缘。目前有一些方法在医学图像中获得成功的应用,但尚有一些advanced方法没有应用到医学图像中,文章将会讨论他们的优缺点,并阐述将其对医学图像的益处。
这里写图片描述

1. 轮廓检测的历史回顾

早期的代表:Canny通过局部信息得到边缘。其后的方法往往结合多尺度下的global和local的cues实现。其中有基于1)局部方向滤波器;2)谱聚类;3)稀疏重建;4)监督学习等等。具体可以看Edge and line oriented contour detection:State of the art
CNN之前有几个代表性的边缘检测方法,至今仍在使用。
1. Global probability of boundary(gPb)。其在多尺度下计算局部有向梯度特征(亮度,颜色和纹理),然后通过normalized cut计算全局的谱分类来实现全局轮廓检测。在这个基础上,有oriented watershed and ultrametric contour map(OWT-UCM),multiscale combinationrial grouping(MCG)等方法。gPb方法一个主要缺点是效率低,1/240 FPS。
2. Structured Edge(SE)。这是使用随机森林进行边缘检测最成功的代表。其主要思想是利用结构化的学习,稠密的预测structures of patches,如直线,平行线,曲线,T连接,Y连接等等。这种方法的效率非常高,60 FPS。Robust muscle cell quantification using structured edge detection and hierarchical segmentation 将其应用到病理切片上。

2. CNN用于轮廓检测的先驱

为什么把这类方法叫做先驱,因为他们从传统思想中的edge patterns,structures 和多尺度等观念出发,利用了CNN对一个围绕一个中心点的pathes进行是边缘或者非边缘的判断。其中比较经典的是DeepEdge和DeepContour。
1. DeepEdge 使用多个层的特征输入到两个任务分支中。其中分类分支输出像素点是边缘的概率,the other regression branch is trained to learn the fraction of human labelers agreeing about the edge presence at a given pixel。最后结合两个输出来预测边缘。
2. DeepContour从局部patches中提取特征,并将这些特征作为额外的输入连同图像输入SE中。SE会将这些局部pathces分成不同种类的edge patterns。DeepContour首先训练CNN来生成丰富的特征,然后训练SE来预测边缘。通过这样一个过程,DeepContour在上述方法中取得了最好的效果。但是在效率上还是逊于SE。

3. FCN

FCN的引入引领了使用CNN进行dense predict的潮流。一方面使得实时的预测成为可能,另一方面大幅度提高了效果。
其改动点:
1. 去掉了全连接层,改成1*1的卷积。相对于分类来说,每个像素点只利用了其位置上的fm,而不是整个fm?
2. 利用转置卷积提高分辨率。
3. side outputs来利用多个卷积层的特征。

4. HED

HED是第一个将FCN成功应用到轮廓检测上的神经网络。其主要的贡献就在于side outputs和deep supervision。 HED中的side outputs不像FCN中直接结合起来或者DeepEdge分离的标签(?),HED中每个side output都直接用于预测edge。所以其网络的loss定义为:
Lside(W,w)=Si=1αiLiside(W,w)
由于边缘像素点的个数明显少于非边缘像素点,因此为了解决不平衡的两类问题,作者引入了weighted loss:
Liside(W,w)=βyY+logPr(yi=1|X;W,wi)(1β)yYlogPr(yi=0|X;W,wi)
where β=|Y||Y|
最终,所有的loss被融合起来,形成最后的输出:
Lfuse=Distance(Y,SiγiY^(i))
分析: 通过对多尺度特征的复用,Side-output with deep supervision对于dense predict的效果有很大提升。
其后有很多基于HED的改进和发展,RCF达到了目前BSDS500上最好的检测效果。HFL结合了MLP,并将其应用到语义轮廓标记和语义分割。Deep learning convolutional networks for multiphoton microscopy vasculature segmentationGland instance segmentation by deep multichannel side supervision是基于HED的医学图像应用。

5. Encoder-Decoder network

Encoder-Decoder networkDeconvNet有着非常相似的结构,但是其encoder和decoder部分是非对称的。其Encoder部分采用VGG-16的网络,Decoder部分没有采用deconvolution layer,而是使用unpooling+convolution layer。由于Decoder部分所利用的信息来自VGG的最后一个卷积层,因此对于非轮廓的边缘有较好的鲁棒性。所以这个网络在轮廓检测上的效果优于HED(57.0 ODS vs. 44.0 ODS),但是在边缘检测上的效果要略逊于HED。

6. Oriented contour detection

这种方法的思想不是很理解,感觉像是用多种专用网络去检测不同固定方向的边缘,然后综合起来。关于这方面CNN的研究比较少,文章介绍了两个网络。
Affinity CNN 使用48个预测器来预测每个像素点和其周围8个像素点在3种尺度下的affinity。其监督信息有预先计算的affinity matrix和图像边缘GT。
Convolutional Oriented Boundaries(COB)首先基于HED的思想得到初步edge map,然后利用多个small sub-network来对每个方向预测oriented edge map。为了得到每个像素点的最终方向,COB计算sub-network中最大响应。COB测试了VGG-16和ResNet,最终选择了50层的ResNet,并强调合适的基础网络结构能够对结果又较大的提升。

7. 弱监督,半监督和无监督

这一部分文章首先介绍了之前看过的Unsupervised Learning of Edges。这是一篇利用视频信息的无监督边缘检测方法。然后介绍了Learning relaxed deep supervision for better edge detection, 其中Relaxing label是有canny,SE和HED提供的,并利用“delayed strategy”处理其中的假阳性边缘。总的来说,这一部分在医学图像中很重要但是需要更多的研究。

医学图像中基于CNN的轮廓检测和语义分割

这里写图片描述
[34]采用CNN作为patch-wise的像素点分类器来分割细胞膜,属于Pioneer类型的工作,赢得了ISBI 2012 细胞膜分割竞赛的第一名,并且明显超过当年其他方法。
[52]中针对细胞膜分割对CNN结构进行了改动,采用了更小的感受野和更深的网络。这样能够增加网络对于局部的非线性程度,从而提取更好的特征。结果在ISBI 2012上获得明显提高。
[194]利用多个不同尺度的预训练CNN来进行pixel-wise的分类,然后使用不同特征去定位目标轮廓并分离有黏连的物体。
其后大部分轮廓检测和分割方法都沿用了FCN和HED的结构。
[171]提出了U-net,并利用weighted loss来惩罚黏连细胞。在当时获得了ISBI 2012的最好结果。
[29]是现在ISBI 2012上的最好结果。他的结构与HED较相似,不同之处在于他通过辅助分类层来结合不同CNN层的输出获得最终分类结果。这样能够在前向传播过程中,更好的结合不同层的上下文信息?
[28]提出一种contour-aware的网络,利用side output做多任务的deep supervision(一个分支输出分割,一个分支输出轮廓),最后利用轮廓信息来防止细胞的黏连。这个结果赢得了2015 MICCAI Gland Segmentation Challenge。
[224]提出多通道的side supervision CNN来分割gland,这项工作可以被看做FCN和HED的结果,同时进行分割和轮廓检测。[150]提出了相似的网络结构。[19]提出一个利用CRF的数据融合过程来考虑分割和轮廓检测的结果。[172]使用基于空间信息的随机森林来整合语义分割和边缘信息。[139]利用多层特征进行多任务学习。[153]提出结合解剖学先验知识到CNN中。
最近两年,3D的图像分割获得较多关注。[46]扩展HED至3D并利用CRF来refine轮廓。[[33]]提出3D-Unet。[145]提出V-net,提出基于Dice的loss function来解决数据不平衡问题。
除了直接利用CNN,RNN和CNN的结合也是一个热点。[[198]]提出使用层叠的autoencoder来回复破损的轮廓。[90]基于无监督的多尺度CNN来完成胸部的dense分割。[227]利用RNN来完成超声图像中不清晰和破损轮廓的恢复。[30]利用RNN来结合2D的分割结果。[174]使用神经网络来预测主动轮廓的演化向量。[144]提出hough-CNN,通过投票机制来定位解剖中心线。最近,[146]结合CNN和动态系统完成心脏轮廓检测。这篇文章利用动态系统中的重要概念,有限循环来表示目标轮廓。将对于每个像素点的分类改成对每个像素点预测向量,根据得到的向量场,通过动态系统来检测轮廓。这个方法所需要的训练数据很少。

讨论

目前医学图像中轮廓检测和分割进入了一个比较窄的框架中,大多数方法利用端到端的CNN实现dense predict。作者提出了医学可能的发展方向:
1. 多尺度。以HED为例,HED一方面充分使用了CNN中的特征,另一方面也可以看做一种resembling。从ResNet到DenseNet,跳跃结构带来的特征复用有很好的实践效果。关于Side output中的deep surpervision,在底层往往会有较大的loss,这会影响到网络的收敛性,在实践中是需要谨慎对待和使用的。
2. 迁移学习。U-net展现了dense predict的CNN可以从少量样本中学习的能力,但是作者仍然相信迁移学习能够带来更多的图像理解,解决医学图像训练数据不足的问题。比如low-level和high-level的视觉相关性提示我们应当利用自然图像中CNN的浅层特征。
3. 边缘的不连续性。CNN在检测边缘上有强大的能力,但是对于不可见边缘,或者物体重叠导致的边缘消失,如何弥补是一个重要问题。RNN是目前较新的的解决方案,如何在RNN中输入更多的边缘特征来提高效果。此外,使用形状先验是个很好的办法,因为医学图像中的目标物体往往具有相似的结构。Learning shape priors for object segmentation via neural networks使用CNN来控制形状的演化。不过与CNN结合更加密切的方法是将形状信息结合到loss中或者形成关于轮廓的结构化输出。如Deep active contoursDeep Poincare Map for Robust Medical Image Segmentation
4. 其他。如何使用小样本训练。如何对抗高的噪声。Fast detection of curved edges at low snr

2016-12-02 17:57:58 leiphone 阅读数 3463
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1155 人正在学习 去看看 CSDN讲师
导语:本期硬创公开课,雷锋网请到其中一家公司DeepCare的创始人兼CTO丁鹏博士,为我们讲讲人工智能应用于医学影像的那些事儿。

AI用于医学影像,你需要知道这些 | 硬创公开课

图像识别技术已经可以认出人脸,也能用于自动驾驶中,那它用于医学影像,识别病变中又如何呢?在《国内人工智能+医学影像公司大盘点》一文中,雷锋网(公众号:雷锋网)介绍了国内将深度学习等人工智能技术用于医学影像的众多公司,它可以削减读片时间,降低误诊的概率,推荐治疗方案,协助医生诊断。

本期硬创公开课,雷锋网请到其中一家公司DeepCare的创始人兼CTO丁鹏博士,为我们讲讲人工智能应用于医学影像的那些事儿。

嘉宾简介:

丁鹏,DeepCare创始人兼CTO,博士毕业于美国达特茅斯学院(Dartmouth College),从事算法研发工作8年;在计算机视觉和深度学习技术方面有长时间的科研经历,且有工业级算法开发经验;对人工智能技术产业化有深刻的见解,在如何将人工智能技术与医学影像结合,开发商业产品方面,也是国内首屈一指的专家。

AI用于医学影像,你需要知道这些 | 硬创公开课

以下内容来自丁鹏在雷锋网硬创公开课的分享:

雷锋网:可以简单介绍一下DeepCare所关注的领域吗?

我们主要的方向是医学影像。医学影像是一个很大的方向,从细胞病理学到组织病理学到影像科,都属于这一范围。我们经过调研,确定做的是病理方向。原因是,病理医生是“医生中的医生”,地位非常重要,是确定有没有重大疾病(如癌症)的最后一道防线,而国内的病理医生又是奇缺的,存在很大的供需矛盾。

我们的定位是,为病理医生提供服务,提升他们的工作效率,帮助他们看片。一个方面是“查”,一个方面是“判”。查主要是指针对病理科的搜索、数据管理系统等,如以图搜图。二是判,指帮助病理医生看片子。目前主要是做乳腺和肺癌。

雷锋网:总体上看,把计算机视觉等人工智能技术用在医疗上,在国内目前的发展,处于什么样的阶段?

对于这个问题,要先看看深度学习等新技术,用在传统行业上(比如医生看病)的意义有哪些。无论在发达国家还是发展中国家,优质医疗资源的供需始终是一对矛盾,因为巨大的人口压力,这个问题在中国尤为突出。这也是为什么在协和医院门口是看到那么多外地人到北京看病,又挂不上专家号只能买黄牛票。

另一方面来说,医学影像是医生看病,及决策的最大的信息入口。而医生理解这些影像的本质,即是医生大脑经过长期的过程被大量数据训练出来的结果。一个客观事实是,高中低年资的医生在看同一张片子时候,得出的结论会有天壤之别,这也是为什么我们要去协和找“老大夫”看病的事实依据。

这是因为看病的效果和从医的年限高度相关,而从医的时间长短不同意味着所接受的信息量不同。那么如果一台机器学习了比人类医生多得多的案例或者图片,会不会超越人类呢?答案一定是肯定得。这也是应用深度学习技术训练计算机“看懂”医学影像的意义所在。

对于发展状况,我看来,无论在中国还是美国,在算法和数据上看,这一领域的发展都是在早期。它已经走出了实验室,但离商业化还有很长的路要走。

算法开发上,通用物体检测识别的算法又一个巨大的人群在做,但是在医学影像领域由于数据的可获得性差很多,所以研究的人和前者相比并不是特别多。但是越来越多的学者和研究机构看好这个方向,开始加大投入进来。

高质量的标注数据方面,在这个方面中国与美国相比很有可能会“弯道超车”,因为我们都知道在美国拿医疗数据是个非常困难的事情,无论是科研还是商用;但是在中国因为体制的原因和政府对于技术创新的重视,会让这个问题变得更容易一些。

雷锋网:根据你们的经验将人工智能用于医疗,会面临哪些主要困难和阻碍?

人工智能或者说深度学习相对来说是一个新技术,一个新的技术与老的行业相结合的时候往往会诞生出新的方向。目前的人工智能技术无论与哪一个行业结合,都必须聚焦到一个“场景”上来,比如说“医生读片”就是一个场景。在这个场景上应用新技术,特别是对于二三线城市中受训练较少的医生,不仅会提高医生判定的准确性,更会提高医生的工作效率,换句话说,释放了医生的生产力。

要完成这个事情,需要有两个必要条件。第一,适应于具体问题的算法;第二,高质量的标注数据。算法开发是一个难点,但相对比较容易搞定。高质量的小批量标注数据我们也已经获得,但是如何进行大批量数据的标注,以及标注质量控制确实是一个比较困难的问题。这涉及到最核心的资源,即高质量医生的时间与效率。除了时间,更重要的是如何做质量管控,比如同样一张图,标准及答案是什么,谁定义答案,由几个医生来标注,标注的是几个阶段,是盲标还是非盲标。这些都是要考虑的。

这个问题业界目前还没有给出一个清晰标准的答案,正在积极探索。

雷锋网:在技术选择上,医学影像与其它图像识别是否会存在差异?

这是必然的。自然世界里的图像与人体内的图像有着天然的巨大差异,因此针对于不同问题我们使用的算法也是不一样的,绝对不可能一刀切。我之前做过一种医学影像,它的病变的位置(做的是分割问题)有从十几个像素到几千个像素,为了检测小的病变点,如果downsampling次数太多,可能无法deconvelotion回来。

雷锋网:主要会用到哪些技术和算法呢?

在CV上有三个最基本问题:分类,检测和分割。我们处理的问题中也用的这三种方法,在病理上主要是做细胞层面上的,比如分类,细胞的分割,在细胞病理学上的检测工作等。

雷锋网:深度学习等技术是否适合所有类别的医学影像,是否有些更为合适?

将深度学习技术应用在计算机图像上的时候,有一个衡量问题难易程度的“标准”,即这个问题(图像)让人来理解的话是否可以做到。从我的经验来看,一个人普通人(比如我自己)经过简单的训练(比如一个小时左右)之后就可以在化验血液的图片中找到红细胞、白细胞等等;但是我需要经过很多次高强度的训练之后,才有可能在肺部组织病理切片中看出,哪里是癌细胞以及它们对应的亚型是什么。

从这个角度来看,我们做的理解组织病理切片的问题,应该是属于医学影像中非常难的问题之一。对医生难,因此对机器也不容易,但正是它的困难才带来了无与伦比的价值,所以病理科医生在被称为“医生中的医生”。病理科相当于,如果判断一个人是否有癌症,影像科所得的影像都不能据此下最后的结论,而病理医生可以下结论。

有几个数字,国内病理科医生在册的有1万多人,但经过我们的访谈,认为国内需要大约6、7万的人才能满足需求。但病理医生的培养周期特别长,北京某著名医生的病理科主任曾跟我说过,他们医院45岁以下的病理科医生会诊时没有发言权。因为细胞本身的差异非常大,医生也就要经过大量的训练才行。

由于体制的原因,病理科医生不直接面对患者,收入水平较低。几家特甲医院也需要花大价钱寻找病理医生。这种供需矛盾也带来了巨大的机会,这不仅是商业上的,也是有社会意义的。

雷锋网:数据对人工智能来说很重要,那医学影像的数据来源及获取渠道有哪些?

数据的来源的主体还是医院,不过目前越来越多的第三方病理中心也是我们获取数据的渠道之一。

雷锋网:数据建设是一个难点吗?标注上是否会有更多困难?

数据标注甚至比数据获取更重要。之前我们做过一个非常有意义的研究,找来了40张乳腺癌的病理切片,分别让中国的高年资和中低年资的医生标注,并和美国医生标注的“真值”做比较,结果是我们看到了恐怖的差异:在这40张片子上,高级医生和普通医生的水平差距在30个百分点。这个实验充分说明了找到领域内最厉害的医生进行标注是多么的至关重要。

雷锋网:图像识别是否可以同时识别出多个部位的疾病?这里的难点又在哪?

医学影像是医生看病一个最大的信息入口。一张病理切片大概是1-3个G不等,比一个高清电影还大,其中蕴含的信息也是海量的。因此可以说,从一种重大疾病(比如癌症)的筛查,到随诊,再到最后的判定,医学影像都在其中起到最重要的作用。

对于识别多个部位的疾病,现在是可以查出多种疾病来的,同时,针对某一种病做到知名医生的水平仍旧不容易。看病是一个过程,目前来看,算法的开发还是针对某一种器官,某一种病。如上所述,整个行业是在早期阶段,目前的做法是个个击破,比如肺部的病变就有很多种,现在的做法是分开进行。合并也是有方法的,比如有检测多种病的算法,挨个都试试,看效果如何。

但目前来说,能做好一种病的分析就很不容易。比如肺小结节在CT中的检测,8mm以上的结节已经有团队可以做到99%的检测水平,但5mm左右的检测仍非常难。所以,在评测这些算法时,也要有一个公正的方法。

雷锋网:医学影像与病例病史等资料的整合,从而做出综合的智能分析,现在处于怎么样的阶段了?

在我看来,病例方面关于文本的处理是走在影像的前面。目前我了解,这两个方面仍在独立进行,都不容易做好。回到数据源上来,在病例本身上,不同医院,甚至一家医院不同科室的医生,写病例的方式也不一样,它不是一个结构化的数据来源。

医生写病例时,是一种总结的方式,而不是一种连续的方式。比如,医生与病人交流时,它像一个分类器一样,问一个问题,然后得到病人的回答,然后再往下问,如果能抽象出来,就像一个树状分类器。但病例只写了一个分类器的结果,其中判断的过程并没有在病例中体现出来。

如果能让病例信息更全面,更结构化,这种信息才能真正利用起来。这也是我们选影像切入的原因,因为影像是更结构化的信息,以病理科为例,95%的判断仍是影像中细胞本身的判断。总体来说,影像与病例这种多模态的信息的融合是一个方向,但两者都是在早期阶段。

雷锋网:图像识别类公司一般有提供API,或自己做硬件,以及做整套方案等区分,在医学影像上,会更适合哪一类吗?你们的选择是怎么样的?

这是一个产品形态问题。我觉得无论是云端产品,还是前端硬件的方式都是可以的,主要看客户(比如医院)的需求,以及自身的网络限制,需要具体问题具体分析。

第三方影像中心有很多,他们的做法是将数据连到云端。但病理可能是另外一种情况,一张图可能是1-3GB,这样会受到医院带宽的限制,这种情况下可能是一种前端产品。以血液检测科为例,有国外的机器自身带有智能分析算法,做到了前端,最后需要的是医生确认。

商业路径选择要根据不同影像的特点来选择产品形态。

雷锋网原创文章,未经授权禁止转载。详情转载须知

2018-10-20 15:17:49 echo_1994 阅读数 5214
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1155 人正在学习 去看看 CSDN讲师

摘要:医学图像分割是决定医学图像在临床诊疗中能否提供可靠依据的关键问题。医学图像分割技术的发展不仅影响到医学图像处理中其他相关技术的发展,如可视化、三维重建等,而且在生物医学图像的分析中也占有极其重要的地位。近年来,由于深度学习算法在医学图像分割中的应用, 医学图像分割技术取得了显著的进展。在本文中,我们讨论了用于医学图像分割最先进的深度学习架构及其优化。在最后一节中,我们讨论了深度学习算法在医学图像分割领域的未来发展及面临的挑战。

 

关键词: 深度学习;卷积神经网络;图像分割;医学图像

 

0引言
随着医学影像学设备的快速发展和普及,成像技术包括磁共振成像(MR)、计算机断层扫描(CT)、超声、正电子发射断层扫描(PET)等,成为医疗机构开展疾病诊断、手术计划制定、预后评估、随访不可或缺的设备。全世界每天都产生大量的医学影像学信息,有报道显示全世界医学影像信息量占全世界信息总量的1/5以上[1]。医学图像处理是分析医学图像的首要步骤,有助于使图像更加直观、清晰,提高诊断效率,因此国内外都十分重视医学影像处理[2]。图像分割是图像处理的重要环节,也是难点,是制约三维重建等技术应用的瓶颈性问题[3]。近年来,由于深度学习方法的迅速发展,基于深度学习的图像分割算法在医学图像分割领域取得了显著的成就。

深度学习是机器学习领域中一系列试图使用多重非线性变换对数据进行多层抽象的算法,不仅学习输入和输出之间的非线性映射,还学习输入数据向量的隐藏结构[4],以用来对新的样本进行智能识别或预测。20世纪80年代末期,用于人工神经网络的反向传播算法的发明掀起了基于统计模型的机器学习热潮[5],20世纪90年代,浅层学习掀起机器学习的第一次浪潮[6],这些浅层结构虽然相比于过去基于人工规则的系统展现了很大的优越性,但对于处理复杂的问题,表现出特征学习能力不足、维数灾难、易陷入局部最优等缺点[7]。针对上述问题,2006年,Hinton在《Science》上首次提出“深度学习”并掀起了机器学习的第二次浪潮[8],多隐层的网络具有优异的特征学习能力,学习到的特征对数据有更本质的刻画。深度学习在医学图像分割方面的突破对于医学领域的发展至关重要[9]。

                                                                                                            

1. 医学图像分割
医学成像有多种图像模态,诸如MR、CT、PET、超声成像等等。成像可以获得反映二维和三维区域人体的生理和物理特性的图像,本文的内容主要侧重于MR和CT成像的特点和临床应用。二维图像中的每个元素称为像素,三维区域中每个元素称为体素,在某些情形下,可以把三维图像表示为一系列的二维切片进行观察,优点是计算复杂度低且需要的内存较小。

1.1 MR图像
磁共振成像(MRI)是无线电成像领域中使用最广泛的技术。作为一种动态且灵活的技术,MRI可以实现多变的图像对比度,该过程的实现是通过使用不同的脉冲序列和改变成像参数对应纵向松弛时间(T1)和横向松弛时间(T2),T1加权和T2加权成像的信号强度与特定组织的特征有关[10]。MR成像中,图像的对比度依赖于相位对比脉冲序列参数,最常见的脉冲序列是T1加权和T2加权自旋回波序列[12]。通过MR成像可以观察大脑、肝脏、胸、腹部和骨盆的结构细节,这有利于诊断检测或治疗[13]。

MRI对软组织有很好的成像能力;有非常高的分辨率;具有较高的信噪比;利用不同的脉冲序列可以得到对比度多变的多通道图像,进而用于不同解剖结构的目标分割和分类[14]。然而,在MRI中存在多种伪影,如部分容积、随机场噪声、强度不均匀性、梯度、运动、环绕、吉布斯振铃、磁化性等[15]。此外,相比于CT图像,MRI的获取需要相当长的时间,且通常条件下很难得到统一的图像质量。

1.2 CT图像
医学CT成像设备使用X射线(一种电磁波)得到人体的结构和功能信息。CT影像是基于X射线吸收剖面的重构图像,由于不同物质和组织吸收X射线能力不同,因此X射线可用于诊断[16]。CT成像作为当前多类疾病实体诊断的金标准,广泛应用于大脑、肝脏、胸部、腹部、骨盆、脊柱等身体部位以及CT血管造影的早期诊断筛查[17]。但是与MR图像相比较,CT图像敏感性和特异性相对较差。

CT成像中的伪影[18]包括:部分容积效应、条形伪影、运动伪影、束硬化伪影、环状伪影、金属伪影等。由于这些伪影的存在给CT图像分割带来了一定的难度,不同组织部位分割精度也不一样[19]。

1.3 医学图像分割的特点
医学图像分割是医学图像处理与分析领域的复杂而关键的步骤,其目的是将医学图像中具有某些特殊含义的部分分割出来,并提取相关特征,为临床诊疗和病理学研究提供可靠的依据,辅助医生做出更为准确的诊断[20]。图像分割过程是把图像分割成多个区域,这些区域内部有类似的性质,如灰度、颜色、纹理、亮度、对比度等。医学图像分割的目标是(以放射治疗为例)[21]:(1)研究解剖结构;(2)识别感兴趣区域(即定位肿瘤、病变和其他异常组织);(3)测量组织体积;(4)观察肿瘤生长或治疗中肿瘤体积的减少,为治疗前的计划和治疗中提供帮助;(5)辐射剂量计算。

从医学图像中自动分割出目标是个艰巨的任务,因为医学图像具有较高的复杂性且缺少简单的线性特征;此外分割结果的准确率还受到部分容积效应、灰度不均匀性、伪影、不同软组织间灰度的接近性等因素的影响[22]。针对通常采用的校正技术来说,可以将MR和CT图像中的伪影分类为[23]:(1)需要适当的滤波算法处理的伪影,如噪声伪影、敏感性伪影、存在非清晰边缘的伪影;(2)需要适当图像修复算法的伪影,如运动伪影;(3)需要特定算法的伪影,如部分容积和灰度不均匀性。图像处理领域尽管在已存在很多算法处理上述问题,但是医学图像分割仍然是个复杂和具有挑战性的问题。从医学图像处理过程的角度来看,基于灰度和基于纹理特征技术的分类是常规的分类方式[24]。此外,用机器学习的工具去优化这些图像分割算法是当前较受关注的技术[25].

CT和MR图像的分割主要涉及3个相关问题:变化的噪声、像素灰度分类的不确定性及灰度的非均衡性[26]。图像中单一组织的灰度水平一般是逐渐变化的,且其概率密度服从特定的分布函数,该组织对应的图像区域包含有限的像素(或体素)且满足部分容积平均,然而该区域中的单个像素(或体素)的灰度不与任何一类一致,往往被看作混合组织类[28]。

CT和MR图像分割常用的一些方法有:基于阈值[29]、基于区域[30]、基于形变模型[31]、基于模糊[32]及基于神经网络[34]。

当前,基于深度学习的方法已在图像分割领域取得了显著成就,其分割准确率已超过了传统分割方法。本文在对近几年深度学习和医学图像分割文献研习的基础上,对深度学习方法和常用的图像分割算法进行了深入的研究和比较,总结了各种深度学习方法的优缺点及其在医学图像分割领域的应用,最后展望了深度学习在医学图像分割领域的未来发展。

 

2. 深度学习
2.1 深度学习与图像处理
传统的图像处理技术主要包括特征提取和分类器两部分,特征提取算法的设计复杂性与应用局限性、稳定性,以及特定的特征提取算法与特定的分类器相结合的多样性限制着图像处理技术的发展[36]。神经网络的出现,使端到端的图像处理成为可能,当网络的隐藏层发展到多层时便称之为深度学习,但同时需要用逐层初始化技术解决深层次网络训练难度大的问题,之后深度学习便成为时代的主角[37]。而卷积神经网络(Convolutional Neural Network,CNN)便是深度学习与图像处理技术相结合所产生的经典模型,实现该模型的网络实例在特定的图像问题处理上都卓有成效[38]。

神经网络之所以能和图像领域相结合,并呈现巨大的发展前景,是有生物学依据的。人类视觉信息处理机制的发现,是 19 世纪 19 年代生物学界的重大发现之一,它证明了大脑可视皮层是分级存在的。人的视觉系统是一个反复抽象和迭代的过程。而卷积神经网络,就模拟了这个过程。首先,每一个卷积层,便是将具体信息做抽象的过程,而多个卷积层串联操作,便是将上一层的抽象结果再做抽象处理的过程,称之为迭代[39]。在这个抽象迭代的过程中,不断抽取大脑可感知的高维度特征。如当一幅图像经过视网膜进入视野,首先会将光线像素等信息抽象为图像边缘信息,然后再抽象为目标物体的某一部位,再抽象为物体轮廓形成对整个目标的感知[41]。

2.2 卷积神经网络
卷积神经网络(CNN)是一种多阶段的、全局可训练的人工神经网络模型,可以经过少量预处理,从原始数据中学习到抽象的、本质的、深层的特征[42]。在CNN中,每一层的数据都是大小为h×w×d的三维数组,其中h、w是空间维度,d是特征维数或通道维数。在图像处理领域,h×w代表图像尺寸,d代表颜色通道。CNN高层中的每一点对应于图像中的一块区域,称为局部感受野。

CNN运行于局部输入区域的基本操作包括卷积(Convolution)、激活函数(Rectified Linear Units, ReLu)和池化(Pooling),这些操作仅依赖于相关的空间坐标[43]。记 为某层上坐标 的数据向量,下一层中坐标为 的数据向量为 , 可由以下公式计算:  

(2-2)

式中: 为卷积核的大小,s为步长或降采样系数,  决定层的类型:矩阵相乘对应卷积层或者平均池化层;空间域最大值对应最大池化层;非线性函数对应激活函数层。

(1)卷积

研究表明,自然图像某一部分的统计特性与其他部分统计特性相同,因此CNN网络在图像某一部分学习到的特征也能用在图像其他部分上[44]。在CNN网络对一张图像进行卷积运算时,对于图像上的所有位置可以采用相同的卷积核进行卷积运算。在卷积层,卷积核与前一层得到的特征图进行卷积,卷积操作的计算公式如下:

           (2-3)

式中, 为 的邻域.

(2)激活函数

卷积神经网络中每一层的特征图经常与前一层的多个特征图有关,是前一层特征图的卷积结果经过激活函数后得到的。CNN网络中常用的激活函数有ReLu函数、Sigmoid函数和双曲正切函数,其计算公式如下:

(3)池化

在CNN网络完成卷积特征提取之后,把每个隐藏单元提取到的特征看作成一个矩阵,并将该矩阵上划分成几个不重叠的区域,计算划分后的每个区域内特征的平均值或最大值,然后用计算得到的平均值或最大值进行后续的训练,这个过程就是池化。上述采用均值和最大值计算区域特征的池化方法分别称为均值池化和最大值池化。

2.3卷积神经网络在图像分割领域的应用
卷积神经网络自从在手写字体识别领域获得巨大突破后[45],逐渐开始应用在图像处理领域中。CNN网络在ImageNet比赛中的杰出表现[46]表明其在图像特征提取、图像分类等图像处理领域拥有巨大的潜能。目前,CNN网络已广泛应用于医学图像分割中。

Wu, Xundong等人[47]提出了基于迭代的卷积神经网络的细胞膜分割方法,通过在细胞膜检测概率图上迭代使用卷积神经网络算法,细胞膜分割精度有了一定的提升。曹贵宝等人[48]提出了用卷积神经网络和随机森林分类器相结合的方法实现了对神经细胞图像的分割,用随机森林分类器代替了传统的softmax分类器,实验中分别训练卷积神经网络模型和分类器模型,并用其学习到的特征训练随机森林分类器,最后完成电子显微图像的神经细胞膜的分割。实验结果的分割准确度明显高于传统的分割算法SVM,而且用随机森林做分类器比用传统的softmax做分类器效果也要好一些。

CERNAZANUGLAVAN等人[49]提出使用卷积神经网络分割X射线图像中的骨骼结构,通过使用四种不同的卷积神经网络提取骨骼X射线图像的图像特征,并将提取到的图像特征用softmax分类器进行分类,从而实现骨骼结构的分割。实验通过对比表明,第四种网络卷积神经网络结构的分割准确率更高。

Su, Hai 等人[50]提出了一种快速扫描卷积神经网络的方法,用于乳腺磁共振图像的分割。与传统卷积神经网络结构不同,该文献在卷积层采用卷积核去卷积整张图像或者上一卷积层提取到的特征图,并重新排列最大池化层,从而减少冗余计算。实验表明,该文献提出的基于快速扫描卷积神经网络的分割方法大大提高的图像分割速度,并保证了分割精度的不变,对乳腺癌实时诊断提出了技术支持。

卷积神经网络在进行图像分割操作时,因其具有优良的特征提取能力和良好的特征表达能力,不需要人工提取图像特征或对图像进行过多预处理,因此近年来CNN网络在医学影像(MRI、CT、X射线等)分割领域以及辅助诊断方面取得了巨大成功[51]。

 

3深度学习在医学图像分割中的应用
3.1FCN
传统的基于卷积神经网络的分割方法的做法通常是:为了对一个像素分类,使用该像素周围的一个图像块作为卷积神经网络的输入用于训练和预测。这种方法有几个缺点:一是存储开销很大。例如对每个像素使用的图像块的大小为15x15,则所需的存储空间为原来图像的225倍。二是计算效率低下。相邻的像素块基本上是重复的,针对每个像素块逐个计算卷积,这种计算也有很大程度上的重复。三是像素块大小的限制了感知区域的大小。通常像素块的大小比整幅图像的大小小很多,只能提取一些局部的特征,从而导致分类的性能受到限制。

针对以上问题, Long Jonathan等人[52]2015年提出全卷积网络(FullyConvolutional Networks, FCN)结构。FCN可以对图像进行像素级的分类,从而解决了语义级别的图像分割问题。与经典的卷积神经网络在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+softmax 输出)不同,全卷积网络可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征图进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类,完成最终的图像分割。FCN的网络结构如图 1 所示。

图1  FCN网络结构

 

在FCN网络结构的基础上,Korez 等人[53]提出了3D FCN网络结构,并将3D FCN网络分割出的脊椎结构用形变模型算法进行优化,进一步提高了脊柱MR图像的分割准确率。Zhou等人[54]将FCN算法和多数投票算法相结合,在人体躯干CT图像中分割出了19个目标。在网络训练过程中,将经过每一个像素点的矢状面、轴状面、冠状面的CT图像分别输入至2D FCN网络进行训练,并用3D Majority Voting算法对三幅图像的分割结果进行表决,得到最后的分割结果。Moeskops等人[55]采用脑部MRI、心肌MRI和冠状动脉在心脏CT血管造影(CTA)中的冠状动脉图像同时训练一个FCN网络,使得训练好的网络可同时用于这三类目标的分割。

FCN在对图像进行分割时,上采样层将特征恢复到原图像的大小,此过程会导致像素定位不精确,从而影响分割结果的准确性。为了解决这一问题,许多研究者采用MRF算法[56]或CRF算法[58]对FCN输出的分割结果进行改进,进一步优化分割结果。

 

3.2U-net
2015年,OlafRonneberger等人[64]提出了U-net网络结构,U-net是基于FCN的一种语义分割网络,适用于做医学图像的分割。

U-net网络结构与FCN网络结构相似,也是分为下采样阶段和上采样阶段,网络结构中只有卷积层和池化层,没有全连接层,网络中较浅的高分辨率层用来解决像素定位的问题,较深的层用来解决像素分类的问题,从而可以实现图像语义级别的分割。与FCN网络不同的是,U-net的上采样阶段与下采样阶段采用了相同数量层次的卷积操作,且使用skip connection结构将下采样层与上采样层相连,使得下采样层提取到的特征可以直接传递到上采样层,这使得U-net网络的像素定位更加准确,分割精度更高。此外,在训练过程中,U-net只需要一次训练,FCN为达到较精确的FCN-8s结构需要三次训练,故U-net网络的训练效率也高于FCN网络。

U-net网络结构如图2所示, 蓝色箭头代表卷积和激活函数, 灰色箭头代表复制剪切操作, 红色箭头代表下采样, 绿色箭头代表反卷积,conv 1X1代表卷积核为1X1的卷积操作。从图中可以看出,U-net网络没有全连接层,只有卷积和下采样。U-net可以对图像进行端到端的分割,即输入是一幅图像, 输出也是一幅图像。

图2  U-net网络结构

 

U-net网络提出后,在医学图像分割领域表现优秀,许多研究者均采用U-net网络结构做医学图像分割,并在U-net网络结构基础上提出改进。Çiçek等人[65]提出3D U-net网络结构,该结构通过输入3D图像连续的2D切片序列实现3D图像分割。Milletari等人[66]提出了U-net网络结构的一种3D变形结构V-net,V-net结构使用Dice系数损失函数代替传统的交叉熵损失函数,且使用3D卷积核对图像进行卷积,通过1x1x1的卷积核减少通道维数。Drozdzal等人[67]提出在U-net网络结构中不仅可以使用长跳跃连接结构,也可以使用短跳跃连接结构。

在病灶分割任务中,深度学习算法需要完成目标识别、器官分割和组织分割等多项任务,因此分割过程中应结合图像的全局信息和局部信息来实现病灶的准确分割,Kamnitsas等人[68]和Ghafoorian等人[69]都提出使用多尺度卷积来提取图像全局信息和局部信息。此外,Wang等人[70]提出一种伤口图像分析系统,先用U-net网络对伤口图像进行分割,再用SVM分类器对分割出的伤口图像进行分类,判断伤口是否感染,最后用GP回归算法对伤口愈合时间进行预测。Brosch等人[71]使用U-net网络对脑部MRI中的脑白质病灶进行分割,并在U-net网络的第一层卷积和最后一层反卷积之间加入跳跃连接结构,使得该网络结构在训练数据较少的情况下仍得到了很好的分割结果。

 

3.3RNN
循环神经网络(Recurrent Neural Networks,RNN)是为离散序列分析而开发的,已经在众多自然语言处理(Natural Language Processing,NLP)中取得了巨大成功以及广泛应用[72]。传统的神经网络假定不同输入和输出之间是相互独立的,网络中不存在反馈连接,而RNN网络结构中至少包含一个反馈连接(自循环),即假定当前输出不仅与当前输入有关,也与先前输出有关,所以RNN适合于解决时间处理和顺序学习问题[73]。

在实际训练过程中,梯度消失的问题使得传统RNN在实际中很难处理长期依赖[75],而长短期记忆网络(Long ShortTerm Memory,LSTM)作为一种 RNN 的特殊类型,则绕开了这些问题,可以从学习到长期依赖关系。LSTM 由Hochreiter等人[76]提出,并在近期被Alex Graves[77]进行了改良和推广。Cho 等人[78]提出在LSTM网络结构中加入门控复发单元,可对LSTM网络结构进行简化。在很多实际问题中,LSTM 都取得相当巨大的成功,并得到了广泛的使用。

虽然RNN在最初提出时,网络输入为一维向量,但在近几年的应用中,RNNs越来越多地应用于图像处理。在自然图像中,像素级的RNN被用作自回归模型,生成模型最终可以产生类似于训练集样本的新图像。

对于医疗应用而言,RNN可用于医学图像分割问题。 Stollenga等人[79]首次在六个方向上使用3D LSTM-RNN对脑部MR图像进行分割,用金字塔方式重新排列MD-LSTM中传统的长方体计算顺序,使得网络可以在GPU上并行训练,大大提高了网络训练效率,并在MRBrainS挑战中取得了很好的分割结果。Andermatt等人[80]使用带有门控单元的3D RNN网络分割脑MR图像中的灰质和白质,结合数据预处理和后处理操作,进一步提高了分割准确率。Chen等人[81]提出了一个基于FCN和RNN的三维图像分割新框架,这是第一个明确利用3D图像各向异性的DL分割框架。使用来自ISBI神经元结构分割挑战的数据集和3D真菌图像进行评估,他们的方法比已知的基于DL的3D分割方法在分割准确率上更胜一筹。Poudel等人[82]提出了循环全卷积网络(RFCN),将解剖学检测和图像分割将结合,形成一个端到端的网络结构,从而大大缩短了计算时间,简化了分割流水线,并为实时应用提供了可能。

 

4未来发展方向
4.1加强领域间合作
随着计算机视觉及人工智能领域的发展,医学图像分割的准确率不断上升,为医学诊断提供了极大的帮助。然而,由于人工智能科学家不了解临床需求,临床医生不了解人工智能具体技术,导致人工智能不能很好地满足临床具体需求[83]。为了促进人工智能在医学领域的应用,应加强临床医生与机器学习科学家的广泛合作。这种合作将解决机器学习研究人员无法获得医学数据的问题,也可以帮助机器学习研究者开发出更符合临床需求的深度学习算法,应用到计算机辅助诊断设备中,从而提高诊断效率和准确率。

4.2医学影像数据共享
深度学习算法的训练需要大量的数据集支持,然而,与自然图像相比,带注释的医学图像相对稀缺,且标注成本较高。由于医学领域的敏感性和特殊性,医学数据的注释需要大量专家手动完成,这需要投入大量的人力物力,然而即使在这种情况下,由于病例的复杂性和图像本身模糊等原因,也不能保证标注的完全准确[84]。为了克服这一问题,需要不同医疗服务者共享数据资源,或建立医学影像知识库,为人工智能研究者们提供更多的数据支持。

4.3深度学习技术的进步
目前,大多数医学图像分割采用的是有监督的深度学习算法,然而,针对某些缺乏大量数据支持的罕见疾病,有监督的深度学习算法便无法发挥其性能。为了克服数据缺乏或数据不可用的问题,对于深度学习算法的研究可以从有监督领域转移到半监督或无监督领域[85]。如何在医疗领域有效地使用半监督和无监督算法,同时又不影响医疗系统的准确性,这是目前很多研究者正在研究的一个问题,但却没有提供被临床接纳的解决方案,这将是一个需要被继续研究的方向。

 

5 总结
深度学习算法在医学图像处理领域具有重要的理论意义和实际应用价值。本文从医学图像分割的基本概念出发,详细阐述了不同医学影像的特点以及分割难点。然后介绍了深度学习的基本原理及适用于进行图像处理的卷积神经网络算法,并详细介绍了FCN、U-net、RNN三种网络结构和它们在医学图像分割领域的应用。最后从加强领域间交流合作、医学影像数据共享、深度学习技术的进步这三个方面对深度学习技术在医学图像处理领域的未来发展进行展望。深度学习算法的发展必然会对医学图像分割的发展起到积极的促进作用。

总之,借助大数据的潮流,结合人工智能自身潜力,争取深度学习算法在医学领域取得更大的进步并早日实现智能医疗的初衷。



原文:https://blog.csdn.net/weixin_41783077/article/details/80894466 
 

没有更多推荐了,返回首页