2018-07-03 10:15:34 weixin_41783077 阅读数 32496
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1149 人正在学习 去看看 CSDN讲师

(自己写的,需要转载请联系作者,或者标明出处呀,欢迎加微信交流:wx604954)

 

摘要:医学图像分割是决定医学图像在临床诊疗中能否提供可靠依据的关键问题。医学图像分割技术的发展不仅影响到医学图像处理中其他相关技术的发展,如可视化、三维重建等,而且在生物医学图像的分析中也占有极其重要的地位。近年来,由于深度学习算法在医学图像分割中的应用, 医学图像分割技术取得了显著的进展。在本文中,我们讨论了用于医学图像分割最先进的深度学习架构及其优化。在最后一节中,我们讨论了深度学习算法在医学图像分割领域的未来发展及面临的挑战。

 

关键词: 深度学习;卷积神经网络;图像分割;医学图像

 

0引言

随着医学影像学设备的快速发展和普及,成像技术包括磁共振成像(MR)、计算机断层扫描(CT)、超声、正电子发射断层扫描(PET)等,成为医疗机构开展疾病诊断、手术计划制定、预后评估、随访不可或缺的设备。全世界每天都产生大量的医学影像学信息,有报道显示全世界医学影像信息量占全世界信息总量的1/5以上[1]。医学图像处理是分析医学图像的首要步骤,有助于使图像更加直观、清晰,提高诊断效率,因此国内外都十分重视医学影像处理[2]。图像分割是图像处理的重要环节,也是难点,是制约三维重建等技术应用的瓶颈性问题[3]。近年来,由于深度学习方法的迅速发展,基于深度学习的图像分割算法在医学图像分割领域取得了显著的成就。

深度学习是机器学习领域中一系列试图使用多重非线性变换对数据进行多层抽象的算法,不仅学习输入和输出之间的非线性映射,还学习输入数据向量的隐藏结构[4],以用来对新的样本进行智能识别或预测。20世纪80年代末期,用于人工神经网络的反向传播算法的发明掀起了基于统计模型的机器学习热潮[5],20世纪90年代,浅层学习掀起机器学习的第一次浪潮[6],这些浅层结构虽然相比于过去基于人工规则的系统展现了很大的优越性,但对于处理复杂的问题,表现出特征学习能力不足、维数灾难、易陷入局部最优等缺点[7]。针对上述问题,2006年,Hinton在《Science》上首次提出“深度学习”并掀起了机器学习的第二次浪潮[8],多隐层的网络具有优异的特征学习能力,学习到的特征对数据有更本质的刻画。深度学习在医学图像分割方面的突破对于医学领域的发展至关重要[9]。

                                                                                                            

1. 医学图像分割

医学成像有多种图像模态,诸如MR、CT、PET、超声成像等等。成像可以获得反映二维和三维区域人体的生理和物理特性的图像,本文的内容主要侧重于MR和CT成像的特点和临床应用。二维图像中的每个元素称为像素,三维区域中每个元素称为体素,在某些情形下,可以把三维图像表示为一系列的二维切片进行观察,优点是计算复杂度低且需要的内存较小。

1.1 MR图像

磁共振成像(MRI)是无线电成像领域中使用最广泛的技术。作为一种动态且灵活的技术,MRI可以实现多变的图像对比度,该过程的实现是通过使用不同的脉冲序列和改变成像参数对应纵向松弛时间(T1)和横向松弛时间(T2),T1加权和T2加权成像的信号强度与特定组织的特征有关[10]。MR成像中,图像的对比度依赖于相位对比脉冲序列参数,最常见的脉冲序列是T1加权和T2加权自旋回波序列[12]。通过MR成像可以观察大脑、肝脏、胸、腹部和骨盆的结构细节,这有利于诊断检测或治疗[13]。

MRI对软组织有很好的成像能力;有非常高的分辨率;具有较高的信噪比;利用不同的脉冲序列可以得到对比度多变的多通道图像,进而用于不同解剖结构的目标分割和分类[14]。然而,在MRI中存在多种伪影,如部分容积、随机场噪声、强度不均匀性、梯度、运动、环绕、吉布斯振铃、磁化性等[15]。此外,相比于CT图像,MRI的获取需要相当长的时间,且通常条件下很难得到统一的图像质量。

1.2 CT图像

医学CT成像设备使用X射线(一种电磁波)得到人体的结构和功能信息。CT影像是基于X射线吸收剖面的重构图像,由于不同物质和组织吸收X射线能力不同,因此X射线可用于诊断[16]。CT成像作为当前多类疾病实体诊断的金标准,广泛应用于大脑、肝脏、胸部、腹部、骨盆、脊柱等身体部位以及CT血管造影的早期诊断筛查[17]。但是与MR图像相比较,CT图像敏感性和特异性相对较差。

CT成像中的伪影[18]包括:部分容积效应、条形伪影、运动伪影、束硬化伪影、环状伪影、金属伪影等。由于这些伪影的存在给CT图像分割带来了一定的难度,不同组织部位分割精度也不一样[19]。

1.3 医学图像分割的特点

医学图像分割是医学图像处理与分析领域的复杂而关键的步骤,其目的是将医学图像中具有某些特殊含义的部分分割出来,并提取相关特征,为临床诊疗和病理学研究提供可靠的依据,辅助医生做出更为准确的诊断[20]。图像分割过程是把图像分割成多个区域,这些区域内部有类似的性质,如灰度、颜色、纹理、亮度、对比度等。医学图像分割的目标是(以放射治疗为例)[21]:(1)研究解剖结构;(2)识别感兴趣区域(即定位肿瘤、病变和其他异常组织);(3)测量组织体积;(4)观察肿瘤生长或治疗中肿瘤体积的减少,为治疗前的计划和治疗中提供帮助;(5)辐射剂量计算。

从医学图像中自动分割出目标是个艰巨的任务,因为医学图像具有较高的复杂性且缺少简单的线性特征;此外分割结果的准确率还受到部分容积效应、灰度不均匀性、伪影、不同软组织间灰度的接近性等因素的影响[22]。针对通常采用的校正技术来说,可以将MR和CT图像中的伪影分类为[23]:(1)需要适当的滤波算法处理的伪影,如噪声伪影、敏感性伪影、存在非清晰边缘的伪影;(2)需要适当图像修复算法的伪影,如运动伪影;(3)需要特定算法的伪影,如部分容积和灰度不均匀性。图像处理领域尽管在已存在很多算法处理上述问题,但是医学图像分割仍然是个复杂和具有挑战性的问题。从医学图像处理过程的角度来看,基于灰度和基于纹理特征技术的分类是常规的分类方式[24]。此外,用机器学习的工具去优化这些图像分割算法是当前较受关注的技术[25].

CT和MR图像的分割主要涉及3个相关问题:变化的噪声、像素灰度分类的不确定性及灰度的非均衡性[26]。图像中单一组织的灰度水平一般是逐渐变化的,且其概率密度服从特定的分布函数,该组织对应的图像区域包含有限的像素(或体素)且满足部分容积平均,然而该区域中的单个像素(或体素)的灰度不与任何一类一致,往往被看作混合组织类[28]。

CT和MR图像分割常用的一些方法有:基于阈值[29]、基于区域[30]、基于形变模型[31]、基于模糊[32]及基于神经网络[34]。

当前,基于深度学习的方法已在图像分割领域取得了显著成就,其分割准确率已超过了传统分割方法。本文在对近几年深度学习和医学图像分割文献研习的基础上,对深度学习方法和常用的图像分割算法进行了深入的研究和比较,总结了各种深度学习方法的优缺点及其在医学图像分割领域的应用,最后展望了深度学习在医学图像分割领域的未来发展。

 

2. 深度学习

2.1 深度学习与图像处理

传统的图像处理技术主要包括特征提取和分类器两部分,特征提取算法的设计复杂性与应用局限性、稳定性,以及特定的特征提取算法与特定的分类器相结合的多样性限制着图像处理技术的发展[36]。神经网络的出现,使端到端的图像处理成为可能,当网络的隐藏层发展到多层时便称之为深度学习,但同时需要用逐层初始化技术解决深层次网络训练难度大的问题,之后深度学习便成为时代的主角[37]。而卷积神经网络(Convolutional Neural Network,CNN)便是深度学习与图像处理技术相结合所产生的经典模型,实现该模型的网络实例在特定的图像问题处理上都卓有成效[38]。

神经网络之所以能和图像领域相结合,并呈现巨大的发展前景,是有生物学依据的。人类视觉信息处理机制的发现,是 19 世纪 19 年代生物学界的重大发现之一,它证明了大脑可视皮层是分级存在的。人的视觉系统是一个反复抽象和迭代的过程。而卷积神经网络,就模拟了这个过程。首先,每一个卷积层,便是将具体信息做抽象的过程,而多个卷积层串联操作,便是将上一层的抽象结果再做抽象处理的过程,称之为迭代[39]。在这个抽象迭代的过程中,不断抽取大脑可感知的高维度特征。如当一幅图像经过视网膜进入视野,首先会将光线像素等信息抽象为图像边缘信息,然后再抽象为目标物体的某一部位,再抽象为物体轮廓形成对整个目标的感知[41]。

2.2 卷积神经网络

卷积神经网络(CNN)是一种多阶段的、全局可训练的人工神经网络模型,可以经过少量预处理,从原始数据中学习到抽象的、本质的、深层的特征[42]。在CNN中,每一层的数据都是大小为h×w×d的三维数组,其中h、w是空间维度,d是特征维数或通道维数。在图像处理领域,h×w代表图像尺寸,d代表颜色通道。CNN高层中的每一点对应于图像中的一块区域,称为局部感受野。

CNN运行于局部输入区域的基本操作包括卷积(Convolution)、激活函数(Rectified Linear Units, ReLu)和池化(Pooling),这些操作仅依赖于相关的空间坐标[43]。记 为某层上坐标 的数据向量,下一层中坐标为 的数据向量为 , 可由以下公式计算:  

(2-2)

式中: 为卷积核的大小,s为步长或降采样系数,  决定层的类型:矩阵相乘对应卷积层或者平均池化层;空间域最大值对应最大池化层;非线性函数对应激活函数层。

(1)卷积

研究表明,自然图像某一部分的统计特性与其他部分统计特性相同,因此CNN网络在图像某一部分学习到的特征也能用在图像其他部分上[44]。在CNN网络对一张图像进行卷积运算时,对于图像上的所有位置可以采用相同的卷积核进行卷积运算。在卷积层,卷积核与前一层得到的特征图进行卷积,卷积操作的计算公式如下:

           (2-3)

式中, 为 的邻域.

(2)激活函数

卷积神经网络中每一层的特征图经常与前一层的多个特征图有关,是前一层特征图的卷积结果经过激活函数后得到的。CNN网络中常用的激活函数有ReLu函数、Sigmoid函数和双曲正切函数,其计算公式如下:

(3)池化

在CNN网络完成卷积特征提取之后,把每个隐藏单元提取到的特征看作成一个矩阵,并将该矩阵上划分成几个不重叠的区域,计算划分后的每个区域内特征的平均值或最大值,然后用计算得到的平均值或最大值进行后续的训练,这个过程就是池化。上述采用均值和最大值计算区域特征的池化方法分别称为均值池化和最大值池化。

2.3卷积神经网络在图像分割领域的应用

卷积神经网络自从在手写字体识别领域获得巨大突破后[45],逐渐开始应用在图像处理领域中。CNN网络在ImageNet比赛中的杰出表现[46]表明其在图像特征提取、图像分类等图像处理领域拥有巨大的潜能。目前,CNN网络已广泛应用于医学图像分割中。

Wu, Xundong等人[47]提出了基于迭代的卷积神经网络的细胞膜分割方法,通过在细胞膜检测概率图上迭代使用卷积神经网络算法,细胞膜分割精度有了一定的提升。曹贵宝等人[48]提出了用卷积神经网络和随机森林分类器相结合的方法实现了对神经细胞图像的分割,用随机森林分类器代替了传统的softmax分类器,实验中分别训练卷积神经网络模型和分类器模型,并用其学习到的特征训练随机森林分类器,最后完成电子显微图像的神经细胞膜的分割。实验结果的分割准确度明显高于传统的分割算法SVM,而且用随机森林做分类器比用传统的softmax做分类器效果也要好一些。

CERNAZANUGLAVAN等人[49]提出使用卷积神经网络分割X射线图像中的骨骼结构,通过使用四种不同的卷积神经网络提取骨骼X射线图像的图像特征,并将提取到的图像特征用softmax分类器进行分类,从而实现骨骼结构的分割。实验通过对比表明,第四种网络卷积神经网络结构的分割准确率更高。

Su, Hai 等人[50]提出了一种快速扫描卷积神经网络的方法,用于乳腺磁共振图像的分割。与传统卷积神经网络结构不同,该文献在卷积层采用卷积核去卷积整张图像或者上一卷积层提取到的特征图,并重新排列最大池化层,从而减少冗余计算。实验表明,该文献提出的基于快速扫描卷积神经网络的分割方法大大提高的图像分割速度,并保证了分割精度的不变,对乳腺癌实时诊断提出了技术支持。

卷积神经网络在进行图像分割操作时,因其具有优良的特征提取能力和良好的特征表达能力,不需要人工提取图像特征或对图像进行过多预处理,因此近年来CNN网络在医学影像(MRI、CT、X射线等)分割领域以及辅助诊断方面取得了巨大成功[51]。

 

3深度学习在医学图像分割中的应用

3.1FCN

传统的基于卷积神经网络的分割方法的做法通常是:为了对一个像素分类,使用该像素周围的一个图像块作为卷积神经网络的输入用于训练和预测。这种方法有几个缺点:一是存储开销很大。例如对每个像素使用的图像块的大小为15x15,则所需的存储空间为原来图像的225倍。二是计算效率低下。相邻的像素块基本上是重复的,针对每个像素块逐个计算卷积,这种计算也有很大程度上的重复。三是像素块大小的限制了感知区域的大小。通常像素块的大小比整幅图像的大小小很多,只能提取一些局部的特征,从而导致分类的性能受到限制。

针对以上问题, Long Jonathan等人[52]2015年提出全卷积网络(FullyConvolutional Networks, FCN)结构。FCN可以对图像进行像素级的分类,从而解决了语义级别的图像分割问题。与经典的卷积神经网络在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+softmax 输出)不同,全卷积网络可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征图进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类,完成最终的图像分割。FCN的网络结构如图 1 所示。

图1  FCN网络结构

 

在FCN网络结构的基础上,Korez 等人[53]提出了3D FCN网络结构,并将3D FCN网络分割出的脊椎结构用形变模型算法进行优化,进一步提高了脊柱MR图像的分割准确率。Zhou等人[54]将FCN算法和多数投票算法相结合,在人体躯干CT图像中分割出了19个目标。在网络训练过程中,将经过每一个像素点的矢状面、轴状面、冠状面的CT图像分别输入至2D FCN网络进行训练,并用3D Majority Voting算法对三幅图像的分割结果进行表决,得到最后的分割结果。Moeskops等人[55]采用脑部MRI、心肌MRI和冠状动脉在心脏CT血管造影(CTA)中的冠状动脉图像同时训练一个FCN网络,使得训练好的网络可同时用于这三类目标的分割。

FCN在对图像进行分割时,上采样层将特征恢复到原图像的大小,此过程会导致像素定位不精确,从而影响分割结果的准确性。为了解决这一问题,许多研究者采用MRF算法[56]或CRF算法[58]对FCN输出的分割结果进行改进,进一步优化分割结果。

 

3.2U-net

2015年,OlafRonneberger等人[64]提出了U-net网络结构,U-net是基于FCN的一种语义分割网络,适用于做医学图像的分割。

U-net网络结构与FCN网络结构相似,也是分为下采样阶段和上采样阶段,网络结构中只有卷积层和池化层,没有全连接层,网络中较浅的高分辨率层用来解决像素定位的问题,较深的层用来解决像素分类的问题,从而可以实现图像语义级别的分割。与FCN网络不同的是,U-net的上采样阶段与下采样阶段采用了相同数量层次的卷积操作,且使用skip connection结构将下采样层与上采样层相连,使得下采样层提取到的特征可以直接传递到上采样层,这使得U-net网络的像素定位更加准确,分割精度更高。此外,在训练过程中,U-net只需要一次训练,FCN为达到较精确的FCN-8s结构需要三次训练,故U-net网络的训练效率也高于FCN网络。

U-net网络结构如图2所示, 蓝色箭头代表卷积和激活函数, 灰色箭头代表复制剪切操作, 红色箭头代表下采样, 绿色箭头代表反卷积,conv 1X1代表卷积核为1X1的卷积操作。从图中可以看出,U-net网络没有全连接层,只有卷积和下采样。U-net可以对图像进行端到端的分割,即输入是一幅图像, 输出也是一幅图像。

图2  U-net网络结构

 

U-net网络提出后,在医学图像分割领域表现优秀,许多研究者均采用U-net网络结构做医学图像分割,并在U-net网络结构基础上提出改进。Çiçek等人[65]提出3D U-net网络结构,该结构通过输入3D图像连续的2D切片序列实现3D图像分割。Milletari等人[66]提出了U-net网络结构的一种3D变形结构V-net,V-net结构使用Dice系数损失函数代替传统的交叉熵损失函数,且使用3D卷积核对图像进行卷积,通过1x1x1的卷积核减少通道维数。Drozdzal等人[67]提出在U-net网络结构中不仅可以使用长跳跃连接结构,也可以使用短跳跃连接结构。

在病灶分割任务中,深度学习算法需要完成目标识别、器官分割和组织分割等多项任务,因此分割过程中应结合图像的全局信息和局部信息来实现病灶的准确分割,Kamnitsas等人[68]和Ghafoorian等人[69]都提出使用多尺度卷积来提取图像全局信息和局部信息。此外,Wang等人[70]提出一种伤口图像分析系统,先用U-net网络对伤口图像进行分割,再用SVM分类器对分割出的伤口图像进行分类,判断伤口是否感染,最后用GP回归算法对伤口愈合时间进行预测。Brosch等人[71]使用U-net网络对脑部MRI中的脑白质病灶进行分割,并在U-net网络的第一层卷积和最后一层反卷积之间加入跳跃连接结构,使得该网络结构在训练数据较少的情况下仍得到了很好的分割结果。

 

3.3RNN

循环神经网络(Recurrent Neural Networks,RNN)是为离散序列分析而开发的,已经在众多自然语言处理(Natural Language Processing,NLP)中取得了巨大成功以及广泛应用[72]。传统的神经网络假定不同输入和输出之间是相互独立的,网络中不存在反馈连接,而RNN网络结构中至少包含一个反馈连接(自循环),即假定当前输出不仅与当前输入有关,也与先前输出有关,所以RNN适合于解决时间处理和顺序学习问题[73]。

在实际训练过程中,梯度消失的问题使得传统RNN在实际中很难处理长期依赖[75],而长短期记忆网络(Long ShortTerm Memory,LSTM)作为一种 RNN 的特殊类型,则绕开了这些问题,可以从学习到长期依赖关系。LSTM 由Hochreiter等人[76]提出,并在近期被Alex Graves[77]进行了改良和推广。Cho 等人[78]提出在LSTM网络结构中加入门控复发单元,可对LSTM网络结构进行简化。在很多实际问题中,LSTM 都取得相当巨大的成功,并得到了广泛的使用。

虽然RNN在最初提出时,网络输入为一维向量,但在近几年的应用中,RNNs越来越多地应用于图像处理。在自然图像中,像素级的RNN被用作自回归模型,生成模型最终可以产生类似于训练集样本的新图像。

对于医疗应用而言,RNN可用于医学图像分割问题。 Stollenga等人[79]首次在六个方向上使用3D LSTM-RNN对脑部MR图像进行分割,用金字塔方式重新排列MD-LSTM中传统的长方体计算顺序,使得网络可以在GPU上并行训练,大大提高了网络训练效率,并在MRBrainS挑战中取得了很好的分割结果。Andermatt等人[80]使用带有门控单元的3D RNN网络分割脑MR图像中的灰质和白质,结合数据预处理和后处理操作,进一步提高了分割准确率。Chen等人[81]提出了一个基于FCN和RNN的三维图像分割新框架,这是第一个明确利用3D图像各向异性的DL分割框架。使用来自ISBI神经元结构分割挑战的数据集和3D真菌图像进行评估,他们的方法比已知的基于DL的3D分割方法在分割准确率上更胜一筹。Poudel等人[82]提出了循环全卷积网络(RFCN),将解剖学检测和图像分割将结合,形成一个端到端的网络结构,从而大大缩短了计算时间,简化了分割流水线,并为实时应用提供了可能。

 

4未来发展方向

4.1加强领域间合作

随着计算机视觉及人工智能领域的发展,医学图像分割的准确率不断上升,为医学诊断提供了极大的帮助。然而,由于人工智能科学家不了解临床需求,临床医生不了解人工智能具体技术,导致人工智能不能很好地满足临床具体需求[83]。为了促进人工智能在医学领域的应用,应加强临床医生与机器学习科学家的广泛合作。这种合作将解决机器学习研究人员无法获得医学数据的问题,也可以帮助机器学习研究者开发出更符合临床需求的深度学习算法,应用到计算机辅助诊断设备中,从而提高诊断效率和准确率。

4.2医学影像数据共享

深度学习算法的训练需要大量的数据集支持,然而,与自然图像相比,带注释的医学图像相对稀缺,且标注成本较高。由于医学领域的敏感性和特殊性,医学数据的注释需要大量专家手动完成,这需要投入大量的人力物力,然而即使在这种情况下,由于病例的复杂性和图像本身模糊等原因,也不能保证标注的完全准确[84]。为了克服这一问题,需要不同医疗服务者共享数据资源,或建立医学影像知识库,为人工智能研究者们提供更多的数据支持。

4.3深度学习技术的进步

目前,大多数医学图像分割采用的是有监督的深度学习算法,然而,针对某些缺乏大量数据支持的罕见疾病,有监督的深度学习算法便无法发挥其性能。为了克服数据缺乏或数据不可用的问题,对于深度学习算法的研究可以从有监督领域转移到半监督或无监督领域[85]。如何在医疗领域有效地使用半监督和无监督算法,同时又不影响医疗系统的准确性,这是目前很多研究者正在研究的一个问题,但却没有提供被临床接纳的解决方案,这将是一个需要被继续研究的方向。

 

5 总结

深度学习算法在医学图像处理领域具有重要的理论意义和实际应用价值。本文从医学图像分割的基本概念出发,详细阐述了不同医学影像的特点以及分割难点。然后介绍了深度学习的基本原理及适用于进行图像处理的卷积神经网络算法,并详细介绍了FCN、U-net、RNN三种网络结构和它们在医学图像分割领域的应用。最后从加强领域间交流合作、医学影像数据共享、深度学习技术的进步这三个方面对深度学习技术在医学图像处理领域的未来发展进行展望。深度学习算法的发展必然会对医学图像分割的发展起到积极的促进作用。

总之,借助大数据的潮流,结合人工智能自身潜力,争取深度学习算法在医学领域取得更大的进步并早日实现智能医疗的初衷。

 

 

 

参考文献

 

 

2017-12-03 17:59:45 qq_37572875 阅读数 3598
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1149 人正在学习 去看看 CSDN讲师

医学领域

医学影像的特点

  1. 高依赖成像设备和成像环境;图像种类多差异,很难融合
  2. 图像像素大,信噪比低且图像分辨率低
  3. 生物个体存在差异性、易变性。

医学病症大致分类

从人类结构来分类,脑(脑血管病,神经’性疾病 阿尔茨海默病,帕金森病,癫痛] ,精神疾病 拥郁症,精神分裂症],脑瘤等)、胸(心脏疾病,肺结节/肺癌,乳腺结节/乳腺癌等)、颈(颈动脉检测,甲状腺癌等)、眼(糖尿病眼病等)、腹部(胃癌)、男性盆骨(前列腺癌等)、女性盆骨(子宫颈癌等)。
脑部疾病是颅内组织器官(脑膜血管、大脑、小脑、脑干、颅神经等)的炎症、血管病、肿瘤、变性、畸形、遗传病、免疫性疾病、营养代谢性疾病、中毒、外伤、寄生虫病等的总称。胸部疾病主要分布在肺、乳腺、食管、气管、支气管等部位。
腹部包括肝、腆、脾、肾等多个器官,腹部疾病也主要集中在这些器官的损伤上。常见的腹部疾病包括:肝癌、肝炎、前列腺癌、前列腺炎、急性阑尾炎、子宫颈癌等。
常见的眼科疾病有:中心浆液性视网膜病变、干眼症、交感性眼炎、夜盲症、失明眼部结构、弱视、散光、沙眼、白内障、糖尿病视网膜病变、结膜炎、老花眼、色盲、虹膜异色症、视网膜色素变性、视网膜中央动脉阻塞、视网膜脱落、近视、远视、针眼、雪盲症、震粒肿、青光眼、飞蚊症等

深度学习在医学领域的应用

深度学习应用在医学上的问题

  1. 深度神经网络可以被有效地用在医学任务上吗?
  2. 数据的缺乏,数据的标记成本太高,transfer learning和 fine-tuning被提出来,但是从一般意象到医学领域的迁移学习是否相关?
  3. 我们是否可以单独依靠学习的特征,还是可以将它们与人工制作的功能结合起来完成任务?

深度学习在医学影像方面的实际应用

a. 图像分割

Middleton等介绍采用结合神经网络(多层感知器)和snake模型的算法对肺的MR图像进行分割。自动提取脑胶质瘤病灶方法对于脑胶质瘤手术、放射治疗和疗效评估,以及脑胶质瘤放射组学数据自动化分析和进行智能化决策非常重要。Pereira等报道对脑胶质瘤MR图像病灶采用卷积神经网络(CNNs)的方法来自动提取病灶,克服人工处理存在的费时、重复性差的缺点。Zhao和Jia介绍类似的CNNs方法从脑胶质瘤MR图像自动提取病灶,并且取得满意的结果。采用CNNs技术在一定程度上初步解决了病灶自动提取的技术问题。Liang等采用CNNs技术对脑梗塞病灶MRI扩散加权图像(Diffusion-weighted MR Imaging,DWI)进行自动化提取,为建立智能化决策提供有效手段。Dolz等介绍采用CNNS对MRI脑3D图像亚皮质进行自动提取方法,并且与标准数据库进行比较,结果表明与标准数据库结果有很好的一致性。

b. 图像配准

在对不同模式医学图像或多参数医学图像进行图像融合前,必须对图像进行精确配准。Wu等介绍采用非监督学习方法提取图像特征,并进行图像配准。在Wu等研究结果的基础上,Shun等提出采用卷积神经网络回归的方法来进行2D或3D图像配准。先对局部特征进行训练,然后学习将复杂特征采用分层方式进行分解。采用该方法对潜在的临床应用进行定量化评估。Ghesu等介绍采用深度强化学习的方法对CT图像配准的技术,明显提高图像配准的精准度。

c. 病灶检测和辅助诊断

计算机辅助病灶探测Computer-Aided Detection,CAD;或诊断(Computer-Aided Diagnosis, CADx)帮助临床医师明显提高临床诊断的准确性。Huynh等用CNN技术提高对乳腺癌辅助诊断(ROC曲线下面积AUC:0.86)效能。Wang 等报道168例肺癌PET/CT扫描患者,选择1397个淋巴结,以病理作为标准,判断有无转移,并选择4种机器学习和深度学习CNN方法,以10倍数据作为训练组。最后将CNN方法与医师阅读片方法进行比较。结果表明传统方法优于纹理特征分析方法,CNN方法优于医师阅片方法,但是CNN与医师阅读方法之间没有显著差异。机器学习方法具有高的灵敏度,但是特异性比较低。深度学习还有一个优势就是不需要对病灶进行分割,降低误差并明显提高工作效率。

d. 影像组学生物标志物提取

过深度学习技术能够加速将影像组学应用到临床实际工作中去。Parmar等在对影像组学研究经验的基础上,采用深度学习技术理念,对464例肺癌患者CT图像研究。他们将肺癌病灶分成4类,共提取440个影像特征。464例其中310例作为训练组,154例作为验证组,并选择12个分类器对14个特征进行分析,优化分类器和图像特征,验证机器具有很好的诊断效能。Velazquez等介绍肺癌CT图像影像特征与突变基因(EGFR、KRAS)之间的联系。
image

医学影像模型框架的应用

SAE(stack auto-encoder)

无监督学习方案,得到特征描述为主

RBM(restricted Boltzmann machine)

无监督学习方案,与SAE 类似

CNN(convolutional neural network)

卷积神经网络,可以用来提取图片特征或者直接完成分类检测等任务

RNN(recurrent neural network)

循环神经网络,用来获取时序上的信息,可以+-在CT等逐行扫描图像中使用

U-net (with a single downsampling stage)

类似于带short-cut的全卷机网络,用来融合不同尺度的图像的特征

FCNN(fully convolutional neural network)

全卷机网络,可以获取与原图相同分辨率的图片,常用于分割等任务

FRCNN(Faster Region-proposal based neural network)

一种快速的深度学习检测网络框架,可用于检测图像中的多种物体

在脑部疾病方面的应用

阿尔茨海默病 (Alzheim ‘s Disease , AD) ,是一种起病隐匿的进行性发展的神经系统退行性疾病,最常见的临床特征是患者在晚年陷入痴呆状态。为了提取其脑图像特征,fiu等问从 MRI PET 扫描中提取 83 个感兴趣区域,并使用多模态融合创建一组特征来训练堆叠的去噪自动编码器,文中提出的数据融合策略遵循训练自动编码器的去噪方式,理论上增加了特征学习的难度,但控制了过拟舍。 Suk 用堆叠自编码从 MRI PET 和脑脊液化SF) 图像中独立提取特征;充分考虑了它们的简易精神状态检查 (MMSE)AD 评估表比较组合这些特征;并根据选择的 个卫在 I, PETCSF 特征与多核 SVM 进行 AD 分类。后来,其又采用多模式深度玻尔兹曼机从每个选定的 MRI PET 扫描贴片中提取一个特征,并用 SVM 的集合预测 ADo Payan 基于SAE 的预训练,提出了一种用于 AD 诊断的 3D 卷积神经网络。随机选择 3DMRI 扫描片来预训练 SAE ,训练的 SAE重用于 3D-CNN 的卷积过滤预训练。最后,对 3D-CNN 的全连接层进行微调分类,但是微调需要在训练阶段以牺牲大量的计算复杂度为代价。然而, Hosseini-AS!等分析基于l\但 的特征提取技术限制了 AD 分类的准确性,因为从脑l\但 获得的体素特征非常嘈杂,这些数据需要经过平滑和聚类后才能用于分类,这样经过处理的数据本身就缺乏准确性。为了改进上述传统的特征提取方法,他们提出了一种新的深度监督自适应 3D-CNN 网络,在该网络中, 3D-CAE习并自动提取识别 AD 特征,捕获由 AD 引起的变化。将3D-CAE 预训练的卷积滤波器进一步应用于另一个数据域集,如 Dementia 预训练后的 AD 神经影像学(简称 ADI)数据集。Sarraf 则分别针对 sMRI fMRI 使用卷积神经网络中有名的 LeNet-5 框架对 AD 样本进行训练,分别得到了 98.84% 96.85% 的准确率。
AL-Fatlawi A H ,Jabardi M 等口7J 提出使用深度信念网络(DBN) 作为有效的诊断技术,这种诊断是基于患者的语音信号建立的。 DBN 用于分类帕金森病时包括两个堆叠的限制玻璃玻兹曼机 (RBM) 和一个输出层。需要应用两个阶段的学习来优化网络的参数第一阶段是无监督学习,其使用RBM 来克服可能由于初始权重的随机值而导致的问题;第二阶段,反向传播算法被用作微调的监督学习。该系统的总体测试精度为 94% 。

2017-05-31 19:48:26 zhonghua18517 阅读数 4168
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1149 人正在学习 去看看 CSDN讲师

参考书籍《Tensorflow实战Google深度学习框架》郑泽宇等

     深度学习最早兴起于图像识别,但是在短短的几年之内,深度学习推广到了机器学习的各个领域,并且都有很出色的表现。具体领域包含图像识别、语音识别、自然语言处理、机器人、生物信息处理、化学、电脑游戏、搜索引擎、网络广告投放、医学自动诊断和金融等各大领域均有应用。

计算机视觉

计算机视觉是深度学习技术最早实现突破性成就的领域。随着2012年深度学习算法AlexNet赢得图像分类比赛ILSVRC冠军,深度学习开始被人们熟知。ILSVRC是基于ImageNet图像数据集举办的图像识别比赛,在计算机视觉领域拥有极高的影响力。从12年15年之间,通过对深度学习算法的不断探究,ImageNet图像分类的错误率以每年4%速度递减;到15年,深度学习算法的错误率仅为4%,已经成功超过人工标注的错误率5%,实现了计算机领域的一个突破。

在ImageNet数据集上,深度学习不仅突破了图像分类的技术瓶颈,同时也突破了物体识别技术的瓶颈。物体识别比图像分类的难度更高。图像分类只需判断图片中包含了哪一种物体;但在物体识别中,不仅要给出包含了哪些物体,还要给出包含物体的具体位置。13年,在ImageNet数据集上使用传统机器算法实现物体识别的平均正确率均值(mean average precision,MAP)为0.23;而在16年时,使用了6种不同深度学习模型的集成算法将MAP提高到0.66。

技术进步的同时,工业界也将图像分类、物体识别应用于各种产品中,如无人驾驶、Youtube、地图、图像搜索等。谷歌可通过图像处理技术归纳出图片中的主要内容并实现以图搜图的功能。这些技术在国内的百度、阿里、腾讯等公司已经得到了广泛的应用。

在物体识别问题上,人脸识别是一类应用非常广泛的技术。它可以应用到娱乐行业、安防以及风控行业。在娱乐行业中,基于人脸识别的相机自动对焦、自动美颜基本已成为每款自拍软件的必备功能。在安防、风控领域,人脸识别应用更是大大提高了工作效率并节省了人力成本。除此,还可用于保证账户的登陆和资金安全,如支付宝的人脸识别登陆等等。

传统机器学习算法很难抽象出足够有效的特征,使得学习模型既可区分不同的个体,又可以尽量减少相同个体在不同环境的影响。深度学习技术可从海量数据中自动学习更加有效的人脸识别特征表达。在人脸识别数据集LFW上,基于深度学习算法的系统DeepID2可以达到99.47%的正确识别率。

在计算机识别领域,光学字符识别也是使用深度学习较早的领域之一。光学字符识别,就是使用计算机程序将计算机无法理解的图片中的字符(如数字、字母、汉字等符号),转化为计算机可以理解的文本形式。如常用的MINIST手写体字库,最新的深度学习算法可以达到99.77%的正确率。谷歌将数字识别技术应用到了谷歌地图的开发中,开发的数字识别系统可以识别任意长度的数字,在SVHN数据集上可达到96%的正确率,到2013年,谷歌利用这个系统抽取了超过1亿个门牌号码,大大加速了谷歌地图的制作过程。此外,光学字符识别在谷歌图书中也有应用,谷歌图书通过文字识别技术将扫描的图书数字化,从而实现图书内容的搜索功能。

语音识别

深度学习在语音识别领域同样取得突破性进展。2009年深度学习的概念被引入语音识别领域,并对该领域产生了重大影响。短短几年之间,深度学习的方法在TIMIT数据集上将给予传统混合高斯模型(GMM)的错误率从21.7%降低到了使用深度学习模型的17.9%。到2012年,谷歌基于深度学习建立的语音识别模型已经取代了混合高斯模型,并成功将谷歌语音识别的错误率降低了20%。随着当今数据量的加大,使用深度学习的模型无论在正确率的增长数值上还是在增长比率上都要优于混合高斯模型。这样的增长在语音识别的历史上从未出现,深度学习之所以有这样的突破性进展,最主要的原因是其可以自动的从海量数据中提取更加复杂且有效的特征,而不是如混合高斯模型中需要人工提取特征

基于深度学习的语音识别已经应用到了各个领域,如同声传译系统、苹果公司推出的Srri系统,科大讯飞的智能语音输入法、百度和腾讯也开发了相关产品。同声传译系统不仅要求计算机能够对输入的语音进行识别,还要求计算机将识别出来的结果翻译成另外一门语言,并将翻译好的结果通过语音合成的方式输出。微软研发的同声传译系统已经成功应用到Skype网络电话中。

自然语言处理

在过去几年之中,深度学习已经在语言模型、机器翻译、词性标注、实体识别、情感分析、广告推荐以及搜索排序等方向取得突出性成就。深度学习在自然语言处理问题上能够更加智能、自动地提取复杂特征。在自然语言处理领域,使用深度学习实现智能特征提取的一个非常重要的技术是单词向量。单词向量是深度学习解决很多上述自然语言处理问题的基础

传统解决自然语言所表达的语义的方法主要依靠建立大量的语料库,通过这些语料库,可以大致刻画自然语言中单词之间的关系。然而语料库的建立需要花费很多人力物力,而且扩张能力有限,单词向量提供了一种更加灵活的方式来刻画单词的含义。单词向量会将每个单词表示成一个相对较低维度的向量(比如100维),对于语义相近的单词,其对应的单词向量在空间上的距离也应该接近。因而单词的相似度可用空间距离来描述。单词向量不需要人工的方式来设定,它可以从互联网海量非标注文本中学习得到

通过对自然语言中单词更好的抽象与表达,深度学习在自然语言处理的很多核心问题上都有突破性进展,比如机器翻译。根据谷歌实验的结果,在主要的语言翻译上,使用深度学习可以讲机器翻译算法的质量提高55%到85%。

情感分析是自然语言处理问题中一个非常经典的应用。情感分析最核心的问题就是从一段自然语言中判断作者对评价的主体是好评还是差评。情感分析在工业界有着非常广泛的应用。随着互联网的发展,用户会在各种不同的地方表达对于不同产品的看法。对于服务业或制造业,及时掌握用户对其产品的 或者服务的评价是提高用户满意度非常有效的途径。在金融业,通过分析用户对不同产品和公司的态度可以对投资选择提供帮助。在情感分析问题上,深度学习可以大幅提高算法的准确率。在开源的Sentiment Treebank数据集上,使用深度学习的算法可将语句层面的情感分析正确率从80%提高到85.4%;在短语层面上,可将正确率从71%提高到80.7%。



2016-11-23 20:29:41 qq_19828477 阅读数 241
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1149 人正在学习 去看看 CSDN讲师

        注:论文在网上下载

        第一次接触生物大数据,一脸懵逼状,不知从何下手,机器学习对我来说本就不那么容易,何况让我将其应用到生物大数据上。后来老师给了我几篇

这方面的综述,这是其中的一篇,个人觉得写的很不错,适合初学者,可以让我们了解一些研究现状以及未来的研究方向。鉴于我以后可能还会看,传上来的最大目的是为了方便以后自己查看,以及与大家分享,无其他目的。

2019-10-22 14:13:57 qq_35352792 阅读数 15
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1149 人正在学习 去看看 CSDN讲师

文献阅读:利用深度学习模型在生物医学文本的上下文关系中进行命名实体识别

题目

GRAM-CNN: a deep learning approach with local context for named entity recognition in biomedical text

1 背景

生物医学命名实体识别要比一般命名实体识别问题更复杂,原因为:
1、已经发现的实体数以万计,且数量还在不断增加;
2、同一个实体有许多不同的名字;
3、许多实体名字都很长;
4、生物医学文本中句子都很长。
目前存在的方法有基于词典的方法,基于规则的方法,机器学习的方法,深度学习的方法。机器学习中表现最好的是CRF(条件随机场),但它的性能很大程度上依赖于特征的选择,如正字法、形态学、基于语言学、连接词和基于词典的特征。
文章中说到目前已有的将LSTM运用到NER的方法考虑整个句子的信息,而对于一些句子中包含了和实体识别无关信息的情况,这种方法有些多余,不如利用CNN只考虑上下文几个词的信息。(但我认为考虑整个句子是由道理的,很多医学信息及其关系分布得都很分散,有时候跨句存在)
文章中提出的GRAM-CNN方法,在输入中加入了基于语言学的特征(POS tags词类),使用到了n-gram方法。

2 材料和方法

2.1 GRAM-CNN方法

1、得到词,词类标记集和字符嵌入结果。
2、将一个词的每个字母的字符嵌入结果和它对应的词嵌入结果以及词类嵌入结果聚合起来,得到一个连接向量。
3、将该连接向量输入到GRAM-CNN模型中,该模型有三个卷积核,尺寸分别为1,3,5,输出结果为每个词的局部特征。
4、上一步的输出作为CRF模型的输入,最终输出对应词的标签。
下图为该方法的整体框架。
在这里插入图片描述

2.1.1 嵌入方法

原文:During training,we fixed the word embeddings and trained POS tag embedding together with the whole system.(彷佛是词嵌入和词类标记一起训练)
词嵌入方法有一些缺陷,对于不在训练集词典中的词,将无法进行词嵌入表示。为了解决这个问题,文章加入了字符水平的嵌入方法。具体如下图所示,采用CNN结构。
在这里插入图片描述

2.1.2 GRAM-CNN

在这里插入图片描述
此图为一个示例结构,在该示例中,输入为10个单词,卷积核尺寸为3。为了得到每个单词的局部信息,文章采用和每个单词相关的特征图的信息进行计算(最大池化操作),例如和w3w_3相关的特征图为f1,f2,f3f_1,f_2,f_3,和w10w_{10}相关的特征图为f8f_8
每个单词对应的GRAM-CNN结果再经过一个两层的全连接层,得到一个对应的label。

2.1.3 CRF

若一个句子包含n个单词,用xx={x1,...,xnx_1,...,x_n}表示该句子,yy={y1,...,yny_1,...,y_n}表示该句子的label。文章使用了CRF的一个变体,它被分解成单个标签的一元势和输出标签之间的每次转换的二元势,具体公式如下(这一部分不是很懂)。
在这里插入图片描述

2.2 实施细节

这一部分讲述了各个方法的参数选择和初始化的方法。
1、word embedding时,若某单词无对应的嵌入结果,则用‘UNK’代替;
2、Character embedding和word embedding参数用了dropout
layer;
3、character embedding维度是25,POS tag embedding维度是15;
4、优化器选择SGD,学习率为0.002,衰减率0.95。

2.3 数据集

the BioCreative II Gene Mention task (BC2)
the NCBI disease corpus (NCBI)
the JNLPBA corpus

各个数据集包含的命名实体类型、数据量以及训练集、测试集、验证集划分情况如下图所示。
在这里插入图片描述

2.4 评价标准

准确率、召回率、F1 score

3 结果

在这里插入图片描述
在这里插入图片描述
(这里不懂为什么有些方法只能用于某一个数据集?)

4 讨论

1、GRAM-CNN适用于由一个词或一组连续的词组成的实体的识别,并且对拼写错误也有很强的鲁棒性。但该方法不适用于考虑重叠或不连贯的实体的识别,也不考虑表中出现的实体的识别(因为其只考虑局部相关信息)。
2、该方法耗时较长,对于JNLPBA和BC2数据集,训练过程大概需要五天,对于NCBI数据集,训练过程大约1.5天。
3、该方法对于一些复杂的情况,比如包含连词和标点符号的实体,将无法掌控。

没有更多推荐了,返回首页