2019-04-10 10:56:07 chens3333 阅读数 1407
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1276 人正在学习 去看看 CSDN讲师

深度医疗是笔者基于深度学习的医学项目应用开发实践,经过整理输出了文档和本系列课程,希望通过分享可以和大家共同讨论、相互学习,探索更好的解决方案。笔者是一名普通的大数据和人工智能领域从业者,过程中如有错误和理解不到位的地方请广大同仁不吝赐教。笔者一直坚信深度学习和医学的有机结合一定能碰撞出性能强大的深度医疗系统,服务大众。

深度医疗(3) - 肺部病变诊断识别

本文主要介绍了通过深度学习进行肺部病变识别的应用,首先简单介绍了影像学医学背景和相关知识,接着介绍了目前能获得的公开的肺部病变数据集,最后介绍了神经网络的实现方式和处理后的效果以及性能分析,其中涉及到了多特征识别的问题。

1.概述

背景

胸部X射线检查是最常见和最具成本效益的检查之一。医学影像学检查。然而,胸部X射线的临床诊断是具有挑战性的,有时被认为比胸部CT成像更难诊断。

目前有一些很前沿的研究,尤其是最近的深度学习被用于结核病(TB)分类上,实现了临床相关的计算机辅助检测,但在真实世界医学网站上的诊断(CAD)所有的X射线胸部数据仍然是非常困难的。

如何利用医院的知识库,并通过深度学习训练这些宝贵的影像,以建立真正大规模的高精度电脑辅助诊断,是现在一个非常前沿的课题。

影像学

影像学不仅扩大了人体的检查范围,提高了诊断水平,而且可以对某引些疾病进行治疗。这样,就大大地扩展了本学科的工作内容,并成为医疗工作中的重要支柱。自伦琴1895年发现X线以后不久,在医学上,X线就被用于对人体检查,进行疾病诊断,形成了放射诊断学的新学科,并奠定了医学影像学的基础。至今放射诊断学仍是医学影像学中的主要内容,应用非常的普遍。

2.数据集

数据是从美国国立卫生研究院临床中心临床PACS数据库中提取的,其中正前位的胸片占医院所有正前位胸片总数的60%。因此,这个数据集更具代表性。

数据集包括112120张前视图X射线图像,分别对应14个疾病图像标签。

下载地址

其中包括14种常见的肺部病理:肺不张(Atelectasis)、实变(consolidation)、浸润(Infiltration) 、气胸(pneumothorax) 、水肿(edema) 、肺气肿(emphysema) 、纤维化(fibrosis) 、渗出(effusion) 、肺炎(pneumonia) 、胸膜增厚(pleural thickening) 、心肥大(cardiomegaly) 、结节(nodule) 、肿块(mass )、疝气(hernia) 。

在这里插入图片描述

3.数据提取

数据是PNG格式,每个图片大小是1024 * 1024的分辨率;

在这里插入图片描述

其中包括label文件,如图中所示,标注了每个图片文件对应的病症、病人的相关信息和图像的一些基础信息。

在这里插入图片描述

4.神经网络结构

神经网络采用了Dense Net进行处理,主要有三层Dense Net进行级联,每个Dense Net包括4个block,每个block包含batch_norm、relu、cnn、dropout模块,特别要提出的是最后的合并concat不是相加,而是通过连接的方式处理的。

在这里插入图片描述

5.多特征判别

一张Xray的图像有可能包含一张病变,也有可能包含多个病变,例如某个病人只有肺炎一种病,但另外一个病人可能同时有肺气肿和胸膜增厚两种病,甚至有些病人同时患有三种以上的病;这个时候就出现了多特征的判别的问题:

在这里插入图片描述

6.结果分析和系统优化

误差收敛曲线

在这里插入图片描述

精度曲线

在这里插入图片描述

因为一个病人的一张X片可能对应几种病变,这个系统不是单一的分类问题,是一个多分类问题,所以前面采用了sigmoid取代了softMax作为输出的判别,但我们忽略了一个问题,这种多分类问题需要有一个置信区间,因为从原理上来说,神经网络在做预测的时候是不知道这个X片到底对应几个病变的,所以我们需要给一个置信区间,在训练的时候满足这个置信区间。

在这里插入图片描述

7.存在的问题和后续优化方案
  1. 原始图片的分辨率很高(1024x1024),为了提高处理速度,神经网络中reshape成了128x128大小的,相对图像信息损失较大,可以通过修改网络输入的大小把输入图片reshape成分辨率更高,从而来提高系统的精度;

  2. 通过优化网络结构,例如加深dense net或加入其它网络,类似Residual Net进行处理;

  3. 对输入的原始数据进行预处理,通过剪裁、翻转等方式增加训练数据的数据量;

2016-07-25 11:55:03 Yt7589 阅读数 17872
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1276 人正在学习 去看看 CSDN讲师

随着谷歌的AlphaGo战胜韩国棋手李世石之后,深度学习从学术界的热点技术,变为大众热捧的热门技术,成为当前人工智能热潮中,最吸引眼球的技术方向。深度学习也从传统的图像、视频、语音识别领域,向文本处理、自然语言理解、人机对话、情感计算等各方面渗透,形成了如果一个领域如果没有应用深度学习,这个领域就不够先进的观点。虽然医疗领域相对保守,但是医疗界也在第一时间,拥抱深度学习技术,产生了很多意义深远的应用方向。本文将对当前深度学习技术进行梳理,探讨其在医疗领域的应用前景,并重点讨论深度深习在医学诊断方面的应用。

其实深度学习理念,在上世纪六七十年代就有人提出过,但是由于缺乏有效的算法,没有形成规模应用。在上世纪80年代,由于出现了BP算法,多层前馈网络也曾经风靡一时,但是由于误差反向传播(BP)算法,对权值的调整从输出层开始,效果会每层递减,因此训练多层网络速度会变慢,而且多层网络额外增加了很多参数,需要更多的训练样本,而且由于当时计算能力的限制,最终多层前馈网络也没有流行起来。

随着技术的方法和计算能力的增强,以前制约深度学习的条件逐渐得到了解决,尤其是人们意识到,以前的神经网络,需要研究人员对问题进行深入的研究,提取出问题的关键属性,然后才是设计合适的神经网络,然后训练神经网络来解决这个问题。人们发现,在整个过程中,最困难的地方并非神经网络本身,而是抽取所研究问题的特征,这才是制约神经网络应用的核心问题。基于对这个问题的认识,逐渐出现了利用非监督学习网络来获取所研究问题的特征,然后再采用监督学习方式来训练网络,不仅可以使最为费时费力的特征提取来自动化,而且还可以对网络进行预训练,降低网络训练工作量以及所需训练样本。正是因为上述原因,深度学习技术才会在十年前逐渐流行起来。

目前深度学习神经网络已经有成熟应用的算法,主要有以下几种:卷积网络CNN、RNN。其中卷积神经网络主要用于图像处理领域,因为在图像识别过程中,图片中物体在图片中的位置、姿态,都会影响识别的效果,经过卷积操作,可以对图片中的物体进行大小、位置、角度方面的处理,进行归一化,从而提高图片的识别率,例如采用6层卷积网络,对MNIST的6万多张手写数字图片进行识别,识别准确率可以达到98%以上,甚至超过了人工的识别率。而RNN网络,就是将神经元的输出,重新作为输入,从而影响神经网络的最终行为。RNN网络更多应用于语音识别,因为在语音识别中,需要根据前一个单词来判断当前单词,而RNN网络正好可以满足这个特性。

以上是深度学习中比较成熟的算法,目前深度学习研究中,最热的领域莫过于产生式网络,如自动编码器、深度信念网络等。这些网络都用了限制性波尔兹曼机(RBM),先通过这种非监督学习网络,利用其隐藏层作为提取的特征,通过使网络能量函数达到最小,可以认为是所研究问题的特征,然后通过堆叠多层限制性波尔兹曼机(RBM),提取出一系列问题特征,最后再用监督学习算法,使问题得到最终解。

深度学习在医疗方面的应用,最容易想到的方面就是医学影像学方面的应用。采用卷积神经网络CNN,可以极大提高识别率,同时降低对原始图片质量的要求,同时可以降低对训练样本数量的要求,因此CNN在医学影像处理方面,应该是目前应用最广泛也是最成功的领域。

近年来,精准医学越来越受到追捧。在精准医学中,基因测序技术又是其核心。我们知道,人类基因组有64亿个碱基对,通过对这64亿个碱基对的研究,可以从病理根源来确定诊断疾病,以及确定相应的靶向治疗方案。但是这64亿个由ATGC组成的碱基对,包括大量无用的垃圾信息,如远古时代将自己DNA嵌入到我DNA中的细菌的DNA片断,还包括一些短的重复序列,同时也包括与基因调控相关的Regulator和Promoter,在基因内部同样有外显子和内显子,上述这些复杂的DNA结构,是制约精准医疗快速发展的瓶径。而深度学习里边的RNN网络,正是可以在基因分析领域大显身手,期待有这方面划时代的成果出现。

深度学习在医疗领域最激动人心的应用,无疑是在在医学诊断方面的应用。谷歌的DeepMind和IBM的watson,都在这方面积极布局,尤其是watson,在某些特定领域,其诊断精度已经超过了人类专家。由于医疗中病例大多数为非结构化文本数据,因此采用多层限制性波尔兹曼机(RBM)堆叠成的深度信念网络(DBN),可以自动提取文本病例中的特征,可以有效的学习病历中的知识,同时可以高效地进行诊断。

综上所述,深度学习在医疗中将有非常广泛的应用,文中所举的应用实例,仅仅是冰山的一角而已。根据笔者的理解,结合当前中国医改的趋势,我们有理由认为,深度学习在医学诊断方面的应用,将是可以产生最大社会及经济效益的应用领域。因为,目前医改中最难啃的硬骨头是分级诊疗,由于基层缺乏高水平的全科医生,老百姓不愿或不敢到基层医疗机构去看病,而养高水平的全科医生,优质医疗资源下沉到基层,不是远水解不了近渴就是违备客观规律而难以推动下去。而深度学习在医学诊断方面的应用,可以迅速提高基层医生的诊疗水平,使老百姓可以放心地到基层医疗机构就医,具有非常巨大的应用前景。

2017-05-31 19:48:26 zhonghua18517 阅读数 4278
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1276 人正在学习 去看看 CSDN讲师

参考书籍《Tensorflow实战Google深度学习框架》郑泽宇等

     深度学习最早兴起于图像识别,但是在短短的几年之内,深度学习推广到了机器学习的各个领域,并且都有很出色的表现。具体领域包含图像识别、语音识别、自然语言处理、机器人、生物信息处理、化学、电脑游戏、搜索引擎、网络广告投放、医学自动诊断和金融等各大领域均有应用。

计算机视觉

计算机视觉是深度学习技术最早实现突破性成就的领域。随着2012年深度学习算法AlexNet赢得图像分类比赛ILSVRC冠军,深度学习开始被人们熟知。ILSVRC是基于ImageNet图像数据集举办的图像识别比赛,在计算机视觉领域拥有极高的影响力。从12年15年之间,通过对深度学习算法的不断探究,ImageNet图像分类的错误率以每年4%速度递减;到15年,深度学习算法的错误率仅为4%,已经成功超过人工标注的错误率5%,实现了计算机领域的一个突破。

在ImageNet数据集上,深度学习不仅突破了图像分类的技术瓶颈,同时也突破了物体识别技术的瓶颈。物体识别比图像分类的难度更高。图像分类只需判断图片中包含了哪一种物体;但在物体识别中,不仅要给出包含了哪些物体,还要给出包含物体的具体位置。13年,在ImageNet数据集上使用传统机器算法实现物体识别的平均正确率均值(mean average precision,MAP)为0.23;而在16年时,使用了6种不同深度学习模型的集成算法将MAP提高到0.66。

技术进步的同时,工业界也将图像分类、物体识别应用于各种产品中,如无人驾驶、Youtube、地图、图像搜索等。谷歌可通过图像处理技术归纳出图片中的主要内容并实现以图搜图的功能。这些技术在国内的百度、阿里、腾讯等公司已经得到了广泛的应用。

在物体识别问题上,人脸识别是一类应用非常广泛的技术。它可以应用到娱乐行业、安防以及风控行业。在娱乐行业中,基于人脸识别的相机自动对焦、自动美颜基本已成为每款自拍软件的必备功能。在安防、风控领域,人脸识别应用更是大大提高了工作效率并节省了人力成本。除此,还可用于保证账户的登陆和资金安全,如支付宝的人脸识别登陆等等。

传统机器学习算法很难抽象出足够有效的特征,使得学习模型既可区分不同的个体,又可以尽量减少相同个体在不同环境的影响。深度学习技术可从海量数据中自动学习更加有效的人脸识别特征表达。在人脸识别数据集LFW上,基于深度学习算法的系统DeepID2可以达到99.47%的正确识别率。

在计算机识别领域,光学字符识别也是使用深度学习较早的领域之一。光学字符识别,就是使用计算机程序将计算机无法理解的图片中的字符(如数字、字母、汉字等符号),转化为计算机可以理解的文本形式。如常用的MINIST手写体字库,最新的深度学习算法可以达到99.77%的正确率。谷歌将数字识别技术应用到了谷歌地图的开发中,开发的数字识别系统可以识别任意长度的数字,在SVHN数据集上可达到96%的正确率,到2013年,谷歌利用这个系统抽取了超过1亿个门牌号码,大大加速了谷歌地图的制作过程。此外,光学字符识别在谷歌图书中也有应用,谷歌图书通过文字识别技术将扫描的图书数字化,从而实现图书内容的搜索功能。

语音识别

深度学习在语音识别领域同样取得突破性进展。2009年深度学习的概念被引入语音识别领域,并对该领域产生了重大影响。短短几年之间,深度学习的方法在TIMIT数据集上将给予传统混合高斯模型(GMM)的错误率从21.7%降低到了使用深度学习模型的17.9%。到2012年,谷歌基于深度学习建立的语音识别模型已经取代了混合高斯模型,并成功将谷歌语音识别的错误率降低了20%。随着当今数据量的加大,使用深度学习的模型无论在正确率的增长数值上还是在增长比率上都要优于混合高斯模型。这样的增长在语音识别的历史上从未出现,深度学习之所以有这样的突破性进展,最主要的原因是其可以自动的从海量数据中提取更加复杂且有效的特征,而不是如混合高斯模型中需要人工提取特征

基于深度学习的语音识别已经应用到了各个领域,如同声传译系统、苹果公司推出的Srri系统,科大讯飞的智能语音输入法、百度和腾讯也开发了相关产品。同声传译系统不仅要求计算机能够对输入的语音进行识别,还要求计算机将识别出来的结果翻译成另外一门语言,并将翻译好的结果通过语音合成的方式输出。微软研发的同声传译系统已经成功应用到Skype网络电话中。

自然语言处理

在过去几年之中,深度学习已经在语言模型、机器翻译、词性标注、实体识别、情感分析、广告推荐以及搜索排序等方向取得突出性成就。深度学习在自然语言处理问题上能够更加智能、自动地提取复杂特征。在自然语言处理领域,使用深度学习实现智能特征提取的一个非常重要的技术是单词向量。单词向量是深度学习解决很多上述自然语言处理问题的基础

传统解决自然语言所表达的语义的方法主要依靠建立大量的语料库,通过这些语料库,可以大致刻画自然语言中单词之间的关系。然而语料库的建立需要花费很多人力物力,而且扩张能力有限,单词向量提供了一种更加灵活的方式来刻画单词的含义。单词向量会将每个单词表示成一个相对较低维度的向量(比如100维),对于语义相近的单词,其对应的单词向量在空间上的距离也应该接近。因而单词的相似度可用空间距离来描述。单词向量不需要人工的方式来设定,它可以从互联网海量非标注文本中学习得到

通过对自然语言中单词更好的抽象与表达,深度学习在自然语言处理的很多核心问题上都有突破性进展,比如机器翻译。根据谷歌实验的结果,在主要的语言翻译上,使用深度学习可以讲机器翻译算法的质量提高55%到85%。

情感分析是自然语言处理问题中一个非常经典的应用。情感分析最核心的问题就是从一段自然语言中判断作者对评价的主体是好评还是差评。情感分析在工业界有着非常广泛的应用。随着互联网的发展,用户会在各种不同的地方表达对于不同产品的看法。对于服务业或制造业,及时掌握用户对其产品的 或者服务的评价是提高用户满意度非常有效的途径。在金融业,通过分析用户对不同产品和公司的态度可以对投资选择提供帮助。在情感分析问题上,深度学习可以大幅提高算法的准确率。在开源的Sentiment Treebank数据集上,使用深度学习的算法可将语句层面的情感分析正确率从80%提高到85.4%;在短语层面上,可将正确率从71%提高到80.7%。



2017-01-11 14:14:55 u010976453 阅读数 999
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1276 人正在学习 去看看 CSDN讲师

本博客中的系列笔记主要针对Github 上这本有关深度学习的书——《deep learning book》相关的读书笔记。针对当前热门的深度学习做一个基本的梳理,感兴趣的朋友可以看看!

本书的章节安排结构如下

章节安排

人工智能

人工智能(AI) 是一个具有许多实际应用和活跃研究课题的领域,并蓬勃发展着。我们指望通过智能软件自动化处理常规劳动、理解语音或图像、帮助医学诊断和支持基础科学研究。

机器学习

机器学习(Machine Learning) 是指AI系统具有自己获取知识的能力,即从原始数据中提取模式的能力。

引入机器学习使计算机可以解决设计现实世界知识的问题,并能做出看似“主观”的决策。

常见的机器学习算法包括逻辑回归(Logistics Regression)朴素贝叶斯(Navie Bayes) 等… 这些机器学习算法的性能很大程度上依赖于给定数据的表示(Representation)

数据表示

​ 上图就是一个简单的可视化例子,左图是数据在笛卡尔坐标系中的表示,右边是数据在极坐标中的表示。

​ 但是我们很难知道应该提取哪些特征。例如,我们编写一个识别程序来检测照片中的车辆,我们想用车轮的存在作为特征,不幸的是,我们很难准确地从像素值的角度描述一个车轮看起来如何。车轮有简单的几何形状,但它的图像可以因为环境变得很复杂,如落在车轮上的阴影、太阳照亮的车轮金属零件、汽车挡泥板或遮挡的前景物体等。

表示学习

​ 解决这个问题的一个途径就是用机器学习来发现表示本身,而不仅仅把表示映射到输出。这种学习方法被称为表示学习(Representation Learning) 。学习到的往往获得比手动设计的表示更好的性能。并且它们只需最少的人工干预, 就能让AI系统迅速适应新的任务。表示学习算法只需几分钟就可以为简单的任务发现一个很好的特征集,对于复杂任务则需要几小时到几个月。手动为一个复杂的任务设计特征需要耗费大量的人工时间和精力;甚至需要花费整个社群研究人员几十年时间。

自动编码器

​ 一个典型的表示学习的例子就是自动编码器(autoencoder) 。自动编码器是组合了将输入转换到不同表示编码器(encoder) 函数和将新的表示转回原来形式的解码器(decoder) 函数。

​ 自动编码器的目标是输入经过编码器和解码器之后尽可能多的保留信息,同时希望新的表示有各种好的属性。 不同种类的自动编码器的目标是实现不同种类的属性。

下图是一个自动编码器的示例:

自动编码器

如上图,将input 输入一个encoder 编码器,就会得到一个code,这个code 就是输入的一个表示,那么我们怎么知道这个code 的表示就是输入input 呢?这时候我们加一个decoder 解码器,这时候解码器就会输出一个信息,那么如果这个输出信息和一开始的输入信号input很相似(理想情况一样),那么很明显,我们就有理由相信这个code是input的一个靠谱的表示。所以通过调整encoder 和decoder 的参数,使得重构误差最小,这时我们就得到输入信号input 的第一个表示了,也就是编码code 。因为使用的是无标签数据学习,所以误差的来源就是直接重构后与原输入相比得到。

​ 然而现实世界中从原始数据中提取高层次、抽象的特征是非常困难的。 深度学习(Deep Learning)通过其他较简单的表示来表达复杂表示,解决了表示学习中核心问题

深度学习

深度学习让计算机通过较简单概念构建复杂的概念。下图显示了深度学习系统通过组合较简单的概念,例如转角和轮廓,转而定义边缘来表示图像中一个人的概念。深度学习模型的典型例子是前馈深度网络或多层感知机(MLP)多层感知机仅仅是一个将一组输入值映射到输出的数学函数。该函数由许多较简单的函数组合而构成。我们可以认为每个应用具有不同的数学函数,并为输入提供新的表示。

深度学习特征表示

学习数据的正确表示的想法是深度学习的一个观点。另一个观点是深度允许计算机学习一个多步骤的计算机程序。

深度学习架构

上图显示了语言的选择泽阳给相同的两个架构两个不同的衡量。


总结

总之,这本书的主题是——深度学习是AI的途径之一。具体地讲,它是机器学习地一种,一种允许计算机系统能从经验和数据中得到提高地技术。

本书主张机器学习是构建能在复杂实际环境下运行的AI系统的唯一可行方法。深度学习是一种特定类型的机器学习,通过将世界表示为由较简单概念定义复杂概念,从一般抽象到高级抽象的嵌套概念体系获得极大的能力和灵活性。

下图说明了这些不同地AI 学科之间地关系

AI 学科关系

下图给出了每个学科如何工作地一个高层次原理

学科工作原理

2020-03-17 20:25:34 zuzhiang 阅读数 91
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1276 人正在学习 去看看 CSDN讲师

本文是基于深度学习的医学图像配准相关知识的笔记,不设计到传统的方法,也不涉及具体模型。

一、简介

在对同一物体进行医学成像时,由于设备差异、成像角度差异等因素,所以图像可能只能反应物体某个方面的特征。比如,MRI 对软组织成像效果较好,而 CT 对骨骼等成像效果较好。如果想结合两张不同的医学图像的信息进行诊断,就需要丰富的经验。也可以让其中一张图片做变换,使其与另一张图像对齐,然后在得到一张融合了两张图像特征的融合图像。

上述图像对齐的过程就是配准,在配准中保持不变的图像被称为参考图像(fixed image/reference image),而做变换的图像被称为浮动图像(moving image)。图像配准常为图像融合的一个预处理步骤。

具体地说,通过寻找一种空间变换把浮动图像映射到参考图像上,使得两图中对应于空间同一位置的点一一对应起来,从而达到信息融合的目的。

二、分类

上图是知乎博主白小鱼给出的根据不同分类方式的图像配准分类,下面稍微解释下里面的名词:

  • 多视图配准:同一物体在同一场景不同视角下的图像配准;
  • 多时相配准:同一物体在同一场景同视角不同时间的图像配准;
  • 多模态配准:图像来自于多个成像设备,在 MRI 中 T1权重图像和 T2 权重图像也被看作是多模态的;
  • 内部特征:从图像内部本身提取的信息;
  • 外部特征:在医学图像中,通过在患者身上固定标记物或向体内注入显影物质以获得在图像上的确定的标记点。

近些年来,使用神经网络进行图像配准的文章可以大体分为两类:

  • 利用深度学习网络估计两幅图像的相似性度量,驱动迭代优化;
  • 直接利用深度回归网络预测转换参数。

前者只利用了深度学习进行相似性度量,仍然需要传统配准方法进行迭代优化,没有充分发挥深度学习的优势,花费时间长,难以实现实时配准。


当前用于配准的深度学习模型主要有四类:

  • 卷积神经网络:最常见,最普遍;
  • 循环神经网络:目前的研究较少;
  • 强化学习:不懂,略;
  • 生成对抗网络:目前已有一定数量的论文出现,可能是下一步的研究热点。

三、配准流程

配准的方法是由特征空间(特征信息范围)、搜索空间(变换方式及范围)、搜索算法(变换方法及参数)和相似性测度四个不同方面的组合。配准的基本步骤如下:

  • 特征的提取:选取合适的特征来确定图像的几何变换,如边界和特征点等;
  • 确定几何变换:几何变换就是将一幅图像中的坐标点变换到另一幅图像的坐标系中。变换有线性和非线性变换两种。线性变换又包括刚体变换、仿射变换、投影变换等。刚体变换后后物体内部任意两点之间的距离不变,可分为旋转和平移两种;
  • 寻优:通过调整变换的参数使得浮动图像和参考图像之间的相似度最优,从而求解出变换模型中的未知参数;
  • 执行变换:将确定好的变换应用在浮动图像上。

四、评价指标

目前没有一个绝对的金标准(gold standard)可以评估图像配准的质量,下面仅以医学图像为例,列举两种最经典的评估方法:

  • 单模图像配准常使用相关系数(Correlation Coefficient, CC)来衡量;
  • 多模图像配准常使用互信息(Mutual Information, MI)来衡量。

也常使用图像分割领域的 DICE 损失,熵相关系数(Entropy Corrleation Coefficient,ECC)等指标进行评估。

五、有监督配准

图像配准根据使用的深度学习的种类划分,可以划分为基于监督学习的配准与基于非监督学习的配准两大类。

基于监督学习的配准,也就是在训练学习网络时,需要提供与配准对相对应的真实变形场(即Ground Truth)。标签的获取有两种方式:

  • 利用传统的经典配准方法进行配准,得到的变形场作为标签;
  • 对原始图像进行模拟变形,将原始图像作为参考图像,变形图像作为浮动图像,模拟变形场作为标签 。

训练时通常先以两幅图像对应坐标为中心点进行切块,将图像块输入深度学习网络,网络输出为图像块中心点对应的变形向量(Deformation Vector)。在测试阶段,对待配准图像对进行采样,输入网络,把预测的变形向量综合成变形场,再利用预测的变形场对移动图像进行插值,即得配准图像。

六、无监督配准

基于非监督学习的配准方法就是在训练学习网络时,只需要提供配准对,不需要标签(即真实的变形场)。在训练时,基于非监督学习的配准将图像对输入网络,获得变形场,对浮动图像进行变形插值,即得配准图像。并利用变形后的图像与参考图像计算损失函数值,对其进行反向传播,不断优化,使得损失函数值最小。

关于输出,基于监督学习的配准方法往往输出的是变形向量,而基于非监督学习的方法输出的为变形图像。

什么是深度学习

阅读数 148

没有更多推荐了,返回首页