2017-06-28 16:45:52 likely_zhao 阅读数 13791
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1154 人正在学习 去看看 CSDN讲师

简介

本文参考了三篇深度学习在医学图像处理中的三篇综述性的文章,旨在对于深度学习和医学图像相结合的现有情况做一个小总结,并探讨一下未来的一些发展趋势和自身的一些思考

医学影像深度学习工具

深度学习模型


在医学影像处理中使用的到的深度学习的模型框架主要有:

  • SAE(stack auto-encoder)
无监督学习方案,逐层训练,得到特征描述为主
  • RBM(restricted Boltzmann machine)
无监督学习方案,与SAE 类似
  • CNN(convolutional neural network)
卷积神经网络,使用最为广泛,可以用来提取图片特征或者直接完成分类检测等任务
  • RNN(recurrent neural network)
循环神经网络,用来获取时序上的信息,在CT等逐行扫描图像中使用
  • U-net (with a single downsampling stage)
类似于带short-cut的全卷机网络,用来融合不同尺度的图像的特征
  • FCNN(fully convolutional neural network)
全卷机网络,可以获取与原图相同分辨率的图片,常用于分割等任务
  • FRCNN(Faster Region-proposal based neural network)

一种快速的深度学习检测网络框架,分为rpn 和 rcnn 两层,用于检测图像中的多种物体

深度学习框架

  • caffe
  • tensorflow
  • torch
  • Theano

暂时没有使用到的深度学习技术

* VAE

* GAN

State of Arts


深度学习在医学图像领域的一些限制

  • 缺少高质量的标注的训练样本,因此训练出来的模型可能是过拟合的或者说推广性不好,因此需要将的到的模型放在各种情况下测试推广性[^doc3]
  • 深度学习得到的模型是一个黑盒子,无法解释其有效性,在一些特殊的情况下会出现非常奇怪无法解释的问题,因此在医疗行业中的接受度也是一个问题[^doc3]
  • 在商业系统中使用临床上的图片资料会存在法律和伦理上的问题而不使用这样的样本无法进一步的提高深度学习模型的水平[^doc3]

一些自己的思考

2D VS 3D

从文献综述来看,大部分的工作都是基于2D图像的,其实在医学图像中,CT 和 MRI都是3D的数据2D化的结果,在医疗图像处理的算法中3D重建等等也是非常重要的一大类算法,但是现有的基于3D的算法一来耗时比较高,二来并没有比基于2D的算法提高很多,使用2D还是3D是一个值得思考的问题。

Feature vs Result

从文献综述中来看,稍微久远一些的算法就是把CNN当作是一个特征提取的算子获得图像的描述特征而最新的一些方法直接将CNN的结果就作为最终的输出结果来使用, 这里喔感觉直接使用CNN的输出作为结果,会涉及到文献中所说的黑盒子的限制,可解释型一般是比较差的,而作为特征来使用解释性可能会好一些,因为后续的一些后处理中可以增加的规则类的比较多,解释性会更佳

过滤 vs 诊断

一直以来作者觉得在医疗行业中,计算机能做的最大的贡献就是帮助医生做大量医学影像的过滤工作,至于使用诊断上最多也只是一个辅助的诊断工具,而机器学习到达了深度学习的时代,有些本来以为不太可能的任务都被深度学习算法一个一个的攻克了,在未来的工作做,计算机深度学习是不是可能独立的进行本属于医生独享的诊断工作我还是不得而知,然后我们可以知道的是,技术的发展使得过滤的正确率大大的提高,极大的提高生产的效率,这一方面是肯定有助于医疗行业的,相应深度学习在医疗领域的前景还是很广阔的。








Refs:
  • A Survey on Deep Learning in Medical Image Analysis
  • Deep Learning in Medical Image Analysis
  • Deep Learning in Medical Imaging: General Overview
  • Volumetric ConvNets with Mixed Residual Connections for Automated Prostate Segmentation from 3D MR Images
  • DEEP LEARNING BASED CANCER METASTASES DETECTION
  • Proceedings of MICCAI-BRATS 2016
2020-01-10 10:18:32 guzhao9901 阅读数 13
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1154 人正在学习 去看看 CSDN讲师

这里介绍一篇文章------《深入医学图像分析:概念,方法,挑战和未来方向》,即Going Deep in Medical Image Analysis: Concepts, Methods, Challenges and Future Directions。

此文章详细介绍了近些年以来深度学习在医疗图像中的各领域的应用。并对相关的概念、算法、存在的问题、以及改进的方向进行了详细的阐述。此文章不仅仅包含了医疗图像的分割、配准、分类等诸多方面,在每个方面都还分组(脑部、乳腺、眼部、胸部、腹部与其他等)进行了常用算法的罗列、分析。是一篇非常好的综述类文献。

本人也对其进行了粗略的翻译,详细可从https://download.csdn.net/download/guzhao9901/12068632中下载,此处不进行翻译工作。

2016-11-23 20:29:41 qq_19828477 阅读数 241
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1154 人正在学习 去看看 CSDN讲师

        注:论文在网上下载

        第一次接触生物大数据,一脸懵逼状,不知从何下手,机器学习对我来说本就不那么容易,何况让我将其应用到生物大数据上。后来老师给了我几篇

这方面的综述,这是其中的一篇,个人觉得写的很不错,适合初学者,可以让我们了解一些研究现状以及未来的研究方向。鉴于我以后可能还会看,传上来的最大目的是为了方便以后自己查看,以及与大家分享,无其他目的。

2017-03-10 10:12:17 Myl12 阅读数 90
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1154 人正在学习 去看看 CSDN讲师
架构师小组交流会:每期选择一个时下最热门的技术话题进行实践经验分享。

邀请到了 Polarr 联合创始人宫恩浩、搜狗大数据总监高君、七牛云 AI 实验室负责人彭垚,对深度学习框架选型、未来趋势展开了交流。

自由交流

Polarr 宫恩浩

我是宫恩浩,现在在斯坦福在读,主要做深度学习研究,特别是医学影像相关的研究。同时也在一家创业公司,国内叫泼辣修图,在美国是 Polarr,做图片的大数据,有云端的,也有手机端的,PC 端的。我们的 App 收集数据,建立优化的算法,我们在云端提供图片整理、图片选择、图片信息的识别,把识别的模型通过压缩手段,把整个深度学习放在手机的 App,实现图片裁定、识别、选择、渲染,国内可能叫霹雳相册吧。我主要负责所有的 AI 的部分。



搜狗高君

我是高君, 目前在搜狗负责精准广告的算法研究和大数据相关的技术研发工作。搜狗从用户端的产品来讲,有两个产品与深度学习有较强关系,一个是语音识别,应用在输入法,用于语音输入转文本,另一个是图像搜索。在我的团队中,深度学习主要是用在广告领域中,如 CTR 预估、广告检索,广告相关性的评估上。未来,我们希望在 NLU 上面做一些有价值的工作,也希望在网络压缩方向取得一些成绩。



七牛彭垚

我是七牛云 AI 实验室的负责人彭垚,七牛是一个以云存储起家的公司,在我们云平台上面有广泛的图像、视频、音频的数据,富媒体客户非常多,所以我们 AI 实验室的主要职责是对大量的富媒体数据去做分析,并做一些内容审核,识别等相关领域的应用,以服务我们平台上面的客户。



话题交流
主持人:关于网络压缩方面的分享一下?

Polarr 宫恩浩:网络压缩有几部分。

一部分首先找一个最适合的架构,这部分我个人觉得还得根据具体的应用、性能要求来定。

第二个部分是网络压缩,在不改变模型效果前提下尽量减少模型参数。我一个同学在做这方面工作叫 Deep Compression,然后我也和这个同学一起参与一些新的深度学习算法研究,基于在 Deep Compression 来进一步优化模型。最近一些研究发现一个深度模型可以压缩甚至压缩到几十倍几百倍,那说明整个有很大的冗余性,基于这个我们能不能选择一些适当的模型 trade off,在保持模型体积基础上性能比原来显著提升,比如它本身网络是 Dense Network,压缩到 Sparse Network,然后再长成 Dense Network 可以一步步进行优化。可以想像这个 Network 一会胖,一会瘦,最终达到一个体积和性能更好的状态,我个人主要在做的是这个方法的统计分析。



第三个部分是模型编码。我们公司有在做想把图像识别的 Network 放在手机上,那么首先基于模型压缩。具体实现的方法是:每步迭代的时候,一部分把小的部分变成零,然后不断迭代优化,最终模型还有一些优化,会小很多。然后同时还可以在手机上 Network 优化编码,我实验的时候权重也可以从原来的 32 位 float,变成 16 位,就是少了一半,或者是变成 8 位的话做了 encoding 就会小很多,基于这些(优化模型结构,阈值让模型稀疏,编码来减少存储)就可以不断进行压缩。但是主要还是看需求,比如在云端的话可能就不一定非要压特别深,但我们迁往移动端就需要压得比较大,要不可能 App 就太大,同时你压缩完了,还得做解压的工作,需要花费一定的时间。

搜狗高君:今年看到有 paper 在说 teach student 这种网络,然后我有这么一个假设,因为广告领域涉及到的特征空间非常大,用 teach student 的这种思路,能否把一个千万量级以上的网络,想办法让它降到百万量级,同时让它的 performance 还是能维持在不错的性能。

Polarr 宫恩浩:我说一下,首先我觉得并不是模型越小它就越快,这可能跟架构有关。我觉得可以拿一些简单的例子试一下。可以先看一下别人已经被验证过更小更快的模型。看一下基于那个做会不会合理,是否能达到你的需求。然后不行的话,牺牲一些精度,还得看你的具体精度各方面性能大概多少可以用。

主持人:宫博士你们现在是做模型压缩,主要是应用在手机上吧。那压缩了以后,在一定的精准度情况下,你的运算能耗能下降吗?

Polarr 宫恩浩:运算能耗的话,如果你直接用它的 Framework 的话,其实是一样的。但是你可以再 hack 一些东西他就能提高。比如可以用低精度的乘法。



我觉得 iOS 的 Metal 很好。比如 AlexNet 大概能手机上,能 30 到 42 fps,然后 inception 模型,大概是 10 fps。同时他们出一些刚刚优化,所以我觉得未来移动端的深度学习,会有很多的公司用移动端解决问题,很有前景。

主持人:你们是用的是哪个 framework?

Polarr 宫恩浩:其实用挺多的,iOS 上肯定用它的 Metal Framework。然后其他的就是后端,很多都会去用,Caffe,Tensorflow 都有过一些接触。

主持人:搜狗的广告推荐是以推荐结构化数据为主,还是以推荐非结构化数据为主?

搜狗高君:两种都有,有搜索类的广告问题,还有展示类的广告问题,对于搜索广告来讲,它是有一个明确的查询词,你可以理解为是一个结构化。假设把文本理解为结构化,那么对于展示类的广告就很复杂了,为了提高线上的 CTR,你需要明确用户的兴趣,那么处理用户兴趣的过程中,它的数据差异非常大,你肯定会用到搜索,但是你也会用到它站内的一些浏览的行为,比方说我们拿到客户站内所有的数据,它整个数据的来源很复杂。所以对于展示类广告来讲,可以认为所有的处理的数据基本都是异构的,可以理解为是个非结构化的问题。



主持人:广告领域,深度学习的应用是什么样的呢?

搜狗高君:其实这个领域里边的工作跟图像差异蛮大的,很大的原因在于学术界是不关注广告的。其中还一个很重要的原因是广告数据也没有那么多,那么很难看到有一些 paper,会专门关注于广告领域里边的深度学习的应用,所以业内的做法都在摸着石头过河。我这边的情况来讲,深度学习,至少在排序问题,会比我们现有的策略基础至少高 10 个点。深度学习,在广告领域,百度用的相对早一点。现在阿里发展很快,在商品推荐领域有不少应用。所以从应用的角度来讲,我感觉是有收益,但是投入跟收益目前不成正比。



在广告领域里边,我们看到的就是 GPU 机器在加速比没有呈现过优势,可能是由于我们在广告领域,不像图像领域会有大量的 CNN。在广告领域,我小范围的比过一些加速比的问题,GPU 的机器没有优势,所以我一直心里边有一个问题,到底为什么在图像和语音,大家都会考虑用 GPU 的机器,难道是由于卷积网络的原因吗?就完全不考虑 CPU 的任何的问题。

主持人:最核心的是里面的这些函数,这些解方程,大量的矩阵计算,所以说矩阵计算 CPU 肯定是没有优势的,GPU 因为可以同时多个核算一个数据,所以它的优势很明显。所以在图像语音,包括 NLP 处理,GPU 优势是很明显的,基本上 CPU 的计算贡献非常小,然后像广告很多不是矩阵计算,所以导致加速比不高是很正常的事情,可能还没有 CPU 运算的快。

七牛彭垚:其实我这边也有用过 CPU 跑过一些测试的。之前在有客户也用过我们的鉴黄系统,一开始他们说采购不了 GPU 机器,我就用 CPU 给他们测了一轮,他那个效率就很低,大概单个 GPU 和 CPU 比的话,就 20 倍了。



搜狗高君:我还有一个小问题,不知道大家在多机并行做深度学习会处理到多大的集群问题。至少我们在做一些多机并行的时候,是从 Tensor 迁到了 MXNet 上,然后我们发现 Tensor 的效率似乎有点问题,我不知道业内在多机多卡这件事上,有没有更好的,能有效地提升加速的问题。宫博士,在美国那边,在并行问题上,你了解到有没有一些新的进展?



Polarr 宫恩浩:我之前有看到一个基于 Spark 的在 CPU 集群上的深度学习 caffe franework 变种,但后来没太关注,我觉得有可能是可行的,Spark 在数据处理上用的比较多一点。但是我个人暂时没有涉及到多机多卡。但我觉得既然 Amazon 那么推 mxnet,他们肯定会推出来更好的多机多卡的东西。



七牛彭垚:之前有去调研过多机多卡,包括 Tensorflow、Caffe。Tensorflow 它本身并没有提供好的 paramter server 设计。框架提供你根据应用情况更好的去设计参数服务器。倒是觉得 Caffe poseidon 提供了一好 Paramter server 的设计,包括它矩阵同步的时候,怎么去传输,把矩阵就是做变换变小,能够更高效的去做同步。



有没有觉得用 Tensorflow 训练的时候,比 MXNet 和 Caffe 慢很多,有没有碰到过这样的问题?



搜狗高君:遇到过,而且在多机上面差距非常大,所以我们还把传统里边一部分,涉及到多级并行策略的做了一小部分修改,改的地方不多,但是在 CPU 的基础上,我们当时看了一下,效果还不错。



七牛彭垚:有没有人用过 Torch,因为我听一些朋友说 Torch 在跑同样的数据集和网络情况下,和 Caffe 比,收敛率和准确率都要好一点,可能是他在底层算法上有一些 tricky 的地方。



Polarr 宫恩浩:我之前做 DSD 研究,就用了 Torch,是基于 resnet 的 Torch。对 Torch 的感觉,首先是太麻烦了,因为用的人太少了,有什么问题也不太好问。但是他有一些好处,比如说我想改一些 regularization 和迭代过程中修改 weights,在 Torch上改,它就相对方便很多,因为它很多底层的操作更 expose 一些,比在 Caffe 改更方便一些。比如我们想每一步做一个调整,和获得最新的调整,我们就可以通过 Torch。相对来说和 Python 类似,是比较好实现的,这是一个感受。

主持人:大家怎么看深度学习在应用领域的发展?

七牛彭垚:内容的审核,就比方说鉴黄,就是鉴别黄色视频这种,大量简化了鉴黄师的工作。有一些内容标签,特别是对社交网站,我们会给社交网站,直播,短视频,打一些标签,帮助客户理解图像视频的内容。



搜狗高君:我问个小问题,您刚才有提到有为社交网站去做一些工作,是做一些视频理解的方向的一些东西吗?



七牛彭垚:举个例子,根据客户的需求,我们做了一个人脸检测,审核上传的照片到底有没有头像。如果他上传的照片里一个头像都没有,那这个用户其实是一个 bad user。在比如,我们把某个社交网站的图片收集起来,实际上这些图片是杂乱无章的,那么我们做一个应用,帮所有的图片打上标签,还包括做了人脸的聚类、场景的识别,社交客户就可以根据我们的标签应用做相册归类,这样就可以做一些数据分析,分析网站上每个用户的自拍的数量等。就是从图像方面做一些人群分析。



搜狗高君:我今年听过的一个比较有意思的深度学习应用,就是应用在视频推荐,传统的视频推荐使用文本去处理的。快手里是很少文字信息的,完全是用户上传视频,所以他们今年用了深度学习,去理解视频的内容,然后再做推荐,也做的蛮有意思的。



七牛彭垚:我觉得这块就相当于是帮客户的一些非结构化的一些数据,打上标签。然后打上标签以后,其实能做的事情就非常多,就可以做分类、搜索、推荐,能做的事情就很多,我甚至可以对每一个切片,比方说每 10 秒钟的一个视频的切片打标,然后你就能做很多事情了。比方说新闻片的剪辑,就是对新闻片的每个地方,它会去打一些标签。比方说我这一段新闻,我有我的主持人出现,然后他会去检测下面的主题的那个文字,把文字在 OCR 出来,他就会把那些新闻一段一段的打上标签,这样能够方便做剪辑、后期处理等。



搜狗高君:七牛的 AI 是主要是做 to B 服务,就是帮助一些企业去解决他们内部的需求,用机器学习处理问题吗?



七牛彭垚:我们最开始是做鉴黄的内容审核系统,后面才去做各种标签系统,和定制化识别应用等。



搜狗高君:七牛 AI 的这种模式下边,你们会把这种商业模式,当做一个长期的商业模式去运作吗,因为我在北京接触过一些公司,甚至是大公司,比如说招行这个量级的公司,我目前还没有看到很强的付费能力,他们内部很难提出这种需要用机器学习的方法去解决问题,他们也很难形成一个估值,就是估价。我一直对这件事挺好奇,这种模式真的是可以做出一个真正的盈利的模式吗?



七牛彭垚:要看客户的群体的,像鉴黄是帮客户节省了很多成本,原来他们需要很多基础的人力,人力成本非常高的,所以它其实是很乐意做这个事情,而且鉴黄师这个事情特别难做,他都要熟练工,然后那种人他又干个半年一年他就不干了,其实用工成本就很高。还有其他应用,我们都致力于大量节省人力成本的应用。

主持人:七牛是否有一些 AI 方面的战略?

七牛彭垚:我们后期主要会在视频方向做一些文章,包括像视频分析之类的,包括一些视频通用检测的一些事情,我们会致力于解决我们平台上客户的实际问题来投入这方面的研究,主要是视频分析领域,因为我们存储上面视频非常多,视频的细粒度检测也是其中的一个重点方向。

主持人:大家对深度学习有何展望?

搜狗高君:我问一个小的开放性的问题,由于深度学习出来以后,亚马逊做了 echo 的那件事情。会不会在五年以后,真的会出现一个像钢铁侠里的家庭秘书一样,就像原来苹果手机把手机全搞了一遍,会不会五年以后也出现这样一件事情?大家是怎么看这件事儿。



亚马逊的 echo 现在提供了非常充分的 API,将家庭的一些设备等等,或者说你一些App 上的功能做对接。那么我自己就是在想,如果未来真是有这样一种趋势的话,那很有可能就会变成家庭必备的设备了。那如果这种场景下,它可以衍生出很多服务,比如说它可以对接摄像头,它本身也有语音,它可以变成无所不能的事。就是我们现在可能做的所有的这个事,都能被它给干掉。因为它能完全改变生活,所以我一直在想这件事会不会发生。

主持人:我觉得这个事情,如果只是一个智能家居,我觉得应该可以。如果你是特别极客,在家里放一些灯,或者机器人在家里,我觉得没有问题。但是很多人可能对隐私保护比较在意,他不一定会乐意放机器人在家里面。这个问题,我觉得小范围推应该没有问题,大范围我觉得还是会有问题。

Polarr 宫恩浩:我觉得 echo 最近比较火,但是我觉得以后每个人手机都可以有这种服务吧,其实就是更直接一些,而现在好像有很多 startup 搞个人助理,他们主打的想法是变成 AI 的助理,比如说帮我叫个车,就不用麻烦再自己打车了,手机助理可以和互联网服务通过 AI 连接。我觉得这都是不久将来可以实现。

搜狗高君:在美国那边做这个方向创业的公司多吗?

Polarr 宫恩浩:最近就看见过一些,包括国内,我之前有同学回国做个人助理,最终肯定是想做,就是语音识别的,就是人工智能,现在可能就一开始都是人手人工实现服务,我觉得还是一个刚开始的方向吧,都想往 AI 上做。

搜狗高君:记得国内也有类似的团队,跟亚马逊 echo 很像。甚至有做车载的后视镜的,好像也在往这个方向打。



我是平常用微软的小冰,有时候会用它来调一些程序,做一点小东西。

主持人:个人习惯吧,从普通大众来说,有多少人会用这些东西,我觉得可能用的也不多。

Polarr 宫恩浩:我觉得主要是有几点问题,这就是识别准确率,另外是说他就和其他的,比如在微信里给发啥,他无法实现这个功能,比如说着目前是很计费一个东西。

主持人:我觉得聊天机器人大家可以探讨一下,现在觉得还没有一个特别好的应用,算法上可能还没有特别成熟。

搜狗高君:之前有朋友跟我说过聊天机器人,他跟我提到语料是一个非常麻烦的事儿,我不知道你们那边怎么处理的。

主持人:最核心的就是知识图谱的构建。在聊天机器人上,技术上不是问题,其实就是生产资料的问题,就是你怎样去构建专业领域的聊天知识图谱,这是目前聊天机器人做的好不好的差异化。怎么样去跟行业深度应用,这是一个未来的趋势。技术是没有门槛的,随便几个人,可以创建一家机器人聊天公司。

搜狗高君:如果做一个垂直领域的自动问答,有一个领域级的知识库,可能对这些问题的解决帮助会很大。那比如说做小冰这种很宽泛的,我一直很好奇有个问题,比如说像电影和电视剧里边有大量的对白,那么在这个场景里边真的用这种对白有没有价值能帮助这个聊天机器人的算法会变得更好?如果只是从这种 QA 的角度来讲,要搜集这种配对关系,这个耗费的人力非常大的。但有的时候聊天机器人可能只是想让大家感觉到它像一个人。所以这样为什么不能从电视剧和电影里边去拿到大量的对白。

七牛彭垚:我觉得其实客服机器人是相对好做的,反而把它做得像人,我觉得是比较难。我之前就接触到一个例子,是让机器人去学习大家平时的聊天内容。比方说“我生病了,我今天不舒服”,然后去做人工去打标,比方说 5 个回答,它这里面就有一个回答就是“怎么了”。结果它搞了好几组人打标,选“怎么了”的人最多,其实“怎么了”这种说法你在任何场景都是通用的,这个机器人它什么都给你回怎么了。实际上,它还是没有到融汇上下文,能够理解所有东西的地步。

主持人:大家可以探索一些新的领域。

Polarr 宫恩浩:除了公司这边,我个人科研主要做医学影像,算比较新的一些应用,比如说用深度学习来帮助医生做一些诊断,或者看到一些人看不到的诊断,就是其提供图片的质量,其实就是跟凸显相关,同时我觉得 NLP 也可以用在这种就是医学诊断方面,最近好像有些人来用就用各种这种非结构化的数据来预测,这就是说我个人比较感兴趣,可能在做一些比较小的尝试。

搜狗高君:我读博期间的实验室是一个 cv 的实验室,我很多的师兄师弟在做一些图像相关的创业。刚才宫博士提到的医学影像是我目前在关注的一件事情,确实很感兴趣,因为国内目前也有几个小的创业公司,比如说 deep care,然后他们也貌似在做类似的工作,好像好多人在学的 IBM 那个 Watson,好像是那个方法,国内有这样一批的公司正在做,还有另外一批公司确实有在用 NLP 的方法在做病症判断和分诊的问题,医学上这两个方向。我感觉现在创业公司比较多,但是目前在制药这件事上我没有听到,所以我平常在广告这件事完了以后,关注的最多的就是医学影像,我会找这行的师兄师弟们聊聊天,听听他们的一些想法,因为我觉得这件事似乎商业价值蛮大的。

七牛彭垚:这种项目一般都非常大,对于这种,其实是解决一些非常通用性的问题,你只要解决一个科室的一些,比方说医学影像,那其实就解决了这个非常通用的问题。

搜狗高君:不过我目前不看好国内做这件事情,因为我的一个基本判断是,你想让医院把正儿八经有用的数据拎出来就不太靠谱,因为他们跟我说过这么一件事儿,他们拿到过几万份的病例,然后就是相关的数据,删完了以后,大概能用的数据是千条,我当时的感受,就是这个行业别说用深度学习了,你拿个逻辑回归都搞不起来,数据量太小。国内其实很难有这么大的时间,能让你搞这个,所以可能在美国很少做,但我觉得国内应该长期会有一个机会。

Polarr 宫恩浩:国内其实这种病例还是多,主要是医院和学校也可以合作,比如清华就有很多这方面资源,将来如果再想做这事的话,就是从每一个病人开始做起,就现在国内基本上一周多的病人,就跟美国一个月一年的病人的数目差不多那种感觉。

七牛彭垚:对,像清华浙大交大这种医学院研究院,有很多附属医院,数据还是非常多。刚才宫博士也说,是给到某些大学,而大学里面这些影像中心可以流出去,所以这一块其实有很多机会的。问题倒是以哪些病为突破口,这个倒是可以再探索。

Polarr 宫恩浩:最近基于 CNN 的 segmentation 发展有一定进展,就可以做一些很多医疗方面的应用。

搜狗高君:但是有一点像医学影像,即使就目前来看,就算能拿到很好的数据,它也不太可能变成一个主要的手段吧?我是这么想,毕竟它是有错误率的,如果让一个机器去做主要建议的话,一旦出了事故会比较麻烦,我是这样感觉的。所以我觉得这种工具在未来,也仅仅是给医生做一个参考的作用。我不知道大家会对这件事有更大的期待吗?

Polarr 宫恩浩:这些医学伦理和管理方面问题,主要是你不管做的再好,目前你不可能一个机器来给你做这做那,都是最后签字是有人来负责,但是对于医生来说,比如他需要看很多层的图片,很多个不同的层的片,那如果能告诉他,你就看这一层,就是主要的一层,这种减少他的工作量,从实质上来说,非常非常好。前几天我跟一个医学院的老师聊这事,他觉得就需要这方面的东西。
2019-07-30 13:24:32 BigDataDigest 阅读数 120
  • 深度学习--实现图片分析及目标定位视频教学

    基于深度学习实现图片分析及目标定位视频教程,通过计算机视觉和大数据、深度学习的结合,将积累的医学数据转化为可用的模型,利用图像处理和机器学习算法对图像进行分析,检测异常部分,利用AI技术克服不同操作人员之间的主观性差异,减轻人工处理的工作量,让计算机在精确度和速度上帮助医生提高诊断效率。

    1154 人正在学习 去看看 CSDN讲师

大数据文摘出品

来源:thegradient

编译:张大笔茹、Aileen

 

医疗领域常常被认为是处于AI革命边缘的领域。人工智能领域的很多知名企业,如谷歌的DeepMind,都声称他们一直在医疗领域努力耕耘,“人工智能有望改变现有医疗格局”。

 

但到目前为止AI到底产生了多大影响力?我们是否真的可以知晓从新技术中获益的具体医疗领域呢?

 

在今年5月召开的ACM CHI“计算机系统中的人为因素作用力”会议上,来自Google的Carrie J. Cai在“以人为本的工具,以解决AI在应对医疗决策过程算法不完善”的讨论中展示了她的获奖作品,并声称机器学习技术在医疗决策中的使用会越来越多。

 

她开发了一个新系统,使医生能够即时改进和修改病理图像的搜索方式,以不断提高其准确性。

 

利用深度学习的视觉模型,在对新患者做出诊断时参考已知患者的医学图像(例如来自活检的组织)是一种很有前途的方式。然而,在特定诊断期间准确获得医生当下所需的相似图像对现有系统提出了巨大挑战,因为“意图鸿沟”(intention gap)的存在,即难以捕获医生的准确意图。这个问题我们稍后会详细讨论。

 

Cai的研究展示了他们在医学图像检索系统上开发的细化工具能够如何提高图像的诊断准确性。更重要的是,增加了医生对机器学习算法辅助医学决策的信任度。此外,调查结果显示医生能够理解算法背后的优点和缺点,自己发现并修正系统出现的错误。总体而言,医疗专家对AI系统协助医学决策的未来持乐观态度。

 

在这篇文章中,我们主要讨论三个方面的问题,即:

  • 基于内容的图像检索系统的发展状态

  • 深度学习技术在这些系统中的作用

  • 讨论它们的应用和对医疗领域的影响

 

基于内容的图像检索系统的发展状态

 

在过去二十年左右的时间里,由于网络上可视化数据的可访问性不断增长,基于内容的图像检索(CBIR)已经成为计算机可视化研究的热门领域。基于文本的图像搜索技术由于与视觉内容的不匹配性而饱受诟病,因此将相似的视觉内容进行排序在许多情况下都被认为是很重要的。

 

论文地址:

https://arxiv.org/pdf/1706.06064.pdf

 

Wengang Zhou等人指出了CBIR系统的两个关键挑战,他们称之为“意图鸿沟(Intention Gap)”和“语义鸿沟(Semantic Gap)”。

 

图1:来自Wengang Zhou等人的论文《基于内容的图像检索的最新进展:文献调查”》

 

所谓“意图鸿沟”,即难以通过已有的数据库理解用户的确切意图,如图示中的关键字。这是Carrie J. Cai等人提出的。回顾之前的研究,通过示例图像进行查询似乎是最广为探索的领域,原因显然是因为通过图像获得丰富的查询信息非常方便。但这需要从图像中提取准确的特征,因此需要我们进入下一个角度,即语义鸿沟。

 

语义鸿沟主要是指用低级视觉特征描述高级语义概念的困难。现在,经过多年来的大量研究,这个问题已经取得了一些显着突破,例如引入不变的局部视觉特征(SIFT)和引入视觉词袋(BoW)模型。

 

图1展示了CBIR系统的两个主要功能。匹配检索理解和图像特征之间的相似性,也是一个重要的步骤,但这完全取决于系统表达出查询和图像的匹配程度。

 

最近基于学习的特征提取器,例如深度卷积神经网络(CNN),爆炸式地开辟了许多新研究途径,可以直接应用于解决我们在CBIR系统中讨论的语义鸿沟。这些技术相比人工输入的特征提取器有了显着改进,并且已经在语义感知检索应用程序中显示出了潜力。

 

机器学习扮演的角色

 

Carrie J. Cai等人分析了CBIR系统的基本细节。由Narayan Hedge等人详细介绍了他们的研究——“组织病理学类似图像搜索:SMILY”。系统概述如图2所示。

 

图2:来自由Narayan Hedge等人的的研究论文“类似图像搜索组织病理学:SMILY”

 

卷积神经网络(CNN)算法用于图2所示的嵌入计算模块,作为系统中的特征提取器。系统将图像信息压缩成数字特征向量(也称为嵌入向量),通过预训练的CNN算法计算并存储图像数据库(这里是病理载片上的片段图像)及其数值向量,当对图像进行进行查询检索时,使用相同的CNN算法计算查询输入的图像,并与数据库中的向量进行比较以检索最相似的图像。

 

此外,Narayan Hedge等人解释说,CNN架构是基于Jiang Wang等人提出的深度排序网络,它由卷层和汇聚层以及连接操作组成。在网络训练阶段,输入3组图像:特定类的第一组参考图像,同一类的第二组图像和完全不同类的第三组图像。然后对损失函数进行建模,使得网络在嵌入相同类的图像时赋值的距离比嵌入不同类图像时更短。因此,来自不同类的图像有助于增强来自同一类的图像的嵌入之间的相似性。

 

他们使用大型自然图像数据集(例如狗,猫,树等)来训练网络而不只是用病理图像。在学会区分相似的自然图像与不同的自然图像之后,再将相同的训练架构直接应用于病理图像的特征提取上。这种方式被视为有限数据的应用中的神经网络加强版,通常称为转移学习。

 

Narayan Hedge等人表示CNN特征提取器为每个图像设置了128个大小不一的向量,并且选择L2距离作为向量之间的比较函数。使用t-SNE可视化技术将病理图像载玻片上产生的所有数据集嵌入。如图3所示:(a)器官位点着色的嵌入 (b)由组织学特征着色的嵌入。

 

图3:来自由Narayan Hedge等人的的研究论文“类似图像搜索组织病理学:SMILY”

 

事实上,类似的深度排名网络架构和训练技术可以在诸如Siamese Neural Networks等深度学习文献中广泛使用,甚至已经应用于人脸识别中。

 

现在,回到CBIR系统,我们了解到深度学习技术可以减少语义鸿沟,这些基于深度学习的方法即使在复杂的自然图像中也可以识别重要特征。

 

在医疗领域中的应用与冲击

 

到目前为止,我们研究了CBIR系统的应用以及深度学习技术在克服语义鸿沟等方面的潜力。但CBIR在医疗方面的适用性如何?我们能否明确量化其影响呢?

 

仅在2002年,日内瓦大学医院的放射科每天就产生超过12,000张图像。其中,心血管科是第二大数字图像制造者。医疗信息系统的目标应该是“在适当的时间地点为正确的人提供其所需的合适信息,以提高治疗过程的质量和效率。”因此,在临床决策中,基于案例的推理或基于证据的医学决策都希望从CBIR系统中受益。

 

无论技术多么健全,这些系统在实际临床应用中都需要更多的完善,特别是在建立系统与医生间的信任方面。这是Carrie J. Cai等人的提出的,医生通过非常灵活地使用相关性反馈来完善系统,即对得到的系统结果进行评级。HenningMüller等人还申明了相关反馈在交互式环境中的重要性,其用来改善系统结果并提高CBIR系统的适应性。

 

另一个重点是量化这些系统的影响,这对于这一研究领域的适应和发展至关重要。在与12位病理学家一同进行用户研究后,Carrie J. Cai等人声称,通过他们的CBIR系统,医生能够更轻松地增加系统的诊断效用。此外,结果也显示医生对其信任度的提高了也增大了将来用于临床实践的可能性。但是在本研究中没有评估诊断准确性(尽管经验表明其保持不变),因为它超出了研究范围。

 

展望未来,很明显,医疗专家和AI系统开发人员需要不断协作,以确定范例并评估AI应用程序在医疗中的影响。此外,科研界也应重点关注开放测试数据集和查询标准的开发,以便为CBIR系统设置基准,这些对于推动研究向前发展非常有帮助。

 

相关报道:

https://thegradient.pub/is-deep-learning-the-future-of-medical-decision-making/?nsukey=odS4P1ou1h9XDWSjRhyXZKKZ7OWMUclRNJloL3ZK4v%2FkCVGWYumiL21FHE65ncibHu%2Fr4lMDPfEZXH6IX3fWaPFUqfAwHFAjM%2B3EWQazPUhIRcJWgX1s9YnhebBhGUOOndlZ4d1NJm9KUxN7XtIplGy0XiwdwYG%2FdZnoOncSvu2lF0FU%2BgJXGB3QyhgYw55TVUeVZswMmX0ydC5%2BF8n7tQ%3D%3D

 

《黑科技》

阅读数 1015

没有更多推荐了,返回首页