为您推荐:
精华内容
最热下载
问答
  • 5星
    163KB qq_41934573 2021-05-04 14:18:22
  • 5星
    25.67MB weixin_42241611 2021-09-12 11:40:34
  • 5星
    1.19MB weixin_42163563 2021-08-17 22:38:25
  • 20KB yingcai111 2021-09-09 21:39:26
  • 302KB sanshenglu 2021-09-14 07:41:36
  • 202KB weixin_38521169 2021-04-27 11:10:00
  • 123KB weixin_38744207 2019-09-20 09:15:18
  • 18.41MB weixin_38740596 2021-01-25 14:25:31
  • 体检,病例,住院记录,临床诊断,医学论文等方面词汇 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下...

    ■医学,药学;体检,病例,住院记录,临床诊断,医学论文等方面词汇集
    在这里插入图片描述
    qq:605818093

    欢迎使用Markdown编辑器

    你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

    新的改变

    我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

    1. 全新的界面设计 ,将会带来全新的写作体验;
    2. 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
    3. 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
    4. 全新的 KaTeX数学公式 语法;
    5. 增加了支持甘特图的mermaid语法1 功能;
    6. 增加了 多屏幕编辑 Markdown文章功能;
    7. 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
    8. 增加了 检查列表 功能。

    功能快捷键

    撤销:Ctrl/Command + Z
    重做:Ctrl/Command + Y
    加粗:Ctrl/Command + B
    斜体:Ctrl/Command + I
    标题:Ctrl/Command + Shift + H
    无序列表:Ctrl/Command + Shift + U
    有序列表:Ctrl/Command + Shift + O
    检查列表:Ctrl/Command + Shift + C
    插入代码:Ctrl/Command + Shift + K
    插入链接:Ctrl/Command + Shift + L
    插入图片:Ctrl/Command + Shift + G
    查找:Ctrl/Command + F
    替换:Ctrl/Command + G

    合理的创建标题,有助于目录的生成

    直接输入1次#,并按下space后,将生成1级标题。
    输入2次#,并按下space后,将生成2级标题。
    以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

    如何改变文本的样式

    强调文本 强调文本

    加粗文本 加粗文本

    标记文本

    删除文本

    引用文本

    H2O is是液体。

    210 运算结果是 1024.

    插入链接与图片

    链接: link.

    图片: Alt

    带尺寸的图片: Alt

    居中的图片: Alt

    居中并且带尺寸的图片: Alt

    当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

    如何插入一段漂亮的代码片

    博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

    // An highlighted block
    var foo = 'bar';
    

    生成一个适合你的列表

    • 项目
      • 项目
        • 项目
    1. 项目1
    2. 项目2
    3. 项目3
    • 计划任务
    • 完成任务

    创建一个表格

    一个简单的表格是这么创建的:

    项目Value
    电脑$1600
    手机$12
    导管$1

    设定内容居中、居左、居右

    使用:---------:居中
    使用:----------居左
    使用----------:居右

    第一列第二列第三列
    第一列文本居中第二列文本居右第三列文本居左

    SmartyPants

    SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

    TYPEASCIIHTML
    Single backticks'Isn't this fun?'‘Isn’t this fun?’
    Quotes"Isn't this fun?"“Isn’t this fun?”
    Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash

    创建一个自定义列表

    Markdown
    Text-to- HTML conversion tool
    Authors
    John
    Luke

    如何创建一个注脚

    一个具有注脚的文本。2

    注释也是必不可少的

    Markdown将文本转换为 HTML

    KaTeX数学公式

    您可以使用渲染LaTeX数学表达式 KaTeX:

    Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n1)!nN 是通过欧拉积分

    Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=0tz1etdt.

    你可以找到更多关于的信息 LaTeX 数学表达式here.

    新的甘特图功能,丰富你的文章

    Mon 06 Mon 13 Mon 20 已完成 进行中 计划一 计划二 现有任务 Adding GANTT diagram functionality to mermaid
    • 关于 甘特图 语法,参考 这儿,

    UML 图表

    可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:

    张三 李四 王五 你好!李四, 最近怎么样? 你最近怎么样,王五? 我很好,谢谢! 我很好,谢谢! 李四想了很长时间, 文字太长了 不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三 李四 王五

    这将产生一个流程图。:

    链接
    长方形
    圆角长方形
    菱形
    • 关于 Mermaid 语法,参考 这儿,

    FLowchart流程图

    我们依旧会支持flowchart的流程图:

    Created with Raphaël 2.3.0 开始 我的操作 确认? 结束 yes no
    • 关于 Flowchart流程图 语法,参考 这儿.

    导出与导入

    导出

    如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

    导入

    如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
    继续你的创作。


    1. mermaid语法说明 ↩︎

    2. 注脚的解释 ↩︎

    展开全文
    qq_43066440 2020-03-17 22:37:13
  • 125KB weixin_38709312 2021-02-10 18:45:46
  • 近年来大数据技术与医学影像辅助诊断的有机融合产生了新的影像组学方法,其通过从影像中提取海量特征来量化肿瘤等重大疾病,可以有效解决肿瘤异质性难以定量评估的问题,具有重要的临床价值。影像组学技术来源于...

    近年来大数据技术与医学影像辅助诊断的有机融合产生了新的影像组学方法,其通过从影像中提取海量特征来量化肿瘤等重大疾病,可以有效解决肿瘤异质性难以定量评估的问题,具有重要的临床价值。影像组学技术来源于计算机辅助诊断(computer aided diagnosis,CAD),目前已经发展成为融合影像、基因、临床等信息的辅助诊断、分析和预测的方法。 3Qj影像园XCTMR.com

    影像组学作为医工交叉的产物,其应用先进的计算机方法解决临床具体问题,将有广阔的应用前景。笔者将对新兴的影像组学技术进行介绍,阐述影像组学的相关概念、具体处理流程及其面临的挑战、应用领域及未来的发展方向。3Qj影像园XCTMR.com

    一、影像组学的基本概念3Qj影像园XCTMR.com

    影像组学的概念最早由荷兰学者在2012年提出,其强调的深层次含义是指从影像(CT、MRI、PET等)中高通量地提取大量影像信息,实现肿瘤分割、特征提取与模型建立,凭借对海量影像数据信息进行更深层次的挖掘、预测和分析来辅助医师做出最准确的诊断。影像组学可直观地理解为将视觉影像信息转化为深层次的特征来进行量化研究。 3Qj影像园XCTMR.com

    二、现阶段影像组学的具体流程和面临的挑战 3Qj影像园XCTMR.com

    影像组学的处理流程总结归纳为以下部分:(1)影像数据的获取;(2)肿瘤区域的标定;(3)肿瘤区域的分割;(4)特征的提取和量化;(5)影像数据库的建立;(6)分类和预测。下面对其流程和面临的挑战作相应的介绍。 3Qj影像园XCTMR.com

    1.影像数据的获取:现代医院影像设备包括CT、MRI、PET等在图像获取和重建协议上都有很大的差异,缺乏一个统一的标准规范这个流程。影像数据的收集以薄层数据最佳。影像组学的入组数据需要具有相同或相似的采集参数,保证数据不会受到机型、参数的影响。虽然国内肿瘤患者较多,但是具体到每家医院,肿瘤患者的数据就相对变少,而影像组学研究需要在众多的医院数据中查找严格符合入组条件的数据来保证一致性,这样做又会使数据量急剧减少。因此,影像组学的研究要从数据量和入组规范中寻找一个折中点,保障基本的数据量,为大样本、多特征、多序列和多方法的研究提供保障。 3Qj影像园XCTMR.com

    2.分割算法的实现:图像分割是影像组学方法的第一步,将肿瘤区域和其他组织分离,便于进行下一步肿瘤特征提取。由于肿瘤的异质性和不规则性,针对特定肿瘤的精准分割是一个巨大挑战。 3Qj影像园XCTMR.com

    近几年来,多种分割算法已应用到肿瘤区域标定中,其中效果较好的包括滑降区域生长法(region-growing methods)、图割法(graph cut methods)、半自动分割算法(semiautomatic segmentations)、基于容量CT的分割法(volumetric CT-based segmentation)等,人工跟踪分割方法(manually traced segmentations)常被用来作为金标准。对于不同的分割算法,都有其适用范围和条件。目前来看尚无认可度较高的通用分割算法,这将会是广大科研人员的一个重要研究方向。 3Qj影像园XCTMR.com

    总之,目前大部分算法均无法满足分割效果的要求,不能解决科研工作者的难题。因此高精度、全自动特定肿瘤分割算法将是未来的发展趋势。 3Qj影像园XCTMR.com

    3.特征提取与量化:从影像处理狭义概念来讲,分割算法将ROI分割完成后,就可以对其进行特征提取。目前文献常提到的特征包括肿瘤直方图强度(tumor intensity histogram),如高或低对照;肿瘤形状特征(shape-based features),如圆形或毛刺状;纹理特征(texture-based features),如同质性或异质性;小波特征等(wavelet features)。为了便于分析,我们从广义上进行特征选择和提取,要将特征降维。 3Qj影像园XCTMR.com

    基于以上考虑,可以采用机器学习或者统计学方法来实现;也可以通过最大相关最小冗余(maximum relevance and minimum redundancy,mRMR)或主成分分析法(principal component analysis,PCA)得到更具有代表性的特征。除此之外,特征的高度可重复性在临床生物标记发展的过程中同样重要。为了最大化收集各个层次和方面的信息,我们可以对患者临床特征和基因信息等进行提取,将影像组学特征和临床特征结合,为分类和预测提供更准确的信息。 3Qj影像园XCTMR.com

    虽然影像组学是目前一种比较前沿的方法,可从影像中挖掘到很多特征来进行分析,但这只是影像中的一部分信息。因此,更科学、更准确和更标准的特征提取方法和挖掘各层信息的手段是我们今后的突破难点。 3Qj影像园XCTMR.com

    4.数据库的建立:Gillies等认为影像不仅仅是图片,而是更重要的数据,数据库的建立是影像组学进一步发展的重要工作。一个高精度的预测模型必须要有庞大的数据库支持,所以多中心,标准化的数据库也是影像组学应用到临床的保证。文献中还指出,在二进制分类器中,每个特征需要10个样本来支持。此外,最佳的模型可以很好地包含临床和基因的变量,这样就需要依赖更大的数据样本。未来获取影像和其他数据资源时要有意识地把质量和标准化作为要求,可以避免数据的损失,有效提高影像组学流程的处理效率。 3Qj影像园XCTMR.com

    5.分类和预测:分类和预测是影像组学方法最终要实现的结果。大数据分类主要通过利用不同特征的相关性对已有数据进行分类。首先将数据分为训练集和验证集,使用训练集建立描述预先定义的数据类或概念集的分类器。这一步也可以看作是通过训练样本学习一个映射或者函数,建立起相应的分类模型后就可以应用该模型对新数据进行分类。 3Qj影像园XCTMR.com

    广东省人民医院和中国科学院自动化研究所展开医工合作,利用影像组学方法对非小细胞肺癌患者进行早期存活率预测,得出的结果非常有意义。还有研究验证,影像组学可以提高鳞癌和腺癌的分类正确率。该文献指出,在多变量分析中,发现53个影像组学特征和肿瘤组织相关。用小波特征建立的预测模型的曲线下面积可达到0.72。对于一个特定的模型而言,衡量其性能的主要指标是准确率,在分类中所面临的挑战就是如何在没有出现过拟合的情况下尽可能提高准确率,一个好的分类模型不仅要能够很好地拟合训练数据,而且应该对未知样本能够准确分类。 3Qj影像园XCTMR.com

    三、影像组学的应用3Qj影像园XCTMR.com

    随着技术的进步、研究水平的提高,影像组学在CT、MRI、PET和基因融合方面有很多新的进展。多中心病例数已经达到上千例,提取一阶统计量、二阶统计量、纹理以及临床等特征数已经达到上百个,序列数也在不断增加,理论化方法也在不断增多。面对国家重大需求,临床生存期无突破,肿瘤异质性难以定量评估等情况,影像组学为实现精准诊断提供了新机遇。下面将详细介绍影像组学在CT、MRI、PET以及基因融合中的应用。3Qj影像园XCTMR.com

    影像组学分析主要应用于医学图像并进行定量处理。在肺癌诊断中最广泛使用的成像方法是CT,肺肿瘤在CT图像中呈现很强的对比度,包括图像中肿瘤灰度值强度差异、肿瘤内纹理差异和肿瘤形状差异。影像组学处理流程与CAD相似,提取特征后进行分析,从而帮助医师做出治疗决策,但是在个别流程存在差异。CAD是检测和诊断病灶,而影像组学是从影像中提取海量特征来进行特征分析。例如,研究人员最近发现,影像组学的特征和肺癌预后高度相关。通过挖掘多维440个特征,得出癌症预后和个别影像组学特征的相关性。 3Qj影像园XCTMR.com

    一种基于CT图像的影像组学特征预测远端转移的方法表明:在635个影像特征中,有35个影像特征可以作为远端转移的预测指标,其中一致性指数在0.6以上,错误发现率在0.05以下。上述研究体现了影像组学特征作为一种预后指标来进行临床预测。MRI是医学影像的重要组成部分,从MRI中提取大量特征来进行研究已经成为现阶段的研究热点之一。例如在脑胶质瘤影像组学研究中,MRI作为首选的影像检查被应用于恶性胶质瘤(glioblastoma,GBM)的诊断、外科手术前方案的制定和治疗后的监测中。 3Qj影像园XCTMR.com

    随着乳腺癌发病率的逐渐上升,同样需要有一种有效的方法来实现乳腺癌的准确诊断和分析。为了解决这一难题,影像组学在乳腺癌的MRI诊断中也有广泛应用。PET 图像的影像组学分析流程与其他模态的图像类似,包含图像分割、特征提取及选择、信息分析和数据挖掘等环节。在PET图像中,纹理特征可以很好地描述组织,预测治疗效果和存活率。 3Qj影像园XCTMR.com

    基于影像组学模型的肺部转移的研究表明,纹理特征可以作为一种预后指标预测软组织肉瘤是否发生转移。同时用影像组学特征构建预测模型,纹理作为一种肿瘤内部异质性的生物标记物,可以帮助医师对病理进行更深入的分析。传统的影像诊断主要依赖于医师的判断,而影像组学基于数据进行分析,提取高维图像特征作为新的生物标记物来帮助临床决策。用影像组学特征预测突变型表皮生长因子受体(EGFR)的文献中提到,用5个影像组学特征集和病理分级、是否抽烟等临床特征相结合,可以将仅由临床特征预测突变得到的曲线下面积由0.667提高到0.709。 3Qj影像园XCTMR.com

    通常,大规模影像组学数据的提取依赖电脑视觉和图像处理技术,低层次的图像特征描述用于定义肿瘤的形状、清晰度、紧密度及视觉外观。因此,大量的影像组学数据可以实现常规影像学不能达到的医疗数据整合。 3Qj影像园XCTMR.com

    另一方面,影像组学将横断面影像阵列转化为可定量的特征,为构建影像基因组学框架奠定了基础。这个框架整合了不同领域的知识,进而得出它们之间因果关系的推论。影像组学的应用领域不仅局限于上述几个方面。有研究显示,非入侵式的影像组学和药物反应有一定相关性。近期,广东省人民医院与中国科学院自动化研究所合作,利用各自的优势把影像组学研究方法应用到了结直肠癌诊断治疗中,建立并验证一种基于影像组学标签的结直肠癌淋巴结转移术前预测模型。此外,影像组学可以实现肿瘤的全面量化分析,以及对不同时期肿瘤的生长状况进行直观检测,可以很容易地观察到肿瘤的转移情况和相关特性。 3Qj影像园XCTMR.com

    四、总结与展望 3Qj影像园XCTMR.com

    影像组学作为一种新兴的研究方法,通过从不同模态的影像中提取高通量的影像特征,一定程度上实现了肿瘤异质性的评估和肿瘤的预后评估,其方法来源于CAD,早期主要用于评估放疗效果,并逐步在影像领域应用,到目前已经发展成为融合影像、基因、临床等信息的辅助诊断、分析和预测的工具。与活检对比而言,它有明显的优势,不仅可以减少活检带来的痛苦,也在一定程度上提高了工作效率,减轻患者经济上的负担,为将来患者病情复查提供更健康和安全的途径。当然影像组学并不局限于肿瘤领域,其他疾病也可以将其应用其中。 3Qj影像园XCTMR.com

    虽然目前影像组学处理流程已经比较完善,但很多流程的优化仍是难题,例如其中关键的分割算法的改进仍是挑战性问题,人工分割耗时耗力,自动分割鲁棒性和精度难以保证。随着近期深度学习浪潮的推动,基于深度机器学习的分析预测方法将是影像学术未来的发展方向之一,为预测准确率的提高提供了突破方向。另一方面,由于目前医院患者人数众多,影像检查费时费力,影像组学也应尽可能与临床特征相融合,成为临床医师更加信赖和认可的方法,从真正意义上发展为一种辅助诊断的工具,提供便捷和放心的服务。3Qj影像园XCTMR.com

    参考文献:张利文等.中华放射学杂志2017年1月第51卷第1期

    展开全文
    weixin_33143629 2020-12-30 12:58:25
  • 2020-08-13 20:21:14 ...在论文中,作者提到,因果AI系统打破了传统的根据症状诊断疾病的诊断方式,通过使用“反事实问题”缩小患者可能出现状况的范围。显然,因果AI系统更加接近专业医师的诊断思.

     2020-08-13 20:21:14

    因果AI诊断模型登上nature:模拟专业医师思维,诊断罕见疾病,超越SOTA算法

    作者 | 蒋宝尚

    编辑 | 陈彩娴

    如何才能提高人工智能医疗诊断的准确率?有一个答案是:试着让人工智能像专业医师那样思考。

    因果AI诊断模型登上nature:模拟专业医师思维,诊断罕见疾病,超越SOTA算法

    8月11日,来自伦敦大学学院和英国数字医疗公司Babylon Health的研究员合作开发了依靠因果关系诊断疾病的AI系统,并在《自然通讯》期刊上发表了相关论文。

    在论文中,作者提到,因果AI系统打破了传统的根据症状诊断疾病的诊断方式,通过使用“反事实问题”缩小患者可能出现状况的范围。显然,因果AI系统更加接近专业医师的诊断思维。

    具体而言,传统的AI系统诊断方法,包括基于贝叶斯模型和深度学习的方法,都依赖于关联推理(associative inference)。例如,如果病人因为呼吸急促而住院,基于关联推理的AI系统可能将呼吸急促和超重(being overweight)联系起来,然后再将超重和2型糖尿病联系起来,从而诊断出应使用胰岛素的治疗方式。

    如果专业医师(因果推断)进行对“呼吸急促”进行诊断,那么,医生可能会专注于呼吸急促和哮喘之间的联系。

    关于诊断的准确率,作者在论文中介绍到:“我们使用了1671个临床案例作为测试集,然后将反事实算法、表现为SOTA的关联推理算法、44名专业医师三者进行对比。结果为反事实算法的准确率平均为77.26%,超过SOTA算法的72.52%,医生的71.40%。”

    在罕见疾病的诊断中(例如非霍奇金淋巴瘤),反事实算法表现也尤为优秀。其中罕见疾病中准确率为29.2%,极罕见疾病的准确率达到32.9%。

    1

    关联推理混淆因果

    因果AI诊断模型登上nature:模拟专业医师思维,诊断罕见疾病,超越SOTA算法

    (Judea Pearl 点赞推荐)

    在论文的模型介绍部分,作者先概述了相关性诊断(Associative diagnosis)的基本原则和假设,然后提出这种方法会因为因果混淆而导致诊断崩溃。

    具体而言,作者在论文中举了两个例子:

    例子1:上了年纪的烟民经常会胸痛、恶心和疲劳。如果患者去医院看病,虽然该患者属于肺气肿的高发人群,但一个好的医生会根据证据给出一个即可能又相关的诊断(如心绞痛)。因为,肺气肿不太可能引起胸痛、恶心和疲劳的症状,所以不能用用作诊断结果。

    例子2:研究发现,因肺炎入院的哮喘患者对感染的治疗更积极,降低了次母群体(sub-population)死亡率。根据这些数据训练出来的诊断肺炎的相关性诊断模型,会将哮喘作为一个保护性的风险因素。这非常危险,会导致对哮喘患者推荐一种不那么激进的治疗方案。另外,在本例中,因果混杂因素是患者未观察到的护理水平。

    由于类似例子1和例子2这种混淆的例子越来越多,导致越来越多的人要求将因果知识恰当地纳入健康护理中的决策支持算法。

    但是,尽管大量研究都同意将因果推理置于诊断中心,但作者在论文中也提到:“据我们所知,目前,并没有采用现代因果分析技术的模型诊断的方法。”

    2

    反事实诊断

    在论文中,作者对诊断的因果定义如下:

    从鉴于患者的病史,识别最有可能引起患者症状的疾病。

    也就是,根据患者提供的证据,医生试图确定哪些疾病是症状的最佳解释。而反事实推断则利用了这个定义进行检验,即如果某些前提条件不同,判断某些结果是否会发生。总体思路是:计算如果发生了一些假设性干预,如果能观察到不同结果的可能性,便推断出于事实相反。

    另外,作者提出了两个反事实的诊断措施,称之为预期失效(expected disablement)和预期充分性(expectedsufficiency)。

    其中,预期失效定义为:

    因果AI诊断模型登上nature:模拟专业医师思维,诊断罕见疾病,超越SOTA算法

    预期充分性定义为:

    因果AI诊断模型登上nature:模拟专业医师思维,诊断罕见疾病,超越SOTA算法

    其中, ε为事实证据,S+为证据确凿的事实状态,D代表疾病,S'为反事实症状证据状态。

    除此之外,作者还给出了用于计算这些指标的诊断模型-孪生诊断网络。

    因果AI诊断模型登上nature:模拟专业医师思维,诊断罕见疾病,超越SOTA算法

    图注:疾病和症状的三种不同的因果结构

    在具体实验中,作者使用的疾病模型是贝叶斯网络(BNs),它可以模拟数百种疾病、风险因素和症状之间的关系。另外,此模型通常将疾病、症状和风险因素表示为二元节点,要么开(真)要么关(假)。

    利用现有的诊断模型,作者也已经证明,与标准的关联排名(standard associative rankings)相比,通过这些反事实诊断对疾病假设进行排名可以极大地提高诊断的准确性。虽然“关联算法”的表现与普通医生不相上下,但反事实算法的准确度能排在医生梯队里的前25%。

    另外,这一改进对于罕见和非常罕见的疾病尤其明显。毕竟,在这些疾病中,诊断错误通常更常见、更严重,在这些情况下,反事实算法对真实疾病的排名分别高于关联算法29.2%和32.9%。重要的是,这种改进是“免费的(for free)”,不需要对疾病模型进行任何改变。由于这种向后兼容性,作者的算法可以看作现有贝叶斯诊断算法的即时升级。

    参考文献:

    https://www.nature.com/articles/s41467-020-17419-7

    展开全文
    weixin_42137700 2020-08-18 13:04:09
  • 基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法张旭东, 孙圣力, 王洪超北京大学软件与微电子学院,北京 100089北京先通康桥医药科技有限公司,北京 101300摘要...

    基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法

    张旭东, 孙圣力, 王洪超

    北京大学软件与微电子学院,北京 100089

    北京先通康桥医药科技有限公司,北京 101300

     

    摘要为了辅助医护人员利用触诊成像技术判定乳腺癌,提出了触诊成像乳腺癌智能诊断模型和方法。采用乳腺癌早期筛查及风险评估的临床数据,以触诊成像诊断结果为对比数据,通过决策树等机器学习算法以及投票法,对乳腺肿瘤的良恶性质进行判定。使用SMOTE算法对数据进行处理,建立了诊断模型和方法,自动完成对乳腺肿瘤性质的诊断。实验结果表明,乳腺癌正确筛查的准确性达到98%,提出的方法具有很好的应用价值。

    关键词: 智能诊断 ; 临床数据 ; 机器学习 ; SMOTE算法

    640?wx_fmt=jpeg

    论文引用格式:

    张旭东, 孙圣力, 王洪超. 基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法. 大数据[J], 2019, 5(1): 68-76

    ZHANG X D, SUN S L, WANG H C. Intelligent diagnosis model and method of palpation imaging breast cancer based on data mining. Big data research[J], 2019, 5(1): 68-76

    640?wx_fmt=jpeg

    1 引言

    近年来,乳腺癌已成为威胁女性健康的恶性疾病,发病年龄集中于45~55岁,发病率则随着年龄的增长呈上升态势。提高广大妇女的乳腺健康意识,加强和规范乳腺癌筛查工作,以便早诊早治,对于降低乳腺癌死亡率至关重要。在乳腺癌筛查中应以较少的人力、物力取得较大的社会效益,即选择灵敏、经济的检测手段,制定最佳的筛查方案。

    鉴于触诊成像在大规模人群筛查中体现出的快速高效的独特优势,本文结合机器学习相关技术,采用乳腺触诊诊断仪收集的临床数据,进行诊断模型训练,以乳腺癌临床病理诊断结果为判读标准,建立了一套基于触诊成像的乳腺癌智能诊断方法,以实现乳腺癌的智能化判定,进而提高大规模人群乳腺癌筛查的效率。

    在医疗领域,大数据的取得及应用至关重要。大部分数据是通过文献、临床数据、结构化数据、非结构化数据及第三方数据库等渠道获取的。医疗数据存在以下特点和问题。首先,医疗数据具有显著的特殊性及复杂性,要在短时间内积累大量有价值的数据,难度和成本很高;其次,医疗数据往往面临不平衡数据集的问题,样本种类不平衡会导致整个数据集难以有效地运用,数据无法发挥其最大效能。因此,从不同渠道获取数据后,应进行数据清洗,确保数据质量,并在数据转换、重新建构后,将数据存入数据库以供使用。医疗智能诊断旨在帮助医疗机构或医生个人利用信息技术对医学数据进行收集、管理及分析。本文通过积累相关医学知识,利用数据清洗、数据增强等方式提升数据的价值,并运用相关机器学习算法进行乳腺癌预测,建立了一套触诊成像乳腺癌智能诊断方法。


    2 乳腺癌智能诊断建模流程

    笔者参与的乳腺触诊成像健康体检人群乳腺癌早期筛查研究项目积累了多家医院的临床数据。本文基于这些数据,以触诊成像诊断结果为对比数据,进行相关的预测研究。所有触诊成像被诊断为乳腺癌的阳性标本均经过病理诊断验证,在乳腺癌样本数据中随机选择3个数据集(分别表示为数据集1、数据集2、数据集3),数据量分别为13 428条、1 554条、902条,总计15 884条数据样本。

    综合考虑各方面因素和临床数据的特点,运用机器学习中常用的决策树、神经网络、支持向量机(support vector machine,SVM)、逻辑回归及贝叶斯网络5种算法,再结合多种投票法,进行乳腺肿瘤的形态预测和判定。

    数据在经过预处理等相关操作后,运用合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE),将阳性样本进行合理范围的增量,以解决不平衡数据集问题。对模型进行测试及改进,选择最佳分类模型和方法,并综合利用准确率、召回率等指标,评估分类模型的优劣,得到高质量的乳腺诊断模型,提升总体辅助诊断水平。

    整个建模流程如图1所示。


    640?wx_fmt=jpeg

    图1   乳腺癌智能诊断建模流程


    3 数据清洗与准备

    依据数据清洗(data cleaning)的原则,按图2所示过程进行数据清洗。

    640?wx_fmt=jpeg

    图2   数据清洗流程


    原始临床数据有位置、象限、压力值、肋骨干扰、3D峰值、2D颜色、3D峰顶形状、3D形状、3D基底、3D动态、2D形状、2D动态颜色分布、血流灌注指数(PI)诊断结果及病理结果14个属性。其中,压力值及肋骨干扰两个属性对智能诊断系统并无显著影响,故而剃除。为确保数据的完整性,将36个含有缺失值及62个含有噪音值的数据样本剔除。各属性数据缺失量与噪音数据量如图3所示。


    640?wx_fmt=jpeg

    图3   各属性数据缺失量与噪音数据量

    整个数据集内初始的阳性样本有135个,占所有数据的0.85%。由于阳性数据与阴性数据的比例极不平衡,故而进行了样本数据的整理。在数据查重时,发现排除位置及象限两个不影响结果的属性后,有168个阴性数据与阳性数据属性相同。为避免错失恶性病例情况的发生,将这168个原本标为阴性而实则为阳性的数据样本更改成阳性,以提高数据的准确性。查重前后阳性数据数量见表1。


    640?wx_fmt=png

    SMOTE算法通过采样操作解决类别间比例相差悬殊的问题。当数据集类别不均衡时,一般采取随机欠采样和随机过采样两种方式来处理。本研究中抽取新值的SMOTE算法示意如图4所示,依次遍历数据集中每个集合,直到处理完所有数据为止。最后,将新增加点的集合加至原有数据集的恶性病例类别中,并构成新的数据集。该算法避免了随机过采样复制样本带来的样本数据不准确的问题,解决了模型学习到的信息过于特别而不够泛化的问题。


    640?wx_fmt=jpeg

    图4   SMOTE算法示意


    本研究依 据混淆矩阵的分类指标进行模型定量评估,包括准确率(accuracy)、精确度(precision)、召回率(recall)、真阳性率(true positive rate)、F值,其中,召回率又被称为灵敏度(sensitivity)。机器学习中常用准确率与召回率作为参考指标,各指标定义如下:TP为将阳性样本预测为阳性样本的样本数,FN为将阳性样本预测为阴性样本的样本数,FP为将阴性样本预测为阳性样本的样本数,TN为将阴性样本预测为阴性样本的样本数。准确率(正确率)=(TP+TN)/总样本数,精确率=TP/(TP+FP),召回率=TP/(TP+FN),F值=正确率×召回率×2/(正确率+召回率)。

    本文使用SMOTE算法进行阳性样本增量,数据总量为15 790条(阳性数据303条),使用SMOTE算法第1次和第2次处理数据后,阴性样本与阳性样本的比例分别为25:1和13:1,比例依然不平衡。使用SMOTE算法第3次处理数据后,阳性数据增加至2 424条,阴性样本和阳性样本比例约为6:1,数据集的样本种类较先前数据集更合理且平衡。详细结果见表2。


    640?wx_fmt=png

    通过使用SMOTE算法3次处理数据后,近邻点K值在1到7中选择并比较结果。近邻点K值是SMOTE算法中生成新样本的参数。经过对比发现,K=7时呈现过拟合的现象,即分类结果有明显下滑的趋势,故选择结果表现较优秀的值,即K=6值。


    4 模型训练与预测

    随后进行数据集抽取。乳腺癌分类属二元分类问题,故将数据内容定义为标准型数值{N,P},符合数据集要求。在实验设计过程中,将数据集分为训练集及测试集两部分。首先从数据清洗及查重后的数据集内抽取90%的数据作为训练集;在经数据清洗后的数据集内,随机抽取6份数据组成测试集(A~F),每份抽取10%的数据样本,特殊测试集1、特殊测试集2由两份单独的数据集组成,进行最后的模型评估。数据分布见表3。


    640?wx_fmt=png

    本文选用决策树、神经网络、SVM、逻辑回归、贝叶斯网络作为基分类器,基于训练集进行模型训练。然后,基于上述分类模型进行乳腺癌预测,并根据预测结果进行模型筛选和优化。各基分类器具体预测结果见表4。


    640?wx_fmt=png

    在基分类器参数最优的前提下,本文将神经网络[15]由原来的单一隐含层调整为两个隐含层,提高了网络的分类能力。结构优化前后的结果对比见表5。

    640?wx_fmt=png

    在上述基分类器模型预测的基础上,再进行预测算法和模型的优化选择。

    组合分类技术是最主要的提高分类器精确度的方法。将通过多个分类器得出的结果作为最终判断的依据,从而避免单一分类器产生的判断误差或片面性信息,以优化分类效果。本文提出的乳腺癌组合预测诊断方法的处理流程如图5所示。


    640?wx_fmt=jpeg

    图5   乳腺癌组合预测诊断方法流程


    通过上述实验,笔者发现决策树、SVM及神经网络3种算法在乳腺癌智能诊断系统中呈现较好的结果,故将贝叶斯网络及逻辑回归两种算法剃除,仅保留决策树、SVM及神经网络3种算法。由表6可以得知,仅以3种算法作为模型,其准确率及精确率都有显著提升。


    640?wx_fmt=png

    在以3种算法作为模型的基础上,笔者构建了一种基于投票选择的组合预测优化方法。在本文乳腺癌预测诊断的方法中,设计了4种投票组合法,包含一票确定法、两票确定法、多票确定法和加权投票法A。因优化的模型中只有3种算法,多票确定法与两票确定法的结果相同,所以删除了多票确定法。

    表7结果显示,在优先保证召回率的前提下,加权投票法A与一票确定法结果相同。综合考虑先前阶段的实验对比,选择加权投票法A作为优化后模型的投票方法。


    640?wx_fmt=png

    5 实验结果和分析


    将使用SMOTE算法的次数设为3、近邻点K设为6,采用3种算法(决策树、SVM、神经网络)及加权投票法A进行最终的训练并建模。随机测试集A~F、特殊数据集1和特殊数据集2对训练集模型验证的结果见表8。


    640?wx_fmt=png

    图6的结果是8份测试集的平均结果,包括召回率、精确率、准确度及F值4项结果。表8结果显示,8份测试集的准确率达97%,说明模型对数据的判断能力很高。此外,随机测试集A~F、特殊数据集1和特殊数据集2的召回率皆达100%,即所有阳性样本都能被正确地判断出来,说明预测方法的判断结果具有良好的临床辅助诊断应用价值。


    640?wx_fmt=jpeg

    图6   测试集平均结果


     6 结束语


    本文构建了基于触诊成像的乳腺癌智能诊断模型,给出了5种主要分类算法,通过数据预处理、样本调优等操作,整理出训练和测试数据集。在此数据集的基础上,抽取训练集与测试集,通过训练集训练,建立分类模型及组合投票器,最终判断结果。基于前期预备与调研工作,在保证数据质量的前提下,运用特殊数据进行实验,最终结果在召回率与准确度指标上表现优异。鉴于医疗诊断模型的结果关系重大,笔者后续将持续追加新数据组成新的数据集,不断对模型进行训练,使模型更加完善,以期提供更加高效的临床诊断工具。


    作者简介

    张旭东(1991- ),男,北京大学软件与微电子学院硕士生,主要研究方向为深度学习、计算机视觉等。

    孙圣力(1979- ),男,北京大学软件与微电子学院副教授,主要研究方向为大数据管理、数据挖掘、图数据库、智慧医疗等。

    王洪超(1968- ),男,就职于北京先通康桥医药科技有限公司,主要研究方向为乳腺触诊成像技术的开 发和临床应用研究。

    《大数据》期刊

    《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。

    640?wx_fmt=jpeg

    关注《大数据》期刊微信公众号,获取更多内容


    往期文章回顾

    数据安全治理的几个基本问题

    “全息数字人”——健康医疗 大数据应用的新模式

    医疗数据治理——构建高质量医疗大数据智能分析数据基础

    基于深度学习的异构时序事件患者数据表示学习框架

    人工智能在医学影像中的研究与应用


    展开全文
    weixin_45585364 2019-03-28 15:26:31
  • 3.49MB m0_52957036 2020-06-18 19:06:12
  • 532KB weixin_38519763 2020-06-04 07:00:43
  • weixin_45585364 2018-03-20 15:09:53
  • weixin_39900437 2021-06-29 11:37:05
  • weixin_42137700 2020-10-22 12:26:08
  • 399KB weixin_38610682 2020-05-31 13:58:39
  • weixin_42137700 2019-11-28 11:07:19
  • weixin_42137700 2020-02-17 09:15:05
  • 302KB weixin_38610657 2020-06-01 20:56:38
  • 1.21MB weixin_38748210 2021-03-23 10:45:57
  • weixin_30865253 2021-01-11 19:47:13
  • weixin_42469444 2021-04-24 11:24:54
  • weixin_36368715 2021-06-25 04:05:35
  • weixin_26717349 2020-09-08 10:53:13
  • lip_frog 2019-07-09 14:53:10
  • sinolover 2021-11-17 14:40:46
  • weixin_42236063 2021-06-24 05:02:45
  • weixin_28748205 2021-07-15 05:02:47
  • u013524655 2014-11-08 17:04:26
  • qq_36501027 2018-11-22 09:57:18

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,628
精华内容 1,851
关键字:

临床诊断的基本方法