精华内容
下载资源
问答
  • 非靶向代谢组学数据分析方法总结

    万次阅读 多人点赞 2019-04-30 18:53:10
    生物信息学早已不再局限于基因组学领域了,后基因组学越来越受到关注,并且这几年“多组学”的也研究越来越多。其中,代谢组学是相对比较年轻的...代谢组学分为靶向代谢组学和非靶向代谢组学,本文将结合本人的经...

    生物信息学早已不再局限于基因组学领域了,后基因组学越来越受到关注,并且这几年“多组学”的也研究越来越多。其中,代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因组学和转录组学是生物信息的上游,更多的体现的是生物活动的内在本质因素,而代谢组学是生物信息的最下游,体现的是生物活动的表型结果。代谢组学分为靶向代谢组学和非靶向代谢组学,本文将结合本人的经验和所学,综述非靶向代谢组学的数据分析方法。

    本文可结合另一篇博客(代谢组学数据分析的统计学方法综述)一起阅读,以便加深理解。

     

    概述

    什么是“代谢组学”(metabolomics)呢?

    首先,我们得明确什么叫“代谢物”(metabolite)。维基百科的定义:A metabolite is the intermediate end product of metabolism. The term metabolite is usually restricted to small molecules. 百度百科的定义:代谢物亦称中间代谢物,是指通过代谢过程产生或消耗的物质,生物大分子不包括在内。

    目前METLIN数据库中的标准代谢物分子总共超过200,000 种;一般非靶向代谢组学使用质谱仪能检测到人体血液中的代谢信号峰大约接近10,000个。由此可知,代谢组学的特征维度是比较大的。

    其次,我们了解下什么叫“代谢组”(metabolome)。维基百科的定义:The metabolome refers to the complete set of small-molecule chemicals found within a biological sample. The biological sample can be a cell, a cellular organelle, an organ, a tissue, a tissue extract, a biofluid or an entire organism. 百度百科的定义:代谢组是指生物体内源性代谢物质的动态整体。而传统的代谢概念既包括生物合成,也包括生物分解,因此理论上代谢物应包括核酸、蛋白质、脂类生物大分子以及其他小分子代谢物质。但为了有别于基因组、转录组和蛋白质组,代谢组目前只涉及相对分子质量约小于1000的小分子代谢物质。

    那么“代谢组学”(metabolomics)怎么定义呢?维基百科上说:Metabonomics is defined as "the quantitative measurement of the dynamic multiparametric metabolic response of living systems to pathophysiological stimuli or genetic modification". 百度百科的解释是:代谢组学是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。注意,代谢组学还有个英文写法是“metabonomics”,这两个写法都是可以的,但其实这两个词的侧重点有些区别,此处不深究,感兴趣的童鞋可以自行查找资料了解。

    代谢组学从研究特点上可分为非靶向代谢组学和靶向代谢组学。非靶向代谢组学无偏向地检测样本中所有能检测到的代谢物分子,是通过生信方法进行差异分析和通路分析,寻找生物标志物,初步建立模型或代谢物Panel的组学方法。而靶向代谢则是针对特定的代谢物进行检测,由于其使用标准品,因此可以实现代谢物的绝对定量(非靶向代谢组学只能相对定量)。

    用于代谢组学研究的样本,主要包括:组织、血液、尿液等,其他如生物体液、分泌物或排泄物也常用于代谢组学研究。

    数据采集的方法上来看,主要分为:核磁共振(NMR)、气质联用(GC-MS)及液质联用(LC-MS)。NMR的灵敏度最低,LC-MS的灵敏度最高(可以检测到更多的代谢物)。采集的数据经过处理,可转化成各个代谢信号峰的相对含量值表(常使用XCMS等工具进行处理)。

    总的来说,完整的代谢组学研究,应包括实验设计、样本处理、数据采集、数据分析这几个部分,本文仅介绍非靶向代谢组学数据分析部分(注:本人接触的是血标本的LC-MS数据)。

     

    数据预处理

    采集的数据经过处理,可转化成各个信号峰的相对含量值表,这个表一般形式为:每一行代表一个信号(可由RT[保留时间]和m/z[质荷比]确定一个信号峰)在各个样本中的相对含量,也就是说,每一列代表每个样本中各个信号的性对含量(前几列除外,表示各信号的RT、m/z等信息)。每个信号可用RT值和m/z值组合进行命名。

    对于得到的这个表,我们常常进行如下3个预处理操作:信号峰注释、标准化校正、质控。

    信号峰的注释。可以对同位素峰、加合物峰进行注释,甚至可以初步鉴定部分信号峰所对应的代谢物名称。

    标准化校正。可分为批次内校正和批次间校正。需要校正是因为仪器不稳定等情况,可能使信号峰的相对含量出现误差。校正的方法有几种,目前一般首选基于QC样本的标准化方法,即:将所要采集的所有样本取等量混合起来,组成QC样本,然后在采集数据的时候,每隔一定数量的样品,插放一份QC样本。因为QC样本都是一样的,因此可以用QC样本来反映数据采集过程中信号的偏移规律。校正的工具,目前主要推荐中科院ZhuLab开源的MetNormalizer(朱正江研究员的博士生申小涛师兄开发)。

    质控。对每个信号峰的QC样本求RSD(相对标准偏差),通常需舍弃RSD超过30%的信号峰(数据质量太差)。

     

    统计分析

    单变量分析

    二分类问题的单变量分析主要分为:Wilcoxon秩和检验(或 t检验)和 Fold Change分析。多分类问题可能需要ANOVA等方法。常用的可视化方法为 Volcano Plot (火山图),可初步筛选出同时满足Wilcoxon检验统计学差异Fold Change倍数差异的信号峰。单变量分析很简单,但常常很有效。

    值得注意的一点是,单变量统计学检验,其p值的阈值设定,严格来说不应该设定为0.05,需要进行FDR校正(高维数据进行多次假设检验,容易产生大量的假阳性)。但作为初筛,许多研究往往卡得比较松。

    单变量分析中,采用中位数还是平均数来代表一个组的值呢?比如计算FC时,是用两组的中位数计算FC还是用均数去计算FC呢,以及统计学检验使用t检验还是选择wilcoxon检验呢?一般来说,如果数据分布是正态分布,则用均数,否则用中位数。

    慎用FC值(个人观点):随便使用FC值去筛选变量,很可能导致重要变量被筛出局,举个栗子:

    代谢物X在A组15个病例中的峰值分别是:92,95,95,96,96,97,98,100,101,101,101,102,102,103,103,中位数或平均数大致为100;

    代谢物X在B组15个病例中的峰值分别是:106,107,108,108,108,108,109,110,111,112,112,112,113,113,115,中位数或平均数大致为110。

    代谢物X的FC值(B/A)为1.1。若此时设定FC值以1.2作为界值,X将被排除出模型;然而X可能是一个很好的biomarker,无辜出局。

    那么,何时用FC值呢?FC值方法有个特点:FC值越接近1的变量,成为好的biomarker的概率越低。也就是说,噪音变量特别多的时候,采用FC值去排除噪音变量的效率很高。亦即信噪比很低时,FC很管用。所以在特征特别多的任务中,初筛变量的第一步会用FC爽一爽。但若建模效果不理想,有可能是初筛时排除了有效的特征,这个时候应该回过头来放宽界值甚至去除FC标准。

    P值是否也需要注意?相对来说,初筛时p值还算靠谱,宽松时可以不进行FDR校正,卡在0.05也还OK。刚刚说的FC值法,实际上触发了假阴性的情况,那么p值其实也有类似情况,当选用非参数检验时,假阴性率会上升。因此慎用非参数检验方法。同样的道理,若初筛后发现建模效果不理想,可以回过头来放宽界值甚至选择统计学检验效能更强的方法。

     

    多元统计分析

    多变量分析之前,需要对变量进行标准化(包括中心化和尺度化),尺度化的方法主要有以下两种。

    Auto scaling:自动标度化,分为两步:第一步为mean-centering中心化,第二步为UV scaling(Unit Variance scaling),也就是中心化后除以该变量的标准差。Auto scaling 也叫Z-score标准化。

    Pareto scaling柏拉图标准化,一般写成Par标准化,与UV scaling的不同之处就是对标准差开根号。

    一般用的较多的是Z-score标准化/Auto scaling。

    多元统计分析非常重要的一步是降维。提到降维,很多人的反应便是PCA、LASSO、PLS等方法。代谢组学中较多使用PLS(偏最小二乘法),因为信号峰之间的相关性较高,LASSO降维不仅会将意义较小的变量剔除,也会将相关性较高(共线性)的变量中剔除多余的。一般代谢组学需要探索代谢物之间的互作与研究结局变量的关系,因此PLS更受欢迎。当然,根据研究目的的不同(比如单纯为了找显著价值的互相独立的biomarker),也可以使用LASSO等方法降维。而PCA作为无监督的方法,在代谢组学中主要仅用于质控或寻找天然的分组。

    此处对PLS进行简略介绍(详细介绍可参考博客:偏最小二乘法 Partial Least Squares)。

    PLS作为监督学习的一种方法,不仅对自变量x成分进行了映射处理,还对结局变量y进行逐步残差拟合。除了PLS,还有其加强算法——OPLS,区分能力略微更强,可视化效果略微更好。

          

    PLS/OPLS的得分图类似于PCA的得分图,但是PLS/OPLS还可对每个变量(特征)求一个VIP值(Variable Importance in Projection),反应的是每个变量对模型解释的贡献度,VIP越大的变量越重要。

    除了VIP值,还可以求最终模型中各变量的系数(又称PLS-BETA值)和Corr.Coeffs,以及二者对应的p值

    可综合VIP值和Corr.Coeffs值筛选变量(V-Plot),或者综合PLS-BETA值和Corr.Coeffs值筛选变量(S-Plot)。

    评价(O)PLS-DA 模型拟合效果使用R2X、R2Y和Q2Y这三个指标,这些指标越接近1 表示PLS-DA 模型拟合数据效果越好。其中,R2X 和R2Y 分别表示PLSDA分类模型所能够解释X 和Y 矩阵信息的百分比,Q2Y 则为通过交叉验证计算得出,用以评价PLS-DA模型的预测能力,Q2Y 越大代表模型预测效果较好。

    PCA分析中R2X >0.4为好;PLS-DA 和 OPLS-DA分析中,R2X 这个参数不重要了,主要是R2Y 和Q2,这两个值>0.5 为好,越接近1越好。OPLS-DA中Q2(cum),是指建模后模型的预测能力,以大于0.5为宜,越接近1越好,cum 表示累积的意思。

          

    对于PLS/OPLS,我们常常需进行 permutation test(置换检验)(勿与交叉检验混淆),以确定模型是否过拟合。一般需检验模型的Q2值和R2值。对于Q2,要求置换检验结果的在y轴上的截距不超过0.05,方可认为模型没有过拟合。置换检验的基本原理:将真实分类结果(标签)屏蔽,重新随机赋予分类结果(标签),再进行建模。如果真实建模的Q2和随机标签建模的Q2接近,则说明模型过拟合。具体原理请参考其他资料。置换检验可视化的图,横坐标表示的是置换后的标签与真实标签的相关性(有多少比例的样本未打乱重新赋予标签)。

    进行降维后,除了使用PLS/OPLS多元分析方法可以继续进行多元统计建模外,还可使用SVM、RandomFores、ANN等方法进行建模。另外,最终最好使用Logistic回归建立具备临床(或生物学)解释意义的模型。

    另外,瑞典查尔默斯理工大学的施琳大神前不久发表在bioinformatics上的一篇文章,介绍了一个用于多元统计分析的方法,并开发了一个R包MUVR

     

    物质鉴定

    对于质谱仪测定的代谢物,有公共数据库可以根据m/z等信息进行鉴定,如HMDB,MassBank,METLIN等。

    有时候需要先对两批数据中取交集,这个时候可以根据m/z值和RT值进行确定,比如同时满足容差条件:m/z在5ppm内,RT在50内。之后还可根据二级谱图(MS-MS)的信息,进一步确定。

    关于ppm,举个栗子(摘自:代谢组学研究中需要了解的质谱知识丨质量精度):

    C6H12O6理论精确分子量为180.0634

    如果测得分子量为180.0631,则误差为

    180.0631-180.0634=-0.0003Da=-0.3mDa

    (180.0631-180.0634)/180.0634=1.67e-6 即 1.67ppm

     

    网络分析

    包括富集分析(Enrichment analysis)和通路分析(Pathway analysis)。通路分析中添加了通路的拓扑分析,输出通路在整体网络中的重要性(impact),重要性越大,可能意味着在整个通路中的地位越核心,那么从impact值也可以反映出来。

     

    致谢

    感谢申小涛大神、施琳大神和陈显扬大神等前辈曾给予指点!

     

    参考资料

    非靶向代谢组学数据分析总结-纲要

    History of Metabolomics

    维基百科相应词条

    百度百科相应词条

    麦特绘谱-代谢组学数据处理

    代谢组学精华汇总及该博文的参考资料

     

    展开全文
  • 代谢组学精华汇总

    万次阅读 多人点赞 2018-10-01 22:26:58
    代谢组学的介绍 代谢组学那些事儿   代谢组数据处理 代谢组学数据分析的统计学方法综述 典型机器学习算法在代谢组学数据分析中的应用和比较 代谢组学数据处理 非靶向代谢组学数据处理的基本流程 代谢组学...

    代谢组学的介绍

    代谢组学那些事儿

     

    代谢组数据处理

    代谢组学数据分析的统计学方法综述

    典型机器学习算法在代谢组学数据分析中的应用和比较

    代谢组学数据处理

    非靶向代谢组学数据处理的基本流程

    代谢组学生物信息分析的那些事儿

    一文看懂主成分分析

    运用ROC曲线筛选生物标志物的策略

     

    关于筛选标记物

    筛选差异代谢产物通常基于OPLS-DA模型,因为它更易于进行模型解释,所有跟分组相关的信息都集中于第一维。筛选的标准通常是基于以下两个指标:

    • Corr.Coeffs./p(corr) (Correlation Coefficient),是样本得分值t和变量X间的相关系数-Corr(t, X),代表了变量的可靠度。该值没有固定阈值,通常设定对应的P值 < 0.05。

    • VIP (Variable importance in the projection),为变量对模型的重要性,描述了每一个变量对模型的总体贡献,通常设定阈值为VIP >1。

    除此之外,基于单维检验的P值和变化倍数(Fold change)所作的火山图(Volcano plot)也是常用的筛选方法。

    关于标记物的筛选

    代谢组学活性筛选(metabolomics activity screen, MAS)

     

    PLS-DA和OPLS-DA

    可以根据V-plot筛选代谢物(本质是综合VIP和P值 [所谓的Corr.Coeffs的P值]?),OPLS-DA的分析中还可以用S-plot筛选代谢物(横坐标是P,纵坐标是P(corr),不太理解)。这两个图绕晕了,有不少资料,比如有个文章(Analysing NMR Metabolomics data using OPLS-DA )就示范了OPLS-DA及其S-plot。关于这两个图的文章,主要是:代谢组学数据处理 中提到。

    模型评估指标:(R2X, R2Y, Q2, R2, Q2)

    通常,评价(O)PLS-DA 模型拟合效果使用R2X、R2Y和Q2Y这三个指标,这些指标越接近1 表示PLS-DA 模型拟合数据效果越好。其中,R2X 和R2Y 分别表示PLSDA分类模型所能够解释X 和Y 矩阵信息的百分比,Q2Y 则为通过交叉验证计算得出,用以评价PLS-DA模型的预测能力,Q2Y 越大代表模型预测效果较好。

    PCA分析中R2X >0.4为好;PLS-DA 和 OPLS-DA分析中,R2X 这个参数不重要了,主要是R2Y 和Q2,这两个值>0.5 为好,越接近1越好。OPLS-DA中Q2(cum),是指建模后模型的预测能力,以大于0.5为宜,越接近1越好,cum 表示累积的意思。另外一个Q2 是进行模型验证,以防止随机拟合或过拟合的一个评价参数。

    另外,在介绍ropls这个包的网站上,对于实现PLS-DA、OPLS-DA有代码的讲解,链接为:ropls: PCA, PLS(-DA) and OPLS(-DA) for multivariate analysis and feature selection of omics data

    值得参考的其他文章

    什么是(O)PLS-DA?什么是VIP?

    (O)PLS-DA&VIP分析

    OPLS vs PCA: Explaining differences or grouping data?

     

    代谢组学工具

    SIMCA、MetaboAnalyst(Mummichog)、PIUMet、Cytoscape、Heml(做热图的)、Proteowizard(格式转换工具)等。

    SIMCA操作可以借鉴下这个:SIMCA14.1 Omics Skin操作教程--药物疗法(核磁共振氢谱)

     

    代谢组学其他东西

    在代谢组学文章投稿时,都需要列出已鉴定化合物的检测分子量的误差,这个通常需要自己计算,计算方法如上述例子。这里介绍一个计算精确分子量的网。

    ——摘自:代谢组学分享平台—质谱知识2.

     

    模型建立后需要进行验证,如置换检验、交叉验证。

    如果是两组比较,也可以通过OPLS-DA的S-plot进行标记物筛选。选择分布在S-plot两端的变量作为标记物,同时可以参看得分图(Score plot)来观察变量在不同组别的相对含量高低(即处于S-plot右上方的变量在得分图中处于y轴右侧的组别中含量较高反之亦然)。

     

    多组学

    O2PLS技术值得研究下

    O2PLS模型关联分析

    O2PLS for Multi-Omics

    刷爆朋友圈的多组学联合,轻松搞定分子调控机制-表型间的关联!

     

    答疑

    代谢组学常见问题知多少

    代谢组学常见问题Q&A

    代谢组学入门十问

    代谢组学问答四十八式,准备好接招了吗?(一)

    代谢组学问答四十八式,准备好接招了吗?(二)

    代谢组学问答四十八式,准备好接招了吗?(三) (有提到OPLS-DA的评估参数问题)

    代谢组学问答四十八式,准备好接招了吗?(四)

    网络讲堂精彩问题合集(含回复)

     

    不局限于代谢

    生物信息学分析技术那些事

     

    一些报道

    代谢组学:为肿瘤代谢biomarker发现提速

     

     

    展开全文
  • 代谢组学的研究方法和研究流程,代谢组学的研究方法和研究流程课件,代谢组学的研究方法和研究流程PPT
  • 代谢组学数据分析的统计学方法综述

    万次阅读 多人点赞 2018-10-01 21:34:14
    如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志物成为近年来代谢组学研究的热点和难点。据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。 代谢组学数据的特点...

    转自:https://mp.weixin.qq.com/s/XThAKeSBriHbeYKlU96pmA

    代谢组学研究产生大量的数据,这些数据具有高维、小样本、高噪声等复杂特征。如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志物成为近年来代谢组学研究的热点和难点。据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。

     

    代谢组学数据的特点

    代谢组学是系统生物学领域中继基因组学和蛋白质组学之后新近发展起来的一门学科,它通过检测生物体在受到外源刺激或基因修饰后其体内代谢物质的变化来探索整个生物体的代谢机制

    其研究对象为生物体内所有内源性小分子代谢物(分子量<1000Da) 。

    研究手段为高通量检测技术和数据处理方法,最终目标是数据建模和生物标志物的筛选。

    生物样品如血浆、尿液、组织等,经过GC/MS、NMR、LC/MS 等高通量仪器检测后,得到大量的图谱数据,使用XCM等软件对这些图谱数据进行转换,获得用于统计分析的标准格式的数据。

    归纳起来,代谢组学数据具有以下特点:

    • 高噪声:生物体内含有大量维持自身正常功能的内源性小分子,具有特定研究意义的生物标志物只是其中很少一部分,绝大部分代谢物和研究目的无关。

    • 高维、小样本:代谢物的数目远大于样品个数,不适合使用传统的统计学方法进行分析,多变量分析容易出现过拟合和维数灾难问题。

    • 高变异性:一是不同代谢物质的理化性质差异巨大,其浓度含量动态范围宽达7~9个数量级,二是生物个体间存在各种来源的变异,如年龄、性别都可能影响代谢产物的变化,三是仪器测量受各种因素影响,容易出现随机测量误差和系统误差,这使得识别有重要作用的生物标志物可能极其困难。

    • 相互作用关系复杂:各种代谢物质可能不仅具有简单的相加效应,而且可能具有交互作用,从而增加了识别这些具有复杂关系的生物标志物的难度。

    • 相关性和冗余性:各种代谢物并非独立存在,而是相互之间具有不同程度的相关性,同时由于碎片、加合物和同位素的存在使得数据结构存在很大的冗余性,这就需要采用合理的统计分析策略来揭示隐藏其中的复杂数据关系。

    • 分布的不规则和稀疏性: 代谢组学数据分布不规则,而且数据具有稀疏性(即有很多值为零) ,因此,传统的一些线性和参数分析方法此时可能失效。

     

    数据的预处理

    代谢组学数据分析的目的是希望从中挖掘出生物相关信息,然而,代谢组学数据的变异来源很多,不仅包括生物变异,还包括环境影响和操作性误差等方面。

    处理手段主要包括归一化(standardization) 、标准化(normalization) ,即中心化(centering) 和尺度化(scaling),以及数据转换(transformation)。

    归一化是针对样品的操作,由于生物个体间较大的代谢物浓度差异或样品采集过程中的差异(如取不同时间的尿样) ,为了消除或减轻这种不均一性,一般使用代谢物的相对浓度,即每个代谢物除以样品的总浓度,以此来校正个体差异或其他因素对代谢物绝对浓度的影响。

    标准化是对不同样品代谢物的操作,即统计学意义上的变量标准化。标准化的目的是消除不同代谢物浓度数量级的差别,但同时也可能会过分夸大低浓度组分的重要性,即低浓度代谢物的变异系数可能更大。

    数据转换是指对数据进行非线性变换,如log转换和power转换等。数据转换的目的是将一些偏态分布的数据转换成对称分布的数据,并消除异方差性的影响,以满足一些线性分析技术的要求。不同的预处理方法会对统计分析结果产生不同的影响(见表1) ,在实际应用中,我们应该根据具体的研究目的﹑数据类型以及要选用的统计分析方法综合考虑,选择适当的预处理方式。例如,Robert A. van den Berg等(2006) 通过实际代谢组学数据的分析发现,选用不同预处理方法在很大程度上影响着主成分分析(PCA) 的结果,自动尺度化(auto scaling)和全距尺度化(range scaling) 在对代谢组学数据进行探索性分析时表现更优,其PCA 分析后的结果在生物学上能够得到更合理的解释。

     

    单变量分析方法

    单变量分析方法简便﹑直观和容易理解,在代谢组学研究中通常用来快速考察各个代谢物在不同类别之间的差异。

    代谢组学数据在一般情况下难以满足参数检验的条件,使用较多的是非参数检验的方法,如Wilcoxon 秩和检验或Kruskal-Wallis 检验,t’检验也是一种比较好的统计检验方法。

    由于代谢组学数据具有高维的特点,所以在进行单变量分析时,会面临多重假设检验的问题。如果我们不对每次假设检验的检验水准α进行校正,则总体犯一类错误的概率会明显增加。

    一种解决方法是采用Bonferion校正,即用原检验水准除以假设检验的次数m作为每次假设检验新的检验水准(α/m) 。由于Bonferion校正的方法过于保守,会明显降低检验效能,所以在实际中更为流行的一种做法是使用阳性发现错误率(false discovery rate,FDR) 。

    这种方法可用于估计多重假设检验的阳性结果中,可能包含多少假阳性结果。FDR 方法不仅能够将假阳性的比例控制在规定的范围内,而且较之传统的方法在检验效能上也得到显著的提高。

    实际中也可以使用局部FDR(用fdr表示) ,其定义为某一次检验差异显著时,其结果为假阳性的概率。局部FDR 的使用,使得我们能够估计出任意变量为假阳性的概率,通常情况下有FDR≤fdr。

    除了进行传统的单变量假设检验分析,代谢组学分析中通常也计算代谢物浓度在两组间的改变倍数值(fold change) ,如计算某个代谢物浓度在两组中的均值之比,判断该代谢物在两组之间的高低表达。计算ROC 曲线下面积(AUC) 也是一种经常使用的方法。

     

    多变量分析

    代谢组学产生的是高维的数据,单变量分析不能揭示变量间复杂的相互作用关系,因此多变量统计分析在代谢组学数据分析中具有重要的作用。

    总体来说,代谢组学数据多变量统计分析方法大致可以分为两类:

    • 一类为非监督的学习方法,即在不给定样本标签的情况下对训练样本进行学习,如PCA、非线性映射(NLM) 等;

    • 另一类为有监督的学习方法,即在给定样本标签的情况下对训练样本进行学习,如偏最小二乘判别分析(PLS-DA) 、基于正交信号校正的偏最小二乘判别分析(OPLS-DA) 、人工神经网络(ANN) 、支持向量机(SVM) 等。其中,PCA、PLS-DA和OPLS-DA是目前代谢组学领域中使用最为普遍的多变量统计分析方法。

     

    PCA

    PCA是从原始变量之间的相互关系入手,根据变异最大化的原则将其线性变换到几个独立的综合指标上(即主成分) ,取2~3个主成分作图,直观地描述不同组别之间的代谢模式差别和聚类结果,并通过载荷图寻找对组间分类有贡献的原始变量作为生物标志物。通常情况下,由于代谢组学数据具有高维、小样本的特性,同时有噪声变量的干扰,PCA的分类结果往往不够理想。

    尽管如此,PCA作为代谢组学数据的预分析和质量控制步骤,通常用于观察是否具有组间分类趋势和数据离群点。在组间分类趋势明显时,说明其中一定有能够分类的标志物。

    PCA还可以用于分析质控样品是否聚集在一起,如果很分散或具有一定的变化趋势,则说明检测质量存在一定的问题。Zhang Zhiyu 等(2010) 通过PCA 成功区分了骨肉瘤患者和正常人,并发现良性骨肿瘤患者中有两例是异常值。Kishore K. Pasikanti 等(2009) 利用PCA 对尿液膀胱癌代谢组学数据进行分析后观察到质控样品在PCA得分图上紧密聚集,从而验证了仪器检测的稳定性和代谢组学数据的可靠性。

    PLS-DA

    PLS-DA 是目前代谢组学数据分析中最常使用的一种分类方法,它在降维的同时结合了回归模型,并利用一定的判别阈值对回归结果进行判别分析。ZhangTao 等(2013) 运用PLS-DA技术分析尿液卵巢癌代谢组学数据,成功将卵巢癌患者和良性卵巢肿瘤患者以及子宫肌瘤患者相互鉴别,并鉴定出组氨酸、色氨酸、核苷酸等多种具有判别能力的卵巢癌生物标志物。

    PLS的思想是,通过最大化自变量数据和应变量数据集之间的协方差来构建正交得分向量(潜变量或主成分) ,从而拟合自变量数据和应变量数据之间的线性关系。

    PLS的降维方法与PCA 的不同之处在于PLS 既分解自变量矩阵也分解应变量矩阵,并在分解时利用其协方差信息,从而使降维效果较PCA 能够更高效地提取组间变异信息

    当因变量Y为二分类情况下,通常一类编码为1,另一类编码为0或-1;当因变量Y为多分类时,则需将其化为哑变量。通常,评价PLS-DA 模型拟合效果使用R2X、R2Y和Q2Y这三个指标,这些指标越接近1 表示PLS-DA 模型拟合数据效果越好。其中,R2X 和R2Y 分别表示PLSDA分类模型所能够解释X 和Y 矩阵信息的百分比,Q2Y 则为通过交叉验证计算得出,用以评价PLS-DA模型的预测能力,Q2Y 越大代表模型预测效果较好。

    实际中,PLS-DA 得分图常用来直观地展示模型的分类效果,图中两组样品分离程度越大,说明分类效果越显著。代谢组学数据分析中另一种常用的方法是OPLS-DA,它是PLS-DA 的扩展,即首先使用正交信号校正技术,将X 矩阵信息分解成与Y 相关和不相关的两类信息,然后过滤掉与分类无关的信息,相关的信息主要集中在第一个预测成分。Johan Trygg 等认为该方法可以在不降低模型预测能力的前提下,有效减少模型的复杂性和增强模型的解释能力。

    与PLSDA模型相同,可以用R2X、R2Y、Q2Y 和OPLS-DA 得分图来评价模型的分类效果。Carolyn M. Slupsky 等(2010) 使用OPLS-DA 发现卵巢癌患者、乳腺癌患者、正常人这三者之间的尿液代谢轮廓显著不同,从而推断尿液代谢组学可能为癌症的特异性诊断提供重要依据。

     

    由于代谢组学数据具有高维小样本的特性,使用有监督学习方法进行分析时很容易产生过拟合的现象

    为此,需要使用置换检验考察PLS-DA 在无差异情况下的建模效果。该方法在固定X 矩阵的前提下,随机置换Y分类标签n次,每次随机置换后建立新的PLS-DA 模型,并计算相应的R2Y 和Q2Y; 然后,与真实标签模型得到的结果进行比较,用图形直观表达是否有过拟合现象。

    由于样本量的不足,通常采用上述的交叉验证和置换检验方法作为模型验证方法。而实际中,在样本量允许的情况下,最为有效的模型验证方法即将整个数据集严格按照时间顺序划分为内部训练数据和外部测试数据两部分,利用内部训练数据建立模型,再对外部测试数据进行预测,客观地评价模型的有效性和适用性

     

    生物标志物的筛选

    代谢组学分析的最终目标是希望从中筛选出潜在的生物相关标志物,从而探索其中的生物代谢机制,因此需要借助一定的特征筛选方法进行变量筛选。

    对于高维代谢组学数据的特征筛选,研究的目的是从中找出对样本分类能力最强或较强的一个或若干个变量。特征筛选方法主要分为三类: 过滤法封装法和嵌入法

    • 过滤法主要是采用单变量筛选方法对变量进行筛选,优点是简单而快捷,能够快速的降维,如t’检验、Wilcoxon秩和检验、SAM等方法。

    • 封装法是一种多变量特征筛选策略,通常是以判别模型分类准确性作为优化函数的前向选择、后向选择和浮动搜索特征变量的算法,它通常是按照“节省原则”进行特征筛选,最终模型可能仅保留其中很少部分的重要变量,如遗传算法等。

    • 嵌入法的基本思想是将变量选择与分类模型的建立融合在一起,变量的重要性评价依靠特定分类模型的算法实现,在建立模型的同时,可以给出各变量重要性的得分值,如PLS-DA方法的VIP统计量等。

    为了更加客观、全面地评价每个变量的重要性,代谢组学研究中一般采取将上述方法结合起来的方式进行变量筛选。比较常见的一种策略是先进行单变量分析,再结合多变量模型中变量重要性评分作为筛选标准,如挑选fdr≤0.05 和VIP>1.5的变量作为潜在生物标志物。

    用筛选的潜在生物标志物对外部测试数据集进行预测,评价其预测效果。最后,可以通过研究生物标志物的生物学功能和代谢通路,分析不同生物标志物之间的相互作用和关系,从而为探索生物代谢机制提供重要线索和信息。

    Yang Jinglei 等(2013) 即在代谢组学分析中使用fdr≤0.2和VIP>1.5的双重标准来筛选精神分裂症的特异生物标志物,所筛选出的差异代谢物其AUC 在训练数据中达94. 5%,外部测试数据中达0. 895。

    展开全文
  • 大家好,最近博主将持续更新在代谢组学数据处理方面的学习笔记,作为代谢组学的入门选手,欢迎各位同学一起交流 ???? 根据前段时间的调研,我感觉中文的代谢组学数据分析的教程和学习资料比较少,因此这里展示的收集...

    大家好,最近博主将持续更新在代谢组学数据处理方面的学习笔记,作为代谢组学的入门选手,欢迎各位同学一起交流 😊

    根据前段时间的调研,我感觉中文的代谢组学数据分析的教程和学习资料比较少,因此这里展示的收集资料大多数是英文的🤣

    中文教材

    • 脂质组学(韩贤林)
    • 代谢组学:方法与应用(许国旺)

    我买的是这两本教材,感觉看着还可以(请买最新版),对入门选手较为友好

    了解什么是质谱和色谱

    因为代谢组学所用到的质谱/色谱这些仪器 实际是涉及分析化学领域了,因此建议先看看慕课上关于质谱和色谱的原理介绍,我看的是湖南大学的MOOC, 虽然老师像是在念PPT🤣,但是能学明白质谱和色谱的基本概念

    中文视频

    大多是公司办的讲座,可以看看帮助入门理解代谢组学的基本概念,但是他们基本不会去讲技术细节

    首推资料

    Workshop

    英文综述

    代谢领域的国外大佬

    有一位名字叫做lgatto大佬的github值得关注:https://github.com/lgatto
    可以发现Bioconductor上的一些常用的代谢组学R包以及质谱数据处理方面科普资料都是他写的。。。

    展开全文
  • 代谢组学与中医药现代研究,王桐生,谢鸣,代谢组学是一门在新陈代谢的动态过程中,系统研究代谢产物的变化规律,揭示机体生命活动代谢本质的科学,是“组学”研究的最终方
  • 代谢组学技术的成熟使研究具有高通量,综合图谱和库的复杂混合物成为可能。 因此,我们认为主要基于液相/气相色谱-质谱(LC / GC-MS)的代谢组学研究在加深双歧杆菌代谢机制的研究中将加深我们的理解。 这些研究...
  • 代谢组学技术在毒理学研究中的应用,王骋,高占清,代谢组学是新近发展起来的对细胞或生物在特定生理时期内所有低相对分子质量代谢产物进行定性和定量分析的新技术,通过利用核磁共
  • 国际药学研究杂志 2 379 专家论坛 代谢组学技术在毒理学研究中的应用进展 颜贤忠孙 博 杜祥博 " ! 摘要 代谢组学是继基因组学转录组学及蛋白质组 颜贤忠 理学博士军事医学科学 ! 学之后发展
  • 麦冬多糖调控肥胖小鼠脂质代谢紊乱的代谢组学研究,王旭,朱云云,目的:本研究基于代谢组学手段探究麦冬多糖MDG-1干预膳食诱导肥胖(Diet-induced obesity, DIO )小鼠脂质代谢紊乱可能的作用机制;方法:36只�
  • 厚朴与枳实配伍的代谢组学研究,陈刚,徐文峰,目的:本实验利用1H NMR为基础的代谢组学研究厚朴以及厚朴配伍枳实的肝肾毒性。方法:18只大鼠随机分成三组:空白组、厚朴组和厚朴�
  • 微生物组学&代谢组学联合分析 近年来,随着微生物组学研究的不断发展和持续火热,越来越多的研究者跳出单一的微生物研究,开始将微生物组学和代谢组学联合起来,从物种、基因以及代...
  • 炎症性肠病相关代谢组学研究进展,耿煜,孙军刚,近年来炎症性肠病(IBD)发病率逐渐增高,其病因及病机尚未完全阐明。基于代谢组学相关技术对IBD血浆、尿液和粪便以及组织等代谢产
  • 我们使用许多高通量分析平台,包括蛋白质组学和代谢组学的多维液相色谱-质谱(MDLC-MS); 液相色谱-质谱(LC-MS)和全面二维气相色谱-质谱(GCxGC / TOF-MS)。 每种类型的分析对患者样品中存在的分子提供有限的...
  • 我们使用许多高通量分析平台,包括蛋白质组学和代谢组学的多维液相色谱-质谱(MDLC-MS); 液相色谱-质谱(LC-MS)和全面二维气相色谱-质谱(GCxGC / TOF-MS)。 每种类型的分析对患者样品中存在的分子提供有限的...
  • 代谢组学 分析技术 数据处理技术 分析处理等
  • 代谢组学在恶性肿瘤中的研究进展,张卓,邹丽娟,肿瘤的发生和发展必然会影响机体的代谢,人们通过对代谢物进行定性和定量的分析来了解肿瘤的发病机制。代谢组学在肿瘤的早期诊断
  • 代谢组学数据分析中贝叶斯网络的应用进展,李贞子,王丽萍,代谢组学是近年发展快速的一门学科,已在医学等诸多领域广泛应用。代谢组学数据具有高维、小样本、高噪声等复杂特征,为其数据分
  • 基于云计算的代谢组学数据处理研究.pdf
  • 代谢组学在疾病诊断应用方面的研究进,周丹,王富春,代谢组学是一门在新陈代谢的动态过程中,系统的研究代谢产物的变化规律,揭示机体生命活动代谢本质的科学,是系统生物学的重要组
  • 冠心病中医证候实质代谢组学研究进展,朱明丹,杜武勋,代谢组学不同于以往只是采用单一指标或少量几个指标研究某种病理和生理变化,而是通过对机体代谢的终端产物进行综合的多元化分析
  • 急性外伤性脑损伤大鼠血浆代谢组学研究
  • 玉米幼苗根系响应盐胁迫代谢组学分析,韩雨,杨克军,为研究盐胁迫下玉米幼苗根系的代谢变化,本实验利用液相色谱/质谱(LC-Q/TOF-MS)的代谢组学技术分析了NaHCO3胁迫下玉米幼苗根系在不同时�
  • 中医药治疗糖尿病研究的有效方法——代谢组学,崔秋兵 ,张艺,代谢组学利用现代分析技术,通过内源性代谢物的变化,整体性、动态性研究体内生化过程,揭示生理病理状态。代谢组学的研究方式与
  • 代谢组学中尿液样本归一化的比较研究,王丹丹,李萍,基于尿液样本的代谢组学分析一直是组学研究领域的难点,主要限制因素在于机体摄水量、生理因素以及外界因素都会影响动物的排尿体
  • 新一代的代谢组学 (Next-Generation Metabolomics),在全世界范围内都是刚刚兴起。随着仪器分析工具的迅猛发展,代谢组学的研究也逐年增多,成为后基因组学时代,系统生物学的主要研究手段之一。代谢组分析产生了...
  • 2型糖尿病肾病小鼠尿液的代谢组学研究,孔洁红,魏婷婷,本文采用基于核磁共振的代谢组学技术研究2型糖尿病肾病模型db/db小鼠尿液的代谢轮廓变化,从而在整体代谢水平上探索2型糖尿病肾病�
  • xcmsrocker ... 为了使用户对代谢组学研究做正确的事,此图像中附加了rmwf软件包,以提供详细的工作流程模板(文件-新文件-R Markdown-从模板-选择带有{rmwf}的模板)并方便用户进行代谢组学进行数据
  • 代谢组学及网络药理学研究技术与实践” 代谢组学是近年发展快速的一门学科,目前在医学、植物学、微生物学、毒理学、药物研发等多个领域中得到了广泛的应用。如何从复杂的代谢组学数据中提取出有价值的信息,筛选出...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,135
精华内容 2,054
关键字:

代谢组学