精华内容
下载资源
问答
  • 代谢组学数据分析的统计学方法综述
    万次阅读 多人点赞
    2018-10-01 21:34:14

    转自:https://mp.weixin.qq.com/s/XThAKeSBriHbeYKlU96pmA

    代谢组学研究产生大量的数据,这些数据具有高维、小样本、高噪声等复杂特征。如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志物成为近年来代谢组学研究的热点和难点。据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。

     

    代谢组学数据的特点

    代谢组学是系统生物学领域中继基因组学和蛋白质组学之后新近发展起来的一门学科,它通过检测生物体在受到外源刺激或基因修饰后其体内代谢物质的变化来探索整个生物体的代谢机制

    其研究对象为生物体内所有内源性小分子代谢物(分子量<1000Da) 。

    研究手段为高通量检测技术和数据处理方法,最终目标是数据建模和生物标志物的筛选。

    生物样品如血浆、尿液、组织等,经过GC/MS、NMR、LC/MS 等高通量仪器检测后,得到大量的图谱数据,使用XCM等软件对这些图谱数据进行转换,获得用于统计分析的标准格式的数据。

    归纳起来,代谢组学数据具有以下特点:

    • 高噪声:生物体内含有大量维持自身正常功能的内源性小分子,具有特定研究意义的生物标志物只是其中很少一部分,绝大部分代谢物和研究目的无关。

    • 高维、小样本:代谢物的数目远大于样品个数,不适合使用传统的统计学方法进行分析,多变量分析容易出现过拟合和维数灾难问题。

    • 高变异性:一是不同代谢物质的理化性质差异巨大,其浓度含量动态范围宽达7~9个数量级,二是生物个体间存在各种来源的变异,如年龄、性别都可能影响代谢产物的变化,三是仪器测量受各种因素影响,容易出现随机测量误差和系统误差,这使得识别有重要作用的生物标志物可能极其困难。

    • 相互作用关系复杂:各种代谢物质可能不仅具有简单的相加效应,而且可能具有交互作用,从而增加了识别这些具有复杂关系的生物标志物的难度。

    • 相关性和冗余性:各种代谢物并非独立存在,而是相互之间具有不同程度的相关性,同时由于碎片、加合物和同位素的存在使得数据结构存在很大的冗余性,这就需要采用合理的统计分析策略来揭示隐藏其中的复杂数据关系。

    • 分布的不规则和稀疏性: 代谢组学数据分布不规则,而且数据具有稀疏性(即有很多值为零) ,因此,传统的一些线性和参数分析方法此时可能失效。

     

    数据的预处理

    代谢组学数据分析的目的是希望从中挖掘出生物相关信息,然而,代谢组学数据的变异来源很多,不仅包括生物变异,还包括环境影响和操作性误差等方面。

    处理手段主要包括归一化(standardization) 、标准化(normalization) ,即中心化(centering) 和尺度化(scaling),以及数据转换(transformation)。

    归一化是针对样品的操作,由于生物个体间较大的代谢物浓度差异或样品采集过程中的差异(如取不同时间的尿样) ,为了消除或减轻这种不均一性,一般使用代谢物的相对浓度,即每个代谢物除以样品的总浓度,以此来校正个体差异或其他因素对代谢物绝对浓度的影响。

    标准化是对不同样品代谢物的操作,即统计学意义上的变量标准化。标准化的目的是消除不同代谢物浓度数量级的差别,但同时也可能会过分夸大低浓度组分的重要性,即低浓度代谢物的变异系数可能更大。

    数据转换是指对数据进行非线性变换,如log转换和power转换等。数据转换的目的是将一些偏态分布的数据转换成对称分布的数据,并消除异方差性的影响,以满足一些线性分析技术的要求。不同的预处理方法会对统计分析结果产生不同的影响(见表1) ,在实际应用中,我们应该根据具体的研究目的﹑数据类型以及要选用的统计分析方法综合考虑,选择适当的预处理方式。例如,Robert A. van den Berg等(2006) 通过实际代谢组学数据的分析发现,选用不同预处理方法在很大程度上影响着主成分分析(PCA) 的结果,自动尺度化(auto scaling)和全距尺度化(range scaling) 在对代谢组学数据进行探索性分析时表现更优,其PCA 分析后的结果在生物学上能够得到更合理的解释。

     

    单变量分析方法

    单变量分析方法简便﹑直观和容易理解,在代谢组学研究中通常用来快速考察各个代谢物在不同类别之间的差异。

    代谢组学数据在一般情况下难以满足参数检验的条件,使用较多的是非参数检验的方法,如Wilcoxon 秩和检验或Kruskal-Wallis 检验,t’检验也是一种比较好的统计检验方法。

    由于代谢组学数据具有高维的特点,所以在进行单变量分析时,会面临多重假设检验的问题。如果我们不对每次假设检验的检验水准α进行校正,则总体犯一类错误的概率会明显增加。

    一种解决方法是采用Bonferion校正,即用原检验水准除以假设检验的次数m作为每次假设检验新的检验水准(α/m) 。由于Bonferion校正的方法过于保守,会明显降低检验效能,所以在实际中更为流行的一种做法是使用阳性发现错误率(false discovery rate,FDR) 。

    这种方法可用于估计多重假设检验的阳性结果中,可能包含多少假阳性结果。FDR 方法不仅能够将假阳性的比例控制在规定的范围内,而且较之传统的方法在检验效能上也得到显著的提高。

    实际中也可以使用局部FDR(用fdr表示) ,其定义为某一次检验差异显著时,其结果为假阳性的概率。局部FDR 的使用,使得我们能够估计出任意变量为假阳性的概率,通常情况下有FDR≤fdr。

    除了进行传统的单变量假设检验分析,代谢组学分析中通常也计算代谢物浓度在两组间的改变倍数值(fold change) ,如计算某个代谢物浓度在两组中的均值之比,判断该代谢物在两组之间的高低表达。计算ROC 曲线下面积(AUC) 也是一种经常使用的方法。

     

    多变量分析

    代谢组学产生的是高维的数据,单变量分析不能揭示变量间复杂的相互作用关系,因此多变量统计分析在代谢组学数据分析中具有重要的作用。

    总体来说,代谢组学数据多变量统计分析方法大致可以分为两类:

    • 一类为非监督的学习方法,即在不给定样本标签的情况下对训练样本进行学习,如PCA、非线性映射(NLM) 等;

    • 另一类为有监督的学习方法,即在给定样本标签的情况下对训练样本进行学习,如偏最小二乘判别分析(PLS-DA) 、基于正交信号校正的偏最小二乘判别分析(OPLS-DA) 、人工神经网络(ANN) 、支持向量机(SVM) 等。其中,PCA、PLS-DA和OPLS-DA是目前代谢组学领域中使用最为普遍的多变量统计分析方法。

     

    PCA

    PCA是从原始变量之间的相互关系入手,根据变异最大化的原则将其线性变换到几个独立的综合指标上(即主成分) ,取2~3个主成分作图,直观地描述不同组别之间的代谢模式差别和聚类结果,并通过载荷图寻找对组间分类有贡献的原始变量作为生物标志物。通常情况下,由于代谢组学数据具有高维、小样本的特性,同时有噪声变量的干扰,PCA的分类结果往往不够理想。

    尽管如此,PCA作为代谢组学数据的预分析和质量控制步骤,通常用于观察是否具有组间分类趋势和数据离群点。在组间分类趋势明显时,说明其中一定有能够分类的标志物。

    PCA还可以用于分析质控样品是否聚集在一起,如果很分散或具有一定的变化趋势,则说明检测质量存在一定的问题。Zhang Zhiyu 等(2010) 通过PCA 成功区分了骨肉瘤患者和正常人,并发现良性骨肿瘤患者中有两例是异常值。Kishore K. Pasikanti 等(2009) 利用PCA 对尿液膀胱癌代谢组学数据进行分析后观察到质控样品在PCA得分图上紧密聚集,从而验证了仪器检测的稳定性和代谢组学数据的可靠性。

    PLS-DA

    PLS-DA 是目前代谢组学数据分析中最常使用的一种分类方法,它在降维的同时结合了回归模型,并利用一定的判别阈值对回归结果进行判别分析。ZhangTao 等(2013) 运用PLS-DA技术分析尿液卵巢癌代谢组学数据,成功将卵巢癌患者和良性卵巢肿瘤患者以及子宫肌瘤患者相互鉴别,并鉴定出组氨酸、色氨酸、核苷酸等多种具有判别能力的卵巢癌生物标志物。

    PLS的思想是,通过最大化自变量数据和应变量数据集之间的协方差来构建正交得分向量(潜变量或主成分) ,从而拟合自变量数据和应变量数据之间的线性关系。

    PLS的降维方法与PCA 的不同之处在于PLS 既分解自变量矩阵也分解应变量矩阵,并在分解时利用其协方差信息,从而使降维效果较PCA 能够更高效地提取组间变异信息

    当因变量Y为二分类情况下,通常一类编码为1,另一类编码为0或-1;当因变量Y为多分类时,则需将其化为哑变量。通常,评价PLS-DA 模型拟合效果使用R2X、R2Y和Q2Y这三个指标,这些指标越接近1 表示PLS-DA 模型拟合数据效果越好。其中,R2X 和R2Y 分别表示PLSDA分类模型所能够解释X 和Y 矩阵信息的百分比,Q2Y 则为通过交叉验证计算得出,用以评价PLS-DA模型的预测能力,Q2Y 越大代表模型预测效果较好。

    实际中,PLS-DA 得分图常用来直观地展示模型的分类效果,图中两组样品分离程度越大,说明分类效果越显著。代谢组学数据分析中另一种常用的方法是OPLS-DA,它是PLS-DA 的扩展,即首先使用正交信号校正技术,将X 矩阵信息分解成与Y 相关和不相关的两类信息,然后过滤掉与分类无关的信息,相关的信息主要集中在第一个预测成分。Johan Trygg 等认为该方法可以在不降低模型预测能力的前提下,有效减少模型的复杂性和增强模型的解释能力。

    与PLSDA模型相同,可以用R2X、R2Y、Q2Y 和OPLS-DA 得分图来评价模型的分类效果。Carolyn M. Slupsky 等(2010) 使用OPLS-DA 发现卵巢癌患者、乳腺癌患者、正常人这三者之间的尿液代谢轮廓显著不同,从而推断尿液代谢组学可能为癌症的特异性诊断提供重要依据。

     

    由于代谢组学数据具有高维小样本的特性,使用有监督学习方法进行分析时很容易产生过拟合的现象

    为此,需要使用置换检验考察PLS-DA 在无差异情况下的建模效果。该方法在固定X 矩阵的前提下,随机置换Y分类标签n次,每次随机置换后建立新的PLS-DA 模型,并计算相应的R2Y 和Q2Y; 然后,与真实标签模型得到的结果进行比较,用图形直观表达是否有过拟合现象。

    由于样本量的不足,通常采用上述的交叉验证和置换检验方法作为模型验证方法。而实际中,在样本量允许的情况下,最为有效的模型验证方法即将整个数据集严格按照时间顺序划分为内部训练数据和外部测试数据两部分,利用内部训练数据建立模型,再对外部测试数据进行预测,客观地评价模型的有效性和适用性

     

    生物标志物的筛选

    代谢组学分析的最终目标是希望从中筛选出潜在的生物相关标志物,从而探索其中的生物代谢机制,因此需要借助一定的特征筛选方法进行变量筛选。

    对于高维代谢组学数据的特征筛选,研究的目的是从中找出对样本分类能力最强或较强的一个或若干个变量。特征筛选方法主要分为三类: 过滤法封装法和嵌入法

    • 过滤法主要是采用单变量筛选方法对变量进行筛选,优点是简单而快捷,能够快速的降维,如t’检验、Wilcoxon秩和检验、SAM等方法。

    • 封装法是一种多变量特征筛选策略,通常是以判别模型分类准确性作为优化函数的前向选择、后向选择和浮动搜索特征变量的算法,它通常是按照“节省原则”进行特征筛选,最终模型可能仅保留其中很少部分的重要变量,如遗传算法等。

    • 嵌入法的基本思想是将变量选择与分类模型的建立融合在一起,变量的重要性评价依靠特定分类模型的算法实现,在建立模型的同时,可以给出各变量重要性的得分值,如PLS-DA方法的VIP统计量等。

    为了更加客观、全面地评价每个变量的重要性,代谢组学研究中一般采取将上述方法结合起来的方式进行变量筛选。比较常见的一种策略是先进行单变量分析,再结合多变量模型中变量重要性评分作为筛选标准,如挑选fdr≤0.05 和VIP>1.5的变量作为潜在生物标志物。

    用筛选的潜在生物标志物对外部测试数据集进行预测,评价其预测效果。最后,可以通过研究生物标志物的生物学功能和代谢通路,分析不同生物标志物之间的相互作用和关系,从而为探索生物代谢机制提供重要线索和信息。

    Yang Jinglei 等(2013) 即在代谢组学分析中使用fdr≤0.2和VIP>1.5的双重标准来筛选精神分裂症的特异生物标志物,所筛选出的差异代谢物其AUC 在训练数据中达94. 5%,外部测试数据中达0. 895。

    更多相关内容
  • 代谢组学数据分析中贝叶斯网络的应用进展,李贞子,王丽萍,代谢组学是近年发展快速的一门学科,已在医学等诸多领域广泛应用。代谢组学数据具有高维、小样本、高噪声等复杂特征,为其数据分
  • 代谢组学数据分析,解释和综合探索的工具箱 版本:1.2(2016年12月1日) 描述 基于R的Web应用程序,用于数据处理,统计分析,集成可视化探索和具有多种方法的功能分析(例如功能类评分,过多表示分析和WordCloud生成...
  • #资源达人分享计划#
  • 由于质谱技术的不断完善及其自身的优势使得这种技术已经称为代谢组学研究的重 要手段之一目前常用的联用技术是气质联用GC-MS和液质联用LC-MSO下面咱 一起看一看基于LC-MS的代谢组学数据分析的流程 目前用于代谢物组...
  • 非靶向代谢组学数据分析方法总结

    万次阅读 多人点赞 2019-04-30 18:53:10
    生物信息学早已不再局限于基因组学领域了,后基因组学越来越受到关注,并且这几年“多组学”的也研究越来越多。其中,代谢组学是相对比较年轻的...代谢组学分为靶向代谢组学和非靶向代谢组学,本文将结合本人的经...

    生物信息学早已不再局限于基因组学领域了,后基因组学越来越受到关注,并且这几年“多组学”的也研究越来越多。其中,代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因组学和转录组学是生物信息的上游,更多的体现的是生物活动的内在本质因素,而代谢组学是生物信息的最下游,体现的是生物活动的表型结果。代谢组学分为靶向代谢组学和非靶向代谢组学,本文将结合本人的经验和所学,综述非靶向代谢组学的数据分析方法。

    本文可结合另一篇博客(代谢组学数据分析的统计学方法综述)一起阅读,以便加深理解。

     

    概述

    什么是“代谢组学”(metabolomics)呢?

    首先,我们得明确什么叫“代谢物”(metabolite)。维基百科的定义:A metabolite is the intermediate end product of metabolism. The term metabolite is usually restricted to small molecules. 百度百科的定义:代谢物亦称中间代谢物,是指通过代谢过程产生或消耗的物质,生物大分子不包括在内。

    目前METLIN数据库中的标准代谢物分子总共超过200,000 种;一般非靶向代谢组学使用质谱仪能检测到人体血液中的代谢信号峰大约接近10,000个。由此可知,代谢组学的特征维度是比较大的。

    其次,我们了解下什么叫“代谢组”(metabolome)。维基百科的定义:The metabolome refers to the complete set of small-molecule chemicals found within a biological sample. The biological sample can be a cell, a cellular organelle, an organ, a tissue, a tissue extract, a biofluid or an entire organism. 百度百科的定义:代谢组是指生物体内源性代谢物质的动态整体。而传统的代谢概念既包括生物合成,也包括生物分解,因此理论上代谢物应包括核酸、蛋白质、脂类生物大分子以及其他小分子代谢物质。但为了有别于基因组、转录组和蛋白质组,代谢组目前只涉及相对分子质量约小于1000的小分子代谢物质。

    那么“代谢组学”(metabolomics)怎么定义呢?维基百科上说:Metabonomics is defined as "the quantitative measurement of the dynamic multiparametric metabolic response of living systems to pathophysiological stimuli or genetic modification". 百度百科的解释是:代谢组学是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。注意,代谢组学还有个英文写法是“metabonomics”,这两个写法都是可以的,但其实这两个词的侧重点有些区别,此处不深究,感兴趣的童鞋可以自行查找资料了解。

    代谢组学从研究特点上可分为非靶向代谢组学和靶向代谢组学。非靶向代谢组学无偏向地检测样本中所有能检测到的代谢物分子,是通过生信方法进行差异分析和通路分析,寻找生物标志物,初步建立模型或代谢物Panel的组学方法。而靶向代谢则是针对特定的代谢物进行检测,由于其使用标准品,因此可以实现代谢物的绝对定量(非靶向代谢组学只能相对定量)。

    用于代谢组学研究的样本,主要包括:组织、血液、尿液等,其他如生物体液、分泌物或排泄物也常用于代谢组学研究。

    数据采集的方法上来看,主要分为:核磁共振(NMR)、气质联用(GC-MS)及液质联用(LC-MS)。NMR的灵敏度最低,LC-MS的灵敏度最高(可以检测到更多的代谢物)。采集的数据经过处理,可转化成各个代谢信号峰的相对含量值表(常使用XCMS等工具进行处理)。

    总的来说,完整的代谢组学研究,应包括实验设计、样本处理、数据采集、数据分析这几个部分,本文仅介绍非靶向代谢组学数据分析部分(注:本人接触的是血标本的LC-MS数据)。

     

    数据预处理

    采集的数据经过处理,可转化成各个信号峰的相对含量值表,这个表一般形式为:每一行代表一个信号(可由RT[保留时间]和m/z[质荷比]确定一个信号峰)在各个样本中的相对含量,也就是说,每一列代表每个样本中各个信号的性对含量(前几列除外,表示各信号的RT、m/z等信息)。每个信号可用RT值和m/z值组合进行命名。

    对于得到的这个表,我们常常进行如下3个预处理操作:信号峰注释、标准化校正、质控。

    信号峰的注释。可以对同位素峰、加合物峰进行注释,甚至可以初步鉴定部分信号峰所对应的代谢物名称。

    标准化校正。可分为批次内校正和批次间校正。需要校正是因为仪器不稳定等情况,可能使信号峰的相对含量出现误差。校正的方法有几种,目前一般首选基于QC样本的标准化方法,即:将所要采集的所有样本取等量混合起来,组成QC样本,然后在采集数据的时候,每隔一定数量的样品,插放一份QC样本。因为QC样本都是一样的,因此可以用QC样本来反映数据采集过程中信号的偏移规律。校正的工具,目前主要推荐中科院ZhuLab开源的MetNormalizer(朱正江研究员的博士生申小涛师兄开发)。

    质控。对每个信号峰的QC样本求RSD(相对标准偏差),通常需舍弃RSD超过30%的信号峰(数据质量太差)。

     

    统计分析

    单变量分析

    二分类问题的单变量分析主要分为:Wilcoxon秩和检验(或 t检验)和 Fold Change分析。多分类问题可能需要ANOVA等方法。常用的可视化方法为 Volcano Plot (火山图),可初步筛选出同时满足Wilcoxon检验统计学差异Fold Change倍数差异的信号峰。单变量分析很简单,但常常很有效。

    值得注意的一点是,单变量统计学检验,其p值的阈值设定,严格来说不应该设定为0.05,需要进行FDR校正(高维数据进行多次假设检验,容易产生大量的假阳性)。但作为初筛,许多研究往往卡得比较松。

    单变量分析中,采用中位数还是平均数来代表一个组的值呢?比如计算FC时,是用两组的中位数计算FC还是用均数去计算FC呢,以及统计学检验使用t检验还是选择wilcoxon检验呢?一般来说,如果数据分布是正态分布,则用均数,否则用中位数。

    慎用FC值(个人观点):随便使用FC值去筛选变量,很可能导致重要变量被筛出局,举个栗子:

    代谢物X在A组15个病例中的峰值分别是:92,95,95,96,96,97,98,100,101,101,101,102,102,103,103,中位数或平均数大致为100;

    代谢物X在B组15个病例中的峰值分别是:106,107,108,108,108,108,109,110,111,112,112,112,113,113,115,中位数或平均数大致为110。

    代谢物X的FC值(B/A)为1.1。若此时设定FC值以1.2作为界值,X将被排除出模型;然而X可能是一个很好的biomarker,无辜出局。

    那么,何时用FC值呢?FC值方法有个特点:FC值越接近1的变量,成为好的biomarker的概率越低。也就是说,噪音变量特别多的时候,采用FC值去排除噪音变量的效率很高。亦即信噪比很低时,FC很管用。所以在特征特别多的任务中,初筛变量的第一步会用FC爽一爽。但若建模效果不理想,有可能是初筛时排除了有效的特征,这个时候应该回过头来放宽界值甚至去除FC标准。

    P值是否也需要注意?相对来说,初筛时p值还算靠谱,宽松时可以不进行FDR校正,卡在0.05也还OK。刚刚说的FC值法,实际上触发了假阴性的情况,那么p值其实也有类似情况,当选用非参数检验时,假阴性率会上升。因此慎用非参数检验方法。同样的道理,若初筛后发现建模效果不理想,可以回过头来放宽界值甚至选择统计学检验效能更强的方法。

     

    多元统计分析

    多变量分析之前,需要对变量进行标准化(包括中心化和尺度化),尺度化的方法主要有以下两种。

    Auto scaling:自动标度化,分为两步:第一步为mean-centering中心化,第二步为UV scaling(Unit Variance scaling),也就是中心化后除以该变量的标准差。Auto scaling 也叫Z-score标准化。

    Pareto scaling柏拉图标准化,一般写成Par标准化,与UV scaling的不同之处就是对标准差开根号。

    一般用的较多的是Z-score标准化/Auto scaling。

    多元统计分析非常重要的一步是降维。提到降维,很多人的反应便是PCA、LASSO、PLS等方法。代谢组学中较多使用PLS(偏最小二乘法),因为信号峰之间的相关性较高,LASSO降维不仅会将意义较小的变量剔除,也会将相关性较高(共线性)的变量中剔除多余的。一般代谢组学需要探索代谢物之间的互作与研究结局变量的关系,因此PLS更受欢迎。当然,根据研究目的的不同(比如单纯为了找显著价值的互相独立的biomarker),也可以使用LASSO等方法降维。而PCA作为无监督的方法,在代谢组学中主要仅用于质控或寻找天然的分组。

    此处对PLS进行简略介绍(详细介绍可参考博客:偏最小二乘法 Partial Least Squares)。

    PLS作为监督学习的一种方法,不仅对自变量x成分进行了映射处理,还对结局变量y进行逐步残差拟合。除了PLS,还有其加强算法——OPLS,区分能力略微更强,可视化效果略微更好。

          

    PLS/OPLS的得分图类似于PCA的得分图,但是PLS/OPLS还可对每个变量(特征)求一个VIP值(Variable Importance in Projection),反应的是每个变量对模型解释的贡献度,VIP越大的变量越重要。

    除了VIP值,还可以求最终模型中各变量的系数(又称PLS-BETA值)和Corr.Coeffs,以及二者对应的p值

    可综合VIP值和Corr.Coeffs值筛选变量(V-Plot),或者综合PLS-BETA值和Corr.Coeffs值筛选变量(S-Plot)。

    评价(O)PLS-DA 模型拟合效果使用R2X、R2Y和Q2Y这三个指标,这些指标越接近1 表示PLS-DA 模型拟合数据效果越好。其中,R2X 和R2Y 分别表示PLSDA分类模型所能够解释X 和Y 矩阵信息的百分比,Q2Y 则为通过交叉验证计算得出,用以评价PLS-DA模型的预测能力,Q2Y 越大代表模型预测效果较好。

    PCA分析中R2X >0.4为好;PLS-DA 和 OPLS-DA分析中,R2X 这个参数不重要了,主要是R2Y 和Q2,这两个值>0.5 为好,越接近1越好。OPLS-DA中Q2(cum),是指建模后模型的预测能力,以大于0.5为宜,越接近1越好,cum 表示累积的意思。

          

    对于PLS/OPLS,我们常常需进行 permutation test(置换检验)(勿与交叉检验混淆),以确定模型是否过拟合。一般需检验模型的Q2值和R2值。对于Q2,要求置换检验结果的在y轴上的截距不超过0.05,方可认为模型没有过拟合。置换检验的基本原理:将真实分类结果(标签)屏蔽,重新随机赋予分类结果(标签),再进行建模。如果真实建模的Q2和随机标签建模的Q2接近,则说明模型过拟合。具体原理请参考其他资料。置换检验可视化的图,横坐标表示的是置换后的标签与真实标签的相关性(有多少比例的样本未打乱重新赋予标签)。

    进行降维后,除了使用PLS/OPLS多元分析方法可以继续进行多元统计建模外,还可使用SVM、RandomFores、ANN等方法进行建模。另外,最终最好使用Logistic回归建立具备临床(或生物学)解释意义的模型。

    另外,瑞典查尔默斯理工大学的施琳大神前不久发表在bioinformatics上的一篇文章,介绍了一个用于多元统计分析的方法,并开发了一个R包MUVR

     

    物质鉴定

    对于质谱仪测定的代谢物,有公共数据库可以根据m/z等信息进行鉴定,如HMDB,MassBank,METLIN等。

    有时候需要先对两批数据中取交集,这个时候可以根据m/z值和RT值进行确定,比如同时满足容差条件:m/z在5ppm内,RT在50内。之后还可根据二级谱图(MS-MS)的信息,进一步确定。

    关于ppm,举个栗子(摘自:代谢组学研究中需要了解的质谱知识丨质量精度):

    C6H12O6理论精确分子量为180.0634

    如果测得分子量为180.0631,则误差为

    180.0631-180.0634=-0.0003Da=-0.3mDa

    (180.0631-180.0634)/180.0634=1.67e-6 即 1.67ppm

     

    网络分析

    包括富集分析(Enrichment analysis)和通路分析(Pathway analysis)。通路分析中添加了通路的拓扑分析,输出通路在整体网络中的重要性(impact),重要性越大,可能意味着在整个通路中的地位越核心,那么从impact值也可以反映出来。

     

    致谢

    感谢申小涛大神、施琳大神和陈显扬大神等前辈曾给予指点!

     

    参考资料

    非靶向代谢组学数据分析总结-纲要

    History of Metabolomics

    维基百科相应词条

    百度百科相应词条

    麦特绘谱-代谢组学数据处理

    代谢组学精华汇总及该博文的参考资料

     

    展开全文
  • 摇杆图像用于代谢组学数据分析 对于Java,您可以选择 。 对于C / C ++,您可以选择或 。 对于C#,您可以选择 。 对于Matlab,您可以选择 。 对于python,您可以选择或 。 但是,我建议初学者使用该基于R的...
  • #资源达人分享计划#
  • 2、代谢组学数据采集与预处理,决定数据统计结果的准确性 2.1 常用技术平台介绍(NMR和LC-MS) 2.2 常用软件和数据库介绍(代谢物鉴定、数据预处理与分析) 2.3 数据预处理,包括数据归一化、标准化...

    一、代谢组学研究技术与实践

     

    1、代谢组学简介及样本的采集与制备关键问题探讨

    1.1 代谢组学概述

    1.2 代谢组学操作流程

    1.3 样本的采集、储存与制备关键问题

    2、代谢组学数据采集与预处理,决定数据统计结果的准确性

    2.1 常用技术平台介绍(NMR和LC-MS)

    2.2 常用软件和数据库介绍(代谢物鉴定、数据预处理与分析)

    2.3 数据预处理,包括数据归一化、标准化和数据转化以及缺失值评估等

    3、基于SIMCA-P软件的代谢组学数据多元统计分析与实操

    3.1 样本分类(无监督和监督模式)

    3.2 差异变量筛选(S-plot、S+V-plot、VIP、biplot等)

    3.3 常见图形结果解读

    二、网络药理学研究技术与实践

    4、网络药理学研究思路和流程

    5、网络药理学数据分析与实操

    5.1 化学成分的获取与筛选(Pubchem、TCMSP数据库、TCMID数据库、Swiss ADME数据库等)

    5.2 中药化学成分靶点获取(TCMSP数据库、BATMAN-TCM数据库、Similarity Ensemble Approach (SEA)数据库、HitPick数据库、Swiss Target Prediction数据库等)

    5.3 疾病靶点富集数据库(DisGeNET数据库、GeneCards数据库、OMIM数据库等)

    5.4 化合物与疾病靶点映射(韦恩图)

    5.5 PPI网络分析(PPI网站的构建、PPI核心网络的筛选)

    5.6 富集分析(DAVID数据库、Metascape 数据库)

    5.7 网络图构建—Cytoscape(数据导入、节点关系的建立、节点属性计算、调整网络样式、筛选及过滤、网络图导出)

    三、代谢组学与网络药理学结合研究技术与实践

    6、代谢组学与网络药理学结合研究思路

    7、代谢组学与网络药理学结合分析技术

    7.1 代谢组学与网络药理学数据的获取(HMDB数据库、成分靶点获取、疾病靶点富集数据库、 代谢专属数据库)

    7.2 代谢组学功能分析(富集分析、通路分析等)

    7.3 代谢小分子网络关联分析(Metscape软件、KEGG数据库、OmicsNet数据库)

    7.4 代谢组学与网络药理学功能层次关联分析

    四、文献解读及实例解析

     

    8、文献解读:代谢组学与网络药理学结合的文章分析流程和套路

    8.1 中药化学成分靶点与代谢小分子网络分析实例

    (Food Res Int. 2020, 136:109503)

    创新点:采用Metscape软件对代谢组学发现的差异代谢物和中药成分的药物靶点关联,聚焦关键蛋白。

     

    8.2代谢组学与网络药理学功能层次关联分析实例

    (J Ethnopharmacol. 2021,264:113281. )

    创新点:采用功能富集工具分别对网络药理学和代谢组学数据进行关联,聚焦关键通路。

     

    8.3代谢组学和网络药理关联分析实例

    (Comput Struct Biotechnol J. 2021, 19:1002-1013)

    创新点:整合代谢组学和网络药理学揭示羟基红花黄色素A抗急性脑外伤的作用机制损伤。

     

     

    9、实例解析与练习

    9.1 TCMSP数据库获取与筛选化学成分

    9.2 Swiss Target Prediction数据库预测成分靶点

    9.3 DisGeNET数据库获取疾病靶点

    9.4 化合物与疾病靶点映射

    9.5 PPI网络绘制

    9.6 DAVID软件进行富集分析

    9.7 Cytoscape工具绘制成分-靶点图

    9.8 Metscape绘制代谢-酶网络关联图

                                                                                                                     qq:2048724316

    展开全文
  • 组学分析中,当我们需要将2种数值相差太大的数据绘制在一张图中时,以代谢组学归一化后的数据和蛋白定量数据为例: ​ 如果用常规图展示:那就看不清代谢物Phosphoric的含量变化。 遇到这种情况怎么办呢?绘制...

    前两期《代谢组学两种常见图形制作分享》、《代谢组学常见图形制作分享(二)》给大家详细介绍了韦恩图、箱线图和ROC曲线的绘制,不知各位趣粉学得如何啦?今天BIOTREE生信分析的小伙伴又给大家准备新的学习内容啦!一起快马加鞭来学习吧~

    组学分析中,当我们需要将2种数值相差太大的数据绘制在一张图中时,以代谢组学归一化后的数据和蛋白定量数据为例:

    如果用常规图展示:那就看不清代谢物Phosphoric的含量变化。

    遇到这种情况怎么办呢?绘制双坐标轴图是非常好的选择。那么,R语言和Excel怎么绘制双坐标轴图呢?下面让我来给大家介绍下吧,希望对大家有所帮助。

    1、R语言绘制步骤

    1. 加载包。

    2. 输入数据,并对横纵坐标轴命名。

    3. 函数包,type修改作图的形状,rcol和lcol可以修改图的颜色,rylim和lylim修改纵坐标的取值范围。

    4. 输出结果。

    5. 如果数据来自不同分组,想画在一张图上。

    6. 输出结果。

    2、EXCEL绘制步骤

    1. 采用EXCEL,选中分析数据。

    2. 点击“插入”选型卡中图表中的柱形图,选中任何一个柱状图,点击鼠标右键,选择“设置数据系列格式”。

    3. 在“系列选项”中的“系列绘制在”选择“次坐标轴”。

    4. 选中任何一个柱状图,点击鼠标右键,选择“更改系列图表类型”。

    今天BIOTREE生信分析教学完毕,你学会了吗~

    展开全文
  • metPath是一个R包,用于对脂质组学数据进行绝对定量。 安装 您可以从安装metPath 。 if ( ! require( devtools )){ install.packages( " devtools " ) } devtools :: install_github( " jaspershen/metPath " ) ...
  • 我们使用许多高通量分析平台,包括蛋白质组学和代谢组学的多维液相色谱-质谱(MDLC-MS); 液相色谱-质谱(LC-MS)和全面二维气相色谱-质谱(GCxGC / TOF-MS)。 每种类型的分析对患者样品中存在的分子提供有限的...
  • 可进行代谢组数据的可视化分析,Module Overview如下,包括Biomarker Analysis/ Enrichment Analysis/Pathway Analysis/Joint Pathway Analysis/Network Analysis以及各种封图分析等,基本送测公司的报告里头的结果...
  • #资源达人分享计划#
  • 代谢组学 分析技术 数据处理技术 分析处理等
  • 我们使用notame作为将用于非目标LC-MS代谢组学数据的所有预处理方法捆绑在一起的方法,因此它主要由其他软件包中的方法组成,并且我们发现了许多有用的可视化方法。 有关我们如何进行LC-MS实验以及该软件包在我们的...
  • 高通量代谢组学研究的一大难点在于数据处理和分析。对于质谱或核磁产生的海量数据需要借助于自动化的软件来进行数据分析代谢组学全流程软件应具备完整的分析工作流程,包括数据预处理、物质鉴定、统计分析以及数据...
  • 通过对代谢组学数据进行分析,可以对生物体内的小分子代谢物进行定性定量分析,找出代谢产物变化与生物体生理生化变化的相对关系。挖掘疾病发生过程中生物体内代谢物的变化信息,以及药物作用后引起
  • 行业分类-设备装置-基于代谢组学数据建立分析预测糖尿病认知功能障碍平台的方法.zip
  • 代谢组学联合分析 转录组学&代谢组学联合分析 转录组是获得生物体内基因表达的重要方法,代谢组是生物体表型的基础和直接体现者。 转录组测序可以得到大量差异表达基因和调控代谢通路,但由于基因与表型之间很难...
  • 用于非目标代谢组学数据分析的可复制管道。 执照 根据的条款,该程序是作为开源软件发行的。 用法 请参阅我们的了解如何安装和使用RUMP 帮助信息 RUMP可以在命令行上显示用法信息: Nextflow main.nf --help true ...
  • 我们采用了全球代谢组学分析方法来筛选民航中空中交通管制员(ATC)因精神疲劳而发生的生化变化。 总共招募了45名男性ATC(两批)作为两个精神疲劳小组,并由23名执行人员作为对照组。 志愿者在工作前后收集尿液...
  • xMSanalyzer 包含的实用程序可分为四个主要模块:1) 合并来自多参数设置的 apLCMS 或 XCMS 样品处理结果,2) 评估样品质量、特征一致性和批处理效果,3) 特征匹配,以及4) 使用 KEGG REST 表征 m/z; 5) 使用 ...
  • NormalizeMets是一个R语言集成包,主要用于代谢组学研究中数据的归一化。这个包可以用于去除数据中的噪音,如大样本中存在的共性问题——质谱信号偏移。那么除此之外,这个包还可以进行图形的交互式可视化以及获得...
  • 微生物组学&代谢组学联合分析 近年来,随着微生物组学研究的不断发展和持续火热,越来越多的研究者跳出单一的微生物研究,开始将微生物组学和代谢组学联合起来,从物种、基因以及代...
  • 使用Python的数据分析师到底要不要掌握Linux?对于上面的问题,大部分的答案是Python数据分析在windows的环境下跑跑就可以了,没有必要再花时间来学习Linux;这里jacky有一个明确的态度:就是以Python为职业的数据分析...
  • 方法 运用气相色谱/质谱法(gaschromatography/mass spectrometry,GC/MS)对宫颈癌患者和正常人的血清样本进行代谢组学分析,原始数据经过markerlynx XS软件处理,采用正交偏最小二乘辨别分析法进行分析(Orthognnal ...
  • 为方便大家快速地掌握代谢组学数据分析相关知识,现把咨询我们的有关代谢组学数据分析的一些问题给大家整理出来,供大家参考。1.PCA:loading图,P=COSα中P代表什么意思?The loading, p, for a selected PCA ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,694
精华内容 1,477
关键字:

代谢组学数据分析

友情链接: 百度语音合成.rar