-
graphpad7.04多组比较p值_多组学分析怎么发12分的Nature子刊?
2020-12-31 17:54:54文献精读(多组学联合分析):Integrative analysis of genomic and epigenomic regulation of the transcriptome in liver cancer文章关键词:肝癌,DNA甲基化,组蛋白修饰,转录组 近年来联合多组学分析已经成为表...文献精读(多组学联合分析):Integrative analysis of genomic and epigenomic regulation of the transcriptome in liver cancer
文章关键词:肝癌,DNA甲基化,组蛋白修饰,转录组
近年来联合多组学分析已经成为表观领域的研究热点,利用单一组学数据分析致病因子的局限性愈发显著。通过多组学联合分析将有助于人们更加系统全面的认识肿瘤的生物学行为,进一步为寻找有价值的肿瘤标志物和相关机制提供新的线索。这篇NC文章聚焦在了肝癌这个肿瘤上面,看看多组学分析能够得到什么有意思的发现呢?
一:Summary
作者从以转录组的数据入手,结合基因组数据和表观数据进行差异分析。看能否找到与肝癌的发生发展密切相关的异常基因或者是通路。
主要研究思路和结论是:
1.分析64个肝癌病人样本中,通过寻找DNA甲基化(MET cor)和DNA拷贝数变异(CNV cor)差异表达基因,并且证明了异常的MET cor和CNV cor的基因有些显著的共调控作用.
2.进一步研究,能否根据 MET cor和CNV cor进行肝癌分型,将已有的肝癌样本分为三个亚型。并且在TCGA数据库中进行验证(NMF算法)
3.筛选对HCC侵袭性影响最大的基因变异BAP1,对肿瘤的侵袭有着至关重要的作用,而且在 Huh7细胞转染实验进行验证
带着问题去思考:
1:为什么选择肝癌?
2:作者是找到这些异常的DNA甲基化基因和拷贝数变异的基因的?
3:如何去如何起证明这些基因的共调控作用呢?既然共调控,调控机制是什么?(或者是说如何去联系DNA甲基化和拷贝数变异的?)
4:对肝癌进行分型是如何分的?分类结果如何显示呢?怎么验证?
5:如何筛选功能最显著表达差异的基因(如何筛选到BAP1?)二:Introduction
1:DNA甲基化和拷贝数变异发生在肿瘤的侵袭中2:肝癌是重大公共卫生问题,中国尤甚;同时对于肝癌来说,基因组和表观组的异质性大,简单介绍一下今天的主角:肝细胞癌(Hepatocellular carcinoma, HCC),全球恶性癌症死因“恶名榜”第二。中国是HCC的重灾区,不仅“贡献”50%的全球HCC新发和死亡病例,且平均年龄55-59岁比国外HCC低发国家早近20年。[1,2,3]
3:在之前的研究中,一些癌症相关的基因通过DNA甲基化去发挥功能作用,如 IGF2 UHRF1这些基因。
4:转录受到DNA甲基化和拷贝数变异的影响,既然都可以影响转录,那么他们之间有没有协同作用呢?这方面的研究还不是很清楚。
5:一共用了64个肝癌的CNV,MET,EXP样本信息。
三:Result
3.1 Transcriptome deregulation by DNA copy number or methylation
(DNA甲基化和拷贝数变异会导致转录失调)
Transcriptome deregulation by DNA copy number or methylation a. 分别计算MET和mRNA表达的相关性(蓝色),CNV和mRNA表达的相关系(红色),然后发现DNA甲基化(MET)是和表达呈负相关的,而CNV和表达呈正相关(因为MET相关性系数分布偏左边为-0.153,反之~)
a图关注的点 b.在a图的基础上,需要找到差异显著的那些基因,然后|r|>0.5,也就是红圈圈的位置,然后发现了CNVcor有813个,METcor有321个。把这几个基因集进行求交集发现了只有24个overlap基因.
(ps1:拿到这些基因做了一个富集分析,发现CNV差异基因富集在蛋白相关的信号通路上,MET的差异主要富集在炎症反应等上面。如下图。结果未深挖)
差异基因富集结果 c. CNV基因显示出了它的一个基因组偏好性,比较集中在8号染色体上。DNA甲基化的基因在全基因组上分布没有偏好性。
d.(左图) 发现DNA甲基化的基因一般都分布在inter-genic(基因间区)而不是CpG岛。(右图)发现DNA甲基化更偏向于发生在基因body区域,推测开放区域的甲基化可能会导致转录异常,芯片中CpG岛的表达方式N_shore,N_shelf等。
e:计算每个病人样本的CNVcor上调和下调的基因个数,METcor上调和下调的个数。然后画出e的柱状图。(不同颜色代表上下调的基因)下面那个热图的意思就是说红色的上调,蓝色的是下调的基因位点。
f:去寻找CNVcor上调和下调基因和METcor上调和下调的相关性。每个点代表着一个病人样本。横纵坐标代表这个病人的差异基因的个数,然后做了一个相关性分析。
Q:这整个一个大Figure说明了什么?
A:个人认为是确定DNA甲基化和拷贝数变异适合转录组异常相关的,至于有多么相关,数据给出信息。
3.2 Molecular subtype based on CNVcor and METcor genes
对于CNV和MET差异表达基因可以用于肝癌的分子分型
Identification of molecular subtypes of HCC using CNVcor and METcor genes.
a,b:非负矩阵分解(Non-negative Matrix Factorization,NMF)算法【ps2:这是无监督学习算法的一种,和k-mean,分层聚类等目的一样,为了把这些样本进行分类。感兴趣的可以看看:https://blog.csdn.net/google19890102/article/details/51190313】对CNV和MET基因进聚类,然后得到的结果,OS 是overall survival(总体生存时间),TTR是time to tumor recurrence(肿瘤复发时间)。发现对于CNV分类来说可以把这些样本分成3类,用MET分类的话可以分成4类。而且从分类效果OS,TTR来看CNV的分类效果更好。(ps3: iCluster,一种可以利用R包进行分类的分类方法,详情可以见:http://www.bioconductor.org/packages/devel/bioc/html/iClusterPlus.html)
c:热图显示了iCluster分析鉴定的亚型表达模式。使用NMF聚类方法鉴定的CNVcor或METcor基因的亚型的比较,每个亚型鉴定的结果用彩色条形标记。每个亚型中CNVcor-up、CNVcor-down、METcor-up、METcor-down 基因的异常表达频率如图(最底下)所示。中间的是热图。d:用K-Mean的方法画出利用icluster方法分类的这种类型的OS,TTR曲线,看看分类效果。
【作者比较了iCl1,iCl2和iCl3亚组的临床病理特征,发现iCl1肿瘤比iCl2或iCl3的侵袭性更强(P = 0.002,表1)。 其他临床特征在亚组之间没有差异。 这些结果与分子亚型的独特侵袭性特征一致。 基于这些发现,CNVcor和METcor基因的综合分析可以识别分子亚型,每个分子亚型具有与转录失调相关的基因组和表观基因组特征的不同组合,与不同的预后结果相关。】
Q:得到了这个分类结果,相当于一个训练集,那么如何验证这个训练集的分类效果呢?
A:利用数据库,大样本库的数据进行验证3.3 Validation of the molecular subtypes in an TCGA data set
Validation of the molecular subtypes in an TCGA data set
a:观察到CNV和转录组之间的相关系数的总体分布向右偏,MET左偏,b,c:寻找差异的基因,求交集,发现CNVcor基因在8号染色体进行富集和之前一致
d.e: METcor基因在open sea区域和gene body域比在CpG岛和TSS区域富集更频繁 此外,异常CNVcor和METcor基因的频率之间的相关性也得到验证,相关性0.82.
f,g :分类效果,C1组DNA拷贝数和DNA甲基化畸变率最高,C3组最低
h:OS,RFS分析图
Q:发现利用CNV和DNA甲基化是可以用作分子分型的,大样本也重复出来了结果,接下来如何分析呢?如何去找DNA甲基化和拷贝数变异的关系呢?
我们接下来看看作者如何借助统计学去试图寻找答案
3.4 Coordinated aberrations of DNA copy numbers and methylation
整合DNA甲基化数据和拷贝数变异数据
Coordinated aberrations of DNA copy numbers and methylation 图a,b整合了TCGA的数据和他们自己已有的数据进行分析。
CNV gain的频率与CNV loss的频率显著正相关(r = 0.43,P = 1.5×10-20,图4a)。 相反,MET gain的频率与MET loss的频率呈负相关。在c图中,我们可以看到横坐标是CNV频率,纵坐标是 MET频率,可以看出他们有显著的相关性
在图d,e,f,g中,分别以CNV gain ,CNV lose,MET gain ,MET loss进行坐标变换。然后都发现他们的之间的相关性与横纵坐标轴的变量变化无关。
总之,我们认为频繁的DNA拷贝数异常的HCC患者更可能经常出现DNA甲基化异常。 异常CNVcor和METcor基因的这些相关频率可能意味着DNA拷贝数和DNA甲基化的异常之间的密切关系。
3.5 Identification of genomic key features in the HCC subtypes
Identification of genomic key features in the HCC subtypes a:TCGA中肝癌的数据样本分析,剔除了同义突变后,筛选出在189个发生10次以上突变的重复突变基因,我们鉴定出37个差异突变基因,其中>5 %的突变频率在C1、C2、C3亚型之间存在差异(其中有2个肝癌样本没有基因组突变数据),发现了BAP1是C1突变的最频繁的基因。CTNB1是C2,C3当中突变最频繁的基因,而且和肿瘤的发展高度相关。
b:GeneMania软件做的图(ps4: 基因间相互作用的,可以在cytocsape里面装这个插件,也可以去分析网站GeneMANIA,网址: http://genemania.org),为了找到亚型的功能决定区域,利用SNU和TCGA数据交集CNVcor genes (n = 95) and METcor genes (n = 179)进行分析,发现了UBC 这个基因在CNV基因集中相关系数很高。(越靠中心说明了越重要。)
c:先对这两个基因集求一下交集,找到相同的差异的上调或者下调的基因。举个例子来说:CA9是iCl1/C1肿瘤中上调表达差异最大的基因。(ps5:CA9是缺氧的一个标志物,其过表达在HCC中,是一个不好的预后标志物。此外,与其他亚型相比,侵袭性iCl1和C1肿瘤表达了高水平的干细胞相关基因,如KRT19、EPCAM和PROM1。与Rhee, H等人.报道的CA9的表达与HCC中干细胞相关表型相关的结果符合[4]。)
基于这个可能和干性有关的特性,进一步评估已知的和干性相关的基因集(即, ESC、Nanog、Oct4、Sox2、Myc1、Myc2等已知的和细胞干性相关基因集)。在热图中,黄色代表高表达,蓝色代表低表达,发现在IC1,C1中这些干性的基因集高表达了。说明和这些差异表达的基因和肿瘤干性有关系。
作者将这次分类结果与之前定义HCC亚型分子分型的研究进行了比较。发现二者overlap。这也意味着这些以前的分类的表达可能与CNVcor和METcor基因畸变的频率有关。(ps6:肿瘤干细胞(CsC)理论认为肿瘤的发生、发展、转移和复发与CsC密切相关,对CSC的研究已成为肿瘤研究的热点。自我不断的更新复制以及保持分化的潜能是干细胞的特性。Sox2、Nanog等转录因子是维持干细胞干性的核心转录因子,那么有关于这些转录因子的表达情况是作者探究肝癌细胞是否具有干性的核心关注点。)
综上所述,这些发现提示,与DNA拷贝数和DNA甲基化相关的HCC分子亚型也与BAP1和CTNNB1突变有关,这可能在HCC亚型进展中发挥调控作用。对于分类结果来说,我们认为C1和iCl1肿瘤可能具有这些亚型的共同功能特征,如侵袭性或干性。我想知道为什么这里分析出两个突变,后面只验证了一个:因为C1是恶性程度最高的HCC,所以更关注BAP1,另外一个就不详细研究
d:展示了BAP1抑制对肝癌细胞干细胞基因表达的影响。Huh7细胞通过转染以BAP1 shRNA,下调BAP1的表达,发现了包括CA9、KRT19、EPCAM、PROM1在内的stemness基因的显著上调表达。这些结果有力地支持了我们的发现,即BAP1突变可能至少在一定程度上促进了一种侵袭性HCC亚型表达。
这篇文献的主图基本上就讲到这里了。看完之后思考之前的问题:
回到之前的问题:
1:为什么选择肝癌?
因为肝癌在全球的发病率死亡率非常靠前,而且CNV和MET异质性比较大。研究既有实际意义又有可行性
2:作者是找到这些异常的DNA甲基化基因和拷贝数变异的基因的?
通过表达谱,差异位点进行分析。同时通过TCGA的样本分析,也找到很多这种差异表达基因。
3:如何去如何起证明这些基因的共调控作用呢?既然共调控,调控机制是什么?(或者是说如何去联系DNA甲基化和拷贝数变异的?)
通过寻找相关性,画线形图,找到相关性系数最大的进行比较。总体来说,通过自己的64个肺癌样本+TCGA数据库验证,证明了CNVcor和METcor基因的频率之间的相关性。
4:对肝癌进行分型是如何分的?分类结果如何显示呢?
利用了非负矩阵分解,对CNVcor和METcor的基因进行分类得到结果C1,C2,C3。并且比较了这几类的总体生存率和转移率。
5:如何筛选功能最显著表达差异的基因(如何筛选到BAP1?)
通过找到基因的突变频率,然后发现了BAP1这个基因在C1里面突变的频率是最多的,然后CTNB1在C3里面突变频率更高。(ps:通过求两个基因集的overlap进行热图分析,可以发现一些和干性相关的基因,并且进了实验验证)文献thinking:
1:首先样本的数量60多对,感觉不是很多。而且作者在文章中也承认样本量的问题会造成结果的偏差。(虽然TCGA数据库验证可以部分找补)
2:关于基因组分布的偏好性,作者并没有给出一个合理的解释。可以多往这个方面多挖掘一些信息。
3:还有一些点可以深挖掘,比如说找到了一下表达差异相关的基因,那么这些基因在表观上有没有其他的作用,(虽然有讨论Bap1和H3K27me3的关系)比如说是不是还有其他组蛋白修饰或者是ncRNA有关?
4:找到的这些significant基因当诊断的marker是否可行(或者治疗靶点)?
5:DNA甲基化和CNV的相关性问题,既然找到了CNV_DOWN和MET_DOWN有正相关,图一f中,是不是可以继续挖下去呢?进一步解释一下DNA甲基化和CNV之间的是如何影响的呢?毕竟文章只是说存在相关性。Ref:
原文链接:https://www.ncbi.nlm.nih.gov/pubmed/290182241:Torre LA, Bray F, Siegel RL, Ferlay J, Lortet‐Tieulent J, Jemal A. Global cancer statistics, 2012. CA Cancer J Clin. 2015;65:87‐108.
2:Hindupur SK, Colombi M, Fuhs SR, et al. The protein histidine phosphatase LHPP is a tumour suppressor. Nature 2018, 555, 678‐682.
3:MALEK NP, SCHMIDT S, HUBER P, et al. The diagnosis and treatment of hepatocellular carcinoma[J]. Dtsch Arztebl Int, 2014, 111(7): 101-106. DOI:10.3238/arztebl.2014.0101.
4: Rhee, H. et al. Poor outcome of hepatocellular carcinoma with stemness marker under hypoxia: resistance to transarterial chemoembolization. Mod. Pathol. 29,1038–1049 (2016)
-
多组学分析及可视化R包
2020-07-14 11:06:59应该是在多组学领域知名度最高的一个R包,有专门的团队,做了十余年了,引用量也比较高。 官网:http://mixomics.org/ 文章:mixOmics: An R package for ‘omics feature selection and multiple data integration...文章来源:https://www.cnblogs.com/jessepeng/p/12597907.html
1. mixOmics
应该是在多组学领域知名度最高的一个R包,有专门的团队,做了十余年了,引用量也比较高。
官网:http://mixomics.org/
文章:mixOmics: An R package for ‘omics feature selection and multiple data integration
Github:https://github.com/mixOmicsTeam/mixOmics
Bookdown:https://mixomicsteam.github.io/Bookdown/特点:
- 组学数据广,基因/转录/蛋白/代谢都有涉及(是我的榜样);
- 独特的多变量降维分析和可视化方法(我统计没学好,所以不做太多统计方法,重点在于可视化,包括多种关联角度的展示方式)。
主要内容:
统计方法:PCA/IPCA/CCA/PLS/PLS-DA/MixMC/MINT/DIABLO
可视化:2D和3D散点图/相关性网络/聚类/相关性圈图/箭头图/DIABLO圈图/载荷图此外,这个包还自带了不少demo数据,具体可看官方文档。
2. tRanslatome
2014年就发表了,好在一直都有维护。
文章:tRanslatome: an R/Bioconductor package to portray translational control
Bioconductor:https://bioconductor.org/packages/release/bioc/html/tRanslatome.html
作者博客:http://www.mybiosoftware.com/tag/translatome
Github:https://github.com/tomateba/tRanslatome(五年前的源码)特点:
- 组学:主要是针对基因表达量的关联,包括转录组、翻译组和蛋白组;
- 统计方法:Rank Product, Translational Efficiency, t-test, Limma, ANOTA, DESeq, edgeR
- 可视化:scatterplots, histograms, MA plots, standard deviation (SD) plots, coefficient of variation (CV) plots
3. OmicsARules
最近新出的一个R包,创建了一种新的关联方法。
文章:OmicsARules: a R package for integration of multi-omics datasets via association rules mining
Github:https://github.com/BioinformaticsSTU/OmicsARules特点:
- 主要针对基因组和转录组数据,包括基因突变位点和非编码RNA;
- 发明一种Lamda3的度量方法创建关联规则,可视化不是重点。
4. iCluster / iClusterPlus
十年前开发的iCluster算法(联合潜在变量模型),针对癌症数据多组学聚类。去年的时候又开发了一个新的iClusterPlus包,做了一些升级。
文章1:Integrative clustering of multiple genomic data types using a joint latent variable model with application to breast and lung cancer subtype analysis
Github:https://github.com/cran/iCluster
Bioconductor:https://bioconductor.org/packages/release/bioc/html/iClusterPlus.html
文章2:A fully Bayesian latent variable model for integrative clustering analysis of multi-type omics data这种基于模型算法的工具我只能望洋兴叹,会用就不错了。
5. integrOmics
十多年的工具,虽然当年发了Bioinformatics,后面没有维护更新,废了。
文章:integrOmics: an R package to unravel relationships between two omics datasets
Github:https://github.com/cran/integrOmics6. moCluster
这也是一种算法,和icluster类似,主要整合数据聚类,用于细胞或疾病分子分型等。应用场景相对比较单一。
7. MCIA
这个包又可称omicade4: Multiple co-inertia analysis of omics datasets,即多元协惯量分析。一种多元统计分析方法,类似于PCA的展示吧,比较有限。
Bioconductor:http://bioconductor.org/packages/release/bioc/html/omicade4.html
Github:https://github.com/aedin/omicade48. 其他
其他还有不少R包做组学数据整合,或是基于新的算法,或是仅针对基因突变和基因表达关系等方面进行关联,相对而言比较冷门,如:
- CNAmet
- PLRS
- NuChart
- MOO
- Mergeeomics(这个包主要做GWAS/TWAS/EWAS/eQTL等,有点意思)
除了以上常用的R包,更多的多组学工具和方法可参考这一篇综述:https://jme.bioscientifica.com/view/journals/jme/62/1/JME-18-0055.xml
-
生信在线讲座:Sentieon--基于机器学习的多组学分析
2021-02-17 18:19:30在二月份 DahShu 免费线上讲座中,我们将聚焦生物信息基因测序领域, 邀请了来自硅谷的明星创业公司 – 基因测序数据软件 Sentieon 高级数据科学家胡晋南博士 (Dr....胡博士目前担任 Sentieon 的高级生物信息学在二月份 DahShu 免费线上讲座中,我们将聚焦生物信息基因测序领域, 邀请了来自硅谷的明星创业公司 – 基因测序数据软件 Sentieon 高级数据科学家胡晋南博士 (Dr. Frank Hu) 同我们分享 Sentieon 如何利用机器学习算法、软件和系统优化,使公司在创业初期就跻身成为业界第一快速、准确的商业机密。
讲座嘉宾:
- Dr Frank Hu,胡晋南博士,Sentieon Senior Bioinformatics Scientist
胡博士目前担任 Sentieon 的高级生物信息学科学家,负责产品周期管理并推动 Sentieon 在亚洲市场(尤其是中国)的业务成功。胡博士于2008年获得南京大学的学士学位,2013年获得俄亥俄州立大学的基因组学博士学位,并在 Joint Genome Institute, Lawrence Berkeley National Laboratory 从事计算生物学的博后工作。 胡博士在 NGS 数据分析方面拥有丰富的经验,以第一作者身份在同行评审期刊上发表了多篇论文。 本期 DahShu 讲座,胡博士将同我们分享 Sentieon 是如何利用机器学习迅速成为 NGS 测序数据软件的世界冠军。
讲座时间
2021年2月19日 星期五
09:00 – 10:00AM (PDT), 12:00 – 1:00PM (EST)报名链接
点击链接报名:https://dahshu.wildapricot.org/event-4166861
点击链接申请Sentieon软件:https://www.cax-cloud.com/sentieon
作为一名生信领域的研究人员,小编在进行二代测序数据分析时(如SNP/ Indel 突变检测),最常用的就是用 Broad Institue 开发的 BWA+GATK 流程对原始测序数据进行处理。而经过十多年大量样本的反复验证,BWA+GATK 也得到了学术界和业界的广泛认可,是公认的测序数据原始处理的金标准。
但是,BWA + GATK 流程也有几个显著的问题:- 高计算成本:流程时间长,资源利用率低 。
- 测序深度区域的随机降采样降低了突变检测的灵敏度和准确度。
为了从根源上解决测序数据分析工具的短板,Sentieon 创始人叶军团队提出了三个层次来提升 BWA+GATK:
- 数学模型;
- 计算机的算法,即如何把一整套数学公式在计算机上用高效的方法去实现;
- 用程序也就是计算机语言分解落实到每个细节。
首先,Sentieon 基于 BWA+GATK,并不断完善其数学模型,将原本不能提取的基因组信息完整。同时,优化的算法让 Sentieon 拥有极速周转时间和超低成本: 对于一个30X WGS全基因组测序流程,在分布式计算处理中流程小于30分钟,在单个服务器中流程小于2小时 ---- 大大减少了运算时间和成本,同时结果与 BWA/GATK保持近乎100%一致。
此外,Sentieon还开发了在通用CPU上运行的快速、准确的辅助分析流程,且十分容易部署在本地或者云端,涵盖了 BCL conversion, alignment, germline and somatic variant calling。Sentieon 还开发了具有机器学习功能的 DNAscope 和TNscope 流程,以实现一流的变体调用准确性,并且可以轻松地适应许多测序平台,包括Illumina,MGI 和 PacBio。
自从 Sentieon 2015年正式推出软件产品以来,多次赢得国际生信大赛的第一名或并列第一名:
· 2016 PrecisionFDA Truth Challenge
· 2016 PrecisionFDA Consistency Challenge
· 2016 ICGC-TCGA-DREAM Somatic Mutation Calling Challenge
· 2017 PrecisionFDA Hidden Treasures - Warm Up
· 2018 PrecisionFDA NCI-CPTAC Multi-omics Enabled Sample Mislabeling Correction Challenge, both subchallenge1 and subchallenge2
· 2019 Bio-IT Innovative Practices Awards
· 2019-2020 Sentieon 在 precisionFDA多组学数据挑战赛夺冠Sentieon 优异的表现也来源于其不断将机器学习和AI 应用到多组学分析中,以实现softPharma 更广阔的视野。与传统的“大数据”机器学习问题不同,多组学的主要挑战在于其小样本、高维度的特质,即每个样本都有深层数据。自2018年以来,Sentieon 参加并赢得了 PrecisionFDA 的三项多组学 AI 建模挑战,展示了其解决这些问题的能力
- Dr Frank Hu,胡晋南博士,Sentieon Senior Bioinformatics Scientist
-
Panomicon:基于Web的多组学数据分析-源码
2021-02-12 11:12:35Panomicon(以前为Toxygates)是一个网络应用程序,用于对多组学数据(目前集中在mRNA和mRNA-miRNA相互作用数据)进行用户友好的分析。 它最初是为Open TG-GATEs数据集开发的,但现在已用于更一般的用途。 ... -
如何做好微生物组学&代谢组学联合分析研究?
2019-09-23 00:00:00微生物组学&代谢组学联合分析 近年来,随着微生物组学研究的不断发展和持续火热,越来越多的研究者跳出单一的微生物研究,开始将微生物组学和代谢组学联合起来,从物种、基因以及代...微生物组学&代谢组学联合分析
近年来,随着微生物组学研究的不断发展和持续火热,越来越多的研究者跳出单一的微生物研究,开始将微生物组学和代谢组学联合起来,从物种、基因以及代谢产物等水平共同解释科学问题,获得了很多催人振奋的研究成果。
那么关于微生物组学&代谢组学联合分析,您可能有以下疑问:
目前微生物+代谢组的热门研究领域都有哪些?
微生物&代谢组联合分析更好地解决了什么问题?
代谢组学都能检测什么内容?“广筛”和“靶向检测”,有什么区别,该怎么选择?
要做联合分析,怎么进行取样?
不同类型或者部位的样本可以做联合分析吗,研究的侧重点是什么?
联合分析需要多少生物学重复?
如何进行联合分析?能够得出什么结果?
本文将逐个为您解答~
第
1
则
目前微生物+代谢组
的热门研究趋势和热门领域
微生物组测序可以解决"who is there"(那有谁)和 "what are they doing"(在干嘛)的问题。而代谢组学是研究生物体中代谢产物变化的科学,常用研究方法包括了:LC/MS(液质联用),GC/MS(气质联用)和NMR(核磁共振),可以解决"what have really happened"的问题。
在科学网基金频道(http://fund.sciencenet.cn/)检索2019年国家自然科学基金中标情况,以“肠道菌群代谢”为关键词,查询到项目共621条,累计金额30575万元。中标项目涉及多个领域,在疾病肿瘤研究,中医中药研究、畜牧水产研究、食品科学研究中都均有涉及。可见肠道菌群与代谢组学的联合分析必然是今后肠道菌群研究中很重要的方向。
接下来我们简单地了解一下几个中标基金的题目:
1
疾病肿瘤研究
2
中医中药研究
3
食品科学研究
4
畜牧水产研究
第
2
则
微生物&代谢组
联合分析解决了什么问题?
知道了样本当中有了哪些微生物,和他们具有的功能后,就需要进一步的验证这些功能是否真的发生了,发生的程度是什么样的。这时候单纯的微生物组学是无法完成验证的,而代谢组学就是非常好的一种方法,因此代谢组学是微生物组学研究重要的辅助和验证方法。我们从近期发表的几篇高水平文献中看看这种方法应用的趋势。
题目:肠道菌群及代谢物与自闭症谱系障碍[1]
发表时间:2019年5月
发表杂志:Cell, IF:36.2
方向:疾病研究
本研究中利用16S测序 + 宏基因组测序 + 代谢组学检测(GC-MS和NMR)的方法证实了肠道菌群与自闭症的发病及行为学异常存在直接的因果性关系。其中这幅图是基于微生物组学测序和代谢组学检测结果的基础上绘制的,展现了可能参与某种代谢产物产生或降解的菌种。最终结果显示肠道菌群可以通过产生刺激神经的代谢产物影响大脑兴奋-抑制平衡或者氨基酸的代谢,进而调节小鼠的复杂行为。这篇文章证明的因果关系是一个重大突破,而这必须归功于联合分析的功劳,因为这是单一的微生物研究达不到的研究效果。
题目:肠道菌群及代谢物与炎症性肠病(IBD)[2]
发表时间:2018年12月
发表杂志:Nature microbiology,IF:14.1
方向:疾病研究
本文利用了微生物宏基因组测序+代谢组LC-MS检测的方法,深入剖析了代谢物与微生物间的关联,对于理解炎症性肠病发生的原因和潜在诊断和治疗靶点鉴定提供了一定的理论依据。此图中展现出来了差异代谢物与差异菌群的显著关联关系,例如在IBD中富集的长链不饱和脂肪酸ETA(Eicosatrienoic acid)与健康相关物种Eubacterium ventriosum呈负相关。随后还根据代谢组学与宏基因组学数据利用随机森林预测模型可对IBD与非IBD进行区分,结果具有高度精确性。这篇文章极大的扩展了炎症性肠病的研究结果,找出了菌群和代谢产物的对应关系,这必须归功于微生物组学+代谢组学的研究方法。
题目:不同类型饲料的摄取引起牦牛瘤胃代谢和微生物群落的动态变化[3]
发表杂志:2019年5月22日
发表杂志:Frontiers in Microbiology,IF:4.29
方向:畜牧研究,16S测序+代谢组GC-MS,LC-MS检测
在畜牧领域,微生物+代谢组也是一个非常重要的研究思路。本文结合代谢组与微生物多样性对饲喂不同类型饲料的瘤胃液进行联合分析,发现代谢物和微生物群落组成的差异。例如细菌BS11与油酸、肾上腺素、硬脂酸和棕榈酸呈负相关。普氏菌科UCG-003主要与L-苯丙氨酸、L-酪氨酸、L-蛋氨酸、次黄嘌呤、L-谷氨酸、肾上腺素、硬脂酸和棕榈酸呈负相关,与L-多巴呈正相关等。通过这些结果可以更好地了解瘤胃代谢产物和微生物功能,从而促进现代牦牛饲养策略的发展。值得一提的是,本篇文章在微生物与代谢双层面上阐述了不同饲料对牛瘤胃影响的原因和机制,相较于先前的单一微生物研究,明显更加深入。
从案例中可以看出,单一的微生物组学已经不能满足当前研究需求。想在肠道菌群领域再发表不错水平的文章,采用微生物+代谢组学联合分析的方式才是大势所趋。
第
3
则
常用微生物组学检测内容
研究对象
研究方法
研究目的
微生物群落
16S/18S/ITS扩增子测序
微生物多样性、群落结构组成,菌种丰度,差异菌种分析,关联分析
微生物群落
宏基因组测序
微生物多样性、群落结构组成,菌种丰度,差异菌种分析,基因分析,功能分析,通路分析,基因草图构建
在这里想要强调的是,无论是16S扩增子测序、宏基因组测序都是可以和代谢组学进行关联的。代谢组学与16S的检测主要是微生物多样性,种类和相对丰度与代谢产物丰度的关联。宏基因组与代谢组学的关联主要是其代谢通路与基因功能的关联。
第
4
则
代谢组学检测内容
NMR平台:
适合检测水溶性初生代谢产物——脂质代谢、糖类代谢、氨基酸代谢及能量代谢。可实现绝对定性定量检测。
靶向检测与非靶向检测
56种氨基酸类
49种酰胺类
25种糖类
96种有机酸类
14种药物及食品类
6种醇类
34种核苷酸类
12种维他命及咖啡因类
40多种新增物质
GC-MS平台:
适合检测易挥发,热稳定且不易降解物质。非靶向广筛可以实现相对定性定量检测,靶向检测可以实现绝对定性定量检测。
靶向检测
非靶向广筛
32种氨基酸
氨基酸、生物碱、脂肪酸、酚类、醇类、极性有机化合物等
37种脂肪酸
8种短链脂肪酸
LC-MS平台:
适合检测易电离物质非靶向性广筛,也常用于次生代谢物的靶向性研究。非靶向广筛可以实现相对定性定量检测,靶向检测可以实现绝对定性定量检测。
靶向检测
非靶向检测
48种胆汁酸
(含初级与次级)
有机酸,有机胺类,核苷酸,生物碱,醇类,类固醇类,植物激素,极性有机化合物
27种神经递质
代谢组接受样本类型:粪便、血清、植物/动物组织、细菌、细胞、尿液、其他体液等
第
5
则
什么是代谢组广筛与靶向检测?
当没有具体思路和明确的检测代谢产物时,可以尝试先进行代谢组广筛(GC-MS或者LC-MS),得到差异较大或者丰度高的代谢产物后再选择靶向检测(临床样本推荐每组30个生物学重复,具有较好的统计学意义)。
如有前人研究和自身研究基础,或已知菌群结构特点,可直接选择相应的
靶向检测
。第
6
则
联合分析如何取样?
★ 基因组和代谢组关联分析,相同类型的样本分别用作微生物测序和代谢组学检测需要同一份样本冻存前提前分装,不同种类样本需要同一时段取样,否则无法关联。
★做微生物测序与代谢组检测的样本禁止反复冻融,因为反复冻融会造成粪便菌群和代谢产物的变化,从而导致较大的实验误差,影响后续的分析。
★ 需要检测短链脂肪酸,脂肪酸的样本不可冻干,因为其属于易挥发代谢产物。
更多关于《微生物测序和代谢组学检测样本取样标准》请滑到文末加客服微信索要。????
第
7
则
不同类型或者部位的样本
可以做联合分析吗?
研究的侧重点是什么?
不同样本类型的组合有着不同的实验目的,老师们可以根据自己的需求进行选择。组合的方式包括但不限于以上的情况。
第
8
则
联合分析需要多少生物学重复?
根据我们的经验,不同的样本类型,我们建议不同数量的生物学重复样本数量,以达到更好的统计学效果。
第
9
则
如何进行联合分析?
能够得出什么结果?
在进行联合分析研究的时候,主要分为三步。第一步决定微生物测序的样本类型,进行微生物的测序研究;第二步决定代谢组检测的样本类型和代谢组检测平台进行检测;第三步把两方面的数据进行关联分析。
在关联分析后我们会得到以下的表格:
此表格会对微生物与代谢产物进行Spearman correlation的关联分析计算,得出关联系数r值,此值可以体现某特定微生物与代谢产物的关联性,基于r值,我们可以绘制出以下图片来更直观的展示结果。
微生物与代谢产物关联分析热图
横坐标为代谢产物,纵坐标为菌种名称。关联分析热图代谢物能够快速直接判断代谢物与微生物的相互关系。
微生物与代谢产物(大类)关联分析热图
基于微生物与代谢产物关联分析热图做出的进一步整理,可以快速直接判断代谢物大类与微生物的相互关系。
微生物与代谢产物关联网路图
对于典型相关的微生物/代谢产物的可视化展示是非常重要的结果,而关联网络图就可以达到直观展现典型相关的微生物/代谢产物相互关系的目的。
典型微生物/代谢产物散点图分析
散点图分析可以进一步验证典型和微生物/代谢产物相关性系数分析的真实性,从而去除假阳性的强相关作用。
差异菌种代谢功能与代谢产物关联分析图
在找出差异的菌种功能前提下,此图可以直观的显现出差异功能和代谢产物之间的相关性。
▼
阅微基因提供
更多全面完善的微生物组&代谢组联合分析服务
除上文提到的内容外,您可能还有如下疑问:
如何对微生物+代谢组联合分析的各种类型的样本进行取样?
如何设计微生物+代谢组联合分析试验方案?
微生物组学、代谢组学、联合分析的生信分析详细内容?
其他在进行微生物组学和代谢组学联合分析上的注意事项?
此前,阅微基因已举办过多场《微生物+代谢组联合分析的方法与应用》公开课,为近千名老师、同学解答了关于联合分析方面的疑惑。没赶上公开课?别遗憾,扫码加客服微信,即可免费获取公开课链接及课程PPT。
阅微基因 客服微信
扫一扫左边的二维码图案,加我微信
为了更好地服务广大科研工作者,阅微基因推出16S测序开学大促销,超低价格,还有高级分析免费送,助力您的微生物研究。同时如选择微生物+代谢组学服务,更能享受折上折,详情请加微信咨询或点击促销海报留下信息。
参考文献
[1] Sharon, Gil, et al. "Human Gut Microbiota from Autism Spectrum Disorder Promote Behavioral Symptoms in Mice." Cell 177.6 (2019): 1600-1618.
[2] Franzosa, Eric A., et al. "Gut microbiome structure and metabolic activity in inflammatory bowel disease." Nature microbiology 4.2 (2019): 293.
[3] Wilmanski, Tomasz, et al. "Blood metabolome predicts gut microbiome α-diversity in humans." Nature biotechnology (2019): 1-12.
[4] Liu, Chang, et al. "Dynamic Alterations in Yak Rumen Bacteria Community and Metabolome Characteristics in Response to Feed Type." Frontiers in microbiology 10 (2019).
更多详细案例解析请点击链接:
阅微基因 北京 | 苏州 | 广州
法医产品科研服务临床检测
为您提供DNA检测的完整方案
www.microread.com
4000 192 196
info@microread.com
点击
查看更多精彩内容。
-
非靶向代谢组学数据分析方法总结
2019-04-30 18:53:10生物信息学早已不再局限于基因组学领域了,后基因组学越来越受到关注,并且这几年“多组学”的也研究越来越多。其中,代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因组... -
影像组学ibex_影像组学的图像分析及模型构建
2020-12-21 01:53:36影像组学的图像分析及模型构建隋赫1,莫展豪1,孙旭2,李雪佳1,刘景鑫1【摘要】[摘要]影像组学是精准医疗时代的新兴领域,涉及多系统疾病的筛查、诊断、治疗及预后评估等。影像组学通过从医学影像中提取多维度定量... -
比较基因组学分析(Comparative Genomics Analysis)
2021-01-19 11:54:16比较基因组学简介 ...比较基因组学(Comparative genomics)是基于基因组图谱和测序技术,对一个物种的多个个体(群体)基因组或多个物种基因组的结构和功能基因区域进行比较分析。基因组的结构和功能基 -
比较基因组学常用分析软件和分析方法
2020-11-03 11:46:29比较基因组学常用分析软件和分析方法 (1)同源基因的查找 OrthoMCL or Orthofinder; (2)多序列比对 Muscle / MAFFT / ClustalW / T-coffee, Muscle 效果好点 (3)调取保守区域,并收尾连接,形成supergene ... -
转录组-蛋白组-代谢组关联分析
2021-01-25 16:57:10对生物体内生命过程中产生的一系列代谢产物做全面的分析有助于揭示基因型和表型之间的联系,整合多组学分析是目前综合分析代谢产物的最有效的方法。转录组与蛋白质组数据依据 mRNA 与蛋白之间的翻译关系彼此关联,... -
基于LC MS的代谢组学数据分析.docx
2020-11-15 19:09:08要手段之一目前常用的联用技术是气质联用GC-MS和液质联用LC-MSO下面咱 一起看一看基于LC-MS的代谢组学数据分析的流程 目前用于代谢物组学分析的方法主要有酶分析法核磁共振NMR薄层色谱 TLC高效液相HPLC气相色谱GC... -
点在多边形内_玩儿转多组学的分析组合拳 | 泰森多边形制图全攻略
2020-12-16 20:03:55往期回顾●泰森多边形 | 只要是多组学,您都需要这一款●玩儿转扩增子测序 | 泰森多边形揭示为什么就你胖的奥秘今天,凌恩生信团队就为大家带来这款分析作图的流程全攻略,一起看过来吧!Voronoi图又叫泰森多边形或... -
得到多组单选框的值_多组学如何构建预后预测模型,还发了7分+?
2021-01-14 08:49:24此研究对肺腺癌进行了多组学分析,并建立预后预测模型。作者的预后预测模型可能具有令人信服的临床价值,可能会改善患者总体生存率,甚至可以为LUAD患者开发新的治疗策略。题目:Multi-Omics data analyses ... -
论文研究 - 基于LC-HRMS的小麦非目标代谢组学分析
2020-06-01 02:24:25这项研究的目的是阐明干旱条件下小麦中代谢物水平的变化,并使用称为同位素比率的基于液相色谱-高分辨率质谱(LC-HRMS)的技术,通过非目标代谢组学分析来鉴定与干旱胁迫相关的潜在代谢物离群值分析。 花后干旱胁迫... -
xcmsrocker:用于代谢组学数据分析的Rocker图像-源码
2021-02-13 06:23:09摇杆图像用于代谢组学数据分析 对于Java,您可以选择 。 对于C / C ++,您可以选择或 。 对于C#,您可以选择 。 对于Matlab,您可以选择 。 对于python,您可以选择或 。 但是,我建议初学者使用该基于R的... -
pca主成分分析_代谢组学——主成分分析(PCA)
2020-11-27 13:26:21在上一篇文章中,我汇总了大佬们写的关于代谢组学的一些基础知识,让大家对代谢组学有了一个整体性的认识。这次给大家分享的是一些如何对数据进行可视化的文章。Principal Component Analysis (主成分分析)很多... -
蛋白质组学数据分析——(1)原理
2019-10-24 14:07:17蛋白质组学数据分析——(1)原理 当前,关于高通量蛋白质组学的研究远不如NGS这般火热,网上关于这方面的知识也寥寥无几,从事这一行也有一段时间了,但还没好好总结过。加之过段时间可能要去做培训,所以是时候把... -
infant_metabolome_microbiome:论文“婴儿肠道微生物群中分类功能关系的多组学表征”的可重复分析-源码
2021-02-10 06:01:42该存储库托管可重现的脚本,用于手稿工作流程中呈现的分析,用于Nguyen等人的手稿“婴儿肠道微生物群中的分类单元功能关系的多组学表征”中表示的分析。 目前正在准备2020年。 脚本被组织成模块化的功能,并被馈送... -
西方蜜蜂基因组中学习记忆同源基因的分析
2020-02-13 00:16:19西方蜜蜂基因组中学习记忆同源基因的分析 ,王子龙,张丽珍,蜜蜂是研究学习记忆的经典的模式生物,尽管对于蜜蜂学习记忆的行为学方面已有很多研究,但是目前对于蜜蜂学习记忆的分子机理仍知 -
脑网络组学构建分析及应用研究
2020-06-20 12:31:40同时,脑网络在脑疾病的临床应用研究中,也已证明很多脑疾病,在网络层面中均体现了不同程度的拓扑结构差异。这些成果为在系统水平上揭示脑疾病的病理机制提供了新的思路。笔者将以脑网络研究为重点,介绍脑网络的构建... -
python 放射 水平_MR成像在注意缺陷多动障碍诊断中的心理放射学实用性:放射组学分析...
2020-12-31 09:20:00心理放射学(Psychoradiology)是一门新兴学科,radiopaedia上 Daniel J Bell和 James Condon 等人对Psychoradiology 的介绍是:Psychoradiology is an emerging field that applies medical imaging technologies to ... -
edger多组差异性分析_转录组edgeR分析差异基因
2020-12-19 11:23:23转录组edgeR分析差异基因edgeR是一个研究重复计数数据差异表达的Bioconductor软件包。一个过度离散的泊松模型被用于说明生物学可变性和技术可变性。经验贝叶斯方法被用于减轻跨转录本的过度离散程度,改进了推断的... -
[原创]桓泽学音频编解码(9):MP3 多相滤波器组算法分析
2019-09-28 13:43:271. 多相滤波器组原理概述 11172-3是基于分析综合系统的音频压缩标准,通过多相滤波器把时域信号等分成N个频带的频率信号。再对频域内的信号进行压缩处理。而在解码端,在对频域内的信号进行解码处理后在通过综合... -
MOFA2:多组因子分析V2(MOFA +)-源码
2021-02-12 16:09:35多组学因子分析v2(MOFA +) MOFA是一个因子分析模型,它提供了以无人监督的方式集成多组数据集的通用框架。 请以获取安装说明,教程以及更多内容! -
edger多组差异性分析_R语言统计分析微生物组数据
2020-12-19 06:39:46我在学习这本书记了一些笔记,如果你有学习,...我的已有笔记汇总如下:宏基因组学习笔记宏基因组学习笔记2宏基因组笔记(第二章)R语言宏基因组学统计分析学习笔记(第三章-1)R语言宏基因组学统计分析学习笔记(第三章-2)... -
代谢组学的相关分析数据库,MetaboAnalyst 5.0 使用指南
2021-03-01 20:15:48目前组学的数据越来越多。其中代谢组学也是其中一个热点。关于代谢组学的相关分析目前用的最多的还是MetaboAnalyst。之前这个数据库一直都是4.0版本。最近刚刚更新了5.0的版本。趁着刚刚更新,我们也就来顺带的介绍... -
ActivePathways--整合多维组学通路分析
2020-07-15 11:20:16分析原理: 如果想了解更多,可参考这篇文章。 输入文件 ActivePathways的输入文件只需要两类,一个是p-values(这里的P值可以是差异基因表达、基因必要性、突变或拷贝数变异负荷等的显著性P值)的数值型矩阵(该... -
Nature综述|整合组学分析护航健康,推动精准医学时代的到来!
2019-08-22 00:00:00导读Konrad J. Karczewski, and Michael P. Snyder撰写的关于整合多组学在疾病研究中的应用一文《Integrative omics for hea...