精华内容
下载资源
问答
  • 在QIIME2中处理16S序列的协议 本文档介绍了我们使用515F-Y / 926R引物组处理16S扩增子文库的程序( )。扩增子序列变体是用DADA2生成的( )。对于注释,我们主要使用但体序列补充了 。 QIIME2可视化效果可以在查看...
  • 魅族16s售后9008线刷救砖固件 版本7.3.0.1A,亲自实验100%成功
  • 利用PT100型金属铂电阻温度特性,使用三线制接法,采用STC12C5A16S2型单片机芯片对温度信号进行采集。使用工业上常用的RS485总线作为温度传输的通讯方式,以提高信息传输的可靠性。通过在高低温环境下实验,验证了该...
  • MY1690-16S 是深圳市迈优科技有限公司自主研发的一款由串口控制的插卡MP3芯片。支持MP3、WAV格式双解码,模块最大支持32G TF卡,也可外接U盘或USB数据线连接电脑更换SD卡音频文件。
  • MY1680U-16S语音芯片使用说明书,非常详细!!! MY1680U-16S语音芯片使用说明书,非常详细!!!MY1680U-16S语音芯片使用说明书,非常详细!!!
  • Illumina_16S_预处理 使用 Usearch v8 进行 Illumina 16S 扩增子读取预处理的 R 函数 见 埃德加 RC。 搜索和聚类比 BLAST 快几个数量级。 生物信息学。 2010 年 10 月 1 日;26(19):2460-1。 doi:10.1093/生物信息...
  • 16S rRNA序列分析技术在微生物宏基因组中的应用,刘文俊,张春林,本文对近几年来广泛应用于微生物分类、鉴定等研究领域的宏基因组技术进行了综述,尤其对基于16S rRNA基因序列分析等分子标记技术如�
  • 16S rRNA捕获管线 Pipleine代码,“通过广泛的16S rRNA富集来敏感鉴定临床标本中的细菌DNA” Sara Rassoulian Barrett [1],Noah G. Hoffman [1],Christopher Rosenthal [1],Andrew Bryan [1],Desiree A. ...
  • 在这项研究中,我们确定了属于18个物种的60个标本的线粒体16S核糖体DNA序列(347 bp),并构建了树以阐明系统发育关系并评估了日本union类贻贝的当前系统。 尽管从远方收集了两个或两个以上的标本,但几乎所有的...
  • 16S-analysis-源码

    2021-06-29 12:36:09
    16S-分析 用于处理和分析 16S 扩增子数据的小脚本集合
  • 计数和比较属或种内的16S rRNA基因 接受输入属并返回大量分析文件,主要是全长16S rRNA基因的系统树及其常见的扩增子。 这对于使用通用的元分类学方法确定某个属内的物种解析是否可能是有用的 安装 #从github克隆 ...
  • 四轴飞控 STC8A8K16S4A12

    2021-09-28 12:39:48
    四轴飞控 STC8A8K16S4A12
  • win16s 在Windows中分析16S rDNA扩增子测序数据的简单管道
  • 中颖官方sh367309锂电池保护芯片资料,内容详细描述了芯片各参数,参考设计等资源
  • 16S扩增子测序分析流程.pdf
  • 用oled驱动改led点阵屏驱动,支持点、字符、数字、中文、字符串显示,常用符号取模完毕,有多种不同大小的字体可供选择,代码可用。
  • 自己画的控制板,根据oled驱动改装,函数已经写好,可直接调用,常用字符取模完毕,stm32f103ret6处理器,如需控制板原理图,可联系作者。
  • 16S rRNA克隆文库法分析成人龋病唾液微生物多样性,李俊平,雷燕,目的:本研究目的在于讨论汉族人群中高龋和无龋人群口腔唾液微生物结构的差异。方法:采集符合WHO采样标准的唾液样本6例,其中高�
  • 利用16S rDNA序列对十株根瘤菌系统发育的研究,辛如,张惠文,为了确定本所保存的部分根瘤菌的种属地位,我们从中选出10株菌株,对其16S rDNA进行扩增并测序,利用分子生物学软件对序列进行分析�
  • 扩增子数据分析 这是一本笔记本的集合,描述了16S rRNA基因扩增子测序项目的基本分析工作流程-从原始读数到统计数据和曲线图。 它是供初学者使用的,因此其中包括R编程语言和统计信息的简介部分。
  • 雨水口详细介绍及施工
  • 文档描述了中颖SH367309-16串分口锂电池保护板方案的技术参数
  • ID16S流水线从16S扩增子序列的multifasta文件中重建细菌物种的组成。 推论来自针对NCBI 16S微生物数据库的同源性搜索。 该管道在使用16S Barcoding Kit(SQK-RAB204)获得的Nanopore 1D读数上进行了测试。 鉴定准确...
  • 高通量16S rRNA标签测序法比较人与不同动物肠道微生物组多样性,邓冠华,查龙应,目的:比较人、大猪、小猪、大鼠、小鼠以及鸡的肠道细菌群落结构及多样性。方法:对上述物种,每种物种收集五个不同个体的粪便样
  • 摘要前段时间热心肠先生导读了《Nature子刊:高通量&无偏差,分析微生物群落的新方法》。文中摘要提到:1.几十年以来细菌16S以及真核生物18S小亚基核糖体RNA(SSU rRN...

    摘要

    前段时间热心肠先生导读了《Nature子刊:高通量&无偏差,分析微生物群落的新方法》。
    文中摘要提到:1.几十年以来细菌16S以及真核生物18S小亚基核糖体RNA(SSU rRNA)一直是研究微生物多样性以及进化生物学系统发育树构建的标准标记基因。然而,由于SSU rRNA 数据库收录的全长SSU都是一些研究较多的生态系统中的物种,而且SSU引物具有偏好性并且在PCR扩增中会有嵌合体的产生,会导致在研究中对样品中的实际多样性产生偏差。2. 本文中作者通过结合poly(A)的尾巴以及SSU的反转录序列高通量的合成了高质量的全长SSU序列。用该方法分析7种环境样本的微生物群落构成,得到超过一百万个SSU rRNA序列,涵盖细菌、古细菌和真核生物,原始错误率约0.17%,与鸟枪法RNA测序相比无明显偏差;3. 对比现有SILVA数据库,观察到约半数新多样性,并且其中包含了几个与古菌Asgard Archaea 门水平相关的新谱系。4. 该方法可使现有参考数据库以数量级方式扩展,帮助完善对全球微生物的分类和编目,以及生命之树的构建。

    小编觉得本文还是很有指导性意义的,本文中我们将对此文进行详细的解读与读者共享。

    前言

    在1990年两个研究团队第一次报导了从复杂环境样品中获得的一些16S rRNA序列,第一次打开了地球上巨大的,未知的微生物世界的大门。近些年来,SSU rRNA 的短片段测序已经成为了大多数微生物生态学研究的的骨干。然而,决定这些SSU rRNA 片段是否有用很大程度都取决于构建一个高质量的SSU rRNA数据库。在过去的20年中,近200万条的全长SSU序列被上传到了SILVA数据库中。这些序列只代表了地球微生物多样性的一部分,据估计地球上微生物物种多样性高达100万到1000万种之间。大多数全长的SSU序列都是通过PCR扩增,克隆然后通过一代焦磷酸测序获得的,但这种方法成本极高,并不适用于构建生命之树的等大规模测序计划。由于技术条件的限制,全长的SSU (1,400–1,900 bp)片段不能通过成本低廉的二代短读长高通量测序获得。三代单分子测序具有超长读长的优势,但也具有测序错误率高,通量低,价格贵等缺点。结合基于CCS Reads 的原始错误自我校正方法使得三代长读长测序 (PacBio和Oxford Nanopore) 能够在错误率为0.5%的技术条件下实现对16S全长进行测序。此外,高质量的16S全长序列也能通过分子标记Illumina的短读长序列合成得到。尽管目前已经取得了很多进展,但是长读长的技术还是未能实现高的通量,并且还很依赖于特定引物来扩增SSU片段,这也限制了我们去发现新的物种多样性的能力,尤其是对于古菌和真核生物来说更是缺少好用的通用引物

    实验设计

    为了避免全长SSU序列引物的偏好性,作者结合分子标记合成长读长技术,优化了产生全长SSU的方法。全长的SSU分子片段从提取的总RNA中选择并富集起来,并通过通过poly(A)尾巴以及单链捆绑的方法转变成双链的cDNA(图1a和附图1)。在第一链和第二链cDNA合成过程中,单独的SSU分子的两端都被特殊的分子片段进行标记。这种被标记的长序列能用于进行短读长测序的文库制备,从而使得最终的单独的序列都能根据原始的临时标记分子而被标记上。通过把短读长的序列通过分子标记放到不同的bins中,通过de novo 的手段能够各自单独的bins组合成全长的SSU序列。此外,作者还开发了一个基于引物的版本使得不使用引物的优势能直接的展示出来(附图2)。

    二代测序全长SSU方法

    3cf38d97d48f235633f212d1468b2134.png

    图1. 全长SSR rRNA测序。为方便手机阅读,我们会对每个子图分别放大和详细讲解。

    (a) 如何从群体RNA来准备全长测序。主要分为以下三个步:

    1. RNA处理过程

    80627d58f5ff1e5d1071927145f8e0d6.png

    • 采用凝胶电泳按片段大小选择富集群体RNA中SSU(SSU为RNA电泳图的最大主峰,图中红色区域);

    • 然后基于SSU共有的polyA来后成cDNA。这个特异的PolyT引物包括3个额外特殊序列结构,分别为引物结果位点,唯一序列标签和引物结合位点;

    • 采用分子连法加入接头用于cDNA第二链的合成所需的通用引物结合位点;再使用含有另一个引物结合位点和唯一序列标签的引物合成cDNA的第二链。

    • 这样我们获得双链cDNA,它包括全长SSU,双端包括双引物结合位点和标签序列。

    2. 文库制备和测序

    93f461c5ff5ade42212171e1656ba281.png

    • 双链DNA片段进行扩增,并再次使用电泳进行片段选择,去除(反转录)不完整的SSU;

    • 再次扩增,使每一个唯一序列至少扩增10000次(至少2的15次方);

    • 扩增的文库分为两部分,主要的部分用于建立测序文库(Read-tag library),采用Illumina的标准Nextera tagmentation片段化建库;小部分用于建立接头文库(Linked-tag library),先进行自身环化。

    • 测序文库片段化的结果再进行添加接头,PCR扩增,及高通量测序获取SSU序列;而接头文库利用inner引物扩增及测序,获取成对的标签可用于确定每个序列片段的来源(传说中的binning)。

    3. 数据分析

    7b216d0150bb2827ccbbfaa7faed925e.png

    • 采用接头文库来确定哪些测序结果来自同一分子;

    • 同来自同一分子的序列进行分箱(binning,宏基因组中用了好多年的技术终于反向应用于扩增子了,高!)

    • 对分箱的序列进行独立拼接获得SSU的全长序列;

    • 最后进行接头切除,SSU筛选,和HMM结构域预测的方法对序列进行分类,如细菌、古菌和真核生物。

    为了评估本研究方法的错误率以及嵌合体数量,作者用Escherichia coli MG 1655, Bacillus subtilis str. 168和 Pseudomonas aeruginosa PAO1 这几种菌的混合群落进行了测试,这几株菌的16S rRNA 的拷贝数量4–10×,拷贝位置从0-19不等,并且有高达1.3%的种内序列变异度。在一个Illumina MiSeq Run 中,它们共得到了10,575 条长度超过1200 bp的16S全长序列(Fig. 1b),平均的测序错误率为0.17%,嵌合体比例为0.4%(Fig. 1c)。这个测序错误率与PCR反应时的Taq酶的错误率基本一致。而且0.4%的嵌合体的比例大约比传统的基于PCR反应的嵌合体比例低50倍。这种低错误率使得研究者能把所有16S全长序列注释到它们的操纵子中去,这也是我们方法优势的例证。有趣的是,对B. subtilis来说,三个操纵子(rrnI, rrnH and rrnG)并不表达(通过RNA-seq验证)。这三个操纵子在基因组中距离很近,并且被同一promoter调控。作者为了展示他们的方法在复杂的环境样品中的应用,作者通过对7个不同的环境的19份样品进行了多个MiSeq 和 HiSeq Run的测序,拿到了2,285,691 条不基于引物的RNA序列。在一个单独的Miseq Run中我们能拿到54,489 条1200 bp长度序列,而一个Hiseq Run中能拿到541,676 条1200 bp长度序列。这其中SSU 占总数的24-76%,LSU占剩下序列的绝大多数。由于在测序之前使用了SSU富集的方法,结果LSU序列的相对丰度如此之高是之前未预料到的 (图1a)。然而这种现象在之前也发现过,很可能是由于LSU片段的长度和SSU类似,从而污染了富集的序列。LSU片段最初是在提取的过程中从降解的RNA获得的,由于环境压力等因素导致了其原位降解,而且大多来自细菌以及低等的真核生物的裸露的核糖体RNA中。

    作者总共从7个不同的环境样品中获得了985,266条primer-free的全长16S序列。而用我们的基于引物的扩增方法,我们还额外获得了477,055条16S全长序列。为了拿到高质量的SSU rRNA的OTU,作者以97%的相似度将所有序列与SILVA数据库(SILVA SSU Ref v. 128)进行比对。共拿到了44,902个细菌OTU,去掉singleton 之后还有31,125个OTU剩余。这些OTU中含有目前已知的75个细菌门中的65个 (图2a, 附图4和附表4)。并且通过与SILVA数据库进行比对,发现了大约有58%的OTU与SILVA差异度大于97% (图2b和附表5)这意味着环境中还有大量的新物种还未被人们所发现。发现新相似度低的OTU的比例很大程度上都和生态系统的特异性相关,比如在深海沉积物中发现新OTU的比例大概为67%,而在人体的肠道中发现新OTU的比例大约为40%

    a835fa6db8e3ef5add7dcf4d57417fb5.png

    图2. 生命之树中覆盖率。

    本研究中作者一共获得了61,266条古菌全长16S序列,这比目前整个SILVA数据库中的古菌序列还多(39,138 sequences > 1,200 bp)。通过聚类之后,共拿到了3,410个古菌的OTU,去掉singleton之后还剩2,197个古菌OTU。作者还获得了70,883,条真核生物18S序列,这些序列共聚类得到了415个非singleton的OTU。而且这些OTU数量都是经过保守估计获得的,因为18S rRNA的全长有将近2000bp,这个长度将是本技术测序长度的上限。这些全长的18S序列只占测序产生序列总数的55%,而对于细菌和古菌来说这一比例分别是90%和94%。
    作者还评估了在研究复杂微生物群落常用的SSU 的PCR引物的覆盖率,通过使用97%的相似度进行聚类。这将有助于估算使用SSU引物进行PCR扩增造成的多样性丢失的比例。正如作者所预料的,多样性丢失的比例和样品与引物的结合相关。例如,16S通用引物27F/1492R丢失比例约为8.5–14.7%。这个发现也与最近发现的在宏基因组测序中的引物偏好性一致,有研究者发现用传统的PCR扩增的方法总会丢失掉9.6%的细菌多样性

    作者为了估计他们的非引物方法的物种偏好性,作者对三个用传统的RNA-seq测序的文库样品(沉积物,土壤和人类肠道)进行了测试,并将获得的数据和RNA-seq数据进行了对比。由于目前还没有非常完整的SSU数据库存在,所以潜在的偏好性是通过对比能匹配到SILVA数据库的RNA-seq序列数来估算的。对细菌来说,大约有3.7-6.6% 的RNA-seq获得的假定SSU不能匹配到非基于引物的测序方法中,稀释曲线显示这种多样性的不足主要是由于测序深度不足造成的。所以在这些环境样品中作者未检测到明显的引物偏好性。

    在本研究中,作者通过序列相似度比对细菌和古菌数据库,在一些很具有代表性的门,比如Proteobacteria, Patescibacteria / Candidate Phyla Radiation (CPR)和古菌门 Asgard Archaea发现了大量的新的纲,目,科等分类单元。有趣的是,系统发育分析显示几个位于系统发育树底部的古菌分支并不与目前SILVA已知的任何古菌分支聚在一起,而是单独聚成几支(图3)。

    3e18b032d99c000c749e76039a75aec8.png

    图3. 古菌域中覆盖率。

    这些新OTU序列相似度与目前已知古菌门水平的相似度为75%。系统发育分析显示这些序列属于Asgard Archaea这个超级古菌门中。想要解决这些序列的系统发育问题还需要获得更多的相关的序列。Asgard Archaea古菌门通常是被作为真核生物的祖先,所以重建它们的系统发生关系将有助于解决生命进化的重大科学问题。其实解决生命进化之间关系的问题最好还是用全基因组进行系统发育分析,作者提供的方法只是用SSU保守序列片段进行进化分析,此研究可以作为全面用基因组建树之前的先导研究。

    这种不基于引物的测序方法尤其适用于古菌这种缺少合适的通用引物的类群。比如基于引物扩增的测序方法在对深海沉积物进行研究时会丢失掉大约28-77%的古菌OTU多样性

    作者很难用本研究获得的序列去估算真核生物真实的多样性,这是由于这些序列的分歧和这个门的系统发生关系并不一致。另外,使用SSU序列作为这个门的系统发育界限的方法还在发展之中,尤其是对那些单细胞真核生物来说。例如土壤中获得的新物种大多在在原生动物Amoebozoa门,然而用传统的方法获得的Amoebozoa门的序列严重不足。由于原生动物变形虫门(Amoebozoa)对土壤微生物群落的影响十分显著所以提高对变形虫门物种的认识对更好的理解土壤生态系统非常重要

    本研究中获得的1,168,276 条LSU 序列要比目前整个SILVA数据库的LSU序列还要多。尽管有的序列不是全长,但是这些序列极大地提高了依靠rRNA的原位研究的探针数量,比如依靠探针的荧光原位杂交技术将更为便捷的被研究者所使用。由于Illumina的读长限制导致我们的技术测到的读长上限是2000 bp,作者也尝试用Nanopore取代Illumina,此方法虽然得到了更长的读长但很容易产生错误序列。作者发现用他们自己的方法能有效校正Nanopore的测序错误,所以未来用这种方法可能得到高质量的全长LSU序列。未来随着SSU和LSU数据库的扩增,研究者们也将开发出更好的能扩增整个rRNA区域的引物。

    小结

    本研究作者一共得到了超过160万条和SILVA数据库中SSU一样长度的SSU序列。本方法不仅现在可以用于ILLumina测序平台而且也适用于Nanopore长读长测序平台。作者也期待广大研究者使用他们的技术来快速增加SSU全长序列的数量。此方法还能够用于研究目前了解很少的,没有很好代表数据库的特殊环境样品。尤其是作者展望用该方法为那些目前缺少参考数据库的类群,比如古菌和单细胞真核生物提供一个覆盖度更高的方法。目前包括“真核生物参考数据库”等计划在内的一些国际计划也在努力扩充其数据库。最后,作者说他们的方法不仅可以用于扩充参考数据库,而且也对任何不超过2000 bp的标记基因进行多样性分析。

    数据更为全面的SSU参考基因数据库可以更好的为一些特殊生态类型的研究提供帮助,比如帮助扩充人类口腔微生物数据库。高质量的生态系统或特定研究专一性的数据库将有助于研究者设计出更好的引物以及荧光探针。比如,设计精度更高的FISH荧光探针将有效提高原位单细胞生理研究的分辨率,而这对原位生态分化的研究非常重要。

    写在后面

    小编读完此文也对本文做点个人理解的解读:

    做扩增子测序你一定纠结过到底测细菌的哪个区呢,V3+V4,或者V4+V5?细菌的16S全长一共有V1-V9九个区不管选一个区还是两个区,我们在进行物种注释时都无法将其准确注释到物种水平而仅仅是属水平。这也与目前最为广泛所有的Illumina技术特点有关,尽管其不断发展可以扩大其测序的通量,但其进行测序反应扩增的极限长度也不过单端300bp。目前Pacific 和Nanopore可以实现超长读长测序,但其测序的错误率还很高,只能用CCS Read(校正后正确率 > 99%) 方法进行自我校正。本文中提供的不经过PCR扩增的方法很好避免了引物偏好性对样品中实际微生物多样性造成的影响,而且通过加特殊标记实现了用Illumina平台进行超长序列测序的方法。此方法尤其适用于研究一些极端环境的微生物多样性,比如深海等等。而且随着人们用这种方法或者传统方法获得的SSU等全长序列越来越多,这将极大促进研究者们对地球上未知微生物的认识。完善整个生命之树,同时随着大家对古菌等特殊类群微生物认识越来越全面将更有助于研究者们设计出更好的,更为通用的引物或者探针。未来大家可以广泛的使用这些新设计的引物以及探针用于自己的研究。

    就目前来说,本人觉得本文中此方法步骤过多,操作也很复杂,还是比较适用于构建一些重要的长片段生物条形码数据库的研究。大家如果仅仅是只想做多样性研究,而且一定要用全长的SSU片段或者SSU片段的话,可以考虑挑选一些偏好性小的覆盖物种比较全面的引物进行扩增后,直接用PacBio等三代仪器进行测序。之前有些文献报道了用三代Pacbio进行细菌16S全长测序。文章选取了27F和1492R引物对细菌16s全长进行了测序。作为微生物的重要组成部分真菌也开始了用三代测序仪进行宏基因组测序了。在第二代高通量测序中研究者通常只能针对ITS中的ITS1片段或者ITS2片段进行高通量测序。然而这只能给真菌的分类与系统发育分析提供很有限的物种鉴定和分类信息。

    微生物物种水平的鉴定与功能注释是微生物学研究的核心目标之一。目前在真菌多样性研究上已经有将近10篇文章开始用全长 SSU+ITS, 或者 部分SSU + ITS + 部分LSU 进行三代测序研究 (Bender, 2016; Melo et al., 2017)。比如,Tedersoo在他的论文中通过三代测序全面对比了目前发表的一些真菌SSU, LSU以及ITS的通用引物,并且推荐好几对适用于真核生物的引物(Tedersoo et al., 2018)。

    这些研究都是利用新技术做的一些探索性研究。未来随着三代测序技术更加成熟,当其测序错误降低,通量进一步提高,未来进行微生物多样性条形码研究肯定会用16S全长,ITS全长等大片段来取代现在的短条形码片段。

    Reference:

    Karst, S. M., Dueholm, M. S., Mcilroy, S. J., Kirkegaard, R. H., Nielsen, P. H., & Albertsen, M. (2018). Retrieval of a million high-quality, full-length microbial 16s and 18s rrna gene sequences without primer bias. Nature Biotechnology.

    Tedersoo, L., Toomingklunderud, A., & Anslan, S. (2018). Pacbio metabarcoding of fungi and other eukaryotes: errors, biases and perspectives. New Phytologist, 217(3), 1370-1385.

    Schlaeppi, K., Bender, S. F., Mascher, F., Russo, G., Patrignani, A., & Camenzind, T., et al. (2016). High-resolution community profiling of arbuscular mycorrhizal fungi. New Phytologist, 212(3), 780-791.

    Melo, C. D., Luna, S., Krüger, C., Walker, C., Mendonça, D., & Fonseca, H. M. A. C., et al. (2017). Communities of arbuscular mycorrhizal fungi under picconia azorica, in native forests of azores. Symbiosis, 1-12.

    驯鹿短科普 https://www.xunludkp.com/papers/read/1080038166?kf=xread_daily

    猜你喜欢

    10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发NatureCell专刊肠道指挥大脑

    系列教程:微生物组入门 Biostar 微生物组  宏基因组

    专业技能:学术图表 高分文章 生信宝典 不可或缺的人

    一文读懂:宏基因组 寄生虫益处 进化树

    必备技能:提问 搜索  Endnote

    文献阅读 热心肠 SemanticScholar Geenmedical

    扩增子分析:图表解读 分析流程 统计绘图

    16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

    在线工具:16S预测培养基 生信绘图

    科研经验:云笔记  云协作 公众号

    编程模板: Shell  R Perl

    生物科普:  肠道细菌 人体上的生命生命大跃进  细胞暗战 人体奥秘  

    写在后面

    为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》

    95b5fbbe6c1caab77f1c1067f66b1d59.png

    学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

    点击阅读原文,跳转最新文章目录阅读

    展开全文
  • 一文读懂微生物扩增子16s测序

    万次阅读 多人点赞 2020-03-20 13:21:58
    做过16s测序的小伙伴们都知道 测完之后会拿到一份结果报告 但这并不代表可以开始写文章了 看似一大堆数据图表却不知如何下手 这是很多人头疼的地方 那么怎样给报告中的数据赋予灵魂 让它真正成为对你有...

    微生物多样性测序结果如何看?

    做过16s测序的小伙伴们都知道

    测完之后会拿到一份结果报告

    但这并不代表可以开始写文章了

    看似一大堆数据图表却不知如何下手

    这是很多人头疼的地方

    那么怎样给报告中的数据赋予灵魂

    让它真正成为对你有帮助的分析呢?

    一文扫除困惑

    在这里插入图片描述

    首先什么是16S rRNA?

    16S rRNA 基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。

    16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系, 而可变区序列则能体现物种间的差异。 

    16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。

    二代高通量测序原理

    目前二代测序是一个边合成边测序的过程,使用的是荧光可逆终止子。每个可逆终止子的碱基3’端都有一个阻断基团,而在侧边带有一种荧光。由于有4种不同的碱基(ATCG),因此也会有对应4种不同颜色的荧光。开始扩增每次结合上一个碱基,DNA的扩增便会停止,此时能收到一种荧光信号。然后放试剂除去阻断基团,进行下一个碱基的结合,以此类推得到一连串的荧光信号组合序列。而根据荧光的颜色我们便可以确定每一个位点的基因型,即可以得到这一段DNA片段的序列。

    在这里插入图片描述

    环境样品高通量分析需要重复么?

    在进行实验设计前,这是有些小伙伴面临的一个问题。环境样本由于来源和条件不完全可控,每个样品之间会存在很大的差异,即便是相同样本的不同取样时间和部位也会存在一定的差异。

    基于高通量测序主要是为了了解样品的菌群构成和功能分析,以及寻找不同环境之间的差异,包括菌和功能基因以及代谢。如果仅做单一样本,很可能结论只能代表这个单一取样样本的信息,无法排除不同样本重复之间的差异,也就可能得不到真正代表环境差异的结果。

    所以环境样品不仅要重复而且还应该以分组方式取尽量多的样本以全面的代表一个环境条件下的各种变异情况。

    测序区段如何选择

    确定做重复后,又面临该怎么选择测序区段的问题。目前市面上有v1-v3区/v3-v4区/v4区等可供选择。

    16S rRNA编码基因序列共有9个保守区和9个高可变区。其中,V4区其特异性好,数据库信息全,我们通过大量的测序试验证明用v4区扩增出菌群结果的可以很好的反应样本的菌群结构用于后续的数据建模分析,是细菌多样性分析注释的最佳选择。

    在这里插入图片描述

    基本确定好后,就要着手开始实验,实验完送样又是个问题,以往给测序公司送样往往是低温运输,且不说麻烦,还要提心吊胆怕运输过程会不会有什么问题。为此我们免费提供常温保存取样盒,就不用有这样的顾虑,取样及运输全程都只需要常温即可。

    16s分析结果详解

    很多小伙伴有过这样的经历,在拿到公司出具的报告之后,仍然一头雾水,几十页的报告内容看着丰富却不知该怎么运用。我们一起来理一下关键图表的含义

    OTU是我们要搞清的一个重要概念,可以说是后续分析的基石。

    OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。通常按照 97% 的相似性阈值将序列划分为不同的 OTU,每一个 OTU 通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种,相似性小于93%-95%,可以认为属于不同的属。样品中的微生物多样性和不同微生物的丰度都是基于对OTU的分析。

    有了OTU这个概念之后,就不难理解下表。对每个样本的测序数量和OTU数目进行统计,并且在表栺中列出了测序覆盖的完整度。

    在这里插入图片描述

    其中SampleName表示样本名称;SampleSize表示样本序列总数;OTUsNumber表示注释上的OTU数目;OTUsSeq表示注释上OTU的样本序列总数。

    Coverage是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。计算公式为:C=1-n1/N  其中n1 = 只含有一条序列的OTU的数目;N = 抽样中出现的总的序列数目。

    下表是对每个样本在分类字水平上的数量进行统计,并且在表栺中列出了在每个分类字水平上的物种数目

    在这里插入图片描述

    其中SampleName表示样本名称;Phylum表示分类到门的OTU数量;Class表示分类到纲的OTU数量;Order表示分类到目的OTU数量;Family表示分类到科的OTU数量;Genus表示分类到属的OTU数量;Species表示分类到种的OTU数量。

    我们可以看到绝大部分的OTU都分类到了属(Genus),也有很多分类到了种(Species)。但是仍然有很多无法完全分类到种一级,这是由于环境微生物本身存在非常丰富的多样性,还有大量的菌仍然没有被测序和发现。

    当然,对这些种属的构成还可以进行柱状图展示:

    在这里插入图片描述

    横坐标中每一个条形图代表一个样本,纵坐标代表该分类层级的序列数目或比例。同一种颜色代表相同的分类级别。图中的每根柱子中的颜色表示该样本在不同级别(门、纲、目等)的序列数目,序列数目只计算级别最低的分类,例如在属中计算过了,则在科中则不重复计算。

    我们还需要对样本之间或分组之间的OTU进行比较获得韦恩图:

    在这里插入图片描述

    样品构成丰度

    稀释曲线

    微生物多样性分析中如何验证测序数据量是否足以反映样品中的物种多样性?

    稀释曲线(丰富度曲线)可以派上用场。它是用来评价测序量是否足以覆盖所有类群,并间接反映样品中物种的丰富程度

    不免有同学有疑惑,稀释曲线怎么来的?

    它是利用已测得16S rDNA序列中已知的各种OTU的相对比例,来计算抽取n个(n小于测得reads序列总数)reads时出现OTU数量的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列)与其相对应的OTU数量的期望值做出曲线来。

    至此,我们虽然知道了稀释曲线的由来,那么这个五彩缤纷的稀释曲线该怎么看呢?

    当曲线趋于平缓或者达到平台期时也就可以认为测序深度已经基本覆盖到样品中所有的物种,增加测序数据无法再找到更多的OTU;

    反之,则表示样品中物种多样性较高,还存在较多未被测序检测到的物种。

    在这里插入图片描述

    横坐标代表随机抽取的序列数量;纵坐标代表观测到的OTU数量。样本曲线的延伸终点的横坐标位置为该样本的测序数量。

    Shannon-Winner曲线

    Shannon-Wiener 曲线,是利用shannon指数来进行绘制的,反映样品中微生物多样性的指数,利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性。

    当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物物种信息。

    在这里插入图片描述

    横坐标代表随机抽取的序列数量;纵坐标代表的是反映物种多样性的Shannon指数,样本曲线的延伸终点的横坐标位置为该样本的测序数量。

    其中曲线的最高点也就是该样本的Shannon指数,指数越高表明样品的物种多样性越高。

    好奇的同学又有疑问,Shannon指数怎么算的?

    这里有Shannon指数的公式:

    在这里插入图片描述

    其中,Sobs= 实际测量出的OTU数目;

    ni= 含有i 条序列的OTU数目;N = 所有的序列数。

    Rank-Abundance曲线

    该曲线用于同时解释样品多样性的两个方面,即样品所含物种的丰富程度均匀程度

    在这里插入图片描述

    横坐标代表物种排序的数量;纵坐标代表观测到的相对丰度。

    样本曲线的延伸终点的横坐标位置为该样本的物种数量

    物种的丰富程度由曲线在横轴上的长度来反映,曲线越宽,表示物种的组成越丰富;

    物种组成的均匀程度由曲线的形状来反映,曲线越平坦,表示物种组成的均匀程度越高。

    如果曲线越平滑下降表明样本的物种多样性越高,而曲线快速陡然下降表明样本中的优势菌群所占比例很高,多样性较低。

    但一般超过20个样本图就会变得非常复杂而且不美观!所以假如没超过20个样可以考虑该图哦~

    Alpha多样性(样本内多样性)

    Alpha多样性是指一个特定区域或者生态系统内的多样性,常用的度量指标有Chao1 丰富度估计量(Chao1 richness estimator) 、香农 – 威纳多样性指数(Shannon-wiener diversity index)、辛普森多样性指数(Simpson diversity index)等。

    计算菌群丰度:Chao、ace;

    计算菌群多样性:Shannon、Simpson。

    Simpson指数值越大,说明群落多样性越高;Shannon指数越大,说明群落多样性越高。

    在这里插入图片描述

    看了那么多指数,可能觉得有点晕,到底每个指数是什么意思呢?

    当然要解释下咯:

    Chao1:是用chao1 算法计算群落中只检测到1次和2次的OTU数估计群落中实际存在的物种数。Chao1 在生态学中常用来估计物种总数,由Chao (1984) 最早提出。Chao1值越大代表物种总数越多

    Schao1=Sobs+n1(n1-1)/2(n2+1)

    其中Schao1为估计的OTU数,Sobs为观测到的OTU数,n1为只有一条序列的OTU数目,n2为只有两条序列的OTU数目。

    Shannon:用来估算样品中微生物的多样性指数之一。它与 Simpson 多样性指数均为常用的反映 alpha 多样性的指数。Shannon值越大,说明群落多样性越高

    Ace:用来估计群落中含有OTU 数目的指数,由Chao 提出,是生态学中估计物种总数的常用指数之一,与Chao1 的算法不同。

    Simpson:用来估算样品中微生物的多样性指数之一,由Edward Hugh Simpson ( 1949) 提出,在生态学中常用来定量的描述一个区域的生物多样性。Simpson 指数值越大,说明群落多样性越高。

    在这里插入图片描述

    Alpha多样性指数差异箱形图

    分别对 Alpha diversity 的各个指数进行秩和检验分析(若两组样品比较则使用 R 中的wilcox.test 函数,若两组以上的样品比较则使用 R 中的 kruskal.test 函数),通过秩和检验筛选不同条件下的显著差异的 Alpha Diversity指数。

    在这里插入图片描述

    Beta多样性分析(样品间差异分析)

    也许我们有听说Beta多样性在最近10年间成为生物多样性研究的热点问题之一。具体解释下:

    Beta多样性度量时空尺度上物种组成的变化, 是生物多样性的重要组成部分, 与许多生态学和进化生物学问题密切相关!

    PCoA分析

    PCoA(principal co-ordinates analysis)是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,PCoA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。

    在这里插入图片描述

    每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的群落构成差异越小。

    另一种相似的是PCA分析

    主成分分析(Principal component analysis)PCA 是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要的前几位特征值,采取降维的思想,PCA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。

    在这里插入图片描述

    详细关于主成分分析的解释推荐大家看一篇文章,http://blog.csdn.net/aywhehe/article/details/5736659 

    一起来看看包含PCoA研究的文章

    案例解析

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    研究背景:全球塑料产量飞速增长,而且呈持续上升的趋势,因此导致大量塑料废物排放到环境中,从沿海河口到大洋环流,从东大西洋到南太平洋海域。塑料废弃物具有化学稳定性和生物利用率低的特点,可长期存在于海洋中,从而影响海洋环境包括海洋生物的生存。

    作为一个独特的底物,塑料碎片可以吸附海洋中的微生物并形成个“塑性球”。以生物膜形式存在于塑料碎片上的微生物群落。许多研究表明,无论是在海洋还是淡水生态系统中,附着在塑料碎片上微生物群落的组成明显不同于周围环境(水和沉积物),而且易受位置、时间和塑料类型的影响。

    主要图表

    两两群落差异指数的PCoA图

    在这里插入图片描述

    PCoA 图可以清楚地看到,SW区细菌群落的置信椭圆与pd和sd的置信椭圆有显著的偏差(p<0.05),而sd上细菌群落的置信椭圆几乎覆盖了pd的置信椭圆(p>0.05),这表明pd和sd上的细菌群落有相似之处。

    不同样本和处理下的细菌群落( 前 10 位)丰度分布

    在这里插入图片描述

    底物(SW、SD和Pd)上的主要属为细菌和假互斥单胞菌,暴露两周后,这些菌可能是分布广泛和适应性强的三种底物(SW、SD和PD)。暴露4周后,弧菌相对丰度增加.此外,暴露6周后,自养细菌(如扁平菌和硝酸菌)的数量增加。这三种底物上个细菌群落的生长模式也与3.2的结果一致。图5还显示,在6个星期内,在429个原位点中,假单胞菌在pd上的相对丰度高于sw和sd(anova,p<0.05)。

    在这里插入图片描述

    研究结论:首先,营养物质 (TN 和 TP) 与生物膜的平均生长速率呈正相关,而盐度与生物膜的平均生长速率呈负相关。盐度是影响PD的个细菌多样性的主要因素,而温度、溶解氧和养分(TN和TP)在类似的盐度条件下可能具有二次效应。尽管种聚合物类型对PD上的细菌群落的多样性具有较少的影响,但是在细菌群落中的一些属显示对PD的聚合物类型的选择性,并且倾向于将其优选的基质定殖。大的相对丰度SW、PD、SD间属显著差异。盐度是改变河口地区Pd条件致病菌富集的主要因素。另外,在种病原物种丰富的基础上,PD具有较高的致病性。

    NMDS分析(非度量多维尺度分析)

    NMDS(Nonmetric Multidimensional Scaling)常用于比对样本组之间的差异,可以基于进化关系或数量距离矩阵。

    在这里插入图片描述

    横轴和纵轴:表示基于进化或者数量距离矩阵的数值在二维表中成图。与PCA分析的主要差异在于考量了进化上的信息

    每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的群落构成差异越小。

    排序分析

    PCA,PcoA,NMDS分析都属于排序分析(Ordination analysis)。

    排序(ordination)的过程就是在一个可视化的低维空间或平面重新排列这些样本。

    目的:使得样本之间的距离最大程度地反映出平面散点图内样本之间的关系信息。

    排序又分两种:非限制性排序和限制性排序。

    1、非限制性排序(unconstrained ordination)

    ——使用物种组成数据的排序

    (1) 主成分分析(principal components analysis,PCA)

    (2) 对应分析(correspondence analysis, CA)

    (3) 去趋势对应分析(Detrended correspondence analysis, DCA)

    (4) 主坐标分析(principal coordinate analysis, PCoA)

    (5) 非度量多维尺度分析(non-metric multi-dimensional scaling, NMDS)

    2、限制性排序(constrained ordination)

    ——同时使用物种环境因子组成数据的排序

    (1) 冗余分析(redundancy analysis,RDA)

    (2) 典范对应分析(canonical correspondence analysis, CCA)

    比较PCA和PCoA

    在非限制性排序中,16S和宏基因组数据分析通常用到的是PCA分析和PCoA分析,两者的区别在于:

    PCA分析是基于原始的物种组成矩阵所做的排序分析,而PCoA分析则是基于由物种组成计算得到的距离矩阵得出的。

    在PCoA分析中,计算距离矩阵的方法有很多种,包括如:Euclidean, Bray-Curtis, and Jaccard,以及(un)weighted Unifrac (利用各样品序列间的进化信息来计算样品间距离,其中weighted考虑物种的丰度,unweighted没有对物种丰度进行加权处理)。

    组间菌群比较选取物种标志物

    (属水平)样本-物种丰度关联circos弦装图

    样本与物种的共线性关系circus 图是一种描述样本与物种之间对应关系的可视化圈图,该图不仅反映了每个样本的优势物种组成比例,同时也反映了各优势物种在不同样本之间的分布比例。

    在这里插入图片描述

    图解读:样本与物种的共线性关系图,左半边表示样本属物种丰度情况。右半边表示属水平在不同样本中的分布比例情况。在最内一圈:左边不同颜色代表不同物种,宽度表示物种丰度,圈外数值表示物种丰度刻度值。一端连接右边的样本,不同颜色代表不同样本,条带端点宽度表示该样本中对应物种的比例分布。最外两圈:左边不同颜色表示不同样本在某一物种的比例,右边不同颜色表示不同物种在某一样本中的比例。

    Ternary三元相图

    三元相图是重心图的一种,它有三个变量,在一个等边三角形坐标系中,图中某一点的位置代表三个变量间的比例关系。这里表示三组样本之间优势物种的差异,通过三元图可以展示出不同物种在分组中的比重关系。

    图解读:三角分别代表三个或三组样本,图中的圆分别代表排名最高哦的属水平的物种,三种颜色分别代表三组不同分组的优势物种,圆圈大小代表物种的相对丰度,圆圈理哪个顶点接近,表示此物种在这个分组中的含量较高。该分析仅限三个样本或三组样本之间分析比较。

    相关系数图

    通过R 软件的corrplot 包绘制spearman 相关性热图,并通过该热图可以发现优势物种/样本之间重要的模式与关系。

    图解读:蓝色系的为正相关,红色系的为负相关,×表示检验水平下无意义。越靠近颜色条两头,相关系数越大。所以说,我们可以通过实心圆的颜色和大小判断相关的方向和相关系数的大小。

    LDA差异贡献分析

    如果说 PCA,它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上,映射时没有利用任何数据内部的分类信息,是无监督的。

    那么LDA是有监督的,增加了种属之间的信息关系后,结合显著性差异标准测试(克鲁斯卡尔-沃利斯检验和两两Wilcoxon测试)和线性判别分析的方法进行特征选择。

    两者相同点:

    都可以对数据进行降维。

    降维时都采用了矩阵特征分解的思想。

    差异:

    1)LDA是有监督学习的降维方法,而PCA是无监督的降维方法。(注:监督学习是从标记的训练数据来推断一个功能的机器学习任务。)

    2)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

    除了可以检测重要特征,他还可以根据效应值进行功能特性排序,这些功能特性可以解释大部分生物学差异。这部分希望能详细了解的同学可以参考这篇文章http://blog.csdn.net/sunmenggmail/article/details/8071502 。

    在这里插入图片描述

    在这里插入图片描述

    不同颜色代表不同样本或组之间的显著差异物种。

    使用LefSe软件分析获得,其中显著差异的logarithmic LDA score设为2。

    LDA分析究竟能做什么

    组间差异显著物种又可以称作生物标记物(biomarkers),这个LDA分析主要是想找到组间在丰度上有显著差异的物种

    案例解析

    在这里插入图片描述

    研究背景:研究表明遗传和环境影响都在I型糖尿病的发展中起作用,增加的遗传风险不足以引起疾病,环境因素也是需要的,而且起着至关重要的作用。肠道菌群也许就是这个重要的环境因素,肠道菌群在免疫系统的成熟中起重要作用,此外还影响自身免疫疾病发展。

    在这里插入图片描述

    不同遗传风险儿童的LDA差异菌群

    在这里插入图片描述

    不同遗传风险分组中包含的常见菌属,部分存在特定分组中

    在这里插入图片描述

    PCoA分析揭示不同遗传风险儿童肠道菌群的在不同地域样本中均存在显著差异

    在这里插入图片描述

    点评:针对I型糖尿病疾病发生过程中遗传HLA分型风险和对应肠道菌群菌的关联分析,揭示了特定肠道菌群与宿主特定遗传风险共同作用推进疾病发生。某些特定菌属可能无法在遗传高风险儿童肠道内定植,可能对疾病发生存在特定作用。此外对于其他遗传风险的自身免疫疾病也具有重要提示意义,例如乳糜泻和类风湿性关节炎。

    物种进化树的样本群落分布图

    这是另一款和LDA长得有点像的图,当然功能可完全不一样。它是将不同样本的群落构成及分布以物种分类树的形式在一个环图中展示。数据经过分析后,将物种分类树和分类丰度信息通过这款软件GraPhlAn进行绘制

    (http://huttenhower.sph.harvard.edu/GraPhlAn )。

    其目的是将物种之间的进化关系以及不同样本的物种分布丰度最高分布样本的信息在一个视觉集中的环图中一次展示,其提供的信息量较其他图最为丰富。

    在这里插入图片描述

    中间为物种进化分类树

    不同颜色的分支代表不同的纲(具体的代表颜色见右上角的图例),

    接着的外圈的灰色标示字母的环表示的是本次研究中比例最高的15个科(字母代表的科参见左上角的图例)。

    之后的外圈提供的是热力图,如果样本数<=10个则绘制样本,如果样本数超过10个则按照分组绘制,每一环为一个样本,根据其丰度绘制的热力图。

    最外圈为柱状图,绘制的是该属所占比例最高的样本的丰度和样本颜色(样本颜色见环最下方的样本名字的颜色)。其中热力图和柱状图取值均为原比例值x10000后进行log2转换后的值。

    物种相关性分析

    根据各个物种在各个样品中的丰度以及变化情况,计算物种之间的相关性,包括正相关和负相关。

    相关性分析使用CCREPE算法

    怎么画的?

    首先对原始16s测序数据的种属数量进行标准化,然后进行Spearman和Pearson秩相关分析并进行统计检验计算出各个物种之间的相关性,之后在所有物种中根据simscore绝对值的大小挑选出相关性最高的前100组数据,基于Cytoscap绘制共表达分析网络图。

    网络图采用两种不同的形式表现出来。

    物种相关性网络图A

    在这里插入图片描述

    ○  图中每一个点代表一个物种,存在相关性的物种用连线连接。

    ○  红色的连线代表负相关,绿色的先代表正相关。

    ○  连线颜色的深浅代表相关性的高低

    物种相关性网络图B

    在这里插入图片描述

    ○  图中每一个代表一个物种

    点的大小表示与其他物种的关联关系的多少

    ○  其中与之有相关性的物种数越多点的半径和字体越大

     ○  连线的粗细代表两物种之间相关性的大小

    连线越粗,相关性越

    案例解析

    在这里插入图片描述

    在这里插入图片描述

    研究背景:气候变化导致美国中部草原的降水模式发生变化,对土壤微生物群落构成及代谢影响很大。

    研究希望明确土壤微生物群落对土壤水分变化的反应,并确定响应的特定代谢特征。

    主要图表

    同一样本在不同水分含量孵化处理下土壤菌群的变化

    在这里插入图片描述

    受到水分条件影响的土壤菌群代谢途径和网络分布

    在这里插入图片描述

    研究结论:土壤干燥导致土壤微生物组的组成和功能发生显着变化。相反,润湿后几乎没有变化。由于干旱导致的土壤水分减少对土壤碳循环和土壤微生物组进行的其他关键生物地球化学循环的影响很大。导致渗透保护剂化合物产生的代谢途径受到较大影响。

    点评:

    相对简单的样本和实验设计,但是从多个维度探寻支持土壤微生物群落对湿润和干燥表型的反应。

    与常见的环境采样检测不同,针对同一样本在对照环境下进行环境控制孵化,然后比较菌群变化可以更为有效的控制背景差异。

    聚类分析

    根据OTU数据进行标准化处理(1wlog10)之后,选取数目最多的前60个物种,基于R heatmap进行作图

    在这里插入图片描述

     ○  热图中的每一个色块代表一个样品的一个属的丰度

     ○  样品横向排列,属纵向排列

    ○  差异是是否对样品进行聚类,从聚类中可以了解样品之间的相似性以及属水平上的群落构成相似性

    Tips:

    如果聚类结果中出现大面积的白或黑是因为大量的菌含量非常低,导致都没有数值,可以在绘制之前进行标准化操作,对每一类菌单独自身进行Z标准化。

    案例解析

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    研究背景:妊娠期糖尿病(GDM)的患病率在全球范围内迅速增加,构成一个重要的健康问题和产科实践的重大挑战(Ferrara,2007)。高脂血症是妊娠常见的合并症。在GDM患者中,血脂的生理变化可能导致怀孕期间潜在的代谢紊乱。肠道失调在宿主代谢异常中起着至关重要的作用,最近关于2型糖尿病(T2D)和肥胖的研究就证明了这一点。这些研究表明,妊娠期间肠道微生物ME的主要变化可能在GDM的发展中起着至关重要的作用。

    在这里插入图片描述

    GDM加高脂血症(M队列)妊娠期间与显著改变的脂质相关的肠道微生物群(属)

    研究结论:我们的结果表明,血脂水平可能反映了GDM发展过程中的一些异常变化。所鉴定的多种生物标志物对GDM合并高脂血症的防治有一定的参考价值。

    组间物种差异性箱形图

    组间物种差异性盒形图描述在不同分组之间具有差异显著的某一物种做盒形图,图中以属水平为例做物种差异性盒形图,展示如下:

    在这里插入图片描述

     ○  图中不同颜色代表不同的分组,更直观显示组间物种差异

     ○  每一个盒形图代表一个物种,图上方是物种名。

    Anosim检验

    Anosim分析是一种非参数检验,用来检验组间的差异是否显著大于组内差异,从而判断分组是否有意义

    展示如下:

    在这里插入图片描述

    R-value介于(-1,1)之间,R-value大于0,说明组间差异显著。

    R-value小于0,说明组内差异大于组间差异。

    统计分析的可信度用 P-value 表示,P< 0.05 表示统计具有显著性。

    对Anosim的分析结果,基于两两样本之间的距离值排序获得的秩(组间的为between,组内的为within),这样任一两两组的比较可以获得三个分类的数据,并进行箱线图的展示(若两个箱的凹槽互不重叠,则表明它们的中位数有显著差异)

    随机森林分类树属分类效果

    随机森林是机器学习算法的一种,它可以被看作是一个包含多个决策树的分类器

    其输出的分类结果是由每棵决策树“投票”的结果。由于每棵树在构建过程中都采用了随机变量和随机抽样的方法,因此随机森林的分类结果具有较高的准确度,并且不需要“减枝”来减少过拟合现象。

    随机森林可以有效的对分组样品进行分类和预测。

    在这里插入图片描述

    物种重要性点图。横坐标为重要性水平,纵坐标为按照重要性排序后的物种名称。上图反映了分类器中对分类效果起主要作用的菌属,按作用从大到小排列。

    Error rate: 表示使用下方的特征进行随机森林方法预测分类的错误率,越高表示基于菌属特征分类准确度不高,可能分组之间菌属特征不明显。图中以所有水平为例,取前60个作图。

    ROC曲线图

    ROC 曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性特异性连续变量的综合指标,通过构图法揭示敏感性和特异性的相互关系。

    ROC 曲线将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线。

    曲线下面积越大,诊断准确性越高。展示如下:

    在这里插入图片描述

    FAPROTAX生态功能预测

    FAPROTAX是一款在2016年发表在SCIENCE上的较新的基于16S测序的功能预测软件。它整合了多个已发表的可培养菌文章的手动整理的原核功能数据库,数据库包含超过4600个物种的7600多个功能注释信息,这些信息共分为80多个功能分组,其中包括如硝酸盐呼吸、产甲烷、发酵、植物病原等。

    FAPROTAX对环境样本更友好

    如果说PICRUSt(后续会介绍)在肠道微生物研究更为适合,那么FAPROTAX尤其适用于生态环境研究,特别是地球化学物质循环分析。

    FAPROTAX适用于对环境样本(如海洋、湖泊等)的生物地球化学循环过程(特别是碳、氢、氮、磷、硫等元素循环)进行功能注释预测。因其基于已发表验证的可培养菌文献,其预测准确度可能较好,但相比于上述PICRUSt和Tax4Fun来说预测的覆盖度可能会降低。

    FAPROTAX可根据16S序列的分类注释结果对微生物群落功能(特别是生物地化循环相关)进行注释预测。

    在这里插入图片描述

    图中横坐标代表样本,纵坐标表示包括碳、氢、氮、硫等元素循环相关及其他诸多功能分组。可快速用于评估样品来源或特征。

    基于BugBase的表型分类比较

    Bugbase也是16年所提供服务的一款免费在线16S功能预测工具,到今年才发表文章公布其软件原理。该工具主要进行表型预测,其中表型类型包括革兰氏阳性、革兰氏阴性、生物膜形成、致病性、移动元件、氧需求,包括厌氧菌、好氧菌、兼性菌)及氧化胁迫耐受等7类。

    在这里插入图片描述

    Gram Negative 革兰氏阴性菌

    Picrust群落功能差异分析

    通过对已有测序微生物基因组的基因功能的构成进行分析后,我们可以通过16s测序获得的物种构成推测样本中的功能基因的构成,从而分析不同样本和分组之间在功能上的差异(PICRUSt Nature Biotechnology, 1-10. 8 2013)。

    Picrust对肠道菌群样本更友好

    通过对宏基因组测序数据功能分析和对应16s预测功能分析结果的比较发现,此方法的准确性在84%-95%,对肠道微生物菌群和土壤菌群的功能分析接近95%,能非常好的反映样品中的功能基因构成

    怎么做出来的?

    为了能够通过16s测序数据来准确的预测出功能构成,首先需要对原始16s测序数据的种属数量进行标准化,因为不同的种属菌包含的16s拷贝数不相同。

    然后将16s的种属构成信息通过构建好的已测序基因组的种属功能基因构成表映射获得预测的功能结果。(根据属这个水平,对不同样本间的物种丰度进行显著性差异两两检验,我们这里的检验方法使用STAMP中的two-sample中T-TEST方法,Pvalue值过滤为0.05,作Extent error bar图。)

    在这里插入图片描述

    此处提供COG,KO基因预测以及KEGG代谢途径预测。当然,跃跃欲试的小伙伴也可自行使用我们提供的文件和软件(STAMP)对不同层级以及不同分组之间进行统计分析和制图,以及选择不同的统计方法和显著性水平。

    这里提到的STAMP有些小伙伴说不太了解,别急,后面会有更多介绍。

    COG构成差异分析图

    图中不同颜色代表不同的分组,列出了COG构成在组间存在显著差异的功能分类以及在各组的比例,此外右侧还给出了差异的比例和置信区间以及P-value。

    在这里插入图片描述

    KEGG代谢途径差异分析图

    通过KEGG代谢途径的预测差异分析,我们可以了解到不同分组的样品之间在微生物群落的功能基因在代谢途径上的差异,以及变化的高低。为我们了解群落样本的环境适应变化的代谢过程提供一种简便快捷的方法。

    本例图所显示的是第三层级的KEGG代谢途径的差异分析,也可以针对第二或第一层的分级进行分析。

    在这里插入图片描述

    图中不同颜色代表不同的分组,列出了在第三层级的构成在组间存在显著差异的KEGG代谢途径第三层分类以及在各组的比例,此外右侧还给出了差异的比例和置信区间以及P-value。

    案例解析

    在这里插入图片描述

    在这里插入图片描述

    研究背景:尽管普遍认为肠道微生物组的生态多样性和分类组成在肥胖和T2D中发生改变,但与单个微生物或微生物产物的关联在研究之间不一致。缺乏大样本群体研究,从而确定肠道微生物组,血浆代谢组,肥胖和糖尿病表型以及环境因素之间的几种关联。

    主要图表

    按照肥胖和糖尿病对人群分为三组,同时进行了16S,代谢和宏基因组的检测。

    在这里插入图片描述

    与肥胖相关的菌属以及代谢途径

    在这里插入图片描述

    在这里插入图片描述

    研究结论:确定了肠道微生物组,血浆代谢组,肥胖和糖尿病表型以及环境因素之间的几种关联。与肠道微生物组变异相关的主要是肥胖,不是2型糖尿病。存在与肠道微生物组变异相关的药物和膳食补充剂。高铁摄入量影响小鼠的肠道微生物组成。微生物组变异也反映在血清代谢物谱中。

    点评:

    相对大人群的队列研究,同时涵盖了菌群、代谢和疾病表型以及膳食补充调查的数据。

    从结果看菌属和血浆代谢存在关联,但是贡献度都较低,如果样本数量不足很可能找不到显著的联系,这也是这类大样本队列研究的意义。

    本研究在人群分组时针对性的研究了肥胖-II型糖尿病和菌群的关联,因而构建了三个主要分组人群,结果显示肥胖与菌群的关联度更大,解释了大部分的菌群差异,而糖尿病的菌群变化较小。

    本研究其中较为重要的是发现了不同膳食补充对菌群的影响,并在小鼠实验中得到证实。

    基因的差异分析图

    除了能对大的基因功能分类和代谢途径进行预测外,我们还能提供精细的功能基因的数量构成的预测,以及进行样本间以及组间的差异分析,并给出具有统计意义和置信区间的分析结果

    这一分析将我们对于样本群落的差异进一步深入到了每一类基因的层面。

    在这里插入图片描述

    图中不同颜色代表不同的分组,列出了在组间/样本间存在显著差异的每一个功能基因(酶)以及在各组的比例,此外右侧还给出了差异的比例和置信区间以及P-value。

    很多小伙伴总希望能亲自上手做点分析,机会来了!

    在获得标准报告后如果希望单独修改分组或对某些组之间进行显著性差异分析,可以使用STAMP软件在自己的电脑上进行数据分析。STAMP提供了丰富的统计检验方法图形化结果的输出。

    在使用STAMP之前需要首先准备需要的spf格式文件和样品分组信息表,但是如果数据不会处理,那也很不便。

    而在我们的报告中已经将KEGG和KO以及COG的结果文件后经过转换生成了适用于STAMP软件打开的spf格式文件,还有对应的分组信息表文件groupfile.txt。

    使用STAMP时的一些相关问题

    1、STAMP作图用的原始数据的来源?

    STAMP 可以直接使用来自QIIME的biom文件和PICUST的KEGG和ko 文件,groupfile.txt文件的格式为tab-saperated value (tab键隔开的数据)

    2、分组问题?

    导入数据之后,viewàgroup legend ,在窗口右侧会出现分组栏,根据需要进行分组。

    3、Unclassiffied选项中,remain Unclassiffied reads、remove Unclassiffied reads、和use only for calculating frequency profiles 方法的区别?

    remain Unclassiffied reads和use only for calculating frequency profiles方法会保留所有的数据,而remove Unclassiffied reads仅仅保留有确定分组信息的数据。

    4、Statistical test 中,Welch’s t-test、t-test、white’s non-parametric t-test的区别,各自优缺点?

    为了确保统计学意义和准确度和精确性,需要足够多的样本数目,t-test检验可以在最少样本数为4的时候确保高的准确度和精确性。

    当两个样本之间具有相同方差的时候,用t-test更为准确,当两个样本没有相同方差Welch’s t-test更为准确。

    当样本数目少于8的时候,可以使用white’s non-parametric t-test,该计算时间较长,当样本数目过多的时候不宜使用该方法。

    5、Two-group 中 type: one side和two side的区别?

    One side只会显示前一个group与后一个group差异的比例,而two side两者之间的比例均会显示

    6、STAMP在使用时首先打开了一个分析文件,如果新打开一个可能会导致显示错误?

    目前版本的STAMP存在一些小问题,一次分析只能使用一个数据文件,如果要打开新的需要关闭软件后再打开。

    详细的STAMP使用教程可以参考我们提供的STAMP使用教程。

    环境因子分析

    冗余分析(redundancy analysis, RDA)或者

    典范对应分析(canonical correspondence analysis, CCA)都是基于对应分析发展的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,又称多元直接梯度分析。主要用来反映菌群与环境因子之间的关系。

    RDA 是基于线性模型,CCA是基于单峰模型。分析可以检测环境因子样品菌群三者之间的关系或者两两之间的关系。

    在这里插入图片描述

    ○ 冗余分析可以基于所有样品的OTU作图,也可以基于样品中优势物种作图;

    ○ 箭头射线:箭头分别代表不同的环境因子;

    ○ 夹角:环境因子之间的夹角为锐角时表示两个环境因子之间呈正相关关系,钝角时呈负相关关系。环境因子的射线越长,说明该影响因子的影响程度越大;

    ○ 不同颜色的点表示不同组别的样品或者同一组别不同时期的样品,图中的拉丁文代表物种名称,可以将关注的优势物种也纳入图中;

    ○ 环境因子数量要少于样本数量,同时在分析时,需要提供环境因子的数据,比如 pH值,测定的温度值等。

    贡献图

    我们通过计算每个变量正常计数中值,进一步确定每个被选择的OTU的特征。如果某一变量的中位数数高于任何其他变量,则OTU被定义为对变量有贡献。其中每个OTU条长度对应于多元模型中特征的重要性(对于每个组件上的特定特征,具有正号或负号的多元回归系数)通过从底部开始降低重要性进行排序,并且颜色与贡献变量相匹配。贡献图可以显示任意指定级别的细菌分类。

    图解读:加载在comp1组件和comp2组件上贡献最大的OTU图。颜色代表不同分组。条形图越长说明对应OTU在此分组中贡献最大。

    25. spls(稀疏偏最小二乘)回归分析

    sPLS回归允许整合微生物群落数据矩阵和临床变量矩阵以进行多元回归。它可以处理数据中的共线性和噪声,并且适合对多个响应变量进行建模。

    这需要有大量的meta信息,例如一个样本有几十个临床信息,你想知道这些信息与肠道菌群的相关性是怎样的,我们将这些临床信息利用adonis2检验它们与肠道菌群间是否有统计学意义。然后将具有统计学意义的信息利用spls按照它们之间的相关性从大到小排列。数据间的相关性越强越能很好的使用此分析。

    a  
    b  
    c  

    图解读:

    a. 前两个sPLS维度的相关圆图显示了> 0.2/< - 0.2的相关性。两个灰色圆圈表示相关系数为0.5和1.0。OUT显示为较小的圆点,根据所属的cluster进行着色。表示变量的圆点附带了标签。距离较近的变量之间呈正相关,投影方向相反的变量之间呈负相关。彼此垂直放置的变量不相关。OTU解释的方差在Component 1上为2.94%,在Component 2为8.77%.

    b图. 前两个sPLS维度的聚类图像映射,显示了OTUs(右侧)和临床变量(底部)之间的两两相关。红色和蓝色分别表示正相关和负相关。在基于sPLS回归模型的mixOmics cim()函数内进行层次聚类(聚类方法: complete linkage,距离法:Pearson相关)。

    c图. 分别在Component 1和Component 2上贡献最大的OTU的荷载图。长方形条状是根据它们所属的簇而着色的。各OTU的分类信息根据颜色着色(图例见b图)

    看完以上内容,也许还有不明白的地方,没关系,我们罗列了一些常见的问题。看看有没有你想问的。

    答疑小课堂

    Q1

    原始数据形式以及数据如何上传?

    原始fastq格式是一个文本格式用于存储生物序列(通常是核酸序列)和其测序对应的质量值。这些序列以及质量信息用ASCII字符标识。通常fastq文件中一个序列有4行信息:如

    在这里插入图片描述

    第一行:序列标识,以 @开头。格式自由,允许添加描述信息,描述信息以空格分开。

    第二行:序列信息,不允许出现空格或制表符。一般是明确的DNA或RNA字符,通常大写

    第三行:用于将序列信息和质量值分隔开。以 +开头,后边是描述信息或者不加。

    第四行:质量值, 每个字符与第二行的碱基一一对应,按照一定规则转换为碱基质量得分。进而反映该碱基的错误率,因此字符数必须和第二行保持一致。

    Fasta格式

    fasta是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。由两部分信息组成:如

    在这里插入图片描述

    第一行:序列标记,以 >开头,接序列的标识符,序列标识符以空格结束,后接描述信息。为保证分析软件能区分每条序列,每个序列的标识必须具有唯一性。

    第二行:序列信息,使用既定的核苷酸或氨基酸编码符号。

    数据提交

    原始数据(Raw data),常见的是illumina机器产生的fastq文件,这一类文件需要向NCBI的SRA数据库进行提交,SRA是NCBI为了并行测序的高通量数据(massively parallel sequencing)提供的存储平台。完整提交SRA需要一些独立项目的分步提交,包括BioProject、BioSample、Experiment、Run等,每一部分用以描述数据的不同属性。

    Q2

    如何判断测序质量是否合格?

    原始的Tags数据会经过质控、过滤、去嵌合体,最终得到有效数据(Effective Tags)。所以在判断测序质量是否合格时应该从几个方面去判断。

    打开文件01_sequence_statistic/sumOTUPerSample.txt

    在这里插入图片描述

    报告里所有的txt打开如果格式不对的话,可以用excel表打开。

    其中tags为经质量过滤后能正确overlap包含正确barcode和高质量序列的数据。

    Singleton为非完全相同的序列,只要有1个碱基的差异即为不同序列,该值的高低与OUT数量并无直接关系,OTU是以97%的相似度聚类,测序质量较低导致的碱基错误、PCR扩增过程中的碱基错误、菌种内部的多样性以及OTU数量均会影响该数量。

    Chimeras为通过与RDP等标准数据库比对分析判断可能由于PCR过程错误扩增导致的嵌合体比例,chimeras%为百分比,一般低于1。

    首先判断下机数据tags和有效数据 clean tags 的数据量是否满足测序要求,一般下机数据量达到3万条reads以上满足测序需要,谷禾16s样本的测序深度可以达到10万条reads左右。如果数据量不够则需要重新补测样本。通过观察嵌合体数chimras 和嵌合体所占百分比chimeras%,可以反应出有效序列的转化率,嵌合体的比例越小序列的利用转化率就越高。

    根据稀释曲线可以判断测序深度是否达到饱和,如图中曲线都逐渐趋于平缓,就证明样本的测序深度较好,测序深度基本覆盖能测到的该样本所有的物种,测序深度比较好。同时曲线趋于水平纵坐标的高低也能够反映各样本的微生物多样性情况,曲线越高,证明测到的物种种类越多,样本的微生物多样性就越高。

    在这里插入图片描述

    而从该图可以看出,个别样本的曲线未趋于平缓,证明该样本测序深度不够,测序深度未能很好的反映出该样本的完整菌群构成。如果测序数据量更大的的话会检测到更多物种。

    Q3

    如何了解分组内部的多个样本的重复性以及多样性情况?

    观察分组内部多个样本的重复性如何可以从以下几个方面考虑。

    首先在各分类水平的柱状图的菌属构成来看

    在这里插入图片描述

    从构成图来看,Flu组和ZW3.7组,组内样本重复性较好。Ctrl组中Ctrl.2明显区别于组内另外两个样本,可以去掉该样本。而ZW3.8组内样本间差异性较大。

    比如人体肠道或小鼠肠道样本本身个体差异性较大,菌群结构组成复杂,即便通过不同疾病的分类的样本,但营养饮食、代谢以及环境的影响都会改变肠道菌群的构成,所以有可能组内样本间差异性会比较大。而经过单因素处理的样本组内差异会比较小。

    所以在前期实验设计时,尽量选择同一批次相同处理的小鼠或其他样本,避免组内差异的影响。并且要预留好多余的样本,比如组内只有3个样本,如果去掉一个差异性较大的样本,一个分组内只有2个样本,会影响后续组间差异比较,组间差异性比较分析每组要至少要3个样本。

    在这里插入图片描述

    通过beta多样性分析PCA,PCoA,MNDS 也可以大致观察组内样本重复性情况,左图组内样本重复性较好,右图组内样本间差异性较大,两组间的区割不是很明显。

    在这里插入图片描述

    在加圈图的beta多样性分析中,右下角有给出PC1和PC2的P值,小于0.05则差异显著。

    Alpha多样性是针对单个样品中物种多样性的分析,包括chao1指数、ace指数,shannon指数以及simpson指数等。前面4个指数越大,最后一个指数越小,说明样品中的物种越丰富。

    在这里插入图片描述

    其中chao指数和ACE指数反映样品中群落的丰富度(species richness),即简单指群落中物种的数量,而不考虑群落中每个物种的丰度情况。指数对应的稀释曲线还可以反映样品测序量是否足够。如果曲线趋于平缓或者达到平台期时也就可以认为测序深度已经基本覆盖到样品中所有的物种;反之,则表示样品中物种多样性较高,还存在较多未被测序检测到的物种。

    而shannon指数以及simpson指数反映群落的多样性(species diversity),受样品群落中物种丰富度(species richness)和物种均匀度(species evenness)的影响。相同物种丰富度的情况下,群落中各物种具有越大的均匀度,则认为群落具有越大的多样性。

    稀释曲线是利用已测得序列中已知的各种OTU的相对比例,来计算抽取n个(n小于测得Reads序列总数)Tags时各Alpha指数的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列,本项目公差为500 )与其相对应的Alpha指数的期望值绘制曲线。

    Q4

    不同的样本之间差异大吗?不同分组之间能否用菌群差异来区分?

    观察不同分组间差异的大小可以观察随机森林分类效果图。

    路径在07_diff_analysis/RF

    图中以该分类水平下选取用于区分不同分组间的差异性起到关键性影响因素的物种作为标志物作图。标志物按重要性从大到小排列,图中随机森林值error rate 表示用随机森林方法预测分组之间的错误率,分值越高代表所选取的标志物准确度不高,并不能很好的用于区分各分组,分组差异不显著。分值越低证明分组效果比较好。

    在这里插入图片描述

    上图中的随机森林按照门和属以及代谢途径分别进行分析作图,各自都有单独文件,报告中仅给出了一个图,其他文件需要到目录中查看。可能存在门或属区分效果不佳,但是代谢途径区分效果较好。

    随机森林筛选出来的物种是用于区分所有分组的重要标志。分值越高代表该物种用于区分所有组之间的重要性越大。

    Q5

    二代测序16s 能用普通酶扩增吗?

    16s测序主要为了鉴定菌种,通常在做鉴定的时候区分标准是97%,区分亚种和菌株的时候相似度更高。

    普通TAQ酶的复制错误率较高,可能在扩增过程中引入错误,这些错配可能导致相似度下降从而分类错误。

    一般我们不建议使用普通TAQ酶进行扩增,都选择高保真酶。

    Q6

    利用16s rRNA鉴定细菌能确定到种上吗?

    16s rRNA长度为1.5k多,作为菌种鉴定一般选择相似度97%的标准,相似度超过97%一般定义为同一种菌。

    如果是sanger测序获得16s全长的都可以鉴定到种,甚至能区分亚种。有些细菌并不只有1个16s序列,会包含有1-15拷贝的16s序列,所以单一的16s序列鉴定可能会出现偏差。

    利用高通量如454或miseq测序一般由于读长的缘故,通常只有300-500多个碱基被测序,所以在物种鉴定上一般比较可靠的是能分类到属,部分能分类到种。

    根据我们的经验,不同的样品会有大约10-50的菌能分类到种。利用新的分析方法,我们现在也可以利用16s rRNA的群落多样性高通测序数据进行亚种级别的分析。主要是利用16s中共同变化的SNP位点进行分型。这样可以大大提高菌种的分类精度,尤其是在有些菌株之间表型差异巨大的时候。

    Q7

    听说光测16s就可能预测基因和功能,是真的吗?

    16s序列能够区分菌的种属,但是并不包含这些菌的基因和代谢功能的信息。不过由于我们已经对大量的细菌基因组进行了测序,所以可以根据16s的菌种信息,利用这个菌属已经测序的细菌基因组的基因信息和代谢功能信息来估计每类基因的上限和下限。

    所以答案是可以利用16s序列测序来预测菌群的功能基因分布和代谢途径分布情况。

    目前主要使用的软件是PICRUSt和新发表的Tax4Fun。

    从我们实际分析和实验结果来看,预测的准确性还是很高的,不过和样品有很大关系。像肠道菌群和土壤以及一些致病菌的测序较多,所以预测的准确度较高可以到85-90%以上。一些海洋的菌由于测序的菌较少,预测准确性要差一些。目前发表的文献基本都是用PICRUSt,新的软件还有待验证。

    Q8

    测16s rRNA能分到亚种吗?不同菌株都有致病性差异光到种不解决问题啊!

    16s rRNA如果是使用sanger测序可以细分到亚种甚至有些可以精确区分菌株,但是要看菌种。

    如果是高通量测序,目前的常见分析一般以97%为标准,大部分情况只能到属,少部分能区分到种。如果要进一步细分到亚种甚至更小的区分目前是有可能的,我们在使用oligotype一类的方法时可以将相同变化模式的SNP归类,并对原来的OTU进行进一步细分,理论上可以区分到菌株。

    不过这种区分不同菌属差异很大,有些可以很理想的区分,主要用来了解在更细分化尺度上菌株构成的地理和时间变化。

    仅通过16s高通量测序恐怕不能完全解决菌株致病性差异这种问题,但是通过对常见OTU的进一步深入分析可以提供可能的解释或方向。如果明确了某一特定类型菌株的变化有关,可以采用比如毒力基因或菌株特异性标记等方法详细了解不同菌株的比例和差异。

    可变区和测序选择

    目前针对扩增子测序可选择的测序平台和方案很多,不同平台的读长和适用的测序区段以及优势各有不同。16s测序主要的测序区段包括V4、V3V4,V1V2,V6,此外还有全长等不同的区段选择,不同可变区或全长由于引物的不同以及不同种属相应区段内的变异多样性差异,对菌属的丰度评估会有一定的差异。


    从长度来看,全长16S长度为1.5kb左右,单菌落的16S全长sanger一代测序仍然是菌种鉴定的主要手段,纳米孔和Pacbio的三代测序可以高通量的获得全长序列,对于希望更高分辨率的分析菌种的研究有一定优势。三代的测序准确度目前逐渐改进,直接测序准确度可以在90%以上,纠错后可以提高到97~99%以上,已足够提供高精度的分类。三代目前主要问题在于建库成本相对较高,通过使用barcode可以降低部分但仍然偏高,此外普遍测序深度相对于二代测序要低许多。
    目前最主要的可变区选择是V4区和V3V4区,V4区长度为256bp左右,加上两侧引物长度为290bp左右,使用双端2x250bp或2x150bp可以测通,此外如454、life、Illumina Hiseq 4000的测序平台读长也可以主要涵盖该区段读长。例如采用Illumina Hiseq测序平台对该项目进行双端测序(Paired-end),测序得到了fastq格式的原始数据(样本对应一对序列S_1.fastq和S_2.fastq)。再配对拼接成单条序列。其引物通用性相对是所有可变区中最高的,大量的大规模菌群调查研究都采用V4区作为检测区域,包括人体菌群研究如:HMP,肠道菌群如美国肠道计划AGP,欧洲的FGFP等,以及全球土壤菌群调查,目前仍然是国际研究中使用最广泛和认可的检测区域。


    Illumina的Miseq提供了长达2x300bp以及Hiseq2500和最近的NovoSeq提供有2x250bp的测序方案,为进一步利用读长,目前有相当一部分研究选择V3V4区,该区段长度在460bp左右,相较于V4度多出了V3区段约100bp左右的片段,在少部分菌属中可以增加一定分辨率。经过对比,V3V4区的检测结果和V4区在绝大部分菌属中的丰度一致,但由于引物不同,在少量菌属中丰度会有不同偏向,V3V4从OTU层面上并未发现较V4区有明显增加。引物的选择和提取、储存方法是影响菌群检测丰度构成的主要因素,不同研究之间的比较需要考虑到实验方案的一致,相同的方案可以直接比较。
    目前的高通量测序平台可以较低成本的进行大规模的测序,从测序深度角度,土壤菌群的多样性最高,一般需要5万条以上序列可以达到饱和,肠道样本在3万条以上,水体和尿液等1万条以上基本可以到达饱和。

    同一批小鼠粪便样本v4(10万 clean reads)和 v3v4(5万clean reads)测序数据比较:

    原始序列数据:

    V4

    V3V4

    以上两表是对原始序列数据进行统计,表中可以看出有效序列tags、高质量序列clean_tags、otus数量  V4区都远高于v3v4区。V4区测序获得下机数据在13万条左右,v4区测序获得的下机数据在5万条左右。

    Alpha多样性指数比较:

    V4

    V3V4

    以上两个表分别是对Alpha多样性指数计算的结果比较

    Chao1 指数和ACE指数是用来评估样本中所含OTU数目的指数,从Chao1 指数和ACE指数可以看出,用 v4测序获得的结果要明显大于v3v4的结果。这是因为v4测序通量更高,测序深度更好,每个样下机的测序数据可以到10万条以上,一般在13万条左右,所以经过序列比对获得的OTU数目更多,相比较用v3v4测序每个样下机的数据大约在4到5万条左右,经过序列比对获得的OTU相对少一点。

    Shannon指数和Simpson指数是用来评估菌群的丰富度和均一度 的。从Shannon指数和Simpson指数,用v4和v3v4测序指数相差不大,或v4比v3v4略高一点,证明两种测序之间菌群的丰富度多样性和均一度叫接近。

    物种主要构成比较:

    V4

    V3V4

    V3v4

    属水平前10个物种构成:Lactobacillus、Adlercreutzia、Flexispira、Allobaculum、Desulfovibrio、Prevotella、Odoribater、Oscillospira、[Prevotella]、Bacteroides

    V4

    属水平前10个物种构成:Lactobacillus、Akkermansia、Helicobacter、Allobaculum、Desulfovibrio、Adlercreutzia、Odoribacter、Bacteroides、Prevotella、[Prevotella]

    从前10个物种构成来看,有8个是相同的,物种的主要构成基本一致,测序的稳定性较好。从种类来看,v3v4测到的属水平个数较多。

    各分类水平鉴定到的物种种类比较:

    V4

    V3v4

    以上两张表代表了每个样本在各分类水平上鉴定到的物种种类数。从整体上来看,分别用v4和v3v4测序得到的数据,在各分类水平上鉴定到的物种个数相对比较稳定和接近,(尤其在目水平和科水平上)用v3v4测序获得的物种数比v4相对较多一点,单相差不大,在属水平和种水平则不一定是这种规律,最终鉴定到的物种个数也跟该样本的测序质量有关。


    最后附几篇顶级杂志发表的16s V4区的文章

    Poyet, M., et al. "A library of human gut bacterial isolates paired with longitudinal multiomics data enables mechanistic microbiome research." Nature medicine 25.9 (2019): 1442-1452.

    (16S library preparation and sequencing. 16S rRNA gene libraries targeting the V4 region of the 16S rRNA gene were prepared by first normalizing template concentrations and determining optimal cycle number by way of qPCR. Two 25 µL reactions for each sample were amplified with 0.5 units of Phusion with 1X High Fidelity buffer, 200 μM of each dNTP, 0.3 μM of 515 F( 5′- AATGATACGGCGACCACCGAGATCTACACTATGGTAATTGTGTGCCAGCMGCCGCGGTAA-3′) and 806rcbc0 (5′- CAAGCAGAAGACGGCATACGAGATTCCCTTGTCTCCAGTCAGTCAGCCGGACTACHVGGGTWTCTAAT-3′).

    Tito, Raul Y., et al. "Population-level analysis of Blastocystis subtype prevalence and variation in the human gut microbiota." Gut 68.7 (2019): 1180-1189.

    (We profiled stool samples from 616 healthy individuals from the FGFP cohort as well as 107 patients with IBD using amplicon sequencing targeting the V4 variable region of the 16S rRNA and 18S rRNA genes).

    Call, Lee, et al. "Metabolomic signatures distinguish the impact of formula carbohydrates on disease outcome in a preterm piglet model of NEC." Microbiome 6.1 (2018): 111.

    (Gut contents and mucosal samples were collected and analyzed for microbial profiles by sequencing the V4 region of the 16S rRNA gene. Metabolomic profiles of cecal contents and plasma were analyzed by LC/GC mass spectrometry).

     Wang, Chao, et al. "High-salt diet has a certain impact on protein digestion and gut microbiota: a sequencing and proteome combined study." Frontiers in Microbiology 8 (2017): 1838.

    (In this study, C57BL/6J mice were fed low- or high-salt diets (0.25 vs. 3.15% NaCl) for 8 weeks, and then gut contents and feces were collected. Fecal microbiota was identified by sequencing the V4 region of 16S ribosomal RNA gene).

    Bai, J., Y. Hu, and D. W. Bruner. "Composition of gut microbiota and its association with body mass index and lifestyle factors in a cohort of 7–18 years old children from the American Gut Project." Pediatric obesity 14.4 (2019): e12480.

    (AGP sequenced the V4 region of 16S rRNA gene).

    Luthold, Renata V., et al. "Gut microbiota interactions with the immunomodulatory role of vitamin D in normal individuals." Metabolism 69 (2017): 76-86.

    (The association between 25(OH)D and fecal microbiota (16S rRNA sequencing, V4 region) was tested by multiple linear regression).

    Iszatt, Nina, et al. "Environmental toxicants in breast milk of Norwegian mothers and gut bacteria composition and metabolites in their infants at 1 month." Microbiome 7.1 (2019): 34.

    (Child fecal samples were characterized by 16S rRNA gene amplicon sequencing of the V4 region. We used Deblur, a novel sub-operational taxonomic-unit (sub-OTU) approach that provides a higher resolution than OTU-based analyses).

     Vangay, Pajau, et al. "US immigration westernizes the human gut microbiome." Cell 175.4 (2018): 962-972.

    (We performed amplicon-based sequencing of the 16S rRNA gene V4 region on 550 stool samples (one sample per participant).

    Suez, Jotham, et al. "Post-antibiotic gut mucosal microbiome reconstitution is impaired by probiotics and improved by autologous FMT." Cell 174.6 (2018): 1406-1423.

    (For 16S amplicon pyrosequencing, PCR amplification was performed spanning the V4 region using the primers 515F/806R of the 16S rRNA gene and subsequently sequenced using 2X250 bp paired-end sequencing (Illumina MiSeq).

    Zmora, Niv, et al. "Personalized gut mucosal colonization resistance to empiric probiotics is associated with unique host and microbiome features." Cell 174.6 (2018): 1388-1405.

    (For 16S amplicon pyrosequencing, PCR amplification was performed spanning the V4 region using the primers 515F/806R of the 16S rRNA gene and subsequently sequenced using 2 × 250 bp paired-end sequencing (Illumina MiSeq). 

    Riquelme, Erick, et al. "Tumor microbiome diversity and composition influence pancreatic cancer outcomes." Cell 178.4 (2019): 795-806.

    (The 16S rDNA V4 region was amplified by PCR and sequenced in the MiSeq platform (Illumina) using the 2x250 bp paired-end protocol yielding pair-end reads that overlap almost completely. The primers used for amplification contain adapters for MiSeq sequencing and single-index barcodes so that the PCR products may be pooled and sequenced directly (Caporaso et al., 2012), targeting at least 10,000 reads per sample. 16S (variable region 4 [v4]) rRNA gene pipeline data incorporated phylogenetic and alignment based approaches to maximize data resolution). 

    Matson, Vyara, et al. "The commensal microbiome is associated with anti–PD-1 efficacy in metastatic melanoma patients." Science 359.6371 (2018): 104-108.

    (Specifically, the V4 region of the 16S rRNA gene (515F-806R) was PCR-amplified with region-specific primers that include sequencer adapter sequences used in the Illumina flowcell).

    Raman, Arjun S., et al. "A sparse covarying unit that describes healthy and impaired human gut microbiota development." Science 365.6449 (2019): eaau4735.

    (Amplicons generated from variable region 4 (V4) of bacterial 16S rRNA genes present in these 2455 fecal samples were sequenced, and the resulting reads were assigned to operational taxonomic units with ≥97% nucleotide sequence identity (97%ID OTUs).

     Gehrig, Jeanette L., et al. "Effects of microbiota-directed foods in gnotobiotic animals and undernourished children." Science365.6449 (2019): eaau4732.

    (Characterizing human fecal microbial communities Methods for V4-16S rRNA gene sequencing and data analysis, calculation of MAZ scores and functional microbiome maturity, and quantification of enteropathogen burden by means of multiplex quantitative polymerase chain reaction (qPCR) are described in the supplementary materials).

     Lloyd-Price, Jason, et al. "Multi-omics of the gut microbial ecosystem in inflammatory bowel diseases." Nature 569.7758 (2019): 655.

    (In brief, bacterial genomic DNA was extracted from the total mass of the biopsied specimens using the MoBIO PowerLyzer Tissue and Cells DNA isolation kit and sterile spatulas for tissue transfer. The 16S rDNA V4 region was amplified from the extracted DNA by PCR and sequenced in the MiSeq platform (Illumina) using the 2 × 250 bp paired-end protocol, yielding pair-end reads that overlapped almost completely).

     Multi-omics of the gut microbial ecosystem in inflammatory bowel diseases. Nature. 2019

    (In brief, bacterial genomic DNA was extracted from the total mass of the biopsied specimens using the MoBIO PowerLyzer Tissue and Cells DNA isolation kit and sterile spatulas for tissue transfer. The 16S rDNA V4 region was amplified from the extracted DNA by PCR and sequenced in the MiSeq platform (Illumina) using the 2 × 250 bp paired-end protocol, yielding pair-end reads that overlapped almost completely).

    emporal development of the gut microbiome in early childhood from the TEDDY study. Nature. 2019

    (Bacterial DNA was extracted using the PowerMag Microbiome DNA isolation kit following the manufacturer’s instructions. The V4 region of the 16S rRNA gene was amplified by PCR and sequenced on the MiSeq platform (Illumina) using the 2 × 250 bp paired-end read protocol).

    A communal catalogue reveals Earth’s multiscale microbial diversity. Nature. 2018

    (We surveyed bacterial and archaeal diversity using amplicon sequencing of the 16S rRNA gene, a common taxonomic marker for bacteria and archaea12 that remains a valuable tool for microbial ecology despite the introduction of whole-genome methods (e.g., metagenomics) that capture gene-level functional diversity13. We amplified the 16S rRNA gene (V4 region) using primers14 shown to recover sequences from most bacterial taxa and many archaea).

    Root microbiota drive direct integration of phosphate stress and immunity. Nature. 2017.

    (For wild soil experiment 16S sequencing, we processed libraries according to Caporaso, et al.28. Three sets of index primers were used to amplify the V4 (515F-806R) region of the 16S rRNA gene of each sample. In each case, the reverse primer had a unique molecular barcode for each sample).

    展开全文
  • 目前WT588F02-16S,若只存固定语音,最大可以支持存放320秒语音内容,若只存录音,最大可以录70秒左右语音内容(其后面将会推出外挂flash,最大可以挂128Mbit的flash),将会有WT588F04-16S(640秒)芯片推出。...
  • 微生物16S测序数据的正确打开方式

    万次阅读 多人点赞 2020-05-29 07:00:00
    16S rRNA基因测序(也称16S rDNA测序)是最常用的菌群多样性分析的手段。对于新手,如果收到一份不讲“人话”的16S测序分析报告,很快就会被各种生态学术语、各种指数、各种分析方...

    16S rRNA基因测序(也称16S rDNA测序)是最常用的菌群多样性分析的手段。对于新手,如果收到一份不讲“人话”的16S测序分析报告,很快就会被各种生态学术语、各种指数、各种分析方法弄晕。

    7个问题串起16S测序的核心结果

    怎么办?用你的研究逻辑来梳理16S测序数据(图1)。

    简单地说,做16S测序是为了鉴定样本中的微生物(细菌)群组成,找微生物群与疾病或表型的相关性。

    详细地说,

    1)首先想了解在不同组样本中各有哪些微生物存在和丰富度(对应于菌群鉴定和α多样性分析);

    2)接着想看不同样本组间微生物群组成是否存在差异(对应于β多样性分析);

    3)如果是,那么就有必要找出引起不同组样本微生物群差异的关键菌。如果不是,那说明微生物群比如肠道菌群与疾病或表型可能并不相关(基于已有的研究,这种可能性比较小);

    4)找到了关键菌,在临床上,很自然会想到,这些(个)关键菌是否可以作为Biomarker(对应于疾病诊断模型构建),比如用于区分糖尿病前期患者与健康组的标志物;

    5)以及这些(个)菌是否与临床指标具有相关性(对应于菌群与临床指标的相关性分析);也会进一步想到,既然不同组的微生物群落存在差异,又与疾病具有相关性,

    6)那么这些菌群是如何影响宿主的,可能参与了哪些代谢途径(对应于菌群基因功能预测);

    7)这些预测到的菌群功能是否与疾病有关,通常是肯定的。最后把这些结果整合起来分析,可以初步得出菌群组成的变化是如何与疾病或表型相关的。

    顺着上述7个生物学问题来看16S测序结果,你会轻松拨开迷雾,直达核心结果。

    图1 7个问题串起16S测序的核心结果

    6张图就够发菌群与疾病相关性文章

    编者对2019发表的数十篇以16S测序为主的肠道菌群与疾病关系研究文章(IF 5至10分)的内容进行了分析和归纳,发现大部分文章的Results部分都是由图1所列的核心结果组成。以联川生物医学16S测序报告为例,具体讲解16S测序文章中的核心结果及其对应的图表。

    (1)菌群鉴定与物种分布

    采用最新的QIIME 2分析流程,并使用更严谨的DADA2算法对扩增子数据进行去噪,相当于以100%的相似性聚类(取代传统的OTU聚类),仅对低质量序列进行去除和校正等,获取扩增子序列变异,然后去冗余,即得到feature(特征)数据。将feature数据和16S数据库(如SILVA、NT-16S)进行序列比对,可以对样本中检测到的细菌从界(Kingdom)、门(Phylum)、纲(Class)、目(Order)、科(Family)、属(Genus)、种(Species)多个分类学层级进行物种鉴定和注释。然后根据各个分类层级上的物种相对丰度以物种分布堆叠图(图2A-C,以门水平为例)来直观展示。

    图2A 物种分布堆叠图

    图2B 物种聚类堆叠图

    图2C 物种相对丰度Heatmap

    在联川医学16S测序报告中,会提供上述三种主流的物种分布堆叠图,你可以选择其一使用。在图2A、B中,不同颜色的柱子对应不同的物种,柱子的长短代表该物种所占比例的大小。图2B中左侧采用Bray-Curtis距离法分析样本间菌群组成的相似性并进行聚类。图2C中展示了不同细菌物种在不同样本中的相对丰度情况,颜色越红,丰度越高,颜色越蓝,丰度越低。

    (2)菌群α多样性

    α多样性是度量单个样本内有多少种微生物物种,以及每个物种所占比例的指标。在报告中,采用5种常用指数来度量α多样性:Observed species和Chao1反映样本中物种丰富度,但不考虑每个物种的占比情况(均匀度);Shannon和Simpson反映物种的丰富度和均匀度;Good’s Coverage反映样本的测序深度。使用Wilcoxon秩和检验对上述各个指数的样本数据进行分析,筛选出各样本组比较中显著差异的α多样性指数并绘制小提琴图(图3)。

    图3 小提琴图表示α多样性指数

    小提琴图集合了箱形图和密度图的特征。上图以Good’s Coverage为例,左上角给出了差异分析使用的检验方法和计算得到的p值。当p<0.01,表示差异极显著;当p<0.05,表示差异显著;当p>0.05,则表示无显著性差异。

    (3)菌群β多样性

    β多样性是度量不同样本间菌群组成的相似度大小的指标,即关注各样本间的菌群组成差异。α多样性关注样本自身的菌群丰富度和均匀度,而β多样性关注样本间的菌群组成与分布的差异。只有当样本(组)间菌群组成存在差异,才有可能进一步探讨菌群失调与疾病的关系。在报告中,采用主流的PCA、PCoA、NMDS、ANOSIM、Adonis、UPGMA等多种分析方法来考察和区分样本间的菌群组成差异(图4,以PCoA为例)。

    图4 PCoA分析结果图

    上图中每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的群落构成差异越小。左图是基于Unweighted UniFrac的PCoA分析结果,右图是基于Weighted UniFrac的PCoA分析结果。在这个例子中,采用Weighted UniFrac的PCoA分析更能把不同组的样本区分开来,且p值<0.01,具有显著统计学差异。需要说明的是,PCoA分析本身是没有p值计算的,p值来自于ANOSIM分析的结果。在绘图时,把p值加入了PCoA图中。

    由于每个项目的实验设计和样本菌群组成差异巨大,无法预先知道哪种β多样性分析方法是将样本间菌群差异区分开的最优方法。因此,在报告中提供了多种β多样性分析方法和产生的图片,在撰写文章时,你只需要从中选出最能解释生物学问题的图片用在文章中即可(通常展示一个或者两个β多样性分析结果)。

    (4)显著差异菌群分析

    通过β多样性分析,可以确定不同组间的微生物群落是存在差异的,接着需要进一步找出哪些菌(群)引起了组间的群落差异。只有找出核心菌(群),才能明确下一步的研究方向。在报告中,使用目前在文献中高频出现的方法——LEfSe(Linear discriminant analysis Effect Size),来做菌群差异分析,寻找生物标志物(Biomarker)。该方法综合了统计学上的差异分析和该差异物种对分组结果的影响力得分值,同时强调了统计学意义和生物相关性。LEfSe分析结果图,通常包括进化分支图(图5A)和LDA值分布柱状图(图5B)。需要说明的是,联川不仅提供LEfSe筛选差异菌群,还提供其他多种方法,如随机森林分析(图9)、秩和检验等。

    图5A LDA值分布柱状图

    上图主要展示了LDA score大于预设值的显著差异物种(less_strict设为2;more_strict 设为4),即具有统计学差异的Biomarker;柱状图的颜色代表各自的组别,长短代表的是LDA score,即不同组间显著差异物种的影响程度。

    图5B 进化分支图

    上图中,小圆圈: 图中由内至外辐射的圆圈代表了由界(单个圆圈)至属(或种)的分类级别。不同分类级别上的每一个小圆圈代表该水平下的一个分类,小圆圈直径大小与相对丰度大小呈正比。颜色:无显著差异的物种统一上黄色,差异显著的物种Biomarker跟随组别进行上色,红色节点表示在红色组别中起到重要作用的微生物类群,绿色节点表示在绿色组别中起到重要作用的微生物类群。未能在图中显示的Biomarker对应的物种名会展示在右侧,字母编号与图中对应。

    (5)菌群标志物预测能力评估

    受试者工作特征(ROC)曲线分析是一种常用的统计学分析方法,在医学研究中主要用于评价诊断试验的效能。在报告中,通过绘制ROC曲线,并计算ROC曲线下面积(AUC),来确定哪种菌(群)具有最佳的诊断价值(图6)。

    图6 菌群标志物ROC曲线分析

    上图以灵敏度为纵坐标,特异度为横坐标绘制曲线。ROC曲线越靠近左上角,试验的准确性就越高。若AUC值为1.0,反映出对两个群组的完美区分,且不存在预测误差。若AUC值在1.0和0.5之间,在AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好。AUC在0.5~0.7时有较低准确性,AUC在0.7~0.9时有一定准确性,AUC在0.9以上时有较高准确性。AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。AUC<0.5不符合真实情况,在实际中极少出现。

    (6)菌群基因功能预测

    因为菌群功能预测软件PICRUSt(Phylogenetic Investigation of Communities by Reconstruction of Unobserved States)的出现,研究者能进一步基于16S测序数据预测菌群可能参与的代谢通路(尽管并没有测定菌群基因信息),以便能初步讨论菌群组成变化与疾病或表型是如何关联在一起的。在联川报告中,使用最新的PICRUSt 2,相比上一版,用于预测的参考基因组数据库已扩展超过10倍,可以获得包括COG,EC,KO,PFAM,TIGRFAM等数据库对菌群的基因功能注释结果。然后,再使用STAMP软件进行差异分析,得到在不同样本组中显著差异的菌群基因功能(图7,以pathway结果为例)。如果要系统研究菌群携带的基因及其功能,则应该做宏基因组测序。

    图7 PICRUSt 2预测菌群基因功能

    上图中比较了不同组菌群的KEGG pathway,并筛选出具有显著性组间差异的 pathway。左边柱状图代表某代谢通路的丰度分别占两组样本中所有代谢通路的百分比,右边为corrected p值。

    至此,一篇医学微生物组16S测序文章的主要结果和图表就基本齐备了。当然,完整的医学16S测序报告还包括更多内容(图8),而且16S测序数据还有许多扩展性以及个性化的分析图表(图9),联川会根据研究者的具体需求来提供。

    图8 联川生物医学16S测序报告内容

    图9 16S测序数据个性化分析图表(部分)

    值得参考的菌群与疾病关系的研究思路

    1. 甲状腺癌患者的肠道菌群和代谢谱的变化(IF 4.982)

    发表期刊:International Journal of Cancer

    影响因子:4.982

    发表时间:2019

    研究内容:肠道菌群、代谢谱与甲状腺癌之间的关系

    样本数量:16S测序:30例甲状腺癌(TC)vs 35例健康对照(HCs);代谢组:15例TC vs 15例HCs

    样本类型:粪便样本

    实验方法:16S rRNA基因测序+非靶向代谢组检测

    实验设计

    所有受试者均为汉族,出生于中国东北地区,饮食结构相似

    研究思路

    采用目前主流的肠道菌群与疾病关系的研究策略,联合肠道菌群16S测序和粪便代谢组(极具性价比的检测组合),并结合临床指标来一起讨论,给出甲状腺癌患者的肠道菌群特征和代谢谱,潜在的疾病标志物,以及肠道菌群影响肿瘤发生发展的潜在途径。

    研究结果

    本研究对TC患者的肠道菌群及其代谢产物进行了全面的研究。鉴定出21个细菌属和72个代谢产物发生显著变化,并找到8种代谢产物结合5个细菌属对TC与HCs的鉴别更为有效(AUC=0.97)。

    扫码看全文

    参考文献

    Feng J, et al. Alterations in the gut microbiota and metabolite profiles of thyroid carcinoma patients. International Journal of Cancer 2019, 144: 2728-2745.

    2. ASD患儿与母亲肠道菌群的相关性及风险评估的标志物(IF 6.597)

    发表期刊:Genomics Proteomics Bioinformatics

    影响因子:6.597

    发表时间:2019

    研究内容:ASD儿童与母亲肠道菌群的关系与标志物鉴定

    样本数量:59对:母亲-ASD儿童;30对:母亲–健康儿童;

    样本类型:粪便样本

    实验方法:16S rRNA基因测序

    实验设计

    ASD儿童:ASD-C,ASD儿童母亲:ASD-M,健康儿童:H-C,健康儿童母亲:H-M

    研究思路

    本文研究肠道菌群的实验手段只有16S测序,很简单很直接。采用典型的肠道菌群多样性研究思路,从肠道菌群多样性分析 → 差异菌群鉴定 → 细菌标志物预测能力评估 → 菌群基因功能预测,揭示出ASD儿童与母亲肠道菌群的关系并鉴定出潜在的标志物。尽管对近180份样本进行了16S rRNA基因测序,作者仍指出未来应进行纵向研究和大样本队列验证,以监测ASD儿童及其母亲肠道微生物组的变化。而我们经常遇到一些新手,认为检测10~20个样本就足够分析出结果。

    研究结果

    本研究发现ASD儿童与健康儿童肠道细菌的构成存在显著差异。尽管ASD儿童的肠道微生物组与其母亲的肠道微生物组密切相关,但ASD儿童仍有独特的细菌标志物。母体肠道菌群变化可能在增加儿童ASD发病风险中起关键作用。鉴定出的母亲-儿童肠道微生物组图谱的相似性和差异性对于ASD风险的早期评估以及通过菌群调节来规划ASD的个性化治疗和预防策略具有重要意义。

    扫码看全文

    参考文献:

    Li N, et al. Correlation of Gut Microbiome Between ASD Children and Mothers and Potential Biomarkers for Risk Assessment. Genomics Proteomics Bioinformatics. 2019. 17: 26–38.

    3.血管紧张素介导的代谢组变化依赖于肠道菌群(IF 7.017)

    发表期刊:Hypertension

    影响因子:7.017

    发表时间:2019

    研究内容:鉴定与血压调节相关的新的微生物代谢产物

    样本类型:血浆和粪便

    实验方法:16S rRNA基因测序+代谢组

    实验设计

    研究思路

    1. 选择正常小鼠和无菌(GF)小鼠各6只利用微型泵注入AngⅡ4周(400 ng·kg-1·min-1 ),平行对照组也是选择正常小鼠和GF小鼠各6只利用植入的微型泵来注射等量的生理盐水。将所有的小鼠分开饲养以避免笼群效应。光照:黑暗=14 : 10,期间饮食控制饮水自由。

    2. 饲养结束后收集小鼠的粪便和血浆样本。

    3. 对粪便样本进行16S rRNA基因测序,对粪便及血浆进行代谢组检测。

    主要结果

    1. 在血浆中检测到总共822 种代谢产物,在粪便中检测到 944 种代谢产物。血浆和粪便代谢组学数据的主成分分析表明,正常组和GF组通常彼此分开,并且GF状态(特别是对于粪便)与治疗状态相比,影响更大。由于在血浆样品的主成分分析中发现性别差异,因此按性别和治疗方法分析血浆数据。

    2. 在血浆中,发现在正常小鼠中,AngⅡ处理可显著上调4种代谢物,显著下调8种代谢物。在GF小鼠中,这些代谢产物均未改变。

    3. 在粪便中,发现在正常小鼠中,AngⅡ处理可显著上调25种代谢产物,显著下调71种代谢产物。在GF小鼠中,这些代谢产物均未改变。

    4. 粪便16S测序显示接受AngⅡ灌输的正常小鼠的微生物组发生了重大变化,包括性别特异性变化。这些数据表明,受AngⅡ差异调节的代谢产物依赖于肠道微生物组。

    扫码看全文

    参考文献:

    Cheema MU, et al. Gut Microbiota Plays a Central Role to Modulate the Plasma and Fecal Metabolomes in Response to Angiotensin II. Hypertension. 2019 Jul;74(1):184-193.

    4. 综合微生物组与代谢组技术揭示结直肠癌中的肠道菌群与代谢组间新的相互作用(IF 8.063)

    发表期刊:Theranostics

    影响因子:8.063

    发表时间:2019

    研究内容:鉴定健康志愿者和结直肠癌(CRC)患者的特征性微生物群以及具有疾病表型的相关代谢物

    样本数量:50 CRC vs 50 Healthy(H) volunteers

    样本类型:粪便样本

    实验方法:16S rRNA基因测序+非靶向代谢组检测

    实验设计

    研究思路

    综合使用主流的16S测序与非靶向代谢组研究策略,从两个相互关联的组学维度研究CRC中的肠道菌群与代谢组,并鉴定出新的潜在标志物。

    研究结果

    粪便代谢组学分析发现,两组中164个代谢物分布在40个代谢途径中。此外,H组和CRC组分别有42和17个特异代谢物。微生物多样性测序显示,CRC组物种多样性低于H组。在H组和CRC组的微生物菌群中鉴定出76个差异OTUs。综合分析将CRC相关的微生物与代谢产物关联起来,比如多胺(尸胺和腐胺)可作为诊断标志物。

    扫码看全文

    参考文献:

    Yang Y, et al. Integrated microbiome and metabolome analysis reveals a novel interplay between commensal bacteria and metabolites in colorectal cancer. Theranostics 2019, 9(14): 4101-4114.

    5.不同严重程度的冠心病可用肠道菌群和代谢组来鉴别(IF 10.465)

    冠状动脉疾病 (Coronary artery disease,CAD)或称为冠心病,是指冠状动脉狭窄、供血不足而引起的心肌功能障碍和(或)器质性病变。CAD根据临床症状、动脉堵塞范围及心肌损伤程度,分为稳定型冠心病(SCAD)、不稳定型心绞痛(UA)和心肌梗死(MI)。近来多项研究提示CAD患者的肠道菌群结构和组成表现出明显的改变,而肠道菌群的代谢物如氧化三甲胺(TMAO)、短链脂肪酸(SCFA)和次级胆汁酸,也会影响心血管病的进展。然而不同类别的CAD患者中的肠道菌群特征仍有待明确。本研究对不同冠心病严重程度人群的肠道菌群和血清代谢组学进行了深度的关联分析。

    发表期刊:Microbiome

    影响因子:10.465

    发表时间:2019

    研究内容:肠道微生物组和代谢变化与冠心病严重程度之间的关系

    实验方法:16S rRNA基因测序和非靶向代谢组(LC-MS/MS)

    样本数量

    1)发现集:161例名冠状动脉疾病患者和40例健康对照。

    2)验证集:25例名冠状动脉疾病患者和12例健康对照。

    样本类型:粪便与血清样本。

    实验设计:

    CAD:coronary artery disease冠状动脉疾病

    • SCAD:stable coronary artery disease稳定性冠状动脉疾病

    • UA:unstable angina不稳定型心绞痛

    • MI:myocardial infarction心肌梗死

    ACS:acute coronary syndrome急性冠状动脉综合征

    • UA:unstable angina不稳定型心绞痛

    • MI:myocardial infarction心肌梗死

    纳入与排除标准:

    1.纳入标准

    连续招募40例健康志愿者和161例住院做冠状动脉造影的CAD患者。CAD组:至少一条主要冠状动脉显示50%狭窄的患者。冠状动脉粥样硬化负荷由两名专业心脏科医生采用Gensini评分进行评价。CAD患者进一步分为三个亚组:1) SCAD,2) UA 和 3) MI。对照组:冠状动脉CT或冠状动脉造影检查显示阴性结果,或被确定为无CAD相关临床体征和症状的受试者。

    2.排除标准

    患有胃肠道疾病、恶性肿瘤、自身免疫性疾病、感染性疾病、肾功能不全(严重肾脏疾病肌酐 > 3.0 mg/dL)、前一年有胃肠道手术史或前三个月使用抗生素超过3天的受试者。

    3.样本采集

    对于受试者,在入院后第二天早晨抽取外周静脉血。从每例受试者新鲜采集的粪便样本迅速送至实验室,并立即置入-80℃冷冻。

    研究思路与亮点:

    通过发现集和验证集检测,整合多个CAD表型与血清代谢组、肠道微生物组的相关性数据来筛选CAD各亚组的诊断标志物。已有一些研究报道,基于分类学进行菌群功能研究是存在不足的,因为同一个属或种的细菌,其功能可能是不同的,细菌的功能是菌株特异性的。本研究是以共丰度群(CAG)为单元进行菌群的功能讨论,及核心菌的鉴定。既往的与CAD相关的肠道菌群研究仅限于病例对照研究,本研究探讨了CAD亚组(不同的严重程度)中肠道菌群和血清代谢物的变化,并阐释了肠道菌群变化与CAD严重程度相关可能是通过血清代谢物来介导的。

    研究结果:

    发现肠道菌群和代谢物的组成均随着冠心病的严重程度而发生显著变化。鉴定出29个代谢物模块,分别与CAD表型呈正相关或负相关,在CAD不同阶段发生特征性变化的细菌CAGRoseburia、Klebsiella、Clostridium IV和Ruminococcaceae为代表。某些细菌可能通过调节宿主的代谢途径如牛磺酸、神经磷脂和神经酰胺以及苯的代谢来影响动脉粥样硬化。此外,构建了一个基于微生物和代谢物水平差异的疾病分类器来区分病例和对照组,甚至能够准确区分稳定的冠状动脉疾病和急性冠状动脉综合征。

    扫码看全文

    参考文献:

    Liu H, et al. Alterations in the gut microbiome and metabolism with coronary artery disease severity. Microbiome. 2019, 7(1):68.

    6.中国非小细胞肺癌患者肠道菌群的多样性与抗PD -1免疫治疗的良好效果相关(IF 12.46)

    发表期刊:Journal of Thoracic Oncology

    影响因子:12.46

    发表时间:2019

    研究内容:中国NSCLC患者对免疫检查点抑制剂治疗的响应与肠道菌群之间的关系

    样本数量:37名接受纳武单抗(Nivolumab)治疗的晚期NSCLC患者

    样本类型:粪便样本(在基线,每次接受治疗前和疾病进展时采集),外周血样本(在基线采集)。

    实验方法:16S rRNA基因测序+FACS检测外周血免疫细胞

    实验设计

    起始有42位晚期(IIIB/IV)NSCLC患者接受Nivolumab治疗,最后37位患者完成测试。23名被评估为部分响应(n=5)或疾病稳定(n=18)的患者被归类为R(响应组),而其他(n=14)在第一次临床评估后疾病有进展被归类为NR(无响应组)。

    研究思路与亮点

    本研究回答了以下4个问题

    1)基线肠道菌群多样性是否会影响Nivolumab的治疗效果?

    2)Nivolumab治疗是否对患者的肠道菌群产生影响?

    3)Nivolumab多个周期治疗是否会改变患者的肠道菌群组成?

    4)肠道菌群影响免疫治疗的可能途径?

    以下因素是本研究能发到12分的重要原因

    1)抓住两大热点,肠道菌群和肿瘤免疫治疗;

    2)首创性,国内鲜有报道肠道菌群与肿瘤免疫治疗疗效关系的研究,本研究首次报道了肠道菌群在晚期NSCLC免疫治疗中的作用;

    3)大量可招募的受试人群,严谨的设计和规范化实验,以及详实的临床数据和随访。

    扫码看全文

    参考文献:

    Jin Y, et al. The diversity of gut microbiome is associated with favorable responses to anti-PD-1 immunotherapy in Chinese non-small cell lung cancer patients. J Thorac Oncol. 2019, 14(8):1378-1389.

    7. 肠道菌群–胆汁酸–白介素22轴协同调节多囊卵巢综合征(IF 30.641)

    发表期刊:Nature Medicine

    影响因子:30.641

    发表时间:2019

    研究内容:肠道菌群与多囊卵巢综合征(PCOS)的关系

    样本数量:队列1:PCOS组(50)vs 健康对照(43);队列2:PCOS组(49)vs 健康对照(47)人;

    样本类型:人(包括粪便、血清、卵泡液、颗粒细胞),多种小鼠模型(包括血清、肠组织、卵巢、脂肪、粪便);

    实验方法:宏基因组测序+非靶向代谢组

    实验设计

    研究思路

    采用深度研究肠道菌群与疾病互作关系的模式,从疾病到动物模型再回到疾病,从相关性到因果性的验证。宏基因组学与代谢组学相结合,找出肠道菌群影响PCOS的途径。面对众多的差异菌群和差异代谢物时,联川的大队列项目经验和多组学联合分析能力可以帮助你化繁为简(降维分析)地找出故事主轴。

    研究结果

    1. PCOS患者肠道中的普通拟杆菌(B. vulgatus)丰度增加,粪便和血清的甘氨酸脱胆氧酸(GDCA)以及牛磺熊去氧胆酸(TUDCA)的水平降低,血清和卵泡液的白介素-22(IL-22)水平下降。

    2. 给健康小鼠移植B. vulgatus或PCOS患者粪便,会导致原本健康的小鼠出现PCOS样表型。

    3. 胆汁酸调节IL-22的产生,GDCA和TUDCA通过促进GATA3表达诱导肠3型天然淋巴细胞(ILC3s)分泌IL-22 。

    4. 向PCOS小鼠施用IL-22或GDCA可以减轻胰岛素抵抗,并能在一定程度上逆转PCOS,可能的机制是促进白色脂肪褐化以及抑制卵泡颗粒细胞发炎。

    扫码看全文

    参考文献:

    Qi X, et al. Gut microbiota-bile acid-interleukin-22 axis orchestrates polycystic ovary syndrome. Nat Med. 2019, 25(8): 1225-1233.

    8.肠道菌群调节大脑神经元功能和恐惧消退学习(IF 43.07)

    发表期刊:Nature

    影响因子:43.07

    发表时间:2019

    研究内容:肠道微生物组是如何调节恐惧消退学习

    实验方法:16S rRNA基因测序(小鼠粪便)+代谢组检测(小鼠脑脊液、血清和粪便)+单细胞测序(小鼠前额叶皮质(mPFC))+RNA-seq(小鼠mPFC)

    研究思路

    从以下五个维度层层递进开展研究,

    行为学水平——肠道菌群缺乏与恐惧记忆消退的关系

    转录组水平——恐惧消退学习是否改变mPFC转录组

    单细胞水平——哪些细胞的异常可能导致了恐惧消退学习缺陷

    组织学水平——恐惧消退学习异常与组织学变化

    代谢组水平——肠道菌群可能通过哪些代谢物影响恐惧消退学习

    研究结果

    本研究从五个维度并借助多组学实验阐释了肠道菌群调节神经元功能和恐惧消退学习的可能机制(见下图)。将看似独立的两个研究对象——肠道菌群和单细胞,合理地结合在一起,发现肠道菌群可能是通过小胶质细胞的不成熟来破坏树突棘重塑进而导致消退学习的缺陷。再配合组织学成像等实验证据深度论证了肠道菌群对神经元的调节功能。

    扫码看全文

    参考文献:

    Chu C, et al. The microbiota regulate neuronal function and fear extinction learning. Nature. 2019, 574(7779): 543-548.

    Kiraly DD. Gut microbes help mice forget their fear. Nature. 2019, 574(7779): 488-489.

    9.葛根芩连汤通过对肠道菌群和肿瘤微环境的重塑,增强PD-1抑制结直肠癌的效果(IF 5.959)

    发表期刊:Cell Death & Disease

    影响因子:5.959

    发表时间:2019

    研究内容:葛根芩连汤(GQD)和抗PD-1联合治疗抑制结直肠癌(CRC)生长的机制

    样本类型:血浆样本、粪便样本

    实验方法:16S rDNA测序 + 非靶向代谢组

    实验设计

    BALB/c雄性小鼠在特定的无致病性条件下适应性喂养1周,然后口服300 mg/kg(低剂量组),1500 mg/kg(中剂量组),7500 mg/kg GQD(高剂量组)每日1次,共10天。CT26细胞在每只小鼠左侧腋窝区皮下移植1周,造瘤。当肿瘤达到50 mm3的大小,给小白鼠腹腔注射anti-mouse PD-1 ,对照组小鼠给予等量PBS。所有小鼠每三天间隔注射5次PD-1或PBS,在整个动物实验过程中,GQD不间断使用。

    研究思路

    首先抓住多个研究热点:肿瘤免疫治疗、免疫微环境、肠道菌群,再结合特色中药GQD,其次从药理学、化合物潜在作用靶点、动物实验、肿瘤微环境等多个角度证明GQD+抗PD-1联合治疗CRC具有显著效果及可能的作用途径。

    研究结果

    GQD联合PD-1抗体能有效抑制结直肠癌的生长。肠道菌群分析显示,GQD和PD-1联合治疗组可显著丰富肠道菌群,根据代谢组学分析,在联合治疗组中也发现了变化明显的代谢物,及显著富集的甘油磷脂代谢和鞘磷脂代谢通路。此外,GQD和PD-1抗体联合治疗会显著增加外周血和肿瘤组织中CD8+T细胞的比例,GQD与PD-1抗体直接处理可提高其表达IFN-γ,这是抗肿瘤免疫治疗的一个关键因素。此外,GQD与PD-1抗体联合治疗可降低PD-1水平,增加IL-2水平,表明联合治疗可通过抑制免疫检查点,有效恢复T细胞功能。

    扫码看全文

    参考文献:

    Lv J, et al. Gegen Qinlian decoction enhances the effect of PD-1 blockade in colorectal cancer with microsatellite stability by remodelling the gut microbiota and the tumour microenvironment. Cell Death Dis. 2019. 10(6):415.

    10.古氏副拟杆菌在虫草菌丝体多糖抗肥胖中发挥主要作用(IF 17.943)

    发表期刊:Gut

    影响因子:17.943

    发表时间:2018

    研究内容:冬虫夏草菌丝体的多糖产物是如何通过肠道菌群发挥抗肥胖作用

    实验方法:16S rRNA基因测序+粪菌移植

    实验设计

    实验1:HSM及其多糖组分对小鼠体重的影响

    实验2:新霉素消除了H1的抗肥胖作用

    实验3:鉴定H1富集的新霉素敏感肠道菌群

    实验4:体外新霉素处理消除H1的抗肥胖作用

    实验5:口服古氏副拟杆菌(Parabacteroides goldsteinii[A7] )对HFD小鼠具有抗肥胖作用

    研究思路

    从HSM的多糖成分具有抗肥胖功效入手,用粪菌移植证实肠道菌群介导抗肥胖作用,并用抗生素处理加以验证,再通过肠道菌群多样性分析,挖掘出抗肥胖的核心菌,进而实验证实肠道菌群与抗肥胖的因果关系。

    研究结果

    HSM多糖产物改善肥胖的主要机制是通过改变肠道菌群环境,其主要变化包括增加了革兰氏杆菌和其他新霉素敏感菌的水平,这种变化反过来又会提升高脂饮食小鼠的肠道完整性和胰岛素敏感性,并最终减少代谢性内毒素血症、炎症、脂肪沉积、脂肪组织病理及脂肪肝的发展,同时可以刺激机体发热,增加脂肪消耗(见下图)。

    扫码看全文

    参考文献:

    Wu TR, et al. Gut commensal Parabacteroides goldsteinii [A8] plays a predominant role in the anti-obesity effects of polysaccharides isolated from Hirsutella sinensis[P9] . Gut. 2019; 68(2): 248-262.

    相关阅读

    120+篇值得学习的微生物组干货文章集

    扩增子测序,测得更长好还是测得数据更多好?

    微生物组学在肿瘤研究中的新思路 

    中药研究离不开肠道菌群 

    医学16S测序报告:为忙碌的医生而准备 

    展开全文
  • 基于16S_rRNA高通量测序的西藏农牧区牦牛酸奶菌群多样性
  • 16s分析模板

    2015-07-03 16:25:18
    16s分析报告模板,很不多的报告,使用qiime得到的模板,感兴趣的可以看看

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,675
精华内容 6,670
关键字:

16s