精华内容
下载资源
问答
  • QIIME 2教程. 01简介和安装 Introduction & Install(2020.11)

    万次阅读 多人点赞 2017-07-14 12:43:16
    QIIME2 https://qiime2.org/简介QIIME2是微生物组分析软件QIIME(截止17.7.13被引7771次)的全新版(不是升级版),全部python3全新编写,并于明年全面接替QIIME,是代表末来的分析方法标准(大牛...使用方法多样:支持命令

    写在前面

    QIIME是微生物组领域最广泛使用的分析流程,10年来引用20000+次,2019年Nature杂志评为近70年来人体菌群研究的25个里程碑事件——里程碑16:生物信息学工具助力菌群测序数据分。为满足当前大数据、可重复分析的需求,北亚利桑那大学Gregory Caporaso教授于2016年起从头开发了QIIME 2,并获得了来自全世界79家单位的112名同行参与,于2018年全面接档QIIME,文章于2019年8月刊正式发表于世界顶级杂志Nature Biotechnology:QIIME 2可重复、交互和扩展的微生物组数据分析平台

    宏基因组团队于2017年6月加入了项目的测试、教程编写及文章投稿全过程,主要负责中文文档的翻译和传播。

    近一年来,QIIME 2新增了较多功能,如vsearch、时间序列分析、宏基因组和代谢组等众多新插件的加入,预计将来还有宏转录组、宏蛋白组等功能开放,使QIIME 2发现成为多组学分析平台。

    QIIME 2文章于2019年7月24日在线发表,于8月2号正式发表于《自然生物技术》,现全面更新2020.11版本官方用户文档中文版,将在宏基因组公众号首发,官方论坛、Github、CSDN和科学网同步更新。

    QIIME 2的优势

    1. 易安装:曾经QIIME的安装让无数生信人竞折腰,QIIME 2采用Conda软件包管理器,没有管理员权限也可以轻松安装;同时发布了Docker镜像、VirtualBox虚拟机等下载即可运行;
    2. 使用方式多样:支持命令行模式(q2cli),也支持图型用户界面q2studio;还有Python用户喜欢的Artifact API(类似IPython notebook);不安装软件也可以在网页中查看和交互探索数据结果图表;
    3. 分析可重复:全新定义了文件系统,即包括分析数据、也包括分析过程和结果,每一步的结果均可追溯分析过程,方便检查和重复;
    4. 可视化增强:QIIME后发制人,引用量超越早它一年发表的mothur,就是其可视化方面的优势,现可视化结果更加多样、美观,采用全新可交互式图形系统,探索数据更方便;
    5. 方便合作:项目很少一个人可以完成,多人多地结果图表方便共享,适合当下科研多人合作的需求;
    6. 可扩展:QIIME 2不再是一个软件,更是一个平台,支持自定义功能并定制分析流程;高手可以自己写插件,加入QIIME2的流程中了;
    7. 社区优势:目前已经有100多位作者参与本项目,有新功能想要增强QIIME 2的小伙伴,赶快行动为QIIME 2添砖加瓦吧!
    8. 中文教程支持:在宏基因组公众号、QIIME 2官方论坛、CSDN和科学网会更新中文教程,而且配有视频讲解,还有QIIME 2专题微信群(扫码文末添加主编好友,务必备注“姓名-单位-研究方向-职务/年级-QIIME2”方可入群)。

    QIIME 2用户文档(版本:2020.11)

    https://docs.qiime2.org/2020.11/

    正文共:8575 字 1 图 2 视频

    预计阅读时间: 20 分钟,视频 21 + 27 分钟

    更新时间:2020年12月13日

    image

    视频:QIIME 2用户文档01.1 简介

    https://v.qq.com/x/page/r0910dnzmof.html

    视频有广告,清晰度不够高吗?后台回复“qiime2”获得1080p视频、测试数据下载链接

    入门指南

    Getting started

    https://docs.qiime2.org/2020.11/getting-started/

    微生物组(目前以扩增子16S为主)分析是一个即复杂又成熟的领域。复杂是指它的分析种类、方法、步骤特别多,初学者会感到压迫感,但只要肯花几天时间还是可以轻松上手的,再经过几个月的练习和实践,很快很成为领域内的技术小达人,相对于国内5-8年的硕博生涯,如果课题涉及扩增子分析,还是值得投入时间学习,花上2周时间系统学习本教程。如果你只是课题小部分涉及扩增子分析,可学习即将推出的简明教程,6千余字半天即可完成。

    本指南将帮助你学习必备的知识,来完成理解、安装和使用QIIME 2,并实现分析你自己的微生物组数据。

    下面是学习的顺序:

    1. 先熟悉QIIME2的核心概念
    2. 安装QIIME2
    3. 通篇跟着QIIME2教程完成微生物组分析。推荐先学习概述(grand overview)人体微生物组(Moving Pictures)的教程,接下来再学习粪菌移植(FMT study)沙漠土壤(Atacama Desert soils)分析教程。
    4. 最后可以尝试不同的工作界面,QIIME 2运行多种用户界面,之前你使用的是q2cli的命令行模型。可以查看interfaces文档了解不同的工作界面。例如,喜欢使用图型界面的用户,可以使用QIIME2 Studio;喜欢Python3 Jupyter Notebook的用户可选Artifact API界面。

    什么是QIIME 2?

    What is QIIME 2?

    https://docs.qiime2.org/2020.11/about/

    QIIME 2是一款强大、可扩展和去中心化的微生物组分析平台,强调数据分析透明。QIIME 2可以使研究者从原始DNA序列开始分析,直接获取出版级的统计和图片结果。

    主要特点:

    • 整合分析流程、自动化追踪数据来源
    • 语义类型系统,自动识别输入文件类型
    • 插件系统可扩展微生物分析功能种类
    • 支持多种用户界面,如API、命令行、图形界面

    QIIME 2是对QIIME 1完全重新设计并重写的微生物组分析流程。QIIME 2保留了QIIME 1强大和广泛使用的优点,同时改进了其众多不足之处。

    QIIME 2当前支持从头到尾的完整微生物组分析流程。通常QIIME 2插件功能,不断有新功能可用。可以在可用插件列表中查找当前可用的插件。在未来可用插件页列出了正在开发的插件。

    核心概念

    Core concepts

    https://docs.qiime2.org/2020.11/concepts/

    基本概念的学习信息量较大,有基础的同行可直接跳过本章,进行下面的软件安装和接下来的数据分析。学习中有疑问和不懂的词,请返回本章扫清新词和概念的障碍。

    想要深入理解QIIME2的分析过程,QIIME定义的核心概念需要了解一下。

    数据文件: QIIME 2对象/文件格式

    Data files: QIIME 2 artifacts

    详者注:QIIME2为了使分析流程标准化,分析过程可重复,制定了统一的分析过程文件格式.qza;qza文件类似于一个封闭的文件格式(本质上是个标准格式的压缩包),里面包括原始数据、分析的过程和结果;这样保证了文件格式的标准,同时可以追溯每一步的分析,以及图表的绘制参数。这一方案为实现可重复分析提供了基础。比如文章投稿,同时提供分析过程的文件,方便同行学习、重复结果分析以及结果的再利用。

    由QIIME 2产生的数据类型,叫QIIME 2对象(artifacts),通常包括数据和元数据/样本信息(metadata)。元数据描述数据,包括类型、格式和它如何产生。典型的扩展名为.qza

    QIIME 2采用对象代替原始数据文件(如fasta文件),因此分析者必须导入数据来创建QIIME 2对象。虽然典型的分析是从原始数据开始导入QIIME 2,但你可以在分析的任何步骤导入数据为对象。QIIME 2也有工具可以从QIIME2文件中导出数据,详见导出(importing)章节

    使用QIIME2对象代替简单的数据,可以自动追踪文件类型、格式和分析过程。使用QIIME 2文件,研究者可以专注于分析,而无需考虑过程中的各种数据类型。

    QIIME2对象可以查看之前的分析过程,每步使用的输入数据。这种自动化、整合和去中心化的数据追溯,可以使研究者保存QIIME2跟踪、发送给合作者、准确知道它的分析步骤。这样使分析过程可重复,可学习,也可以产生在方法中使用的文本和图表。追溯支持和鼓励使用适合的属性产生QIIME2对象(如FastTree构建系统发生树).

    注意:我们已经注意到使用artifact(对象)一词可能产生混淆,因为生物学家通常理解的意思为实验偏差的来源。我们这里artifact的意思是指被多步处理的对象,有点像考古学中的文物。在我们的文档和其它教程中,我们要清楚这里说明的QIIME2对象(artifact)的含义。

    数据文件:可视化

    Data files: visualizations

    QIIME2生成的图表结果对象或文件类型,以.qzv为扩展名,末尾的v代表visual;它同qza文件类似,包括分析方法和结果,方便追溯图表是如何产生的;唯一与qza不同的,它是分析的终点,即结果的呈现,不会在流程中继续分析。可视化的结果包括统计结果表格、交互式图像、静态图片及其它组合的可视化呈现。这类文件可以使用QIIME2 qiime tools view命令查看。

    提示:不安装QIIME2程序也可在线 https://view.qiime2.org/ 导入文件并显示结果图表,同时可查看数据分析过程;这将方便与不使用QIIME 2的合作者分享结果。

    语义类型

    Semantic types

    QIIME2每步分析中产生的qza文件,都有相应的语义类型,以便程序识别和分析。例如,分析期望的输入是距离矩阵,QIIME2可以决定那个文件拥有距离矩阵的语言类型,以防上不合理的输入文件进行分析(如一个QIIME2对象代表的是系统发生树)。

    语言义型了也帮助用户避免引入不合理的分析过程。例如,一个特征表(feature table)包括有、无的数据(1代表OTU观察到至少1次,0代表没有)。然而,当它作为输入计算有权重的UniFrac时可成功运算,但结果无意义。

    了解分析各步的结果,才能对分析有更深入和全面的认识。语义类型页查看所有支持的语义类型

    插件

    Plugins

    QIIME2中的用户的某个特定功能即为插件,你可以安装并完成分析,比如拆分样品的q2-demux插件、Alpha-或beta-多样性分析的q2-diversity插件等。

    插件是软件包,每个人都可以开发。QIIME 2团队已经开完了一套完整的微生物组分析流程,也鼓励第三方工具作为插件来提供额外的分析功能。QIIME 2社区建立了标准化分析插件的开发说明,其他用户按其标准开发的特定分析,并可与团队联系发布,并整合入分析平台。这种去中心化的方法,可以使最新的技术、方法快速部署于QIIME 2平台中,方便QIIME 2用户使用。插件也允许用户为某种特定需求选择、自定义分析流程。

    检查可用插件页面,查看当前可用的插件。查看未来插件页,查看正开发的功能。

    方法和可视化工具

    Methods and visualizers

    QIIME 2插件定义的用于进行分析的方法和可视化工具类型。

    方法是对QIIME2定义的输入对象进行操作的过程,包括命令和参数,并产生1个或多个标准格式的输出。这一结果可以后续分析或可视化,产生中间或末端的输出。例如rarefy方法,输入文件为q2-feature-table插件产生的特征表,输出文件为样本深度一致的特征表。它可以作为输入文件,用于alpha多样性分析中的q2-diversity方法。输入和输出均为qza文件;

    可视化工具定义了标准输入,包括QIIME 2对象和参数的组合,产生统计表格或可视化图形,方便用户解读,输入为qza格式,输出为qzv,文件不仅包括结果,还包括处理的分析命令和参数,方便重复和检查分析过程是否准确。可视化的结果文件qzv是分析的终点,不可以进一步分析。

    安装QIIME 2

    Installing QIIME 2

    https://docs.qiime2.org/2020.11/install/

    有多种安装方法,有Linux服务器的伙伴推荐使用Conda安装,如果还存在兼容性问题可尝试Docker安装解决,想在windows笔记本上体验的朋友可使用Virtualbox虚拟机安装并学习。其它情况根据自己的环境选择以下方法其一即可。

    视频:QIIME 2用户文档01.2 安装

    https://v.qq.com/x/page/v0910kbk3o0.html

    视频有广告,清晰度不够高吗?后台回复“qiime2”获得1080p视频、测试数据下载链接

    原生安装QIIME 2

    Natively installing QIIME 2

    https://docs.qiime2.org/2020.11/install/native/

    下面的教程将介绍如何安装 QIIME 2 Core 2020.11 distribution

    注意:QIIME 2当前不能在Windows环境下运行,我们建议使用QIIME 2 virtual machines虚拟机方式运行(译者注:虚拟机效率较低,一般无法运行大数据,只建议学习、开展100样品以内小数据分析体验)。

    Miniconda软件包管理器安装(需要有Linux服务器,但无需管理员权限)提供的conda命令,可以快速安装QIIME 2程序和相关插件。

    本人测试采用Miniconda2安装QIIME 2 2019.7于18.04.3 LTS(64-bit),当然,你也可以是其它的Linux发行版如CentOS 7,或macOS 64-bit也可。

    安装Miniconda

    Install Miniconda

    miniconda官网:https://conda.io/miniconda.html

    有conda的请跳过安装Miniconda段落,更多conda的使用经验请阅读

    下载并安装MiniConda2

    # 下载最新版miniconda2
    wget -c https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh
    # 运行安装程序
    bash Miniconda2-latest-Linux-x86_64.sh
    # 删除安装程序,下次你会下载新版
    rm Miniconda2-latest-Linux-x86_64.sh
    

    按安装过程中按提示操作:

    1. Please, press ENTER to continue,按回车键查看许可协议,再按空格键翻页完成全文阅读;
    2. Do you accept the license terms? [yes|no],是否同意许可协议,输入yes同意许可;
    3. 提示默认安装目录为你的家目录下~/miniconda2目录,可手动输入一个你指定的安装目录,推荐按回车确认使用此目录;
    4. Do you wish the installer to initialize Miniconda2 by running conda init? [yes|no],提示是否默认启动conda环境,这里输入yes并回车。

    注:安装成功,并提示如果想关闭自启动conda base环境,可以使用conda config --set auto_activate_base false关闭。

    如果你下面运行安装没有权限,请运行 export PATH="~/miniconda2/bin:$PATH" 手动添加新安装的miniconda2至环境变量,或尝试source ~/.bashrc更新环境变量

    注:安装结束时提示是否添加至你的环境变量~/.bashrc,我选一般选no。因为选yes可直接将conda环境加入环境变量的最高优先级,使用方便,但conda里的环境如 Python变为默认环境,破坏你之前依赖Python的软件环境。而选no不添加保证之前软件安装环境不变,但运行conda及相关程序时,需要运行一条命令临时添加~/miniconda2/bin目录至环境变量,或使用绝对路径执行相关程序 。

    以后想要使用conda,需要运行如下命令将conda临时添加环境变量

    export PATH="~/miniconda2/bin:$PATH"

    但如果是新环境,或要经常使用QIIME 2,推荐使用默认的添加环境变量更方便。你刚才同意添加环境变量,完成后关闭当前终端,新打开一个终端继续操作才能生效。如果你系统已经有很多程序,添加conda至环境变量可能引起之前软件的依赖关系被破坏。

    (可选)添加常用软件下载频道,以及国内镜像加速下载。
    升级conda为最新版:新版的bug最少,碰到问题的机率也小。

    # 添加常用下载频道
    conda config --add channels defaults
    conda config --add channels conda-forge
    conda config --add channels bioconda
    
    # 添加清华镜像加速下载
    site=https://mirrors.tuna.tsinghua.edu.cn/anaconda
    conda config --add channels ${site}/pkgs/free/ 
    conda config --add channels ${site}/pkgs/main/
    conda config --add channels ${site}/cloud/conda-forge/
    conda config --add channels ${site}/pkgs/r/
    conda config --add channels ${site}/cloud/bioconda/
    conda config --add channels ${site}/cloud/msys2/
    conda config --add channels ${site}/cloud/menpo/
    conda config --add channels ${site}/cloud/pytorch/
    
    # 升级conda及相关程序
    conda update conda
    
    # 安装下载工具
    conda install -y wget
    

    注:软件安装时会提示是否安装时,点y,再回车可完成安装。也可像上面代码加-y参数直接确定,无提示。
    conda安装时,有时在Collecting package metadata、和Solving environment等步骤需要等待较长时间,如几分钟至几十分钟,请耐心,一般还是会比手动安装软件要节约更多时间。

    关于Conda的安装和使用,教程详见下文:

    conda环境安装QIIME 2

    Install QIIME 2 within a conda environment

    有macOS和Linux(64-bit)两种系统可选,这里以Linux (64-bit)为例,Mac用记安装代码参阅官网

    mkdir -p 2020.11 && cd 2020.11
    # 下载软件安装列表,官方源不容易下载
    # wget -c https://data.qiime2.org/distro/core/qiime2-2020.11-py36-linux-conda.yml
    # 只有6k,但数据来源于github,有时无法下载,可以从我的github或后台回复“qiime2”获取备份链接,
    # 或访问 http://210.75.224.110/github/QIIME2ChineseManual/2020.11/qiime2-2020.11-py36-linux-conda.yml 下载
    wget -c http://210.75.224.110/github/QIIME2ChineseManual/2020.11/qiime2-2020.11-py36-linux-conda.yml
    # 创建虚拟环境并安装qiime2,防止影响其它己安装软件
    # 我用时13m,供参考,主要由网速决定
    time conda env create -n qiime2-2020.11 --file qiime2-2020.11-py36-linux-conda.yml
    # 删除软件列表
    # rm qiime2-2020.11-py36-linux-conda.yml
    

    从yml的软件列表文件中可以得知,QIIME 2依赖的软件多达336个。

    下载安装所有依赖关系,时间主要由网速决定,我第一次安装1个多小时还中断了。再重试是可以继续末完成的任务,很快就成功了。如果添加有国内的镜像,半小时内可以搞定,详细上文conda配置文章,本次33m搞定。

    注:如果 https://data.qiime2.org/distro/core/qiime2-2020.11-py36-linux-conda.yml 下载失败,可手动下载此链接,并上传到服务器。或在后台回复“qiime2”获取链接。或访问备用链接:http://210.75.224.110/github/QIIME2ChineseManual/2020.11/qiime2-2020.11-py36-linux-conda.yml

    QIIME 2环境的启动

    Activate the conda environment
    下面我们进入虚拟环境,
    如果想不起来你建议的虚拟环境名称,用如下命令查看:

    conda info --envs

    激活工作环境,需要几十秒,命令如下:

    conda activate qiime2-2020.11

    测试安装是否成功

    Test your installation

    检查是否安装成功,弹出程序帮助即成功

    qiime --help

    QIIME 2运行成功,显示如下帮助信息:

    Usage: qiime [OPTIONS] COMMAND [ARGS]...
      QIIME 2 command-line interface (q2cli)
    ......
    Commands:
      info                Display information about current deployment.
    ......
    

    关闭工作环境

    conda deactivate

    不用QIIME 2时关闭环境,不然你其它程序可能找不到或运行可能会出错

    软件升级

    How do I update to the newest version of QIIME 2?

    QIIME 2虽然经常更新,但每个版本独立,不支持升级。如果有新版本可用,可按照说明安装至另一个新的conda环境中,互不干扰,只是环境名称不同,以版本号区分。
    删除旧版本的QIIME 2

    比如我还有之前安装的QIIME 2 2020.8

    删除的方法是:conda env remove -n qiime2-2020.8

    可以瞬间删除你这么久安装的环境。

    虚拟机安装

    Installing QIIME 2 using Virtual Machines

    https://docs.qiime2.org/2020.11/install/virtual/

    虚拟机安装有三种可选方法,分别为VirtualBox,Amazon云服务,和Docker。目前只推荐上面提的conda方式安装,可以满足绝大多数用户需求。如虚拟机安装仍有需求较多,如留言超过10条,我们将会考虑更新虚拟机安装详细的中文教程。下面有简明教程供参考,不详之处参考原文。

    使用VirtualBox方式安装(不推荐)

    https://docs.qiime2.org/2020.11/install/virtual/virtualbox/

    此步至少需要 ~25 GB硬盘空间

    Virutalbox是一款强大的虚拟机,可以在Windows / Linux / Mac平台运行,并加载制作好的系统镜像运行。适合Windows配置较高的台式机、笔记本学习QIIME 2使用。

    主要步骤(以Win操作系统为例):

    1. 首先下载虚拟机,网址是:https://www.virtualbox.org。一定要注意,虚拟机版本需要和QIIME 2镜像的版本匹配,否则无法使用。下面这个地址可以查看这二者匹配情况:https://s3-us-west-2.amazonaws.com/qiime2-data/distro/core/virtualbox-images.txt
    2. 下载QIIME 2镜像,目前最新版本下载地址是: https://data.qiime2.org/distro/core/2020.8 ,大小4.8GB。注意该版本需要配合虚拟机6.1.12版本才能使用,该版本虚拟机下载地址是:https://download.virtualbox.org/virtualbox/6.1.12/VirtualBox-6.1.12-139181-Win.exe
    3. 解压下载的QIIME2镜像压缩包;
    4. 双击压缩包中的镜像文件QIIME 2 Core - X.Y.Z (build_number).ovf,按提示导入镜像。
    5. 启动虚拟机,进入基于Ubuntu系统的QIIME 2工作环境;
    6. 菜单中安装Guest Additions,获取加载目录功能,并设置共享目录用于读取外部数据。

    详细图文教程见官方,中文Virutal box使用教程参考 《扩增子分析QIIME. 1虚拟机安装配置及挂载外部目录》

    亚马逊云安装

    Installing QIIME 2 using Amazon Web Services

    我没有亚马逊云的测试平台,有需要的用户,详见官方说明:
    https://docs.qiime2.org/2020.11/install/virtual/aws/

    使用Docker方式安装

    Installing QIIME 2 using Docker

    一般仅当conda无法安装、或安装完无法使用时,尝试本方法安装,提高运行成功率。

    1. 安装Docker,详见 https://www.docker.com ,Linux可能需要在管理员权限安装和设置用户分组

    以Ubuntu系统安装为例(已安装,请跳过)

    sudo apt install docker.io

    添加用户至docker组,请在管理员权限下运行,并修改为自己的用户名

    USER=yourname
    sudo usermod -aG docker ${USER}
    

    我比较喜欢使用docker,直接下载预配置好的系统使用,对本地系统无影响

    Dokcer的基本操作可参考宏基因组公众号的教程《扩增子分析流程2.使用Docker运行QIIME》,和《Docker的基本使用-Ubuntu18.04》

    1. 下载QIIME 2镜像

    需要下载3Gb的镜像数据,一般工作时间下载要1小时,下班时间单位不限速,7分钟搞定啦,Docker服务器的速度还是相当可以的(测试时此版本docker还末更新)。

    time docker pull qiime2/core:2020.11 # real    7m16.499s
    
    1. 确定安装是否成功

    运行QIIME2 docker

    docker run -t -i -v $(pwd):/data qiime2/core:2019.7 qiime
    # 启动docker命令行,挂载当前目录至虚拟机中/data目录,运行qiime测试
    
    # 方法2. 进入镜像分析数据
    docker run --rm -v $(pwd):/data --name=qiime -it  qiime2/core:2019.7
    # 这就相当于打开了一个软件工作环境,目录/data为当前工作目录,可方便分析数据
    # 可以按Ctrl+D退出当前虚拟机的环境,详见上面docker的使用教程
    

    使用Windows子系统Linux方式安装(推荐)

    此种方法推荐Windows 10用户使用,安装方便、效率高,详见下文。

    建议

    Recommendations

    通常建议使用本机conda安装,但这并不总是可用,也不是在所有情况下都简单易用的选项。 通常,我们建议以下内容:

    • macOS用户
      • 本地conda安装通常效果很好
      • Docker和VirtualBox是很好的备份选项
    • Windows用户
      • 在较新版本的Windows上,通常可以很好地在Windows Linux子系统中执行本地conda安装。
      • 有关如何为Linux设置Windows子系统的说明,请参阅WSL指南
      • Docker和VirtualBox是很好的备份选项
    • Linux用户
      • 本地conda安装通常效果很好
      • Docker和VirtualBox是很好的备份选项

    QIIME 2 2020.11版本核心插件

    QIIME 2 Core 2020.11 distribution

    https://docs.qiime2.org/2020.11/install/#qiime-2-core-2020-11-distribution

    QIIME 2 2020.11版本默认安装包括q2cli的命令行分析工作环境和如下插件,共22个主要功能模块:

    • q2-alignment # 生成和操作多序列比对
    • q2-composition # 用于物种数据分析
    • q2-cutadapt # 从序列数据中删除接头序列,引物和其他不需要的序列
    • q2-dada2 # 序列质量控制
    • q2-deblur # 序列质量控制
    • q2-demux # 混池测序样本拆分和查看序列质量
    • q2-diversity # 探索群落多样性
    • q2-diversity-lib #多样性分析插件,2020.8月新增
    • q2-emperor # beta多样性3D可视化
    • q2-feature-classifier # 物种注释
    • q2-feature-table # 按条件操作特征表
    • q2-fragment-insertion # 系统发育树扩展,确定准确的进化地位
    • q2-gneiss # 构建组合模型
    • q2-longitudinal # 成对样本和时间序列分析
    • q2-metadata # 处理元数据
    • q2-phylogeny # 生成和操纵系统发育树
    • q2-quality-control # 用于特征和序列数据质量控制
    • q2-quality-filter # 基于PHRED的过滤和修剪
    • q2-sample-classifier # 样本元数据的机器学习预测
    • q2-taxa # 处理特征物种分类注释
    • q2-types # 定义微生物组分析的类型
    • q2-vsearch # 聚类和去冗余

    插件的功能见上方qiime --help弹出的信息

    注:QIIME 2 Core 2020.11发行版包括由QIIME 2开发团队开发,维护,测试和发布插件和接口。 核心发布是运行QIIME 2教程中的命令所必需的。 如果您想安装其他QIIME 2插件或接口,请参阅相关的软件包文档。 除了Core之外,未来还可以提供其他类型的发行版。

    译者简介

    刘永鑫,博士,中科院青促会会员,QIIME 2项目参与人。2008年毕业于东北农业大学微生物学专业,2014年于中国科学院大学获生物信息学博士,2016年遗传学博士后出站留所工作,任工程师。目前主要研究方向为宏基因组数据分析。目前在***Science、Nature Biotechnology、Protein & Cell、Current Opinion in Microbiology***等杂志发表论文30余篇,被引2千余次。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章2400余篇,代表作有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》《微生物组实验手册》《微生物组数据分析》等,关注人数11万+,累计阅读1800万+。

    Reference

    https://docs.qiime2.org/2020.11

    Evan Bolyen*, Jai Ram Rideout*, Matthew R. Dillon*, Nicholas A. Bokulich*, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37(8): 852-857. doi:10.1038/s41587-019-0209-9

    猜你喜欢

    写在后面

    为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
    image

    学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
    image

    image

    点击阅读原文,跳转最新文章目录阅读
    https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

    展开全文
  • 使用q2-vsearch聚类序列为OTUsClustering sequences into OTUs using q2-vsearch目前QIIME2支持三个聚类方式:无参(De nov...

    使用q2-vsearch聚类序列为OTUs

    Clustering sequences into OTUs using q2-vsearch

    目前QIIME2支持三个聚类方式:无参(De novo), 有参(closed-reference), 和半有参(open-reference clustering,即先有参比对再将无法比对序列进行无参聚类)。

    目前运行vsearch仅能对拆分和质控后的数据进行OTUs聚类 (如SampleData[Sequences]对象), 或质控后的特征表和代表性序列(如FeatureTable[Frequency]FeatureData[Sequence]对象, 这些文件可以由qiime dada2 denoise-*qiime deblur denoise-*命令产生)。第一选择需要两步(在将来可能一步就搞定)。第二选择只需一步完成。

    QIIME 1用户:在QIIME1中,由split_libraries*.py命令进行样本序列拆分、质量过滤,生成文件为seqs.fna

    在学习完本教程之后,您将知道如何运行从头,封闭参考和开放参考集群。这将从一个QIIME 1 seqs.fna文件开始进行说明,该文件将被读取到SampleData [Sequences]工件中。如果您已经具有要聚类的FeatureTable [Frequency]和FeatureData [Sequence]工件,则可以跳到本教程的FeatureTable [Frequency]和FeatureData [Sequence]聚类。

    下载数据

    mkdir -p otu-clustering
    cd otu-clustering
    
    wget -c https://data.qiime2.org/2020.11/tutorials/otu-clustering/seqs.fna
    wget -c https://data.qiime2.org/2020.11/tutorials/otu-clustering/85_otus.qza

    序列去冗余

    Dereplicating a SampleData[Sequences] artifact

    如果您开始分析时使用的是样本拆分、质量控制的序列,例如QIIME 1的seqs.fna文件中的序列,那么第一步是将数据导入为QIIME 1对象。这里使用的语义类型是SampleData[Sequences],表示数据是一个或多个样本的序列集合。

    qiime tools import \
      --input-path seqs.fna \
      --output-path seqs.qza \
      --type 'SampleData[Sequences]'

    输出对象:

    • 85_otus.qza: 按85%相似度聚类的OTU。

      查看 | 下载

    • seqs.qza: 导入的序列文件。

      查看 | 下载

    导入后,使用dereplicate-sequences进行序列去冗余

    qiime vsearch dereplicate-sequences \
      --i-sequences seqs.qza \
      --o-dereplicated-table table.qza \
      --o-dereplicated-sequences rep-seqs.qza

    输出结果:

    • rep-seqs.qza: 代表序列。

      查看 | 下载

    • table.qza: 特征表。

      查看 | 下载

    序列去冗余dereplicate-sequences的输出是一个FeatureTable[Frequency]和一个FeatureData[Sequence]对象。FeatureTable[Frequency]对象是特征表,指示在每个样本中观察到的每个Amplicon序列变体(ASV)的次数。FeatureData[Sequence]对象包含每个功能标识符到定义该特征序列变量的映射。这些文件类似于qiime dada2 denoise-*qiime deblur denoise-*生成的文件,只是在去噪过程中没有应用去噪、去除嵌合体或其他质量控制。(在本例中,这些数据的唯一质量控制是在导入import步骤之前,即在QIIME 2之外的程序进行的)

    特征[频率]和特征数据[序列]的聚类

    Clustering of FeatureTable[Frequency] and FeatureData[Sequence]

    QIIME2中的OTU聚类目前应用于一个 FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。这些对象可以来自各种分析流程,包括qiime vsearch dereplicate-sequences(如上所示)、qiime dada2 denoise-*qiime deblur denoise-*,或者下面所示的一个聚类过程(例如,以较低的百分比序列一致率对数据进行重新聚类)。

    FeatureData[Sequence]对象中的序列两两比对(de novo 聚类)或比对参考数据库(closed-reference聚类),然后可折叠特征表FeatureTable中的特征,从而形成输入特征的新特征聚类。

    无参/从头聚类

    De novo clustering

    特性表的无参(从头/新)聚类(De novo clustering)可以用如下命令实现。在这个例子中,聚类是按序列相似度99%的水平执行的,以创建99%的OTU。

    qiime vsearch cluster-features-de-novo \
      --i-table table.qza \
      --i-sequences rep-seqs.qza \
      --p-perc-identity 0.99 \
      --o-clustered-table table-dn-99.qza \
      --o-clustered-sequences rep-seqs-dn-99.qza

    输出对象:

    • table-dn-99.qza: 99%相似度聚类的OTUs表。

      查看 | 下载

    • rep-seqs-dn-99.qza: 99%相似度聚类的代表序列。

      查看 | 下载

    该过程的输出是FeatureTable [Frequency]对象和FeatureData [Sequence]对象。FeatureData [Sequence]对象将包含定义每个OTU聚类的质心(centroid)序列,即最高丰度序列。

    有参聚类

    Closed-reference clustering

    特性表的有参聚类可以用如下方法执行。在这个例子中,聚类是在85%的一致性下对GreenGenes 13_8 85%的OTU参考数据库进行比对的。参考数据库作为FeatureData[Sequence]对象。

    注释:有参OTU聚类通常以更高的相似度合并,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比处对聚集在同一百分比相似度的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行有参聚类的最佳方法。

    qiime vsearch cluster-features-closed-reference \
      --i-table table.qza \
      --i-sequences rep-seqs.qza \
      --i-reference-sequences 85_otus.qza \
      --p-perc-identity 0.85 \
      --o-clustered-table table-cr-85.qza \
      --o-clustered-sequences rep-seqs-cr-85.qza \
      --o-unmatched-sequences unmatched-cr-85.qza

    输出对象:

    • table-cr-85.qza: 特征表。

      查看 | 下载

    • unmatched-cr-85.qza: 无法比对的序列。

      查看 | 下载

    • rep-seqs-cr-85.qza: 代表序列。

      查看 | 下载

    cluster-features-closed-reference输出的结果是一个FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。在这种情况下,序列FeatureData[Sequence]对象不是定义FeatureTable中特征的序列,而是特征ID及其按85%相似度匹配序列的集合。作为输入提供的参考序列被用作定义有参OTU中的特征序列。

    半有参/开放参考聚类

    Open-reference clustering

    像上面的有参聚类示例一样,可以使用qiime vsearch cluster-features-open-reference命令执行半有参(开放参考)聚类。

    注:半有参OTU聚类通常以更高的百分比一致率执行,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比一致率对有相同百分比一致率聚类的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行半有参(开放参考)聚类的最佳方法。

    qiime vsearch cluster-features-open-reference \
      --i-table table.qza \
      --i-sequences rep-seqs.qza \
      --i-reference-sequences 85_otus.qza \
      --p-perc-identity 0.85 \
      --o-clustered-table table-or-85.qza \
      --o-clustered-sequences rep-seqs-or-85.qza \
      --o-new-reference-sequences new-ref-seqs-or-85.qza

    输出对象:

    • new-ref-seqs-or-85.qza: 新参考序列。

      查看 | 下载

    • rep-seqs-or-85.qza: 代表序列。

      查看 | 下载

    • table-or-85.qza: 特征表。

      查看 | 下载

    cluster-features-open-reference输出结果是一个FeatureTable[Frequency]对象和两个FeatureData[Sequence]对象。其中一FeatureData[Sequence]对象表示聚集的序列,而另一个对象表示新的参考序列,由用于输入的参考序列以及作为内部重新聚集步骤的一部分聚集的序列组成。

    译者简介

    刘永鑫,博士,高级工程师,中科院青促会会员,QIIME 2项目参与人。2008年毕业于东北农业大学微生物学专业,2014年于中国科学院大学获生物信息学博士,2016年遗传学博士后出站留所工作,任工程师,研究方向为宏基因组数据分析。目前在Science、Nature Biotechnology、Protein & Cell、Current Opinion in Microbiology等杂志发表论文30余篇,被引3千余次。2017年7月创办“宏基因组”公众号,分享宏基因组、扩增子研究相关文章2400余篇,代表作有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》《微生物组实验手册》《微生物组数据分析》等,关注人数11万+,累计阅读2100万+。

    Reference

    https://docs.qiime2.org/2020.11

    Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. doi:10.1038/s41587-019-0209-9

    猜你喜欢

    10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

    系列教程:微生物组入门 Biostar 微生物组  宏基因组

    专业技能:学术图表 高分文章 生信宝典 不可或缺的人

    一文读懂:宏基因组 寄生虫益处 进化树

    必备技能:提问 搜索  Endnote

    文献阅读 热心肠 SemanticScholar Geenmedical

    扩增子分析:图表解读 分析流程 统计绘图

    16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

    在线工具:16S预测培养基 生信绘图

    科研经验:云笔记  云协作 公众号

    编程模板: Shell  R Perl

    生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

    写在后面

    为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

    学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

    点击阅读原文,跳转最新文章目录阅读

    展开全文
  • 文章目录前情提要使用`q2-vsearch`聚类序列为OTUs下载数据序列去冗余特征[频率]和特征数据[序列]的聚类无参聚类有参聚类半有参聚类Reference译者简介猜你喜欢写在后面 前情提要 NBT:QIIME 2可重复、交互和扩展的...

    使用q2-vsearch聚类序列为OTUs

    Clustering sequences into OTUs using q2-vsearch

    目前QIIME2支持三个聚类方式:无参(De novo), 有参(closed-reference), 和半有参(open-reference clustering,即先有参比对再将无法比对序列进行无参聚类)。

    目前运行vsearch仅能对拆分和质控后的数据进行OTUs聚类 (如SampleData[Sequences]对象), 或质控后的特征表和代表性序列(如FeatureTable[Frequency]FeatureData[Sequence]对象, 这些文件可以由qiime dada2 denoise-*qiime deblur denoise-*命令产生)。第一选择需要两步(在将来可能一步就搞定)。第二选择只需一步完成。

    QIIME 1用户:在QIIME1中,由split_libraries*.py命令进行样本序列拆分、质量过滤,生成文件为seqs.fna

    在学习完本教程之后,您将知道如何运行从头,封闭参考和开放参考集群。 这将从一个QIIME 1 seqs.fna文件开始进行说明,该文件将被读取到SampleData [Sequences]工件中。 如果您已经具有要聚类的FeatureTable [Frequency]和FeatureData [Sequence]工件,则可以跳到本教程的FeatureTable [Frequency]和FeatureData [Sequence]聚类。

    下载数据

    mkdir -p otu-clustering
    cd otu-clustering
    
    wget -c https://data.qiime2.org/2020.11/tutorials/otu-clustering/seqs.fna
    wget -c https://data.qiime2.org/2020.11/tutorials/otu-clustering/85_otus.qza
    

    序列去冗余

    Dereplicating a SampleData[Sequences] artifact

    如果您开始分析时使用的是样本拆分、质量控制的序列,例如QIIME 1的seqs.fna文件中的序列,那么第一步是将数据导入为QIIME 1对象。这里使用的语义类型是SampleData[Sequences],表示数据是一个或多个样本的序列集合。

    qiime tools import \
      --input-path seqs.fna \
      --output-path seqs.qza \
      --type 'SampleData[Sequences]'
    

    输出对象:

    导入后,使用dereplicate-sequences进行序列去冗余

    qiime vsearch dereplicate-sequences \
      --i-sequences seqs.qza \
      --o-dereplicated-table table.qza \
      --o-dereplicated-sequences rep-seqs.qza
    

    输出结果:

    序列去冗余dereplicate-sequences的输出是一个FeatureTable[Frequency]和一个FeatureData[Sequence]对象。FeatureTable[Frequency]对象是特征表,指示在每个样本中观察到的每个Amplicon序列变体(ASV)的次数。FeatureData[Sequence]对象包含每个功能标识符到定义该特征序列变量的映射。这些文件类似于qiime dada2 denoise-*qiime deblur denoise-*生成的文件,只是在去噪过程中没有应用去噪、去除嵌合体或其他质量控制。(在本例中,这些数据的唯一质量控制是在导入import步骤之前,即在QIIME 2之外的程序进行的)

    特征[频率]和特征数据[序列]的聚类

    Clustering of FeatureTable[Frequency] and FeatureData[Sequence]

    QIIME2中的OTU聚类目前应用于一个 FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。这些对象可以来自各种分析流程,包括qiime vsearch dereplicate-sequences(如上所示)、qiime dada2 denoise-*qiime deblur denoise-*,或者下面所示的一个聚类过程(例如,以较低的百分比序列一致率对数据进行重新聚类)。

    FeatureData[Sequence]对象中的序列两两比对(de novo 聚类)或比对参考数据库(closed-reference聚类),然后可折叠特征表FeatureTable中的特征,从而形成输入特征的新特征聚类。

    无参/从头聚类

    De novo clustering

    特性表的无参(从头/新)聚类(De novo clustering)可以用如下命令实现。在这个例子中,聚类是按序列相似度99%的水平执行的,以创建99%的OTU。

    qiime vsearch cluster-features-de-novo \
      --i-table table.qza \
      --i-sequences rep-seqs.qza \
      --p-perc-identity 0.99 \
      --o-clustered-table table-dn-99.qza \
      --o-clustered-sequences rep-seqs-dn-99.qza
    

    输出对象:

    • table-dn-99.qza: 99%相似度聚类的OTUs表。 查看 | 下载
    • rep-seqs-dn-99.qza: 99%相似度聚类的代表序列。 查看 | 下载

    该过程的输出是FeatureTable [Frequency]对象和FeatureData [Sequence]对象。 FeatureData [Sequence]对象将包含定义每个OTU聚类的**质心(centroid)**序列,即最高丰度序列。

    有参聚类

    Closed-reference clustering

    特性表的有参聚类可以用如下方法执行。在这个例子中,聚类是在85%的一致性下对GreenGenes 13_8 85%的OTU参考数据库进行比对的。参考数据库作为FeatureData[Sequence]对象。

    注释:有参OTU聚类通常以更高的相似度合并,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比处对聚集在同一百分比相似度的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行有参聚类的最佳方法。

    qiime vsearch cluster-features-closed-reference \
      --i-table table.qza \
      --i-sequences rep-seqs.qza \
      --i-reference-sequences 85_otus.qza \
      --p-perc-identity 0.85 \
      --o-clustered-table table-cr-85.qza \
      --o-clustered-sequences rep-seqs-cr-85.qza \
      --o-unmatched-sequences unmatched-cr-85.qza
    

    输出对象:

    cluster-features-closed-reference输出的结果是一个FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。在这种情况下,序列FeatureData[Sequence]对象不是定义FeatureTable中特征的序列,而是特征ID及其按85%相似度匹配序列的集合。作为输入提供的参考序列被用作定义有参OTU中的特征序列。

    半有参/开放参考聚类

    Open-reference clustering

    像上面的有参聚类示例一样,可以使用qiime vsearch cluster-features-open-reference命令执行半有参(开放参考)聚类。

    注:半有参OTU聚类通常以更高的百分比一致率执行,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比一致率对有相同百分比一致率聚类的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行半有参(开放参考)聚类的最佳方法。

    qiime vsearch cluster-features-open-reference \
      --i-table table.qza \
      --i-sequences rep-seqs.qza \
      --i-reference-sequences 85_otus.qza \
      --p-perc-identity 0.85 \
      --o-clustered-table table-or-85.qza \
      --o-clustered-sequences rep-seqs-or-85.qza \
      --o-new-reference-sequences new-ref-seqs-or-85.qza
    

    输出对象:

    cluster-features-open-reference输出结果是一个FeatureTable[Frequency]对象和两个FeatureData[Sequence]对象。其中一FeatureData[Sequence]对象表示聚集的序列,而另一个对象表示新的参考序列,由用于输入的参考序列以及作为内部重新聚集步骤的一部分聚集的序列组成。

    译者简介

    刘永鑫,博士,中科院青促会会员,QIIME 2项目参与人。2008年毕业于东北农业大学微生物学专业,2014年于中国科学院大学获生物信息学博士,2016年遗传学博士后出站留所工作,任工程师。目前主要研究方向为宏基因组数据分析。目前在***Science、Nature Biotechnology、Protein & Cell、Current Opinion in Microbiology***等杂志发表论文30余篇,被引2千余次。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章2400余篇,代表作有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》《微生物组实验手册》《微生物组数据分析》等,关注人数11万+,累计阅读2100万+。

    Reference

    https://docs.qiime2.org/2020.11

    Evan Bolyen*, Jai Ram Rideout*, Matthew R. Dillon*, Nicholas A. Bokulich*, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. doi:10.1038/s41587-019-0209-9

    猜你喜欢

    写在后面

    为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
    image

    学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
    image

    image

    点击阅读原文,跳转最新文章目录阅读
    https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

    展开全文
  • QIIME 2教程. 04人体微生物组分析Moving Pictures(2020.11)

    万次阅读 多人点赞 2017-07-26 14:52:05
    由于QIIME2更新频繁,如使用中遇到问题请访问QIIME2官方论坛阅读最新版中文帮助。 https://forum.qiime2.org/t/qiime2-1-chinese-manual/838 如中文翻译没有急时更新,新阅读英文原版 https://docs.qi

    QIIME 2用户文档. 4人体各部位微生物组

    “Moving Pictures” tutorial

    https://docs.qiime2.org/2020.11/tutorials/moving-pictures/

    本节1.6万字,14张图,1个视频。阅读时间大约40分钟。

    注意:本文学习需要安装好QIIME 2,请务必完成1简介和安装Introduction&Install

    在本教程中,你将使用QIIME 2在五个时间点对来自两个人四个身体部位的微生物组样本进行分析,第一个时间点紧接着是抗生素的使用。基于这些样本的研究文章《Moving pictures of the human microbiome》在2011年发表于Genome Biology。本教程中使用的数据基于Illumina HiSeq产出,使用地球微生物组计划扩增16S rRNA基因高变区4(V4)测序的方法。

    对于熟悉QIIME 1的用户,本数据也出现在QIIME的教程中

    在开始本教程前,我们需要进入工作环境创建新目录并进入

    本节视频视频教程

    https://v.qq.com/x/page/w0918ebti6m.html

    a文件准备和样本拆分

    https://v.qq.com/x/page/l0918vwb1no.html

    b结果查看、质控方法dada2/deblur并生成特征表

    https://v.qq.com/x/page/c09194lgqb5.html

    c进化树构建,多样性分析统计和可视化,物种注释和柱状图展示,差异比较

    查看更多视频和相应专辑,访问下方链接至作者个人频道,持续更新ing

    http://v.qq.com/vplus/22b577627f014f0ca25e9827b38c171e

    视频有广告,清晰度不够高吗?在微信订阅号“meta-genome”后台回复“qiime2”获得1080p视频和测试数据下载链接

    启动QIIME2运行环境

    对于上文提到了两种常用安装方法,我们每次在分析数据前,需要打开工作环境,根据情况选择对应的打开方式。

    比如我的工作目录为~/github/QIIME2ChineseManual/2020.11,这是与Github中同步的目录,方便同行下载测试数据。用户可以随便定义你的项目工作目录,如把qiime2学习放在qiime2目录中。

    我们在每次分析开始前,必须先进入工作目录,除非你是一个把什么东西都放在桌面上还很工作更有效率的人。

    # 定义工作目录变量,方便以后多次使用
    wd=~/github/QIIME2ChineseManual/2020.11
    mkdir -p $wd
    # 进入工作目录,是不是很简介,这样无论你在什么位置就可以快速回到项目文件夹
    cd $wd
    
    # 方法1. 进入QIIME 2 conda工作环境
    conda activate qiime2-2020.11
    # 这时我们的命令行前面出现 (qiime2-2020.11) 表示成功进入工作环境
    
    # 方法2. conda版本较老用户,使用source进入QIIME 2
    source activate qiime2-2020.11
    
    # 方法3. 如果是docker安装的请运行如下命令,默认加载当前目录至/data目录
    docker run --rm -v $(pwd):/data --name=qiime -it  qiime2/core:2020.11
    
    # 创建本节学习目录
    mkdir moving-pictures
    cd moving-pictures
    

    样本元数据

    Sample metadata

    在开始分析之前,我们需要阅读样本元数据,以熟悉本研究中使用的样本信息。示例元数据作为Google 表格提供。你可以通过选择File > Download as > Tab-separated values,以制表符分隔的文本格式下载该文件。或者,以下命令将作为制表符分隔的文本下载示例元数据,并将其保存在文件sample-metadata.tsv。这个sample-metadata.tsv文件在本教程中一直被用到。

    在Windows下可直接点击链接下载 https://data.qiime2.org/2020.11/tutorials/moving-pictures/sample_metadata.tsv, 保存为 sample_metadata.tsv;在Qiime 2中则用以下代码下载:

    wget -c http://210.75.224.110/github/QIIME2ChineseManual/2020.11/moving-pictures/sample-metadata.tsv
    

    注意:QIIME 2 官方测试数据均保存在Google服务器上,国内下载比较困难。以上下载链接已经替换为国内备份链接,可直接使用。国内用户可选在QIIME 2中文Github页面 https://github.com/YongxinLiu/QIIME2ChineseManual 、或在微信订阅号“meta-genome”后台回复"qiime2"等方式获取测试数据下载链接,提供多种备选方式保证数据可用

    提示:Keemei是一个用于验证示例元数据的Google Sheets插件。在开始任何分析之前,样本元数据的验证非常重要。尝试按照Keemei网站上的说明安装Keemei,然后验证上面链接的示例元数据电子表格。该电子表格还包括一个带有一些无效数据的表格,以便使用Keemei进行测试。

    提示:要了解关于元数据的更多信息,包括如何格式化元数据以便与QIIME 2一起使用,请参阅元数据教程

    下载和导入数据

    Obtaining and importing data

    下载在本次分析中使用的序列。在本教程中,我们将处理完整的序列数据的一小部分,以便命令能够快速运行(减少等待时间)。

    创建子目录并下载实验测序数据:

    mkdir -p emp-single-end-sequences
    # 3.6M
    wget \
      -O "emp-single-end-sequences/barcodes.fastq.gz" \
      "https://data.qiime2.org/2020.11/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz"
    # 24M
    wget \
      -O "emp-single-end-sequences/sequences.fastq.gz" \
      "https://data.qiime2.org/2020.11/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz"
      
    

    用于输入到QIIME 2的所有数据都以QIIME 2对象的形式出现,其中包含有关数据类型和数据源的信息。因此,我们需要做的第一件事是将这些序列数据文件导入到QIIME 2对象中。

    这个QIIME 2对象的语义类型是EMPSingleEndSequences。 QIIME 对象EMPSingleEndSequences是包含多样本混合的序列文件,这意味着序列尚未分配给样本(因此包括sequences.fastq.gzbarcode.fastq.gz文件,其中barcode.fastq.gz包含与sequences.fastq.gz中的每个序列相关联的条形码)。要导入其他格式的序列数据,请参阅导入数据教程。

    导入数据:生成qiime2要求的对象格式。time统计计算时间。

    time qiime tools import \
      --type EMPSingleEndSequences \
      --input-path emp-single-end-sequences \
      --output-path emp-single-end-sequences.qza
    

    输出对象:

    emp-single-end-sequences.qza: 查看 | 下载

    译者注:公众号无法打开外部链接,如果想要直接访问查看下载等文中链接,可访问位于Github的QIIME2中文文档CSDN的扩增子分析专栏QIIME 2论坛-社区贡献-翻译版块、或科学网QIIME2专栏阅读同名文档,也可用百度搜索本节标题试试。

    提示:
    上面的查看下载由文档中的命令创建的QIIME 2对象和可视化链接。例如,上面的命令创建了单个emp-single-end-sequences.qza文件,上面链接了相应的预计算文件(输出结果)。你可以查看预计算的QIIME 2对象和可视化而不需要安装额外的软件(例如,QIIME 2)。

    QIIME 1用户:
    在QIIME 1中,我们一般建议通过QIIME执行样本拆分(例如,使用split_libraries.pysplit_libraries_fastq.py),因为这个步骤还执行序列的质量控制。现在我们将样本拆分和质量控制步骤分开,因此你可以使用混合多样本序列(如我们在此所做的)或拆分后的序列开始QIIME 2分析。

    拆分样品

    Demultiplexing sequences

    为了混合序列进行样本拆分,我们需要知道哪个条形码序列与每个样本相关联。此信息包含在样品元数据文件中。你可以运行以下命令来对序列进行样本拆分(demux emp-single命令指的是这些序列是根据地球微生物组计划标准方法添加的条形码,并且是单端序列)。QIIME 2对象demux.qza包含样本拆分后的序列。第二个输出文件 (demux-details.qza) 包括Golay标签错误校正的详细,在本教程中不作讨论 (你可以使用 qiime metadata tabulate查看该结果)。

    # 用时1m
    time qiime demux emp-single \
      --i-seqs emp-single-end-sequences.qza \
      --m-barcodes-file sample-metadata.tsv \
      --m-barcodes-column barcode-sequence \
      --o-per-sample-sequences demux.qza \
      --o-error-correction-details demux-details.qza
    

    输出结果

    在样本拆分之后,生成拆分结果的统计信息非常重要。这允许我们确定每个样本获得多少序列,并且还可以获得序列数据中每个位置处序列质量分布的摘要。

    结果统计

    time qiime demux summarize \
      --i-data demux.qza \
      --o-visualization demux.qzv
    

    输出可视化结果demux.qzv查看 | 下载

    image

    图1. 样本拆分结果统计结果——样本数据量可视化图表

    主要分为三部分:上部为摘要;中部为样本不同数据量分布频率柱状图,可下载PDF,下部为每个样本的测序量。上方面板还可切换至交互式质量图Interactive Qaulity Plot页面。如下图2。

    image

    图2. 交互式质量图Interactive Qaulity Plot查看页面。

    同样为三部分:上部为每个位置碱基的质量分布交互式箱线图,鼠标悬停在上面,即可在下面(中部)文字和表格中显示鼠标所在位置碱基质量的详细信息;下部为拆分样本的长度摘要(一般等长测序无差别)。

    注:
    所有QIIME 2可视化对象(即使用--o-visualization参数指定的文件)将生成一个.qzv文件。你可以使用qiime tools view查看这些文件。我们提供了用于查看可视化的第一个命令,但是对于本教程的其余部分,我们将告诉你在运行可视化程序之后查看结果可视化,这意味着你应该在生成的.qzv文件上运qiime tools view

    qiime tools view demux.qzv
    

    这条命令的显示需要图形界面的支持,如在有图型界面的Linux上,但仅使用SSH登陆方式无法显示图形。

    推荐使用 https://view.qiime2.org 网址显示结果

    可选使用XShell+XManager支持SSH方式的图型界面、虚拟机图形界面下或服务器远程桌面方式支持上面命令的图形结果。

    目前命令行方式想要查看结果可能很多使用服务器人员无法实现 (即依赖服务器安装了桌面,本地依赖XShell+XManager或其它ssh终端和图形界面软件)

    本地查看可解压.qzv,目录中的data目录包括详细的图表文件,主要关注 pdf 和 html 文件,目录结构如下。

    ── demux
       └── 8743ab13-72ca-4adf-9b6c-d97e2dbe8ee3
           ├── checksums.md5
           ├── data
           │   ├── data.jsonp
           │   ├── demultiplex-summary.pdf
           │   ├── demultiplex-summary.png
           │   ├── dist
           │   │   ├── bundle.js
           │   │   ├── d3-license.txt
           │   │   └── vendor.bundle.js
           │   ├── forward-seven-number-summaries.csv
           │   ├── index.html
           │   ├── overview.html
           │   ├── per-sample-fastq-counts.csv
           │   ├── q2templateassets
           │   │   ├── css
           │   │   │   ├── bootstrap.min.css
           │   │   │   ├── normalize.css
           │   │   │   └── tab-parent.css
           │   │   ├── fonts
           │   │   │   ├── glyphicons-halflings-regular.eot
           │   │   │   ├── glyphicons-halflings-regular.svg
           │   │   │   ├── glyphicons-halflings-regular.ttf
           │   │   │   ├── glyphicons-halflings-regular.woff
           │   │   │   └── glyphicons-halflings-regular.woff2
           │   │   ├── img
           │   │   │   └── qiime2-rect-200.png
           │   │   └── js
           │   │       ├── bootstrap.min.js
           │   │       ├── child.js
           │   │       ├── jquery-3.2.0.min.js
           │   │       └── parent.js
           │   └── quality-plot.html
           ├── metadata.yaml
           ├── provenance
           │   ├── action
           │   │   └── action.yaml
           │   ├── artifacts
           │   │   ├── 9594ef07-c414-4658-9345-c726de100d8d
           │   │   │   ├── action
           │   │   │   │   └── action.yaml
           │   │   │   ├── citations.bib
           │   │   │   ├── metadata.yaml
           │   │   │   └── VERSION
           │   │   └── a7a882f3-5e4f-4b5e-8a35-6a1098d21608
           │   │       ├── action
           │   │       │   ├── action.yaml
           │   │       │   └── barcodes.tsv
           │   │       ├── citations.bib
           │   │       ├── metadata.yaml
           │   │       └── VERSION
           │   ├── citations.bib
           │   ├── metadata.yaml
           │   └── VERSION
           └── VERSION
    

    qzv文件解压后文件详细,可直接访问data/index.html打开结果报告式网页。里面的重要结果,全部可以通过此网页进行索引。

    序列质控和生成特征表

    Sequence quality control and feature table construction

    QIIME 2插件多种质量控制方法可选,包括DADA2Deblur基于基本质量分数的过滤。在本教程中,我们使用DADA2Deblur两种方法分别介绍这个步骤。这些步骤是可互相替换的,因此你可以使用自己喜欢的方法。这两种方法的结果将是一个QIIME 2特征表FeatureTable[Frequency]和一个代表性序列FeatureData[Sequence]对象,Frequency对象包含数据集中每个样本中每个唯一序列的计数(频率),Sequence对象将FeatureTable中的特征ID与序列对应。

    译者注:此步主要有DADA2和Deblur两种方法可选,推荐使用DADA2,2016年发表在Nature Method上,在阴道菌群研究中比OTU聚类结果看到更多细节,详见《扩增子分析还聚OTU就真OUT了》;相较USEARCH的UPARSE算法,目前DADA2方法仅去噪去嵌合,不再按相似度聚类,结果与真实物种的序列更接近。

    注意:本节中此次存在两种可选方法时,你将创建具有特定方法名称的对象(例如,使用dada2去噪生成的特性表将被称为table-dada2.qza)。在创建这些对象之后,你将把两个选项之一的对象重命名为更通用的文件名(例如,table.qza)。为对象创建特定名称,然后对其进行重命名的过程仅允许你选择在本步骤中使用的两个选项中之一完成教程,而不必再次关注该选项。需要注意的是,在这个步骤或QIIME 2中的任何步骤中,你给对象或可视化的文件命名并不重要。

    QIIME1 用户注意:
    QIIME 2对象FeatureTable[Frequency]等价于QIIME 1 OTU或BIOM表,QIIME 2对象FeatureData[Sequence]等价于QIIME 1代表序列文件。由于DADA2和Deblur产生的“OTU”是通过对唯一序列进行分组而创建的,因此这些OTU相当于来自QIIME 1的100%相似度的OTU,通常称为序列变体。在QIIME 2中,这些OTU比QIIME 1默认的97%相似度聚类的OTU具有更高的分辨率,并且它们具有更高的质量,因为这些质量控制步骤比QIIME 1中实现更好。因此,与QIIME 1相比,可以对样本的多样性和分类组成进行更准确的估计。

    方法1. DADA2

    Option 1: DADA2

    DADA2是用于检测和校正(如果有可能的话)Illumina扩增序列数据的工作流程。正如在q2-dada2插件中实现的,这个质量控制过程将过滤掉在测序数据中鉴定的任何phiX序列(通常存在于标记基因Illumina测序数据中,用于提高扩增子测序质量),并同时过滤嵌合序列。

    译者注:DADA2是Susan P. Holmes团队于2016年发表于Nature Methods的文章,截止18年12月22号Google学术统计引用483次,关于教授的工作介绍,详见《斯坦福大学统计系教授带你玩转微生物组分析》;关于dada2简介,详见《扩增子分析还聚OTU就真OUT了》。DADA2自身也是一套在R语言中完整的扩增子分析流程,中文教程详见《DADA2中文教程v1.8》。引文: Callahan, Benjamin J., Paul J. McMurdie, Michael J. Rosen, Andrew W. Han, Amy Jo A. Johnson, and Susan P. Holmes. “DADA2: high-resolution sample inference from Illumina amplicon data.” Nature methods 13, no. 7 (2016): 581.

    dada2 denoise-single方法需要两个用于质量过滤的参数:--p-trim-left m,它去除每个序列的前m个碱基(如引物、标签序列barcode);--p-trunc-len n,它在位置n截断每个序列。这允许用户去除序列的低质量区域、引物或标签序列等。为了确定要为这两个参数传递什么值,你应该查看上面由qiime demux summarize生成的demux.qzv文件中的交互质量图选项卡。

    读者思考时间:基于上图demux.qzv对拆分样品的统计结果,如何设置--p-trunc-len--p-trim-left的参数值。

    1. –p-trim-left 截取左端低质量序列,我们看上图中箱线图,左端质量都很高,无低质量区,设置为0;
    2. –p-trunc-len 序列截取长度,也是为了去除右端低质量序列,我们看到大于120以后,质量下降极大,甚至中位数都下降至20以下,需要全部去除,综合考虑决定设置为120。

    单端序列去噪, 输入样本拆分后结果;去除左端 0 bp (–p-trim-left,有时用于切除低质量序列、barocde或引物),序列切成 120 bp 长(–p-trunc-len);生成代表序列、特征表和去噪过程统计。

    下面的步骤计算量较大,有34个样本,26万条序列,计算大约消耗10分钟。

    # 本地46s,服务器1m23m,笔记本单核比服务器更快
    time qiime dada2 denoise-single \
      --i-demultiplexed-seqs demux.qza \
      --p-trim-left 0 \
      --p-trunc-len 120 \
      --o-representative-sequences rep-seqs-dada2.qza \
      --o-table table-dada2.qza \
      --o-denoising-stats stats-dada2.qza
     # 实际计算时间,即受服务器配置影响,还受同台服务器上任务量影响
    

    生成三个输出文件:

    对特征表统计进行进行可视化

    qiime metadata tabulate \
      --m-input-file stats-dada2.qza \
      --o-visualization stats-dada2.qzv
    

    输出样本统计表:stats-dada2.qzv查看 | 下载

    内容为每个样本,输入、过滤、去噪和非嵌合的统计,并支持按列排序,检索和功能,用于样本异常筛选,特征表抽平标准化非常有用。

    表格前3行示例如下:

    sample-id input filtered denoised non-chimeric
    L6S93 11270 7483 7483 7025
    L6S68 9554 6169 6169 6022

    我们的下游分析,将继续使用dada2的结果,需要将它们改名方便继续分析:

    mv rep-seqs-dada2.qza rep-seqs.qza
    mv table-dada2.qza table.qza
    

    方法2. Deblur

    Deblur使用序列错误配置文件将错误的序列与从其来源的真实生物序列相关联,从而得到高质量的序列变异数据,主要为两个步骤。首先,应用基于质量分数的初始质量过滤过程,是Bokulich等人2013年发表的质量过滤方法。

    详者注:Deblur是本软件作者作为通讯作者2013发表于Nature Methods的重要扩增子代表序列鉴定方法,截止19年8月25号Google学术统计引用1259次,
    引文:Bokulich, Nicholas A., et al. “Quality-filtering vastly improves diversity estimates from Illumina amplicon sequencing.” Nature methods 10.1 (2013): 57. https://doi.org/10.1038/nmeth.2276 作者只将自己的方法作为了备选,分析教程中首选了dada2方法。

    按测序碱基质量过滤序列

    # 用时:笔记本25s,服务器44s
    time qiime quality-filter q-score \
     --i-demux demux.qza \
     --o-filtered-sequences demux-filtered.qza \
     --o-filter-stats demux-filter-stats.qza
    

    输出对象:

    • demux-filtered.qza: 序列质量过滤后结果。 查看 | 下载
    • demux-filter-stats.qza: 序列质量过滤后结果统计。 查看 | 下载

    注意:在Deblur的论文中,作者使用了当时推荐的过滤参数。而这里使用的参数基于最新的经验,效果更好。

    接下来,使qiime deblur denoise-16S方法应用于Deblur工作流程。此方法需要一个用于质量过滤的参数,即截断位置n长度的序列的--p-trim-length n。通常,Deblur开发人员建议将该值设置为质量分数中位数开始下降至低质量区时的长度。在本次数据上,质量图(在质量过滤之前)表明合理的选择是在115至130序列位置范围内。这是一个主观的评估。你可能不采用该建议的一种原因是存在多个批次测序的元分析。在这种情况的元分析中,比较所有批次的序列长度是否相同,以避免人为引入特定的偏差,全局考虑这些是非常重要的。由于我们已经使用修剪长度为120 bp用于qiime dada2 denoise-single分析,并且由于120 bp是基于质量图的结果,这里我们将使用--p-trim-length 120参数。下一个命令可能需要10分钟才能运行完成。

    详者注:deblur最大缺点就是慢,本次只分析了33个样品,共177,092条序列。而实际研究中大项目会有成千上万的样本,1亿-10亿条序列,此步分析可能需要几个月甚至根本无法完成,不推荐。

    deblur去噪16S过程,输入文件为质控后的序列,设置截取长度参数,生成结果文件有代表序列、特征表、样本统计。

    # 用时:笔记本3m11s,服务器5m50s
    time qiime deblur denoise-16S \
      --i-demultiplexed-seqs demux-filtered.qza \
      --p-trim-length 120 \
      --o-representative-sequences rep-seqs-deblur.qza \
      --o-table table-deblur.qza \
      --p-sample-stats \
      --o-stats deblur-stats.qza
    

    注:在测试服务器上单线程运行时间为5m50s,比原作者测试时间快了1倍。笔记本也比服务器快近1倍,因为核心频率更高。但服务器的线程数更多,在需要多线程的任务时,优势会非常明显。

    输出结果:

    注意: 本节中使用的两种命令生成包含汇总统计信息的QIIME 2对象。为了查看这些汇总统计数据,你可以分别使用qiime metadata tabulateqiime deblur visualize-stats命令来分别可视化这两种命令的输出文件。

    qiime metadata tabulate \
      --m-input-file demux-filter-stats.qza \
      --o-visualization demux-filter-stats.qzv
    qiime deblur visualize-stats \
      --i-deblur-stats deblur-stats.qza \
      --o-visualization deblur-stats.qzv
    

    输出结果:

    • demux-filter-stats.qzv: 质量过程统计表,同上面提到的stats-dada2.qzv统计表类似。 查看 | 下载

    示例如下:包括6列,第一列为样本名称,2-6列分别为总输入读长、总保留高读长、截断的读长、截断后太短的读长和超过最大模糊碱基的读长的数量统计。我们通常只关注2,3列数量即可,其它列常用于异常的输助判断。

    sample-id total-input-reads total-retained-reads reads-truncated reads-too-short-after-truncation reads-exceeding-maximum-ambiguous-bases
    #q2:types numeric numeric numeric numeric numeric
    L1S105 11340 9232 10782 2066 42
    L1S140 9738 8585 9459 1113 40
    L1S208 11337 10149 10668 1161 27
    • deblur-stats.qzv: deblur分析统计表,有分析中每个步骤的统计表 查看 | 下载

    image

    图3. deblur去噪和鉴定ASV处理过程统计结果

    如果你想用此处结果下游分析,可以改名为下游分析的起始名称:

    这处演示不运行下面两行代码,前面添加"#"号代表注释,需要运行请自行删除行首的“#”

    #mv rep-seqs-deblur.qza rep-seqs.qza
    #mv table-deblur.qza table.qza
    

    详者注:记住,以上两种方法只选择一种即可。推荐dada2速度更快一些,步骤也少一些。有精力的条件下,可以两种方法都试试,比较一下两种方法哪个结果更适合自己。其实每种方法都有存在的意义,而且也有适用的范围,要在具体的项目中,结合背景知识分析哪种方法结果更好时才知道。

    特征表和特征序列汇总

    FeatureTable and FeatureData summaries

    在质量筛选步骤完成之后,你将希望探索数据结果。可以使用以下两个命令进行此操作,这两个命令将创建数据的可视化摘要。特性表汇总命令(feature-table summarize)将向你提供关于与每个样品和每个特性相关联的序列数量、这些分布的直方图以及一些相关的汇总统计数据的信息。特征表序列表格feature-table tabulate-seqs命令将提供特征ID到序列的映射,并提供链接以针对NCBI nt数据库轻松BLAST每个序列。当你想要了解关于数据集中重要特性的更多信息时,可视化将在本教程的后续分析中非常有用。

    qiime feature-table summarize \
      --i-table table.qza \
      --o-visualization table.qzv \
      --m-sample-metadata-file sample-metadata.tsv
      
    qiime feature-table tabulate-seqs \
      --i-data rep-seqs.qza \
      --o-visualization rep-seqs.qzv
    

    输出结果:

    • table.qzv: 特征表统计。查看 | 下载
    • rep-seqs.qzv: 代表序列统计,可点击序列跳转NCBI blast查看相近序列的信息。查看 | 下载

    image

    图4. 图中展示了特征表的统计结果

    上为摘要、中间为样本数据量分布和图,下方为特征出现频率的统计表和图。

    image

    图5. 交互式查看每组剩余样本量

    右侧还有Feature Detail进一步查看每个特征的频率和在样本中出现的次数

    构建进化树用于多样性分析

    Generate a tree for phylogenetic diversity analyses

    QIIME 2支持几种系统发育多样性度量方法,包括Faith’s Phylogenetic Diversityweightedunweighted UniFrac。除了每个样本的特征计数(即QIIME2对象FeatureTable[Frequency])之外,这些度量还需要将特征彼此关联结合有根进化树。此信息将存储在一个QIIME 2对象的有根系统发育对象Phylogeny[Rooted]中。为了生成系统发育树,我们将使用q2-phylogeny插件中的align-to-tree-mafft-fasttree工作流程。

    首先,工作流程使用mafft程序执行对FeatureData[Sequence]中的序列进行多序列比对,以创建QIIME 2对象FeatureData[AlignedSequence]。接下来,流程屏蔽(mask或过滤)对齐的的高度可变区(高变区),这些位置通常被认为会增加系统发育树的噪声。随后,流程应用FastTree基于过滤后的比对结果生成系统发育树。FastTree程序创建的是一个无根树,因此在本节的最后一步中,应用根中点法将树的根放置在无根树中最长端到端距离的中点,从而形成有根树。

    time qiime phylogeny align-to-tree-mafft-fasttree \
      --i-sequences rep-seqs.qza \
      --o-alignment aligned-rep-seqs.qza \
      --o-masked-alignment masked-aligned-rep-seqs.qza \
      --o-tree unrooted-tree.qza \
      --o-rooted-tree rooted-tree.qza
    

    详者注:多序列比对和建树在分析中是计算量很大的步骤,本测试数据量很小,只用了14秒,实际上千个样本,可能会使用几十分钟,甚至几小时至几天

    输出结果文件:

    • aligned-rep-seqs.qza: 多序列比对结果。查看 | 下载
    • masked-aligned-rep-seqs.qza: 过滤去除高变区后的多序列比对结果。查看 | 下载
    • rooted-tree.qza: 有根树,用于多样性分析。查看 | 下载
    • unrooted-tree.qza: 无根树。查看 | 下载

    Alpha和beta多样性分析

    Alpha and beta diversity analysis

    QIIME 2的多样性分析使用q2-diversity插件,该插件支持计算α和β多样性指数、并应用相关的统计检验以及生成交互式可视化图表。我们将首先应用core-metrics-phylogenetic方法,该方法将FeatureTable[Frequency](特征表[频率])抽平到用户指定的测序深度,然后计算几种常用的α和β多样性指数,并使用Emperor为每个β多样性指数生成主坐标分析(PCoA)图。默认情况下计算的方法有:

    划重点:理解下面4种alpha和beta多样性指数的所代表的生物学意义至关重要。

    • α多样性
      • 香农(Shannon’s)多样性指数(群落丰富度的定量度量,即包括丰富度richness和均匀度evenness两个层面)
      • 可观测的OTU(Observed OTUs,群落丰富度的定性度量,只包括丰富度)
      • Faith’s系统发育多样性(包含特征之间的系统发育关系的群落丰富度的定性度量)
      • 均匀度Evenness(或 Pielou’s均匀度;群落均匀度的度量)
    • β多样性
      • Jaccard距离(群落差异的定性度量,即只考虑种类,不考虑丰度)
      • Bray-Curtis距离(群落差异的定量度量,较常用)
      • 非加权UniFrac距离(包含特征之间的系统发育关系的群落差异定性度量)
      • 加权UniFrac距离(包含特征之间的系统发育关系的群落差异定量度量)

    需要提供给这个脚本的一个重要参数是--p-sampling-depth,它是指定重采样(即稀疏/稀疏rarefaction)深度。因为大多数多样指数对不同样本的不同测序深度敏感,所以这个脚本将随机地将每个样本的测序量重新采样至该参数值。例如,提供--p-sampling-depth 500,则此步骤将对每个样本中的计数进行无放回抽样,从而使得结果表中的每个样本的总计数为500。如果任何样本的总计数小于该值,那么这些样本将从多样性分析中删除。选择这个值很棘手。我们建议你通过查看上面创建的表table.qzv文件中呈现的信息并选择一个尽可能高的值(因此每个样本保留更多的序列)同时尽可能少地排除样本来进行选择

    读者思考时间:
    查看QIIME 2的table.qzv 对象,尤其是交互式可视化表格。对于采样深度--p-sampling-depth,应该选择什么值呢?根据这个选择,分析中多少个样本将被排除?在core-metrics-phylogenetic命令中,你将分析的总序列是多少条呢?

    译者注:下面多样性分析,需要基于重采样/抽平(rarefaction)标准化的特征表,标准化采用无放回重抽样至序列一致,如何设计样品重采样深度参数--p-sampling-depth呢?
    如是数据量都很大,选最小的即可。如果有个别数据量非常小,去除最小值再选最小值。比如此分析最小值为917,我们选择1109深度重采样,即保留了大部分样品用于分析,又去除了数据量过低的异常值。本示例为近10年前测序技术的通量水平,454测序时代抽平至1000条即可,现在看来数据量很小。目录一般采用HiSeq2500或NovaSeq6000的 PE250模式测序,数据量都非常大,通常可以采用3万或5万的标准抽平,仍可保留90%以上样本。过低或过高一般结果也会波动较大,不建议放在一起分析。

    计算核心多样性

    time qiime diversity core-metrics-phylogenetic \
      --i-phylogeny rooted-tree.qza \
      --i-table table.qza \
      --p-sampling-depth 1103 \
      --m-metadata-file sample-metadata.tsv \
      --output-dir core-metrics-results
    

    此步计算耗时9秒。在大数据时,可能会计算更多时间。尤其是样本量增加,计算量会随样本平方增长。

    输出对象(13个数据文件):

    • core-metrics-results/faith_pd_vector.qza: Alpha多样性考虑进化的faith指数。 查看 | 下载
    • core-metrics-results/unweighted_unifrac_distance_matrix.qza: 无权重unifrac距离矩阵。 查看 | 下载
    • core-metrics-results/bray_curtis_pcoa_results.qza: 基于Bray-Curtis距离PCoA的结果。 查看 | 下载
    • core-metrics-results/shannon_vector.qza: Alpha多样性香农指数。 查看 | 下载
    • core-metrics-results/rarefied_table.qza: 等量重采样后的特征表。 查看 | 下载
    • core-metrics-results/weighted_unifrac_distance_matrix.qza: 有权重的unifrac距离矩阵。 查看 | 下载
    • core-metrics-results/jaccard_pcoa_results.qza: jaccard距离PCoA结果。 查看 | 下载
    • core-metrics-results/observed_otus_vector.qza: Alpha多样性observed otus指数。 查看 | 下载
    • core-metrics-results/weighted_unifrac_pcoa_results.qza: 基于有权重的unifrac距离的PCoA结果。 查看 | 下载
    • core-metrics-results/jaccard_distance_matrix.qza: jaccard距离矩阵。 查看 | 下载
    • core-metrics-results/evenness_vector.qza: Alpha多样性均匀度指数。 查看 | 下载
    • core-metrics-results/bray_curtis_distance_matrix.qza: Bray-Curtis距离矩阵。 查看 | 下载
      core-metrics-results/unweighted_unifrac_pcoa_results.qza: 无权重的unifrac距离的PCoA结果。 查看 | 下载

    输出对象(4种可视化结果):

    • core-metrics-results/unweighted_unifrac_emperor.qzv:无权重的unifrac距离PCoA结果采用emperor可视化。 查看 | 下载
    • core-metrics-results/jaccard_emperor.qzv:jaccard距离PCoA结果采用emperor可视化。查看 | 下载
    • core-metrics-results/bray_curtis_emperor.qzv: Bray-Curtis距离PCoA结果采用emperor可视化。查看 | 下载
    • core-metrics-results/weighted_unifrac_emperor.qzv: 有权重的unifrac距离PCoA结果采用emperor可视化。查看 | 下载

    image

    图6. 以weighted_unifrac距离的PCoA结果交互式可视化为例,可用鼠标托动空间查看每个样本的分布位置。

    这里,我们将--p-sampling-depth参数设置为1103。这个值是根据L3S313样本中的序列数量来选择的,因为它与接下来几个序列计数较高的样本中的序列数量接近,并且它比序列较少的样本中的序列数量高。这将允许我们保留大部分样品。具有较少序列的三个样本将从core-metrics-phylogenetic分析和任何使用这些结果的下游分析中删除。

    注意:根据DADA2特征表汇总选择1103的采样深度。如果使用的是Deblur特性表而不是DADA2特性表,则可能需要选择不同的采样深度。应用上一段的逻辑来帮助你选择合理的采样深度。

    注意:在许多Illumina测序结果中,你将观察到一些序列计数非常低的例子。你通常希望通过在此阶段采样深度选择更大的值来从分析中剔除它们。

    在计算多样性度量之后,我们可以开始在样本元数据的分组信息或属性值背景下探索样本的微生物组成差异。此信息存在于先前下载的示例元数据文件中。

    我们将首先测试分类元数据列和alpha多样性数据之间的关系。我们将在这里为Faith系统发育多样性(群体丰富度的度量)和Evenness均匀度进行可视化操作。

    Alpha多样性组间显著性分析和可视化

    qiime diversity alpha-group-significance \
      --i-alpha-diversity core-metrics-results/faith_pd_vector.qza \
      --m-metadata-file sample-metadata.tsv \
      --o-visualization core-metrics-results/faith-pd-group-significance.qzv
    
    qiime diversity alpha-group-significance \
      --i-alpha-diversity core-metrics-results/evenness_vector.qza \
      --m-metadata-file sample-metadata.tsv \
      --o-visualization core-metrics-results/evenness-group-significance.qzv
    
    

    输出可视化结果:

    • core-metrics-results/faith-pd-group-significance.qzv。查看 | 下载
    • core-metrics-results/evenness-group-significance.qzv。查看 | 下载

    image

    图7. 以faith-pd为例将互探索不同元数据条件下组间差异,可用鼠标选择不同元数据的列名,切换分组方式,探索对应的生物学意义。

    问题:哪些分类样本元数据列与微生物群落丰富度的差异密切相关?这些差异在统计学上有显著性吗?

    读者思考时间:实验设计中的那一种分组方法,与微生物群体的丰富度差异相关,这些差异显著吗?

    详者注:图中可按Column选择分类方法,查看不同分组下箱线图间的分布与差别。图形下面的表格,详细详述了组间比较的显著性和假阳性率统计。
    结果我们会看到本实验设计的分组方式有body-site, subject, report-antibiotic-use,只有身体位置各组间差异明显,且下面统计结果也存在很多组间的显著性差异。

    在这个数据集中,连续的样本元数据列(例如,days-since-experiment-start)不与α多样性有相关联,所以我们这里不测试这类关联。如果你有兴趣执行这类测试(对于这个数据集或其他数据集),可以使用qiime diversity alpha-correlation命令。

    接下来,我们将使用PERMANOVA方法(在Anderson 2001年的文章中首次描述beta-group-significance分析分类型元数据的样本组间差异。以下命令将测试一组样本之间的距离,是否比来自其他组(例如,舌头、左手掌和右手掌)的样本彼此更相似,例如来自同一身体部位(例如肠)的样本。如果你用这个命令的--p-pairwise参数,它将执行成对检验,结果将允许我们确定哪对特定组(例如,舌头和肠)彼此不同是否显著不同。这个命令运行起来可能很慢,尤其是当使用--p-pairwise参数,因为它是基于置换检验的。因此,我们将在元数据的特定列上运行该命令,而不是在其适用的所有元数据列上运行该命令。这里,我们将使用两个示例元数据列将此应用到未加权的UniFrac距离,如下所示。

    # 7s,多组或多样本时计算量指数增长
    time qiime diversity beta-group-significance \
      --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
      --m-metadata-file sample-metadata.tsv \
      --m-metadata-column body-site \
      --o-visualization core-metrics-results/unweighted-unifrac-body-site-significance.qzv \
      --p-pairwise
    
    # 6s,多组或多样本时计算量指数增长
    time qiime diversity beta-group-significance \
      --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
      --m-metadata-file sample-metadata.tsv \
      --m-metadata-column subject \
      --o-visualization core-metrics-results/unweighted-unifrac-subject-group-significance.qzv \
      --p-pairwise
      
    

    输出可视化结果:

    • core-metrics-results/unweighted-unifrac-body-site-significance.qzv: 查看 | 下载
    • core-metrics-results/unweighted-unifrac-subject-group-significance.qzv: 查看 | 下载

    image

    图8. 不同部分组内和组间差异显著性分析,采用箱线图+统计表呈现

    问题:受试者之间的关联和微生物组成的差异在统计学上是否显著?身体部位呢?哪些特定的身体部位对彼此有显著的不同?

    同样,我们对于这个数据集所拥有的连续样本元数据中没有一个与样本组成相关,因此这里我们不会测试这些关联。如果你对执行这些测试感兴趣,那么可以使用qiime metadata distance-matrix结合qiime diversity mantelqiime diversity bioenv命令组合使用。

    最后,排序是在样本元数据分组间探索微生物群落组成差异的流行方法。我们可以使用Emperor工具在示例元数据下探索主坐标分析(PCoA)绘图。虽然我们的core-metrics-phylogenetic命令已经生成了一些Emperor图,但我们希望传递一个可选的参数--p-custom-axes,这对于探索时间序列数据非常有用。采于core-metrics-phylogeny的PCoA结果也是一样的,这使得很容易与Emperor生成新的可视化。我们将采用未加权的UniFrac和Bray-Curtis的PCoA结果生成Emperor图,以便所得到的图将包含主坐标1、主坐标2和实验开始以来的天数(days since the experiment start)的轴。我们将使用最后一个轴来探索这些样本是如何随时间变化的。

    qiime emperor plot \
      --i-pcoa core-metrics-results/unweighted_unifrac_pcoa_results.qza \
      --m-metadata-file sample-metadata.tsv \
      --p-custom-axes days-since-experiment-start \
      --o-visualization core-metrics-results/unweighted-unifrac-emperor-days-since-experiment-start.qzv
    
    qiime emperor plot \
      --i-pcoa core-metrics-results/bray_curtis_pcoa_results.qza \
      --m-metadata-file sample-metadata.tsv \
      --p-custom-axes days-since-experiment-start \
      --o-visualization core-metrics-results/bray-curtis-emperor-days-since-experiment-start.qzv
      
    

    输出可视化:

    • core-metrics-results/bray-curtis-emperor-days-since-experiment-start.qzv: 查看 | 下载
    • core-metrics-results/unweighted-unifrac-emperor-days-since-experiment-start.qzv: 查看 | 下载

    image

    图9. 探索样本在第1/2主轴和时间上的分布,调整右侧着色方式和颜色方案可方便观察研究的分类或时间序列结果。

    问题:Emperor图是否支持我们在这里执行的其他β多样性分析?(提示:对不同实验元数据进行点着色。)

    问题:在未加权的UniFrac和Bray-Curtis PCoA图中,你观察到了哪些差异?

    Alpha稀疏曲线

    Alpha rarefaction plotting

    在本节中,我们将使用qiime diversity alpha-rarefaction可视化工具来探索α多样性与采样深度的关系。该可视化工具在多个采样深度处计算一个或多个α多样性指数,范围介于1(可选地--p-min-depth控制)和最大采样深度--p-max-depth提供值之间。在每个采样深度,将生成10个抽样表,并对表中的所有样本计算alpha多样性指数计算。迭代次数(在每个采样深度计算的稀疏表)可以通过--p-iterations来控制。在每个采样深度,将为每个样本绘制平均多样性值,如果提供样本元数据--m-metadata-file参数,则可以基于元数据对样本进行分组。

    # 用时:笔记本1m13S,服务器40s,本步计算量较大。
    time qiime diversity alpha-rarefaction \
      --i-table table.qza \
      --i-phylogeny rooted-tree.qza \
      --p-max-depth 4000 \
      --m-metadata-file sample-metadata.tsv \
      --o-visualization alpha-rarefaction.qzv
      
    

    输出可视化:

    image

    图10. 查看按身体部位(body site)分组下可观测(observed) otus的稀疏箱线图,注意观察图中变化以及下面对应样本数据的图。

    可视化将有两个图。顶部图是α稀疏图(rarefaction plot),主要用于确定样品的丰度是否已被完全观察或测序。如果图中的线条在沿x轴的某个采样深度处看起来“平坦(level out)”(即斜率接近于零),这表明收集超过该采样深度的附加序列不太可能观测到新特征。如果绘图中的线条没有变平,这可能是因为尚未充分观察样本的丰富度(由于测序的序列太少),或者它可能是在数据中仍然存在许多测序错误(被误认为是新的多样性)。

    当通过元数据对样本进行分组时,此可视化中结果底部的绘图结果非常重要。它说明了当特征表被细化到每个采样深度时,每个组中剩余的样本数量。如果给定的采样深度d大于样本s的总频率(即,针对样本s获得的序列数),则不可能计算采样深度d下样本s的多样性。在顶部绘图将不可靠,因为它将计算基于相对少的样本。因此,当通过元数据对样本进行分组时,必须查看底部图表,以确定顶部图表中显示的数据是否可靠的。

    注意:提供的--p-max-depth参数的值应该通过查看上面创建的table.qzv文件中呈现的“每个样本的测序量”信息来确定。一般来说,选择一个在中位数附近的值似乎很好用。如果得到的稀疏图中的线看起来没有变平,那么你可能希望增加该值。如果由于大于最大采样深度而丢失了许多样本,则减少该值。

    问题1:当通过“body-site”列信息对样本进行分组并查看“observed_otus”指数的α稀疏图时,哪些身体部位显示出足够的多样性覆盖(即稀疏曲线趋于平缓)?在这些身体部位似乎存在多少序列变异?

    问题2:当通过“body-site”对样本进行分组并查看“observed_otus”指数的α稀疏图时,“右手掌(right palm)”样本的线看起来在40左右变平,但随后跳到大约140。你认为这里发生了什么?(提示:一定要查看顶部和底部的细节。)

    译者注答案:问题2左手掌的多样性从突然40跳至140,而对应的样本量从9个下降为3个(由于测序深度不足)。仅有3次生物学重复样本量太少,偶然性太大,导致的结果波动大但可信度不高。问题1很简单,自己看图吧可以想出答案。

    物种组成分析

    Taxonomic analysis

    在这一节中,我们将开始探索样本的物种组成,并将其与样本元数据再次组合。这个过程的第一步是为FeatureData[Sequence]的序列进行物种注释。我们将使用经过Naive Bayes分类器预训练的,并由q2-feature-classifier插件来完成这项工作。这个分类器是在Greengenes 13_8 99% OTU上训练的,其中序列被修剪到仅包括来自16S区域的250个碱基,该16S区域在该分析中采用V4区域的515F/806R引物扩增并测序。我们将把这个分类器应用到序列中,并且可以生成从序列到物种注释结果关联的可视化。

    注意:物种分类器根据你特定的样品制备和测序参数进行训练时表现最好,包括用于扩增的引物和测序序列的长度。因此,一般来说,你应该按照使用q2-feature-classifier的训练特征分类器的说明来训练自己的物种分类器。我们在数据资源页面上提供了一些通用的分类器,包括基于Silva的16S分类器,不过将来我们可能会停止提供这些分类器,而让用户训练他们自己的分类器,这将与他们的序列数据最相关。

    下载物种注释数据库制作的分类器:无法下载记得后台回复"qiime2"获得备用下载链接

    # 27M
    wget \
      -O "gg-13-8-99-515-806-nb-classifier.qza" \
      "https://data.qiime2.org/2020.11/common/gg-13-8-99-515-806-nb-classifier.qza"
    
    

    物种注释和可视化

    time qiime feature-classifier classify-sklearn \
      --i-classifier gg-13-8-99-515-806-nb-classifier.qza \
      --i-reads rep-seqs.qza \
      --o-classification taxonomy.qza
    
    qiime metadata tabulate \
      --m-input-file taxonomy.qza \
      --o-visualization taxonomy.qzv
    
    

    详者注:此处用时1分钟,大项目、大数据可能几小时或更长。

    输出结果:

    • taxonomy.qza: 物种注释结果。查看 | 下载
    • gg-13-8-99-515-806-nb-classifier.qza: 分类器的训练结果。查看 | 下载

    可视化结果:

    image

    图11. md5类型ID对应的物种信息和分类置信度

    问题:回想一下,rep-seqs.qzv可视化允许你轻松地对NCBI nt数据库BLAST每个特性的序列。使用此处创建的可视化和taxonomy.qzv可视化,将几个特性物种分配与最佳BLAST命中的分类进行比较,结果有多相似?如果它们不同,它们在什么分类学层次上开始不同(例如,物种、属、科…)?

    接下来,我们可以用交互式条形图查看样本的分类组成。使用以下命令绘图堆叠柱状图,然后打开查看。

    qiime taxa barplot \
      --i-table table.qza \
      --i-taxonomy taxonomy.qza \
      --m-metadata-file sample-metadata.tsv \
      --o-visualization taxa-bar-plots.qzv
    

    结果:

    • taxa-bar-plots.qzv: 交互式物种组成堆叠柱状图。 查看 | 下载

    image

    图12. 门水平样本堆叠柱状图、按Firmicutes排序。可切换不同分类级别、选择10余种配色方案;切换排序类型和升降序方向。同时图中的注可鼠标悬停查看数据。

    问题:在物种注释第二级可视化样本(在本分析中对应于门级别),然后按body-sitesubject、然后按days-since-experiment-start对样本进行排序。在body-site中不同部位都有哪些优势门类?在days-since-experiment-start 0和后面的时间点之间,你是否观察到两个组之间的一致的变化规律呢?

    使用ANCOM差异丰度分析

    Differential abundance testing with ANCOM

    ANCOM可用于识别不同样本组中丰度差异的特征。与任何生物信息学方法一样,在使用ANCOM之前,你应该了解ANCOM的假设和局限性。我们建议在使用这种方法之前先回顾一下ANCOM的论文 https://www.ncbi.nlm.nih.gov/pubmed/26028277。

    注意:差异丰度检验在微生物学分析中是一个热门的研究领域。有两个QIIME 2插件可用:q2-gneissq2-composition。本节使用q2-composition,但是如果你想了解更多,还有一个教程在另外的数据集上使用q2-gneiss,在后面有详细介绍。

    ANCOM是在q2-composition插件中实现的。ANCOM假设很少(小于约25%)的特征在组之间改变。如果你期望在组之间有更多的特性正在改变,那么就不应该使用ANCOM,因为它更容易出错(I类/假阴性和II类/假阳性错误都有可能增加)。因为我们预期身体部位的许多特征都会发生变化,所以在本教程中,我们将过滤完整的特征表后只包含肠道样本。然后,我们将应用ANCOM来确定哪种(如果有的话)序列变体在我们两个受试者的肠道样本中丰度存在差异。

    我们将首先创建一个只包含肠道样本的特征表。(要了解关于筛选的更多信息,请参阅数据筛选教程。)

    qiime feature-table filter-samples \
      --i-table table.qza \
      --m-metadata-file sample-metadata.tsv \
      --p-where "[body-site]='gut'" \
      --o-filtered-table gut-table.qza
    

    输出对象:

    • gut-table.qza:只包含肠道样本的特征表。 查看 | 下载

    ANCOM基于每个样本的特征频率对FeatureTable[Composition]进行操作,但是不能容忍零。为了构建组成composition 对象,必须提供一个添加伪计数add-pseudocount(一种遗失值插补方法)的FeatureTable[Frequency]对象,这将产生FeatureTable[Composition]对象。

    qiime composition add-pseudocount \
      --i-table gut-table.qza \
      --o-composition-table comp-gut-table.qza
    

    输出结果:

    • comp-gut-table.qza: 组成型特征表,无零值。 查看 | 下载

    接下来可用ANCON对两组的特征进行丰度差异的比较了。

    time qiime composition ancom \
      --i-table comp-gut-table.qza \
      --m-metadata-file sample-metadata.tsv \
      --m-metadata-column subject \
      --o-visualization ancom-subject.qzv
    

    输出结果:

    • ancom-subject.qzv: 按Subject分类比较结果。查看 | 下载

    image

    图13. 交互火山图展示组间差异特征。鼠标悬停在特征点上,可显示特征名称和对应的具体坐标。下面有每个显著差异特征的统计结果,以及组内分位数表格。

    问题:哪个序列变体(SV)在分组间差异很大?每个SV在哪个分组中更丰富?这些SV的分类是什么?(要回答最后一个问题,你需要参考本教程中物种注释部分生成的另一个可视化。)

    我们也经常对在特定的分类学层次上执行差异丰度检验。为此,我们可以在感兴趣的分类级别上折叠FeatureTable[Frequency]中的特性,然后重新运行上述步骤。在本教程中,我们将特征表折叠到属级别(即Greengenes分类法的第6级)。

    qiime taxa collapse \
      --i-table gut-table.qza \
      --i-taxonomy taxonomy.qza \
      --p-level 6 \
      --o-collapsed-table gut-table-l6.qza
    
    qiime composition add-pseudocount \
      --i-table gut-table-l6.qza \
      --o-composition-table comp-gut-table-l6.qza
    
    qiime composition ancom \
      --i-table comp-gut-table-l6.qza \
      --m-metadata-file sample-metadata.tsv \
      --m-metadata-column subject \
      --o-visualization l6-ancom-subject.qzv
    

    输出对象:

    • gut-table-l6.qza: 按属水平折叠的特征表。查看 | 下载
    • comp-gut-table-l6.qza: 属水平筛选肠样本的相对丰度组成表。查看 | 下载

    输出可视化结果:

    • l6-ancom-Subject.qzv: 属水平差异比较结果。 查看 | 下载

    image

    图14. 交互火山图展示组间差异属。鼠标悬停在特征点上,可显示属名称和对应的具体坐标。下面表格为每个显著差异属的统计结果,以及组内分位数表格。

    问题:哪个属在不同组间有丰富的差异?哪一组每个属比较丰富?

    译者简介

    刘永鑫,博士,中科院青促会会员,QIIME 2项目参与人。2008年毕业于东北农业大学微生物学专业,2014年于中国科学院大学获生物信息学博士,2016年遗传学博士后出站留所工作,任工程师。目前主要研究方向为宏基因组数据分析。目前在***Science、Nature Biotechnology、Protein & Cell、Current Opinion in Microbiology***等杂志发表论文30余篇,被引2千余次。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章2400余篇,代表作有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》《微生物组实验手册》《微生物组数据分析》等,关注人数11万+,累计阅读1800万+。

    Reference

    https://docs.qiime2.org/2020.11/

    Evan Bolyen*, Jai Ram Rideout*, Matthew R. Dillon*, Nicholas A. Bokulich*, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. doi:10.1038/s41587-019-0209-9

    Caporaso, J.G., Lauber, C.L., Costello, E.K., Berg-Lyons, D., Gonzalez, A., Stombaugh, J., Knights, D., Gajer, P., Ravel, J., Fierer, N., Gordon, J.I., and Knight, R. (2011). Moving pictures of the human microbiome. Genome Biology 12, R50.

    猜你喜欢

    写在后面

    为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
    image

    学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
    image

    image

    点击阅读原文,跳转最新文章目录阅读
    https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

    展开全文
  • QIIME 2教程. 11元数据Metadata(2020.11)

    千次阅读 2019-10-23 09:25:49
    9元数据元数据格式要求元数据验证前导和尾随空格字符注释和空行标识符列标识符的建议元数据列列类型数字格式化高级文件...使用QIIME2对象作为元数据**合并原数据**探索特征元数据Reference译者简介猜你喜欢写在后面...
  • QIIME 2用户文档. 9数据导入Importing data原文地址:https://docs.qiime2.org/2020.11/tutorials/importing/为了使用Q...
  • 科学网对Markdown排版支持较差,对格式不满意的用户请跳转至 CSDN 或“宏基因组”公众号...由于QIIME2更新频繁,如使用中遇到问题请访问QIIME2官方论坛阅读最新版中文帮助。 https://forum.qiime2.org/t/qiime2-1-chin
  • 由于QIIME2更新频繁,如使用中遇到问题请访问QIIME2官方论坛阅读最新版中文帮助。 https://forum.qiime2.org/t/qiime2-1-chinese-manual/838 如中文翻译没有急时更新,请阅读英文原版 https://docs.qi
  • 数据资源 Data resourceshttps://docs.qiime2.org/2021.2/data-resources/q2-feature-classifie使用的分类学分类器...
  • 由于QIIME2更新频繁,如使用中遇到问题请访问QIIME2官方论坛阅读最新版中文帮助。 https://forum.qiime2.org/t/qiime2-1-chinese-manual/838 如中文翻译没有急时更新,新阅读英文原版 https://docs.qi
  • 专业干货每日推送!声明:本文为QIIME2官方帮助文档...由于QIIME2更新频繁,如使用中遇到问题请访问QIIME2官方论坛阅读最新版中文帮助。 https://forum.qiime2.org/t/qiime2-1-chinese-manual/838 如中文翻译没有急时
  • 可用插件Available pluginshttps://docs.qiime2.org/2021.2/plugins/available/用户可以通过插件使用QIIME 2微生物组分析功...
  • 使用q2-phylogeny进行系统发育推断Phylogenetic inference with q2-phylogenyhttps://docs.qiime2.org/2020.11/...
  • 使用q2-phylogeny进行系统发育推断Phylogenetic inference with q2-phylogenyhttps://docs.qiime2.org/2021.2/t...
  • 文章目录前情提要引用QIIME 2引用插件检索特定于插件的引用 Retrieving plugin-specific citations使用来源追溯列出引用 Using provenance to list citations方法描述和引用示例Example methods descriptions不好的...
  • 写在前面QIIME是微生物组领域最广泛使用的分析流程,10年来引用20000+次,2019年Nature杂志评为近70年来人体菌群研究的25个里程碑事件——里程碑16:生物信息学工具助力菌...
  • 文章目录前情提要数据资源 Data resourcesq2-feature-classifie使用的分类学分类器标记基因参考数据库Greengenes (16S rRNA)数据库的各种版本及下载链接如下:Silva (16S/18S rRNA)数据库UNITE (fungal ITS)数据库...
  • 写在前面QIIME是微生物组领域最广泛使用的分析流程,10年来引用20000+次,2019年Nature杂志评为近70年来人体菌群研究的25个里程碑事件——里程碑16:生物信息学工具助力...
  • 由于QIIME2更新频繁,如使用中遇到问题请访问QIIME2官方论坛阅读最新版中文帮助。 https://forum.qiime2.org/t/qiime2-1-chinese-manual/838 如中文翻译没有急时更新,新 阅读英文原版 https://docs.
  • sample-classifier`预测样本分类**基于模型来预测样品**预测样本连续型元数据嵌套交叉验证为所有样本提供预测**分类的验证和可视化****回归的验证和可视化**最佳实践:不应该使用`q2-sample-classifier`做的事情...
  • QIIME 2 使用总结

    2020-12-15 11:06:34
    软件介绍 ...安装教程:https://docs.qiime2.org/2020.11/install/native/#install-qiime-2-within-a-conda-environment wget https://data.qiime2.org/distro/core/qiime2-2020.11-py36-linux-cond
  • 中文简明教程使用QIIME 2流程分析微生物组16S rRNA基因扩增子测序数据.docx 中文完整文档 QIIME 2教程中文完整文档(2021.2) 6沙漠土壤分析Atacama soil mSystems:干旱对土壤微生物组的影响 7帕金森小鼠教程...
  • 教程环境为Ubuntu16.04 x64最好有管理员权限,没权限找管理员帮忙。用Docker运行所有流程的成功率高,几乎是万能的,简单高效,不存在环境变量污染和版本冲突的问题,是复杂分...
  • 教程环境为Ubuntu16.04 x64安装Docker# 安装Docker sudo apt-get install docker.io # 启动Docker服务 service docker start # select 1, using passwd # 关闭Docker服务 service docker stop# 配置权限,添加用户...
  • 教程:集成QIIME2和R以使用qiime2R( v0.99.5 )进行数据可视化和分析 背景 是一种用于存储的输入和输出以及相关元数据和有关对象形成方式的出处信息的方法。 这种存储对象的方法具有许多明显的优点。 但是,从表面...
  • 您也可以将的应用程序编程接口与一起使用,以使用QIIME 2的输出文件(例如,分类条形图或alpha稀疏图)创建具有出版质量的图形。 要安装独岛,请在终端中输入以下内容: $ git clone ...
  • 官网qiime2的conda方法安装教程官网: https://docs.qiime2.org/2018.4/install/native/ 由于docker的方法下载中断,无法安装。虚拟机的方法下载又太大,那就通过conda的方法来进行安装,解决软件的依赖关系。 ...
  • QIIME2-CLI更新学习笔记

    2018-09-10 10:46:59
    qiime1已经不更新的维护,虽然可以使用,毕竟已经有点过时。学习qiime2还是相当必要的,毕竟它是趋势。但qiime2更新是如此迅速,以至于许多翻译成中文的教程不少命令已然过时了,所以有必要学习一下两个月一更新的...
  • QIIME 2021.4版本发布:https://docs.qiime2.org/2021.4/本文是软件介绍,接下来将更新软件中文使用教程2010年发表于Nature Methods的Q...
  • 最近读微生态公众号中宏基因组的文章,发现阿童木写的教程,宏基因组的数据可以导入qiime2分析。于是有了发现新大陆的感觉,qiime2是一个优秀的可视化工具,有它在手,分析不愁呀,可是作者并没有给出怎样导入数据的...

空空如也

空空如也

1 2
收藏数 35
精华内容 14
关键字:

qiime使用教程