精华内容
下载资源
问答
  • NCBI assembly_summary_genbank.txt, assembly_summary_refseq.txt和assembly_summary.txt文件内容格式解析
    2020-10-11 13:57:43

    ################################################################################

    README for the assembly_summary_genbank.txt, assembly_summary_refseq.txt and assembly_summary.txt files found on the NCBI genomes FTP site:  ftp://ftp.ncbi.nlm.nih.gov/genomes

    Last updated: February 11, 2020

    ################################################################################

    1. ASSEMBLY SUMMARY FILES

    The assembly_summary files report metadata for the genome assemblies on the NCBI genomes FTP site.

    Four master files reporting data for either GenBank or RefSeq genome assemblies are available under ftp://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/

    • assembly_summary_genbank.txt            - current GenBank genome assemblies
    • assembly_summary_genbank_historical.txt - replaced and suppressed GenBank genome assemblies
    • assembly_summary_refseq.txt             - current RefSeq genome assemblies
    • assembly_summary_refseq_historical.txt  - replaced and suppressed RefSeq genome assemblies

    assembly_summary_genbank.txt and assembly_summary_genbank_historical.txt are also available at:

    ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/assembly_summary_genbank.txt

    ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/assembly_summary_genbank_historical.txt

    assembly_summary_refseq.txt and assembly_summary_refseq_historical.txt are also available at:

    ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/assembly_summary_refseq.txt

    ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/assembly_summary_refseq_historical.txt

    The assembly_summary.txt files in the directories named for taxonomic groups or species contain the relevant subsets of the data from the master files.

    2. COLUMN SPECIFICATIONS

    The assembly_summary.txt files have 22 tab-delimited columns. Header rows begin with '#".

    Column  1: "assembly_accession":组装版本号

       Assembly accession: the assembly accession.version reported in this field is a unique identifier for the set of sequences in this particular version of the genome assembly.

      Column  2: "bioproject":BioProject编号

       BioProject: accession for the BioProject which produced the sequences in the genome assembly. A BioProject is a collection of biological data related to a single initiative, originating from a single organization or from a

       consortium. A BioProject record provides users a single place to find links

       to the diverse data types generated for that project. The record can be

       retrieved from the NCBI BioProject resource:

       https://www.ncbi.nlm.nih.gov/bioproject/  

    Column  3: "biosample":

       BioSample: accession for the BioSample from which the sequences in the genome assembly were obtained. A BioSample record contains a description of the biological source material used in experimental assays. The record can be retrieved from the NCBI BioSample resource: https://www.ncbi.nlm.nih.gov/biosample/

    Column  4: "wgs_master":GenBank核酸版本号

       WGS-master: the GenBank Nucleotide accession and version for the master record of the Whole Genome Shotgun (WGS) project for the genome assembly. The master record can be retrieved from the NCBI Nucleotide resource: https://www.ncbi.nlm.nih.gov/nuccore

       Genome assemblies that are complete genomes, and those that are clone-based, do not have WGS-master records in which case this field will be empty.

    Column  5: "refseq_category"

       RefSeq Category: whether the assembly is a reference or representative genome in the NCBI Reference Sequence (RefSeq) project classification.

       Values:

               reference genome      - a manually selected high quality genome

                                       assembly that NCBI and the community have

                                       identified as being important as a standard

                                       against which other data are compared

               representative genome - a genome computationally or manually selected

                                       as a representative from among the best

                                       genomes available for a species or clade that

                                       does not have a designated reference genome

               na                    - no RefSeq category assigned to this assembly

       Prokaryotes may have more than one reference or representative genome per

       species. For more information see:

       https://www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/#referencegenome

       Eukaryotes have no more than one reference or representative genome per

       species. If there are no assemblies in RefSeq for a particular eukaryotic

       species, then the GenBank assembly that RefSeq would select as the best

       available for that species will be designated as the representative genome.

       Viruses may have one or more reference genomes per species. The

       representative genome designation is not applied to viruses.

    Column  6: "taxid":NCBI分类ID号

       Taxonomy ID: the NCBI taxonomy identifier for the organism from which the genome assembly was derived. The NCBI Taxonomy Database is a curated classification and nomenclature for all of the organisms in the public sequence databases. The taxonomy record can be retrieved from the NCBI Taxonomy resource:

       https://www.ncbi.nlm.nih.gov/taxonomy/

    Column  7: "species_taxid":

       Species taxonomy ID: the NCBI taxonomy identifier for the species from which

       the genome assembly was derived. The species taxid will differ from the organism taxid (column 6) only when the organism was reported at a sub-species or strain level.

    Column  8: "organism_name":物种名称,与第6列的分类ID对应

       Organism name: the scientific name of the organism from which the sequences in the genome assembly were derived. This name is taken from the NCBI Taxonomy record for the taxid specified in column 6. Some older taxids were assigned at the strain level and for these the organism name will include the strain. Current practice is only to assign taxids at the species level; for these the organism name will be just the species, however, the strain name will be reported in the infraspecific_name field (column 9).

    Column  9: "infraspecific_name":种之下的分类名称,例如菌株、品系、品种等等

       Infraspecific name: the strain, breed, cultivar or ecotype of the organism

       from which the sequences in the genome assembly were derived. Data are

       reported in the form tag=value, e.g. strain=AF16. Strain, breed, cultivar

       and ecotype are not expected to be used together, however, if they are then

       they will be reported in a list separated by ", /". Empty if no strain,

       breed, cultivar or ecotype is specified on the genomic sequence records.

    Column 10: "isolate":

       Isolate: the individual isolate from which the sequences in the genome assembly were derived. Empty if no isolate is specified on the genomic sequence records.

    Column 11: "version_status":组装版本状态信息,包括最新版本、已经被替换、已删除版本

       Version status: the release status for the genome assembly version.

       Values:

               latest     - the most recent of all the versions for this assembly chain

               replaced   - this version has been replaced by a newer version of the assembly in the same chain

               suppressed - this version of the assembly has been suppressed 

      An assembly chain is the collection of all versions for the same assembly accession.

    Column 12: "assembly_level":组装级别,包括完整基因组、染色体、Scaffold、Contig

       Assembly level: the highest level of assembly for any object in the genome assembly.

       Values:

          Complete genome - all chromosomes are gapless and have no runs of 10 or more ambiguous bases (Ns), there are no unplaced or unlocalized scaffolds, and all the expected chromosomes

                            are present (i.e. the assembly is not noted as having

                            partial genome representation). Plasmids and organelles

                            may or may not be included in the assembly but if

                            present then the sequences are gapless.

          Chromosome      - there is sequence for one or more chromosomes. This could be a completely sequenced chromosome without gaps or a chromosome containing scaffolds or contigs with gaps between them. There may also be unplaced or unlocalized scaffolds.

          Scaffold        - some sequence contigs have been connected across gaps to create scaffolds, but the scaffolds are all unplaced or unlocalized.

          Contig          - nothing is assembled beyond the level of sequence contigs

    Column 13: "release_type":组装版本发布类型,主要根据变化、更新程度分为major、minor和patch

       Release type: whether this version of the genome assembly is a major, minor or patch release.

       Values:

               Major - changes from the previous assembly version result in a

                       significant change to the coordinate system. The first

                       version of an assembly is always a major release. Most

                       subsequent genome assembly updates are also major releases.

               Minor - changes from the previous assembly version are limited to the

                       following changes, none of which result in a significant

                       change to the coordinate system of the primary assembly-unit:

                       - adding, removing or changing a non-nuclear assembly-unit

                       - dropping unplaced or unlocalized scaffolds

                       - adding up to 50 unplaced or unlocalized scaffolds which are

                         shorter than the current scaffold-N50 value

                       - replacing a component with a gap of the same length

               Patch - the only change is the addition or modification of a patch assembly-unit.

       See the NCBI Assembly model web page (https://www.ncbi.nlm.nih.gov/assembly/model/#asmb_def) for definitions of assembly-units and genome patches.

    Column 14: "genome_rep":目标是全基因组组装还是部分组装,包括full和partial

       Genome representation: whether the goal for the assembly was to represent the whole genome or only part of it.

       Values:

          Full    - the data used to generate the assembly was obtained from the whole genome, as in Whole Genome Shotgun (WGS) assemblies for example. There may still be gaps in the assembly.

          Partial - the data used to generate the assembly came from only part of the genome.

       Most assemblies have full genome representation with a minority being partial genome representation. See the Assembly help web page (https://www.ncbi.nlm.nih.gov/assembly/help/) for reasons that the genome representation would be set to partial.

    Column 15: "seq_rel_date":序列在数据库发布的日期

       Sequence release date: the date the sequences in the genome assembly were released in the International Nucleotide Sequence Database Collaboration (INSDC) databases, i.e. DDBJ, ENA or GenBank.

    Column 16: "asm_name":基因组提交者姓名或者NCBI指定的ASM开头的编号

       Assembly name: the submitter's name for the genome assembly, when one was provided, otherwise a default name, in the form ASM#####v#, is provided by NCBI. Assembly names are not unique.

    Column 17: "submitter":基因组提交组织名称,当有多个组织时只列出第一单位

       Submitter: the submitting consortium or first position if a list of organizations. The full submitter information is available in the NCBI BioProject resource: www.ncbi.nlm.nih.gov/bioproject/

    Column 18: "gbrs_paired_asm":GenBank版本号和RefSeq版本号之间的对应关系,na表示没有匹配上

       GenBank/RefSeq paired assembly: the accession.version of the GenBank assembly that is paired to the given RefSeq assembly, or vice-versa. "na" is reported if the assembly is unpaired.

    Column 19: "paired_asm_comp":对应的GenBank和RefSeq组装是否一致

       Paired assembly comparison: whether the paired GenBank & RefSeq assemblies are identical or different.

       Values:

          identical - GenBank and RefSeq assemblies are identical

          different - GenBank and RefSeq assemblies are not identical

          na        - not applicable since the assembly is unpaired

    Column 20: "ftp_path":FTP下载地址(最重要的一列,可以下载到序列)

       FTP path: the path to the directory on the NCBI genomes FTP site from which data for this genome assembly can be downloaded.

    Column 21: "excluded_from_refseq":从RefSeq中删除的原因

       Excluded from RefSeq: reasons the assembly was excluded from the NCBI Reference Sequence (RefSeq) project, including any assembly anomalies. See: https://www.ncbi.nlm.nih.gov/assembly/help/anomnotrefseq/

    注:NCBI RefSeq旨在提供高质量的参考序列,一些partial的基因序列可能会被删除,因此原因可能是:partial

    Column 22: "relation_to_type_material":基因组组装所用样本的来源

       Relation to type material: contains a value if the sequences in the genome assembly were derived from type material.

       Values:

          assembly from type material - the sequences in the genome assembly were derived from type material

          assembly from synonym type material - the sequences in the genome assembly

             were derived from synonym type material

          assembly from pathotype material - the sequences in the genome assembly

             were derived from pathovar material

          assembly designated as neotype - the sequences in the genome assembly

             were derived from neotype material

          assembly designated as reftype - the sequences in the genome assembly

             were derived from reference material where type material never was

             available and is not likely to ever be available

          ICTV species exemplar - the International Committee on Taxonomy of Viruses (ICTV, 国际病毒分类学委员会) designated the genome assembly as the exemplar for the virus species

          ICTV additional isolate - the International Committee on Taxonomy of Viruses (ICTV) designated the genome assembly an additional isolate for the virus species

    3. 如何使用assembly_summary.txt文件

    The metadata provided in the assembly_summary.txt files can be used to identify assemblies of interest for subsequent download.

    The Genomes FTP FAQ provides examples of how to use the assembly_summary.txt files to download sets of assemblies. See:

    How can I download only the current version of each assembly?

    https://www.ncbi.nlm.nih.gov/genome/doc/ftpfaq/#current

    How can I download RefSeq data for all complete bacterial genomes?

    https://www.ncbi.nlm.nih.gov/genome/doc/ftpfaq/#allcomplete

    Other sets of assemblies of interest can be downloaded using variations on these instructions.

    ________________________________________________________________________________

    National Center for Biotechnology Information (NCBI)

    National Library of Medicine

    National Institutes of Health

    8600 Rockville Pike

    Bethesda, MD 20894, USA

    tel: (301) 496-2475

    fax: (301) 480-9241

    e-mail: info@ncbi.nlm.nih.gov

    ________________________________________________________________________________

     

    更多相关内容
  • 生物数据库 生物数据库的分类 核酸数据库和蛋白质数据库又分为一...比如从三大核酸数据库和基因组数据库提取并加工出的果蝇和蠕虫数据库,再比如根据蛋白质三维结构数据库的结构信息,分析统计出的蛋白质结构分类

    生物数据库

    生物数据库的分类

    BoKfv6.png

    核酸数据库和蛋白质数据库又分为一级和二级。

    一级数据库存储的是通过各种科学手段得到的最直接的基础数据。比如测序获得的核酸序列,或者X射线衍射法等获得的蛋白质三维结构。蛋白质的一级数据库还可以再具体分为蛋白质序列数据库蛋白质结构数据库二级数据库是通过对一级数据库的资源进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库。比如从三大核酸数据库和基因组数据库中提取并加工出的果蝇和蠕虫数据库,再比如根据蛋白质三维结构数据库中的结构信息,分析统计出的蛋白质结构分类数据库CATH和SCOP等。

    文献数据库:PubMed

    https://pubmed.ncbi.nlm.nih.gov/
    BoMLo4.png

    一级核酸数据库(主要包括:三大核酸数据库+基因组数据库)

    一级核酸数据库,主要包括三大核酸数据库和基因组数据库。
    BolC3n.png

    三大核酸数据库包括:NCBI的GenbankEMBL的ENA 和 DDBJ

    它们共同构成国际核酸序列数据

    三大核酸数据库,美国一个,欧洲一个,亚洲一个。

    美国的 Genbank美国国家生物技术信息中心NCBI开发并负责维护。NCBI隶属于美国国立卫生研究院NIH。

    欧洲核苷酸序列数据集ENA欧洲分子生物学研究室EMBL开发并负责维护。

    亚洲的核酸数据库DDBJ由位于日本静冈的日本国立遗传学研究所NIG 开发并负责维护。

    Genbank,EMBL与DDBJ共同构成国际核酸序列数据库合作联盟INSDC

    (International Nucleotide SequenceDatabase Collaboration,INSDC)

    通过INSDC,三大核酸数据库的信息每日相互交换,更新汇总。这使得他们几乎在任何时候都享有相同的数据。

    一级核酸数据库:GenBank

    这里的东西有点多:可能笔记表述不清,可以直接看下课程视频2.4节

    https://www.icourse163.org/learn/SDU-1001907001?tid=1461410447#/learn/content?type=detail&id=1237778638&cid=1257877429&replay=true
    Bo3rtg.png

    以NCBI 的Genbank为例,学习如何解读一级核酸数据库。将分别浏览一个原核生物的基因和一个真核生物的基因。为此,首先了解一下原核生物与真核生物基因的不同之处

    • 原核生物基因组小,真核生物基因组大

    • 原核生物基因密度高,1000个碱基里就有1个基因,而真核生物基因密度低,比如人,要10万个碱基才有1个基因。与此对应,原核生物编码区含量高而真核生物低

    • 原核生物的基因是呈线性分布的,而真核生物的基因是非线性的,因为翻译蛋白质的外显子被内含子分隔开来。

    • 最大区别真核生物的mRNA 要经历剪切的过程,剪切后的成熟mRNA才能进行翻译。这是原核生物和真核生物基因的最大区别,即,原核生物没有内含子,真核生物有内含子。这个巨大的区别,将导致两种基因在数据库中不同的存储及注释方式。

    原核生物的 DNA序列

    从NCBI的主页(http://www.ncbi.nIm.nih.gov/))选择Genbank数据库。Nucleotide数据库就是Genbank 数据库,然后在搜索条中直接写入这条序列对应的数据库编号(如:编码大肠杆菌dUTPase 的基因,在Genbank 里的数据库编号是X01714),点击“搜索”。结果返回编号为X01714的序列在Genbank 中详细记录。从这条记录的标题我们得知,dUTPase是脱氧尿苷焦磷酸酶,编码他的基因叫dut基因,所属物种是大肠杆菌。下面是关于这个基因的详细注释,逐条浏览一下:
    在这里插入图片描述
    生物中的bp是碱基对的意思。bp的全称为Base Pair
    在这里插入图片描述
    ACCSEESION: 检索号

    LOCUS: 名字

    DEFITION: 简短的定义,标题

    VERSION: 版本号

    当一个序列发生了改变,它的检索号(Accession)不变,但会被赋予一个新的版本号。

    KEYWORDS: 能够大致描述该条目的几个关键词可用于数据库搜索。

    SOURCE: 基因序列所属物种的俗名。

    ORGANISM: 对所属物种更详细的定义包括他的科学分类。

    REFERENCE: 基因序列来源的科学文献(一条基因序列的不同片段可能来源于不同的文献)。文献具体分为作者、题目和刊物。刊物还包括PubMed ID作为其子条目

    COMMENT: 自由撰写内容,比如致谢或者是无法归入前面几项的内容。

    FEATURES:描述核酸序列中各个已确定的片段区域,包含很多子条目,比如来源(source),启动子(promoter)等。

    Features的子条目需要具体参照例子来理解,看这个视频的01:34即可

    https://www.icourse163.org/learn/SDU-1001907001?tid=1461410447#/learn/content?type=detail&id=1237778638&cid=1257877431

    一级核酸数据库:基因组数据库

    二级核酸数据库:GeneBank

    今天有点事情,so没有学习后面的
    来日补上~

    展开全文
  • 文章目录未培养病毒基因组的最少信息标准写在前面摘要介绍图1 随着时间推移病毒基因组数据库的大小病毒富集后UViGs的回收图2 UViGs的识别未经富集后的UViGs的回收病毒序列的计算鉴定方法表1 UViGs的强制元数据清单...

    未培养病毒基因组的最少信息标准

    Minimum Information about an Uncultivated Virus Genome (MIUViG)

    原文链接:https://www.nature.com/articles/nbt.4306

    Nature Biotechnology [IF = 31.864]

    DOI: https://doi.org/10.1038/nbt.4306

    第一作者:Simon Roux1

    通讯作者: Simon Roux1(sroux@lbl.gov) 和 Emiley A Eloe-Fadrosh1(eaeloefadrosh@lbl.gov)

    所有作者:
    image

    主要单位:

    1 美国 加利福尼亚州 胡桃溪市 能源部联合基因组研究所 US Department of Energy Joint Genome Institute, Walnut Creek, California, USA

    Resource: 2018-12-17

    写在前面

    扩增子的最小信息标准发表在2011年的NBT上(NBT:扩增子及其他测序的最小信息标准和测序规范(MIMARKS)),在最小信息标准发表后的2012年,扩增子测序逐渐开始蔓延,2015-2016年火热,在最近两年才慢慢平稳。时隔7年的2018年,同样在NBT上发表了病毒测序的最小信息标准。病毒研究确实是一个新领域,并且能看到这两年逐渐升温,新型冠状病毒的出现可能会加速病毒领域的研究,这将进一步加速病毒测序技术方法和生物信息学分析的成熟,相信大爆发时间不会太晚,也许在本年末,还是明年?反正是发展迅速并且很有前途的方向。我们是否也要当弄潮儿呢?

    摘要

    我们提出了关于任何序列标准的最小信息的扩展,用于报告基于非培养病毒基因组的序列。关于未培养病毒基因组(Minimum Information about any (x) Sequence,MIUViG)标准的最少信息是在基因组标准联盟框架内制定的,包括病毒起源、基因组质量、基因组注释、分类信息、生物地理分布和宿主预测。在群落范围内采用MIUViG标准,补充了未培养细菌和古细菌的单菌基因组最小信息(Minimum Information about a Single Amplified Genome,MISAG)和宏基因组(Minimum Information about a Metagenome-Assembled Genome,MIMAG)标准,将改进公共数据库中非培养病毒基因组的报告。反过来,这将有助于更有力的对全球病毒领域的系统探索。

    介绍

    目前的估计是,在大多数栖息地,病毒粒子的数量大大超过活细胞,但只有极小一部分病毒是在实验室培养的。通过不依赖培养的测序手段,发现了前所未有的病毒多样性。从生物和非生物环境中,重新构建非培养病毒的基因组方面已经取得了进展,而无需实验室分离病毒-宿主系统。例如,在过去2年,在宏基因组和宏转录组数据集中已经鉴定出超过75万个非培养的病毒基因组(uncultivated virus genomes,UViGs),是从人工培养的病毒中测序得到的基因组总数的5倍(图1),并且在公开可获得的病毒序列中,未培养的病毒基因组(UViGs)已经代表了≥95%的病毒分类多样性。宏基因组协议是基于双链DNA测序的,虽然这并不能很好的代表病毒基因组测序,但是基于宏基因组和宏转录组得到的未培养病毒基因组(UViGs)仍然能够评估全球病毒多样性,并评估病毒群落的结构和驱动因素。UViGs也有助于提高我们对病毒进化历史和病毒-宿主之间相互作用的理解。

    图1 随着时间推移病毒基因组数据库的大小

    Size of virus genome databases over time

    image

    显示了基于培养的病毒基因组(蓝色和绿色)或非培养病毒基因组(UViGs)(黄色)的序列。对于来自纯培养的病毒基因组,显示了基因组的数量(蓝色)和“参考”基因组的数量(绿色)。

    对于依赖培养方法得到的病毒基因组数量是通过一下方法得到:2018年1月,通过“Viruses[Organism] AND srcdb_refseq[PROP] NOT wgs[PROP] NOT cellular organisms[ORGN]
    NOT AC_000001:AC_999999[PACC]” 查询参考基因组和“Viruses[Organism] NOT cellular organisms[ORGN] NOT wgs[PROP] NOT AC_000001:AC_999999[pacc] NOT gbdiv syn[prop] AND nuccore genome samespecies[Filter]”查询病毒基因组总数;在NCBI核苷酸数据库门户网站上(https://www.ncbi.nlm.nih.gov/ nuccore)下载了数据;来自流感病毒数据库(https://www.ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi?go=genomeset)的基因组也被添加到病毒基因组的总数中。

    不依赖培养的病毒(UViGs)基因组从宏基因组测序组装,微生物基因组中提取,病毒基因组测序组装。非培养病毒基因组总数是通过整合公开发表的文章和三次查找IMG/VR数据库得到的(查找时间分别为:2017年1月、2018年1月和2018年7月)

    无论是真核的、细菌的、古细菌的还是病毒的基因组,基于单个研究独立分析和解释都有巨大的挑战。为了应对这些挑战,起草了MISAG(单菌基因组标准)和MIMAG(宏基因组标准),以提高往往不完整的来自单细胞或宏基因组序列的微生物基因组的报告质量。虽然MISAG和MIMAG的某些方面可以应用于UViGs,但是病毒基因组组成和内容、复制策略和宿主的异常多样性意味着UViGs的完整性、质量、分类学和生态学需要通过病毒特异性指标来评估。

    基因组标准联合会(The Genomic Standards Consortium,http://gensc.org)维护着MIxS的元数据清单(metadata checklists),包括基因组和宏基因组序列、标记基因序列以及单一扩增和宏基因组组装的细菌和古生菌基因组。在此,我们提出了一套标准,这些标准扩展了MIxS,包括UViGs的识别、质量评估、分析和报告,以及如何进行这些分析的建议。 我们提供了一个元数据清单(metadata checklist),用于数据库提交和UViGs的发表。这个元数据清单(metadata checklists)设计得足够灵活,可以适应一段时间内的技术和方法变化。这些整合到一起的信息可以通过MIUViG清单直接提交给国际核苷酸序列数据库协作(International Nucleotide Sequence Database Collaboration,INSDC)成员的数据库——日本DNA数据库(the DNA Database of Japan,DDBJ)、欧洲分子生物学实验室-欧洲生物信息学研究所(the European Molecular Biology Laboratory–European Bioinformatics Institute,EMBL-EBI)和美国国家生物技术信息中心(US National Center for Biotechnology Information,NCBI)——这些数据库将与UViG序列一起保存和展示元数据清单。这些MIUViG标准还应与现有的病毒基因组分析指南一起使用,包括国际病毒分类委员会(the International Committee on Taxonomy of Viruses,ICTV)发布的指南,他们最近批准将UViGs纳入正式的病毒分类方案(https://talk.ictvonline.org)。尽管MIUViG标准和最佳实践是为感染微生物的病毒基因组设计的,但它们也可以应用于感染动物、真菌和植物的病毒,并且与已经存在的用于这些病毒流行病学分析的标准兼容。

    病毒富集后UViGs的回收

    Recovery of UViGs after virus enrichment

    可以从富含病毒基因组(即病毒宏基因组和单病毒基因组)的数据集检索UViGs基因组(图2)。病毒宏基因组通常通过结合过滤步骤、DNA酶或RNA酶处理,以及根据目标病毒提取DNA或RNA,然后反转录(寻找RNA病毒)和鸟枪法测序来获得。可以应用靶向序列捕获方法来回收特定的病毒组(图2),并且这些方法在只有少量病毒存在时(例如,临床样品),被证明特别有用。单个病毒测序方法是在基因组扩增和测序之前使用流式细胞仪对单个病毒颗粒进行分类,并扩增单个病毒基因组(single amplified genomes,SAGs)(图2)。病毒宏基因组和单病毒基因组通常使用短读长、高通量测序平台进行测序,如Illumina测序,并通过与微生物基因组和宏基因组相似的算法进行组装。然而,由于基因组相对较小(NCBI病毒参考序列数据库中92%的病毒基因组小于100 kb),基于短读长的基因组装配可能很快被长读长的测序技术(例如,PacBio zero-mode waveguide 技术或牛津纳米孔测序技术)所取代图2)。这将更容易从混合样品中得到单个病毒基因组。

    图2 UViGs的识别

    Identification of UViGs
    image
    用来获得UViGs的方法示意图。样品制备(橙色)和生物信息学分析(蓝色)显示了从组装MAG和SAG改编而来的步骤,或为UViG添加的步骤。病毒定位和识别特别需要的步骤用粗体突出显示。

    病毒富集后产生的数据集的主要优势是组成丰富和稀有的病毒都能从头组装得不错,增强了对序列来源是病毒的信心,以及对活性(active)和“非活性(inactive)”或“隐性(cryptic)”病毒(即样品中存在但不能感染的病毒)进行测序的能力。然而,由于所使用的选择性过滤步骤,富含病毒的数据集可能过度表达(over-representation)具有高爆发大小的强毒病毒(从每个受感染细胞释放出大量病毒颗粒),而对衣壳≥0.2 um的较大病毒(如巨型病毒)表达不(under-representation)足。此外,计算(in silico)方法通常是确定从富含病毒的样品中获得的UViGs宿主范围的唯一选择。

    未经富集后的UViGs的回收

    Recovery of UViGs without enrichment

    病毒序列也存在于未经病毒富集的数据集中,包括分选细胞、组织或用0.2 um滤膜过滤的环境样品。这些序列可能来源于在细胞中复制的病毒,来源于整合入宿主基因组或作为附加体元素存在于宿主细胞中的温和病毒(原病毒或原噬菌体),或来源于样品中存在的游离病毒颗粒。

    分析未经病毒富集的测序数据有几个优点。它可以检测溶解性感染、潜伏性感染和持续性感染,它克服了基于病毒颗粒大小的选择所产生的一些偏差,并且它可以应用于任何宏基因组数据。然而,来自未经病毒富集数据集的UViGs可能偏向于那些会感染样品中占主要的宿主细胞的病毒,而稀有病毒或感染稀有宿主的病毒可能代表不足(under-represented)或不存在。最后,病毒富集和非病毒富集数据集之间的比较表明,分析不同大小和不同样品类型的UViGs对于探索病毒基因组序列空白是有价值的。

    病毒序列的计算鉴定方法

    Computational identification of viral sequences

    无论数据集的类型如何,UViGs的病毒来源都必须得到验证,因为即使是富含病毒颗粒的样本也仍然含有大量的细胞DNA。污染可能来自于难以区分的细胞组分(例如,超小细菌),也可能来自于在病毒组分中捕获到细胞外DNA。比如来源于包裹在病毒衣壳或类似颗粒(例如,通过转导)、含DNA的膜泡,或基因转移剂(gene transfer agents)等。

    已经开发了几种生物信息学工具和方法来鉴定噬菌体和古细菌病毒的序列;真核病毒;或者噬菌体、古细菌病毒和大型真核病毒的组合。这些方法依赖于几个特征,**如果序列与已知病毒(在基因含量或核苷酸使用模式方面)显著相似,或者序列与任何已知病毒和细胞基因组无关,但含有一个或多个病毒标志性基因,则该序列被认为是病毒。**因此,UViGs必须附有病毒检测工具和使用的协议列表,以及所用应用的阈值(表1)。

    表1 UViGs的强制元数据清单

    List of mandatory metadata for UViGs

    image

    鉴定整合病毒及其在宿主基因组中的精确边界是有困难的

    值得注意的是,没有一种高通量的方法可以准确地将活的病毒(仍然能够复制和产生病毒体)与失活病毒的分开来。因此,尽管预测方法正在改进,但被确定为原病毒的UViGs应明确标记为原病毒,以便这些提醒是清楚的。

    UViGs的组装质量评估

    Estimating quality of UViGs

    我们把UViG序列分为三类:基因组片段、高质量草图基因组和已经完成的(finished)基因组(图3表2)。这些类别反映了MISAG和MIMAG中的类别,并且它们与流行病学和监测中已经提出的小病毒全基因组测序的类别相匹配。UViG质量比从宏基因组中组装的基因组(metagenome-assembled genomes,MAGs)或SAGs更难评估,因为大多数病毒缺乏可用于评估基因组草图完整性的保守的单拷贝标记基因集。然而,也有例外,例如大型真核双链DNA病毒。迄今为止,研究人员已经通过识别环状重叠群或具有反向末端重复(inverted terminal repeats as)的重叠群作为假定的完整基因组来估计UViG序列的完整性。对于线性重叠群,完整性是通过与参考基因组序列进行比较来估计的,并且通常需要对(候选)(亚)科或属进行分类分配,因为基因组长度在这些等级相对一致。这种分配可以基于特定标记基因的检测,例如分支特异的病毒同源群(clade-specific viral orthologous groups),或者基于基因组的分类工具(参见UViGs的分类)。对片段基因组来说,估计完整性更加困难,这需要密切相关的参考基因组或额外的体外实验。

    代表预期基因组长度的<90%或无法确定预期基因组长度的重叠群或基因组箱(bins)将被视为基因组片段。这一类别可能包括大到足以根据基因含量和平均核苷酸同一性被归入已知病毒组的UViG片段。然而,建立新的分类群需要高质量的草图或完成的基因组(图3)。来自UViG片段的序列可用于系统发育和多样性研究,或者作为病毒操作分类单位的参考(operational taxonomic units),或者通过分析这些基因组片段中编码的病毒标记基因;例如衣壳蛋白、终止酶、核糖核苷酸还原酶和依赖于DNA或RNA的RNA聚合酶。类似地,UViG片段可以被分析以评估未知病毒的功能基因互补情况或将其与潜在宿主联系起来。重要的是,目前用于自动病毒序列鉴定的方法不能可靠地鉴定短的(<10kb)病毒序列,对此应极其谨慎地进行解释。

    图3 UViG的分类和相关序列分析

    UViG classification and associated sequence analyses
    image

    “潜在功能”是基因内容分析(gene content analysis)中使用的功能注释。“寄主预测”是不同计算(in silico)寄主预测工具的应用。“分类”是使用标记基因或基因含量比较将重叠群分类到已建立的组。“多样性和分布”包括通过宏基因组reads 映射(mapping),vOTU聚类和相对丰度估计,在地理尺度上或在宿主相关数据集的解剖位点上进行。“新分类群”涉及完全基于UViG序列的新提议群(例如科或属)的划分。“新参考种”是指在ICTV的建立新条目的建议。

    被预测为完整的或代表预期基因组序列≥ 90%的重叠群或基因组箱(bins)是高质量的草图,这也符合微生物基因组的标准。重复区域可能导致部分基因组错误组装为环形重叠群。因此,在评估UViG完整性时,应考虑组装好的环形重叠群的长度。对于不是来自一致组装集的UViGs,例如单一的长读长(single long reads),base calling quality > 99% (phred分数 > 20)来分配“高质量草图”的标签。基因组序列组装成一个单一的重叠群,或者每个片段一个重叠群,经过广泛的人工审查和注释,可以标记为“完整的基因组”。注释必须包括识别推定基因的功能;结构、复制或溶源模块;以及转录单位。“完成的基因组”类别只保留给最高质量的人工选择的UViGs,这是建立新病毒物种所必需的(图3表2)。

    表2 每个类别所需特性概述

    Summary of required characteristics for each category

    image

    与SAGs和MAGs不同,UViGs的质量评估不包括基因组污染的阈值。在基因组分箱(bin)的情况下,污染问题最为突出,而大多数UViGs由单个重叠群表示,计算机模拟(in silico simulations)显示嵌合序列很少,并且存在率< 2%。此外,没有工具可以自动评估UViG污染,因此污染信息不包括在当前的MIUViG清单中。然而,MIUViG清单未来的更新版本可能中可能会包含。如果要开发这种工具,就会包含污染阈值。例如,这种工具可能利用单拷贝标记基因(一旦这些基因在更广泛的病毒类群中定义),或者它可能利用宏基因组读数的覆盖,宏基因组读数原则上应该沿着基因组均匀分布,除了高度保守的基因之外,没有重大偏差。

    UViGs的注释

    Annotation of UViGs

    UViGs的功能注释包括以下任务:预测基因组序列中的特征,如蛋白质编码基因、tRNAs和整合位点;将功能分配给尽可能多的预测特征;并将剩余的假设蛋白质分配给未表征的蛋白质家族。已经为不同类型的病毒建立了注释流程,但是病毒基因组类型之间的巨大差异可能会阻碍能够注释每种病毒的统一工具的开发。因此,我们建议报告用于注释UViGs基因组的软件。

    应明确说明用于注释预测蛋白质的方法和参考数据库。新病毒基因的同源物可能不能用成对序列相似性检测的标准方法检测,如BLAST,而是需要使用更敏感的图谱相似性方法,如HMMER、PSI-BLAST或HHPred。尽管已经收集了许多蛋白质家族的序列图谱,但它们经常与任何特定功能无关。因此,UViG分析应始终报告(i)特征预测方法,(ii)序列相似性搜索方法,以及(iii)搜索的数据库(框1和补充表1)。

    应明确说明用于注释预测蛋白质的方法和参考数据库的选择。新病毒基因的同源物可能无法用标准的成对序列相似性检测(pairwise sequence similarity detection)方法(如BLAST)检测,而是需要使用更敏感的图谱相似性(profile similarity)方法(如HMMER、PSI-BLAST或HHPred)。尽管已经收集了许多蛋白质家族的序列图谱,但它们经常与任何特定功能无关。因此,UViG分析应始终报告(I)特征预测方法,(ii)序列相似性搜索方法,以及(iii)搜索的数据库。

    UVigs的分类

    Taxonomy of UViGs

    分类信息可以提供UViG与已知病毒之间关系。虽然用于病毒分类的信息和标准随着时间的推移发生了变化,但病毒分类现已收敛(converge)到基于基因组的分析。由于病毒基因组、突变率和进化范围非常广泛,ICTV为每个病毒组制定了具体的分界标准。最近,在使用全基因组平均核苷酸同一性进行物种等级分类方面出现了共识,这用于下游生态、进化和功能研究。这一共识是通过分析已发表的群体遗传学研究和NCBI参考文献病毒基因组的基因含量比较而达成的。我们建议正式使用物种级病毒群,并命名这些“病毒操作分类单元”(vOTUs),以避免混淆,因为在文献中物种群被不同地命名为“病毒群(viral population)”、“病毒群(viral cluster)”或“重叠群(contig cluster)”。基于NCBI参考序列和IMG/VR数据库中现有序列的比较,我们建议95%平均核苷酸同一性,超过85%比对分数(95% average nucleotide identity over 85% alignment fraction)(相对于较短序列)的标准阈值。尽管部分基因组仍然难以分类,但这些共同的阈值将使比较分析成为可能。此外,vOTU报告应包括聚类方法和阈值、使用的参考数据库和基因组比对方法,因为在不同方法之间观察到微小的差异。

    对于比物种更高的分类等级,虽然已经提出了几种方法,但还没有就应该使用哪种方法达成共识。记住这一点,包括分类学在内的UViG报告必须清楚地指出所应用的方法和阈值,任何新的分类法都必须强调为初步的(例如,“属级聚类(genus-rank cluster)”、“假定属(putative genus)”或“候选属(candidate genus)”,而不仅仅是“属(genus)”,因为这一类别是为ICTV认可的群体保留的。作者应向ICTV提交正式的分类建议供其考虑。

    最后,关于基因组的性质和表达方式的信息(比如Baltimore classification)应该包括在UViG的描述中。同样,应报告基因组的预测分割状态(片段或者非片段),通常来源于分类和与最近参考文献的比较。

    计算机模拟预测寄主

    In silico host prediction

    一旦一个新的病毒基因组被组装,理解这个病毒的生态作用的一个重要步骤就是预测其宿主。计算机模拟(In silico)方法通常是UViGs预测记住的唯一选择。这些可以分为四种主要类型。首先,当存在密切相关的病毒时,可以基于UViG和参考病毒基因组之间的序列相似性,以相对高的精度预测宿主。其次,可以基于UViG和宿主基因组之间的序列相似性预测宿主。这些序列相似性的范围可以从短的精确匹配(~ 20–100 bp),包括CRISPR间隔区,到长( > 100 BP)核苷酸序列匹配,包括整合到较大宿主重叠群中的整合病毒。基于序列相似性的宿主范围预测是最可靠的,但需要对密切相关的宿主基因组进行测序。第三,从结构域到属级的宿主分类可以从反映病毒和宿主基因组在G+C含量、k-mer频率和密码子使用方面共同进化的核苷酸使用特征来预测。这些方法通常不如基于序列相似性的方法具体,不能可靠地预测属级以下的宿主范围,但可以为更多的UViGs提供预测的宿主。最后,宿主预测可以通过比较宿主和病毒序列在空间或时间尺度上的丰度分布,或者通过丰度相关性,或者通过更复杂的基于模型的相互作用预测来计算。尽管很少有数据集可用于基于丰度分布比较的宿主预测的稳健评估,但随着高分辨率时间序列宏基因组学变得更加普遍,我们预计这种方法将变得更加强大和普遍。

    由于所有这些生物信息学方法都是预测性质的,因此报告有效的错误发现率估评估至关重要。此外,计算工具不能定量预测侵染的特征(例如,感染率或爆发大小),而侵染的定量特征对于理解病毒对宿主生物学的影响非常重要,目前仅适用于感染细菌或古细菌的病毒。然而,这些预测对于随后的计算(in silico)、体外和体内研究是重要的指导,包括明确证明特定微生物宿主病毒感染的实验验证。应报告宿主预测以及所用特定工具的详细信息,更重要的是,根据公布的基准或研究中进行的测试得出的估计精度。这些信息将允许病毒宿主数据库逐步整合UViGs,同时仍然控制向用户提供的预测的敏感性和准确性。

    报告UViGs

    Reporting UViGs

    我们建议共享和归档UViGs和UViG相关数据的最佳做法如下:数据发布应通过DDBJ (https://www.ddbj.nig.ac.jp/index-e.html)、EMBL-EBI欧洲核苷酸档案馆(ENA; https://www.ebi.ac.uk/ena)或NCBI(GenBank and the Sequence Read Archive; https://www.ncbi.nlm.nih.gov/nucleotide)的成员数据库之一,以INSDC的数据资源(http://www.insdc.org/)为中心。如果需要,可以直接联系INSDC数据库管理员来提交大规模批量数据集。当作为UViG研究的一部分生成新数据集时,应根据与环境相关的混合清单描述测序样本,并提交原始读取数据。高质量和完成的UViGs应作为整体提交,前者作为“草图”报告,并附有所需原始数据(表1)。可以提交不完整的组装数据,但它们必须附带必需的原始数据。

    在可行的情况下,注释和分类应提交给INSDC,在ENA的出现和丰度数据应作为“分析”记录报告。通过短读宏基因组作图估计的丰度数据报告应包括关于所用核苷酸同一性和覆盖阈值的信息,同时对假阳性率和假阴性率的相应估计要么重新计算,要么从文献中提取。出版物中必须引用所有INSDC加入代码。对于ICTV分类,目前只考虑编码完整的基因组(完整的高质量和完成的UViGs草图)。

    结论

    相对于MISAG和MIMAG标准而言,病毒最小信息标准(MIUViG)和基于为非培养病毒的最佳分析流程都是具体的病毒特异性的。随着测序技术的出现和成熟,病毒基因组学和宏基因组学正在迅速发展和改进。与此同时,基于基因组的病毒分类方法以及病毒基因组和/或蛋白质的统一的、全面的和注释的参考数据库的发展仍在快速进行。社区采用这些标准,包括通过与其他病毒协会(ICTV)和数据中心(DDBJ、EMBL-EBI和NCBI)的持续合作,将为系统探索病毒基因组序列空间提供框架,并使研究社区能够更好地利用和公开报告UViGs。

    翻译:秋芒树

    责编:文涛 南京农业大学

    审核:刘永鑫 中科院遗传发育所

    Reference

    Simon Roux, Evelien M. Adriaenssens, Bas E. Dutilh, Eugene V. Koonin, Andrew M. Kropinski, Mart Krupovic, Jens H. Kuhn, Rob Lavigne, J. Rodney Brister, Arvind Varsani, Clara Amid, Ramy K. Aziz, Seth R. Bordenstein, Peer Bork, Mya Breitbart, Guy R. Cochrane, Rebecca A. Daly, Christelle Desnues, Melissa B. Duhaime, Joanne B. Emerson, François Enault, Jed A. Fuhrman, Pascal Hingamp, Philip Hugenholtz, Bonnie L. Hurwitz, Natalia N. Ivanova, Jessica M. Labonté, Kyung-Bum Lee, Rex R. Malmstrom, Manuel Martinez-Garcia, Ilene Karsch Mizrachi, Hiroyuki Ogata, David Páez-Espino, Marie-Agnès Petit, Catherine Putonti, Thomas Rattei, Alejandro Reyes, Francisco Rodriguez-Valera, Karyna Rosario, Lynn Schriml, Frederik Schulz, Grieg F. Steward, Matthew B. Sullivan, Shinichi Sunagawa, Curtis A. Suttle, Ben Temperton, Susannah G. Tringe, Rebecca Vega Thurber, Nicole S. Webster, Katrine L. Whiteson, Steven W. Wilhelm, K. Eric Wommack, Tanja Woyke, Kelly C. Wrighton, Pelin Yilmaz, Takashi Yoshida, Mark J. Young, Natalya Yutin, Lisa Zeigler Allen, Nikos C. Kyrpides & Emiley A. Eloe-Fadrosh. Minimum Information about an Uncultivated Virus Genome (MIUViG). Nature Biotechnology 37, 29-37, doi:10.1038/nbt.4306 (2019).

    猜你喜欢

    写在后面

    为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
    image

    学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
    image

    image

    点击阅读原文,跳转最新文章目录阅读
    https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

    展开全文
  • 核酸序列数据库主要包括了基因组DNA序列,mRNA序列,tRNA序列,rRNA序列等核酸序列。国家上有三个主要核苷酸序列公共数据库: 位于英国剑桥的欧洲分子生物学实验室的欧洲核苷酸档案库(ENA) 位于美国的生物技术...

    核酸序列数据库主要包括了基因组DNA序列,mRNA序列,tRNA序列,rRNA序列等核酸序列。国家上有三个主要核苷酸序列公共数据库:

    • 位于英国剑桥的欧洲分子生物学实验室的欧洲核苷酸档案库(ENA
    • 位于美国的生物技术信息中心的GeneBank数据库
    • 位于日本的DNA数据库(DDBJ

    分别收集来自不同地区的数据,三大数据库进行数据共享且向世界开放。

    核酸序列数据增长迅速,所以数据库版本更新较快,进行生物信息学分析时,务必注明数据库的数据状况及时间。


    为维持数据的原始性,未经原作者允许,不能对原始数据库中的数据记录进行更新,修改,甚至加上注释,这就是一级数据库。

    一级数据库

    以Genbank为例:

    Genbank

    数据组织形式

    数据库中数据量巨大且不断增长,为了方便数据的维护管理以及查询,将数据进行分类,分为不同的子数据库(不同的数据库分类依据略有不同):

    • 种属来源

    如哺乳类、啮齿类和病毒等

    • 特点测序策略

    主要依据序列来源分为专利、人工合成、表达序列标签(Expressed Sequence Tags,EST)、高通量基因组测序(High Throughput Genomic sequencing,HTG)、序列标签位点(Sequence Tag Site,STS)以及基因组概览序列(Genome Survey Sequence,GSS)分支等

    数据格式

    GenBank数据库不仅给出了序列信息,还包含了全面的注释信息。

    序列文件由单个序列条目组成,序列条目由字段组成,有些字段又分若干子字段,每个字段由关键字起始。

    在这里插入图片描述

    GenBank数据的访问

    对GenBank数据库中海量数据进行访问的途径主要有四种:一是通过NCBI的Entrez检索系统(http://www.ncbi.nlm.nih.gov/Entrez/)进行检索访问;二是提交序列与GenBank或者其中某个子库进行序列比对,通常使用NCBI提供的序列比对工具BLAST(http://www. ncbi.nlm.nih.gov/BLAST/);三是当需要大量访问GenBank中的数据时,可以利用NCBI提供的FTP(ftp://ftp.ncbi.nih.gov)下载功能将全部数据下载到本地使用。不过即使是这种情况下,一般也只需要下载GenBank的某个分支子库,如PRI子库等;四是采用NCBI电子编程工具(NCBI e-utilities(http://www.ncbi.nlm.nih.gov/entrez/query/static/eutils_help.html),即“Entrez Programming Utilities”,编程实现序列的查询、链接和下载。


    随着数据的积累,一级数据库中存在很多数据冗余和不完全数据,所以在一级数据库基础上对数据进行整合,加工,以及添加注释随之产生二级数据库。

    二级数据库

    RefSeq数据库

    参考序列数据库RefSeq(The Reference Sequence)是NCBI建立的一个收集了基因组DNA、转录物RNA和蛋白质产物等的,全面的、整合的、非冗余的序列集合。RefSeq是医学(medical)、功能学(functional)和差异性(diversity)等研究的基石,为基因组注释(genome annotation)、基因辨识和特征分析(gene identification and characterization)、突变和多态性分析(mutation and polymorphism analysis)、表达研究(expression studies),以及比较分析(comparative analyses)等提供了参考。RefSeq的独特之处在于提供了巨大的、多物种的、人工注释和审核的序列数据库,明确地关联了染色体、转录本和蛋白质信息,将来源于序列、遗传、表达和功能信息等多个数据源的大量相异数据整合为一个单一、一致和具有标准协议的数据集合。

    RefSeq的特点

    • 非冗余,RefSeq数据库是一个非冗余的DNA、RNA和蛋白质的数据集合,这一点明显不同于GenBank;
    • 明确地将核酸序列和蛋白质序列关联起来,并以转录物为单位组织相关mRNA和蛋白质的序列和注释等重要信息;
    • 维持更新以反映最新的序列数据和生物学知识;
    • 数据经过校验,特别是标记为“REVIEWED”或“VALIDATED”的RefSeq mRNA序列已经过了人工审查,序列质量相对可靠。

    dbEST数据库

    表达序列标签数据库,包含来源于不同物种的表达序列标签(EST)

    Gene数据库

    为用户提供基因检索注释和检索服务,收录来自5300多个物种的430万条基因记录

    非编码RNA数据库

    非编码RNA包括rRNA,tRNA,snRNA,snoRNA,microRNA等,共同特点是能够转录却不能翻译成蛋白质,在RNA水平行使各自功能。根据长度又可分:

    • 非编码小RNA
    • 长非编码RNA

    数据库有:

    • miRBase数据库 microRNA序列及相关注释
    • LncRNAdb数据库 真核生物已注释功能的长非编码RNA
    • Rfam数据库 包含非编码RNA家族以及其他一些RNA元素家族

    基因组数据库

    基因组 基因

    基因组组成完整生物体的全部DNA集合,基因是基因组中在染色体上的具有遗传效应的片段。

    随着错误的基因测序结果被纠正,基因组也会随之改变,所以研究基因组要明确基因组组装版本。

    ensemble数据库

    基因组数据库不同于基因序列数据库,不仅包含核酸序列数据还包含基因表达,突变位点,基因组定位,相关文献等内容。

    展开全文
  • -生物信息学-章节资料考试资料-山东大学【】 单元测验01 1、【单选题】以下哪个是今天“生物信息学”的正确英语拼写? A、biocomp B、bioinformatics C、bioinformatique D、bio-informatics E、biocompute 参考资料...
  • 生物信息学数据库及在线工具汇总 (更新)

    千次阅读 多人点赞 2019-08-24 18:33:39
    蛋白质信息1.蛋白序列数据库2.蛋白质结构数据库3.蛋白组数据库4.蛋白质功能域数据库5.蛋白互作数据库代谢数据库1.代谢途径数据库2.代谢组学常用数据库3.表型数据库序列比对1.序列与数据库比对2.多序列间比对3.序列...
  • 生物信息学初学——山大公开课笔记

    千次阅读 多人点赞 2019-08-20 23:08:11
    生物信息学研究对象 核酸 测序及应用;基因序列注释;基因预测;核酸序列比对;核酸数据库;比较基因组学;宏基因组学;基因进化;RNA结构预测;等 蛋白质 蛋白质数据库;蛋白质序列比对;二/三级结构预测;相互作用...
  • 生物信息学入门知识

    千次阅读 2020-09-24 08:59:16
    1957年9月,克里克在论文“论蛋白质合成”正式提出,遗传信息流的传递方向是:DNA→RNA→蛋白质,后来被称为“中心法则”。 中心法则的基本内容: 遗传信息是DNA上的核苷酸序列 基因表达包括转录...
  • 3、文献数据库——PubMed 4、一级核酸数据库——NCBI的Genbank数据库 4.1——大肠杆菌dUTPas(脱氧尿苷焦磷酸酶)X01714的DNA序列 4.2——编码人dUTPase的成熟mRNA序列U90223 4.3——编码人dUTPase的dut基因序列。...
  • 生信自学笔记(三)分子数据库

    千次阅读 2018-07-27 14:31:57
    核酸数据库:ENA(EMBL)、GenBankDDBJ 蛋白质数据库:SWISS-PROF、PIR、PDB 一个数据库记录由两部分组成:原始序列数据和描述这些数据生物学信息的注释。 记录格式 FASTA 在生物信息,FASTA ...
  • 扩增子测序的最小信息标准和测序规范Minimum information about a marker gene sequence (MIMARKS) and minimum infor...
  • 扩增子最小信息标准和环境包的发展表1 MIMARKS清单的核心项目,以及类型,描述和需求状态群落主导的调查结果对已发表发表的数据的总结MIMARKS信息列表MIxS 环境包符合MIMARKS的数据示例展示主要数据库和信息资源的...
  • 生物数据库

    2020-04-20 20:04:18
    生物数据库之核酸数据库 参考:山东大学生物信息学MOOC(学习笔记) 一、为什么需要生物数据库? -上图这密密麻麻是啥? -答对了,就是DNA ...事实上,**这是HIV I病毒的整个基因组...人的基因组有3G bp, 也就是3,0...
  • 生物信息大数据&数据库(NCBI、EBI、UCSC、TCGA) 想系统的学习生信数据库可以先看一下北大的公开课,有一章专门讲的数据库与软件: 1-生物信息学:导论与方法 北大\10 生物信息数据库及软件资源 一个优秀的...
  • 2017/11/9 第一版: 生物数据库,基本数据类型(genbank, fasta/fastq),数据上传站点 2017/11/12 第二版:如何利用esearch, efecth快速获取SRR序列号 生物数据库 目前绝大部分数据由NCBI, EMBL-EBI, DDBJ三...
  • 2021-08-04

    2021-08-04 19:05:10
    They contain the full entries as they have been deposited in the public repositories (ENA/GenBank/DDBJ). Fasta header: accession_number.start_position.stop_position taxonomic pathorganism name *_tax_...
  • Burger First published: 11 April 2019 https://doi.org/10.1111/1755-0998.13020 Citations: 13 Data Availability Statement:: This Whole Genome Shotgun project has been deposited at DDBJ/ENA/GenBank ...
  • PCE投稿要求

    千次阅读 2020-03-24 16:33:10
    作者请注意,提交意味着内容没有被发表或提交给其他地方发表,除非作为一个简短的摘要在一个科学会议或研讨会的会议记录中。 Click here for more details on how to use ScholarOne.点击这里了解更多关于如何使用...
  • 序列比对算法

    万次阅读 多人点赞 2018-10-07 22:07:41
    INSDC:由GenBank(美国)、ENA(欧洲)、DDBJ (日本)三大核苷酸数据库组成的联合核苷酸数据库。 序列的FASTA格式:第一行——大于号加名称或其他注释 第二行以后——序列,每行60个字母 3.一级蛋白质数据库(都...
  • 【无标题】

    2022-05-07 22:07:32
    生物数据库 专用数据库 文献数据库PubMed 三大核酸信息库 NCB I(GenBank)美国 ENA 欧洲 DDBJ 日本 数据库联盟 INSDC
  • Bioinfomatic

    2020-07-29 20:56:00
    Bioinfomatic 什么是生物信息学? 概念 生物信息学就是用计算机解决生物学问题 ...NCBI(GenBank):隶属于美国国立卫生研究院(NIH) 结构: EMBL(ENA):欧洲核苷酸序列数据集 DDBJ:日本DNA数据库 Ensembl
  • fastq相关

    2018-07-10 17:47:00
    GenBank is part of the International Nucleotide Sequence Database Collaboration , which comprises the DNA DataBank of Japan (DDBJ), the European Nucleotide Archive (ENA), and GenBank at NCBI....
  • sliva数据库简介--转载

    千次阅读 2017-02-14 10:16:00
    public repositories (ENA/GenBank/DDBJ).   Fasta header: >accession_number.start_position.stop_position taxonomic pathorganism name   *_tax_silva_full_align_trunc.fasta.gz ---------------...

空空如也

空空如也

1 2
收藏数 26
精华内容 10
关键字:

3.总结genbank、ena、ddbj中同一基因记录的信息的差异。