精华内容
下载资源
问答
  • 基因组注释

    千次阅读 2016-01-11 11:48:00
    基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。 1 重复序列的识别。 1.1重复序列的研究背景和意义:重复序列可分为串联...

    基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。

     

    1 重复序列的识别。

     

        1.1  重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类。其中串联重复序列包括有微卫星序列,小卫星序列等等;散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。常见的反转录转座子类别有LTR,LINE和SINE等。

     

        1.2  重复序列识别的发展现状:目前,识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker软件,识别与已知重复序列相似的序列,并对其进行分类。常用Repbase重复序列数据库。从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测,不依赖于已有的转座子数据库,能够发现未知的转座子元件。常见的从头预测方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。

     

        1.3  重复序列识别的研究内容:获得组装好的基因组序列后,我们首先预测基因组中的重复序列和转座子元件。一方面,我们采用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等从头预测软件预测重复序列。为了获得从头预测方法得到的重复序列的类别信息,我们把这些序列与Repbase数据库比对,将能够归类的重复序列进行分类。另一方面,我们利用Repeatmasker识别与已知重复序列相似的重复序列或蛋白质序列。通过构建Repbase数据库在DNA水平和蛋白质水平的重复序列,Repeatmasker能够分别识别在DNA水平和蛋白质水平重复的序列,提高了识别率。

     

        1.4  重复序列识别的关键技术难点:

     

        (1):第二代测序技术测基因组,有成本低、速度快等优点。但是由于目前产生的读长(reads)较短。由于基因组序列采用kmer算法进行组装,高度相似的重复序列可能会被压缩到一起,影响对后续的重复序列识别。

     

        (2):某些高度重复的序列用现有的组装方法难以组装出来,成为未组装reads(unassembled reads)。有必要同时分析未组装reads以得到更为完整的重复序列分布图。之前,华大已开发了ReAS软件,专门用于识别未组装reads中的重复序列。但该软件目前只能处理传统测序技术(如sanger测序)生成的较长片段的reads,需要进一步改进方可用于分析第二代测序技术得到的reads。同时,未组装的短片段reads重复度更高,识别其重复区域具有较大难度。

     

        1.5  重复序列识别的研究方向:

     

       (1):整合现有的重复序列预测方法,对组装好的基因组序列进行分析。

     

       (2):综合考虑并结合短序列组装策略,校正重复序列识别的结果。

     

       (3):开发识别未组装reads重复序列的算法和流程并构建一致性序列。

     

    2  非编码RNA序列的预测。

     

        1.1  非编码RNA预测的研究背景和意义

        非编码RNA,指的是不被翻译成蛋白质的RNA,如tRNA, rRNA等,这些RNA不被翻译成蛋白质,但是具有重要的生物学功能。miRNA结合其靶向基因的mRNA序列结合,将mRNA降解或抑制其翻译成蛋白质,具有沉默基因的功能。tRNA (转运RNA)携带氨基酸进入核糖体,使之在mRNA指导下合成蛋白质。rRNA(核糖体RNA)与蛋白质结合形成核糖体,其功能是作为mRNA的支架,提供mRNA翻译成蛋白质的场所。snRNA(小核RNA)主要参与RNA前体的加工过程,是RNA剪切体的主要成分。

     

        1.2  非编码RNA预测的发展现状

        由于ncRNA种类繁多,特征各异,缺少编码蛋白质的基因所具有的典型特征,现有的ncRNA预测软件一般专注于搜索单一种类的ncRNA,如tRNAScan-SE 搜索tRNA、snoScan 搜索带C/D盒的snoRNAs、SnoGps 搜索带H/ACA 盒的snoRNAs、mirScan 搜索microRNA等等。Sanger实验室开发了Infernal软件,建立了1600多个RNA家族,并对每个家族建立了一致性二级结构和协方差模型,形成了Rfam数据库。采用Rfam数据库中的每个RNA的协方差模型,结合Infernal软件可以预测出已有RNA家族的新成员。Rfam/Infernal方法应用广泛,可以预测各种RNA家族成员,但是特异性较差。我们建议:如果有更好的专门预测某一类非编码RNA的软件,那么采用该软件进行预测;否则,使用Rfam/Infernal流程。

     

        1.3  非编码RNA预测的研究内容

        利用Rfam家族的协方差模型,我们采用Rfam自带的Infernal软件预测miRNA和snRNA序列。由于rRNA的保守性很强,为此我们用序列比对已知的rRNA序列,识别基因组中的rRNA序列。tRNAscan-SE工具中综合了多个识别和分析程序,通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。

     

        1.4  非编码RNA预测中拟解决的关键技术难点

        识别非编码RNA的假基因:基因组中很多序列由非编码RNA基因复制而来,与非编码RNA基因序列相似,但不具有非编码RNA的功能。目前我们采用的非编码RNA序列的预测方法都是基于序列比对和结构预测,不能够很好的去除这类非编码RNA的假基因。针对这个问题,我们考虑结合RNA表达信息如RNA-seq数据进行筛选。

     

        1.5  非编码RNA预测的研究方向 

       (1):专门检测小片段RNA序列的方法现在已经得到广泛应用,利用小片段RNA序列数据进行非编码RNA的预测是我们的重要研究方向。

     

        (2):开发miRNA靶向基因预测流程:miRNA通过调控其靶向基因的mRNA稳定性或翻译来控制生命活动的进程。预测miRNA靶向基因能够给我们研究miRNA功能带来提示。由于miRNA在动物和植物中对靶向基因的调控机制差别较大,我们建议对动物和植物分别建立靶向基因预测流程,提高预测准确度。

     

    3  基因结构预测

     

        3.1  基因结构预测的研究背景和意义

        通过基因结构预测,我们能够获得基因组详细的基因分布和结构信息,也将为功能注释和进化分析工作提供重要的原料。基因结构预测包括预测基因组中的基因位点、开放性阅读框架(ORF)、翻译起始位点和终止位点、内含子和外显子区域、启动子、可变剪切位点以及蛋白质编码序列等等。

     

        3.2  基因结构预测的发展现状

        原核生物基因的各种信号位点(如启动子和终止子信号位点)特异性较强且容易识别,因此相应的基因预测方法已经基本成熟。Glimmer是应用最为广泛的原核生物基因结构预测软件,准确度高。而真核生物的基因预测工作的难度则大为增加。首先,真核生物中的启动子和终止子等信号位点更为复杂,难以识别。其次,真核生物中广泛存在可变剪切现象,使外显子和内含子的定位更为困难。因此,预测真核生物的基因结构需要运用更为复杂的算法,常用的有隐马尔科夫模型等。常用的软件有Genscan、SNAP、GeneMark、Twinscan等。

     

        3.3  基因结构预测的研究内容

        基因结构预测主要通过序列比对结合从头预测方法进行。序列比对方法采用blat和pasa等比对方法,将基因组序列与外部数据进行比对,以找到可能的基因位置信息。常用的数据包括物种自身或其近缘物种的蛋白质序列、EST序列、全长cDNA序列、unigene序列等等。这种方法对数据的依赖性很高,并且在选择数据的同时要充分考虑到物种之间的亲缘关系和进化距离。基因从头预测方法则是通过搜索基因组中的重要信号位点进行的。常用的软件有Genscan、SNAP、Augustus、Glimmer、GlimmerHMM等等。同时采用多种方法进行基因预测将产生众多结果,因此最后需要对结果进行整合以得到基因的一致性序列。常用软件有Glean,EVM等。

     

        3.4  基因结构预测中拟解决的关键技术难点

        目前,真核生物的基因结构预测方法仍有较大改进空间,主要面临以下的技术难点。

     

       (1):如何利用现有的数据和算法,更好地识别基因的可变性剪切位点。

     

       (2):随着测序工作的进展,许多目前研究较少的物种也将提上测序日程。大多基因结构的从头预测算法需要预先训练预测参数。现有资源和数据稀缺的物种将很难获得预测参数。

     

       (3):克服组装错误对基因结果预测的影响

     

        3.5  建立基因结构预测的评价系统

     

        可变性剪切位点的预测较为困难。如何结合RNA-seq数据进行可变剪切预测将是重要的工作方向和难点。

     

        3.6  基因结构预测的研究方向:

     

       (1):利用RNA-seq、EST等数据校正基因结构预测结果,识别可变剪切位点。

     

       (2):对于研究较少的物种,建议利用近缘物种的同源基因数据以训练基因结构预测软件。

     

       (3):利用同源基因组之间的共线性信息,辅助基因结构预测。

     

    4  基因功能注释。

     

        4.1  基因功能注释的研究背景和意义

        获得基因结构信息后,我们希望能够进一步获得基因的功能信息。基因功能注释方向包括预测基因中的模序和结构域、蛋白质的功能和所在的生物学通路等。

     

        4.2  基因功能注释的发展现状

        全基因组测序将产生大量数据,而实验方法由于成本较高,不适用于全基因组测序的后续功能分析。为此,目前普遍采用比对方法对全基因组测序的基因功能进行注释。KEGG和Gene Ontology是目前使用最为广泛的蛋白质功能数据库,分别对蛋白质的生物学通路和功能进行注释。Interpro通过整合多个记录蛋白质特征的数据库,根据蛋白质序列或结构中的特征对蛋白质进行分类。

     

        4.3  基因功能注释的研究内容

        目前,我们利用四个常用的数据库进行基因功能注释。使用的数据库有Uniprot蛋白质序列数据库、KEGG生物学通路数据库、Interpro蛋白质家族数据库和Gene Ontology基因功能注释数据库。

     

       (1):与Uniprot蛋白质序列数据库比对,获得序列的初步信息。

     

       (2):与KEGG数据库比对,预测蛋白质可能具有的生物学通路信息。

     

       (3):与Interpro数据库比对将获得蛋白质的保守性序列,模序和结构域等。

     

       (4):预测蛋白质的功能。Interpro进一步建立了与Gene Ontology的交互系统:Interpro2GO。该系统记录了每个蛋白质家族与Gene Ontology中的功能节点的对应关系,我们通过此系统便能预测蛋白质执行的生物学功能。

     

        4.4  基因功能注释中拟解决的关键技术难点

        目前我们的功能注释工作是建立在比对的基础上,这将会带来两个比较大的问题。首先,此方法严重依赖于外部数据,对某些研究较少的物种限制很大。其次,序列相似并不表示实际生物学功能相似,考虑引入序列比对之外的方法,进一步完善基因功能注释工作。

     

        4.5  基因功能注释的研究方向

       考虑引入序列比对之外的数据(如蛋白质互作网络、基因表达谱等),利用概率模型算法进行整合,完善基因功能注释工作。

    参考:http://blog.sina.com.cn/s/blog_8698533a0101fxq5.html

    转载于:https://www.cnblogs.com/daimakun/p/5120681.html

    展开全文
  • 文章目录一、什么是参考基因组和基因组注释?二、参考基因组版本命名1、常用人参考基因组对应表2、常用小鼠参考基因组对应表三、下载1、NCBI2、Ensemble3、GENCODE4、UCSC5、iGenomes四、其他参考基因组信息 一、...

    一、什么是参考基因组和基因组注释?

    先来理一理参考基因组,基因组注释文件间的关系。

    自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因组序列信息,并写在 Fasta 格式的文本文件“天书”中,这本天书就叫做参考基因组

    image.png

    但是,直接拿天书来看是一脸懵逼的,于是大家开始利用实验技术手段开始着手解密这本天书,随后大量的基因以及非编码序列被人们详细的标记在参考基因组对应的位置。同时对该位置加入大量的注释细节,最终将这些信息写在 BED,GTF,GFF 格式的基因组注释文件 。所以也可以把基因组注释文件理解为字典,看不懂天书,翻翻字典就懂了。

    image.png
    随着时间的推移,在更先进技术的加持下,在已经构建好的基因组和注释信息上不断增加,删减,修改,就有了不同的版本。而每一个版本的参考基因组都会对应有一个基因组注释文件(天书和字典一一对应),接下来我们看看参考基因组版本是怎么指定的。

    二、参考基因组版本命名

    在讲参考基因组之前,需要提到一个组织参考基因组联盟(Genome Reference Consortium),它是由 NCBI,EBI,桑格研究所等机构组成。GRC 利用最佳的技术装配,纠正,增加基因组序列,以此作为在生信分析领域作为参考的基因组。目前,该机构构建了人,小鼠,大鼠,斑马鱼,鸡的参考基因组。

    人基因组官名叫 GRCh38 (Genome Reference Consortium Human Build 38),GRCh38 在UCSC基因组浏览器中还有个小名 hg38,这个小名对于大多数人来说是更亲切熟悉的。GRCh38 在 GenBank 中叫 GCA_000001405.15,在 RefSeq 中叫 GCF_000001405.26,虽然 GRC 组织建议在所有出版物和工具中使用该编号,但事实是前两种 GRCh38 和 hg38 对生信分析更常见。

    在不更改染色体坐标的情况下,向参考基因组添加或替换新序列,这种打补丁的方式,会在基因组版本后加 .p (patch)来命名。

    这就像在王者荣耀,英雄联盟中,为了维持游戏热度,会大幅修改游戏架构,流程,世界观,图片,叫大版本更新,而定期对某些英雄的面板属性修正,作为补丁。

    举个例子,GRCh38 的第九个补丁,正式版本叫做 Genome Reference Consortium Human Build 38 patch release 9,简称 GRCh38.p9。在 GenBank 编号为 GCA_000001405.24,RefSeq 编号为 GCF_000001405.35。在 Ensemble 编号为 GRCh38,NCBI 编号为 GRCh38。

    1、常用人参考基因组对应表

    发布时间201320092006
    GRC 官名GRCh38GRCh37GRCh36
    UCSChg38hg19hg18
    EnsembleGRCh38GRCh37GRCh36
    GENCODE38193c
    NCBIGRCh38GRCh37GRCh36
    GenBankGCA_000001405
    RefSeqGCF_000001405

    根据 GRC 官网信息,GRCh39 大版本将会无限停更,他们在考虑用新模型和序列来构建人类的参考基因组,细节不清楚,猜测有可能会有泛基因组内容。

    2、常用小鼠参考基因组对应表

    发布时间202020112007
    GRC 官名GRCm39GRCm38
    UCSCm39mm10mm9
    EnsembleGRCm39GRCm38
    GENCODEM27M25M1
    NCBIGRCm39GRCm38NCBIM37

    三、下载

    1、NCBI

    这里提供两种下载方式,一种为网页界面下载,另一种为FTP下载。

    可视化下载

    • 进入网址

    https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/

    • 搜索物种

    image.png

    • 下载界面

    image.png

    FTP下载

    随便提一下,Chrome 浏览器在18版本后由于安全原因已经不支持 ftp 协议,改用 https 协议,可以看到链接已经与之前的不同。

    这里以下载人的参考基因组 GRCh38 为例:

    https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/reference/GCF_000001405.39_GRCh38.p13

    人类基因组注释文件:

    GTF 格式:https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gtf.gz

    GFF 格式:

    https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gff.gz

    如果以这种方式下载,其实已经可以路径中大概看出相关物种的下载地址,可以自行查询及下载其他物种。

    2、Ensemble

    可视化下载

    image.png

    • 点击对应名称,下载参考基因组和基因组注释文件

    image.png

    FTP下载

    同样以下载人参考基因组 GRCh38 为例:

    http://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

    GTF 文件:http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz

    GTT 文件:http://ftp.ensembl.org/pub/current_gff3/homo_sapiens/Homo_sapiens.GRCh38.104.gff3.gz

    3、GENCODE

    如果小伙伴研究的物种只涉及人类和小鼠,极力推荐 GENCOE,这里有着相较其他数据库,最新最全的基因组和其注释信息。

    • 网址:https://www.gencodegenes.org/
    • 点击人类的最新版

    image.png

    • 点击下载基因组注释文件

    image.png

    • 点击下载参考基因组文件

    image.png

    4、UCSC

    相对其他下载方式,UCSC 本职的工作是做基因组浏览器的,因此也可以从下图看到,在这里可以根据自己定义来下载相对于的基因组区域,比如 prime,exon,gene,transcript等等。

    • 网址:http://genome.ucsc.edu/cgi-bin/hgTables
    • 下载:设置参数如下,然后点击下载参考基因组及注释文件

    image.png

    5、iGenomes

    iGenomes是常见分析生物的参考序列和注释文件的集合。这些文件已从Ensembl,NCBI或UCSC下载。染色体名称已更改为简单且与下载源一致。每个iGenome都可以作为压缩文件使用,其中包含生物体的单个基因组构建的序列和注释文件。

    网址:https://support.illumina.com/sequencing/sequencing_software/igenome.html

    image.png

    由亚马逊资助的生物信息参考基因组下载站点,有各种参考基因组,注释文件,软件索引等常用文件,并且有着极快的下载速度,但是缺点是只有常用的物种。

    **站点:**https://ewels.github.io/AWS-iGenomes/

    image.png

    四、其他参考基因组信息

    SPECIESUCSC VERSIONRELEASE DATERELEASE NAMESTATUS
    MAMMALS
    Humanhg38Dec. 2013Genome Reference Consortium GRCh38Available
    hg19Feb. 2009Genome Reference Consortium GRCh37Available
    hg18Mar. 2006NCBI Build 36.1Available
    hg17May 2004NCBI Build 35Available
    hg16Jul. 2003NCBI Build 34Available
    hg15Apr. 2003NCBI Build 33Archived
    hg13Nov. 2002NCBI Build 31Archived
    hg12Jun. 2002NCBI Build 30Archived
    hg11Apr. 2002NCBI Build 29Archived (data only)
    hg10Dec. 2001NCBI Build 28Archived (data only)
    hg8Aug. 2001UCSC-assembledArchived (data only)
    hg7Apr. 2001UCSC-assembledArchived (data only)
    hg6Dec. 2000UCSC-assembledArchived (data only)
    hg5Oct. 2000UCSC-assembledArchived (data only)
    hg4Sep. 2000UCSC-assembledArchived (data only)
    hg3Jul. 2000UCSC-assembledArchived (data only)
    hg2Jun. 2000UCSC-assembledArchived (data only)
    hg1May 2000UCSC-assembledArchived (data only)
    AlpacavicPac2Mar. 2013Broad Institute Vicugna_pacos-2.0.1Available
    vicPac1Jul. 2008Broad Institute VicPac1.0Available
    ArmadillodasNov3Dec. 2011Broad Institute DasNov3Available
    BaboonpapAnu4Apr. 2017Human Genome Sequencing CenterAvailable
    papAnu2Mar. 2012Baylor College of Medicine Panu_2.0Available
    papHam1Nov. 2008Baylor College of Medicine HGSC Pham_1.0Available
    BisonbisBis1Oct. 2014Univ. of Maryland Bison_UMD1.0Available
    BonobopanPan3May 2020University of WashingtonAvailable
    panPan2Dec. 2015Max-Planck Institute for Evolutionary Anthropology panpan1.1Available
    panPan1May 2012Max-Planck Institute panpan1Available
    Brown kiwiaptMan1Jun. 2015Max-Planck Institute for Evolutionary Anthropology AptMant0Available
    BushbabyotoGar3Mar. 2011Broad Institute OtoGar3Available
    CatfelCat9Nov. 2017Genome Sequencing Center (GSC) at Washington University (WashU) School of Medicine Felis_catus_9.0Available
    felCat8Nov. 2014ICGSC Felis_catus_8.0Available
    felCat5Sep. 2011ICGSC Felis_catus-6.2Available
    felCat4Dec. 2008NHGRI catChrV17eAvailable
    felCat3Mar. 2006Broad Institute Release 3Available
    ChimppanTro6Jan. 2018Clint_PTRv2Available
    panTro5May 2016CGSC Build 3.0Available
    panTro4Feb. 2011CGSC Build 2.1.4Available
    panTro3Oct. 2010CGSC Build 2.1.3Available
    panTro2Mar. 2006CGSC Build 2.1Available
    panTro1Nov. 2003CGSC Build 1.1Available
    Chinese hamstercriGri1Jul. 2013Beijing Genomics Institution-Shenzhen C_griseus_v1.0Available
    Chinese hamster ovary cell linecriGriChoV2Jun. 2017Eagle Genomics Ltd CHOK1S_HZDv1Available
    criGriChoV1Aug. 2011Beijing Genomics Institute CriGri_1.0Available
    Chinese pangolinmanPen1Aug. 2014Washington University (WashU) M_pentadactyla-1.1.1Available
    CowbosTau9Apr. 2018USDA ARSAvailable
    bosTau8Jun. 2014University of Maryland v3.1.1Available
    bosTau7Oct. 2011Baylor College of Medicine HGSC Btau_4.6.1Available
    bosTau6Nov. 2009University of Maryland v3.1Available
    bosTau4Oct. 2007Baylor College of Medicine HGSC Btau_4.0Available
    bosTau3Aug. 2006Baylor College of Medicine HGSC Btau_3.1Available
    bosTau2Mar. 2005Baylor College of Medicine HGSC Btau_2.0Available
    bosTau1Sep. 2004Baylor College of Medicine HGSC Btau_1.0Archived
    Crab-eating macaquemacFas5Jun. 2013Washington University Macaca_fascicularis_5.0Available
    DogcanFam5May 2019University of MichiganAvailable
    canFam4Mar. 2020Uppsala UniversityAvailable
    canFam3Sep. 2011Broad Institute v3.1Available
    canFam2May 2005Broad Institute v2.0Available
    canFam1Jul. 2004Broad Institute v1.0Available
    DolphinturTru2Oct. 2011Baylor College of Medicine Ttru_1.4Available
    ElephantloxAfr3Jul. 2009Broad Institute LoxAfr3Available
    FerretmusFur1Apr. 2011Ferret Genome Sequencing Consortium MusPutFur1.0Available
    Garter snakethaSir1Jun. 2015Washington University Thamnophis_sirtalis-6.0Available
    GibbonnomLeu3Oct. 2012Gibbon Genome Sequencing Consortium Nleu3.0Available
    nomLeu2Jun. 2011Gibbon Genome Sequencing Consortium Nleu1.1Available
    nomLeu1Jan. 2010Gibbon Genome Sequencing Consortium Nleu1.0Available
    Golden eagleaquChr2Oct. 2014University of Washington aquChr2-1.0.2Available
    Golden snub-nosed monkeyrhiRox1Oct. 2014Novogene Rrox_v1Available
    GorillagorGor6Aug. 2019University of WashingtonAvailable
    gorGor5Mar. 2016University of Washington GSMRT3Available
    gorGor4Dec. 2014Wellcome Trust Sanger Institute gorGor4Available
    gorGor3May 2011Wellcome Trust Sanger Institute gorGor3.1Available
    Green MonkeychlSab2Mar. 2014Vervet Genomics Consortium 1.1Available
    Guinea pigcavPor3Feb. 2008Broad Institute cavPor3Available
    Hawaiian monk sealneoSch1Jun. 2017Johns Hopkins University ASM220157v1Available
    HedgehogeriEur2May 2012Broad Institute EriEur2.0Available
    eriEur1Jun. 2006Broad Institute Draft_v1Available
    HorseequCab3Jan. 2018University of LouisvilleAvailable
    equCab2Sep. 2007Broad Institute EquCab2Available
    equCab1Jan. 2007Broad Institute EquCab1Available
    Kangaroo ratdipOrd1Jul. 2008Baylor/Broad Institute DipOrd1.0Available
    Malayan flying lemurgalVar1Jul. 2014WashU G_variegatus-3.0.2Available
    ManateetriMan1Oct. 2011Broad Institute TriManLat1.0Available
    MarmosetcalJac4May 2020Washington University Callithrix_jacchus_cj1700_1.1Available
    MarmosetcalJac3Mar. 2009WUSTL Callithrix_jacchus-v3.2Available
    calJac1Jun. 2007WUSTL Callithrix_jacchus-v2.0.2Available
    MegabatpteVam1Jul. 2008Broad Institute Ptevap1.0Available
    MicrobatmyoLuc2Jul. 2010Broad Institute MyoLuc2.0Available
    Minke whalebalAcu1Oct. 2013KORDI BalAcu1.0Available
    Mousemm39Jun. 2020Genome Reference Consortium Mouse Build 39Available
    mm10Dec. 2011Genome Reference Consortium GRCm38Available
    mm9Jul. 2007NCBI Build 37Available
    mm8Feb. 2006NCBI Build 36Available
    mm7Aug. 2005NCBI Build 35Available
    mm6Mar. 2005NCBI Build 34Archived
    mm5May 2004NCBI Build 33Archived
    mm4Oct. 2003NCBI Build 32Archived
    mm3Feb. 2003NCBI Build 30Archived
    mm2Feb. 2002MGSCv3Archived
    mm1Nov. 2001MGSCv2Archived (data only)
    Mouse lemurmicMur2May 2015Baylor/Broad Institute Mmur_2.0Available
    micMur1Jul. 2007Broad Institute MicMur1.0Available
    Naked mole-rathetGla2Jan. 2012Broad Institute HetGla_female_1.0Available
    hetGla1Jul. 2011Beijing Genomics Institute HetGla_1.0Available
    OpossummonDom5Oct. 2006Broad Institute release MonDom5Available
    monDom4Jan. 2006Broad Institute release MonDom4Available
    monDom1Oct. 2004Broad Institute release MonDom1Available
    OrangutanponAbe2Jul. 2007WUSTL Pongo_albelii-2.0.2Available
    ponAbe3Jan. 2018Susie_PABv2/ponAbe3Available
    PandaailMel1Dec. 2009BGI-Shenzhen AilMel 1.0Available
    PigsusScr11Feb. 2017Swine Genome Sequencing Consortium Sscrofa11.1Available
    susScr3Aug. 2011Swine Genome Sequencing Consortium Sscrofa10.2Available
    susScr2Nov. 2009Swine Genome Sequencing Consortium Sscrofa9.2Available
    PikaochPri3May 2012Broad Institute OchPri3.0Available
    ochPri2Jul. 2008Broad Institute OchPri2Available
    PlatypusornAna2Feb. 2007WUSTL v5.0.1Available
    ornAna1Mar. 2007WUSTL v5.0.1Available
    Proboscis MonkeynasLar1Nov. 2014Proboscis Monkey Functional Genome Consortium Charlie1.0Available
    RabbitoryCun2Apr. 2009Broad Institute release OryCun2Available
    Ratrn7Nov. 2020Wellcome Sanger Institute mRatBN7.2Available
    rn6Jul. 2014RGSC Rnor_6.0Available
    rn5Mar. 2012RGSC Rnor_5.0Available
    rn4Nov. 2004Baylor College of Medicine HGSC v3.4Available
    rn3Jun. 2003Baylor College of Medicine HGSC v3.1Available
    rn2Jan. 2003Baylor College of Medicine HGSC v2.1Archived
    rn1Nov. 2002Baylor College of Medicine HGSC v1.0Archived
    RhesusrheMac10Feb. 2019The Genome Institute at Washington University School of Medicine Mmul_10Available
    rheMac8Nov. 2015Baylor College of Medicine HGSC Mmul_8.0.1Available
    rheMac3Oct. 2010Beijing Genomics Institute CR_1.0Available
    rheMac2Jan. 2006Baylor College of Medicine HGSC v1.0 Mmul_051212Available
    rheMac1Jan. 2005Baylor College of Medicine HGSC Mmul_0.1Archived
    Rock hyraxproCap1Jul. 2008Baylor College of Medicine HGSC Procap1.0Available
    SheepoviAri4Dec. 2015ISGC Oar_v4.0Available
    oviAri3Aug. 2012ISGC Oar_v3.1Available
    oviAri1Feb. 2010ISGC Ovis aries 1.0Available
    ShrewsorAra2Aug. 2008Broad Institute SorAra2.0Available
    sorAra1Jun. 2006Broad Institute SorAra1.0Available
    SlothchoHof1Jul. 2008Broad Institute ChoHof1.0Available
    SquirrelspeTri2Nov. 2011Broad Institute SpeTri2.0Available
    Squirrel monkeysaiBol1Oct. 2011Broad Institute SaiBol1.0Available
    TarsiertarSyr2Sep. 2013WashU Tarsius_syrichta-2.0.1Available
    tarSyr1Aug. 2008WUSTL/Broad Institute Tarsyr1.0Available
    Tasmanian devilsarHar1Feb. 2011Wellcome Trust Sanger Institute Devil_refv7.0Available
    TenrecechTel2Nov. 2012Broad Institute EchTel2.0Available
    echTel1Jul. 2005Broad Institute echTel1Available
    Tree shrewtupBel1Dec. 2006Broad Institute Tupbel1.0Available
    WallabymacEug2Sep. 2009Tammar Wallaby Genome Sequencing Consortium Meug_1.1Available
    White rhinoceroscerSim1May 2012Broad Institute CerSimSim1.0Available
    VERTEBRATES
    African clawed frogxenLae2Aug. 2016Int. Xenopus Sequencing ConsortiumAvailable
    American alligatorallMis1Aug. 2012Int. Crocodilian Genomes Working Group allMis0.2Available
    Atlantic codgadMor1May 2010Genofisk GadMor_May2010Available
    BudgerigarmelUnd1Sep. 2011WUSTL v6.3Available
    ChickengalGal6Mar. 2018GRCg6 Gallus-gallus-6.0Available
    galGal5Dec. 2015ICGC Gallus-gallus-5.0Available
    galGal4Nov. 2011ICGC Gallus-gallus-4.0Available
    galGal3May 2006WUSTL Gallus-gallus-2.1Available
    galGal2Feb. 2004WUSTL Gallus-gallus-1.0Available
    CoelacanthlatCha1Aug. 2011Broad Institute LatCha1Available
    Elephant sharkcalMil1Dec. 2013IMCB Callorhinchus_milli_6.1.3Available
    Fugufr3Oct. 2011JGI v5.0Available
    fr2Oct. 2004JGI v4.0Available
    fr1Aug. 2002JGI v3.0Available
    LampreypetMar3Dec. 2017University of Kentucky Pmar_germline 1.0Available
    petMar2Sep. 2010WUGSC 7.0Available
    petMar1Mar. 2007WUSTL v3.0Available
    LizardanoCar2May 2010Broad Institute AnoCar2Available
    anoCar1Feb. 2007Broad Institute AnoCar1Available
    MedakaoryLat2Oct. 2005NIG v1.0Available
    Medium ground finchgeoFor1Apr. 2012BGI GeoFor_1.0 / NCBI 13302Available
    Nile tilapiaoreNil2Jan. 2011Broad Institute Release OreNil1.1Available
    Painted turtlechrPic1Dec. 2011IPTGSC Chrysemys_picta_bellii-3.0.1Available
    SticklebackgasAcu1Feb. 2006Broad Institute Release 1.0Available
    TetraodontetNig2Mar. 2007Genoscope v7Available
    tetNig1Feb. 2004Genoscope v7Available
    Tibetan frognanPar1Mar. 2015Beijing Genomics Institute BGI_ZX_20015Available
    TurkeymelGal5Nov. 2014Turkey Genome Consortium v5.0Available
    melGal1Dec. 2009Turkey Genome Consortium v2.01Available
    X. tropicalisxenTro9Jul. 2016JGI v.9.1Available
    xenTro7Sep. 2012JGI v.7.0Available
    xenTro3Nov. 2009JGI v.4.2Available
    xenTro2Aug. 2005JGI v.4.1Available
    xenTro1Oct. 2004JGI v.3.0Available
    Zebra finchtaeGut2Feb. 2013WashU taeGut324Available
    taeGut1Jul. 2008WUSTL v3.2.4Available
    ZebrafishdanRer11May 2017Genome Reference Consortium GRCz11Available
    danRer10Sep. 2014Genome Reference Consortium GRCz10Available
    danRer7Jul. 2010Sanger Institute Zv9Available
    danRer6Dec. 2008Sanger Institute Zv8Available
    danRer5Jul. 2007Sanger Institute Zv7Available
    danRer4Mar. 2006Sanger Institute Zv6Available
    danRer3May 2005Sanger Institute Zv5Available
    danRer2Jun. 2004Sanger Institute Zv4Archived
    danRer1Nov. 2003Sanger Institute Zv3Archived
    DEUTEROSTOMES
    C. intestinalisci3Apr. 2011Kyoto KHAvailable
    C. intestinalisci2Mar. 2005JGI v2.0Available
    ci1Dec. 2002JGI v1.0Available
    LanceletbraFlo1Mar. 2006JGI v1.0Available
    S. purpuratusstrPur2Sep. 2006Baylor College of Medicine HGSC v. Spur 2.1Available
    strPur1Apr. 2005Baylor College of Medicine HGSC v. Spur_0.5Available
    INSECTS
    A. melliferaapiMel2Jan. 2005Baylor College of Medicine HGSC v.Amel_2.0Available
    apiMel1Jul. 2004Baylor College of Medicine HGSC v.Amel_1.2Available
    A. gambiaeanoGam3Oct. 2006International Consortium for the Sequencing of Anopheles Genome AgamP3Available
    anoGam1Feb. 2003IAGP v.MOZ2Available
    D. ananassaedroAna2Aug. 2005Agencourt Arachne releaseAvailable
    droAna1Jul. 2004TIGR Celera releaseAvailable
    D. erectadroEre1Aug. 2005Agencourt Arachne releaseAvailable
    D. grimshawidroGri1Aug. 2005Agencourt Arachne releaseAvailable
    D. melanogasterdm6Aug. 2014BDGP Release 6 + ISO1 MTAvailable
    dm3Apr. 2006BDGP Release 5Available
    dm2Apr. 2004BDGP Release 4Available
    dm1Jan. 2003BDGP Release 3Available
    D. mojavensisdroMoj2Aug. 2005Agencourt Arachne releaseAvailable
    droMoj1Aug. 2004Agencourt Arachne releaseAvailable
    D. persimilisdroPer1Oct. 2005Broad Institute releaseAvailable
    D. pseudoobscuradp3Nov. 2004FlyBase Release 1.0Available
    dp2Aug. 2003Baylor College of Medicine HGSC Freeze 1Available
    D. sechelliadroSec1Oct. 2005Broad Institute Release 1.0Available
    D. simulansdroSim1Apr. 2005WUSTL Release 1.0Available
    D. virilisdroVir2Aug. 2005Agencourt Arachne releaseAvailable
    droVir1Jul. 2004Agencourt Arachne releaseAvailable
    D. yakubadroYak2Nov. 2005WUSTL Release 2.0Available
    droYak1Apr. 2004WUSTL Release 1.0Available
    NEMATODES
    C. brennericaePb2Feb. 2008WUSTL 6.0.1Available
    caePb1Jan. 2007WUSTL 4.0Available
    C. briggsaecb3Jan. 2007WUSTL Cb3Available
    cb1Jul. 2002WormBase v. cb25.agp8Available
    C. elegansce11Feb. 2013C. elegans Sequencing Consortium WBcel235Available
    ce10Oct. 2010WormBase v. WS220Available
    ce6May 2008WormBase v. WS190Available
    ce4Jan. 2007WormBase v. WS170Available
    ce2Mar. 2004WormBase v. WS120Available
    ce1May 2003WormBase v. WS100Archived
    C. japonicacaeJap1Mar. 2008WUSTL 3.0.2Available
    C. remaneicaeRem3May 2007WUSTL 15.0.1Available
    caeRem2Mar. 2006WUSTL 1.0Available
    P. pacificuspriPac1Feb. 2007WUSTL 5.0Available
    OTHER
    Sea HareaplCal1Sep. 2008Broad Release Aplcal2.0Available
    YeastsacCer3April 2011SGD April 2011 sequenceAvailable
    sacCer2June 2008SGD June 2008 sequenceAvailable
    sacCer1Oct. 2003SGD 1 Oct 2003 sequenceAvailable
    VIRUSES
    Ebola ViruseboVir3June 2014Sierra Leone 2014 (G3683/KM034562.1)Available
    SARS-CoV-2wuhCor1Jan. 2020SARS-CoV-2 ASM985889v3Available

    https://www.ncbi.nlm.nih.gov/grc

    http://genomeref.blogspot.com/

    展开全文
  • 如何进行基因组注释

    2021-05-28 11:54:46
    定义基因组注释:是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释:即在一条DNA序列上,通过从头、同源、结构定义等多种方法,搜寻并定义...

    定义

    基因组注释:是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释:即在一条DNA序列上,通过从头、同源、结构定义等多种方法,搜寻并定义基因组原件,得到其位置、序列、结构、功能等信息。

    基因组注释流程图

    基因组注释

    基因组注释前期准备

    物种拉丁名,例如:Orazy sativa,基因id:Osa000001
    同源物种: 一般选5个左右物种,需要有注释的基因/蛋白序列,保证高组装和注释质量
    转库组数据: RNAseq和lsoseq注释(用于结构注释中的转录辅助注释)(建议自测同样本的数据)

    基因组注释的分析内容

    yapatO.png]

    重复注释

    重复序列广泛存在于真核生物基因组中,这些重复序列或集中成簇,或分散在基因之间。根据分布把重复序列分为散在重复序列和串联重复序列。
    重复序列根据序列特征分为2类:串联重复(Tandem repeats)和散布重复(Dispersed repeats)

    1. RepeatMasker:基于Repbase(dna)/自建elibrary查询重复序列
    1
    2
    3
    
    RepeatMasker -nolow -no_is -norna -parallel 2 -lib RepeatMasker.lib genome.fa
    #-nohow:屏蔽低复杂简单重复; -no_is:跳过细菌插入元件检查; -norna:不掩盖小RNA(伪)基因;
    #-parallel 并行使用的处理器数,可提升分析速度
    
    1. RepeatProteinMask:基于 Repbase(pep)查询重复序列
    1
    2
    3
    
    RepeatProteinMask -noLowSimple -pvalue 0.0001 genome.fa
    #noLowSimple:关闭低复杂度和简单重复的屏蔽/注释; -pvalue:接受匹配的阈值
    #注意点: genome.fa的D不能长于18个字符
    
    1. TRF:元件的结构特征等来识别重复序列
    1
    
    trf genome.fa 2 7 7 80 10 50 2000 -d -h
    
    1. LTR-FINDER:基于重复序列特征
    1
    2
    
    Itr_finder -W 2 -C -s tRNAs.fa genome.fa
    #-w 2 输出格式,2-table;  -C:检测中心粒,删除高重复区域
    
    1. repeatmodeler:基于自身序列比对
    1
    2
    3
    4
    
    BuildDatabase -name mydb genome.fa
    RepeatModeler -database mydb -pa 6 >run.out
    #-name:创建 database的名称;
    #-pa:共享内存处理器的数量程序,可提升分析速度
    
    每个软件都有很多参数,可-help/-h自行查看,参数的选择最好是参考已发表的文献

    结构注释

    结构注释:注释可以产生具有生物学功能的蛋白的基因。一般包括启动子,转录起始,5’UTR,起始密码子,外显子,内含子,终止密码子,3’UTR,poly-A等结构。

    yapdhD.png]

    De novo预测(屏蔽重复序列)

    1. Augustus(真核)

      1
      2
      3
      4
      
      augustus --species=XXX --AUGUSTUS CONFIG PATH= config --uniqueGeneld=true --nolnFrameStop=true--gff3=on --strand=both genome.mask.fa> genome.mask.fa.out
      # --uniqueGeneld=true:gene:命名 aseqname.gn;
      # --nolnFrameStop=true:不带有终止密码子的转录本;
      # --gff3=on:输出格式gff3
      
    2. GlimmerHMM(真核,预测的基因数目较多长度较短,一般用于植物)

      1
      2
      3
      4
      5
      6
      
      glimmerhmm.genome.mask.fa -d XXX- f -g genome.mask.fa.gff
      
      # -d 库de路径;
      # -f:不要partial gene predictions;
      # -g输出格式gff
      
      
    3. Genscan(真核,其预测的内含子较大,一般用于动物)

      1
      2
      
      genscan Humanlso.smat genome.mask.fa > genome.mask.fa.genscan
      # Humanlsc.smat:参数文件,软件自带
      

    4.其他软件

    SNAP. GenelD GenemarkS
    denovo的软件很多,两个软件就可以了,太多软件会增加较多的假阳性,一般在
    Augustus, GlimmerHMM, Genscan中选择即可

    Homolog注释

    利用近缘物种已知基因进行序列比对,找到同源序列。然后在同源序列的基础上,根据基因信号如剪切信号、基因起始和终止密码子对基因结构进行预测。
    相对于从头预测的“大海捞针”,同源预测相当于先用一块磁铁在基因组大海中缩小了可能区域,然后从可能区域中鉴定基因结构。

    利用TBlastn将同源物种的蛋白比对回基因组,得到候选区域。
    利用 EXonerate/ Genewise进行精确的蛋白-核酸比对,以得到剪接位点。
    Exonerate解决了 GeneWisez存在的很多问题,并且速度快了1000倍,默认选择EXonerate分析

    RNA-seq辅助注释

    tophat比对————>cufflink转录本————>TransDecoder
    1. 将RNAseq数据进行tophat比对;
    2. 比对后的结果文件利用cufflink构建转录本
    3. 使用TransDecoder在构建的转录本上预测Open Reading Frame(ORF)。

    Iso seq 辅助注释

    CD-HIT————>gmap比对————>TransDecoder
    1. 将物种的三代全长转录本用CD-HIT进行去冗余;
    2. 将去冗余后的序列使用gmap比对回基因组得到转录本位置;
    3. 使用TransDecoder在构建的转录本上预测 Open Reading Frame(ORF).

    基因结构预测方法可信度排序

    MAKERE整合

    在基因组注释上, MAKER算是一个很强大的分析流程,主要是进行 Denovo注释, Homolog注释,转录辅助注释三者的整合,保证最终注释基因集的可靠性

    1
    2
    3
    4
    
    maker maker_exe.ctl maker_opts.ctl maker_bopts.ctl
    #maker exe.ct:执行程序的路径
    #maker_ boots.ctl: BLAST7和 Exonerate的过滤参数
    #maker opts.ctl:其他信息,例如输入基因组文件,主要调整输入文件等( genome= ;est= ;protein= ;pred_gff= ;)
    

    nCRNA注释

    • rRNA(核糖体RNA)
      与蛋白质结合形成核糖体,其功能是作为mn的支架,提供mRNA翻译成蛋白质的场所。
    • tRNA(转运RNA)
      ·携带氨基酸进入核糖体,使之在mRNA指导下合成蛋白质。
    • miRNA(miRNA)
      ·将mRNA降解或抑制其翻译,具有沉默基因的功能。
    • SnRNA(小核RNA)
      ·主要参与RNA前体的加工过程,是RNA剪切体的主要成分。

    miRNA与snRNA注释

    rRNA注释

    • 由于rRNA的结构保守程度非常高,因此采用与已有的全长rRNA进行blastn比对而获得。
    • blastn

    tRNA注释

    • 结构特点:三叶草型二级结构。
    • 预测方法:针对二级结构进行检测。使用tRNAscan-SE

    功能注释

    功能注释:基因功能的注释依赖于上一步的基因结构预测,根据预测结果从基因组上提取翻译后的蛋白序列和主流的数据库进行blastp比对,完成功能注释。

    常用数据库一共有以下几种:NR,KEGG, Uniprot (Swiss-Prot, TrEMBL),InterPro,Go

    1. KEGG
    1. SWISS-PROT和TrEMBL
    • UniProt (Universal Protein Resource)蛋白质序列数据库PIR、SWISS-PROT和TrEMBL统一起来,建立了一个蛋白质数据库。
    • http://www.uniprot.org/
    • blastp
    1. Interpro
    1. GO
    • 基因功能注释数据库(GeneOntology)
    • 三个层面Cellular Component、 Biological Process、 Molecular Function.
    • http://www.geneontology.org/
    • InterProScan

    基因组评估

    • BUSCO评估

    BUSCO是一款使用python语言编写的对转录组和基因组组装质量进行评估的软件。在相近的物种之间总有一些保守的序列,而BUSCO就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。
    BUSCO软件根据OrthoDB数据库,构建了几个大的进化分支的单拷贝基因集。将其与该基因集进行比较,根据比对上的比例、完整性,来评价准确性和完整性。

    总结

    基因组注释

    重复注释————RepeatMask, RepeatProteinMask, TRF, LTR-FINDER,repeatmodeler;
    结构注释————Denovo注释,同源注释,转录辅助注释;
    ncRNA注释————tRNA,rRNA,miRNA,snRNA;
    功能注释————NR, KEGG, InterPro,SWISS-PROT,TrEMBL,GO;
    基因组评估————BUSCO

    展开全文
  • 为了培育具有优良性状的新品种,首先要定位控制目标性状的基因,因此建立一个完整准确的基因组注释软件流程至关重要.传统的基因组注释方法基于数据库比对,具有三个明显的缺点:一是比对速度慢;二是难以发现新基因...
  • GAWN是一个基因组注释管道,它使用来自相同物种或相关物种的组装转录组(在核仁中而不是在氨基酸中)来创建基于证据的基因组注释。 它的主要目标是提供足够好的基因组注释,而所需的时间和精力只用于运行更完整的...
  • 基于RNA-Seq的基因组注释数据库评估
  • GenoAnnoFlow 基因组注释管道和可视化
  • 基因组注释3.基因的功能注释Prokka

    千次阅读 2018-11-20 00:00:00
    基因组注释的前两篇为大家讲解了关于基因组组成成分分析(包括重复序列的识别、非编码基因和编码基因预测等)的内容,今天,将重点介绍如何进行基因的功能注释。基因的功能注释获得基因结构信息后,...

    基因组注释的前两篇为大家讲解了关于基因组组成成分分析(包括重复序列的识别非编码基因和编码基因预测等)的内容,今天,将重点介绍如何进行基因的功能注释。 

    基因的功能注释

    获得基因结构信息后,我们希望能够进一步获得基因的功能信息。基因的功能注释指的是根据数据库中已知编码基因的注释信息(包括motif、domain),基于同源比对,对基因中的模序和结构域、新基因编码的蛋白质功能、所参与的信号传导通路和代谢途径等的预测

    常用的数据库有NR、SWISS-PROT、InterProScan、COG、eggNOG、KEGG、GO等。在专题一:生物信息学基本概念及常用数据库介绍中,我们也介绍了其中的几个数据库,基因组注释内容还可涉及蛋白激酶、病原与宿主互作、致病毒力因子预测、抗性基因等等,这些暂不介绍,大家如有兴趣可去查阅相关文献。

    注释内容众多,实在难以一一述说。

    这里以对原核基因组进行基因预测和注释为例,推荐使用工具prokka。下面简单介绍如何使用prokka自动化注释基因组。

    Prokka的使用

    Prokka是一款简单、快速和高效的原核基因组注释工具,它产生标准兼容的输出文件以进行进一步分析或者在基因组浏览器中查看。Prokka是用Perl实现的,可从http://www.vicbioinformatics.com/software.prokka.shtml免费获得。此软件2014年发表于Bioinformatics,截止2017年11月2日Google学术统计引用1265次。

    1. 安装prokka程序

    如果使用conda可一键安装 conda install prokka

    如果你不想用conda,非想手动安装,请看下面这段废话。

    首先,下载prokka并进行安装。因为它是一个复杂的分析流程,依赖关系众多,所以安装步骤显得困难一些。

    安装prokka前,需要安装一些依赖,需要安装Perl、git。如果你们使用的是Linux操作系统,那么大部分Linux发行版都默认安装好Perl。在Linux终端中,输入命令:perl -v 可查看当前环境是否安装了Perl,如我这里安装的Perl版本为v5.27.9:

    然后安装perl模块,推荐使用cpanm进行安装。如下:

    $ cpanm Time::Piece XML::Simple Digest::MD5 Bio::Perl

    再然后安装第三方依赖工具,主要有以下工具:

    • blast+

    • hmmer3

    • parallel

    • prodigal

    • Barrnap (https://github.com/tseemann/barrnap)

    • RNAmmer

    • aragorn

    • tbl2asn

    注意,上述软件需要在系统路径可调用($PATH)。可自行Google如何安装,在此不赘述。

    接着,使用git从GitHub上下载prokka:

    $ git clone https://github.com/tseemann/prokka.git

    $ cd prokka

    如果没有git,可以从上述超链接中下载源码包,解压即可。

    将 prokka 添加到环境变量中,在$HOME/.bashrc中写入:

    export PATH=$PATH:$HOME/prokka-1.11/bin

    注意,请修改为你安装的prokka路径。

    接下来,测试是否可以使用prokka,输入命令:

    $ prokka --version

    如果显示出prokka版本信息,说明prokka安装正确。

    最后,需要进行索引数据库,如下:

    $ prokka --setupdb

    2. 程序的使用

    示例:

    prokka --force --outdir ./out_dir/ --prefix test-1122 --kingdom Bacteria --usegenus --genus Streptococcus --species pneumoniae --strain 1122 --gcode 11 --evalue 1e-5 --locustag test1122 --addgenes --rnammer your_genome.fasta

    参数说明:

    General:

      --help            This help

      --version         Print version and exit

      --docs            Show full manual/documentation

      --citation        Print citation for referencing Prokka

      --quiet           No screen output (default OFF)

      --debug           Debug mode: keep all temporary files (default OFF)

    Setup:

      --listdb          List all configured databases

      --setupdb         Index all installed databases

      --cleandb         Remove all database indices

      --depends         List all software dependencies

    Outputs:

      --outdir [X]      Output folder [auto] (default '')

      --force           Force overwriting existing output folder (default OFF)

      --prefix [X]      Filename output prefix [auto] (default '')

      --addgenes        Add 'gene' features for each 'CDS' feature (default OFF)     # 建议加上

      --locustag [X]    Locus tag prefix (default 'PROKKA')

      --increment [N]   Locus tag counter increment (default '1')

      --gffver [N]      GFF version (default '3')

      --compliant       Force Genbank/ENA/DDJB compliance: --addgenes --mincontiglen 200 --centre XXX (default OFF)

      --centre [X]      Sequencing centre ID. (default '')

    Organism details:

      --genus [X]       Genus name (default 'Genus')     # 属

      --species [X]     Species name (default 'species')    # 种

      --strain [X]      Strain name (default 'strain')      # 株系

      --plasmid [X]     Plasmid name or identifier (default '')

    Annotations:

      --kingdom [X]     Annotation mode: Archaea|Bacteria|Mitochondria|Viruses (default 'Bacteria')

      --gcode [N]       Genetic code / Translation table (set if --kingdom is set) (default '0')

      --gram [X]        Gram: -/neg +/pos (default '')

      --usegenus        Use genus-specific BLAST databases (needs --genus) (default OFF)

      --proteins [X]    Fasta file of trusted proteins to first annotate from (default '')

      --hmms [X]        Trusted HMM to first annotate from (default '')

      --metagenome      Improve gene predictions for highly fragmented genomes (default OFF)

      --rawproduct      Do not clean up /product annotation (default OFF)

    Computation:

      --fast            Fast mode - skip CDS /product searching (default OFF)

      --cpus [N]        Number of CPUs to use [0=all] (default '8')

      --mincontiglen [N] Minimum contig size [NCBI needs 200] (default '1')

      --evalue [n.n]    Similarity e-value cut-off (default '1e-06')

      --rfam            Enable searching for ncRNAs with Infernal+Rfam (SLOW!) (default '0')

      --norrna          Don't run rRNA search (default OFF)

      --notrna          Don't run tRNA search (default OFF)

      --rnammer         Prefer RNAmmer over Barrnap for rRNA prediction (default OFF)

    以上,就是本期基因组注释的全部内容。

    至此,基因注释专题的3节课程到此圆满结束啦,感谢每一位读者。开设该专题最初是为了能对在生信入门阶段学习的小伙伴有所帮助,一路走来发现这并不是一件简单轻松的事情,生信世界如同浩瀚宇宙,你知道的越多,你不知道的就越多。

    猜你喜欢

    10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

    系列教程:微生物组入门 Biostar 微生物组  宏基因组

    专业技能:学术图表 高分文章 生信宝典 不可或缺的人

    一文读懂:宏基因组 寄生虫益处 进化树

    必备技能:提问 搜索  Endnote

    文献阅读 热心肠 SemanticScholar Geenmedical

    扩增子分析:图表解读 分析流程 统计绘图

    16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

    在线工具:16S预测培养基 生信绘图

    科研经验:云笔记  云协作 公众号

    编程模板: Shell  R Perl

    生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

    写在后面

    为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2400+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

    学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

    展开全文
  • Prokka:快速原核基因组注释 介绍 全基因组注释是识别一组基因组DNA序列中感兴趣的特征,并用有用的信息标记它们的过程。 Prokka是一种软件工具,可快速注释细菌,古细菌和病毒基因组,并生成符合标准的输出文件。 ...
  • ChIP-Seq数据挖掘系列-4: liftOver - 基因组坐标在不同基因组注释版本间转换 https://www.jianshu.com/p/75758684b9cf
  • ChIP-Seq数据挖掘系列-4: liftOver - 基因组坐标在不同基因组注释版本间转换 https://www.jianshu.com/p/75758684b9cf #2 命令行版本liftover ##2.1 根据自己系统选择程序版本 版本选择 [linux.x86_64 liftOver]: ...
  • 真核基因组注释导读

    千次阅读 2016-08-29 09:43:48
     二代测序以及最近三代单分子测序的火热,让我们获得高质量基因组越来越来容易,然而基因组注释仍然面临许多挑战。其中一个挑战就是寻找基因(gene finding),训练基因model,选择基因预测软件和注释软件,另一个...
  • 使用BRAKER2进行基因组注释

    千次阅读 2019-10-10 18:57:57
    使用BRAKER2进行基因组注释 BRAKER2是一个基因组注释流程,能够组合GeneMark,AUGUSTUS和转录组数据。 在使用软件之前,有几点需要注意下 尽量提供高质量的基因组。目前随着三代测序价格下降,这一点问题不大。 ...
  • Bacannot是易于使用的基于docker的nextflow管道,该管道采用最新软件进行原核基因组注释。 它是围绕几种工具的包装,使您可以更好地了解原核基因组。 它用: 用于通用注释 rRNA预测的 用于在多基因座序列类型(ST...
  • BG7 是一个细菌基因组注释系统,从一开始就考虑到 NGS 数据。 如果您想了解更多关于 BG7: : 项目布局 有一个jars文件夹,可以在其中找到每个程序的最新版本; 源代码可以在src文件夹下找到(有点出乎意料)。 ...
  • 它是使用最先进的工具和数据库构建的,用于人类基因组注释。 发展 git clone https://github.com/raonyguimaraes/pynnotator cd pynnotator python3 -m venv venv source venv/bin/activate python setup.py ...
  • cket基因组注释脚本 剧本作者: 预印本: 基因组数据库: : 该存储库包括: 用于从头注释the的基因组的脚本的汇编: 包含用于分析这些基因组并生成显示的结果的脚本。 包含G. bimaculatus和L. kohalensis的...
  • 下载基因组注释gtf文件和下载参考基因组序列 对NCBI: wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/GFF/ref_GRCh38.p7_top_level.gff3.gz ## hg38 wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo...
  • funannotate是用于基因组注释的管道(专门为真菌构建,但也可用于高级真核生物)。 有关安装,使用和更多信息,请参见 最快启动Docker: 您可以使用funannotate运行funannotate 。 需要注意的是,GeneMark不包含在...
  • 基因组注释1. 重复序列repeatmasker, trf

    千次阅读 2018-11-18 00:00:00
    本文转自“美格基因”,已获授权基因组注释(Genome annotation)是利用生物信息学方法和工具,对基因组所有基因和其他结构进行高通量注释。基因组注释主要包括:基因组组成成分分析...
  • 酸性基因组 用于下载和处理基因组注释的工具包。 安装 法 install.packages( pkgs = " AcidGenomes " , repos = c( " https://r.acidgenomics.com " , getOption( " repos " ) ) )
  • 这一次,我们来聊聊基因组注释。首先问自己一个问题,为什么要进行基因注释。 就我目前而言,它用来解决如下问题: 在mapping-by-sequencing的时候,我找到了一些可能的突变位点,我需要知道这些突变分别是那些基因...
  • 行业分类-物理装置-一种利用二代和三代转录组测序数据的基因组注释方法.zip
  • 基因组注释(转载)

    2016-05-16 22:24:00
    可参考综述文章:A beginner’s guide to ...基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。1:重复序列的识别。重 复...
  • 行业分类-物理装置-基于参考基因组注释文件的高通量测序技术动物tRFs数据分析方法.zip
  • 使用BRAKER2进行基因组注释(v 2.1.5版)

    千次阅读 2020-06-28 19:17:27
    BRAKER2是一个基因组注释流程,能够组合GeneMark,AUGUSTUS和转录组数据。 在使用软件之前,有几点需要注意下 尽量提供高质量的基因组。目前随着三代测序价格下降,这一点问题不大。 基因组命名应该简单,最好就是...
  • MetaErg是独立的,完全自动化的元基因组和元蛋白质组注释管道,发布于:https://www.frontiersin.org/articles/10.3389/fgene.2019.00999/full。 如果您正在使用此管道进行工作,请引用:Dong X和Strous M(2019)的...
  • VIGOR是用于注释病毒基因组中编码基因的工具。 它由Jeffrey Hoover和Wang Shiliang为JCVI传染病基因组测序中心(GSCID)开发。 http://www.biomedcentral.com/content/pdf/1471-2105-11-451.pdf联系人:Jeff Hoover ...
  • RepeatModeler可用来从头对基因组的重复序列家族进行建模注释,它的核心组件是RECON和RepatScout。 使用方法 以拟南芥的参考基因组为例,假设基因组的名字为"Athaliana.fa" 第一步:为RepeatModeler创建索引数据库 ...
  • 基因组注释说起

    千次阅读 2016-09-30 23:34:21
    N年前测序还是问题,基因组的解读排在后边,现如今,测序已然不是问题, 成百上千的基因组被测序,这么多的基因组需要解读还真不是件容易的事。以前高大上的工作,注定要飞入寻常百姓家。开发出易用且准确度高的注释...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,134
精华内容 2,453
关键字:

基因组注释