精华内容
下载资源
问答
  • 参考基因组下载和建立索引
    千次阅读
    2021-11-01 11:32:39

    参考基因组下载和建立索引

    下载的小鼠基因组
    cd ~/bioreference
    mkdir -p  genome/mm10  && cd genome/mm10
    nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz  &
    tar zvfx chromFa.tar.gz
    cat *.fa > mm10.fa
    rm chr*.fa
    
    下载hg19:
    cd ~/bioreference
    mkdir -p genome/hg19  && cd genome/hg19
    nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
    tar zvfx chromFa.tar.gz
    cat *.fa > hg19.fa
    rm chr*.fa
    
    下载hg38
    cd ~/bioreference
    mkdir -p genome/hg38  && cd genome/hg38
    nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz  &
    
    bowtie软件建立索引文件
    cd ~/bioreference
    mkdir -p index/bowtie && cd index/bowtie
    nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/hg19/hg19.fa  ~/reference/index/bowtie/hg19 1>hg19.bowtie_index.log 2>&1 &
    nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/hg38/hg38.fa  ~/reference/index/bowtie/hg38 1>hg38.bowtie_index.log 2>&1 &
    nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/mm10/mm10.fa  ~/reference/index/bowtie/mm10 1>mm10.bowtie_index.log 2>&1 &
    
    
    bwa软件建立索引文件
    
    cd ~/bioreference
    mkdir -p index/bwa && cd index/bwa
    nohup time bwa index   -a bwtsw   -p ~/bioreference/index/bwa/hg19  ~/bioreference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1   &
    nohup time bwa index   -a bwtsw   -p ~/bioreference/index/bwa/hg38  ~/bioreference/genome/hg38/hg38.fa 1>hg38.bwa_index.log 2>&1   &
    nohup time bwa index   -a bwtsw   -p ~/bioreference/index/bwa/mm10  ~/bioreference/genome/mm10/mm10.fa 1>mm10.bwa_index.log 2>&1   &
    
    
    hisat软件建立索引文件
    cd ~/reference
    mkdir -p index/hisat && cd index/hisat
    nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz  &
    nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz  &
    nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grcm38.tar.gz &
    tar zxvf hg19.tar.gz
    tar zxvf grcm38.tar.gz
    tar zxvf hg38.tar.gz
    

    常用注释文件

    # human genome reference 
    # md5sum hg19.fa 806c02398f5ac5da8ffd6da2d1d5d1a9
    cd /media/yuansh/14THHD/reference
    mkdir -p genome/hg19  && cd genome/hg19 
    nohup wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz &
    
     
    # md5sum hg38.fa 1c9dcaddfa41027f17cd8f7a82c7293b
    cd /media/yuansh/14THHD/reference
    mkdir -p genome/hg38  && cd genome/hg38 
    nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz  &
    
    # bowtie
    cd /media/yuansh/14THHD/reference
    mkdir -p index/bowtie && cd index/bowtie 
    nohup time /media/yuansh/14THHD/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  /media/yuansh/14THHD/reference/genome/hg19/hg19.fa  /media/yuansh/14THHD/reference/index/bowtie/hg19 1>hg19.bowtie_index.log 2>&1 &
    nohup time /media/yuansh/14THHD/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  /media/yuansh/14THHD/reference/genome/hg38/hg38.fa  /media/yuansh/14THHD/reference/index/bowtie/hg38 1>hg38.bowtie_index.log 2>&1 &
    nohup time /media/yuansh/14THHD/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  /media/yuansh/14THHD/reference/genome/mm10/mm10.fa  /media/yuansh/14THHD/reference/index/bowtie/mm10 1>mm10.bowtie_index.log 2>&1 &
    
    # bwa
    cd /media/yuansh/14THHD/reference
    mkdir -p index/bwa && cd index/bwa 
    nohup time /media/yuansh/14THHD/biosoft/bwa/bwa-0.7.15/bwa index   -a bwtsw   -p /media/yuansh/14THHD/reference/index/bwa/hg19  /media/yuansh/14THHD/reference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1   &
    nohup time /media/yuansh/14THHD/biosoft/bwa/bwa-0.7.15/bwa index   -a bwtsw   -p /media/yuansh/14THHD/reference/index/bwa/hg38  /media/yuansh/14THHD/reference/genome/hg38/hg38.fa 1>hg38.bwa_index.log 2>&1   &
    nohup time /media/yuansh/14THHD/biosoft/bwa/bwa-0.7.15/bwa index   -a bwtsw   -p /media/yuansh/14THHD/reference/index/bwa/mm10  /media/yuansh/14THHD/reference/genome/mm10/mm10.fa 1>mm10.bwa_index.log 2>&1   &
    
    # hista
    cd /media/yuansh/14THHD/reference
    mkdir -p index/hisat && cd index/hisat 
    nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz  &
    nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz  &
    tar zxvf hg19.tar.gz
    tar zxvf hg38.tar.gz
    
      
      
    mkdir -p /media/yuansh/14THHD/annotation/variation/human/ExAC
    cd /media/yuansh/14THHD/reference/annotation/variation/human/ExAC
    ## http://exac.broadinstitute.org/
    ## ftp://ftp.broadinstitute.org/pub/ExAC_release/current
    wget ftp://ftp.broadinstitute.org/pub/ExAC_release/release1/ExAC.r1.sites.vep.vcf.gz.tbi 
    nohup wget ftp://ftp.broadinstitute.org/pub/ExAC_release/release1/ExAC.r1.sites.vep.vcf.gz &
    wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/cnv/exac-final-cnv.gene.scores071316 
    wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/cnv/exac-final.autosome-1pct-sq60-qc-prot-coding.cnv.bed
     
     
    
    ## https://www.ncbi.nlm.nih.gov/projects/SNP/
    ## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh38p2/
    ## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/
    
    mkdir -p /media/yuansh/14THHD/annotation/variation/human/dbSNP/hg19_GRCH37
    cd /media/yuansh/14THHD/annotation/variation/human/dbSNP/hg19_GRCH37
    
    # md5sum vcf.gz  4f696650bbc5b34270a8a9727120a0e3
    nohup wget -c ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh37p13/VCF/All_20180423.vcf.gz &
    nohup wget -c ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh37p13/VCF/All_20180423.vcf.gz.md5
    nohup wget -c ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh37p13/VCF/All_20180423.vcf.gz.tbi &
    
    mkdir -p /media/yuansh/14THHD/annotation/variation/human/dbSNP/hg38_GRCH38
    cd /media/yuansh/14THHD/annotation/variation/human/dbSNP/hg38_GRCH38
    nohup wget -c ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/All_20180418.vcf.gz &
    nohup wget -c ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/All_20180418.vcf.gz.md5 &
    nohup wget -c ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/All_20180418.vcf.gz.tbi &
    
    
    
    mkdir -p /media/yuansh/14THHD/annotation/variation/human/1000genomes
    cd /media/yuansh/14THHD/annotation/variation/human/1000genomes 
    ## ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ 
    nohup wget  -c -r -nd -np -k -L -p  ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502 &
    s
     
    mkdir -p ~/annotation/variation/human/ESP6500
    cd ~/annotation/variation/human/ESP6500
    # http://evs.gs.washington.edu/EVS/
    nohup wget http://evs.gs.washington.edu/evs_bulk_data/ESP6500SI-V2-SSA137.GRCh38-liftover.snps_indels.vcf.tar.gz & 
     
    mkdir -p ~/annotation/variation/human/UK10K
    cd ~/annotation/variation/human/UK10K
    # http://www.uk10k.org/
    nohup wget ftp://ngs.sanger.ac.uk/production/uk10k/UK10K_COHORT/REL-2012-06-02/UK10K_COHORT.20160215.sites.vcf.gz & 
     
    mkdir -p ~/annotation/variation/human/gonl
    cd ~/annotation/variation/human/gonl
    ## http://www.nlgenome.nl/search/
    ## https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release5/
    nohup wget  -c -r -nd -np -k -L -p  https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release5  &
     
    mkdir -p ~/annotation/variation/human/omin
    cd ~/annotation/variation/human/omin
     
    mkdir -p ~/annotation/variation/human/GWAS
    cd ~/annotation/variation/human/GWAS
     
    mkdir -p ~/annotation/variation/human/hapmap
    cd ~/annotation/variation/human/hapmap
    # ftp://ftp.ncbi.nlm.nih.gov/hapmap/
    wget ftp://ftp.ncbi.nlm.nih.gov/hapmap/phase_3/relationships_w_pops_051208.txt 
    nohup wget -c -r -np -k -L -p  -nd -A.gz ftp://ftp.ncbi.nlm.nih.gov/hapmap/phase_3/hapmap3_reformatted &
    # ftp://ftp.hgsc.bcm.tmc.edu/pub/data/HapMap3-ENCODE/ENCODE3/ENCODE3v1/
    wget ftp://ftp.hgsc.bcm.tmc.edu/pub/data/HapMap3-ENCODE/ENCODE3/ENCODE3v1/bcm-encode3-QC.txt 
    wget ftp://ftp.hgsc.bcm.tmc.edu/pub/data/HapMap3-ENCODE/ENCODE3/ENCODE3v1/bcm-encode3-submission.txt.gz
     
    ## 1 million single nucleotide polymorphisms (SNPs) for DNA samples from each of the three ethnic groups in Singapore – Chinese, Malays and Indians.
    ## The Affymetrix Genome-Wide Human SNP Array 6.0   && The Illumina Human1M single BeadChip 
    ## http://www.statgen.nus.edu.sg/~SGVP/
    ## http://www.statgen.nus.edu.sg/~SGVP/singhap/files-website/samples-information.txt
    # http://www.statgen.nus.edu.sg/~SGVP/singhap/files-website/genotypes/2009-01-30/QC/
     
    ## Singapore Sequencing Malay Project (SSMP) 
    mkdir -p ~/annotation/variation/human/SSMP
    cd ~/annotation/variation/human/SSMP
    ## http://www.statgen.nus.edu.sg/~SSMP/
    ## http://www.statgen.nus.edu.sg/~SSMP/download/vcf/2012_05 
     
    ## Singapore Sequencing Indian Project (SSIP) 
    mkdir -p ~/annotation/variation/human/SSIP
    cd ~/annotation/variation/human/SSIP
    # http://www.statgen.nus.edu.sg/~SSIP/
    ## http://www.statgen.nus.edu.sg/~SSIP/download/vcf/dataFreeze_Feb2013
      
    wget ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz 
    wget ftp://ftp.ensembl.org/pub/release-86/gtf/homo_sapiens/Homo_sapiens.GRCh38.86.chr.gtf.gz 
     
    mkdir -p ~/reference/gtf/gencode
    cd  ~/reference/gtf/gencode
    ## https://www.gencodegenes.org/releases/current.html
    wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/gencode.v25.2wayconspseudos.gtf.gz
    wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/gencode.v25.long_noncoding_RNAs.gtf.gz 
    wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/gencode.v25.polyAs.gtf.gz 
    wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/gencode.v25.annotation.gtf.gz 
    ## https://www.gencodegenes.org/releases/25lift37.html 
    wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/GRCh37_mapping/gencode.v25lift37.annotation.gtf.gz 
    wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/GRCh37_mapping/gencode.v25lift37.metadata.HGNC.gz 
    wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/GRCh37_mapping/gencode.v25lift37.metadata.EntrezGene.gz 
    wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/GRCh37_mapping/gencode.v25lift37.metadata.RefSeq.gz 
     
    mkdir -p ~/reference/gtf/ensembl/homo_sapiens_86
    cd  ~/reference/gtf/ensembl/homo_sapiens_86
    ## http://asia.ensembl.org/info/data/ftp/index.html
     
    cd ~/reference
    mkdir -p  genome/GRCh38_reference_genome  && cd genome/GRCh38_reference_genome
    # http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/ 
    
    nohup wget http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/GRCh38_reference_genome/GRCh38_full_analysis_set_plus_decoy_hla.fa
    
    wget http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/GRCh38_reference_genome/GRCh38_full_analysis_set_plus_decoy_hla.fa.fai
    wget http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/GRCh38_reference_genome/GRCh38_full_analysis_set_plus_decoy_hla.dict
     
    ## ftp://ftp.broadinstitute.org/bundle/b37/
    mkdir -p ~/annotation/GATK
    cd ~/annotation/variation/GATK
    wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/1000G_phase1.snps.high_confidence.b37.vcf.gz 
    wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/dbsnp_138.b37.vcf.gz
    wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/human_g1k_v37.fasta.gz 
    wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.gz
    wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/Mills_and_1000G_gold_standard.indels.b37.vcf.gz 
    wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/hapmap_3.3.b37.vcf.gz
    wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/1000G_phase1.indels.b37.vcf.gz 
    wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/1000G_phase1.indels.b37.vcf.idx.gz
    gunzip 1000G_phase1.indels.b37.vcf.idx.gz
    gunzip 1000G_phase1.indels.b37.vcf.gz
        
    mkdir -p  ~/institute/ENSEMBL/gtf
    cd  ~/institute/ENSEMBL/gtf
    wget ftp://ftp.ensembl.org/pub/release-87/gtf/homo_sapiens/Homo_sapiens.GRCh38.87.chr.gtf.gz 
    wget ftp://ftp.ensembl.org/pub/release-87/gtf/mus_musculus/Mus_musculus.GRCm38.87.chr.gtf.gz
    wget ftp://ftp.ensembl.org/pub/release-87/gtf/danio_rerio/Danio_rerio.GRCz10.87.chr.gtf.gz
      
    cd ~/institute/TCGA/firehose
    ## https://gdac.broadinstitute.org/
    wget http://gdac.broadinstitute.org/runs/stddata__2016_01_28/data/ACC/20160128/gdac.broadinstitute.org_ACC.Merge_snp__genome_wide_snp_6__broad_mit_edu__Level_3__segmented_scna_minus_germline_cnv_hg19__seg.Level_3.2016012800.0.0.tar.gz  -O ACC.gistic.seg.tar.gz
    wget http://gdac.broadinstitute.org/runs/stddata__2016_01_28/data/ACC/20160128/gdac.broadinstitute.org_ACC.Merge_snp__genome_wide_snp_6__broad_mit_edu__Level_3__segmented_scna_hg19__seg.Level_3.2016012800.0.0.tar.gz  -O ACC.raw.seg.tar.gz 
    wget http://gdac.broadinstitute.org/runs/stddata__2016_01_28/data/ACC/20160128/gdac.broadinstitute.org_ACC.Mutation_Packager_Calls.Level_3.2016012800.0.0.tar.gz -O ACC.maf.tar.gz
    wget http://gdac.broadinstitute.org/runs/stddata__2016_01_28/data/ACC/20160128/gdac.broadinstitute.org_ACC.Mutation_Packager_Oncotated_Calls.Level_3.2016012800.0.0.tar.gz -O ACC.maf.anno.tar.gz
    
    

    SSH 传输文件

    在linux下一般用scp这个命令来通过ssh传输文件。

    #1、从服务器上下载文件
    scp username@servername:/path/filename /var/www/local_dir(本地目录)
    
     #例如scp root@192.168.0.101:/var/www/test.txt 把192.168.0.101上的/var/www/test.txt 的文件下载到/var/www/local_dir(本地目录)
    
    
    
    #2、上传本地文件到服务器
    scp /path/filename username@servername:/path  
    
    #例如scp /Users/yuansh/Desktop/1.pdf yuansh@192.168.1.153:/mnt/c/Users/yuansh/Desktop
    
     
    
    #3、从服务器下载整个目录
    scp -r username@servername:/var/www/remote_dir/(远程目录) /var/www/local_dir(本地目录)
    
    #例如:scp -r yaunsh@192.168.0.153:/mnt/c/Users/yuansh/Desktop/data/U /Users/yuansh/Desktop  
    
    #4、上传目录到服务器
    scp -r local_dir username@servername:remote_dir
    #例如:scp -r test  root@192.168.0.101:/var/www/  把当前目录下的test目录上传到服务器的/var/www/ 目录
    

    GATK软件安装

    搜索github,自行下载最新版本

    Releases · broadinstitute/gatk (github.com)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K4AAXwTD-1635737746121)(…/image/image-20201211204436619.png)]

    右键点击复制链接然后下载

    cd biosoft
    proxy_on # 开启终端代理
    wget -c https://github.com/broadinstitute/gatk/releases/download/4.1.9.0/gatk-4.1.9.0.zip
    # 因为我安装了zsh,如果是bash的话,请使用unzip
    # 如果没有unzip,则先下载 
    # sudo apt install unzip
    x gatk-4.1.9.0.zip
    mv gatk-4.1.9.0 gatk #改一下名字
    
    #添加环境变量
    vim ~/.zshrc 
    export PATH=/home/yuansh/biosoft/gatk:$PATH
    # 运行显示下面的东西则安装完毕
    gatk
    

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xN7mUJTM-1635737746126)(…/image/image-20201211210243279.png)]

    更多相关内容
  • 人类参考基因组

    2020-12-21 21:25:49
    人类参考基因组 一、人类参考基因组的来源 1、人类基因组计划 1)2001年草图,绘制人类基因组图谱 2、数据库的名称 1)UCSC:hg19,hg38 2)NCBI:GRCH19,GRCH38 二、如何下载参考基因组 在 linux 中下载参考序列...
  • 日本晴参考基因组

    2018-12-11 13:38:05
    粳稻参考基因组日本晴主要常用的有两个版本, 分别为The Rice Annotation Project (RAP)(https://rapdb.dna.affrc.go.jp/index.html)和 Rice Genome Annotation Project (RGAP7,MSU) ...
  • 通过给出基因名称从参考基因组中提取序列 rescue.py 和 seq_extract_rescue.py 一起从宇宙文件中拯救缺失的基因。 seq_extract.py 只需要文件名作为输入。 ##seq_extract_rescue.py ####先决条件文件: GTF文件...
  • 参考基因组

    2021-10-04 20:56:11
    参考基因组 rockygao·2019年12月09日· 201 次阅读 目 在学习进行人的 RNA-SEQ 数据分析之前,需要做许多准备工作: 分析环境的搭建以及各个分析软件的安装; 参考基因组的选择; 待分析数据准备; 分析流程...

     参考基因组

    rockygao · 2019年12月09日 · 201 次阅读

     目

    在学习进行人的 RNA-SEQ 数据分析之前,需要做许多准备工作:

    • 分析环境的搭建以及各个分析软件的安装;
    • 参考基因组的选择;
    • 待分析数据准备;
    • 分析流程

    本文章主要介绍参考基因组选择、不同数据中参考基因下组载,以及参考基因组格式说明。

    参考基因组及注释文件

    • 参考基因组文件
      通常是 fasta 或者 fasta 格式:以>开头的行标注染色体信息,后续行为该条染色体的碱基信息。
    • 基因注释文件
      通常有GTF(General Transfer Format)GFF(general feature format)两种,其中 GFF 又可分为 GFF3 和 GFF2。这些格式大同小异,主要作用就是 注释基因组 。上述基因组文件中只有每条染色体的碱基序列,并没有各个基因信息;而 GTF/GFF 文件中包含的是每个转录本的信息。
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      
      # FA文件
      >1 dna:chromosome chromosome:GRCh38:1:1:248956422:1 REF
      NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
      NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
      NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
      NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
      NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
      
      # GTF文件
      chr1    hg38_ncbiRefSeq stop_codon      67093005        67093007        0.000000        -       .       gene_id "XM_011541469.1"; transcript_id "XM_011541469.1";
      chr1    hg38_ncbiRefSeq CDS     67093008        67093604        0.000000        -       0       gene_id "XM_011541469.1"; transcript_id "XM_011541469.1";
      chr1    hg38_ncbiRefSeq exon    67092176        67093604        0.000000        -       .       gene_id "XM_011541469.1"; transcript_id "XM_011541469.1";
      chr1    hg38_ncbiRefSeq CDS     67095235        67095421        0.000000        -       1       gene_id "XM_011541469.1"; transcript_id "XM_011541469.1";
      

    本流程所用参考基因组为 UCSC,下载方法如下:

    1
    2
    3
    4
    
    # 参考基因组文件,UCSC下载
    wget -c ftp://hgdownload.soe.UCSC.edu/goldenPath/hg38/bigZips/hg38.fa.gz
    # -c 断点续传,避免因为网络中断导致下载失败。
    # GEF文件下载见下文
    

    1 参考基因组数据来源

    参考基因组主要有三个数据库来源 ENSEMBL、NCBI、UCSC,还有一些特定数据库。各个数据库中格式不尽相同。

    1.1 ENSEMBL 参考基因组

    ENSMBL列出了各个不同物种的参考基因组和参考转录组,以表格的样式展示,各个文件整理的非常清楚,点击即可到达 FTP 下载页面。

    常用物种数据界面 http://asia.ensembl.org/info/data/ftp/index.html
    FTP 下载网址:ftp://ftp.ensembl.org/pub

    Ensembl 提供的参考基因组有 2 种组装形式和 3 种重复序列处理方式, 分别是primarytoplevelunmasked (dna)oft-masked (dna_sm)masked (dna_rm)。一般选择dna.primarydna_sm.primary为后缀的文件。各个格式的含义见下文。

    1
    2
    3
    4
    5
    
    # 参考基因组 ensemb 下载
    wget -c ftp://ftp.ensembl.org/pub/release-96/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
    
    # gff文件 ensemb 下载 
    wget ftp://ftp.ensembl.org/pub/release-96/gtf/homo_sapiens/Homo_sapiens.GRCh38.96.gtf.gz
    

    1.2 NCBI

    NCBI 数据库好像没有整个基因组的 FA 文件,只有单个染色体的。下载页面如下:

    ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens

    NCBI 只有 gff3 格式下载

    1
    
    wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/GFF/ref_GRCh38.p12_top_level.gff3.gz
    

    1.3 UCSC

    UCSC 下载参考基因组比较简单,如下:

    1
    
    wget -c ftp://hgdownload.soe.UCSC.edu/goldenPath/hg38/bigZips/hg38.fa.gz
    

    UCSC 下载基因组注释文件比较麻烦,没有直接的 FTP 下载链接,有两种方式可以下载

    • 第一种方法,界面版

    这种方式得到的 GTF 文件只有 gene_id 和 transcript_id,而没有其他信息,如:基因名,外显子。
    首先,需要先进入http://genome.UCSC.edu/cgi-bin/hgTables然后进行选择,最后点击get output即可下载。
    具体参数如下:
    clade: Mammal
    genome: human
    assembly: Dec. 2013 (GRCh38/hg38)
    group: Genes and Gene Predictions
    track: NCBI RefSeq
    table: UCSC RefSeq (refGene) 或者 RefSeq All (ncbiRefSeq)
    当 table 种选择 UCSC RefSeq (refGene) 时与第二种方式基本得到 GTF 文件基本相似。但是这种方式得到的 GTF 文件最后一列只有 gene_id 和 transcript_id,而没有其他信息,如:基因名,外显子。而第二张方式的信息比较全面。

    NCBI 中提供各个 gene_id 或 transcript_id 的详细信息文件,下载后然后手动匹配。

    1
    
    wget ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2refseq.gz
    
    • 第二种方式,FTP 下载

    UCSC 提供一种非冗余的格式GenePred table format,文件较小,但是需要用genePredToGtf工具转换。
    GenePred 格式说明参见下面:

    https://genome.UCSC.edu/FAQ/FAQformat.html#format9
    http://genomewiki.UCSC.edu/index.php/Genes_in_gtf_or_gff_format

    1
    2
    3
    4
    5
    6
    7
    8
    9
    
    # 下载转换工具
    wget http://hgdownload.soe.UCSC.edu/admin/exe/linux.x86_64.v369/genePredToGtf
    
    #下载GenePred并转换
    wget http://hgdownload.soe.UCSC.edu/goldenPath/hg38/database/refGene.txt.gz
    gzip -d refGene.txt.gz
    cut -f 2- refGene.txt > refGene.input
    ./genePredToGtf file refGene.input hg38refGene.gtf
    cat hg38refGene.gtf  | sort -k1,1 -k4,4n > hg38refGene.gtf.sorted
    

    1.4 illumina 给的参考基因组

    illumina 官网也给了参考基因组的相关文件。

    iGenomes

    1.5 ENSEMBL、NCBI、UCSC 参考基因组版本对应关系

    NCBI    UCSC    ENSEMBL
    GRCh36  hg18   release_52.
    GRCh37  hg19   release_59/61/64/68/69/75.
    GRCh38  hg38   release_76/77/78/80/81/82.
    

    2. 参考基因组格式说明

    FA 基因序列
    GTF 基因组注释,详细说明见GTF 文件 或者UCSC 对各种格式说明
    GFF/GFF3 基因组注释,与 GTF 类似

    2.1 参考基因组后缀说明

    Primary or Toplevel

    • 参考基因组优先选择的 primary 版本,因为 toplevel 版本会包含 haplotype 信息,多余的信息会增加比对工具的工作,选择 primary 就可以
    • Primary assembly contains all toplevel sequence regions excluding haplotypes and patches. This file is best used for performing sequence similarity searches where patch and haplotype sequences would confuse analysis.

    unmasked (dna)、soft-masked (dna_sm) 和 masked (dna_rm,Repeats masked)

    • Masked 基因组是指所有重复区和低复杂区被 N 代替的基因组序列,比对时就不会有 reads 比对到这些区域。一般不推荐用 masked 的基因组,因为它造成了信息的丢失,由此带来的一个问题是 uniquely 比对到 masked 基因组上的 reads 实际上可能不是 unique 的。而且 masked 基因组还会带来比对错误,使得在允许错配的情况下,本来来自重复区的 reads 比对到基因组的其它位置。另外检测重复区和低复杂区的软件不可能是完美的,这就造成遮盖住的重复序列和低复杂区并不一定是 100% 准确和敏感的。在NGS处理过程中,避免使用masked (dna_rm)
    • soft-masked 基因组是指把所有重复区和低复杂区的序列用小写字母标出的基因组,由于主要的比对软件,比如 BWA、bowtie2 等都忽略这些 soft-mask,直接把小写字母当做大写字母比对,所以使用 soft-masked 基因组的比对效果和使用 unmasked 基因组的比对效果是相同的。
    • 当软件不识别大小写时,unmasked等同于soft-masked

    2.2 gff/gtf 格式

    GFF3

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    
    一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析。gff/gtf是贮存这些注释信息的两种文件格式。
    GFF(general feature format):这种格式主要是用来注释基因组。 现大部分利用的是第三版,即gff3。
    GTF(gene transfer format):主要是用来对基因进行注释。当前所广泛使用的gtf格式为第二版,即gtf 。
    ##### GFF3
    GFF3允许使用#作为注释符号 ,除去注释外,主体部分共有9列。 GFF3中每一列的含义:seqid source type start end score strand strand attributes
    1. seqid :序列的id。(The name of the sequence where the feature is located.)
    2. source:注释的来源,一般指明产生此gff3文件的软件或方法(e.g. Augustus or RepeatMasker)。如果未知,则用点(.)代替。
    3. type: 类型,此处不受约束,但为下游分析方便,建议使用gene,repeat_region,exon,CDS,或SO对应编号等。
    4. start:起始位置,从1开始计数(区别于bed文件从0开始计数)。
    5. end:终止位置。
    6. score:得分,注释信息可能性说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。”.”表示为空。(indicates the confidence of the source on the annotated feature)
    7. strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链,“?” 表示未知. 
    8. phase :步进。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过碱基个数。
    9. attributes:属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。
    

    GTF

    gtf 文件也是由 9 列组成,其中每一列含义:seqname source,feature,start,end,score,strand,frame,attributes
    第 9 列必须以 gene_id 以及 transcript_id 开头

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    
    1. seqname: 序列的名字。通常格式染色体ID或是contig ID。
    2. source:注释的来源。通常是预测软件名或是公共数据库。
    3. start:起始位置,从1开始计数。
    4. end:终止位置。
    5. feature :基因结构.根据所使用软件不同,feature types必须注明。CDS,start_codon,stop_codon是一定要含有的类型。
    6. score :这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
    7. strand:链的正向与负向,分别用加号+和减号-表示。
    8. frame:密码子偏移,可以是0、1或2。
    9. attributes:必须要有以下两个值:
        gene_id value: 表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。
        transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。
    

    2.3 两种文件的差异比较

    GFF与GTF差异

    2.4 两种文件格式之间的转换

    直接使用 Cufflinks 里面的工具 gffread

    1
    2
    3
    4
    
    #gff2gtf
    gffread my.gff3 -T -o my.gtf
    #gtf2gff
    gffread merged.gtf -o- > merged.gff3
    

    参考来源

    1. 基因组各种版本对应关系
    2. NGS 基础 - 参考基因组和基因注释文件
    3. gff/gtf 格式
    4. 从 UCSC 下载基因组的 GTF 文件
    展开全文
  • 我们提出了一种具有层次结构的新型基于多参考基因组压缩方法。 我们的方法适用于事实上的标准对齐格式(即BAM)压缩,这是当前迫切需要的。 我们使用基于GPU的比对软件SOAP3将新序列与参考序列进行比对,并总结了...
  • 一文读懂参考基因组和基因组注释+最全下载方法

    万次阅读 多人点赞 2021-06-02 22:21:34
    二、参考基因组版本命名1、常用人参考基因组对应表2、常用小鼠参考基因组对应表三、下载1、NCBI2、Ensemble3、GENCODE4、UCSC5、iGenomes四、其他参考基因组信息 一、什么是参考基因组和基因组注释? 先来理一理参考...

    一、什么是参考基因组和基因组注释?

    先来理一理参考基因组,基因组注释文件间的关系。

    自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因组序列信息,并写在 Fasta 格式的文本文件“天书”中,这本天书就叫做参考基因组

    image.png

    但是,直接拿天书来看是一脸懵逼的,于是大家开始利用实验技术手段开始着手解密这本天书,随后大量的基因以及非编码序列被人们详细的标记在参考基因组对应的位置。同时对该位置加入大量的注释细节,最终将这些信息写在 BED,GTF,GFF 格式的基因组注释文件 。所以也可以把基因组注释文件理解为字典,看不懂天书,翻翻字典就懂了。

    image.png
    随着时间的推移,在更先进技术的加持下,在已经构建好的基因组和注释信息上不断增加,删减,修改,就有了不同的版本。而每一个版本的参考基因组都会对应有一个基因组注释文件(天书和字典一一对应),接下来我们看看参考基因组版本是怎么指定的。

    二、参考基因组版本命名

    在讲参考基因组之前,需要提到一个组织参考基因组联盟(Genome Reference Consortium),它是由 NCBI,EBI,桑格研究所等机构组成。GRC 利用最佳的技术装配,纠正,增加基因组序列,以此作为在生信分析领域作为参考的基因组。目前,该机构构建了人,小鼠,大鼠,斑马鱼,鸡的参考基因组。

    人基因组官名叫 GRCh38 (Genome Reference Consortium Human Build 38),GRCh38 在UCSC基因组浏览器中还有个小名 hg38,这个小名对于大多数人来说是更亲切熟悉的。GRCh38 在 GenBank 中叫 GCA_000001405.15,在 RefSeq 中叫 GCF_000001405.26,虽然 GRC 组织建议在所有出版物和工具中使用该编号,但事实是前两种 GRCh38 和 hg38 对生信分析更常见。

    在不更改染色体坐标的情况下,向参考基因组添加或替换新序列,这种打补丁的方式,会在基因组版本后加 .p (patch)来命名。

    这就像在王者荣耀,英雄联盟中,为了维持游戏热度,会大幅修改游戏架构,流程,世界观,图片,叫大版本更新,而定期对某些英雄的面板属性修正,作为补丁。

    举个例子,GRCh38 的第九个补丁,正式版本叫做 Genome Reference Consortium Human Build 38 patch release 9,简称 GRCh38.p9。在 GenBank 编号为 GCA_000001405.24,RefSeq 编号为 GCF_000001405.35。在 Ensemble 编号为 GRCh38,NCBI 编号为 GRCh38。

    1、常用人参考基因组对应表

    发布时间201320092006
    GRC 官名GRCh38GRCh37GRCh36
    UCSChg38hg19hg18
    EnsembleGRCh38GRCh37GRCh36
    GENCODE38193c
    NCBIGRCh38GRCh37GRCh36
    GenBankGCA_000001405
    RefSeqGCF_000001405

    根据 GRC 官网信息,GRCh39 大版本将会无限停更,他们在考虑用新模型和序列来构建人类的参考基因组,细节不清楚,猜测有可能会有泛基因组内容。

    2、常用小鼠参考基因组对应表

    发布时间202020112007
    GRC 官名GRCm39GRCm38
    UCSCm39mm10mm9
    EnsembleGRCm39GRCm38
    GENCODEM27M25M1
    NCBIGRCm39GRCm38NCBIM37

    三、下载

    1、NCBI

    这里提供两种下载方式,一种为网页界面下载,另一种为FTP下载。

    可视化下载

    • 进入网址

    https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/

    • 搜索物种

    image.png

    • 下载界面

    image.png

    FTP下载

    随便提一下,Chrome 浏览器在18版本后由于安全原因已经不支持 ftp 协议,改用 https 协议,可以看到链接已经与之前的不同。

    这里以下载人的参考基因组 GRCh38 为例:

    https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/reference/GCF_000001405.39_GRCh38.p13

    人类基因组注释文件:

    GTF 格式:https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gtf.gz

    GFF 格式:

    https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gff.gz

    如果以这种方式下载,其实已经可以路径中大概看出相关物种的下载地址,可以自行查询及下载其他物种。

    2、Ensemble

    可视化下载

    image.png

    • 点击对应名称,下载参考基因组和基因组注释文件

    image.png

    FTP下载

    同样以下载人参考基因组 GRCh38 为例:

    http://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

    GTF 文件:http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz

    GTT 文件:http://ftp.ensembl.org/pub/current_gff3/homo_sapiens/Homo_sapiens.GRCh38.104.gff3.gz

    3、GENCODE

    如果小伙伴研究的物种只涉及人类和小鼠,极力推荐 GENCOE,这里有着相较其他数据库,最新最全的基因组和其注释信息。

    • 网址:https://www.gencodegenes.org/
    • 点击人类的最新版

    image.png

    • 点击下载基因组注释文件

    image.png

    • 点击下载参考基因组文件

    image.png

    4、UCSC

    相对其他下载方式,UCSC 本职的工作是做基因组浏览器的,因此也可以从下图看到,在这里可以根据自己定义来下载相对于的基因组区域,比如 prime,exon,gene,transcript等等。

    • 网址:http://genome.ucsc.edu/cgi-bin/hgTables
    • 下载:设置参数如下,然后点击下载参考基因组及注释文件

    image.png

    5、iGenomes

    iGenomes是常见分析生物的参考序列和注释文件的集合。这些文件已从Ensembl,NCBI或UCSC下载。染色体名称已更改为简单且与下载源一致。每个iGenome都可以作为压缩文件使用,其中包含生物体的单个基因组构建的序列和注释文件。

    网址:https://support.illumina.com/sequencing/sequencing_software/igenome.html

    image.png

    由亚马逊资助的生物信息参考基因组下载站点,有各种参考基因组,注释文件,软件索引等常用文件,并且有着极快的下载速度,但是缺点是只有常用的物种。

    **站点:**https://ewels.github.io/AWS-iGenomes/

    image.png

    四、其他参考基因组信息

    SPECIESUCSC VERSIONRELEASE DATERELEASE NAMESTATUS
    MAMMALS
    Humanhg38Dec. 2013Genome Reference Consortium GRCh38Available
    hg19Feb. 2009Genome Reference Consortium GRCh37Available
    hg18Mar. 2006NCBI Build 36.1Available
    hg17May 2004NCBI Build 35Available
    hg16Jul. 2003NCBI Build 34Available
    hg15Apr. 2003NCBI Build 33Archived
    hg13Nov. 2002NCBI Build 31Archived
    hg12Jun. 2002NCBI Build 30Archived
    hg11Apr. 2002NCBI Build 29Archived (data only)
    hg10Dec. 2001NCBI Build 28Archived (data only)
    hg8Aug. 2001UCSC-assembledArchived (data only)
    hg7Apr. 2001UCSC-assembledArchived (data only)
    hg6Dec. 2000UCSC-assembledArchived (data only)
    hg5Oct. 2000UCSC-assembledArchived (data only)
    hg4Sep. 2000UCSC-assembledArchived (data only)
    hg3Jul. 2000UCSC-assembledArchived (data only)
    hg2Jun. 2000UCSC-assembledArchived (data only)
    hg1May 2000UCSC-assembledArchived (data only)
    AlpacavicPac2Mar. 2013Broad Institute Vicugna_pacos-2.0.1Available
    vicPac1Jul. 2008Broad Institute VicPac1.0Available
    ArmadillodasNov3Dec. 2011Broad Institute DasNov3Available
    BaboonpapAnu4Apr. 2017Human Genome Sequencing CenterAvailable
    papAnu2Mar. 2012Baylor College of Medicine Panu_2.0Available
    papHam1Nov. 2008Baylor College of Medicine HGSC Pham_1.0Available
    BisonbisBis1Oct. 2014Univ. of Maryland Bison_UMD1.0Available
    BonobopanPan3May 2020University of WashingtonAvailable
    panPan2Dec. 2015Max-Planck Institute for Evolutionary Anthropology panpan1.1Available
    panPan1May 2012Max-Planck Institute panpan1Available
    Brown kiwiaptMan1Jun. 2015Max-Planck Institute for Evolutionary Anthropology AptMant0Available
    BushbabyotoGar3Mar. 2011Broad Institute OtoGar3Available
    CatfelCat9Nov. 2017Genome Sequencing Center (GSC) at Washington University (WashU) School of Medicine Felis_catus_9.0Available
    felCat8Nov. 2014ICGSC Felis_catus_8.0Available
    felCat5Sep. 2011ICGSC Felis_catus-6.2Available
    felCat4Dec. 2008NHGRI catChrV17eAvailable
    felCat3Mar. 2006Broad Institute Release 3Available
    ChimppanTro6Jan. 2018Clint_PTRv2Available
    panTro5May 2016CGSC Build 3.0Available
    panTro4Feb. 2011CGSC Build 2.1.4Available
    panTro3Oct. 2010CGSC Build 2.1.3Available
    panTro2Mar. 2006CGSC Build 2.1Available
    panTro1Nov. 2003CGSC Build 1.1Available
    Chinese hamstercriGri1Jul. 2013Beijing Genomics Institution-Shenzhen C_griseus_v1.0Available
    Chinese hamster ovary cell linecriGriChoV2Jun. 2017Eagle Genomics Ltd CHOK1S_HZDv1Available
    criGriChoV1Aug. 2011Beijing Genomics Institute CriGri_1.0Available
    Chinese pangolinmanPen1Aug. 2014Washington University (WashU) M_pentadactyla-1.1.1Available
    CowbosTau9Apr. 2018USDA ARSAvailable
    bosTau8Jun. 2014University of Maryland v3.1.1Available
    bosTau7Oct. 2011Baylor College of Medicine HGSC Btau_4.6.1Available
    bosTau6Nov. 2009University of Maryland v3.1Available
    bosTau4Oct. 2007Baylor College of Medicine HGSC Btau_4.0Available
    bosTau3Aug. 2006Baylor College of Medicine HGSC Btau_3.1Available
    bosTau2Mar. 2005Baylor College of Medicine HGSC Btau_2.0Available
    bosTau1Sep. 2004Baylor College of Medicine HGSC Btau_1.0Archived
    Crab-eating macaquemacFas5Jun. 2013Washington University Macaca_fascicularis_5.0Available
    DogcanFam5May 2019University of MichiganAvailable
    canFam4Mar. 2020Uppsala UniversityAvailable
    canFam3Sep. 2011Broad Institute v3.1Available
    canFam2May 2005Broad Institute v2.0Available
    canFam1Jul. 2004Broad Institute v1.0Available
    DolphinturTru2Oct. 2011Baylor College of Medicine Ttru_1.4Available
    ElephantloxAfr3Jul. 2009Broad Institute LoxAfr3Available
    FerretmusFur1Apr. 2011Ferret Genome Sequencing Consortium MusPutFur1.0Available
    Garter snakethaSir1Jun. 2015Washington University Thamnophis_sirtalis-6.0Available
    GibbonnomLeu3Oct. 2012Gibbon Genome Sequencing Consortium Nleu3.0Available
    nomLeu2Jun. 2011Gibbon Genome Sequencing Consortium Nleu1.1Available
    nomLeu1Jan. 2010Gibbon Genome Sequencing Consortium Nleu1.0Available
    Golden eagleaquChr2Oct. 2014University of Washington aquChr2-1.0.2Available
    Golden snub-nosed monkeyrhiRox1Oct. 2014Novogene Rrox_v1Available
    GorillagorGor6Aug. 2019University of WashingtonAvailable
    gorGor5Mar. 2016University of Washington GSMRT3Available
    gorGor4Dec. 2014Wellcome Trust Sanger Institute gorGor4Available
    gorGor3May 2011Wellcome Trust Sanger Institute gorGor3.1Available
    Green MonkeychlSab2Mar. 2014Vervet Genomics Consortium 1.1Available
    Guinea pigcavPor3Feb. 2008Broad Institute cavPor3Available
    Hawaiian monk sealneoSch1Jun. 2017Johns Hopkins University ASM220157v1Available
    HedgehogeriEur2May 2012Broad Institute EriEur2.0Available
    eriEur1Jun. 2006Broad Institute Draft_v1Available
    HorseequCab3Jan. 2018University of LouisvilleAvailable
    equCab2Sep. 2007Broad Institute EquCab2Available
    equCab1Jan. 2007Broad Institute EquCab1Available
    Kangaroo ratdipOrd1Jul. 2008Baylor/Broad Institute DipOrd1.0Available
    Malayan flying lemurgalVar1Jul. 2014WashU G_variegatus-3.0.2Available
    ManateetriMan1Oct. 2011Broad Institute TriManLat1.0Available
    MarmosetcalJac4May 2020Washington University Callithrix_jacchus_cj1700_1.1Available
    MarmosetcalJac3Mar. 2009WUSTL Callithrix_jacchus-v3.2Available
    calJac1Jun. 2007WUSTL Callithrix_jacchus-v2.0.2Available
    MegabatpteVam1Jul. 2008Broad Institute Ptevap1.0Available
    MicrobatmyoLuc2Jul. 2010Broad Institute MyoLuc2.0Available
    Minke whalebalAcu1Oct. 2013KORDI BalAcu1.0Available
    Mousemm39Jun. 2020Genome Reference Consortium Mouse Build 39Available
    mm10Dec. 2011Genome Reference Consortium GRCm38Available
    mm9Jul. 2007NCBI Build 37Available
    mm8Feb. 2006NCBI Build 36Available
    mm7Aug. 2005NCBI Build 35Available
    mm6Mar. 2005NCBI Build 34Archived
    mm5May 2004NCBI Build 33Archived
    mm4Oct. 2003NCBI Build 32Archived
    mm3Feb. 2003NCBI Build 30Archived
    mm2Feb. 2002MGSCv3Archived
    mm1Nov. 2001MGSCv2Archived (data only)
    Mouse lemurmicMur2May 2015Baylor/Broad Institute Mmur_2.0Available
    micMur1Jul. 2007Broad Institute MicMur1.0Available
    Naked mole-rathetGla2Jan. 2012Broad Institute HetGla_female_1.0Available
    hetGla1Jul. 2011Beijing Genomics Institute HetGla_1.0Available
    OpossummonDom5Oct. 2006Broad Institute release MonDom5Available
    monDom4Jan. 2006Broad Institute release MonDom4Available
    monDom1Oct. 2004Broad Institute release MonDom1Available
    OrangutanponAbe2Jul. 2007WUSTL Pongo_albelii-2.0.2Available
    ponAbe3Jan. 2018Susie_PABv2/ponAbe3Available
    PandaailMel1Dec. 2009BGI-Shenzhen AilMel 1.0Available
    PigsusScr11Feb. 2017Swine Genome Sequencing Consortium Sscrofa11.1Available
    susScr3Aug. 2011Swine Genome Sequencing Consortium Sscrofa10.2Available
    susScr2Nov. 2009Swine Genome Sequencing Consortium Sscrofa9.2Available
    PikaochPri3May 2012Broad Institute OchPri3.0Available
    ochPri2Jul. 2008Broad Institute OchPri2Available
    PlatypusornAna2Feb. 2007WUSTL v5.0.1Available
    ornAna1Mar. 2007WUSTL v5.0.1Available
    Proboscis MonkeynasLar1Nov. 2014Proboscis Monkey Functional Genome Consortium Charlie1.0Available
    RabbitoryCun2Apr. 2009Broad Institute release OryCun2Available
    Ratrn7Nov. 2020Wellcome Sanger Institute mRatBN7.2Available
    rn6Jul. 2014RGSC Rnor_6.0Available
    rn5Mar. 2012RGSC Rnor_5.0Available
    rn4Nov. 2004Baylor College of Medicine HGSC v3.4Available
    rn3Jun. 2003Baylor College of Medicine HGSC v3.1Available
    rn2Jan. 2003Baylor College of Medicine HGSC v2.1Archived
    rn1Nov. 2002Baylor College of Medicine HGSC v1.0Archived
    RhesusrheMac10Feb. 2019The Genome Institute at Washington University School of Medicine Mmul_10Available
    rheMac8Nov. 2015Baylor College of Medicine HGSC Mmul_8.0.1Available
    rheMac3Oct. 2010Beijing Genomics Institute CR_1.0Available
    rheMac2Jan. 2006Baylor College of Medicine HGSC v1.0 Mmul_051212Available
    rheMac1Jan. 2005Baylor College of Medicine HGSC Mmul_0.1Archived
    Rock hyraxproCap1Jul. 2008Baylor College of Medicine HGSC Procap1.0Available
    SheepoviAri4Dec. 2015ISGC Oar_v4.0Available
    oviAri3Aug. 2012ISGC Oar_v3.1Available
    oviAri1Feb. 2010ISGC Ovis aries 1.0Available
    ShrewsorAra2Aug. 2008Broad Institute SorAra2.0Available
    sorAra1Jun. 2006Broad Institute SorAra1.0Available
    SlothchoHof1Jul. 2008Broad Institute ChoHof1.0Available
    SquirrelspeTri2Nov. 2011Broad Institute SpeTri2.0Available
    Squirrel monkeysaiBol1Oct. 2011Broad Institute SaiBol1.0Available
    TarsiertarSyr2Sep. 2013WashU Tarsius_syrichta-2.0.1Available
    tarSyr1Aug. 2008WUSTL/Broad Institute Tarsyr1.0Available
    Tasmanian devilsarHar1Feb. 2011Wellcome Trust Sanger Institute Devil_refv7.0Available
    TenrecechTel2Nov. 2012Broad Institute EchTel2.0Available
    echTel1Jul. 2005Broad Institute echTel1Available
    Tree shrewtupBel1Dec. 2006Broad Institute Tupbel1.0Available
    WallabymacEug2Sep. 2009Tammar Wallaby Genome Sequencing Consortium Meug_1.1Available
    White rhinoceroscerSim1May 2012Broad Institute CerSimSim1.0Available
    VERTEBRATES
    African clawed frogxenLae2Aug. 2016Int. Xenopus Sequencing ConsortiumAvailable
    American alligatorallMis1Aug. 2012Int. Crocodilian Genomes Working Group allMis0.2Available
    Atlantic codgadMor1May 2010Genofisk GadMor_May2010Available
    BudgerigarmelUnd1Sep. 2011WUSTL v6.3Available
    ChickengalGal6Mar. 2018GRCg6 Gallus-gallus-6.0Available
    galGal5Dec. 2015ICGC Gallus-gallus-5.0Available
    galGal4Nov. 2011ICGC Gallus-gallus-4.0Available
    galGal3May 2006WUSTL Gallus-gallus-2.1Available
    galGal2Feb. 2004WUSTL Gallus-gallus-1.0Available
    CoelacanthlatCha1Aug. 2011Broad Institute LatCha1Available
    Elephant sharkcalMil1Dec. 2013IMCB Callorhinchus_milli_6.1.3Available
    Fugufr3Oct. 2011JGI v5.0Available
    fr2Oct. 2004JGI v4.0Available
    fr1Aug. 2002JGI v3.0Available
    LampreypetMar3Dec. 2017University of Kentucky Pmar_germline 1.0Available
    petMar2Sep. 2010WUGSC 7.0Available
    petMar1Mar. 2007WUSTL v3.0Available
    LizardanoCar2May 2010Broad Institute AnoCar2Available
    anoCar1Feb. 2007Broad Institute AnoCar1Available
    MedakaoryLat2Oct. 2005NIG v1.0Available
    Medium ground finchgeoFor1Apr. 2012BGI GeoFor_1.0 / NCBI 13302Available
    Nile tilapiaoreNil2Jan. 2011Broad Institute Release OreNil1.1Available
    Painted turtlechrPic1Dec. 2011IPTGSC Chrysemys_picta_bellii-3.0.1Available
    SticklebackgasAcu1Feb. 2006Broad Institute Release 1.0Available
    TetraodontetNig2Mar. 2007Genoscope v7Available
    tetNig1Feb. 2004Genoscope v7Available
    Tibetan frognanPar1Mar. 2015Beijing Genomics Institute BGI_ZX_20015Available
    TurkeymelGal5Nov. 2014Turkey Genome Consortium v5.0Available
    melGal1Dec. 2009Turkey Genome Consortium v2.01Available
    X. tropicalisxenTro9Jul. 2016JGI v.9.1Available
    xenTro7Sep. 2012JGI v.7.0Available
    xenTro3Nov. 2009JGI v.4.2Available
    xenTro2Aug. 2005JGI v.4.1Available
    xenTro1Oct. 2004JGI v.3.0Available
    Zebra finchtaeGut2Feb. 2013WashU taeGut324Available
    taeGut1Jul. 2008WUSTL v3.2.4Available
    ZebrafishdanRer11May 2017Genome Reference Consortium GRCz11Available
    danRer10Sep. 2014Genome Reference Consortium GRCz10Available
    danRer7Jul. 2010Sanger Institute Zv9Available
    danRer6Dec. 2008Sanger Institute Zv8Available
    danRer5Jul. 2007Sanger Institute Zv7Available
    danRer4Mar. 2006Sanger Institute Zv6Available
    danRer3May 2005Sanger Institute Zv5Available
    danRer2Jun. 2004Sanger Institute Zv4Archived
    danRer1Nov. 2003Sanger Institute Zv3Archived
    DEUTEROSTOMES
    C. intestinalisci3Apr. 2011Kyoto KHAvailable
    C. intestinalisci2Mar. 2005JGI v2.0Available
    ci1Dec. 2002JGI v1.0Available
    LanceletbraFlo1Mar. 2006JGI v1.0Available
    S. purpuratusstrPur2Sep. 2006Baylor College of Medicine HGSC v. Spur 2.1Available
    strPur1Apr. 2005Baylor College of Medicine HGSC v. Spur_0.5Available
    INSECTS
    A. melliferaapiMel2Jan. 2005Baylor College of Medicine HGSC v.Amel_2.0Available
    apiMel1Jul. 2004Baylor College of Medicine HGSC v.Amel_1.2Available
    A. gambiaeanoGam3Oct. 2006International Consortium for the Sequencing of Anopheles Genome AgamP3Available
    anoGam1Feb. 2003IAGP v.MOZ2Available
    D. ananassaedroAna2Aug. 2005Agencourt Arachne releaseAvailable
    droAna1Jul. 2004TIGR Celera releaseAvailable
    D. erectadroEre1Aug. 2005Agencourt Arachne releaseAvailable
    D. grimshawidroGri1Aug. 2005Agencourt Arachne releaseAvailable
    D. melanogasterdm6Aug. 2014BDGP Release 6 + ISO1 MTAvailable
    dm3Apr. 2006BDGP Release 5Available
    dm2Apr. 2004BDGP Release 4Available
    dm1Jan. 2003BDGP Release 3Available
    D. mojavensisdroMoj2Aug. 2005Agencourt Arachne releaseAvailable
    droMoj1Aug. 2004Agencourt Arachne releaseAvailable
    D. persimilisdroPer1Oct. 2005Broad Institute releaseAvailable
    D. pseudoobscuradp3Nov. 2004FlyBase Release 1.0Available
    dp2Aug. 2003Baylor College of Medicine HGSC Freeze 1Available
    D. sechelliadroSec1Oct. 2005Broad Institute Release 1.0Available
    D. simulansdroSim1Apr. 2005WUSTL Release 1.0Available
    D. virilisdroVir2Aug. 2005Agencourt Arachne releaseAvailable
    droVir1Jul. 2004Agencourt Arachne releaseAvailable
    D. yakubadroYak2Nov. 2005WUSTL Release 2.0Available
    droYak1Apr. 2004WUSTL Release 1.0Available
    NEMATODES
    C. brennericaePb2Feb. 2008WUSTL 6.0.1Available
    caePb1Jan. 2007WUSTL 4.0Available
    C. briggsaecb3Jan. 2007WUSTL Cb3Available
    cb1Jul. 2002WormBase v. cb25.agp8Available
    C. elegansce11Feb. 2013C. elegans Sequencing Consortium WBcel235Available
    ce10Oct. 2010WormBase v. WS220Available
    ce6May 2008WormBase v. WS190Available
    ce4Jan. 2007WormBase v. WS170Available
    ce2Mar. 2004WormBase v. WS120Available
    ce1May 2003WormBase v. WS100Archived
    C. japonicacaeJap1Mar. 2008WUSTL 3.0.2Available
    C. remaneicaeRem3May 2007WUSTL 15.0.1Available
    caeRem2Mar. 2006WUSTL 1.0Available
    P. pacificuspriPac1Feb. 2007WUSTL 5.0Available
    OTHER
    Sea HareaplCal1Sep. 2008Broad Release Aplcal2.0Available
    YeastsacCer3April 2011SGD April 2011 sequenceAvailable
    sacCer2June 2008SGD June 2008 sequenceAvailable
    sacCer1Oct. 2003SGD 1 Oct 2003 sequenceAvailable
    VIRUSES
    Ebola ViruseboVir3June 2014Sierra Leone 2014 (G3683/KM034562.1)Available
    SARS-CoV-2wuhCor1Jan. 2020SARS-CoV-2 ASM985889v3Available

    https://www.ncbi.nlm.nih.gov/grc

    http://genomeref.blogspot.com/

    展开全文
  • MetaSpark:一种基于火花的分布式处理工具,可募集宏基因组读段以参考基因组
  • BWA 是用于将 DNA 序列与参考基因组比对的软件包。 序列比对允许生物学家确定 DNA 片段的基因组来源。 这是分析许多生物信息学数据集的必要第一步,包括 RNA-seq、ChIP-seq 和 DNase-seq。
  • 参考基因组下载

    千次阅读 2019-11-21 19:22:33
    NCBI 网址:... 这里有常用的资源下载,如果是参考基因组下载第一行 Ensemble 网址:http://asia.ensembl.org 有两种进入人参考基因组的方法 下拉菜单中,选择Human 点击右边的Human 点Do...

    NCBI

    网址:https://www.ncbi.nlm.nih.gov/genome

    选择Genome数据库,输入hg19,点击Search,进入Genome Resources

    mark

    这里有常用的资源下载,如果是参考基因组下载第一行

    mark

    Ensemble

    网址:http://asia.ensembl.org

    有两种进入人参考基因组的方法

    • 下拉菜单中,选择Human
    • 点击右边的Human

    mark

    Download DNA sequence (FASTA)

    mark

    展开全文
  • 如何选择参考基因组和注释文件

    千次阅读 2021-04-14 17:55:23
    参考基因组是生信分析的基础,重测、芯片、转录组等测序数据都需要首先与参考基因组进行比对,才能进行后续分析 需要注意的是,下载的参考基因组一定要使用与其对应的注释文件,不能再Ensemble中下载参考基因组,却...
  • 转录组入门(4):了解参考基因组及基因注释任务列表1.在UCSC下载hg19参考基因组;2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。3.截图几个基因的IGV可视化结构...
  • 文章目录摘要工具与方法操作方法step.1 构建参考基因组数据库step.2 比对序列step.3 获取query_idstep.4 获取比对序列结果展示 摘要 很久没有整理工作笔记了,一方面个人有些倦怠,另一方面国内国际发生的事都牵动着...
  • 所提出的框架处理有和没有参考序列的基因组压缩,并证明了优于现有最佳算法的性能优势。 所提出的没有参考的方法导致细菌和酵母每个碱基的比特率分别为 1.720 和 1.838 位,这比最先进的算法高出大约 3.7% 和 2.6%...
  • 序列变异文件(VCF格式或五个coloum表(制表符分隔,包括染色体,位置,id,参考),为新的基因组和已知的基因组升级装配和/或注释基因组等位基因和替代等位基因))或基于参考基因组序列文件(FASTA格式)和注释...
  • ArtificialFastqGenerator将参考基因组(FASTA格式)作为输入,并以Sanger格式输出人工FASTQ文件。 它可以接受来自现有FASTQ文件的Phred基本质量得分,并使用它们来模拟测序错误。 由于人工FASTQ来自参考基因组,...
  • 欢迎关注”生信修炼手册”!IGV软件内置了很多的参考基因组,全部放在亚马逊的云服务器上,完整的参考基因组列表见如下链接http://software.broadinstitute.org...
  • 这些是Python脚本以及C / C ++程序,用于自动化无参考基因组分析,如Kua CS,Ruan J,Harting J,Ye CX,Helmus MR等所述。 (2012)174叶绿体的无参考比较基因组学。 PLoS一7(11)。 ...
  • :是脚本的集合,其中短读(成对或非成对),包含可转座元件序列的fasta和参考基因组序列是输入,输出是包含位置(相对于参考基因组)的一系列文件)在参考文献中的TE插入和短读 DNA短读数据中存在但参考基因组序列...
  • 参考基因组如何选择

    千次阅读 2019-08-28 09:03:42
  • 参考基因组及注释文件下载

    千次阅读 2020-06-01 09:11:52
    参考基因组及注释下载 现有比对工具在做mapping之前,都需要下载对应物种的参考基因组做index,而如何选择合适的参考基因组是一件非常重要的事情。 现有的参考基因组存储网站三个: ENSEMBL UCSC NCBI UCSC 的命名是...
  • Ensembl数据库下载参考基因组 下面以植物拟南芥为例: 1.进入网站:http://plants.ensembl.org/index.html 一些常用的物种列在首页 拟南芥,水稻,玉米等 如果想要得物种不在首页可以点击:View full ...
  • 文章目录一、参考基因组1. UCSC2.读入数据二、使用步骤总结 一、参考基因组 Mapping or Alignment,是测序分析中重要的步骤。笼统的说,这一步骤就是把reads贴到参考基因组或转录组构建的index上的过程。那么,...
  • 这时可以删除其他无关的解压文件,以及参考基因组压缩文件,以节省空间, rm chr*.fa #删除chr*.fa格式的所有文件 rm chromFa.tar.gz #删除下载的参考基因组压缩文件 ls -l #显示当前目录下得文件以及属性 2....
  • 下载hg19的2bit文件 wget ... 下载2bit to fasta工具,将2bit格式的参考基因组转换为fasta格式 rsync -aP rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/linux.x86_64/ ./ ...
  • 人类参考基因组知识

    千次阅读 2018-11-09 19:19:33
    文章目录人类参考基因组知识人类和小鼠的参考基因组由Genome Reference Consortium组织进行维护Chromosomes, scaffolds and contigsHaplotypes and patches一个参考基因组的例子 人类参考基因组知识 人类和小鼠的...
  • 使用STAR构建参考基因组并比对

    千次阅读 2020-04-23 16:49:46
    使用STAR构建参考基因组 之前我们使用了hisat2构建了参考基因组序列,现在主流的软件是hisat2和STAR 于是我又跟着潘师兄的教程,来走一遍转录组,这里使用的就是STAR 在这过程中我还是碰到了许多问题和要注意的点,...
  • 1. 参考基因组下载 目前常用的国际通用的人类参考基因组在NCBI,UCSC和ENSEMBL的版本和对应情况如下: NCBI UCSC ENSEMBL GRCH36 hg18 ENSEMBL release_52 GRCH37 hg19 ENSEMBL release_59/61/64...
  • Nature子刊:涵盖20多万个人体肠道微生物基因组的参考基因组集A unified catalog of 204,938 reference genomesfrom the human...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,834
精华内容 6,733
关键字:

参考基因组