精华内容
下载资源
问答
  • 基因注释-InterProScan

    2020-09-03 21:28:17
    基因注释-InterProScan 官网地址: http://www.ebi.ac.uk/interpro/download.html github使用手册地址: https://github.com/ebi-pf-team/interproscan/wiki 1.下载、解压、安装 下载链接: nohup wget ...

    官网地址:

    http://www.ebi.ac.uk/interpro/download.html

    github使用手册地址:

    https://github.com/ebi-pf-team/interproscan/wiki

    1.下载、解压、安装

    下载链接:

    nohup wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.28-67.0/interproscan-5.28-67.0-64-bit.tar.gz &
    

    因为压缩包有11G左右,所以最好还是用nohup后台下载,以防网络因素导致下了一半得重新下的情况。

    解压:

    tar -pxvzf interproscan-5.28-67.0-*-bit.tar.gz
    

    这里参数p是 :

    p = preserve the file permissions #即保存文件权限

    安装Panther模块

    panter库需要单独安装。

    下载&解压

    cd [InterProScan5 home]/data/
    nohup wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-12.0.tar.gz &
    tar -pxvzf panther-data-12.0.tar.gz
    
    1. The pre-calculated match lookup网页服务器能够提供超过3千万蛋白序列的比对,包括所有的UniProtKB蛋白序列.

    2. InterProScan 5使用这个服务器能够加速本地服务器的速度。

    3. 这是这个版本的特点,要想使用这个服务器的话,需要电脑能上网:http://www.ebi.ac.uk to use it.

    4. 如果你的电脑防火墙阻止访问这个网站,你课以下载本地化的InterProScan 5 lookup service(https://code.google.com/p/interproscan/wiki/LocalLookupService)

    5. 或者关掉这个功能关掉这个功能的时候,你可以在命令行加入-dp 或者修改interproscan.properties

    6. 在前面加一个#注释掉即可

    7. precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup

    最基本使用模式:

    ./interproscan.sh -i /path/to/sequences.fasta –o /san/ –goterms –iprlookup –pa -f xml
    

    也可使用示例来测试:

    ./interproscan.sh -i test_proteins.fasta -f tsv

    参数信息:

    -appl / --applications application_name (optional)

    By default, all available analyses are run.

    也可以指定特定的数据库

    ./interproscan.sh -appl Pfam -i /path/to/sequences.fasta
    

    也可以指定多个数据库,并可选择数据库的版本

    ./interproscan.sh -appl Pfam-31.0 -appl PRINTS-42.0 -i /path/to/sequences.fasta
    

    也可以只使用一个-appl,后面跟很多的数据库

    ./interproscan.sh -appl CDD,COILS,Gene3D,HAMAP,MobiDBLite,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITEPATTERNS,PROSITEPROFILES,SFLD,SMART,SUPERFAMILY,TIGRFAM -i /path/to/sequences.fasta
    

    所有可用的数据库list:

    Included Analyses

    This distribution of InterProScan includes:

    以下的数据库在interproscan 5中可用,但是需要获得许可:

    所以不加比较好,可以最大程度地得到需要的信息,虽然会给后续处理带来压力。


    -i / --fasta sequence_file

    需要输入fasta格式的文件。核酸和蛋白都可以,但推荐蛋白,毕竟蛋白文件相对小一点。

    for protein sequences, returnand files or for nucleotide sequences, return GFF3 and XML files

    蛋白质文件的默认输出格式是 TSV, XML 或GFF3,核酸序列默认输出GFF3 或 XML 文件


    -iprlookup,--iprlookup (optional)

    -goterms,--goterms (optional)

    开启GO注释,这两个参数一般一起开,GO的注释依赖于-iprlookup参数


    -b / --output-file-base file_name (optional)

    Optionally, you can supply a path and base name (excluding a file extension) for the results file as follows:

    ./interproscan.sh -i /path/to/sequences.fasta -b /path/to/output_file
    

    The appropriate file extension will be added to each output file, depending upon the format(s) requested. (It is therefore recommended that you do not include a file extension yourself.)

    Note that using this option will not overwrite existing files. If a file with the required name exists at the path specified, the provided file name will have 'underscore_number' appended in front of the file extension.

    没明白,贴原文需要的自己看。感觉上是不需要自己设置输出格式的意思?而且不会重写覆盖掉已存在的文件。


    -o 跟前面的-b.-d不能同时出现,如果设置了这个,就必须设置-f

    -f 输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG。蛋白默认的格式为TSV, XML 和 GFF3, 核酸的格式之前为GFF3 和XML,现在都可以了哦。

     ./interproscan.sh -f XML -f HTML -i /path/to/sequences.fasta -b /path/to/output_file 
    

    集中输出格式的区别:https://code.google.com/p/interproscan/wiki/OutputFormats


    -dp 关闭precalculated match lookup service,默认的是开启。根据md5值来快速检验这上传的数据是否已经被注释了,如果是已经注释了就直接出结果。节省时间。


    -pa / --pathways (optional)
    Option that provides mappings from matches to pathway information, which is based on the matched manually curated InterPro entries. (IMPLIES -iprlookup option). The different pathways databases that I5 provides cross links to are:

    KEGG
    MetaCyc
    Reactome

    开启可能的注释信息。


    -t / --seqtype (optional)
    InterProScan 5 supports analysis of both protein and nucleic acid sequences (DNA/RNA). Your input sequences are interpreted as protein sequences by default. If you like to scan nucleotide sequences you must set the -t option:

    ./interproscan.sh -t n -i /path/to/sequences.fasta
    

    如果输入的是核酸序列(DNA或者RNA都可以)需要设置-t参数,默认是蛋白。


    -dra/ --disable-residue-annot (optional)

    Optionally, you can prevent InterProScan from calculating the residue level annotations and displaying in the output where available. If you don't require this information then disabling the feature will improve performance and result in smaller output files.

    可以将一些计算忽略,得到较小较快的结果


    更多的信息请查看下面参考的第一条。

    一些注意事项

    1. 跑interproscan的数据可以是核酸也可以是蛋白质,但是命令会有一些区别。
    2. 数据一定要格式化,而且序列中不能出现*号等其他字符。gene的名字不能为空。
    3. tsv格式可以直接用excel打开。

    根据以上信息整理后得到:

    ./interproscan.sh -i /path/to/sequences.pep -iprlookup -goterms -f html -f tsv -dp -pa -dra -b /path/to/output_file
    
    interproscan.sh -appl PfamA (-appl PRINTS) -appl SMART -appl PANTHER -i Porphyra_umbilicalis_pep.fasta -f tsv -o Porphyra_umbilicalis_pep.fasta.ipr -goterms -T temp -iprlookup
    
    nohup ./interproscan.sh -appl PfamA -appl SMART -appl PANTHER -i 160614_klebsormidium_v1.1_AA.fasta.fasta -f tsv -o kfl.tsv -goterms -T temp -iprlookup -dp &

     

    参考

    https://github.com/ebi-pf-team/interproscan/wiki/HowToRun

    https://github.com/ebi-pf-team/interproscan/wiki/FAQ#3.What_should_I_do_if_one_of_the_binaries_included_with_InterProScan_5_does_not_work_on_my_system?

    http://qinqianshan.com/interproscan-installation-and-usage/

    https://www.cnblogs.com/xiaojikuaipao/p/7190779.html

    展开全文
  • 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment。所以首先需要获取参考基因组和参考转录组信息。 Ensembl...

    参考基因组和基因注释文件获取

    通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment。所以首先需要获取参考基因组和参考转录组信息。

    Ensembl(http://www.ensembl.org/info/data/ftp/index.html)是常用的信息齐全的参考基因组和GTF文件下载网站。

    下图列出了几个常用动物物种的DNA序列GTF格式的基因组注释

    image

    Ensembl提供的参考基因组有2种组装形式和3种重复序列处理方式, 分别是primary, toplevelunmasked (dna)、soft-masked (dna_sm)和masked (dna_rm)。一般选择dna.primarydna_sm.primary

    • 为什么选择Primary

      Primary assembly contains all toplevel sequence regions excluding haplotypes and patches. This file is **b****est used for performing sequence similarity searches **where patch and haplotype sequences would confuse analysis.

    • 为什么不选择masked

      Masked基因组是指所有重复区和低复杂区被N代替的基因组序列,这样比对时就不会有reads比对到这些区域。

      一般不推荐用masked的基因组,因为它造成了信息的丢失,由此带来的一个问题是uniquely比对到masked基因组上的reads实际上可能不是unique的。而且masked基因组还会带来比对错误,使得在允许错配的情况下,本来来自重复区的reads比对到基因组的其它位置。

      另外检测重复区和低复杂区的软件不可能是完美的,这就造成遮盖住的重复序列和低复杂区并不一定是100%准确和敏感的。

      soft-masked基因组是指把所有重复区和低复杂区的序列用小写字母标出的基因组,由于主要的比对软件,比如BWAbowtie2等都忽略这些soft-mask,直接把小写字母当做大写字母比对,所以使用soft-masked基因组的比对效果和使用unmasked基因组的比对效果是相同的。

    基因注释GTF文件在分析转录组数据时会用到,也从这获取,GTF文件的解释见文件格式部分。

    ENSEMBL的基因注释文件与GeneCode(http://www.gencodegenes.org/)V26版本一致。

    ENSEMBL中基因组和GTF文件中染色体的名字都没有添加chr,最好收到添加,以保持与UCSC或下游操作一致。(本地安装UCSC基因组浏览器)

    下载基因功能和结构注释信息

    ENSEMBL数据库的**BioMart **(http://www.ensembl.org/biomart/martview)工具为下载基因的功能信息、序列信息、结构信息、ID的转换等提供了很大的便利。

    注意在BioMart的Attribute选项里如果选择了蛋白相关的选项,得到的结果中只有蛋白编码基因的信息。如果要下载所有基因信息,请不要选择蛋白相关的选项。

    具体使用如下,下载基因相关信息,首先选择Ensembl Genes 89数据集

    image

    以Human为例,选择Human genes (GRCh38.p10)

    image

    如果下载全部的基因信息,Filters部分可以略过不填。如果只想下载比如说某个GO通路的基因或给定列表的基因信息,可以在Filters中指定对应的GO ID

    image

    Attribute中包含基因的名字、位置、注释、在不同数据库中的名字、GO注释、KEGG注释、功能域信息等,按需选择下载。

    image

    image

    选择好后,点击Results,获取结果。

    image

    Export al results to选择存储到文件中。如果特别大,而自己网速又比较慢,可以选择通过邮件发送下载链接

    image

    也可以通过Biomart提取基因结构信息,比如5’ UTR、3’ UTR、外显子、内含子的坐标等。

    image

    Biomart下载很方便,但一个点击也比较麻烦,可以看到截图中存在XML按钮,点击打开看到选择的下载信息都记录在了这个文件中。

    image

    使用wget -O result.txt 'http://www.ensembl.org/biomart/martservice?query= + XML中的内容 (调整为一行,并且行尾加一个单引号)即可反复使用。如果想换一个物种,只需修改对应的Dataset name即可。Linux命令系统学习见生信宝典文章集锦

    展开全文
  • GTF基因注释文件详解

    万次阅读 2017-06-03 12:33:55
    Cufflinks/Tophat 软件需要 GTF文件作为基因注释文件。  GFF全称为general feature format,这种格式主要是用来注释基因组。 GTF全称为gene transfer format,主要是用来对基因进行注释。 目
    GFF和GTF是两种最常用的数据库注释格式,在信息分析中建库时除了需要fasta文件一般还会需要这两种文件,提取需要的信息进行注释。
    Cufflinks/Tophat 软件需要 GTF文件作为基因注释文件。 


    GFF全称为general feature format,这种格式主要是用来注释基因组。

    GTF全称为gene transfer format,主要是用来对基因进行注释。

    目前两种文件可以方便的相互转化,比如:使用Cufflinks软件的 的gffread。

    GTF文件由9列数据组成,这两种文件的前8列都是相同的(一些小的差别),

    gtf文件是以tab键分割的9列组成,以下为每一列的对应信息:

    seq_id source type start end score strand phase attributes
    chr12 danRer10_refGene exon 25132483 25132543 0 + . gene_id "NM_199912"; transcript_id "NM_199912"; 
    chr12 danRer10_refGene start_codon 25132758 25132760 0 + . gene_id "NM_199912"; transcript_id "NM_199913"; 
    chr12 danRer10_refGene CDS 25132758 25132785 0 + 0 gene_id "NM_199912"; transcript_id "NM_199914"; 
    chr12 danRer10_refGene exon 25132720 25132785 0 + . gene_id "NM_199912"; transcript_id "NM_199915"; 

    1)  seq_id:序列的编号,一般为chr或者scanfold编号;
    2)  source: 注释的来源,一般为数据库或者注释的机构,如果未知,则用点“.”代替;
    3)  type: 注释信息的类型,比如Gene、cDNA、mRNA、CDS等
    4)  start:该基因或转录本在参考序列上的起始位置;
    5)  end: 该基因或转录本在参考序列上的终止位置;
    6)  score: 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空;
    7)  strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
    8)  phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2(对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸,从0开始,CDS的起始位置,除以3,余数就是这个值,,表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置,取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5'末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外;如果Feature为CDS时,必须指明具体值。);
    9)  attributes:一个包含众多属性的列表,格式为“标签=值”(tag=value),标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征),其内容必须包括gene_id和transcript_id。以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;

    展开全文
  • 吉他:用于基因注释的RNA相关基因组特征的转录组学分析的R / Bioconductor程序包
  • 这是HorseGeneAnnotation的自述文件:HorseGeneAnnotation:这是一本手动编写的,众包的基因注释网站。 此存储库包含HorseGeneAnnotation项目的所有源代码,文档,教程和项目跟踪。 我们正在通过github页面来操作...
  • 生物信息学;疾病相关的基因基因本体数据库
  • 在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。 作业: 截图几个基因的IGV可视化结构!还可以下ENSEMBL,NCBI的...

    目的:
    在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
    作业:
    截图几个基因的IGV可视化结构!还可以下ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。
    载参考基因组

    # 解压文件
    tar -zxvf chromFa.tar.gz
    # 把所有的序列写到一个文件中
    cat *.fa > hg19.fa
    #删除其他文件
    rm chr*.fa
    

    下载注释文件

    # 解压并删除原来的文件
    gzip -d gencode.v27lift37.annotation.gtf.gz
    gzip -d gencode.v27lift37.annotation.gff3.gz
    

    IGV软件的使用

    主窗口布局

    1. tool bar(工具栏),menu bar(菜单栏),pop-up menus(弹出式菜单)
    2. 染色体上的红色盒子表示显示这部分染色体,显示完整染色体时红框会消失
    3. 尺度显示了染色体的可见部分,刻度线显示了染色体的位置,跨度列表显示了当前显示的碱基的数量
    4. IGV在水平行显示的数据称为tracks。通常,每个tracks代表一个样本或实验。这个例子展示了甲基化、基因表达、拷贝数,LOH和突变数据
    5. IGV也显示某些特性,比如在tracks中的基因。默认情况下,IGV在一个面板显示数据,在另一个面板显示数据特性。拖放一个track名称,将一个track从一个面板移动到另一个地方
    6. Track名称列在最左边面板。名字的易读性取决于 tracks的高度,例如,track越小,它的名字的可读性越小
    7. 属性名称被列在顶部的属性面板。彩色块代表属性值,每个独特的值被都有一个独特的颜色。鼠标放在一个颜色块的附近来查看其属性值

    导入参考基因组及注释信息,查看感兴趣基因的结构
    通过genome -> Load Genome From Files导入hg19.fa
    进一步,File -> Load From Files接着导入gtf文件,需要先sort,才能导入

    展开全文
  • 转录组入门(4):了解参考基因组及基因注释 在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。 作业,截图几个基因的...
  • Genotify是一款轻巧的跨平台桌面应用程序,可用于快速基因注释。 如果您是分子生物学研究人员或生物信息学家,则可能会相对频繁地使用Google谷歌搜索基因名称,尤其是在进行繁琐的综述或浏览差异表达基因表时。 ...
  • 欢迎关注”生信修炼手册”!对于人和小鼠而言,NCBI, Ensembl等数据库都保存了对应的基因注释信息,不同数据库中的信息来源和可信度都不一样,gencode综合HAVANA和Ense...
  • 但在实际的操作中,也发现了第二篇文章中的一些小问题,因此将其转载到公众号后稍加改进,但是基因注释这部分中,第三方包的安装方法似乎已无法使用,因此记录下来,分享给需要的小伙伴们。 在旧版本中,“cluster...
  • 今天学习了如题的一些操作。但是并不算成功。...(RNA-seq(4):下载参考基因组及基因注释) 1.安装ASPERA 1)wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727...
  • 拟南芥基因注释

    2020-12-01 16:24:52
    Athaliana_447_Araport11.annotation_info.txt文件下载链接 https://phytozome.jgi.doe.gov/pz/portal.html#!bulk?org=Org_Athaliana_er #!/usr/bin/perl my $infile=shift; my $gene_num=shift;...
  • 基因注释上,MAKER算是一个很强大的分析流程。能够识别重复序列,将EST和蛋白序列比对到基因组,进行从头预测,并在最后整合这三个结果保证结果的可靠性。此外,MAKER还可以不断训练,最初的输出结果可以继续...
  • 训练 ab initio 基因预测工具(以...但是我们可以利用EST序列(少部分物种估计有)、二代测序数据、同源物种蛋白序列,先直接用Maker做基因注释,尽管得到的模型可能不是特别的完美,但可以作为输入反复迭代运行Maker...
  • RNA-seq(4):下载参考基因组及基因注释 下载参考基因组的原因 我们测序得到的是几百bp的短read(具体长短还有差异?需要进一步学习), 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走...
  • 文章目录Prokka:快速原核基因注释热心肠日报摘要1 简介2 描述2.1 输入2.2 注释表1 Prokka使用的功能预测工具2.3 输出表2. 输出结果介绍3 结果表3. 比较大肠杆菌的注释结果扩展阅读猜你喜欢写在后面 Prokka:快速...
  • 文章目录学习目标基因注释数据库常用数据库专用注释数据库基因组的构建访问数据库的工具注释工具:用于从特定数据库中访问/查询注释接口工具:用于从多个不同的注释源访问/查询注释AnnotationDbiAnnotationHub ...
  • 前情提要如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章宏基因组分析理论教程微生物组入门圣经+宏基因组分析实操课程1背景知识-Shell入门与本地blast实...
  • GATHER:基因注释工具

    千次阅读 2016-09-21 22:26:06
    GATHER:从高通量的后基因组中发现基因分子的特性。 通过分析Rb/E2F: (1)GATHER发现了通道的重要特性 (2)GATHER识别出了一系列与其他无关基因表达签名中的普通生物学中发现了乳腺癌。 (3)GATHER成功...
  • 使用MAKER进行基因注释(基础入门

    千次阅读 2018-09-10 11:53:32
    基因注释上,MAKER算是一个很强大的分析流程。能够识别重复序列,将EST和蛋白序列比对到基因组,进行从头预测,并在最后整合这三个结果保证结果的可靠性。此外,MAKER还可以不断训练,最初的输出结果可以继续...
  • 今天是2020-02-09作者:沙雕学习小组这里有视频教程:https://www.bilibili.com/video/av87724182今天想实现这个功能:差异分析得到了200多个基因(甚至更多)1我要一个一个把基因的summary信息得到,要手动一个一个...
  • 基因注释 InterProScan的三种使用方法

    千次阅读 2019-09-25 13:16:53
    InterProScan的三种使用方法 ...Interproscan整合了一些使用最普及的一些数据库,并应用于功能未知的蛋白进行Interpro注释和GO注释。以下介绍3中interpro注释的方法: 一、网页版的Interpro注释 打开I...
  • 1. 参考基因组下载 目前常用的国际通用的人类参考基因组在NCBI,UCSC和ENSEMBL的版本和对应情况如下: NCBI UCSC ENSEMBL GRCH36 hg18 ENSEMBL release_52 GRCH37 hg19 ENSEMBL release_59/61/64...
  • 使用MAKER进行基因注释(基础入门)

    千次阅读 2018-09-06 13:42:00
    基因注释上,MAKER算是一个很强大的分析流程。能够识别重复序列,将EST和蛋白序列比对到基因组,进行从头预测,并在最后整合这三个结果保证结果的可靠性。此外,MAKER还可以不断训练,最初的输出结果可以继续...
  • 基因注释资源(1)

    千次阅读 2018-10-26 02:05:04
    过去很明显,注释只是在进行了多项不同研究后建立的事物(例如基因产物的主要作用)。但是今天许多大型数据集都被社区处理,就像经典注释一样:作为额外比较的参考。 Bioconductor中注释正在进行的另一项变化是...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,518
精华内容 3,007
关键字:

基因注释