精华内容
下载资源
问答
  • FASTQ格式

    2018-04-30 16:36:00
    FASQT格式是用于存储生物序列(通常是核苷酸序列)及其相应的碱基质量分数的一种文本格式。为简洁起见,序列字母和质量分数均使用单个ASCII字符进行编码。最初由Wellcome Trust Sanger Institute(桑格研究所)开发...

            FASQT格式是用于存储生物序列(通常是核苷酸序列)及其相应的碱基质量分数的一种文本格式。为简洁起见,序列字母和质量分数均使用单个ASCII字符进行编码。最初由Wellcome Trust Sanger Institute(桑格研究所)开发用于捆绑FASTA格式的序列和其碱基质量分数的,现在已成为存储Illumina Genome Analyzer(Illumina基因组分析仪)等高通量测序仪的标准输出格式。

    FASTQ文件格式

    • 第1行,以“@” 字符开头,后面跟着一个序列标识符和一个可选的描述(像FASTA格式标题行)。
    • 第2行,原始序列字符。
    • 第3行,以“+”字符开头,后面可选地跟着相同的序列标识符或者任何描述。
    • 第4行,第2行序列每个碱基的质量编码值,包含与第2行字符数量相同的符号。

            包含单个序列的FASTQ文件示例如下:

    @SEQ_ID
    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
    +
    !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
    

            字符“!”和“~”分别代表最低和最高质量,下面是ASCII代表质量值从左到右顺序递增:

    !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

    Illumina序列标识符

            来自Illumina软件的序列使用系统标识符:

    @HWUSI-EAS100R:6:73:941:1973#0/1
    HWUSI-EAS100Rthe unique instrument name
    6flowcell lane
    73tile number within the flowcell lane
    941'x'-coordinate of the cluster within the tile
    1973'y'-coordinate of the cluster within the tile
    #0index number for a multiplexed sample (0 for no indexing)
    /1the member of a pair, /1 or /2 (paired-end or mate-pair reads only)

            Illumina流程1.4版本以后,使用#NNNNNN代替#0作为多重ID,NNNNNN是多重标签的序列。

    @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
    EAS139the unique instrument name
    136the run id
    FC706VJthe flowcell id
    2flowcell lane
    2104tile number within the flowcell lane
    15343'x'-coordinate of the cluster within the tile
    197393'y'-coordinate of the cluster within the tile
    1the member of a pair, 1 or 2 (paired-end or mate-pair reads only)
    YY if the read is filtered, N otherwise
    180 when none of the control bits are on, otherwise it is an even number
    ATCACGindex sequence

            请注意,最新版本的Illumina软件会输出样本编号(从样本表中读取替代)代替索引序列。例如,以下情况可能出现在批次的第一个样本中:

    @EAS139:136:FC706VJ:2:2104:15343:197393 1:N:18:1

    NCBI SRA数据

            来自NCBI/EBI SRA数据库的FASTQ文件通常包含如下一个描述:

    @SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
    GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
    +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
    IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

    在本例中,由一个NCBI分配的标识符、描述保存Solexa/Illumina的原始标识符和read长度。测序是在双端模式下进行的(~500bp插入大小),详见SRR001666。值得注意的是,当使用带缺省参数设置的fastq-dump从SRA数据中提取数据时,fastq-dump将正向read和反向read的序列连接在一起,提取的序列具有双倍长度,丢失了双端测序信息。

    $ /opt/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump SRR001666
    @SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=72
    GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACCAAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA
    +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=72
    IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9ICIIIIIIIIIIIIIIIIIIIIDIIIIIII>IIIIII/
    @SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 length=72
    GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGAAGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT
    +SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 length=72
    IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBIIIIIIIIIIIIIIIIIIIIIIIGII>IIIII-I)8I
    

    更好的方法是保存原始材料并分成两个或三个文件(正向、反向、单个),例如:

    $ /opt/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --origfmt --split-3 SRR001666
    $ head SRR001666_1.fastq  SRR001666_2.fastq
    ==> SRR001666_1.fastq <==
    @071112_SLXA-EAS1_s_7:5:1:817:345
    GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
    +071112_SLXA-EAS1_s_7:5:1:817:345
    IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
    @071112_SLXA-EAS1_s_7:5:1:801:338
    GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA
    +071112_SLXA-EAS1_s_7:5:1:801:338
    IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI
    
    ==> SRR001666_2.fastq <==
    @071112_SLXA-EAS1_s_7:5:1:817:345
    AAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA
    +071112_SLXA-EAS1_s_7:5:1:817:345
    IIIIIIIIIIIIIIIIIIIIDIIIIIII>IIIIII/
    @071112_SLXA-EAS1_s_7:5:1:801:338
    AGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT
    +071112_SLXA-EAS1_s_7:5:1:801:338
    IIIIIIIIIIIIIIIIIIIIIIGII>IIIII-I)8I
    

    另请注意,NCBI已将此FASTQ数据从原始Solexa/Illumina编码转换为Sanger标准(请参阅下面的编码)。

    变动

    质量

            质量值Q是p的整数映射(即相应碱基判定不正确的概率),主要有两种不同的公式被使用。第一种是评估碱基判定的可靠性的不标准Sanger变体,也称为Phred质量分数:

            Solexa流程(即与Illumina Genome Analyzer一起交付的软件)较早使用了不同的映射编码概率p/(1-p),而不是p:

            虽然两个映射在更高质量值处渐近地相同,但它们在较低质量水平下不同(即,近似p> 0.05等同Q <13)。

    使用Sanger(红色)和Solexa(黑色)方程(如上所述)的Q和p之间的关系。 垂直虚线表示p = 0.05,或等同地Q≈13。

            llumina流程1.4版用户指南(附录B,第122页)指出:“评分定义为:Q=10*log10(p/(1-p)),其中p是对应碱基判定的概率”。Illumina流程1.5版用户指南(第5页新增内容)对此进行了修改,“流程1.3版质量评分方案已更改为Phred评分方案,质量得分按Phred+64被转换为ASCII字符表示。”

    编码

    • Sanger格式可以使用ASCII 33~126字符表示0~93的Phred质量分数(尽管在原始read数据中,Phred质量分数很少超过60,但在组装或比对中可能有更高的分数)。这种方法也用于SAM格式中。根据seqanswers.com 上的公告,到2011年2月底,Illumina最新版本(1.8)的CASAVA流程将直接产生Sanger格式的fastq文件。
    • Solexa/Illumina 1.0格式可以使用ASCII 59~126字符表示-5~62的Solexa/Illumina评分(原始read数据Solexa评分仅为-5~40)。
    • 从Illumina 1.3版本开始,到Illumina 1.8版本,使用ASCII 64~126表示0~62的Phred质量分数(原始数据中Phred分数仅为0~40)。
    • 从Illumina1.5版本开始,到Ilumina 1.8版本,Phred分数为0~2的含义略有不同。值0和1不在使用,值2(ASCII字符“B”)作为read片段结束的质量控制指示器。Illumina手册(第30页)内容:如果read以质量最差的一段(Q15或更低)结束,则片段中的所有质量值将被值2替换(ASCII字符“B”)…此Q2指标不能表示特定的错误率,而是表示read的特定最终部分不应用于进一步分析。此外,在Illumina 1.6版本之前,质量分数编码为“B”的碱基也可能在read内部发生,如下所示:
    @HWI-EAS209_0006_FC706VJ:5:58:5894:21141#ATCACG/1
    TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNNTAGTTTCTTGAGATTTGTTGGGGGAGACATTTTTGTGATTGCCTTGAT
    +HWI-EAS209_0006_FC706VJ:5:58:5894:21141#ATCACG/1
    efcfffffcfeefffcffffffddf`feed]`]_Ba_^__[YBBBBBBBBBBRTT\]][]dddd`ddd^dddadd^BBBBBBBBBBBBBBBBBBBBBBBB
    • 对于原始的read,质量分数的范围取决于所使用的技术和碱基判定标准,但对于最新的Illumina流程,通常会达到41.由于最大观察质量分数以前仅为40,因此各种脚本工具在遇到质量值大于40的数据时会中断。而对于经过过处理的read,质量分数可能会更高。例如:Illumina的Long Read Sequencing Service(以前的Moleculo)中read的质量分数为45。
      SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS.....................................................
      ..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................
      ...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......................
      .................................JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ.....................
      LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL....................................................
      !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
      |                         |    |        |                              |                     |
     33                        59   64       73                            104                   126
      0........................26...31.......40                                
                               -5....0........9.............................40 
                                     0........9.............................40 
                                        3.....9..............................41 
      0.2......................26...31........41                              
    
     S - Sanger        Phred+33,  raw reads typically (0, 40)
     X - Solexa        Solexa+64, raw reads typically (-5, 40)
     I - Illumina 1.3+ Phred+64,  raw reads typically (0, 40)
     J - Illumina 1.5+ Phred+64,  raw reads typically (3, 41)
         with 0=unused, 1=unused, 2=Read Segment Quality Control Indicator (bold) 
         (Note: See discussion above).
     L - Illumina 1.8+ Phred+33,  raw reads typically (0, 41)
    

    色域

            SOLiD数据,除了第一个位置,序列信息存储在色域中。质量值是Sanger格式的质量值,比对工具在质量值的首选版本上有所不同:其中一些包括主要和核苷酸的质量评分,而另一些则没有。序列read存档文件包含此质量分数。

    模拟

            FASTQ read模拟主要有以下几个工具:ARTXS

    压缩

            质量分数占FASTQ格式所需磁盘空间(压缩前)的一般左右,因此压缩质量值可显著降低存储需求并加快测序数据的分析和传输。文献中提到的压缩方式主要无损和有损压缩。例如,有损压缩QualComp,无损压缩SCALCEfastqz

            从Hiseq 2500开始,Illumina提供了将粗粒度质量输出到质量表的选项。分积分数直接从经验质量分数表中计算得出,该分数表与测序实验中所使用的硬件、软件和化学物质有关。

    文件拓展名

            FASTQ文件并没有标准的文件拓展名,但通常都是.fq或.fastq。

    格式转换器

    • Biopython version 1.51 onwards (interconverts Sanger, Solexa and Illumina 1.3+)
    • EMBOSS version 6.1.0 patch 1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)
    • BioPerl version 1.6.1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)
    • BioRuby version 1.4.0 onwards (interconverts Sanger, Solexa and Illumina 1.3+)
    • BioJava version 1.7.1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)
    • MAQ can convert from Solexa to Sanger (use this patch to support Illumina 1.3+ files).
    • fastx_toolkit The included fastq_quality_converter program can convert Illumina to Sanger

    命令行转换

    FASTQ to FASTA format:

    zcat input_file.fastq.gz | awk 'NR%4==1{printf ">%s\n", substr($0,2)}NR%4==2{print}' > output_file.fa
    

    Illumina FASTQ 1.8 to 1.3

     
    sed -e '4~4y/!"#$%&'\''()*+,-.\/0123456789:;<=>?@ABCDEFGHIJ/@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghi/' myfile.fastq   # add -i to save the result to the same input file
    

    Illumina FASTQ 1.3 to 1.8

     
    sed -e '4~4y/@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghi/!"#$%&'\''()*+,-.\/0123456789:;<=>?@ABCDEFGHIJ/' myfile.fastq   # add -i to save the result to the same input file
    

    Illumina FASTQ 1.8 raw quality to binned quality (HiSeq Qtable 2.10.1, HiSeq 4000 )

     
    sed -e '4~4y/!"#$%&'\''()*+,-.\/0123456789:;<=>?@ABCDEFGHIJKL/))))))))))----------77777<<<<<AAAAAFFFFFJJJJ/' myfile.fastq   # add -i to save the result to the same input file
    

    Illumina FASTQ 1.8 raw quality to clinto format (a visual block representation)

     
    sed -e 'n;n;n;y/!"#$%&'\''()*+,-.\/0123456789:;<=>?@ABCDEFGHIJKL/▁▁▁▁▁▁▁▁▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇██████/' myfile.fastq   # add -i to save the result to the same input file
    

     

    参考资料

    wiki FASTQ

     

    转载请标明《http://www.cnblogs.com/yahengwang/p/8973948.html

    转载于:https://www.cnblogs.com/yahengwang/p/8973948.html

    展开全文
  • sra转fastq格式

    千次阅读 2019-10-02 04:27:15
    NCBI上下载的原始数据为SRA数据,而适用于大部分生物软件的是fastq格式,所以我们需要将sra格式的原始数据转为fastq格式。NCBI提供了数据转换的软件fastq-dump。 1、下载软件 wget ...

    NCBI上下载的原始数据为SRA数据,而适用于大部分生物软件的是fastq格式,所以我们需要将sra格式的原始数据转为fastq格式。NCBI提供了数据转换的软件fastq-dump。

    1、下载软件

    wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz
    tar zxf sratoolkit.2.9.2-centos_linux64.tar.gz

    解压后软件就在./sratoolkit.2.9.2-centos_linux64/bin/fastq-dump

    2、转换格式

    使用基本命令行

    ./sratoolkit.2.9.2-centos_linux64/bin/fastq-dump /path/to/xxx.sra

    但是这个默认使用方法得到结果往往很糟, 比如说他默认会把双端测序结果保存到一个文件里, 但是如果你加上--split-3之后, 他会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件. 还有你用--gzip就能输出gz格式, 能够节省空间的同时也不会给后续比对软件造成压力, 比对软件都支持,就是时间要多一点。

    3、遇到过的问题

    • 如何下载sra的信息,如insert size、read长度、测序平台等?
      -- 输入srp/srx/srr编号查询到对应信息后,点击右上角的"Send to",选择"File"->"RunInfo"->"Create File",下载下来的.csv文件里有很详细的样品、文库和测序信息。

    • 如果不知道文库是single end还是paired end,如何转换成fastq?
      方法一:一个简单方法是在SRA Run Browser上输入SRR编号查询: (http://trace.ncbi.nlm.nih.gov/Traces/sra/),"Browse" -> "Run Browser" -> then input your ID,LAYOUT会标明是SINGLE还是PAIRED,也可以在Reads结果页面查看,如果展示1条read就是single end,2条reads就是paired end。
      方法二:可以先用sra-stat对sra文件进行统计,从统计结果里可以知道是单末端还是双末端。
      方法三:直接跑fastq-dump,用参数--split-files就自可以自动分辨出来,结果是一个文件就是single end,两个文件就是paired end。
      方法四:fastq-dump的--split-spot可以用来分辨
    srr="SRR3184279"
    numLines=$(fastq-dump -X 1 -Z --split-spot $srr | wc -l)
    if [ $numLines -eq 4 ]
    then
      echo "$srr is single-end"
    else
      echo "$srr is paired-end"
    fi

    参考
    1、 如何使用fastq-dump转换SRA格式

    转载于:https://www.cnblogs.com/RyannBio/p/9582922.html

    展开全文
  • Fqutils提供了一套基本的生物信息学序列数据FASTQ格式与命令行工具。格雷格·汉农的优良Fastx工具包套件的补充。的是,它正确地处理FASTQ格式发布的标准,该标准明确允许多行序列和质量得分记录信息每所描述的特征之...
  • fastQ格式 FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式. 他们都是以ASCII编码的。现在几乎是高通量测序的标准格式。NCBIShort Read Archive也是这格式,多了一些描述性词汇而已。 ...

    fastQ格式

    FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式.

    他们都是以ASCII编码的。现在几乎是高通量测序的标准格式。NCBI Short Read Archive也是这格式,多了一些描述性词汇而已。

     

    基本格式

    包含四行,第一行'@'开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的

    第二行是序列

    第三行由'+'开始,后面也可以跟着序列的描述信息

    第四行是第二行序列的质量评价(quality values,注:应该是测序的质量评价),字符数跟第二行的序列是相等且对应的。

    举例子

     

    第一行以@开头,后面是readsID以及其他信息,例如上例中 HWUSI-EAS100R代表Illmina设备名称,6代表flowcell中的第六个lane73代表第六个lane中的第73tile941:1973代表该read在该tile中的xy坐标信息;#0,若为多样本的混合作为输入样本,则该标志代表样本的编号,用来区分个样本中的reads/1代表paired end中的前一个read

    第二行为read的序列

    第三行以+”开头,跟随者该read的名称(一般于@后面的内容相同),但有时可以省略,但“+”一定不能省

    第四行代表reads的质量。这一行可以详细说一下!

    Q值得计算

    Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应ATCG,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。起初sanger中心用Phred quality score来衡量该read中每个碱基的质量,既-10lgP ,其中P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30,那么30+33=63,那么63对应的ASCii码为,则在第四行中该碱基对应的质量代表值即为ASCii参考如图2

    P=0.001时,Q=30;P=0.01时,Q=20;P=0.1时,Q=10。

     

    2

    格式转换

    FASTQ格式Fasta格式GenBank等格式可以相互转换。格式转换器如下:

    Biopython version 1.51 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

    EMBOSS version 6.1.0 patch 1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

    BioPerl version 1.6.1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

    BioRuby version 1.4.0 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

    BioJava version 1.7.1 to 1.8.x (interconverts Sanger, Solexa and Illumina 1.3+)

    MAQ can convert from Solexa to Sanger (use this patch to support Illumina 1.3+ files).

    fastx_toolkit The included fastq_quality_converter program can convert Illumina to Sanger

    Illumina中应用

       Illmina有多种测序仪,从早期的GAHiseq2000Hiseq2500以及Hiseq X, Hiseq2000一个flowcell中包含8lane,每个lane可以测一个文库或多样本的混合文库,多样本混合文库如果需要后期区分则每个文库需要一个独特的标签,即Index。其中一个lane包含3(3Swath),每一列又包含8tile,每一个tile又会种下不同的cluster,如图1所示为Hiseq2500FlowCell的一个表面。3

     

    3

    转载于:https://www.cnblogs.com/zdwu/p/6801057.html

    展开全文
  • FASTQ 格式说明

    千次阅读 2016-07-18 22:35:08
    FASTQ格式每四行描述一条测序序列信息: 第一行由'@'开始,后面跟着序列的ID信息,这点跟FASTA格式是一样的。 第二行是序列。 第三行由'+'或者'-'开始,后面也可以跟着序列的描述信息。 第四行是第二行测序序列的...

    FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式。

    目前几乎是高通量测序数据的标准格式。

    FASTQ格式每四行描述一条测序序列信息:

    第一行由'@'开始,后面跟着序列的ID信息,这点跟FASTA格式是一样的。

    第二行是序列。

    第三行由'+'开始,后面也可以跟着序列的描述信息。

    第四行是第二行测序序列的质量评价,字符数跟第二行的序列是相等的,一一对应。



    注:序列的ID信息,是这条序列的唯一标识,包含信息如下:

    例1:@HWUSI-EAS100R:6:73:941:1973#0/1

    HWUSI-EAS100Rthe unique instrument name
    6flowcell lane
    73tile number within the flowcell lane
    941'x'-coordinate of the cluster within the tile
    1973'y'-coordinate of the cluster within the tile
    #0index number for a multiplexed sample (0 for no indexing)
    /1the member of a pair, /1 or /2 (paired-end or mate-pair reads only)

    例2:@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

    EAS139the unique instrument name
    136the run id
    FC706VJthe flowcell id
    2flowcell lane
    2104tile number within the flowcell lane
    15343'x'-coordinate of the cluster within the tile
    197393'y'-coordinate of the cluster within the tile
    1the member of a pair, 1 or 2 (paired-end or mate-pair reads only)
    YY if the read fails filter (read is bad), N otherwise
    180 when none of the control bits are on, otherwise it is an even number
    ATCACGindex sequence

    展开全文
  • 维基百科:FASTQ格式

    2021-03-22 16:40:54
    来自维基百科中文版本的FASTQ文件格式介绍。由于维基百科被和谐了,特在此分享。
  • FastQ格式介绍

    千次阅读 2012-05-18 00:28:05
    FastQ格式介绍 为了便于测序数据的发布和共享,高通量测序数据以FASTQ 格式来记录所测的碱基读段和质量分数.如下图 所示,FASTQ 格式以测序读段为单位存储,每条读段占4 行,其中第1 行和第3行由文件识别标志和读...
  • 去接头后的fastq格式需要转为unique的fasta格式,用于miRDP的下一步分析。用python的.count()感觉速度太慢,用awk速度很快。 head -n 12 SRR7406454_trimmed.fq @SRR7406454.1 HISEQ:279:HVMFNBCXX:1:1101:1442:...
  • 生物信息数据格式:fastq格式

    万次阅读 2018-12-14 18:01:51
    文章目录格式说明实例演练判断fastq序列编码是Phred33(Illumina1.8+) or Phred64(Illumina1.3+)fastq转换fasta格式Linux 操作fastq获取数据统计reads_1.fq文件中共有多少条序列信息输出reads_1.fq文件中的标识符(即...
  • FASTX.jl:解析和处理生物序列的FASTA和FASTQ格式的文件
  • Fastq 格式说明 & (Phred33 or Phred64)
  • 程序sff2fastq从454基因组测序仪产生的SFF文件中提取读取的信息,并以FASTQ格式输出序列和质量得分。 用法 给定一个SFF文件file.sff您可以简单地运行: sff2fastq file.sff 如果未在命令行上指定SFF文件,则sff2...
  • 输入文件: fastq格式 输出结果: kmer的频数和对应的kmer类型 系统环境Ubuntu单机版17.01 spark版本2.7 此次测试主要用到了RDD的函数foreach和zipWithIndex,zipWithIndex这个函数是可以直接对gz文件进行操作...
  • 统计fastq格式的数据质量值

    千次阅读 2019-04-19 15:17:07
    现在对fastq格式的数据进行统计的软件也很多 1.FastQC,目前也是用的比较多 2.readfq 用来统计各种质量值 3.fqcheck 我自己用的比较少 ,它会统计每条reads,按read 1-100位点计算每个位置的ACGTN含量,Q20,Q30...
  • sra是NCBI 推出的存储高通量数据的格式,而平常我们工作用得多是fastq格式。如果需要把sra 转成fastq,从 http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&amp;f=software&amp;m=software&...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,508
精华内容 603
关键字:

fastq格式