精华内容
下载资源
问答
  • Fastqc使用说明

    2016-08-30 14:33:00
    FastQC检查二代测序原始数据的质量 2013-01-28 21:28:10|分类: Bioinformatics |标签:bioinformaticsdeep-seq |举报 |字号大中小订阅 用微信“扫一扫” 将文章分享到朋友圈。 用...

    用FastQC检查二代测序原始数据的质量  

    2013-01-28 21:28:10|  分类: Bioinformatics |  标签:bioinformatics  deep-seq   |举报 |字号 订阅

      下载LOFTER 我的照片书  |
     
     
    当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量。常用的工具就是fastqc (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)。fastqc的详细使用说明:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/
    我们在服务器上用命令行来运行fastqc: fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN -o用来指定输出文件的所在目录,注意是不能自动新建目录的。输出的结果是.zip文件,默认自动解压缩,命令里加上 --noextract则不解压缩。 -f用来强制指定输入文件格式,默认会自动检测。-c用来指定一个contaminant文件,fastqc会把overrepresented sequences往这个 contaminant文件里搜索。 contaminant文件的格式是"Name\tSequences",#开头的行是注释。加上 -q 会进入沉默模式,即不出现下面的提示: Started analysis of target.fq Approx 5% complete for target.fq Approx 10% complete for target.fq 如果输入的fastq文件名是target.fq,fastqc的输出的压缩文件将是target.fq_fastqc.zip。解压后,查看html格式的结果报告。结果分为如下几项:
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志 结果分为绿色的"PASS",黄色的"WARN"和红色的"FAIL"。“You should treat the summary evaluations therefore as pointers to where you should concentrate your attention and understand why your library may not look random and diverse. ”
    1 Basic statistics 如下面例子所示:
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
    2 Per base sequence quality quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。图像如下面例子:
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
    横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。 若任一位置的下四分位数低于10或中位数低于25,报"WARN";若任一位置的下四分位数低于5或中位数低于20,报"FAIL".
    3 Per Sequence Quality Scores 每条reads的quality的均值的分布:
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
    横轴为quality,纵轴是reads数目。当出现上图的情况时,我们就会知道有一部分reads具有比较差的质量。 当峰值小于27(错误率0.2%)时报"WARN",当峰值小于20(错误率1%)时报"FAIL"。
    4 Per Base Sequence Content 对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布:
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
    横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。 当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。
    5 5 Per Base GC Content 对所有reads的每个位置,统计GC含量。
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
    如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。 当任一位置的GC含量偏离均值的5%时,报"WARN";当任一位置的GC含量偏离均值的10%时,报"FAIL"。
    6 Per Sequence GC Content 统计reads的平均GC含量的分布。
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
    红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。 偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"。
    7 Per Base N Content 当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率:
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
    正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报"WARN";当任意位置的N的比例超过20%,报"FAIL"。
    8 Sequence Length Distribution reads长度的分布。
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
    当reads长度不一致时报"WARN";当有长度为0的read时报“FAIL”。
    9 Duplicate Sequences 统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication)。
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
    横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~20%的reads是观察到两个重复的,~7%是观察到三次重复的,依此类推。 可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。重复数目大于等于10的reads被合并统计,这也是为什么我们看到上图的最右侧略有上扬。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。 当非unique的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL“。
    10 Overrepresented Sequences 如果有某个序列大量出现,就叫做over-represented。fastqc的标准是占全部reads的0.1%以上。和上面的duplicate analysis一样,为了计算方便,只取了fq数据的前200,000条reads进行统计,所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了 -c contaminant file出现的over-represented sequence会从contaminant_file里面找匹配的hit(至少20bp且最多一个mismatch),可以给我们一些线索。 当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报”FAIL“。
    11 Overrepresented Kmers 如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话,fastqc将其记为over-represented k-mer。默认的k = 5,可以用 -k --kmers选项来调节,范围是2-10。出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer被认为是over-represented。fastqc除了列出所有over-represented k-mers,还会把前6个的per base distribution画出来。
    用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
    当有出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer时,报”WARN“;当有出现频率在某位置上10倍于期望的k-mer时报"FAIL"。
     
    参考:http://www.plob.org/article/5987.html
    http://yanshouyu.blog.163.com/blog/static/214283182201302835744453/

    转载于:https://www.cnblogs.com/yqsun/p/5821917.html

    展开全文
  • 一.FastQC 安装 $ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip $ unzip fastqc_v0.11.7.zip $ cd fastqc $ chmod 744 fastqc # 将 fastqc 设置为可执行程序 ↑ or ↓ $ ...

    一.FastQC 安装

    $ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
    $ unzip fastqc_v0.11.7.zip
    $ cd fastqc
    $ chmod 744 fastqc
    # 将 fastqc 设置为可执行程序 ↑ or ↓
    $ chmod u+x fastqc
    

    基础质量控制

    # -o output_dic -t -thread
    $ fastqc -o output_dic -t num_thread reads.fastq

    质量控制结果 简要说明:

    Basic Statics 序列基本信息:
    文件名, 文件类型,文件编码信息(phred33/64), 实际总序列条数, 序列长度
    Per Base Sequence Quality: 每个碱基位置序列质量信息,标题为 fastQ 文件使用的质量编码信息
    Per Sequence Quailty Score: 查看序列子集是否存在普遍低质量
    长时间运行会导致质量下降 --> 质量修整
    Per Base Sequence Content: 每个碱基位置的 AGTC 比例:
    过度表达 --> 衔接子二聚体, rRNA
    Biased Composition Libraries: 某些文库固有的偏向它们的序列组成, 如被 Na2SO3 处理的序列, 大量 C 突变为 T
    Per Sequence GC content::测量每个序列的全长 GC 含量,与 GC 正态分布建模进行比较
    锐利峰:特定污染物
    扁平峰:多种污染
    Per Base N content:当测序仪无法充分置信地识别碱基位点的碱基时,产生N。计算每个位点的 N 数目
    warning 可能代表质量普遍下降,检查特定bin中覆盖分布,可能最后一个bin中包含的序列很少,产生错误
    可能是早期少数位置上高比例的N,总体质量较好,序列组成非常偏向碱基测序仪偏差
    Sequence Length Distribation:计算所有序列长度分布
    一些高通量测序仪产生长度一致的片段,但其他序列片段可能含有大量不同的读书
    即使长度统一,一些管道也会调整序列,从最后删除质量差的 base call.
    警告十分正常,可忽略
    Daplicate Sequence:计算每个序列的重复程度
    PCR
    RNA-seq 过度排列高表达的转录物
    chip-seq 受限制的起始位点(无影响)
    Overrepresented:有无过表达序列
    Adapter Content:对文本库中所有Kmers进行通用分析,以查找哪些在阅读时无法覆盖的内容,查找Adapter
    每个碱基位点已看到的每个Adapter序列的文库比例
    Kmer Content:计算每个重复段序列出现的次数
    如果序列质量很差的序列很长,那么随机序列错误率就会大大增大,减少完全重复序列的计数
    如果序列中出现了子序列重复,那么这将不会被Per base content plot of the duplicate sequence analysis 察觉
    Per Tile Sequence Quality:显示每个 tail 的测序质量。
    冷色 高于平均质量
    热色 低于平均质量
    可能仅仅是某个特定时间触发
    出现大面积热色 --> 事件遍布流通池

    命令行参数说明

    fastqc [-o output dir] [ -(no) extract] [-f fastq | bam | sam] [-c 污染文件] seqfile1 | 

     

     

     

    展开全文
  • fastqc使用

    万次阅读 2016-09-27 15:07:20
    A quality control tool for high throughput sequence data....fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN -o用来指定输出文件的所在目

    A quality control tool for high throughput sequence data.高通量测序数据的质量检测工具。

    fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

    -o用来指定输出文件的所在目录,注意是不能自动新建目录的。输出的结果是.zip文件,默认自动解压缩,命令里加上--noextract则不解压缩。-f用来强制指定输入文件格式,默认会自动检测。-c用来指定一个contaminant文件,fastqc会把overrepresented sequences往这个
    contaminant文件里搜索。contaminant文件的格式是"Name\tSequences",#开头的行是注释。加上 -q 会进入沉默模式,即不出现下面的提示:
    Started analysis of target.fq
    Approx 5% complete for 
    target.fq
    Approx 10% complete for 
    target.fq


    如果输入的fastq文件名是target.fq,fastqc的输出的压缩文件将是target.fq_fastqc.zip。解压后,查看html格式的结果报告

    ——————————————————————————————————————————————————————————————————————————————————————————————————————

    我的运行:

    $ fastqc 1.fa 2.fa

    运行结束之后,用winSCP将文件夹传输到windows上面查看网页。

    一般主要的是这个图片,如果集中在绿色部分说明质量比较高,可以使用这个转录组数据。




    ——————————————————————————————————————————————————————————————————————

    下面的图明显质量更高!


    A quality control tool for high throughput sequence data.
    展开全文
  • 当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量。常用的工具就是FastQC

        当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量。常用的工具就是FastQC。

        FastQC的官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

        FastQC的下载地址:http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc




        选择最新版本下载,地址为:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip




        linux命令:nohup wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip  1>fastqc.o 2>fastqc.e

        得到压缩包:fastqc_v0.11.5.zip  

        解压:unzip fastqc_v0.11.5.zip





        进入FastQC

        查看help文档:fastqc -h

        增加可执行权限:chmod 754 fastqc

        无需编译,直接运行

        运行命令:fastqc -f fastq -o result/ clean_r1.fq clean_r2.fq




    展开全文
  • FastqC结果简介

    万次阅读 多人点赞 2017-12-20 22:52:09
    拿到原始数据后我们采用fastqC程序进行质控,看原始数据质量情况,fastqC会生成一个html结果报告,根据图形化界面,...当出现黄色时说明需要查看结果。 Basic statistics是该fastq一些基本信息,主要有 Filename
  • linux入门学习1之FastQC

    千次阅读 2018-04-09 14:38:27
    #FastQC参数说明 # fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN # 主要是包括前面的各种选项和最后面的可以加入N个文件 # -o --outdir FastQC生成...
  • FastQC安装以及试用

    2021-10-05 14:34:09
    使用FastQC需要先有java的环境,在Ubuntu中先使用wget获取安装包(https://download.oracle.com/java/17/latest/jdk-17_linux-x64_bin.tar.gz)。 解压之后需要配置环境变量,用自己的安装路径设置JAVA_HOME。 ...
  • do nohup fastqc $id & done 但是如果文件数量过多,且内存不足的话可能会出现错误,这时候运行目录下会出现形如hs_err_pid50531.log的文件。 这种时候就需要限制运行的线程数量了: ls *fastq.gz | xargs fastqc -...
  • FastQC结果解读

    千次阅读 2021-02-10 10:44:22
    10.Adapter Content 横轴表示碱基位置,纵轴表示百分比 当fastqc分析时没有选择参数-a adapter list时,默认使用图例中的4种通用adapter序列进行统计。 若有adapter残留,后续必须去接头 本文参考: FastqC结果简介...
  • fastqc无法使用,求助

    2019-04-01 22:26:24
    按照别人的博客下载安装了java和fastqc,但fastqc总是报错,显示错误:bad interpretor:no such file or directo![图片说明](https://img-ask.csdn.net/upload/201904/01/1554128755_528545.png) ry
  • fastqc出现错误

    千次阅读 2019-10-04 20:49:00
    conda install fastqc 很顺利 输入 fastqc 结果 Exception in thread "main" java.awt.HeadlessException: No X11 DISPLAY variable was set, but this program performed an operation which requires it...
  • fastqc

    2019-01-21 12:05:00
    fastqc用于查看测序数据的质量。 1.下载: http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip ...
  • FastQC 与 质控

    2021-10-13 14:44:38
    1.FastQC的作用 在建库过程或者在测序仪测序中存在的数据问题或者数据偏移问题,从而得到QC报告 drop down selector FastQC官方教程
  • 由于之前的HPC太难用了,所以决定搬家到十楼的工作站,于是就免不了配置必要的工作环境,其中一个少不了要安装的软件是就是fastqc,因为它太常用了。我先是用conda安装,因为conda实在是太方便了,于是命令行:conda...
  • FastQC——测序数据质量分析

    千次阅读 2018-11-23 12:08:39
    下载安装与配置 cd ~ wget ...unzip fastqc_v0.11.3.zip cd FastQC/ sudo gedit /etc/profile 添加文件末尾并保存: export PATH=/home/WANGLAILAI_ubuntu...
  • FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估,得到多个测序数据的质量参数,让我们对测序数据质量有个初步的认识,从而判断后续的质控如何进行。FastQC的下载与安装1、安装路径cd /data/hushy/...
  • 155) at uk.ac.babraham.FastQC.Analysis.AnalysisRunner.run(AnalysisRunner.java:110) at java.lang.Thread.run(Thread.java:748) 这里有几篇文章说明如何解决的,但是我后来直接从官网下载了压缩包。然后解压就...
  • Fastqc官网:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ 正确命令 fastqc --noextract 201645A_200048_1_S1_L001_R1_...1. windows系统使用Fastqc最基本的使用方式,一种交互式界面,使用非常简
  • FastQC是一款基于Java的软件,一般都是在linux环境下使用命令行运行,它可以快速多线程地对测序数据进行质量评估(Quality Control),其官网地址为:Babraham BioinformaticsFastQC的下载和安装,和一般的Java软件...
  • 数据的质量控制软件——fastQC

    千次阅读 2018-09-28 00:00:00
    更多详细信息参考fastQC使用说明:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ 猜你喜欢 10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑 系列教程:微生物组...
  • 今天开始学习使用FastQC软件对范例SRA测序文件的质量进行分析。数据质控是一个综合的评价标准,其中主要指标为碱基质量与含量分布,如果这两个指标合格,后面大部分指标都可以通过;如果这两项不合格,其余都会受到...
  • fastQC

    2015-11-13 16:58:00
    Fastqc用途 FastQC aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing pipelines. It provides a modular set of analyses which...
  • FastQC 测序质量

    2019-09-23 19:38:49
    FastQC使用 FastQC的安装介绍请看这里。FastQC 支持 fastq、gzip 压缩的 fastq、SAM、BAM 等格式,在不指定文件类型的情况下,FastQC 会根据文件的名字来推测文件的类型: 以 .sam 或者 .bam ...
  • FastQC结果详解

    2019-01-15 14:03:00
    当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报"WARN";当任意位置的N的比例超过20%,报"FAIL"。 8 Sequence Length Distribution reads长度的分布。     ...
  • fastqc v0.11.8

    千次阅读 2018-10-09 16:29:43
    作用 质量分析 下载安装 官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc unzip fastqc_v0.11.8.zip ...echo 'export PATH=/home/li.han/Softwares/FastQC:$PATH' >> ~/.bas...
  • Fastqc 1、可直接对.fq.gz压缩文件操作 2、结果默认路径生成在同文件的目录下,生成的文件夹为XX_fastqc,里面有fastqc_data.txt , fastqc_report.html等重要文件 3、可生成在指定的文件夹(应该说是路径吧),需要...
  • 开启X11Forward,飞速打开fastqc的html质控文件 注:本文章图片显示异常,在微信公众号平台可以看到有图片的完整版: https://mp.weixin.qq.com/s/RhrGaap22lr2XYA4waV7nA 写在前面: 零基础自学生信,小白经验分享...

空空如也

空空如也

1 2 3 4 5 ... 14
收藏数 277
精华内容 110
关键字:

fastqc使用说明

友情链接: dddddddriji.ZIP