精华内容
下载资源
问答
  • 使用高通量测序读数识别微转化
  • 高通量测序下机第一步必备利器,检查reads质量,制定质控策略
  • 高通量测序研究西双版纳植物叶际真菌种群,阚望,许姗姗,为探明西双版纳植物叶际真菌多样性,应用高通量测序分析方法,对7个随机调查采样点39个植物样品进行检测,共获得9,178,355对 Reads,每�
  • 用于处理高通量测序实验的实用程序
  • 什么是高通量测序高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术...

    什么是高通量测序?高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

    什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
    什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。

    什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。

    什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

    什么是mRNA测序 (RNA-seq) 转录组学(transcriptomics)是在基因组学后新兴的一门学科,即研究特定细胞在某一功能状态下所能转录出来的所有RNA(包括mRNA和非编码RNA)的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计,可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。

    什么是small RNA测序 Small RNA(micro RNAs、siRNAs和 pi RNAs)是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后,利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析,可以从中获得物种全基因组水平的miRNA图谱,实现包括新miRNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。

    什么是miRNA测序 成熟的microRNA(miRNA)是17~24nt的单链非编码RNA分子,通过与mRNA相互作用影响目标mRNA的稳定性及翻译,最终诱导基因沉默,调控着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序,可以一次性获得数百万条microRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异,为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。

    什么是Chip-seq 染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

    什么是CHIRP-Seq CHIRP-Seq( Chromatin Isolation by RNA Purification )是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针,把目标RNA拉下来以后,与其共同作用的DNA染色体片段就会附在到磁珠上,最后把染色体片段做高通量测序,这样会得到该RNA能够结合到在基因组的哪些区域,但由于蛋白测序技术不够成熟,无法知道与该RNA结合的蛋白。
    什么是RIP-seq RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术,是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

    什么是CLIP-seq CLIP-seq,又称为HITS-CLIP,即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitation and high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段,经添加接头、RT-PCR等步骤,对这些分子进行高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。

    什么是metagenomic(宏基因组): Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:(1)微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;(2) Metagenomics研究无需分离单个细菌,可以研究那些不能被实验室分离培养的微生物。宏基因组是基因组学一个新兴的科学研究方向。宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中,DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。什么是SNP、SNV(单核苷酸位点变异)
    单核苷酸多态性singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。 个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。

    什么是INDEL (基因组小片段插入) 基因组上小片段(>50bp)的插入或缺失,形同SNP/SNV。

    什么是copy number variation (CNV):基因组拷贝数变异基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。

    什么是structure variation (SV):基因组结构变异 染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosome trans-location)等。一般SV的展示利用Circos 软件。

    什么是Segment duplication 一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上,有很大的SD序列。

    什么是genotype and phenotype 既基因型与表型;一般指某些单核苷酸位点变异与表现形式间的关系。

    什么是Read? 高通量测序平台产生的序列标签就称为reads。

    什么是soft-clipped reads 当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

    什么是multi-hits reads 由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。

    什么是Contig? 拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。

    什么是Scaffold? 基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

    什么是Contig N50? Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3…………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

    什么是Scaffold N50? Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3…………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

    什么是测序深度和覆盖度? 测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X(那么就是说该样本的基因组上每一个单碱基平均被测序或者说读取了10次,注意,是平均),那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

    什么是RPKM、FPKM RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。如果对应特定基因的话,那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的readTotal exon reads:This is the number in the column with header Total exonreads in the row for the gene. This is the number of reads that have beenmapped to a region in which an exon is annotated for the gene or across theboundaries of two exons or an intron and an exon for an annotated transcript ofthe gene. For eukaryotes, exons and their internal relationships are defined byannotations of type mRNA.映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。Exonlength: This is the number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping exons will count with their full length, even though theyshare the same region.外显子的长度。计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places (below the limit set in thedialog in figure18.110) that have been allocated tothis gene’s region. A gene’s region is that comprised of the flanking regions(if it was specified in figure 18.110), the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample (you can find the number in the RNA-Seq report).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM为:109*1000(reads个数)/106(总reads个数)5000(外显子长度)=200或者:1000(reads个数)/1(百万)5(K)=200这个值反映基因的表达水平。FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是reads。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。

    什么是转录本重构 用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。

    什么是genefusion 将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。

    什么是表达谱基因表达谱(geneexpression profile):指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱

    什么是功能基因组学 功能基因组学(Functuionalgenomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析,新的技术应运而生,包括基因表达的系统分析(serial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragmentsdisplay。

    什么是比较基因组学 比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。

    什么是表观遗传学表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。

    什么是计算生物学 计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。

    什么是基因组印记 基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。

    什么是基因组学 基因组学(英文genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。

    什么是DNA甲基化 DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5’碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。

    什么是基因组注释 基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

    展开全文
  • Savant(高通量测序数据的基因组浏览器).rar
  • 拉纳塞克 位置分析网络在高通量测序中的应用
  • 高通量测序数据质控神器Trimmomatic

    千次阅读 2019-03-19 08:24:46
    高通量测序下机的原始数据中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。Trimmomatic就是一个高通量测序数据质控...

    简介

    高通量测序下机的原始数据中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。Trimmomatic就是一个高通量测序数据质控神器,可以对测序数据进行过滤。

    Trimmomatic 支持多线程,处理数据速度快,主要用来去除 Illumina 平台的 Fastq 序列中的接头,并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式,分别对应 SE(单末端测序模式) 和 PE(双末端测序模式) 测序数据,同时支持 gzip 和 bzip2 压缩文件。另外,也支持 phred-33 和 phred-64 格式互相转化。

    准备

    下载测试数据

    $ curl -O ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/ERR/ERR571/ERR571271/ERR571271.sra
    

    将 sra 文件转换成 fastq 文件

    为了将sra文件转换成fastq格式,我们需要使用 fastq-dump 工具,这个工具被打包在 sratoolkit 工具包中。

    sratoolkit 工具包下载地址

    https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

    Linux环境可以执行选择下面地址直接下载并解压安装

    # CentOS
    $ wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz
    # Ubuntu
    $ wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz
    
    $ tar zxvf sratoolkit.2.9.2-centos_linux64.tar.gz
    

    将 sra 文件转换成 fastq 文件

    ./sratoolkit.2.9.2-centos_linux64/bin/fastq-dump --split-files ERR571271.sra
    

    解压后产生 ERR571271_1.fastq 和 ERR571271_2.fastq 文件。

    下载 Docker 镜像

    为了测试方便,这里没有从源码进行编译,而是直接使用的 Docker 容器来做测试。

    为了从 quay.io 获取 spades 镜像,需要先注册一个账号,注册比较简单,就是填个表格就行了。

    $ sudo docker login quay.io
    
    $ sudo docker pull quay.io/biocontainers/trimmomatic:0.38--1
    

    运行 Docker 容器

    在上面下载的数据文件同级目录下运行下面命令来启动一个容器,且后续的测试命令都需要在此容器里运行。

    # 启动一个容器
    $ sudo docker run -it --rm -v `pwd`:/trimmomatic quay.io/biocontainers/trimmomatic:0.38--1 bash
    
    # 运行一下trimmomatic命令验证容器可用
    $ trimmomatic
    

    运行

    $ cd /trimmomatic
    $ trimmomatic PE \
      -phred33 \
      /trimmomatic/ERR571271_1.fastq /trimmomatic/ERR571271_2.fastq \
      /trimmomatic/ERR571271_1_paired.fq /trimmomatic/ERR571271_1_unpaired.fq \
      /trimmomatic/ERR571271_2_paired.fq /trimmomatic/ERR571271_2_unpaired.fq \
      ILLUMINACLIP:/usr/local/share/trimmomatic-0.38-1/adapters/TruSeq3-PE.fa:2:30:10 \
      LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 HEADCROP:8 MINLEN:36
    
    TrimmomaticPE: Started with arguments:
     -phred33 /trimmomatic/ERR571271_1.fastq /trimmomatic/ERR571271_2.fastq /trimmomatic/ERR571271_1_paired.fq /trimmomatic/ERR571271_1_unpaired.fq /trimmomatic/ERR571271_2_paired.fq /trimmomatic/ERR571271_2_unpaired.fq ILLUMINACLIP:/usr/local/share/trimmomatic-0.38-1/adapters/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 HEADCROP:8 MINLEN:36
    Using PrefixPair: 'TACACTCTTTCCCTACACGACGCTCTTCCGATCT' and 'GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT'
    ILLUMINACLIP: Using 1 prefix pairs, 0 forward/reverse sequences, 0 forward only sequences, 0 reverse only sequences
    Input Read Pairs: 1812467 Both Surviving: 1557974 (85.96%) Forward Only Surviving: 248988 (13.74%) Reverse Only Surviving: 3135 (0.17%) Dropped: 2370 (0.13%)
    TrimmomaticPE: Completed successfully
    

    参数说明:

    • PE/SE - 设定对Paired-End或Single-End的reads进行处理,其输入和输出参数稍有不一样。
    • threads - 设置多线程运行数
    • phred33 - 设置碱基的质量格式,可选pred64
    • ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 - 切除adapter序列。参数后面分别接adapter序列的fasta文件:允许的最大mismatch数:palindrome模式下匹配碱基数阈值:simple模式下的匹配碱基数阈值。
    • LEADING:3 - 切除首端碱基质量小于3的碱基
    • TRAILING:3 - 切除尾端碱基质量小于3的碱基
    • SLIDINGWINDOW:4:15 - 从5’端开始进行滑动,当滑动位点周围一段序列(window)的平均碱基低于阈值,则从该处进行切除。Windows的size是4个碱基,其平均碱基质量小于15,则切除。
    • MINLEN:50 - 最小的reads长度
    • CROP: - 保留reads到指定的长度
    • HEADCROP: - 在reads的首端切除指定的长度
    • TOPHRED33 - 将碱基质量转换为pred33格式
    • TOPHRED64 - 将碱基质量转换为pred64格式
    展开全文
  • NGS基础 - 高通量测序原理 原创:赑屃生信宝典2017-07-23 NGS系列文章包括NGS基础、转录组分析、ChIP-seq分析、DNA甲基化分析、重测序分析五部分内容。 NGS基础系列文章包括高通量测序原理,测序数据获取和...

    NGS基础 - 高通量测序原理

    NGS系列文章包括NGS基础、转录组分析、ChIP-seq分析、DNA甲基化分析、重测序分析五部分内容。

     

    NGS基础系列文章包括高通量测序原理,测序数据获取和质量评估,常见文件格式解释和转换4部分。

     

    本文 (高通量测序原理) 涉及测序文库构建原理、连特异性文库的构建方式和识别方法、测序簇生成过程、双端测序过程、测序接头产生、PCR duplicate、测序通量选择标准等。

     

    转载于:https://www.cnblogs.com/wangprince2017/p/9818071.html

    展开全文
  • 首先明确单细胞测序技术不一定是高通量的,有单细胞测序技术,高通量测序技术,包括高通量测序技术在内的所有高通量技术,用于单细胞测序的高通量技术。 如果我们要从技术层面理解单细胞测序并分析其优势,就必然绕...

    首先明确单细胞测序技术不一定是高通量的,有单细胞测序技术,高通量测序技术,包括高通量测序技术在内的所有高通量技术,用于单细胞测序的高通量技术。

    如果我们要从技术层面理解单细胞测序并分析其优势,就必然绕不开对“单细胞测序”“高通量技术”等概念的准确的把握。我们必须搞清楚,当一种技术前面带了“单细胞”(Single-cell)或“高通量”(High-throughput)的字眼时,它们分别代表了什么。

    单细胞,就是单个(仅一个)细胞的意思。针对单个细胞展开的分析统称为单细胞分析(Single-cell analysis),针对单个细胞进行的测序就是单细胞测序(Single-cell sequencing),如果是对多个细胞或者一群细胞的测序,就不是单细胞测序。比如面向大众的那种测着玩儿的基因测序,一般是取待测者的血液,做简单的处理后就直接提取某些DNA片段。至于提取到的是这一个白细胞里的,还是那个白细胞的,又或是血液中的游离DNA,就无从而知了。又比如一般的肿瘤研究,通常是对肿瘤组织分离出来的为数不少的肿瘤细胞测序。单细胞测序是一种特殊的测序;目前,大部分的测序都不是单细胞层面上的测序。
    在这里插入图片描述

    高通量又是什么意思呢?通量,你可以理解为一次实验时独立的、平行的反应的数目。这些反应是在不同的容器或反应器里的,彼此独立,互不干扰;但又是在相同的环境里同时(或几乎同时)进行的,所以说是平行的。假设我们对细胞进行分析,下图中的试剂与细胞中的某种成分进行反应。
    在这里插入图片描述

    (为了方便,只画了28个平行反应,实际上在高通量技术领域,28的通量实在不算高。)
    高通量技术存在的意义,我认为主要在于它有效地节省了某个实验对人力物力财力的耗费。另外,同样的反应同时展开三个以上,可以消除随机性对反应结果的影响,从而得到较为严谨的反应结果。

    比较原始的实现高通量的方式,是实验室苦力们用双手操作移液枪,在96孔板或384孔板里加各种试剂。但手动操作的局限性很大,速度也很有限。很有可能加到第100个反应的时候,第100个反应刚开始,第1个反应已经结束了。这样,这两个反应还能称得上是平行的吗?手动操作达不到很高的通量,于是高通量技术逐渐地向机械化、自动化的方向发展。市面上也早已有不少的液体操作机器人或点样仪。它们就具备这样的能力。
    在这里插入图片描述
    右图是96孔板,有这种底的,也有圆柱体、平底的。

    高通量技术是一种具有普适性的、应用范围(可以)很广的技术。理想状况下,未来很多的实验,尤其是生命科学领域那种涉及大量的加液、加液、加液的重复性操作的实验都应该往高通量的方向发展,这样可以解放科研工作者的双手,让他们把精力留给思考,和真正的科研。就先不提测序,举个例子,高通量筛选(High-throughput screening,HTS)。

    高通量筛选技术在药物筛选领域有着不可忽视的应用价值。要知道,一种药物从合成到真正应用到临床的周期有多么漫长。在应用到人体之前,药物不仅要经过分子层面的表征,还需要通过细胞实验和动物实验。细胞实验时,不仅要对药的效果进行验证,对药物本身进行筛选,还需要在众多条件中筛选出最佳的给药条件。这个过程非常地laborious,也非常地昂贵。高通量筛选技术可以缩短筛选所需的时间,提高筛选效率。比如要从含有300种分子的文库(library)中筛选出真正有效的药物。如果高通量技术能同时进行900个平行反应(每种分子对应3个反应),那么,筛选就可以一次完成。
    在这里插入图片描述

    高通量测序(High-throughput sequencing) 二代测序(Next-generation
    sequencing)是目前最常用的测序技术,像Illumina的那些测序仪的测序原理就属于二代测序的范畴。二代测序是在人类基因组计划(Human
    genome project,HGP)的背景下发展起来的,是大规模平行的(Massively parallel),寄托了人们对 $1,000
    genome(把一个人类个体的全基因组测序费用降低到1000美元)的期望。二代测序基本上等同于高通量测序,其最大的意义与其他高通量技术的意义相统一,就是大幅度降低成本,提高效率。
    不同的二代测序技术实现高通量的方式有所不同。比如,454测序技术[1](后被罗氏收购,现已淘汰)把DNA碎片化,得到DNA片段(DNA
    fragments)并使之变为单链之后,用磁珠捕获这些DNA片段,确保one fragment per
    bead。然后将这些磁珠包裹到含有PCR试剂的液滴中,进行PCR反应,以扩增磁珠上的DNA片段。由于液滴是由油相间隔开的,互不干扰,因此液滴相当于是微反应器(容纳PCR反应的微型容器),而这样的基于液滴的PCR反应是高通量的(不同液滴中的PCR反应是独立、平行的反应)。液滴中扩增的DNA片段也被捕获在磁珠上。之后,该测序方法会使液滴破裂,收集所有的磁珠,并将磁珠分散到不同的微坑之中,对这些磁珠进行同时的、高通量的测序。
    在这里插入图片描述
    而目前最常用的Illumina测序仪所采用的Solexa测序技术与之不同,不需要用到磁珠,过程相对简单。它会事先地在芯片内通道的底部修饰两种被称作接头(Adapter)的寡核苷酸,其分别与DNA片段两端接上的两段核苷酸互补。然后进行桥式PCR,在这种扩增方式中,以待测DNA片段为模板合成的DNA链由于离通道底部较远的一端与附近的接头互补,会向该接头弯曲,并形成“一座桥”(桥式扩增以此得名),然后DNA聚合酶以这座桥为模板形成新的链。这样的过程不断重复,最后成簇。由于桥式扩增里,某一条DNA链只能和最近的接头形成“桥”,所以这些以同一条DNA链为模板合成的DNA链只会局限在局部,形成密密的一小撮,所以说是“成簇”。不同的待测DNA链在不同的位置形成不同的簇(Cluster),起到了聚集并放大信号的作用。
    在这里插入图片描述
    Illumina测序的桥式扩增

    单细胞测序(Single-cell sequencing)
    由于高通量测序是目前最常用的测序技术,单细胞测序用的测序技术自然也以高通量测序技术为主。然而,单细胞测序并不在高通量测序技术及其测序仪上做文章,它的难点以及和普通测序的不同之处主要在于测序前的前处理,包括单细胞的捕获,目标DNA/RNA的提取,微弱信号的放大(即极少量DNA链的扩增)等等
    难点1:单细胞捕获。如何将细胞分散到独立的容器或反应器中去,让它们彼此独立,互不干扰?
    难点2:目标DNA/RNA的提取。提取不是问题。问题在于,提取时怎样让待测DNA或RNA带上不同的标记,以便测序完了以后还能分辨出来哪些序列是属于同一个细胞的?
    难点3:信号放大。实际测序时,裂解一群细胞所得到的待测DNA含量都是很低的。目前的测序都含有PCR扩增这一步,而且这一步显得相当重要。更何况是一个细胞?一个细胞中的DNA或RNA简直太少了,稍一操作就可能丢失。怎么样能尽量地减少样品损失和扩增时发生的偏移和错误呢?


    我个人的研究方向是微流控(Microfluidics)。微流控技术具有精确操控微量液体的能力,是一种适合应用于单细胞分析领域、而且已经在这方面体现了自身价值的技术。就在这个问题提出之后,没过多少天,2015年5月21日,同一期Cell上发表了两篇相似的、利用微流控技术来实现单细胞捕获的文章[2,3]。它们均采用了微流控领域中经典的十字形通道构型。如Drop-seq(下图左),在主通道内引入了含有磁珠和逆转录所需试剂的溶液,与之垂直的第一组侧通道引入了细胞悬液,第二组侧通道则引入了与溶液不相溶的油相(如矿物油)。油相对水相的切割作用使溶液被“夹断”,从而形成球形的液滴。液滴对磁珠和细胞的包裹基于泊松分布的原理,也就是说,磁珠和细胞是随机地被包裹在液滴中的,但我们可以根据泊松分布,通过稀释磁珠悬液和细胞悬液的密度,以尽可能降低液滴包裹两个(或多个)细胞或两个(或多个)磁珠的概率,并达到较高的单磁珠单细胞的捕获概率。虽然这种捕获方式无法达到很高的捕获概率,但鉴于液滴生成的速度非常快(大于100,000/min),因此实现了非常高的通量。

    在这里插入图片描述

    液滴的角色是微反应器,你可以把这些不可计数的体积很小(纳升级)的液滴想象成是一种球形的、柔软的容器。只不过间隔这些容器的不是离心管壁,不是塑料,而是与液滴不相容的油。但这种“容器”毕竟没有那么稳定;而且向这些已经形成的液滴中加入其余新的试剂,那是一件非常难的事情。因此这里借助了磁珠的作用。磁珠上修饰了引物,引物上除了含有一段通用的PCR引物,还有一段cell barcode,即细胞标记(用来标记每个细胞的来源,不同的细胞有不同的barcode),同一个磁珠上的引物带有相同的cell barcode,而不同磁珠之间的barcode则是不同的。另外一段UMI(Unique molecular identifier),是用来标记分子的,每一条引物都有它特定的UMI(标记mRNA 用处:PCR扩增之前的重复需要保留,PCR扩增之后的重复需要去除。怎么实现呢?UMI(Unique Molecular Identifier)数字标签技术这时候就派上用场了,只要在PCR扩增之前给每个分子加上一个特有的标签,之后无论经过多少个循环的扩增,这个标签都一直伴随着同步进行复制,最后可以通过UMI的种类对真重复和假重复进行区分,从而达到去除扩增重复的目的)。
    当一个磁珠和一个细胞被包裹于一个液滴微反应器中,液滴中含有的细胞破膜剂使细胞破裂,释放其内容物,磁珠即捕获了该细胞的某些RNA。之后就只需取出这些磁珠,对这些磁珠进行逆转录、PCR扩增、测序等过程。由于每条分子都已经含有UMI和cell barcode,这些操作都可以用常规的方式,在离心管中统一进行。
    在这里插入图片描述
    这两篇是单细胞RNA测序,而单细胞DNA测序面临更严重的样品太少、容易损失的问题。单细胞DNA测序对于扩增方法的均匀性和准确性有更高的要求,在这方面微流控技术也发挥了它的作用。比如2015年9月发表在PNAS上的一篇文章[4],先是用显微操作取了一个细胞到小离心管里,使细胞裂解。然后也用十字形微流控通道使单细胞裂解产物生成液滴,并尽量保证每个液滴中含有0或1条DNA分子。将DNA分子分散到独立的液滴微反应器之后再进行的扩增反应具有更好的均匀性,更有利于单细胞全基因组测序。

    以上是背景。现在我再来正面回答一下这个问题。
    单细胞测序具有诸多的难点,涉及到一系列不同的技术,它更多地是代表了一种研究方向。我们只有在讨论某一项具体的技术或产品时才会去比较它的优势和劣势。
    对于单细胞测序,我们似乎更应该着眼于它的“研究意义”和“研究价值”。单细胞测序那么难做,为什么还要去做它呢?实际上,包括单细胞测序在内的单细胞分析的意义,现在还存有争议。我就认识一位老师,他不太认同单细胞分析的意义,觉得没必要对单个细胞进行如此深入的分析。但随着单细胞相关的研究越来越普遍,越来越深入,应该会有越来越多的人认可它的意义。

    单细胞测序的意义的根本在于细胞的异质性(Heterogeneity)。就是说,细胞与细胞之间存在个体差异性,即便是出于同一位置的细胞,也可能在基因表达等方面存在一些差异。对细胞群体的研究,只能得到这群细胞平均化的结果。而这结果是掩盖了细胞异质性的。两个具体的例子。
    一是细胞分类。那篇Drop-seq的切入点就是细胞分类系统。以往我们在对细胞进行分类时,往往依据的是细胞的空间位置、形态等特性,这种分类方式相当地简单粗暴。进行单细胞水平的RNA测序或DNA测序,有助于实现更为细致和严谨的细胞分类,尤其是对于比较复杂的组织,单细胞测序能促进人们更深入地了解细胞与细胞的功能。
    二是肿瘤相关的研究。现在一个认可度比较高的关于肿瘤转移的假说是,肿瘤上某些细胞会从原位脱落,进入血液循环,成为循环肿瘤细胞(Circulating tumor cells,CTCs)。有些CTCs可能会顺着血液流到某个器官,侵入血管,侵袭该器官,附着,增殖,长出新的肿瘤。那么,原来那颗肿瘤里哪些细胞会成为CTCs,而CTCs中哪些可以在血液循环中存活下来,并且完成肿瘤转移呢?这些具备超乎寻常的能力的CTCs和寻常的CTCs之间有什么区别?这就需要单细胞层面上的测序和其他相关研究了。
    目前,单细胞测序或其他的单细胞研究看似是不太“实用”的研究方向。但它代表着人们已经注意到了细胞的异质性,开始关注细胞个体而非群体,代表了一种更深入的视角,一种更精准地理解生命的可能性。仅从这个方向来想,其实,我就觉得它够有意义的了。

    参考文献:
    [1] M. Margulies, et al., Genome sequencing in microfabricated
    high-density picolitre reactors, Nature 437 (2005) 376–380. [2] Macosko, E.Z., et al., Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets. CELL, 2015.161(5): p. 1202-1214.
    [3] Klein, A.M., et al., Droplet Barcoding for Single-Cell Transcriptomics Applied to Embryonic Stem Cells. CELL,
    2015. 161(5): p. 1187-1201.
    [4] Fu, Y., et al., Uniform and accurate single-cell sequencing based on emulsion whole-genome amplification.
    PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES OF THE UNITED STATES
    OF AMERICA, 2015. 112(38): p. 11923-11928.编辑于 2019-08-12

    作者:董阿橘 链接:https://www.zhihu.com/question/30307493/answer/784368455
    来源:知乎

    展开全文
  • YAP(又一条管道) 还有一条管道 用于处理高通量测序数据的管道。 安装 操作系统支持: 苹果系统 Linux Windows-WSL 代码状态 仅检查程序和读取程序集功能有效。 其他一切都还坏了。
  • 相比一代测序(Sanger 测序法),高通量测序具有测序快的优点,基本原理是将基因组断成一百多个碱基的短片段,对短片段进行测序,然后序列拼接,但高通量测序准确性较低,测序结果要通过矫正来提高测序准确度,随着...
  • 高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字  摘 要: 高通量测序 (High-throughput Sequencing, HTS) 技术是继第一代测序技术之后发展起来的...
  • 基于高通量测序的中药制剂生物成分分析:六味地黄丸的故事
  • 高通量测序行业目前只有NIPT实现了正常的商业化,相关产品可以纳入分子诊断的产品端口径计算,但是因为2016年才开始实现商业化,目前相关公司并未明确披露该产品的收入规模,比如贝瑞和康、华大基因和达安基因等。...
  • FastQC是一种质量控制分析工具,旨在发现高通量测序数据集中的潜在问题。 它的目标是提供一种简单的方法来检查来自高通量测序管道的原始序列数据的质量。 它通过对一个或多个fastq或bam格式的原始序列文件运行一组...
  • 扩增子 高通量测序——扩增子测序,主要包括用于微生物组分析的16S、18S和ITS 16S 细菌16S相关分析代码
  • 利用高通量测序技术对阳极生物膜的微生物群落结构进行了分析.实验结果表明,高通量测序能够高效地获取电化学生物膜的群落结构信息,产电模式菌Geobacter属在生物膜中占据着优势地位,其数量比例达到30%左右,其次的主要...
  • 基于16S_rRNA高通量测序的西藏农牧区牦牛酸奶菌群多样性
  • 高通量测序最近这几年很火越来越火,但是世界上更多的还是一帮天天做分子克隆、养细胞、养细菌、杂蛋白的生物学家,究其原因Sanger测序还是测序届的金标准,由于精确度高于2、3代测序且保持大白菜价格使之地位稳固。...
  • 小RNA 高通量测序数据分析方法 NGS 非常好用 详细介绍了分析流程
  • 临床微生物高通量测序,主要有 4 个应用场景:感染病原识别、微生物组分析、人宿主免疫应答分析和肿瘤学分析。目的不同,采用的测序策略也不一样。1.感染病原识别临床微生物高通量测序,第一个重...
  • 我们收集了用于处理高通量测序数据的有用命令行工具。 概述 用于处理来自 Illumina 测序仪 ( illumina ) 的数据 执行 QC 和处理 NGS 数据( QC-pipeline ) 一般非生物信息学实用程序 ( utils )
  • 高通量测序数据分析:RNA-seq

    千次阅读 2020-06-20 15:50:56
    深度测序相关数据库与数据格式 SRA toolkit 一、NCBI 和EBI、DDBJ组成INSDC,数据内容相同所以找NCBI就行。...:收集整理各种表达芯片数据,后来加入了甲基化、lncRNA、miRNA、CNV等其他芯片,还有高通量测序数据...
  • 高通量测序(High throughput sequencing) 顾名思义,相较于常规测序技术,其通量有显著的提高。核心机理是采用高密度芯片实现并行测序技术,每个点就是一个测序反应。 高通量测序技术在精准医学中的应用 疾病...
  • 蒙古口蘑子实体下土壤真菌多样性的高通量测序分析,杨岳,魏杰,为了调查蒙古口蘑子实体下土壤真菌多样性,了解蒙古口蘑子实体下土壤真菌的群落组分与结构,本研究通过采集蒙古口蘑子实体下土壤
  • HTSlib是用于访问常见文件格式(例如的统一C库的实现,该文件格式用于高通量测序数据,并且是和使用的核心库。 HTSlib仅取决于 。 已知与gcc,g ++和clang兼容。 HTSlib实现了通用BAM索引,其文件扩展名为.csi ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 720
精华内容 288
关键字:

高通量测序