精华内容
下载资源
问答
  • Single-Read测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列。该方式建库简单,操作...

    单端测序(Single-read)与双端测序(Paired-End)

    一图看区别:

    两者区别
    总的来讲就是单端测序只从一侧读,而双端测序是两头同时读然后拼接

    • 单端测序(Single-read)

    Single-Read测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列。该方式建库简单,操作步骤少,常用于小基因组、转录组、宏基因组测序。

    测序的质量会随着测序的进行而下降,所以 reads 约往后面越不准确,单端测序下游质量会很差,所以就引入了双端测序可以大大提高测序的准确率。

    • 双端测序(Paired-End)

    通过构建Paired-end文库制备,指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。

    文库结构示例:

    在这里插入图片描述

    1. 为了两个方向上分别进行测序,就需要有两个不同方向的测序引物(下图 Rd1 SP 和 Rd2 SP);

    2. 为了区分两个方向的 reads,其中一个测序引物前面要添加一小段 index 序列进行标记。

    双端测序流程示例:

    在这里插入图片描述

    双端测序利用fastp一行命令出质控报告详见Linux下fastp的使用

    展开全文
  • 第三代基因测序技术又被为“Single Molecule Real Time (SMRT™) DNA Sequencing”(单分子实时DNA测序技术),该方法基于纳米孔的单分子读取技术,不需要扩增即可快速读取序列。目前,Pacific Biosciences公司已经...
    • 基本概念:
      • 第三代基因测序技术又被为“Single Molecule Real Time (SMRT™) DNA Sequencing”(单分子实时DNA测序技术),该方法基于纳米孔的单分子读取技术,不需要扩增即可快速读取序列。目前,Pacific Biosciences公司已经成功推出了商业化的第三代测序仪PacBio RS平台和PacBio Sequel平台
    • SMRT测序原理
      • 步骤1:将磷酸化核苷酸引入零模波导孔(ZMW)
      • 步骤2:核苷酸在检测体积中保持数十毫秒,当被光激发时发出荧光。 捕获的光将转换为具有相关质量指标的基本呼叫
      • 步骤3:聚合酶掺入核苷酸,释放出附着的染料分子
      • 步骤4-5:重复该过程
    • SMRTbell™模板介绍:
      • 结构线性
      • 拓扑圆形
      • 模板的结构同质性
      • 提供相同序列的正向和反向链序列
    • 测序优势
      • 边合成边读取数据
        • PacBio SMRT技术采用了边合成边测序的思想,使用4色荧光标记碱基;
      • 长读长
        • pacbio读长可以达到10Kb以上;其超长读长的关键在于使用了活性持久且高保真的DNA聚合酶,并以SMRT芯片为测序载体;可以减少拼接成本,节省内存和计算时间,可以用有限的覆盖度finishingGenome;
      • DNA不需要扩增无GC偏好性
        • DNA建库整个过程,不存在PCR扩增的情况,不会引入PCR扩增引起的GC偏好问题,对打限度的保证了读取信息GC比例的准确性
    • DNA质量要求
      • •必须为双链DNA(dsDNA)
      • •避免反复冻溶,未经高温处理(>65°C)
      • •DNA保存溶液pH在6-9之间,建议保存于弱酸性换环境;
      • •OD260/280 在 1.8~2.0、OD260/230在2.0~2.2之间
      • •澄清无色,无不溶物;
      • •无RNA的污染;
      • •DNA未接触过紫外、荧光燃料等可能损伤DNA 的环境和物质
      • •不含螯合剂(如EDTA)、二价金属阳离子(如Mg2+)、变性剂(如胍盐,苯酚)、去污剂(如SDS、Triton-X100、CTAB)
      • •DNA电泳条带单一,条带长度≥23kb,无明显降解
      • •Qubit 浓度: Nanodrop 浓度≥0.5(最好接近 1)
    • RNA质量要求
      • •浓度>300ng/ul
      • •完整性:RIN值≥8.0;28S/18S>1;基线无上抬或轻微上抬;5S峰正常;
      • •纯度:1.7 <OD260/280<2.2;OD260/230>0.5;260吸收峰正常不偏移;
      • •样品状态:送样粘稠、颜色异常、有浑浊或不溶物均不合格;
      • •电泳:无基因组污染;
      • •样品运送前保存在-80℃冰箱;
    • 合成工作流
      • 合成图
      • 建库流程图
        • 合成cDNA
        • 片段分区,PCR扩增
        • SMRTbell™ 成环
        • PacBio® RS II 测序
        • 数据分析
          • 原始数据
          • 清洁数据
          • 聚类
          • 生成转录本
          • 质量过滤
    • 测序应用
      • (1)全基因组denovo测序
      • (2)基因组草图的优化或基因组完成图绘制
      • (3)全长转录本测序
      • (4)宏基因组测序
      • (5)16SrDNA全长测序
      • (6)细胞器基因组测序
      • (7)全基因组重测序&稀有变异鉴定
      • (8)表观遗传学
    展开全文
  • 测序 软件工具包

    2013-06-28 16:41:42
    随着测序技术的持续革新,新一代测序技术的产生降低了测序成本并提高了测序通量,使得针对几百上千的样品进行DNA测序成为可能。其次当前模式作物和重要经济物种的基因组大多已经被测序,越来越多的科研人员转重测序...
  • 摘要:DNA 测序是生物信息学研究的重要内容之一,对测序序列的从头拼接是其中非常基础而重要 的步骤。随着测序技术的不断更新,新的第三代测序数据拥有更长的序列长度、高错误率等性质, 针对这些性质,同时使用二代...

    第二、三代基因组测序数据混合拼接软件综述

    王 昊1,陈 挺2* 
    (1.清华大学 计算机科学与技术系,北京 10084; 2.清华大学 计算机系、清华大学人工智能研究院,北京 10084) 
     
    摘要:DNA 测序是生物信息学研究的重要内容之一,对测序序列的从头拼接是其中非常基础而重要 的步骤。随着测序技术的不断更新,新的第三代测序数据拥有更长的序列长度、高错误率等性质, 针对这些性质,同时使用二代、三代测序数据进行混合拼接是获得更好的拼接结果一种重要方式。 本文介绍了现有的混合拼接软件的基本原理,并比较了不同软件拼接结果。最后,本文对选择拼接 软件以及提出新的混合拼接方法的研究方向给出了建议。 关键词:生物信息学;全基因组序列拼接;第三代测序技术;混合拼接; 中图分类号:TP391;TP301.6   文献标志码:A    文章编号:1672-5565(2020)04-000-00      Survey of computational methods for second- and third-generation sequencing hybrid assembly WANG Hao1, CHEN Ting2* 
    (1.Tsinghua University Computer Science and Technology, Beijing 100084, China;  2. Department of Computer Science and Technology & Institute for Artificial Intelligence, Tsinghua University, Beijing 100084, China) 
     
    Abstract:DNA sequencing is essential for Bioinformatics research, and de novo genome assembly is the first step toward characterization of microbial species. With the continuous development of sequencing technology, the new third-generation sequencing produces longer reads but with higher error rates than the second-generation sequencing. Based on these properties, combining second- and third-generation sequencing data for hybrid assembly promises to obtain better de novo assembly results. This article introduces the basic principles of state-of-the-art hybrid assembly methods and compares the assembly results of different software tools. Finally, this paper suggests selection of assembly software and proposes how to improve hybrid assembly approaches. Keywords: Bioinformatics; Whole genome assembly; Third-generation sequencing technology; Hybrid assembly 
     
    DNA 作为生物重要的遗传物质,一直被生物学家在不同层面进行深入研究。从发现 DNA 的结 构开始,人类通过研究复杂多样的基因组,在健康和疾病的研究中已取得了长足的进步。为了研究 DNA 序列,DNA 测序是必不可少的环节。由于现有技术仅能测得较短的 DNA 序列,因此将 DNA测序获得的读段(Read)进行从头拼接(De novo assembly)成为较长的重叠群(Contig)、进而拼装 成更长的骨架(Scaffold)、最终获得完整的基因组(Genome)一直是生物信息学的重要课题。而随 着测序技术的发展,测序试剂和仪器不断更新换代,测序的速度、价格,以及测序获得的读段在质 量、长度、碱基偏好等方面特性也有变化,针对新的测序数据设计更适应数据的拼装算法也是不断 推陈出新。 1977 年,由 Sanger 等人提出的链终止法测序方法开创了测序技术的先河[1],这种测序方法后来 通常被称为 Sanger 测序法,即第一代测序技术。第一代测序技术的主要特点是获得的读段序列长度 较长,通常可达 1 000 bp,准确性高,可达 99.999%,但是测序的成本比较高,通量也比较低。这些 特点决定了第一代测序技术通常被应用于长度较短,或者十分重要的基因组测序任务中。  为了解决第一代测序技术具有通量低、成本高的局限性, 454 焦磷酸测序[2],Rothberg [3]等测序 仪器相继诞生。这些新一代测序仪可以获得每次运行上百万上亿次读数的更高输出,但是读取长度 更短,最新一代的 Illumina 机器现在输出大约 250-300 bp 的高质量读数。这些测序技术现在被称为 第二代测序技术。第二代测序技术还包括 Ion Torrents 的 Ion Proton 测序仪。与 Sanger,454 和 Illumina 相比,这种技术不依赖于光学方法,可以使用购买成本较低的机器进行快速而便宜的测序。尽管第 二代测序仪具有高通量、相对便宜的价格,同时具有高质量的碱基和低错误率,但它们测得的读段 较短是主要问题。现在,第二代测序技术可以测得包括复杂的哺乳动物在内的绝大多数生物的基因 组,并保证成本控制在可接受的范围内。这意味着几乎所有生物的基因组都向人类打开了解码的道 路,并允许人们对这些基因组做进一步的分析。     随着技术的发展,第三代测序技术应运而生。由 Pacific Biosciences(PacBio)公司开发的测序 仪(如 RS I,RS II 和 Sequel 机器)使用单分子实时(SMRT)测序技术[2],而牛津纳米孔技术(ONT) 开发了用于纳米孔测序的装置[4]。 与第二代技术(如 454,Illumina,Ion Torrent)相比,这些第三 代测序方法在测序文库制备过程中不包括扩增步骤,因此能够进行单分子测序,去除了扩增过程带 来的偏倚(Bias)。此外,第三代测序技术预期的读段长度远远高于第二代技术,平均读段长度可以 超过 6-8 kbp,最大读段长度超过 30-150 kbp[5]。使用第三代测序长读段文库可以定向、排序、间隔 或连接基因组拼接中的重叠群,以提升这些基因组草图的质量。PacBio 的 SMRT 长读段已经证明在 解析长重复区域方面是有效的[6],并且可能成为原核生物基因组测序的金标准。此外,SMRT 长读段 已被用于解决黑猩猩[7]和人类[8]的复杂基因组区域。但是第三代测序仪的比较高的错误率决定了它们 还不能完全取代第二代测序测序平台。对于许多组学问题研究,比如宏基因组学,第二代技术至少 在未来几年仍将是最先进的技术[9]。 尽管从头拼接算法取得了长足的进展,但短读段或长读段技术的固有问题仍然阻碍了完整的基 因组的构建。一方面,由于第二代测序数据误差小,组装第二代测序数据集可以产生准确的重叠群, 但由于它们读段尺寸太小而无法识别更大的基因组重复序列。另一方面,由于第三代测序数据的长 度优势,纯第三代测序数据装配算法(例如 HGAP[7])可以轻松地解决较大的重复区域,但是为了 最小化错误率的影响以得到较高的准确率,需要巨大的测序深度。自第一个 SMRT 测序平台发布, 就出现了利用这两种测序方法的互补性产生各种组装混合数据集的想法以利用两者的混合拼接算法。
     1 现有拼接算法 
    尽管测序手段不断升级,但无论是二代测序数据拼接还是二三代混合拼接,对测序数据进行拼 接的算法思路是整体一致的。由于基因组中绝大部分的区域是没有互相重复的,所以通过比对读段 上的碱基序列,找到他们的重叠区域(Overlap),然后通过将这些读段通过重叠区域连接起来以得 到更长的序列,即重叠群(Contig)。 由于拼接得到的重叠群数量通常远多于实际的染色体数量,因 此需要第二阶段的拼接骨架以将部分碎片拼接为更长的序列。拼接骨架(Scaffolding)是将重叠群按 照正确的顺序和方向进行集合并进行连接的过程,其中间可能存在一些没有具体测序数据间隙(Gap) 以 N(即未知碱基)进行填充,最终得到的序列被称为骨架(Scaffold)。 通过包括对特定的一些间隙进行填充(Gap fill)等方式,对拼接得到的进一步进行基因组后处理(Genome finishing), 即可 以得到相应物种的基因组草图。 无论是将读段连接为重叠群,还是进一步的骨架拼接,都可以归纳为如下数学模型:在读段/重 叠群间重叠信息的约束条件下,确认所有读段/重叠群的顺序和方向。可以证明,确定所有读段/重叠 群的顺序等价于最优线性排列问题,这一问题是 NP 难的( NP-hard)[10]。因此,寻求最优解在计 算复杂度上目前而言是不可行的,拼接算法需要寻求某种近似解,以在合理的时间和空间复杂度下 获得准确可以率接受的解。现有的拼接算法大体可以按以下分类: 1.1 贪心法  贪心法【11】是最早采用于基因拼接算法的方法(见图 1)。贪心法的策略是选取某一问题的初始 解,然后选择最小代价的步骤,转移到下一个逼近最终目标的解,如此反复以达到最终目标或者其 他终止条件。在基因组拼接问题中,贪心法的具体步骤如下:首先选取一个读段作为初始重叠群, 然后寻找与当前重叠群重叠区域相似度得分最高的读段,与当前重叠群进行拼接,得到新的重叠群, 直到没有读段与当前重叠群足够相似。思路简单、复杂度低是贪心法的主要优势,但该方法只能找 到局部最优解。如何从局部最优逼近全局最优是该方法面临的主要挑战。使用这一方法的软件有 SSPACE 等。 
     
    图 1 贪心法图解 Fig. 1 The greedy method 注:由于测序误差、不同区域间的重复序列等原因,贪心法可能选择错误读段扩展. 1.2 OLC 算法 OLC 算法( Overlap-Layout-Consensus) [12]如其名字所示,主要可分为以下三个步骤:(1)Overlap: 对所有读段进行两两比对,找到读段间的重叠信息。但由于两两比对的复杂度太高,实际算法通常 先采取某种方式筛选可能比较相似的读段对,仅比较这些可能相似的读段,其余读段对相似度视为 0。 (2)Layout:根据得到的重叠信息将测序读段视为图上的点,读段间的相似关系视为连线,构建 OLC 图(见图 2)。 (3)Consensus:利用 OLC 图上的连接信息,找到遍历图上所有节点的最佳路径, 即寻找图上的哈密顿道路,这也导致该算法复杂度通常较高,通常用于读段较长、总读段数较少的 拼接。使用这一方法的软件有 Celera Assembler 等。 
     
    图 2 OLC 法图解 Fig. 2  An example of the OLC method 注:图中左侧为基因组上序列实际对应的位置,红色连接是因重复序列等原因产生的的重叠信息。右图为实际得到 的 OLC 图,OLC 算法需要排除错误的红色边,找到真实的读段间顺序,即图中黑色边构成的路径。 

    展开全文
  • 在本研究中,它被用来促进与DNA微阵列和RNA测序表达值数据相关的特征的选择。 两个平台中的基因之间的相关性越高,与其相关的惩罚项越低。 Twiner代码文件包含: 用于GEO研究的微阵列数据采集 微阵列预处理步骤-分...
  • 生物信息学分析中的关键步骤是调用“峰”或富集区域,对应于蛋白质与DNA的结合位点。 据广泛报道,在所有生物信息学分析步骤中,最有可能影响研究结果的步骤是峰调用(Chen等,2012; Johnson等,2007)。 已经...
  • 在低分子DNA收获过程中,还收获了细胞DNA(例如线粒体DNA)并进行了测序。 在此步骤中,通过与BK多瘤病毒(BKPyV)原型基因组模板(AB211369.1 BK多瘤病毒DNA,完整基因组,分离株:Dik)进行比较,省略了细胞DNA读...
  • 描述常见高通量测序平台产生的错误并从技术人工制品中识别出真正的遗传变异是两个相互依赖的步骤,对许多分析如单核苷酸变异调用、单倍型推断、序列装配和进化研究都是必不可少的。 随机和系统的错误都可以显示...

    去噪DNA深度测序数据,高通量测序误差及其校正

    Abstract

          描述常见高通量测序平台产生的错误并从技术人工制品中识别出真正的遗传变异是两个相互依赖的步骤,对许多分析如单核苷酸变异调用、单倍型推断、序列装配和进化研究都是必不可少的。
          随机和系统的错误都可以显示这里调查的6个主要测序平台的具体发生情况:454焦磷酸测序、完整基因组DNA纳米all测序、Illumina合成测序、离子激流半导体测序、太平洋生物科学单分子实时测序和牛津纳米孔测序。
    在序列读取数据中,有大量的程序可以用来消除错误,它们在错误模型和统计技术、分析数据的特征、从中确定的参数以及使用的数据结构和算法方面有所不同。
    我们强调了他们所做的假设,以及这些假设适用于哪些数据类型,并提供了有关数据属性的基准测试应该考虑哪些工具的指导。
    虽然这里没有包含基准测试结果,但是这些特定的基准测试将极大地影响工具选择和未来的软件开发。
    独立错误校正器的开发,以及单核苷酸变体和单倍型调用器的开发,也可以从更多地使用错误配置文件的知识和(重新)结合现有方法的思想中获益。
    关键词:下一代测序,高通量测序,误差分析,误差修正,误差模型,偏差

    测序平台及其错误

    我们首先生成的错误在测序的一项调查五个常用的高通量测序平台:GS FLX和GS初级454[1],完整的基因组平台[2],HiSeq和MiSeq Illumina公司[3],个人基因组机(PGM)离子激流(4、5)和实时音序器太平洋生物科学(RS) [6]。此外,我们还简要介绍了由牛津纳米孔[7]发布的关于最近的MinION平台的内容,该平台尚未向公众发布。基础技术和进一步平台的详细审查可在其他地方获得[8,9]。对于除MinION外的所有平台,都存在独立的错误评估,但是系统地比较几个平台的研究很少[10 13],而且没有一个平台覆盖超过4个平台。此外,分析的重点也各不相同,仅报告一些众所周知的错误类型:插入和删除(通常作为indel包含在内)、替换和覆盖偏差,如某些区域的覆盖减少。为了确定是否在库准备前(例如在预扩增步骤中)、库准备和扩增过程中或测序过程中引入了错误,需要在不同的实验条件下进行对比实验。这种时间和成本密集的分析很少被执行,因此,在少数情况下,只有[13]进行了这种区分。已知,核酸序列的某些特性会提高所有或大多数技术的错误率,例如GC含量的极值、长均聚物延伸、人类启动子序列的存在以及每个读码过程中众所周知的碱基信号的衰减。在讨论了各个平台的错误概要之后,我们总结了审查的第一部分,并对所有平台在这些方面进行了直接比较。

    454焦磷酸测序

    对于454个焦性测序仪,报告了GS FLX[14]和GS Junior[12]机器的总体错误率,并评估了GS Junior[10]的indel率。三篇研究都只研究了中间GC含量的序列。尽管如此,他们报告的错误率(表1)支持众所周知的共识,即使用这种技术,内德尔错误发生的频率比替换错误高一个数量级。这种较高的indel错误率主要是由于均聚物的出现,即同一核苷酸的多次连续出现。随着均聚物长度的增加,测序反应中单个碱基流动循环的光强分布逐渐重叠,导致碱基调用[18]时出现插入和删除错误。由于这一现象,均聚物比其他序列延伸具有更高的整体indel误差频率[10,14],indel误差频率随着均聚物长度[10]的增加而增加。

    454测序数据也包含了相当数量的不明确的基调用(一些调用者然后输出一个N),尽管频率大大低于indels,与不匹配的[14]相当。在读取结束时,含糊不清的基调用的频率显著增加,替换错误也显著增加,而indel错误只显示了少量但明显的增加[14,18]。在read中的某个点之后,根据使用的机器和化学物质的不同,GC内容(所有读操作的平均值)也会急剧下降,这表明在稍后的流循环中存在很强的GC偏差(图1中的[19])。与此同时,长时间阅读的平均错误率更低。Gilles等。[14]表明,读起来有一个持续低或持续高错误率,即短读高错误读已经削减了大量删除错误末期,但剩下的部分仍然含有更多的错误比高质量阅读不需要修剪。最后,每孔插入和删除调用的反模式在技术的微滴板中被发现:在测序板的某些部分插入比删除更常见,而在其他区域则相反。因此,序列板的连续区域要么被富集以进行删除,要么被富集以进行插入,但是这些模式在不同的序列板或run之间似乎不一致(图3和[14]中的附加文件4)。  

    完整基因组DNA纳米测序

    完整基因组DNA纳米测序的错误信息来自于对人类基因组样本[13]平台的系统比较。考虑到这一限制,报告的错误率(表1)表明,与indel错误相比,这种技术的替代错误更常见两个数量级。总体错误率在大范围的GC序列内容中是一致的,除了高或低GC内容的序列的删除率要高得多(图2B)。这两个GC含量极端值也与较低的读覆盖率相关(图1)。[13])。

    太平洋生物科学单分子实时测序

    尽管报告的错误率(表1)得到了比454焦磷酸测序和完整基因组更多样本的支持,但太平洋生物科学实时测序仪(PacBio RS)的错误率并没有得到独立研究的很好描述,特别是在PacBio最近的化学实验方面。的总体错误率约一个数量级比早些时候化学反应的离子激流的PGM,约两个数量级大于Illumina公司的平台(表1)。在平台内,indel错误比替换错误的15倍左右。极高的缺点错误率和较低的总吞吐量,这使得它难以承受的基因组DNA在较大如人类基因组[13]或metagenome研究在一定程度上抵消了两个因素:第一,很长的阅读(10 kb)的平台用于脚手架还新创的较小的基因组序列组件使用读取数据从另一个平台[11]。其次,在极端的GC序列内容时,覆盖率只略微下降,这使得该平台具有最低的GC偏差(图1;[13])。随着最近数据质量和读取长度的增加,仅从PacBio数据重新组装细菌基因组已经成为可能的[24]。此外,平台供应商还提出了两种降低错误率的方法:(i) SMRTbell模板,它是一个有效的圆形双链DNA模板,两端都有环,可以连续多次读取同一个模板。然后将这些数据聚合为一个一致的读数,错误率比[25]低得多。(ii)另一种选择是,可以使用来自不同大小的模板的冗余覆盖来建立正确的共识。在这种方法中,更丰富的短读提供了覆盖冗余,而更长读确保了程序集的连续性[26]。通过SMRTbell或增加整体覆盖率的这种额外冗余已被独立证明可将总体错误率分别降低一个数量级至1.3和2.5% ([27,28];特定于平台的错误纠正)。此外,在每次读取的最长时间内,错误率是一致的和随机的,在更长时间的读取[17]时,错误率仅略有下降。通过更长时间的均聚物延伸(删除量略有增加,插入量略有减少)和整个GC序列内容范围(图2B;[13])。

     

    PacBio

    In the long reads from the PacBio platform, the very high overall error rate is the major challenge. Currently, the two major strategies to address this are to either use less error-prone short reads from another platform with enough coverage to correct the long PacBio reads (called the hybrid approach), or to exploit the fact that errors seem to be unbiased in this platform and can therefore all be corrected, given enough coverage.

    The first approach was initially implemented in PBcR [95] as a stand-alone tool and as a pipeline stage in the assembler AHA [96], the latter developed in direct cooperation with the machine vendor. In both approaches, the more accurate short reads from another platform are mapped onto the long reads. AHA then simply corrects the long reads towards the consensus of the resulting short read mapping, whereas PBcR further optimizes the alignments, creating a short read MSA that is then used for the consensus calling. The tool LSC [97] improved the alignments in this approach, by using the idea of RLE—or homopolymer compression, as the authors call it—that had been used in 454 pyrosequencing error correction shortly before (compare with Acacia and HECTOR in the section right above). Mapping RLE short reads to RLE long reads disregards homopolymer length errors and thus improves the mapping sensitivity.

    A very recent tool, proovread [98], instead improves the plain mapping approach: Firstly, it makes it more sensitive by using alignment penalty values adapted to the error profile (separate penalties for insertions, deletions, substitutions and gap elongation). Secondly, it makes it scalable by parallelizing the process. It looks at mappings of short reads onto individual long reads and uses an iterative mapping and correction procedure that gradually includes more reads and allows for mapping with more mismatches in each round. Thirdly, it recognizes and splits chimeric long reads.

    ECTools [99], recently published via bioRxiv, pre-assembles the more accurate short reads into unitigs using the Celera Assembler. It then aligns the long reads against those unitigs, optimizes this alignment by solving the longest increasing subsequence problem and corrects towards the unitigs.

    LoRDEC [85], another recent hybrid approach, also does a pre-assembly and draws upon an existing strategy: the idea of threading reads through a generalized and weighted de Bruijn graph, first introduced as a k-mer approach solely on short reads in EULER-USR [83]. Where EULER-USR used only the more accurate prefixes of short reads to build the graph (section ‘Repeat and haplotype models’), LoRDEC uses only the short reads from a different platform, as they are more accurate than the PacBio reads. And where EULER-USR then threads the full short reads through the graph to correct them (including their less accurate suffixes), LoRDEC threads the long PacBio reads.

    For the nonhybrid PacBio error correction approach, PBcR was adapted to use the higher abundance shorter reads from a PacBio RS sequencing run to provide the coverage for correcting all reads, including the lower abundance longer reads from the same run [26]. This approach was also implemented in the vendors assembly pipeline, called HGAP at the time [100].

    PacBio

    在PacBio平台的长读中,非常高的总体错误率是主要的挑战。目前,两个主要的策略来解决这个问题,要么使用更少出错短的读取从另一个平台有足够的覆盖纠正长期PacBio读取(称为混合方法),或利用这一事实错误似乎是公正的在这个平台,因此,所有可以纠正,给予足够的覆盖率。

    第一种方法最初是在PBcR[95]中作为独立的工具和汇编程序AHA[96]中的管道阶段实现的,后一种方法是与机器供应商直接合作开发的。在这两种方法中,来自另一个平台的更准确的短读被映射到长读。AHA然后简单地纠正长读,使其接近结果短读映射的一致性,而PBcR进一步优化了一致性,创建了一个短读MSA,然后用于一致性调用。

    LSC[97]利用rle(作者称之为均聚物压缩)的思想改进了这种方法的校准,该思想不久前曾用于454焦磷酸测序错误校正(与上面一节中的Acacia和HECTOR相比)。RLE短读映射到RLE长读忽略了均聚物长度误差,从而提高了映射灵敏度。

    最近的一个工具proovread[98]改进了普通映射方法:首先,它通过使用与错误配置文件相适应的对齐惩罚值(对插入、删除、替换和间隙延伸分别进行惩罚)使其更加敏感。其次,它通过并行处理使其具有可伸缩性。它查看短读到单个长读的映射,并使用迭代映射和校正过程,该过程逐渐包含更多的读取,并允许在每轮中映射更多的不匹配。第三,它识别并分割嵌合的长读。

    ECTools[99]最近通过bioRxiv发布,它使用Celera汇编器将更精确的短读入unitigs中。然后,它将长读与那些unitigs对齐,通过解决最长递增子序列问题来优化这种对齐,并对unitigs进行校正。LoRDEC[85]是另一种近期的混合方法,它也进行了预组装,并借鉴了现有的策略:线程化读取一个广义加权的de Bruijn图的思想,该思想首先作为k-mer方法引入,仅在EULER-USR中进行短读[83]。欧拉- usr只使用更准确的短读前缀来构建图(章节“Repeat和haplotype模型”),而LoRDEC只使用来自不同平台的短读,因为它们比PacBio读更准确。当EULER-USR将整个短读遍图以纠正错误(包括其不太准确的后缀)时,LoRDEC将长读PacBio。

    对于非混合PacBio错误校正方法,PBcR被调整为使用从PacBio RS测序运行的高丰度短读来提供校正所有读的覆盖率,包括从相同运行[26]的低丰度长读。这种方法也在供应商的组装管道中实现,当时称为HGAP[100]。

    参考文献

    Laehnemann D, Borkhardt A, McHardy AC. Denoising DNA deep sequencing data-high-throughput sequencing errors and their correction. Brief Bioinform. 2016;17(1):154–179. doi:10.1093/bib/bbv029

    展开全文
  • 问题是,如果一段DNA插入基因组某个或者某些位置了,但是我们不知道其具体位置,希望通过测序的方法来检测这些位置信息。 最简单直接的办法当然是全基因组测序(最好还要是长度长的三代测序的),然后比对插入基因...
  • DNAstar使用说明

    2010-06-25 20:55:59
    DNASTAR 的lasergene序列分析软件 简介 Lasergene由8个应用程序组成,每个程序都组织成功能单元。整个Lasergene系统包括一下一些软件: SeqManII:整理(trim)和组装(assemble)序列数据,以及确定共有序列。 ...
  • DNA片段装配算法

    2009-12-29 21:13:00
    一、步骤交叠-查找潜在的交叠片段排列-查明片段的顺序共有-从排列中导出DNA片段二、具体:交叠问题:查找一个序列的后缀和另一个序列的最好的匹配。但由于测序误差问题,在序列联配中使用修改的动态规划算法。由于...
  • DAP-seq实验步骤:载体构建-体外蛋白表达-DNA文库构建-亲和纯化-上机测序-数据分析。 研究非模式生物转录调控新技术DNA亲和纯化测序DNA Affinity Purification Sequencing,DAP-seq)。具有以下优势:周期短,两个...
  • 1. 基因数目预测的主流软件  GENSCAN就是一个经典的基因预测软件。...当时,Burge的许多同事主张采用比较的方法,他们随机选取一个最新测序基因组中基因的DNA序列,与数据库中已存在的基因进行联配。但是Chris Bu...
  • RNA-seq、FPKM和Cuffdiff

    2020-02-20 20:55:20
    RNA-seq RNA-seq即转录组测序技术,是将细胞内mRNA,nonconding-RNA...RNA-seq的主要步骤如下:分离RNA——将RNA打断成小片段——RNA反转录为DNA,此后测序手段同DNA测序。 更详细步骤可参考: https://www.jianshu....
  • algorithm-study-源码

    2021-03-11 12:49:24
    算法研究 算法导论 算法效率 算法导论 线性搜寻 [1、2、3、4、5、6、7、8、9、10] ...算法用于DNA测序 效率 在时间和空间上衡量 时间复杂度(运行需要多长时间) 空间复杂度(计算机上占用的内存量
  • 您可以在AWS ParallelCluster之上构建更高级别的工作流程,例如使整个DNA测序工作流程自动化的Genomics门户。 快速开始 重要信息:您将需要一个Amazon EC2密钥对,才能完成以下步骤。 请参阅 。 首先,请确保您已...
  • 测序数据的产生经过了DNA提取、建库、测序等多个步骤,这些步骤会产生低质量或者无效的数据,需要对下机的原始数据进行质控。 1.原始序列数据解读 高通量测序得到的原始图像数据经过碱基识别(base calling)分析...
  • RNA-seq的三个主要步骤 建库 测序 数据分析 1. 建库 workflow step1 分离RNA step2 打断RNA 测序机器一次最多只能测200-300bp step3 逆转录成双链cDNA DNA比RNA更稳定,更易扩增和修饰 step4 加...
  • 每日文献:2018-02-27

    2018-02-27 19:06:45
    如何使用高通量测序检测T-DNA插入 之前拿到了一批混池测序的数据,师兄除了让我帮他找一个突变位点,还让我顺便检查下基因组上的T-DNA插入。我去查了一下相关资料,已经有人那么干了,这里简要说明一下步骤。 TITLE...
  • DAMIAN提供了检测各种来源的RNA和DNA样品中已知和新型病原体的功能。 它集成了所有必需的处理步骤,从测序读段的质量控制到综合报告的生成。 该方法适用于任何宿主生物。
  • 这些步骤可以通过一步PCR或两步PCR完成,但没有研究说明两步PCR方案相关的实验室处理步骤是否会使样品比一步PCR方案更容易受到来自实验室的细菌DNA污染的影响。 本文试图确定对16S rRNA V3V4与V4基因区域的一步或...
  • 宏基因组学研究是以特定生境中的整个微生物群落作为研究对象,无需分离培养,直接提取环境样本DNA进行测序,研究环境微生物的群落结构、物种分类、系统进化、基因功能及代谢网络等,已广泛应用于微生物领域。...
  • MutSig2CV分析在DNA测序中发现的体细胞点突变,识别出比推断的背景突变过程偶然多的突变基因。 MutSig2CV包含三个独立的统计测试,下面简要描述: 丰度(CV) :推断基因突变重要性的最重要步骤是正确分类基因是否相...
  • 生物信息学入门知识

    2020-09-24 08:59:16
    转录(transcription):生物体以DNA为模板合成RNA的过程,是基因表达的核心步骤 翻译(translation):生物体以mRNA为模板,在核糖体内合成蛋白质的过程 二代测序 生物信息学分析现在分析..
  • 这包括增加β-巯基乙醇(从0.5%到1%,以增加DNA溶解度并减少二级结构的形成),增加额外的洗涤步骤(以提高纯度)和减少洗脱缓冲液体积(以增加最终DNA浓度)。 对于文库制备,我们使用Index Kit v2 C和Platinum...
  • 随后,针对DNA浓度,退火温度,Taq DNA聚合酶单位和引物浓度优化了扩增条件。 最后一个被认为是正确放大和适当频带强度的主要干扰因素。 最后,通过T-ARMS PCR获得的结果与测序一致。 与用于SNP研究的可用方法相比...

空空如也

空空如也

1 2
收藏数 37
精华内容 14
关键字:

dna测序步骤