精华内容
下载资源
问答
  • 5 small RNA small RNA 1. s m a l l R N A 2. 1
  • DNA( 脱氧核糖核酸 ) 和 RNA( 核糖核酸 ) 是 生命体的两种最基本组成物质,其序列的组成和变 化造就了形形色色的生命世界。这两种承担了生命体遗传信息载体功能的物质,一方面在生命的不断 繁衍中保持了各个物种的...

           DNA( 脱氧核糖核酸 ) 和 RNA( 核糖核酸 ) 是 生命体的两种最基本组成物质,其序列的组成和变 化造就了形形色色的生命世界。这两种承担了生命体遗传信息载体功能的物质,一方面在生命的不断 繁衍中保持了各个物种的独特面目,另一方面又通 过不断的演变改变着自身性状,同时又影响着与之 相关的物种,这一规律在生命科学领域被归纳为“中心法则”。笼统而言,几乎全部的生命现象均来源 于 A、T、C、G 这四种碱基的排列顺序 ( 在 RNA 序列中,U 取代了 DNA 序列中的 T) 及其变化,并且,这种排列并非无序的随机组合,而是具有相当丰富的信息含量、生命内涵和变化规律性。所以, DNA 和 RNA 序列被称之为生命密码是完全合情合理的,有效而准确地获取这些密码,成为生命科学 研究的基本信息获得手段和赖以发展的根本基础。

          1 DNA序列是如何测定的?

    1975 年英国生化学家 Frederick Sanger 发明了末端终止法DNA 测序技术,打开了我们解读生命天书的大门,人们第一次真正看到了生命的最基本 信息是什么样子,所谓的基因到底包含了哪些内容。 随着了解的信息逐渐积累,量变产生了质变,我们 得到了一些规律,而随之而来的却是更多的问题和困惑,研究工作愈加深入,我们就会发现自己的了 解愈加贫乏。这就像战争催生技术革命一样,需求 总是技术发展的源动力,从而日新月异的信息获取手段 —— 测序技术 —— 获得了长久不衰的发展, 其过程就是

    序列获得 → 原理发现 → 了解深入 → 疑问产生 → 寻求答案 → 更多的序列获得需求 → 新技术产生 → 更多序列的获得 → 更深入的了解和 更深入的疑问,正是这样周而复始的螺旋上升过程, 推动了生命科学进入高速发展的轨道。

    在这样的科学技术发展过程中,我们对序列获 取的需求从最初对某一个基因的解析逐渐演化成对 全部基因的解析对基因组的解析、对转录组的解 析、对 DNA 修饰的解析、对转录调控的解析、对 RNA 修饰的解析等方方面面的需求和实践。应运而生的是自动化测序、高通量测序、RNA测序、 甲基化测序等等技术变革甚至革命。其中最显著的 就是测序设备通量的飞速发展,至今为止每天每台 能够产生的测序数量已经从最初的几千个碱基 (1985 年 ) 达到了 50~60Gb(1G=109 ),特别是近 5 年 的进展,几乎可以用IT行业的摩尔定律来进行描述。 可以说,目前对于最基本的 DNA 和 RNA 测序,除 了价格因素外,基本可以满足科学研究的需要了。 既然说需求已经可以满足了,为什么还要发展 测序技术呢?

    2 能够测什么,还需要测什么?

            经过几十年来的研究和积淀,人们对生命信息 的理解从最初认识到的 DNA 和 RNA,不断地进行丰富。20 世纪 80 年代启动人类基因组计划之际,人们还在认为拿到人类的全部基因组序列就可以解 读这部天书,但实际上这仅仅是一个开始,在这个当时比肩于阿波罗登月计划的项目进行中,我们就发现生命的信息远远超出当时的认知范围。

          占基因 组多达 1% 的多态性位点、基因组中的非编码序列、 种类繁多的各类不同功能的 RNA、不同基因序列 上的甲基化位点、DNA 和蛋白质相互作用的调控 机制等等,诸如此类庞杂的信息以及深深隐遁其中的生命规律远不是测定一个基因组就可以解决的问 题。 为了发现多态性位点和性状表现之间的关系, 需要对大量样本进行重测序,才能从中总结规律 ; 为了发现不同基因的不同甲基化程度,需要进行甲 基化测序 ( 通过亚硫酸氢钠处理 DNA,使非甲基化 的 C 变成 U,测得序列中的 C 就是甲基化位点 ) ; 为了发现不同组织中基因的转录水平,需要进行转 录组测序 (mRNA 逆转录成 cDNA,再进行测序 )。 从表面上看我们已经找到了应对各种需要的测序技 术,实际上却不尽然。 对于 DNA 测序而言,目前的高通量测序技术 在满足通量的同时,由于技术本身的限制,读取的 单一序列长度一般介于 75~100 bp (Life Technologies 公 司 的 5500xL SOLiD 测 序 仪 和 Illumina 公 司 的 HiSeq2000 测 序 仪 ),Roche 公 司 的 454 GS FLX+ 测序仪可以达到 700 bp 的读长,相应的其通量仅仅 为 0.7 Gb,通量价格比远低于前两者 ( 通量分别为 180 Gb 和 600 Gb)。这样就形成了一个瓶颈,通量 高的读长短,读长长的通量低。 为什么我们要追求通量和读长?通量高可以让 我们用更少的时间和更低的价格获得更多的数据 ; 而读长则决定了对获得的序列片段进行拼接的难 度。对于人类基因组重测序这样的工作,因为我们 已经有了绝大部分都一致的参考序列,短读长片段 可以很容易的通过比对找到相应的位置,但对于一 个从来没有测过序列的物种,只能通过片段之间的 相同序列来排定顺序,短读长就力不从心了。虽然 我们开发了无数算法和软件来进行这项工作,但读 长的局限性依然很大程度上存在。 另外,由于基因组中还存在有大量的特殊结构, 比如重复序列,这种序列可能延续很长,造成我们 只能得到这个片段两端的序列和不精确的中间距 离,因为读长的限制,没办法发现中间的内容,就 像是一条 100 km 的高速公路,而我们手中只有能 跑 20 km 的汽车,我们就没办法发现这条路中间位 置是否有美丽的风景。所以我们需要能够突破现有 读长的技术出现 ( 即使是传统的毛细管测序仪,读 长最大也只能达到 900 bp)。 目前的测序技术还有一个相当大的问题,就是 现有测序反应的模板都是通过对原始样品的核酸进 行扩增后的产物,特别是对于 RNA 还需要先进行 一步逆转录反应。我们知道首先扩增反应不可避免 地会产生扩增的偏向性,例如在原始样品中的两个片段,一个有 1000 个拷贝,另一个只有 10 个拷贝, 在扩增过程中并不会按照这个比例同步反应,很可 能在扩增后拷贝多的片段变成了 10 万个,而少的 变成 100 个,这样一部分片段就被自然地湮没了, 造成的后果就是我们丢失掉了这部分信息,而恰恰 这部分信息可能才是某个机制的决定性因素。举一 个典型的例子,肿瘤发生的早期就是几个细胞的基 因发生突变,而在基因扩增过程中这样微弱的变化 就会被掩盖在占绝对优势的正常基因中。同时,这 种技术还造成了另外一个问题,就是我们最终都是 对扩增后的人工产物进行测序,而对于原始序列中 存在的诸如修饰之类的信息也在扩增过程中被抹杀 掉了。 由此可见,目前的测序技术一定程度上满足了 现阶段研究的需要,但随着研究的深入和研究对象 的复杂性提高,会有更多的需求被提出,如前文所 述,新的技术需要应运而生了。
    3 何为第三代测序技术?

    从前文中可以发现,为了实现更深入的研究,技术的变革已经逐渐浮出水面了。首先需要回顾一 下此前的技术发展历程,也就是说为什么有所谓下 一代测序技术和第三代测序技术之分。

    测序技术发明之初是通过在聚合酶、DNA 模 板、引物、dNTP 和 ddNTP 的作用下发生延伸反应。 由于 ddNTP 的存在,形成长度不等的延伸片段, 根据不同碱基的末端终止片段长度,可以按顺序读 出相应的序列。其后在此技术原理的基础上产生了几次变革,包括用四色荧光取代了放射性同位素标 记和用毛细管电泳取代了平板凝胶电泳等。这一代 测序技术统治市场多达 30 年之久,其中最出色的 产品是 ABi 公司的 3730xL 测序仪,可以在 2~3 hr 内进行 96 个测序反应,读长最多可达 900 bp。

    因为这一代技术是对测序模板分别单独进行反应,通 量已经达到了极限,而且单价远高于后来推出的高 通量测序技术,因此在 2005 年后,基本上除了病毒外的基因组测序工作均已不再适用。但是这种技 术可以对相对少量的特定位点、克隆产物和 PCR 产物的序列进行测定,仍然具有其细分市场定位。 2005 年对于测序技术而言是一个转折点,因为在这一年高通量测序技术进入了市场,彻底改变 了测序的规模化进程。Roche、Illumina、ABi 都推 出了各自的新一代测序仪,因为在当时的背景下, 高通量测序技术属于一个突破性的进展,业界并未预料到其后续发展的速度之快,所以笼统的将之称 为下一代测序技术,直到 2009 年更新的技术展示 在世人面前的时候,大家才回想起来当时的短见, 所以又有了“下下代测序技术”之说。我们在这里 将 2005 年出现的“下一代测序技术”称为第二代 测序技术,而此前的特定克隆测序则称为第一代测序技术。

    第二代测序技术的技术特征是不再区分单一模板,而是将模板变成了“库”,里面包括了我们希 望测序的所有模板,同样是根据模板序列合成或者 杂交形成互补链,通过互补链的延伸过程中引入的 荧光标记来识别每个碱基。当然,这次是同时识别 数百万个平行进行的测序反应了。因为这一代技术 还都是通过荧光来进行识别检测,受限于光学检测 灵敏度,测序模板实际上还是扩增产物,而另一个 技术标志就是单分子的原始模板在固相 ( 微球或芯 片表面 ) 上进行扩增反应,这却恰恰是第二代测序 技术中最容易产生人为干扰的部分,因为操作水平 的不同,这一代测序仪在不同的实验室性能表现参 差不齐。 第二代测序技术的产生极大地推进了相关研究 的进展和突破,让以前遥不可及的基因组测序工作 简单到一个实验室都可以进行。但是,虽然满足了 现阶段大部分工作需要,其技术瓶颈是难以克服的, 尤其是模板扩增和序列读长,成为最集中的矛盾所 在。这样就对测序技术提出了不经过扩增的单分子 测序、读长超过以往技术和通量需要达到一定的规 模等新的挑战。 正如“下下代测序技术”的称谓一样,技术的 变革出乎所有人的意料。随着物理、化学、材料等 学科的不断发展及其与生命科学的不断融合,在某 种程度上可以解决更新一代测序技术的技术难题, 这就催化了第三代测序技术的产生。

    相应地,第三代测序技术的技术标志就是单分子测序和长读长。 目前上市的第三代测序仪仅有 Helicos 公司和 Pacific Biosciences 公司两款产品,Helicos 公司的 Heliscope 是最先上市的单分子测序仪,但因为当时其采取的 技术策略具有的局限性 ( 通过聚合酶进行单分子聚 合延伸,加入一个碱基,拍照,去保护,再延伸下 一个碱基,周而复始。因为生化反应的效率不可能 达到 100%,对于单分子只要出现一次错误就会导 致反应终止或错读,造成读长只能达到 20 bp 左右 ), 目前已经基本淡出市场,最受业界看好的还是 PacBio 公司的 RS System 测序仪,其平均读长可以达到 3.2 kb,通量 2 Gb/d ( 每个芯片运行 90 min, 平均产生 70~140 Mb 数据 ),而且还有进一步提升 的空间。

    但是,因为是单分子测序,测序反应中产 生的每个错误都会被忠实地记录下来难以分辨,这 就形成了目前此款测序仪最致命的问题,其准确性 仅有 85%,虽然可以通过重复测序进行一定程度的纠正,但相较于第二代测序技术动辄 99.5% 以上的 准确性,确实是其最大的短板。当然,我们相信这 一代测序技术还是可以在不断的成熟过程中最大程度克服其技术劣势的。

    目前还有很多概念性测序技术的研究,主要技 术特点是抛弃了在复杂的酶促生化反应中进行序列 读取,而更多的利用碱基的电学特异性差异,通过 纳米孔、石墨烯、半导体或者微电极等直接对碱基 穿过电极时的电流差变进行测量。通常这种电流变化都是 nA 甚至 pA 级别的,从目前的进展来看, 很难在短时间内实现高通量并行化上的突破。我们并不否认今后会有其他领域的技术飞跃给这一类测序技术提供技术实现的可能,至少从现在的研究结果来看,还有很长的路要走。我们把这一类不需要 生化反应伴随、不需要化学试剂产生反应的测序技 术归纳为第四代测序技术。

    4 理想而完美的测序技术是什么样子

    由此我们可以看到,测序技术的发展呈现着一 种层出不穷的态势,而到底有没有一项能够满足我 们所有需求、真正理想和完美的测序技术呢? 我们知道人类探求生命奥秘的需求是随着研究 的深入而不断扩张的,但现在仅仅就目前的研究现 状而言,探索通向理想而完美测序技术的路上,有 如下几个一定要解决的关键问题。

    第一,可以完整 地解读每个 DNA 分子或称染色体的序列信息。它 们的长度范围在几千个核苷酸到几亿个核苷酸之 间,显然我们目前的测序技术距离这个目标还有很 远的距离,使之成为可望而不可及的终极目标。

    第二,如果我们不得不将 DNA 分解成不同片段来解 读的话,我们必须要有高覆盖 ( 一般在十倍到百倍 之间 ) 的重叠群序列,才能利用重叠的信息将测定 的片段连接起来。序列读取质量 ( 帮助我们精确判 定片段之间的重叠 ) 和序列读出长度 ( 保证长距离 的连续性 ) 就成为两个不可或缺的重要参数。而且, 理想状态下,DNA 测序仪的一次性序列读长决定 了DNA序列组装的连续性(Lander-Waterman定律)。

    第三,不同物种和每个物种的基因组序列都有不同程度的变化,从百分之几到千分之几,我们必须要 测定成千上万的个体所具有的序列,才能充分发现 这些基因组的多态性,因此通量和工作效率成为测 序技术的永久需求,就像电脑的运算速度一样永远 不会得到人们的满足。

    第四,在实际生命中,DNA 分子并不是仅仅由简单的四种碱基组成,还至少有 另外三种修饰 :甲基化、羟甲基化和糖羟甲基化, 而且它们在 DNA 分子上还表现出很大的不均一性, 目前的测序技术还不能直接测定这些修饰的存在。

    另外,我们现在只能通过测定 DNA 序列的技术来 间接地测定各种活性 RNA 分子的序列,但是 RNA 序列不仅有逾百种化学修饰,而且在不同种类的细 胞、不同状态的细胞,乃至每个细胞中都有所不同。 可见对测序技术的需求是无止境的。

    因此,单分子 水平的 DNA 和 RNA 序列的测定成为基因组学研究 和分子生物学研究的新需求。第五,由于实际需求 的完美性和现有技术的局限性,部分满足不同需求 的 DNA 测序仪 ( 如第一代和第二代测序仪 ) 有长 期存在的可能性。这种可能性使对下游配套技术(如 数据处理和分析等 ) 的需求增加。

    所以说,就像我们在追求笔记本电脑的完美性 一样,既需要运算速度快,又希望轻便省电,同时还要价格低廉,但没有任何一台电脑能够同时满足 所有的需求,测序技术也是如此。因此,不同代次 的测序技术依然会长期共存和继续发展,力求达到 各自的性能极限甚至冲破各自特有的技术瓶颈。另 一方面,新的测序原理和技术也将不断产生出来, 以满足不同层次的应用需求。而这一切,则依赖于 也同样驱动着今后众多相关技术的发展和进步。

    5 一年、两年、五年、十年后的测序技术发展趋势

           期待理想而完美的测序技术出现,必然需要在 现有的技术体系上实现突破,这就意味着测序技术 的发展必然是由一系列技术革命催生而来的。这一 系列技术革命远远不止于生命科学本身的范畴,而 更多地需要依赖于众多学科专业的进步及其与生命 科学的融合。

    目前上市的测序系统,包括第一代和第二代测 序仪,绝大多数是依赖于在生化反应 ( 聚合反应和 连接反应 ) 过程中通过特定碱基产生的荧光来进行 识别,也就是说信号获取是通过光学检测来实现的。 这也是第二代测序仪此前不能实现单分子测序的主 要原因之一,因为单分子荧光检测对于光学器件的灵敏度和视场背景干扰的消除等技术要求非常苛 刻。近年来光学技术的发展及其与生命科学的融会 贯通给这一难题提供了有力的解决方案,如 Helicos 的 Heliscope 测序仪采用了全内反射式显微镜对单 分子荧光进行获取,PacBio 的 RS 系统利用了物理 学的零模波导原理消除背景。

    第二代测序仪队伍中刚刚加入了一个技术上的 另类,当然也可以说成一次技术上的飞跃,就是 Life Technologies 在 2010 年收购的 Ion Torrent 公司 发明的 PGM 测序仪,这是第一种商品化的不通过 荧光观测进行测序的设备,其利用每个碱基的聚合 反应中都会产生一个质子,从而改变了测序池体中 的 pH 值,而每个池体底部则由集成电路构成专一 的 pH 传感器装置来进行检测。目前已经在国内上 市的 Ion 314 芯片具有 130 万个传感器,已在美国 上市的 Ion 316 芯片具有 600 万个传感器,更大规 模的 Ion 318 芯片则达到了 1100 万个传感器,计划 于 2012 年上市的升级机型 Ion Proton 测序仪所配套 的 Ion PI 芯片据称集成了 1.65 亿个传感器,开发中 的 Ion PII 芯片将达到 6.6 亿个传感器 ( 该公司称应 用这一芯片能够在 2 h 内完成一个人的基因组测 序 )。而这一切则需要归功于半导体芯片技术的发 展和应用,难怪 Ion Torrent 公司声称其技术基础依 赖于半导体工业 40 年来高达 1 兆美元的前期投入 和积累。 不同领域技术融合的特征还表现在另外一个方 面,即材料的微纳加工上。

    第一代测序仪的革新之 一就是将大体积的平板胶电泳变成了纤细的毛细管 电泳,除了设备体积得到优化外还使每个测序过程 单独封闭,避免了相互间的干扰。

    到第二代测序技 术出现后,其中结合有核酸分子的微球目前据称最 低已经达到了几百纳米的直径,特别是 Roche 公司 的 454 测序仪应用的测序芯片,是由数百万根 30 μm 直径的光纤构成的,而且每根光纤一端的芯层 还被腐蚀出 40 μm 深的池体作为单个测序反应的独 立空间。

    第三代测序仪在这方面就更加突出, PacBio 的 RS 系统测序芯片因为应用零模波导原理 的原因,其芯片是在玻璃上方用铝加工出一系列直 径 50 nm、深 100 nm 的池体,目前这种工艺还只能 通过高分辨率的电子束曝光技术来实现,因为电子 束曝光工艺处理的面积有限,造成这一设备的单次 运行通量和单位时间运行通量现阶段还不能达到第二代测序仪的高度。

    从这里我们可以看到一个测序仪技术组成的发展趋势,就是随着测序仪代次的更迭,实现测序目的的技术权重已经逐渐由偏重生化反应转向偏重物理学、材料科学等非生物学科。

    第一代测序仪仅仅 是提供一个电泳和电泳后分析的平台 ;

    第二代测序 仪则利用微加工处理和光电子成像技术实现边反应 边测序 ;

    第三代测序仪则将反应体系进一步缩小到了微纳米量级的尺度,同时利用物理原理实现了单分子识别 ;

    而目前正在进行概念研究的第四代测序 技术几乎完全抛弃了生化反应,通过力学、电学等 对 DNA 分子中的碱基直接判读。

    所以说,未来的 测序技术发展将主要依靠微纳加工技术来实现测序 微环境的结构形成,依靠物理学手段来进行识别, 生物学范畴的内容也许还会存在,但只能起到辅助 功能,而技术革命必将来源于其他学科在这一领域 的应用。换言之,更全面的实现跨学科跨专业的交 叉和融合,是测序技术发展的必由之路。 第二代测序技术自 2005 年实现至今仅仅 7 年 的时间,但给我们的感觉就像是飞跃了一个世纪。

    未来的几年这种发展是会陷入技术的瓶颈还是继续 甚至更迅猛地实现突破?

    人们对生命科学的探知欲 望是与日俱增的,对于测序技术这一获取生命信息 的直接手段将会更加地倚仗,需求只会不断增长, 这也将给技术发展以更强有力的推动。 从目前普遍应用的第二代测序技术来看,受技术本身的限制,通量和读长可能还会继续增长,但增速可能很难达到之前如此陡直的斜率,我们大胆 地预测,当 Roche 的 454 达到读长 1 kb、通量 1 Gb,SOLiD 和 Hiseq 达到通量 1Tb,可能就会进入 平台期,这是目前采用的测序原理技术本身可能达 到的极限,世界上没有永动机,也没有无限增长的 测序通量。

    从发展速度来看,乐观估计 2013 年就 有可能达到这一目标了。对于目前研究界所热衷的 工作,诸如人类基因组重测序、转录组、新物种基因组框架图、宏基因组、泛基因组等等研究,大部分都可以满足需要,但对于一些目前只能通过间接 手段开展的工作,如表观遗传学等,期望用第二代 测序技术大批量进行则因为技术原理的局限而力有 不逮了。

    第三代单分子测序技术为发现基因组中此前未 阐明的内容提供了技术手段,但即使是一枝独秀的 PacBio 仍然有很多问题需要解决,但是其最主要的 关隘已经获得了突破,所以我们有理由相信,也许 2013 年就是第三代测序技术全面应用的元年。

    有人认为,当第三代测序技术发展成熟之后,也许之前所有曾经完成测序的工作都要重新来过一次,虽然 并不能全部推翻此前的工作结论,但是可能发现和 修正很多我们之前认为已经证据确凿的研究内容。 科学实际就是在这样的反反复复中不断成熟和深入 的。

    在现阶段看来,还没有一种第四代测序技术真 正具有实用性价值,但不得不说,已有的概念性研 究给我们展示了一幅美好的未来前景,无论是纳米孔、纳米管、石墨烯、纳米电极这类穿孔测序,亦或是电子显微镜这种直接观测的形式,也许在今后 不远的一天,我们会突然发现,测序已经远远突破 了所谓 “ 百美元一个基因组 ” 的期望,甚至实现零成本。

    我们还是来进行一次假设,根据技术发展的 规律和测序技术本身的进化特点,具有实用价值的第四代测序技术和测序仪概念机可能会在 5 年后崭 露头角,而真正可以形成市场估计至少还要让我们 再等 5 年。当然,测序的需求不会在这 10 年间有 所降低,相反可能会有更大的空间和更高难度的技 术要求,比如全面解析 DNA 的三种修饰 ( 也许会 发现更多种的修饰 ) 和 RNA 的上百种修饰的生物学意义,或是可以快速对普通疾病的核酸标记进行 检测的家庭化测序分析系统。在 2000 年的时候谁 又想到了如今我们已经获得了近 2 000 个物种 ( 不 包括已经完成基因组测序的近 2 600 种病毒 ) 的基 因组呢?

    6 我们该做点什么?

           此前我们一直忽略了一个对于测序技术非常关 键的因素,那就是价格问题。人类基因组计划开展 伊始阶段,计划用 30 亿美元完成人的基因组测序 工作,相当于每个碱基需要花费 1 美元,而现在的 主流测序设备完成一个人的基因组测序工作只需要 一万美元甚至更少 ( 当然,对测序数据进行处理和 分析的成本还至少需要几十万美元 )。可以看到, 在测序成本方面已经比十几年前降低了6个数量级, 而随着第二代测序技术的进一步发展和第三代、第 四代测序技术的崛起,实现“千美元一个基因组” 和“百美元一个基因组”已经不是一个遥不可及的 梦想。 虽然测序成本的降低是大家都乐于看到的,但当我们从整个市场来看,现阶段几乎所有的生命科 学研究都需要应用到测序技术。就中国而言,在 2011 年的测序市场就达到了 5 亿美元,其中小部分 会用于测序仪设备的购置,而大部分则消耗在测序试剂上。

    按照普遍的市场规律,当一代技术成熟和下一代技术即将推出之际,将产生市场价格的回落, 但是目前来看,市场价格呈现一种不降反升的态势, 又是什么原因导致这种违反市场规律的情形出现的 呢?

    目前包括第一代和第二代测序仪均出自三个主 要厂商 :Roche、Illumina 和 Life Technologies。我 国市场上的设备和试剂均来源于这三个厂商的进 口,研究者不得不承受比厂商所在国家更高的设备 购置和应用费用,而国内的测序服务业的成本甚至 会高于国外服务商的市场报价。结合我国的测序市 场需求,相信仅仅从科研的应用成本上而言,受制 于人这个词汇不可谓不贴切。 而从以往经验来看,往往国外设备试剂的更新 换代首先会满足本国的需求,这样就造成了我国总 是比国外滞后半年甚至一年的时间应用更高效的研 究工具。以 PacBio 的 RS 系统为例,在 2010 年该 公司提供了 10 台设备在研究机构中试用,没有 1 家中国科研机构获得这样的机会,种种这样的原因 造成我国的科研水平难以与国际高端竞争。

    就在 2011 年 1 月 6 日,第一篇应用该设备的论文发表在 国际顶级刊物《新英格兰医学杂志》上,而这个时候, 几乎没有几位中国科学家见过这台测序仪的真实样 子。另一个例子,Life Technologies 公司的 Ion Torrent PGM 测序仪 2010 年底就在美国上市了,在 2011 年 2 月召开的基因组学顶级学术活动 AGBT 会议上,多个机构的学者就发表了他们应用这一设 备所开展的研究工作。但对于中国用户,到 2011 年 3 月才能够开始下达订单,这就造成了我国在技 术能力上至少半年以上的滞后。当时,该设备在美 国的售价大约为每台 5 万美元,而据 LifeTech 的市 场人员介绍,在中国的报价大约为 20 万美元,即 使成交价能够打个对折,还是要比美国本土翻了一 番,哪怕是今天这一设备国内售价还至少要 7~8 万 美元,这又让我国的科学家情何以堪。为什么会造 成这样的局面,归根结底是我们缺乏自有设备给予 其市场竞争压力,而不得不接受这样的现实。

    我国缺乏大型高端科研设备的研发经验和综合 能力,这是现阶段一个不争的事实。但对于中国这 样一个经济、科技高速发展的国家,恰恰需要将此前展现出来的劣势进行弥补和突破,才能符合现实 的需求。在这里还要插播一个小故事,前文中提及 的 Ion Torrent PGM 测序仪,其发明人 Jonathan M. Rothberg 恰恰是 Roche 公司 454 测序仪的发明者。 454 的测序原理是通过聚合反应中释放出来的焦磷 酸来进行碱基的识别,而 PGM 则是检测聚合反应 中释放出来的质子,大家都在期望 Rothberg 的下一 个发明又会利用释放出来的什么物质来测序。这个 故事非常明确地告诉我们创新能力对应抢占科学制 高点和建立产业优势的重要性,而创新能力、交叉 学科水平、工业设计能力也是体现一个国家综合科 技水平的重要方面。近年来我国也在这些方向开始 进行大规模投入,对于测序仪的自主研发而言,正 是提升这一水准和解决应用瓶颈的重要举措。

    目前国内开展测序仪研发的机构主要有三个, 中科院北京基因组研究所和中科院半导体所联合研 制的第二代测序仪 ( 焦磷酸测序原理 )、无锡艾吉 因生物信息技术有限公司 ( 连接酶测序原理 ) 和深圳华因康基因科技有限公司 ( 连接酶测序原理 )。 近两年,北京大学和清华大学等单位也有项目组正 在开展新一代测序技术的研发工作,但尚未有正式 报道公布。虽然我国在这个领域已经开始起步,但 很大程度上还是属于引进吸收,缺乏原始创新。

    国际上日益激烈的第三代和第四代测序技术的研发给 我国一个追赶和超越的机会。在获得前期积累的实 战经验基础之上,加大投入支持力度,充分开展跨 学科跨专业的合作,积极开展原始创新,建立自主 的知识产权体系,才能在这样一个关键节点上真正 实现质的突破,从根本上实现我国生命科学事业从 追随到超越的跨跃式发展,从而在世界科学舞台上, 发出中国科学家自己的声音。

     

    展开全文
  • RNA测序研究现状发展 1 2,584 A+ 所属分类:Transcriptomics 收藏 通常来说,某一个物种体内所有细胞里含有的DNA都应该是一模一样的,只是因为每一种细胞里所表达的RNA之间存在差异...

    RNA测序研究现状与发展

    • A+
    所属分类:Transcriptomics
     

    RNA测序

    通常来说,某一个物种体内所有细胞里含有的DNA都应该是一模一样的,只是因为每一种细胞里所表达的RNA之间存在差异,才使这些细胞有所区别。诸如“为什么肿瘤细胞与正常细胞会不一样?”这样的重要问题都可以通过对这些不同细胞里的RNA进行研究来解决,比如转录组学(transcriptome)研究就是一个很好的方法,而这就需要用到RNA测序技术。本期的《自然 方法》(Nature Methods)杂志隆重推出了国际RNA测序基因组注释评价项目协会(RNA-seq Genome Annotation Assessment Project, RGASP)发表的两篇文章,这两篇文章向我们介绍了RNA测序领域的现状。RNA测序(RNA-seq)是最近兴起的一种基因表达研究技术,不仅可以对基因表达的情况进行整理、归类(cataloging),也可以对基因表达情况进行比较。国际RNA测序基因组注释评价项目协会(international RGASP consortium)最近发表的两篇论文报道了一场竞争程度相当激烈的、大规模的RNA测序热潮,各国的科学家们都在寻求最佳的RNA测序分析算法,而且结果也是出人意料的丰富多样。

    我们往往喜欢将某一个物种的基因组比喻成该物种的“生命秘籍(book of life)”。

    可为了解决基因表达问题,我们还需要另外一本秘籍。

    那就是转录组,我们不妨将之比作“生命杂志(newsstand of life)”,如下图所示。

    2

    转录组重建工作,就好像是把被碎纸机粉碎的杂志又一本本地重新拼接起来。

    有很多杂志(即RNA)每一期都“印刷”了很多本,其中有一些可能还有存货,还有一些留在报刊亭里,可是有一些却早就被“卖光”了。在过去,经销商们只会关注销量最好的杂志,而这种杂志每一本都非常贵,所以你可能也就买得起几本而已(喻指RNA研究技术和相关产品非常少,而且价格昂贵,科研人员只能对比较重要、热门的几种RNA进行研究)。可是现在,由于测序技术,以及相关技术的飞速发展,你可以把报刊亭里的所有杂志全都买回去,而且价格还不贵。唯一的区别就是经销商卖给你的并不是一本本的杂志,而是先把所有的杂志全都放进碎纸机里,然后把一大堆碎纸条卖给你。幸运的是,在这个虚拟的世界里,还有那么一大帮热心的社会改良家来帮忙整理碎纸条(tape-wielding dogooders,这帮人就是我们现实生活中的计算机程序开发人员),帮助我们将碎纸条还原成一本本的杂志。还有一群像RGASP这样的统计狂热分子也跑来凑热闹,他们组织了一场比赛,看看哪些人整理碎纸条的效率最高,准确率最高,能够又快又好地还原出杂志的本来面目。这个整理、拼接碎纸条的工作就是“转录子重建(transcript reconstruction)”工作,这也是Steijger等人的文章里最关注的工作。而转录子重建工作的重点内容之一就是将RNA测序得到的片段信息与该RNA来源细胞的基因组对应起来,这就是Engström等人的文章里最关注的工作。

    老实说,这场比试的结果有点让人失望。尽管从事这项工作的工作人员数量很多,重建工作的准确率(通过好几种方法和多种测序指标评价)却远远不及100%。以我们人类基因组为例,目前还没有一种转录子重建方法的准确率(以平均敏感度和准确性评价)能够达到60%。在线虫和果蝇重建工作中的准确率会稍高一些,但是这两种生物的基因组要比我们人类的基因组小得多,也要简单得多。而且这3个物种都是迄今为止被研究得最充分、最深入的3个物种。有很多物种只是最近才完成基因组测序工作,并没有太多时间完善这些物种的基因组序列,因此,对这些物种而言,它们的转录子重建工作会更加困难,准确性会更低。

    从理论上来说,RNA测序其实是一个非常简单的过程,只需要分离、得到RNA样本,然后用高通量测序仪对这些RNA样本进行测序,最后拼接出RNA序列就行了。那么问题究竟出在哪里呢?主要存在以下几个方面的问题:

    1. 我们获得的RNA样本与我们拿来最比较的基因组可能不是同一个来源的。这一点在人类基因组研究工作中尤为突出,因为人类参照基因组就是来自好几个人的基因组序列;

    2. RNA样本的制备过程可能有问题,其中包含了未经充分处理的RNA,或者其它转录子的噪音。而且测序的深度越深,这种问题就表现得越明显,这也刚好解释了为什么测序深度比较深的时候转录子重建工作的准确率会下降;

    3. 测序技术本身的问题。绝大部分测序技术都会使用到PCR反应,而我们都知道,PCR反应对GC含量高的序列比较“排斥”,所以这个测序过程本身就会自然而然地“偏向”GC含量低的序列。

    分辨出哪些RNA序列是真正的序列,哪些只是噪音信号是一个技术大难题,这可能也是导致众多算法所得出的结论千差万别的主要原因。如果在算法中采用了根据之前的数据建立的基因结构模型(model of gene structure),比如Augustus、mGene和Transomics(http://linux5.softberry.com/cgi-bin/berry/programs/Transomics/)等算法的表现要略好于没有使用这些模型的算法,这是因为如果使用了基因结构模型,他们还能够大概知道这些基因是个什么样子。所以要开发出更好的算法,首先就需要建立更好的基因结构模型。不过这需要在技术上有更大的发展。更低的差错率能够提高比对工作的准确性,而获得更长的测序结果,比如使用太平洋生物科技公司推出的测序仪(Pacific Bioscience),则可以让转录子重建工作更容易,甚至不需要进行转录子重建。

    虽然RNA测序分析工作的难度非常大,但是我们可以肯定,这项工作无论是对于分子生物学,还是计算机科学都有非常大的促进和推动作用。实际上,本期杂志刊出的这两篇文章都已经有点过时了。基因组学与生物信息学这两大领域都是瞬息万变的新兴科研领域,也许我们今天刚刚开展的工作,写下或者看过的论文,到了明天就被淘汰了。对于协会等组织开展的涉及大量数据的工作这一点表现得尤为突出。眼光挑剔的读者们看完了整篇文章之后,还是不知道在他们的实际科研工作中究竟应该使用哪种算法时可能就会指出,这些研究的意义究竟何在?

    不过这类研究工作至少能够起到以下这3点作用:

    1. 这些工作提供了一份宝贵的历史材料,让后人可以了解RNA测序等工作始于何时;

    2. 为目前的工作提供了一个宝贵的参照系,能够对最新的技术和进展进行检验;

    3. 促进了某个项目、协会和组织的建立,推动整个研究领域向前发展。

    最后这第3点尤为重要。如果你有机会接触、见证,甚至是亲自参加一次像RGASP,或者是Assemblathon(http://assemblathon.org/)这样的工作,你就会被这群科学家们的创造力、诚实和大度所折服。这些项目并没有获得太多特定的资助,他们所使用的数据可能也不会与某个特定的科学问题非常匹配,也常常会有“如果我们有这些数据该多好”之类的感慨,不过他们总是会竭尽所能地做到最好,这不是因为有人要求他们这么做,只是因为他们自己要求自己这么做。最终的结果可能不会让圈内人(甚至是圈外人)满意。Le mieux est l‘ennemi du bien(至真者,真之敌;至善者,善之敌;至美者,美之敌)这句老话同样适用于基因组学研究工作。

    参考原文:

    Ian Korf. Genomics: the state of the art in RNA-seq analysis. Nature Methods, 26 November 2013; doi:10.1038/nmeth.2735

    Tamara Steijger, Josep F Abril, Pär G Engström, Felix Kokocinski, Tim J Hubbard, Roderic Guigó, Jennifer Harrow & Paul Bertone. Assessment of transcript reconstruction methods for RNA-seq. Nature Methods, 3 November 2013; doi:10.1038/nmeth.2714

    原文来自:http://page.renren.com/601484932/channel-noteshow-920050838

    转载于:https://www.cnblogs.com/wangprince2017/p/9919298.html

    展开全文
  • sc-RNA seqIllumina测序

    2020-06-15 23:56:08
    对单个细胞做RNA表达情况的定量分析。基于油包水乳浊液酶反应原理的分子生物学分析系统。可以(1)做一群细胞当中,每个单细胞的RNA表达情况的定量分析。(2)染色体的单倍体长片段的组装。 一张芯片一次可以处理8...

    课程笔记

    10X genomics

    10X genomics技术:文献在10X官网中的publications。对单个细胞做RNA表达情况的定量分析。基于油包水乳浊液酶反应原理的分子生物学分析系统。可以(1)做一群细胞当中,每个单细胞的RNA表达情况的定量分析。(2)染色体的单倍体长片段的组装。
    在这里插入图片描述
    在这里插入图片描述
    一张芯片一次可以处理8个样本,每一列孔对应于一个样本。
    原理
    (一)微珠上DNA引物的设计
    在这里插入图片描述
    灰色的为凝胶微珠(gel beads),每个微珠上种上特定DNA片段。
    每个DNA序列分几段:
    (1)10X barcode(16个碱基长度,有400万种barcode),一个微珠对应一种barcode,可区分开凝胶微珠。任意两个barcode间至少差两个或两个以上的碱基,可避免测序时对碱基的误读导致的将两个barcode搞混。
    (2)UMI序列:unique multiplex index,是一段随机序列,每一个DNA分子,都有自己的UMI序列,12个碱基的UMI,有一百万种序列的变化(410=1,048,576)。在经过PCR、再深度测序得到的reads,可以看出哪些reads来自于一个原始cDNA分子的,这样,可以将起始于一个原始cDNA分子,因为PCR扩增而产生的多个reads,简并为一个原始的cDNA分子,可以排除各种cDNA因为PCR扩增效率的不同而导致的reads数量的偏差(PCR bias)。
    barcode是每个凝胶微珠的身份证号码,UMI为每个DNA标签分子的身份证号码
    (3)Poly(dT)序列,是与mRNA上的Poly(A)尾巴结合,作为逆转录引物,逆转录出cDNA.
    在这里插入图片描述
    Single Cell 3’ v3/v3.1 libraries are single-indexed.
    在这里插入图片描述
    在这里插入图片描述

    较短的 transcript read 可能会导致 transcriptome alignment rates 降低。 Cell barcode, UMI and Sample index reads 不得短于指示值。 任何read都可长于建议的。 在进一步分析之前,必须使用cellranger mkfastq或Illumina的bcl2fastq修剪 Sample index reads 中的其他碱基。 Cell Ranger 1.3或更高版本将自动忽略Cell barcode or UMI reads 中的其他碱基。
    在这里插入图片描述

    (二)芯片上的液流管路
    在这里插入图片描述
    最左边是准备好的凝胶磁珠,细胞混悬液(cell enzyme酶)在第一个十字交叉口与凝胶微珠混合到一起,进入第二个十字交叉口,油相加入,油把凝胶微珠和细胞的混悬液包裹成一个又一个的油包水的小液滴
    在这里插入图片描述
    在这里插入图片描述
    总体而言,许多油包水的小微滴组成一个乳浊液,在这些小液滴中,有些含有一个细胞,有些不包含细胞,有些有两个或两个以上细胞,一个小液滴中包含几个细胞符合泊松分布,大部分细胞被分配到一个小液滴中去。

    细胞混悬液中有约65%的细胞,会被包到有微珠的小液滴中。
    (三)做成测序文库
    得到乳浊液后,将细胞膜破掉,使细胞中的mRNA游离出来,与小液滴水相混合,即与逆转录酶、结合在凝胶微珠上的核酸引物、dNTP底物相接触
    在这里插入图片描述
    接着发生逆转录反应。mRNA与凝胶微珠上带标签的DNA分子相结合,在逆转录酶的作用下,逆转录出cDNA。此cDNA分子带有这个微珠所特有的barcode标签,还有特定的UMI标签
    在这里插入图片描述
    将乳浊液中所有的水相抽出来,即将所有带有标签的cDNA分子抽出来
    在这里插入图片描述
    将这些cDNA分子都加上接头,经过PCR扩增,做成illumina测序文库,进行测序
    在这里插入图片描述
    (四)数据分析
    大部分细胞是一个细胞有一个barcode,通过barcode可以将测序得到的reads归属到一个一个细胞,也会有少量的情况,两个或更多数量的细胞共享一个barcode,此时来源于这几个细胞的reads就混合成一个“pool”。为减少混合pool的形成,在做细胞混悬液时就要控制原始的细胞数。原始细胞数越少,最后形成的混合pool就越少,这是符合泊松分布的。经验值是一个样本混悬液当中的细胞数控制在一万以下为好。再通过UMI对reads进行简并后,就可以知道一个细胞被读到了多少个基因。

    原始的reads越多,则被测到的基因数也会越多。一般在一个细胞被读到30万条reads后,能得到的基因数量随reads数的增长变少,也就是被读到的基因数量的增加进入平台期。一般一个细胞可以得到40000~80000个有效的UMI。平均一个细胞的一个基因有10个左右的UMI。
    在这里插入图片描述

    一个细胞的一个基因表达量的多少就是衡量这个细胞的一个维度,多个基因就是多个维度,可以将细胞放在三维空间里,它们形成一定的分布。加上伪彩色,可以知道这一大群细胞的整体情况了。可在小群里再细分

    Illumina测序原理

    基于可逆终止的、荧光标记dNTP来做边合成、边测序的工作。
    在这里插入图片描述
    flowcell:有8条通道,其内表面做了专门的化学修饰,主要是用两种DNA引物种在玻璃表面。这两种序列与接下来要测序的DNA文库的接头序列相互补的,且这两种引物通过共价键连到flowcell上,接下来有大量液体要流过这个flowcell,用共价键不会被冲掉。

    文库制作:DNA文库实际上是许多DNA片段在两头接上了特定的DNA接头形成的DNA混合物。中间插入的序列是各种各样的,其两头的接头序列是已知的,人工特定加上去的

    将基因组DNA用超声波打断,在两头用酶补平,在3‘端加上一个A碱基,再用连接酶将接头连上去,形成一个文库。

    桥式PCR:将文库加到芯片上去,因为文库两头的DNA序列和芯片上引物是互补的,就会产生互补杂交
    在这里插入图片描述
    杂交后,加入dNTP和聚合酶,聚合酶会从引物开始沿着模版合成一条全新的DNA链(与原来的序列是完全互补的)。加入NaOH碱溶液,DNA双链就解链了。被液流一冲,原来的链(没有共价连接的链)就会被冲走,共价连接的链会保留下来。
    在这里插入图片描述
    再加入中性液体,为了中和碱液。这时,DNA链上的另外一端会和玻璃板上的第二种引物发生互补杂交。
    在这里插入图片描述
    加入酶和dNTP,沿着第二个引物合成出一条新链
    在这里插入图片描述
    再加碱,再解离开。再加中性溶液,与新的引物杂交,实现扩增。
    在这里插入图片描述
    把合成的双链变成可以测序的单链。通过一个化学反应,把一个引物上的一个特定基因给切断掉,再用碱液洗芯片,碱能让DNA解链,被切断的DNA链就被水冲掉了。

    测序
    加上中性溶液,并在里面加上测序引物。再加入一个是带荧光标记的dNTP(4种的荧光都不同),其3‘末端被一个叠氮基堵住,一个循环只能延长一个碱基;一个是聚合酶,根据互补性原理,把dNTP合成到新的链上去。在合成一个碱基后,用水将多余的dNTP和酶冲掉,放到显微镜下,进行激光扫描,根据发出的荧光判断是哪个碱基。再加入化学试剂将叠氮基团和荧光基团切掉。再加入新的dNTP和酶。
    在这里插入图片描述
    读取index (barcode)
    因为illumina的测序量很大,一个样本,用不了那么几亿条DNA,所以在文库的接头上做了一些标记,每一个样本有一个特定的接头,每个接头中有一段特定的序列(index,也有人叫做barcode,标记了样本的来源)
    在这里插入图片描述
    要读index序列,先用碱将上面的read 1序列解链掉,再加入中性液,加入index的测序引物,其结合位点正好在index序列旁边,进行第二轮测序,一般来说,是读6~8个碱基,可知这个DNA来自哪个样本
    在这里插入图片描述
    双端测序
    一根DNA链除了从正向读一遍,还可以从DNA的负向,再读一遍,可将测序的有效长度增加了一倍。

    先让DNA合成,合成出来的互补链,在原来的链的根上切一下,洗掉。再进行第二端的测序。
    在这里插入图片描述
    在这里插入图片描述

    在扩增时,芯片上有上亿个cluster,可同时读出来很多点。很大的测序量。

    链接: https://www.bilibili.com/video/BV1f4411n7x9?from=search&seid=7041193786175793256.

    展开全文
  • 在本研究中,它被用来促进与DNA微阵列和RNA测序表达值数据相关的特征的选择。 两个平台中的基因之间的相关性越高,与其相关的惩罚项越低。 Twiner代码文件包含: 用于GEO研究的微阵列数据采集 微阵列预处理步骤-分...
  • 高通量测序数据分析:RNA-seq

    千次阅读 2020-06-20 15:50:56
    深度测序相关数据库数据格式 SRA toolkit 一、NCBI 和EBI、DDBJ组成INSDC,数据内容相同所以找NCBI就行。 (一)NCBI常用数据库 GenBank:遗传序列数据库,收集了所有公开的DNA序列及其注释 GEO (Gene Expression...
    本文围绕RNA-seq学习路线进行生信入门,主要内容有:

    ☆ RNA-seq方法原理
    ☆ RNA-seq的生物信息分析
    1.数据获取
    测序数据下载与处理(SRA Toolkit)
    测序数据质控与过滤(fastp)
    2.序列比对(SAMtools、HISAT2)
    3.序列组装(StringTie、TACO)
    4.表达定量和差异表达分析(Salmon、DESeq2)
    5.GO和KEGG富集分析(clusterProfiler)


    ☆ RNA-seq方法原理

    在这里插入图片描述
    目的是要给mRNA测序,得到样本的基因表达信息。

    • llumina的Truseq RNA建库方法:

    带Poly(T)探针的磁珠与总RNA进行杂交,吸附其中的带Poly(A)尾巴的mRNA
    Mg”离子溶液处理RNA,把RNA打成短片段 被打断的mRNA片段,用随机引物逆转出第一链的cDNA,再合成双链cDNA
    在双链CDNA的两端加“A"碱基,并连上"Y“型的接头
    经过PCR扩增,成为可以上机的文库
    在这里插入图片描述

    起始总RNA质量控制:用电泳方法。rRNA占有总RNA的大部分,形成的峰越高/尖,RIN(RNA完整度评分值)越高,8以上质量比较好。
    测到的RNA片段 mapping到基因组上,进行样品的reads在参考基因上的分布均匀性(Gene coverage)统计。两端平衡的时候表示mRNA降解少(3’高降解多)。
    在这里插入图片描述
    在这里插入图片描述


    ☆ RNA-seq的生物信息分析

    一、深度测序数据获取

    和EBI、DDBJ组成INSDC,数据内容相同所以找NCBI就行。

    (一)NCBI常用数据库

    GenBank:遗传序列数据库,收集了所有公开的DNA序列及其注释 GEO (Gene Expression Omnibus)
    :收集整理各种表达芯片数据,后来加入了甲基化、lncRNA、miRNA、CNV等其他芯片,还有高通量测序数据。文献中常见GSM和GSE开头的编号,分别是GEO
    Sample和GEO Series的数据 PubMed / PMC (PubMed
    Central):前者把测序数据和文章联系起来,后者可以进行全文检索,无法访问校园网时可以替代Web of Knowledge
    RefSeq:为所有常见生物提供非冗余、人工挑选过的参考序列,通常包含:参考基因组、参考转录组、参考蛋白序列、参考SNP信息、参考CNV信息等等

    (二)测序数据的下载和处理:SRA Toolkit

    1. 测序数据序列格式
      (1)FASTA:表示生物序列的文本格式,基因组和EST序列常常采用
      在这里插入图片描述
      (2)FASTQ格式:表示生物序列及其质量的文本格式
      在这里插入图片描述
      (3)ncbi SRA (Sequence Read Archive) :存储高通量测序原始数据和比对信息,把FASTQ格式文件压缩为SRA格式
      在这里插入图片描述
      绝大多数分析工具不支持SRA,需要使用配套工具包SRA Toolkit先行处理
    1. SRA toolkit软件下载

    官网选择适合自己的版本下载。

    #我选的ubuntu版本,其他一样,把下载链接修改一下就好了
    wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.5/sratoolkit.2.10.5-ubuntu64.tar.gz  
    

    conda install sra-tools失败,只好用wget方法或者手动下载到linux盘符下。把安装包下载后用tar xzvf 解压,再配置完PATH就安装好了。
    检查配置:

    prefetch -V
    
    2.用SRAtoolkit下载并处理NCBI数据

    将 .sra文件转换为 .fstaq.gz文件的工具。用NCBI的SRR数据测试一下。
    (1)下载
    理论上下载东西都可以用wget,但是太慢了。单个数据下载还好,批量下载

    prefetch SRRxxxxxxx -O .  #-O . 指定到当前路径,否则默认路径难找
    

    在这里插入图片描述
    一个数据下了好久,大概1个多小时。不知道怎么优化。

    (2)解压

    fastq-dump SRRxxxxxxx.sra #解压后从sra文件变为fastq文件
    

    在这里插入图片描述

    双端测序数据要加–split-files,否则解压后两端的数据不会分开,难以被其他软件读取 如果所用分析软件支持读取gzip,建议加上–gzip,将解压后的数据用gzip压缩,避免占用过多空间

    fastq-dump --split-files --gzip xxx.sra
    

    (三)测序数据质控与过滤: fastp

    输出HTML和JSON报告,前者方便阅读,后者方便软件读取
    单端:fastp -i raw.fq -o clean.fq
    双端:fastp -i raw_1.fq -I raw_2.fq -o clean_1.fq -O clean_2.fq
    有必要附加的参数:-l 36 -j xxx.json -h xxx.html

    默认报告文件名 fastp.json 和 fastp.html,处理多个样本时极易互相覆盖,建议改为样本名称

    fastp参数设置

     # I/O options 输入输出序列文件
      -i <单端-输入文件名>
      -o <单端-输出文件名>
      -I <双端-输入文件名>
      -O <双端-输出文件名>
      
    #过滤后的最短序列长度
      -l 36  #默认15,建议设为36或40
    
    # reporting options 报告参数
      -j   <the json format report file name >
      -h   <the html format report file name >
      -R   "report_title"
    

    二、序列比对:HISAT2

    • 注释格式介绍
      (1)GFF/GTF格式:一般用于基因组和基因注释
      (2)SAM格式:储存序列比对到基因组上的信息的文本格式,
      在这里插入图片描述
      (3)BAMS:SAM的基础上,用二进制 (Binary) 编码,以便压缩体积。
      压缩率高于gzip,绝大多数下游分析工具使用
      (4)CRAM:在BAM的基础上,借助参考序列,进一步减少空间占用

    用SAMtools将SAM转化为BAM或CRAM格式

    samtools sort -o xxx.bam xxx.sam
    samtools sort -o xxx.cram --reference ref.fa -O cram xxx.sam  #加-O指定输出格式
    

    建立索引以便快速读取

    samtools index xxx.bam
    samtools index xxx.cram
    
    • 为什么要比对 (align / map)
      locate:测序所得的短序列在基因组的哪个位置
      variant:如果个别碱基与基因组不一致,是测序错误还是变异
    • 比对软件工作过程
      根据基因组序列FASTA和注释GTF,通过一定的算法编制索引
      FASTQ比对到索引,生成SAM文件
      如HISAT 和 Bowtie 基于BWT算法
    1. 用HISAT2建立索引

    有注释:基因组GTF文件Splice Sites和Exons信息,与基因组序列一起用于建立索引

    hisat2_extract_splice_sites.py genes.gtf > splicesites.txt
    hisat2_extract_exons.py genes.gtf > exons.txt
    hisat2-build --ss splicesites.txt --exon exons.txt genome.fa genome
    

    没注释:直接用基因组序列建立索引

    hisat2-build genome.fa genome
    

    结果产生索引文件genome(指向.ht结尾几个文件)

    2. 比对

    需要用-x指定基因组索引(genome)、-U或者-1、-2输入FASTQ文件、-S输出SAM文件,最好还有日志。

    hisat2 -x [index location] -U xxx.fq -S xxx.sam --summary-file xxx.align.log --new-summary #单端
    hisat2 -x [index location] -1 xxx_1.fq -2 xxx_2.fq -S xxx.sam --summary-file xxx.align.log --new-summary #双端
    

    比对结果解读
    在这里插入图片描述
    Aligned concordantly:两端都能合理地比对上
    Aligned discordantly:两端都比对上但不合理(位置或方向等不匹配)
    unpaired reads:只有一端比对上

    3. 比对结果评估

    reads匹配百分比
    reads随机性分布(reads比对到基因上的分布均匀说明打断的随机性好)
    匹配reads的GC含量和PCR偏好相关

    传统基于比对-组装的方法bam


    四、表达定量和差异表达分析

    (一)表达水平估计

    在获得转录组测序结果中的转录本及其功能注释信息后,就要根据测序reads比对到每个转录本中的数目计算该基因的表达水平,从而进行后续的分析。

    • 表达定量方法的两大阵营
      (1)Alignment-based
      传统方法,以BAM文件输入
      比对到基因组:Cufflinks, StringTie,结果易受测序片段长度影响
      比对到转录组:eXpress, Salmon,多做一次比对耗时偏多
      (2)Alignment-free
      以FASTQ文件输入
      quasi-mapping ≠ alignment,速度快
      结果较不易受测序片段长度影响
      代表工具:kallisto, Sailfish, Salmon

    拓展文献:Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie, and Ballgown
    Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis

    1.Salmon (Quasi) 流程

    salmon也可用于bam输入,此处以fasta输入为例:
    (1)用salmon index(支持读取gzip)建立索引

    salmon index -t transcripts.fa -i transcripts_index
    #可以是fa或fa.gz文件,建立的索引文件为transcripts_index
    

    (2)定量salmon quant分双端和单端,输入索引文件transcripts_index,输出结果文件夹transcripts_quant

    #双端测序
    salmon quant -i transcripts_index -l <LIBTYPE> -1 reads1.fq -2 reads2.fq --validateMappings -o transcripts_quant
    #单端测序
    salmon quant -i transcripts_index -l <LIBTYPE> -r reads.fq --validateMappings -o transcripts_quant
    ### --validateMappings 是官方推荐必加参数,先用敏感策略发现潜在mapping位点,然后打分并验证,提高准确度 
    

    注意LIBTYPE参数(1-3位字母)设置(让mapping rate正常):
    在这里插入图片描述
    (3)结果解读
    输出文件夹中的quant.sf,是一个TSV文件。
    在这里插入图片描述

    #EffectiveLength:计算得到的有效长度,考虑因素包括片段长度分布和序列特异性偏差等,有些下游分析会用到
    #NumReads :比对上的reads数量估计值,比对到多处的reads会根据相对丰度产生小数
    #TPM (Transcripts Per Million):转录本的相对丰度估计值,可用于下游分析
    
    note:转录本标准化/相对定量单位

    原始的read counts,处理为FPKM,RPKM,TPM等……
    三者区分?什么时候使用哪个指标?要看清软件输入用的指标。

    在这里插入图片描述

    (二)差异表达分析(鉴定差异基因)

    1.差异表达分析的方法和原理

    需要将定量后的结果(表达矩阵)作为输入,设置好分组信息,再进行差异表达分析。
    (1)方法:
    基于组装:Cuffdiff, Ballgown,准确性不足
    基于计数:DESeq2, edgeR(limma),前者更准确,后者支持无重复样本
    差异表达分析拓展
    其他:GEO2R(针对GEO数据)

    (2)标准化
    RNA-Seq分析需要对基因或转录本的read counts进行normalization,因为落在一个region内的read counts取决于基因长度和测序深度。
    →拓展文献Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data

    2.DESeq2流程

    (1)准备输入文件
    ①样本信息矩阵ColData:sample,condition
    设计比较矩阵(contrast matrix)告诉差异分析函数应该如何对哪个因素进行比较,[默认首字母靠前的condition为对照!]
    ②表达矩阵countData:gene,sample,counts
    如果用Salmon、Sailfish、kallisto 得到表达矩阵,那么就可以用DESeqDataSetFromTximport() 输入countData。其他导入方法还有DESeqDataSetFromMatrix()DESeqDataSet()
    在这里插入图片描述

    - 准备表达矩阵实例:从salmon到tximport
    #导入salmon定量的结果
    files <- file.path(samples$run, "quant.sf") #files是一个个quants.sf的路径,选样本名run一列
    #输入基因ID-TXNAME对应文件
    tx2gene <- read.table(file = "tx2gene.txt", sep = "\t")
    #定量化生成表达矩阵
    library(tximport)
    txi <- tximport(files, type="salmon", tx2gene=tx2gene)
    

    其中,tx2gene是转录本与基因的转换关系,可通过AnnotationHub包获取:

    ah <- AnnotationHub() #下载数据库
    sc <- query(ah, 'Saccharomyces cerevisiae') #查询物种
    sc_tx <- sc[['AH64985']] #选择ID下载详细内容
    k <- keys(sc_tx, keytype = "GENEID") #以基因ID为键名
    df <- select(sc_tx, keys=k, keytype = "GENEID",columns = "TXNAME") #调换顺序以符合tximport要求:tx2gene <- df[,2:1]
    

    (2)生成DESeqDataSet对象(tximport 导入为例)

    library(DESeq2)
    dds <- DESeqDataSetFromTximport(countData, colData = colData, design = ~ condition)
    #condition是数据框的因子。design说明要分析的变量
    #~在R里面用于构建公式对象,~左边为因变量,右边为自变量
    

    在这里插入图片描述

    (3)DESeq2差异表达分析
    ①标准化:DESeq()
    包括estimation of size factors(estimateSizeFactors), estimation of dispersion(estimateDispersons), Negative Binomial GLM fitting and Wald statistics(nbinomWaldTest)三步

    dds <- DESeq(dds)   #对dds矩阵对rawcount进行Normalize,不需事先标准化
    res <- results(dds)  #生成结果,一个DESeqResults对象
    summary(res)   #用summary看上调下调比例(默认KD vs control)、离群值等
    # resOrdered <- res[order(res$padj),] #p值排序
    

    在这里插入图片描述

    ②可视化:plotMA()
    MA图:M表示log fold change,衡量基因表达量变化,上调还是下调。A表示每个基因的count的均值。

    plotMA(res, ylim=c(-2,2))  #没有经过 statistical moderation平缓log2 fold changes的情况
    

    在这里插入图片描述

    library(apeglm)
    resLFC <- lfcShrink(dds, coef="condition_WT_vs_KD", type="apeglm") #经过lfcShrink 收缩log2 fold change
    plotMA(resLFC, ylim=c(-2,2)) 
    

    在这里插入图片描述
    ③确定阈值,筛选差异表达基因
    一般p-value<0.05是显著, 显著性不代表结果正确,只用于给后续的富集分析和GSEA提供排序标准和筛选。

    • FDR较正

    假阳性随检验次数增加而增加,通常取p<0.05,1000次检验可以有50次假阳性 Bonferroni
    校正:p值除以检验次数,0.05/1000=5×10-5,过于严苛导致大量假阴性 False Discovery Rate,常用
    Benjamini-Hochberg 即 BH 校正方法 将一系列的p值按照从大到小排序,然后利用公式计算每个p值所对应的FDR值:FDR
    = p×(n/i), p是p值,n是p值个数,最大的p值的i值为n,第二大则是n-1,依次至最小为1 将计算出来的FDR值作为新p值,如果某一个p值所对应的FDR值大于前一位p值(更大的p值)所对应的FDR值,则放弃公式计算出来的FDR值,选用与它前一位相同的值,因此会产生连续相同FDR值的现象;反之则保留计算的FDR值
    返回p值对应的FDR值

    res05 <- results(dds, alpha=0.05) #默认FDR小于0.1,现取阈值padj小于0.05。padj就是用BH对多重试验进行矫正
    res05
    summary(res05)
    

    在这里插入图片描述
    在这里插入图片描述
    筛选差异显著的数据后,建立基因-FC列表,用作后续富集分析:

    #提取差异表达基因集:选取上调FC>2(即log2FC>1)或下调<-2的基因
    diff_gene_info <- subset(res05, (log2FoldChange > 1 | log2FoldChange < -1))
    diff_genes <- row.names(diff_gene_info)   #
    #提取log2FoldChange信息的列表
    diff_gene_table <- as.data.frame(diff_gene_info)   
    geneList <- diff_gene_table[,2]   
    #log2FoldChange列表用names备注对应基因名称,排序
    names(geneList) = as.character(row.names(diff_gene_table))
    geneList <- sort(geneList, decreasing = TRUE)
    

    如果只提取上调/下调,步骤也相同,总之DESeq2用于提取我们所需的基因集。

    3.edgeR&limma流程

    文章


    五、富集分析

    富集分析在之前芯片数据分析基因的差异表达的文章中也有写到,再贴一遍富集分析介绍

    (一)GO富集分析
    1.什么是GO(Gene Ontology)

    基因已知的功能信息可以分为细胞组成 Cellular Component (CC)、分子功能 Molecular Function (MF)、生物过程 Biological Process (BP)三个域。
    每一个域根据具体功能不同又分为不同 GO term, 有三种关系:is a,part of,regulates,通过有向无环图连接成网
    在这里插入图片描述
    通过分析一组差异基因在功能的分类关系,可以找到差异基因在那些GO分类条目富集,寻找不同样品的差异基因可能和哪些基因功能的改变有关。
    官网有详细介绍和GO富集分析在线工具。

    2.实现工具
    • 在线分析工具
      agriGO

    • 利用本地数据库信息进行本地分析
      R语言的clusterProfiler包,topGO包

    3.GO富集分析:clusterProfiler包

    (1)enrichGO()生成enrichResult对象

    输入:
    ①待富集的基因集(如差异分析一步得到的上调基因)
    不难理解这种只用了基因集的富集分析算法属于过表达分析(over representation analysis)
    ②物种基因数据库(OrgDb查询

    library("clusterProfiler")
    library("org.xxx.db")    #物种基因数据库
    enrichGO_up_BP <- enrichGO(gene = up_genes, OrgDb = "org.Sc.sgd.db", keyType = "ENSEMBL", ont = "BP")
    #keyType和比对GTF一致,ont三选一
    

    (2)富集分析结果可视化
    用enrichplot包实现条形图barplot()、散点图dotplot()、有向无环图plotGOgraph()的绘制:

    library("enrichplot")
    barplot(enrichGO_up_BP, showCategory = 20) #条形图
    dotplot(enrichGO_up_BP, showCategory = 20)  #散点图
    plotGOgraph(enrichGO_up_BP) #有向无环图,颜色表示显著性,红色为最显著的10个
    

    ggupset包绘制upset图对基因集合可视化:

    library("ggupset")
    upsetplot(enrichGO_up_BP)  #upset plot是高阶的venn图,揭示基因和基因集之间的关系
    

    在这里插入图片描述
    对于表达水平,可以用heatplot()绘制热图:

    heatplot(enrichGO_up_BP, foldChange = gene_FC_list) #foldChange是排序后的FC-基因列表
    

    在这里插入图片描述

    (二)KEGG富集分析
    1.什么是KEGG PATHWAY
    • Kyoto Encyclopedia of Genes and Genomes (KEGG)京都基因与基因组百科全书
    • KEGG PATHWAY: is a collection of manually drawn pathway maps representing our knowledge on the molecular interaction, reaction and relation networks for: ①Metabolism, ②Genetic Information Processing ,③Environmental Information Processing ,④Cellular Processes ,⑤Organismal Systems,⑥Human Diseases,⑦Drug Development
    2.工具

    (1)在线工具
    KOBAS
    (2)本地工具
    clusterProfiler包

    3.KEGG富集分析:clusterProfiler包

    还是用这个包,与GO富集分析类似做法,只不过函数是enrichKEGG(),organism走(物种缩写查询)。

    enrichKEGG_up <- enrichKEGG(gene = up_genes, organism = "sce", keyType = 'kegg')
    barplot(enrichKEGG_up)
    dotplot(enrichKEGG_up)
    

    note:著名的clusterProfiler包可以完成许多类富集分析,有空仔细研究。 →clusterProfiler包富集分析


    参考文献:
    网络资料、上机课课件

    展开全文
  • 或者进行小分子RNA测序(small RNA sequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子。在转录组水平上,染色质免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技术相结合,从而检测...
  • 或者进行小分子RNA测序(small RNA sequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子。在转录组水平上,染色质免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技术相结合,从而检测...
  • 或者进行小分子RNA测序(small RNA sequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子。在转录组水平上,染色质免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技术相结合,从而检测...
  • 通过对16S核糖体RNA(16S rRNA)基因进行测序来评估细菌多样性已广泛用于环境微生物学中,特别是自从高通量测序技术问世以来。这些技术带来的另一项创新是需要开发新的策略来管理和研究生成的大量测序数据。这种情况...
  • 分别构建分离的DNA和RNA文库(需要反转成cDNA),DNA文库用于鉴定细菌、真菌、DNA病毒和寄生虫,而RNA文库用于鉴定RNA病毒和基于RNA测序的人类宿主转录组分析。用非靶向的下一代宏基因组测序(mNGS)方法对各种患者...
  • 它为kubernetes上的基因组测序提供了完整的解决方案,并支持主流的生物基因组测序方案,例如DNARNA和液体活检。 KubeGene基于轻量级容器技术和官方标准算法。 您可以使用KubeGene进行灵活,可定制的基因组测序...
  • 单细胞测序技术之研究必看8篇经典综述 单细胞生物学最近几年是...单细胞测序与普通测序不同在于普通测序所提取的RNA(或DNA)源于样本中的多个细胞,所以普通测序的结果不可避免的会受到不同细胞间异质性(Hete...
  • 参考: 独占鳌头的Illumina仪器(二代测序篇) HiSeq2000测序原理、流程仪器 NGS文库制备的方法比较[心得点评] 各种测序文库构建方式 样本:就是待测的DNARNA或蛋白序列,样本来源单一的就是单样本,样本来源于多...
  • R-loop及两种测序技术的介绍

    千次阅读 2020-03-24 19:46:45
    R-loop广泛存在于细菌、真菌、植物动物的基因组中,在基因转录、DNA复制、表观遗传修饰以及DNA损伤修复等过程中都具有重要作用,并许多重大疾病的发生和发展密切相关,是近年来分子生物学的一个新研究热点。...
  • 今天开始学习使用FastQC软件对范例SRA测序文件的质量进行分析。数据质控是一个综合的评价标准,其中...其中一些指标并不适合所有数据,例如DNA测序数据与RNA测序数据之间的差异等,要根据具体数据类型具体分析。 ...
  • 下文研究GDH合成RNA的结构特性的方法包括纯化GDH同工酶,通过同工酶合成RNA,将RNA反转录为cDNA,测序与基于遗传密码的DNA相比,cDNA的计算,G + C含量的计算,通过PCR扩增的稳定性分析; GDH的单个六聚体同工酶合成...
  • 从江浙蝮蛇毒腺中抽提总RNA,RT-PCR进行体外扩增,获得江浙蝮蛇蛇毒蛋白C激活因子基因,克隆至pGEX-5X-3载体中.对3个重组克隆分别作DNA全序列分析,通过遗传密码推导出相应的氨基酸序列.其它已知的丝氨酸蛋白酶型蛇毒...
  • Magic-BLAST is a tool for mapping large next-generation RNA or DNA sequencing runs against a whole genome or transcriptome.前面一段 时间看到NCBI上blast出了一个新系列,短序列的mapping。基本blast使用...
  • DNA是静态信息、RNA是动态信息,是某一时刻DNA表达谱的快照 课程大纲 RNAseq的应用 第二课 RNAseq技术 转录组概念 中心法则(高通量测序验证了中心法则是正确的) mRNA是编码RNA、其余RNA称为非编码RNA。(非...
  • RNA-seq数据分析(HISAT2+featureCounts+StringTie)

    千次阅读 多人点赞 2020-08-21 21:53:58
    大规模并行RNA测序(RNA-seq)已成为一种标准的基因表达检测方法,尤其用于询问相对转录本丰度和多样性。一些研究已经证实,它的测量精度可以其他成熟的方法如微阵列和定量聚合酶链反应(qPCR)相媲美[2-4]。它有蜜蜂 ...
  • 为了提高RNAseq数据的性能,我们基于DNARNA测序数据的偏倚归纳广义线性模型开发了一种体细胞突变调用者GLMVC。 通过MuTect和Varscan的比较,我们表明GLMVC在使用外显子组测序或RNAseq数据进行体细胞突变检测中...
  • microRNA(miRs)分化和癌症的许多细胞过程有关, 。 microRNA测序用于分析细胞中这些miR的组成,以及它们在健康和癌细胞等疾病之间的差异。 MicroRNA顺序命名。 如果microRNA具有以下名称/标识符: hsa-mir-...
  • DAP-seq(体外chip-seq){可同时做RNA-seq,以及DAP-seq和RNA-seq联合分析} DAP-seq实验步骤:载体构建-体外蛋白表达-DNA文库构建-亲和纯化-上机测序-数据分析。 研究非模式生物转录调控新技术DNA亲和纯化测序DNA ...
  • neoepiscope是一种经过同行评审的开源软件,可从DNA测序(DNA-seq)数据预测新表位。大多数新表位预测软件界限注意从最多一个体细胞突变而产生的新表位,往往只是一个SNV, neoepiscope的用途组装单倍型输出从一个...
  • 目的构建人表皮生长因子受体-2(HER-2)特异性核酶(ribozyme,RZ)及其底物基因的体外转录载体....结果 经DNA测序分别证实合成的RZ基因序列和通过RT-PCR扩增的HER-2 cDNA序列克隆入pcDNA3.1(+)中.结论 构建HER-2特
  • chip-seq技术

    2018-11-21 23:40:00
    该技术将染色质免疫沉淀与大规模并行DNA测序相结合起来鉴定与DNA相关蛋白结合部位。其可被用于精确绘制任意目的蛋白在全基因组上的结合位点。 主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生藕联,以RNA结合...
  • 与DNA不同,RNA丰度可能会变化几个数量级。 因此,从高通量测序数据鉴定RNA-蛋白质结合位点提出了独特的挑战。 尽管已经广泛研究了CHIP-Seq数据中的峰鉴定,但很少有专门用于峰调用RNA结合蛋白类似数据集的生物信息...
  • 在15个样品中进行RNA测序,其中包括7个开放样品,4个因黑暗或浇水而封闭的样品,并以组织样品(叶,花瓣,花萼和柱头)作为对照。 我们获得了72.75 GB的数据,组装成79,815个单基因。 开闭花药样品之间的差异表达单...

空空如也

空空如也

1 2 3
收藏数 47
精华内容 18
关键字:

dna测序与rna测序