精华内容
下载资源
问答
  • 蛋白质组学数据分析

    2018-03-25 17:00:44
    蛋白质组学数据分析
  • 实习5蛋白质组学数据分析;PowerPoint 演示文稿;蛋白质组学质谱分析背景介绍;PowerPoint 演示文稿;PowerPoint 演示文稿;PowerPoint 演示文稿;PowerPoint 演示文稿;PowerPoint 演示文稿;PowerPoint 演示文稿;...
  • 蛋白质组学提供了越来越多的模块集,以促进蛋白质组学数据分析中最常见的任务,例如: 多肽基本理化性质的计算: 质量和同位素分布 电荷和pI 色谱保留时间 访问常见的蛋白质组学数据: MS或LC-MS数据 FASTA...
  • 简介 蛋白质组学(Proteomics)是研究细胞、组织或...蛋白质组学数据分析的意义 蛋白质组的研究不仅能为生命活动规律提供物质基础,也能为众多种疾病机理的阐明及攻克提供理论根据和解决途径。通过对正常个体及病理个体

    简介

    蛋白质组学(Proteomics)是研究细胞、组织或生物体中蛋白质组成、定位、变化及其相互作用规律的科学,包括对蛋白质表达模式和蛋白质组功能模式的研究。对不同患病个体,特定表型以及正常样本的蛋白质组学数据进行研究分析,对寻找疾病的诊断标志、筛选药物靶点、毒理学研究等有重要意义。因此,根据不同的研究目的,不同的蛋白质组学研究技术被广泛应用于医学研究。

    蛋白质组学数据分析的意义

    蛋白质组的研究不仅能为生命活动规律提供物质基础,也能为众多种疾病机理的阐明及攻克提供理论根据和解决途径。通过对正常个体及病理个体间的蛋白质组进行比较分析,可以得到不同蛋白质在不同样本中的表达情况,找到差异表达蛋白,进而对差异表达的蛋白进行功能注释分析。通过数据挖掘,可以找到某些疾病特异性的蛋白质分子,它们可成为新药物设计的分子靶点,或者也会为疾病的早期诊断提供分子标志。例如,不少市场上的药物本身是蛋白质或其作用靶点为某种蛋白质分子。因此,蛋白质组学研究不仅是探索生命奥秘的必须工作,也能为人类健康事业带来巨大的利益。

    蛋白质组学数据分析在生物医学领域的应用

    1. 基础研究:蛋白质组学数据分析可以为疾病机制机理及药物靶标筛选提供数据基础。
    2. 疾病标志物研究:通过对不同疾病组织样本蛋白组学数据进行分析,挖掘相关诊断标志物以及预后标志物。
    3. 个性化诊断或治疗:对不同的样本组织进行分析,有助于诊断分型,以及个体化治疗。

    蛋白组学数据分析流程

    在这里插入图片描述

    展开全文
  • 蛋白质组学数据分析——(1)原理

    千次阅读 2019-10-24 14:07:17
    蛋白质组学数据分析——(1)原理 当前,关于高通量蛋白质组学的研究远不如NGS这般火热,网上关于这方面的知识也寥寥无几,从事这一行也有一段时间了,但还没好好总结过。加之过段时间可能要去做培训,所以是时候把...

     

    蛋白质组学数据分析——(1)原理

    当前,关于高通量蛋白质组学的研究远不如NGS这般火热,网上关于这方面的知识也寥寥无几,从事这一行也有一段时间了,但还没好好总结过。加之过段时间可能要去做培训,所以是时候把知识点总结一下,权当复习。当然整个蛋白质组学研究也算纷繁复杂,不可能面面俱到,而且很多东西我也在学习当中,肯定会出现不少纰漏。毕竟这份笔记主要还是用于自我查漏补缺,要是在此之外还能帮到需要的朋友,也算善莫大焉了。

    这一篇从原理开始讲起,后续会依次总结蛋白质组学鉴定、定量、注释、翻译后修饰、靶向等基础内容,当然最后也会讲到下游数据分析处理。

    一、蛋白质组学概述

    蛋白质组学是特定系统内蛋白质集合及其相互作用的研究。

    蛋白质组研究本质上指的是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上的关于疾病发生,细胞代谢等过程的整体而全面的认识,这个概念是在1994年Marc Wilkins首次提出的。

    为什么要研究蛋白质组学?

    我想一句话就够了:蛋白质是生命活动的物质基础,是生命的执行者。

    用业内通俗的话说解释各个组学的作用就是:基因组解释能发生什么?转录组解释将发生什么?蛋白组解释在发生什么?代谢组解释已发生什么?

    蛋白质组学是后基因组时代的产物,作为中心法则的下游,其复杂程度远远超过基因组学。基因组的存在是相对稳定的,而细胞和细胞之间的蛋白质组则是随蛋白质和基因以及环境的生物化学反应而变化的。同一生物在生物体不同部位、生命的不同时期以及不同的环境中,具有不同的蛋白质表达。

    人类基因组测序计划的完成并没有给人提供解开生命的密钥,科学家把兴趣转到蛋白质,希望通过蛋白质组的研究来进一步解开生命的本质。

    二、质谱仪结构及原理

    先看下面这张图,大致说明了蛋白质组学分析鉴定的流程。简单来说就是样本制备后分离进入质谱仪中,产出具有质荷比信息的实际谱图,再和数据库产生的理论谱图进行匹配打分,从而推断出蛋白信息。后续将会详解这一部分。

    蛋白质组分析鉴定流程

    从上图我们可看出高通量蛋白质组学的研究离不开质谱仪,要想理解蛋白质组学数据分析原理,首先就要明白质谱仪的工作原理。

    1.质谱仪的发展

    质谱仪发展的几个标志性阶段

    上世纪初,JJ. Thomson发明第一台质谱仪;
    40年代,质谱仪用于同位素测定和无机元素分析;
    60年代,开始出现气相色谱-质谱联用仪应用于有机物分析;
    80年代,以电喷雾、基质辅助激光解析电离为基础的液相色谱-质谱联用仪应用于蛋白质等生物大分子检测。

    2.质谱仪结构

    简单来说,质谱仪就是用来测定气态离子质荷比(m/z)的仪器。首先放个图,直观感受下质谱仪长啥样。嗯,我觉得比测序仪丑,但是价格却不比测序仪便宜。
    质谱仪

    质谱仪类型可分为无机质谱仪、同位素质谱仪、有机质谱仪、生物质谱仪。后两者用途比较广泛,用于蛋白质组学分析的质谱仪属于生物质谱仪,主要由以下几种结构组成。

    1)进样系统
    按物质形态,无非气体、固体、液体三种。按进样方式,有气体扩散进样、直接探针进样、色谱进样等。

    2)离子源
    离子源的作用是将被分析的样品分子电离成带电离子,并使其在光学系统作用下聚成一定形状和能量的离子束,然后进入质量分析器被分离。

    离子源可分为硬源和软源,硬源离子化能量高,谱图复杂,可得到分子官能团信息;软源能量低,产生碎片少,谱图简单,可得到分子离子峰。常见硬软电离源如电子轰击电离源(EI)、化学电离源(CI)、场致电离源(FI)、场解析电离源(FD)、快原子轰击电离源(FAB)、大气压化学电离(APCI)、大气压光电离(APPI)、电喷雾电离(ESI)、基质辅助激光解析电离(MALDI)等等。

    与GC串联的离子源有电子轰击电离源(EI)和化学电离源(CI),常用于代谢组学。与LC串联质谱的离子源有电喷雾离子化(ESI)、基质辅助激光解析电离(MALDI)大气压光电离(APPI)等,常用于蛋白质组学,也正是ESI和MALDI的发明获得了诺贝尔奖。

    ESI采用强静电场(3-5KV),形成高度荷电雾状小液滴,经过反复的溶剂挥发-液滴裂分后,产生单个多电荷离子,电离过程中,产生多重质子化离子,主要用于LC-MS联用仪。

    MALDI可使热敏感或不挥发的化合物由固相直接得到离子。波长为1250-775的真空紫外光辐射产生光致电离和解吸作用,获得分子离子和有结构信息的碎片,适于结构复杂、不易气化的大分子,并引入辅助基质减少过分碎裂。一般采用固体基质,基质样品比为10000/1。根据分析目的不同使用不同的基质和波长。
    ESIMALDI

    3)质量分析器
    质量分析器是质谱仪的核心,将带电离子根据其质荷比加以分离,以便用于纪录各种离子的质荷比和丰度信息。通常不同类型的质量分析器组合会构成不同功能的质谱仪,这就是所谓的串联质谱。

    目前最常用的质量分析器有:A.四级杆(Quadrupole);B. 飞行时间(time-of-flight,TOF);C. 离子阱(ion trap);D. 静电场轨道阱(Orbitrap)。
    4种常见的质量分析器

    飞行时间质谱 (TOF),分析物的质荷比是根据分析物在真空飞行管中的飞行时间推算出的。飞行时间质谱的质量分析器由调制区、加速区、无场飞行空间和检测器等部分组成。通过离子源得到离子以后,离子经过一个加速的区域,所有的离子都会获得一个相同的初始动能,然后它们进入一个没有电场的区域,不同质量的离子具有不同的能量,重的离子飞行速度会慢一些,轻的离子飞得快一些,最终离子都会通过整个飞行区域,到达检测器。飞行时间是与质荷比的平方根成正比的,通过无场区的飞行时间长短不同,离子可以依次被收集检测出来。这种质量分析器结构简单、扫描速度快、灵敏度高、质量范围宽。TOF质谱仪的外表特点就是非常长,为了让离子能够尽可能跑得远一些。
    AB 4700和Bruker Ultraflex质谱仪

    四极杆 (Quadrupole, Q)由四根平行的棒状电极组成而得名。四根电极分成两组,两个相对的是一组,在相对的电极上加上一个相同的交流电压和直流电压,而在相邻的电极上,则加上相反的交流电压和直流电压,通过叠加交流电压和直流电压,不同质荷比的离子进入四级杆以后,会发生震荡,然后飞行转圈,当扫描的电压和频率一定的时候,只有特定质荷比的离子才能穿过四级杆。通过改变四级杆上的电压,我们可以让不同质荷比的离子依次穿过质谱仪,到达检测器。而其它质荷比的离子就会因为偏转太多,而打到四级杆上,或者从缝隙里穿出。这种质量分析器结构简单、体积小,仅用电场不用磁场,扫描速度快,特别适合液相色谱联机,分辨率不高,对高质量离子有质量歧视效应。四级杆质谱仪的外观结构比较紧凑。
    四级杆

    离子阱(ion trap)与四级杆原理类似,因此也称四级离子阱,它的横截图跟四级杆质谱仪是一样的,只是它的侧面开了一个洞,来作离子弹出用的。四级杆质谱仪中,离子是穿过质谱仪飞出去的,而在离子阱质谱仪中,离子不会飞出质谱仪,而是一直在阱里面,沿着下图像8字型的轨迹飞行(阱指的就是陷阱,把离子包在里面一直转圈)。当扫描电压达到一定的数值以后,离子会被射出来。比四级杆灵敏度更高,质量范围大。离子阱分为线性离子阱和三维离子阱。线性离子阱具有更大的离子容量和扫描速度。也有人将静电轨道离子阱(Orbitrap)归并为离子阱的一类。
    离子阱

    TOF只能检测不同质荷比的离子,却不能选择让哪些离子留下,而四级杆和离子阱既可以检测离子,同时也可以实现离子的选择,将想要的离子留在离子阱中,或者说让特定的离子穿过四级杆。所以四级杆或离子阱又叫质量过滤器,它可以过滤特定质荷比的离子。所以质量分析器其实包括两个部分,即质量过滤器和质量检测器。

    Orbitrap的工作原理类似于电子围绕原子核旋转。由于静电力作用,离子受到来自中心纺锤形电极吸引力,由于离子进入离子阱之前的初速度以及角度,离子会围绕中心电极做圆周运动。通过傅立叶变换(Fast Fourier Transform, FFT),得到频谱图。因为共振频率和离子质量的直接对应关系,可以由此得到质谱图。

    另外还有一类常用的是傅立叶变换离子回旋共振质量分析器(FTICR),基于在强磁场中,离子的回旋频率与离子质量成反比,所以测量离子的回旋频率可以获得其质量。它无需分离不同质荷比的离子,而是在同一时间内同时测量所有离子的质荷比和丰度,最大限度地利用全部离子的信息,所以分析灵敏度高。但是FTICR对真空度要求极高,同时强磁场需要庞大的超导磁铁产生,所以成本很高。

    FTICR和Orbitrap都是是基于离子在场中回旋运动,通过测定回旋共振频率,并进行傅里叶变换,来测定离子质荷比,区别在于Orbitrap用的是电场,而FTICR用的是磁场,所以Orbitrap性价比高,应用更广。

    4)检测器
    如电子倍增器、闪烁检测器、法拉第杯、照相检测等。

    5)其他
    除此之外,还包括真空系统,使离子可以稳定地飞行,不受其它空气分子的干扰。计算机系统,实现质谱仪的控制和数据的采集。气体系统,气体供应和废气处理(氮气、氩气)。电力供应,UPS不间断电源系统。

    3. 质谱仪参数

    评估一台质谱仪的性能,通常有以下指标:

    1)检测限
    与三倍噪音相当的物质的量,可以理解为这是质谱仪能够检测到的最低含量化合物的浓度。通常会用利血平来作为一个标准的化合物测定质谱仪的检测限。

    可以认为,灵敏度与检测限评估的是同一种性能。

    2)线性范围
    表示在什么样的浓度范围之内,质谱仪检测到的信号与样品浓度之间成线性的关系。也就是说在这个浓度范围内的样品用这台质谱仪检测是比较合适的,高于或低于这个浓度范围的样品,需要浓缩或者稀释后才能用这台质谱仪检测。

    一般质谱仪的线性范围在3-6个数量级,即1,000—1000,000范围内。而大部分质谱仪在1000 – 10,000这个范围内。

    这个参数的意义在于,当我们的样品在一个比较宽的浓度范围内时,如果质谱仪的线性范围非常好,就不需要浓缩低浓度的样品,也不需要稀释高浓度的样品,可以直接进样,这样就可以大大减少样品前处理的复杂程度,节省时间和实验步骤。

    3)分辨率

    即我们通常所说的高分辨质谱。
    image.png
    分辨率就是质谱仪可以分辨最靠近的两个质谱峰的质量差值。当两峰重叠部分的高度不超过任何一个质谱峰峰高10%时,一般认为这是两个可分离的峰,测定其中任何一个质谱峰的半峰宽(即峰高一半处的峰宽),然后用任何一个峰的质荷比除以半峰宽,就可以得到分辨率。

    目前高分辨质谱仪的分辨率可以达到50,000-100,000的数量级,一般的四级杆可以达到5,000-10,000。
    image.png
    上图圈出的峰在低分辨率时只能观察到一个峰(一个化合物),随着分辨率上升可以看出,这其实是两个不同峰的峰,所以高分辨率能获得更全面的化合物信息。

    4)质量准确度
    指质谱仪测到的质荷比与它实际的质荷比的差值,除以它真实的质荷比与1,000,000的乘积。所以它是以ppm为单位的(百万分之一),这个数值看起来更方便。目前高分辨质谱仪质量准确度在2-5个ppm的范围之内。

    质量准确度高,可以大大减少候选化合物的数量,提高鉴定的成功率。

    分辨率与质量偏差分别评估了质谱仪的精密度与准确性,通常希望两者都高。就像我们打靶,比如打靶,若每一次都打在不是靶点的同一个点,说明精密度非常高,但准确性却比较差;若每次打的点很分散,但平均起来的位置刚好在靶心,则说明质量准确性还可以,但精密度比较差。

    目前我们能用到的高分辨质谱仪,不管是QTOF或者Orbitrap系列,都可以达到50,000以上的分辨率,同时也可以达到2-3ppm的质量准确性。下图是目前常用质谱仪的重要参数比较:
    质谱仪参数比较
    对于蛋白质组学研究来讲,我们对质谱仪器性能的最低要求是:分辨率至少在40,000-50,000,质量准确性应该优于5ppm,质量扫描范围应该在100-3,000,扫描速度是每秒至少获得一张高分辨的一级谱图和十张高分辨的二级谱图。

    4. 串联质谱仪

    串联质谱(MS/MS)就是将相同或者不同的质谱仪串联起来,实现串联或者并联工作。这样做一是为了产生二级碎片离子,二是实现不同质谱仪性能的优势互补。

    常见的串联质谱有:

    三重四级杆(Triple Quadrupole),或者串联四级杆,就是把三个四级杆串联起来,这样做的主要目的是为了实现二级质谱的扫描。

    四级杆和飞行时间质谱仪串联到一起,就是我们经常听到的Q-TOF,它实际上是为了提高二级质谱的分辨率。

    Orbitrap与四级杆/离子阱组合,比如Orbitrap Fusion,Orbitrap Elite等组合。

    下面,用三重四级杆的例子来说明串联质谱仪是如何获得二级碎片离子的。
    串联四级杆

    第一个四级杆Q1开启质量选择模式,它让特定质荷比的离子穿过质谱仪,而把其它的离子都甩掉(甩到四级杆上或者四级杆的空间当中去)。当特定的离子被选择好后(称为母离子,precursor ion),会进入碰撞池Q2(collision cell,用来碎裂离子)。在碰撞池里通常入口电压会高于出口电压,当母离子进来以后,通过电压差的作用加速,然后与碰撞池里的氦气或氮气分子发生碰撞、碎裂,形成碎片离子(fragment ions,也称子离子)。最后,这些碎片离子进入第三个四级杆Q3中进行二级的扫描,得到二级质谱图。
    二级质谱图示例

    其他的串联质谱运行大体是一样的。

    Q-TOF,Bruker生产,Q1四级杆,Q2碰撞池,Q3飞行时间质谱仪。这里用了一个反射模式飞行(让离子拐个弯再飞回来),让离子在更短的空间内可以飞得更远一些。

    Q-TOF
    Orbitrap系列,如Q Exactive质谱仪,Q1也是一个四级杆,Q2是碰撞池,Q3是被一个Orbitrap所取代。

    image.png
    QE

    Orbitrap Elite,Q1离子阱,Q2碰撞池,Q3为Orbitrap。

    Orbitrap Fusion,Q1四级杆,Q2离子阱,Q3为Orbitrap,同时还有一个碰撞池,整体是一个非常复杂的结构。它的特点是Orbitrap与离子阱可以同步进行扫描(一般质谱仪的两个质量检测器是不能同时扫描的,只能一个做质量检测,一个做质量过滤),所以扫描速度会更快,性能也更好。Fusion的分辨率可达到240,000 – 960,000。

    三、蛋白质组学的鉴定原理

    蛋白质组学鉴定常用基于二维凝胶电泳和基于质谱两种方法。

    1.基于二维凝胶分离 (2D-Gel)鉴定

    这是传统蛋白质组学鉴定方法。大致原理是2D-Gel根据蛋白的等电点和分子质量的差异,通过等点聚焦和SDS-PAGE分离,通过染色和成像把不同电性和大小的蛋白质显示在凝胶上。

    具体来说,就是利用聚丙烯酰胺凝胶(SDS-PAGE)电泳的电荷效应和分子筛效应,使之凝胶电泳迁移率与所带的电荷多少以及分子大小都有关,电荷越多跑得越快,分子越小跑得越快。
    SDS-PAGE 蛋白质凝胶电泳图
    这是蛋白质组学湿实验常用鉴定方法,不是我们关注的重点。当然在基于质谱技术进行蛋白质鉴定前,也常常用这种方法来进行分离预处理。

    2.基于质谱(MS)鉴定

    1)鉴定大致流程

    常规的蛋白质谱鉴定路线有这么几个步骤:
    样本制备:细胞、组织、血液;蛋白复合体;特异修饰蛋白(如磷酸化、糖基化、泛素化等);
    样本分离:1-D gel;2-D gel;LC(liquid chromatograph);
    质谱分析:如MALDI-TOF、ESI-MS等;
    数据库搜索:Sequest;Mascot;MaxQuant等;
    数据分析:R、Linux、Perl、Python等。

    2)色谱分离

    色谱/层析(chromatography)是一种分离复杂混合物中各个组分的有效方法。它是利用不同物质在由固定相和流动相构成的体系中具有不同的分配系数,携带样品的流动相穿过固定相时,由于样品各组分理化性质存在差异,与固定相作用力弱的组分,移动速度快;反之,移动速度慢。根据不同的保留时间,收集特定属性的样品进行进一步分析。色谱有多种,可以按固定相类型和分离原理进行分类,根据流动相的不同可分为气相色谱和液相色谱。

    根据相互作用类型的不同,色谱法可分为吸附色谱法:物理吸附法,分配色谱法,离子交换色谱法,尺寸排阻色谱法,亲和色谱法等等。目前,在蛋白质组学研究中,用得最多的就是分配色谱法,就是根据样品在固定相与流动相之间溶解度的差异来实现多肽或蛋白的分离。实际上是利用了多肽或蛋白疏水性上的差异。

    液相色谱仪主要由以下4个部分组成:
    色谱柱:玻璃柱+固定相
    流动相输送系统:色谱柱填料很细,只有一点几微米到几微米,需要用一个泵来把流动相挤压下去。所以液相色谱要配一个泵系统,来输送流动相。
    进样系统:用密封的系统需要一个自动进样器来完成。
    检测系统:现在常用的有紫外或荧光,最简单的就是用肉眼来观察是否有样品流出。
    液相色谱

    上图左边是戴安的液相色谱仪,从上往下依次是泵系统、进样系统、柱系统和检测系统,右边是Waters的液相色谱仪,也是类似的结构。

    对于蛋白质组学领域,常用的液相色谱仪是纳升液相色谱,其特点是色谱柱细,流速慢,减少样品被流动相稀释的倍数,从而提高检测的灵敏度。

    高效(高压/高速)液相色谱(high performance liquid chromatography, HPLC)是目前很常用的一种液相色谱方法。其流动相为液体,在高压作用下快速流过固定相,分离效能高,灵敏度高,应用范围广,柱子可反复使用。最早洗脱出的是越亲水的。

    3)液质联用技术

    对于蛋白质组学研究来说,液相色谱和质谱是不能单独工作的,它们必须联机工作,才能实现对蛋白质的检测。

    液相色谱仪是在常温常压下工作的,柱子是放在空气中运行的,而且样品是溶解在流动相(水或有机溶剂)当中的。而质谱仪需要在真空环境下工作,样品需要从溶液状态转化为气态,而且需要被电离。所以总的来说,我们需要一个电离源,能把样品从常温常压的液相状态直接变成真空中的气态离子状态。

    电离源要实现的功能有三个:一是去溶剂和气化,把样品中的溶剂去掉,将待检测的多肽分子变成多肽的气态分子;二是将多肽的气态分子离子化,让它们带上电荷;三是把多肽的气态离子送到真空当中。

    电喷雾电离(ESI)实现了这些,具体过程是这样的:样品首先通过一个毛细管喷针被喷出来,进入质谱仪,而在喷针的外面,会用一个鞘气(sheath gas)来辅助样品的雾化。对鞘气进行加热,当加热的鞘气吹到样品中或者溶液中时,溶液中的流动相或者溶剂就会挥发,就会剩下气态的离子。同时,在毛细管喷针尖端与质谱仪的入口之间,还会加一个电压,叫High voltage,对这些待电离的分子,首先溶剂挥发掉,然后分子被气化,最后在电场的作用下,分子就会变成离子,实现电离的过程。最后,这些离子会被质谱仪入口处的真空抽到质谱仪里,同时被电场驱动进入质谱仪。于是,就实现了气化、电离以及真空过渡三重需求。这就是液相色谱与质谱的接口,即ESI电喷雾电离。
    ESI原理

    简单来说,色谱用来分离化合物,质谱用来分析纯物质的结构。

    3.蛋白质组学分析策略

    1) Bottom up

    目前蛋白质组学分析应用最广的方法。也是我们所说的“鸟枪法(shotgun)”,此处的“bottom”指的是肽段,“up”则是由肽段推理为蛋白的过程。即先将蛋白酶解成肽段,然后通过色谱分离肽段混合物,再用质谱技术将肽段碎裂,根据碎裂谱图的离子峰信息进行数据库搜索来鉴定肽段,最后将鉴定的肽段进行组装、重新归并为蛋白。

    该方法技术发展成熟,相关的软件工具及算法都比较多,适合分析复杂样本。缺点是蛋白序列覆盖度不完整,据说覆盖度仅10%-20%。这就导致氨基酸序列高度相似的蛋白质变体(proteoform)推理不准确,而且由于是逆向组装蛋白,不适合进行翻译后修饰的检测。

    2) Top down

    这里的“top”指的是完整蛋白质分子的质量测定,“down”则是指对完整蛋白的碎裂。无需酶解,通过完整蛋白质的质量及其碎裂谱图信息可以实现真正意义上的蛋白质鉴定,序列覆盖度高(号称100%),能保留多种翻译后修饰之间的关联信息。但是该方法通量较低,不适合分析复杂样本,在完整蛋白质分离、质谱分析、生物信息学等各方面的技术相对也不完善。

    蛋白质谱原理暂时介绍到这里,主要还是介绍质谱仪的相关常识,下篇笔记将重点介绍基于串联质谱以及bottom up方法的蛋白质组学鉴定分析流程。

    Ref:
    ps:文中部分图片来自来自中国农业大学生物学院的李溱老师
    http://www.crickcollege.com/news/179.html
    http://www.crickcollege.com/news/220.html
    http://www.crickcollege.com/news/222.html
    http://www.crickcollege.com/news/233.html
    https://wenku.baidu.com/view/d881c10502020740be1e9bad.html
    https://wenku.baidu.com/view/85e9bbe9a5e9856a571260a0.html

    分类: Proteomics

     

    展开全文
  • 卡塔尔Weill Cornell医学院蛋白质组学核心所使用的R包,用于分发数据分析功能。
  • ProteoWizard库和工具是一组模块化且可扩展的开源,跨平台工具和软件库,可促进蛋白质组学数据分析。 这些库通过提供一个健壮的,可插拔的开发框架来实现快速的工具创建,该框架可简化和统一数据文件的访问,并执行...
  • 我们进行了基于适体的蛋白质组学先导研究,以鉴定可将培养证明的UTI与培养阴性样品区分开的尿蛋白水平,而不论脓尿状态如何。 我们分析了16例尿路感染儿童,8例文化性脓尿和8例尿液培养阴性且无脓尿的尿液。 使用...
  • 支持大型和复杂的元蛋白质组样品的生物多样性和功能分析以及肽段的分析。 Unipept的4.0版本为该工具带来了功能分析。 和可用于与其他程序集成。 贡献 发现一个错误或有一个很棒的新功能的想法? 使用github或在给...
  • PANOPLY:基于云的平台,用于自动化和可重复的蛋白质组学数据分析 版本1.0 PANOPLY是一个平台,可用于应用最新的统计和机器学习算法,将癌症样品中的多组数据转换为生物学上有意义且可解释的结果。 PANOPLY利用一种...
  • GlycoPAT 是一个基于 MATLAB 的模块化开源工具箱,用于基于鸟枪质谱的糖蛋白质组学数据分析。 该程序为基于传统 LC-MSn 的高通量实验数据进行简化分析提供了一个新平台,用于鉴定各种蛋白质上的位点特异性 N 和 O ...
  • 使用数据独立采集(DIA)进行基于质谱的蛋白质组学数据鉴定和定量分析的计算软件包
  • PANDA是用于定量蛋白质组学数据分析的全面而灵活的工具,它是基于我们多年来在定量蛋白质组学的坚实基础上开发的。 在其中实现了一些新颖性。 首先,我们将LFQuant(Proteomics 2012,12,(23-24),3475-84)和...
  • CPFP 为分析 MS/MS 蛋白质组学数据提供了一条管道,针对中央蛋白质组学设施的需求。 == 项目状态 - 2019 年 1 月 3 日更新 == 自 2014 年我离开 UTSW 的蛋白质组学小组以来,CPFP 一直没有得到积极开发。 要访问用于...
  • 组学 Berezovski实验室开发的用于分析蛋白质组学数据的框架
  • 蛋白质组学与转录组学联合分析

    千次阅读 2021-01-20 11:36:55
    简介 蛋白质是生物体最终的功能执行着,其含量随着生物体的生长、环境应激反应、疾病发生发展的过程不断变化,因此,对...蛋白质组学与转录组学联合分析, 就是通过对转录组数据和和蛋白质组数据进行联合分析,挖掘mRNA

    简介

    蛋白质是生物体最终的功能执行着,其含量随着生物体的生长、环境应激反应、疾病发生发展的过程不断变化,因此,对蛋白质的解析意义重大。转录组是连接基因组和蛋白质组的中间模块,从DNA转录成mRNA,再翻译成蛋白质的过程中,涉及到一整套精细的表达调控机制,如转录调控,转录后调控,翻译调控,翻译后调控等。研究表明转录组和蛋白质组的相关系数并不高,表明在这个过程中,翻译和翻译后调控对蛋白质的表达具有非常重要的调控作用。

    蛋白质组学与转录组学联合分析, 就是通过对转录组数据和和蛋白质组数据进行联合分析,挖掘mRNA与蛋白的表达水平,充分利用转录组和蛋白质组研究的差异性和互补性,对基因的表达水平进行全方位的衡量,以获得基因表达各个步骤表达和调控的全景图,发掘常规单个组学未能发现的新结果。全面探究生物体疾病机理,生长发育机制等。

    蛋白质组学与转录组学联合分析一般分析流程
    在这里插入图片描述
    主要分析内容

    • 定性关联分析
    • 共有基因分析
    • 转录组与蛋白组定量关联分析。
    • mRNA与蛋白表达趋势一致的基因pathway分析。
    • mRNA与蛋白表达趋势相反的基因pathway分析。
    • 蛋白表达无变化,对差异表达mRNA对应的基因进行pathway分析。
    • mRNA表达无变化,对差异表达蛋白对应的基因进行pathway分析。
    • 转录组与蛋白组表达模式分析。
    • 蛋白相互作用网络分析。

    应用示例

    人类结肠癌的蛋白基因组分析揭示了新的治疗机会

    Proteogenomic Analysis of Human Colon Cancer Reveals New Therapeutic Opportunities
    文章链接 https://www.sci-hub.ren/10.1016/j.cell.2019.03.030
    在这里插入图片描述
    蛋白组学与多组学联合分析,揭示Rb的磷酸化与结肠癌的进程密切相关并可作为治疗靶点
    在这里插入图片描述

    展开全文
  • 该存储库包含一组用于分析蛋白质组学数据的计算工具。 一般系统说明 这些工具旨在帮助研究人员回答有关蛋白质组学数据的问题。 这些工具帮助提供答案的一些具体问题包括: 蛋白质组 A 和蛋白质组 B 中是否存在胰...
  • LFQuant 是一种用于无标记 LC-MS/MS 定量蛋白质组学数据的新分析工具。 它与具有目标诱饵搜索策略的高分辨率质谱仪(Thermo RAW 数据)和两个流行的数据库搜索引擎(SEQUEST 和 MASCOT)兼容。 LFQuant 是用 ...
  • GAPE 是一种一站式蛋白质基因组学信息学软件,可在蛋白质基因组数据分析周期中针对真核生物提供多方面的标准工作流程,用于基因组细化和 PTM 事件的全局识别。 该软件允许同时查询蛋白质组和基因组数据库,以全面...
  • 导读同更为成熟的基因组学、转录组学一样,基于质谱的蛋白质组学数据共享在科研实践中越来越常见。本文作者为我们强调了该领域这一空前的现状,为一些数据科学家带来了无限机遇。本文主要通过三个层面...

    导读

    同更为成熟的基因组学、转录组学一样,基于质谱的蛋白质组学数据共享在科研实践中越来越常见。本文作者为我们强调了该领域这一空前的现状,为一些数据科学家带来了无限机遇。本文主要通过三个层面为我们阐述了这一观点,首先,对一些已有成果的细节进行阐述,如系统性再分析工作;其次,对已发表的蛋白质组学数据应用形式进行阐述,如基因蛋白质组学、谱图库及谱图档案的建立;最后,对现存的挑战进行阐述,同时也提到了首次尝试将蛋白质组学数据与其它组学数据进行联合分析的案例。


    论文ID

    原名A Golden Age for Working with Public Proteomics Data

    译名:蛋白质组学数据共享和再分析的黄金时间

    期刊Trends in Biochemical Sciences

    IF:16.630

    发表时间2017年

    通信作者 Lennart Martens

    通信作者单位Medical Biotechnology Center, VIB, Ghent,Belgium


    综述内容

    基于质谱的蛋白质组学公用数据库

            近几年,基于质谱的蛋白质组学研究技术得到了空前快速的发展。这些方法越来越多的被用于解决复杂的生物学问题,也常常与其它组学进行联用(如基因组学、转录组学、代谢组学)。蛋白质组学公用数据分享能被研究者共同接受为一种好的科研实践,这可以被认为是这一领域成熟的标志。这一重要观念的改变,一方面由科学杂志和基金资助机构的需求所触发;另一方面,也由支持数据共享的“用户友好”资源及工具变得可用所促进。

            第一批质谱蛋白质组学数据资源建立已超过10年,比较著名的有PeptideAtlas, GPMDB和PRIDE,同时这些数据库继续保持着世界领先水平。随着这些年的发展,其它的一些蛋白质组学数据资源陆续出现,遗憾的是,也陆续消失。然而,现在却是质谱蛋白质组学数据的黄金时代。许多优秀的数据资源陆续出现,如MassIVE, jPOST, the Human Proteome Map, ProteomicsDB,及Chorus。

            在2011年,一些在这 领域中最优秀的数据资源进行相互整合并正式合作。从而使得ProteomeXchange联盟可对数据的提交、发布进行了统一管理和约定。目前,PX成员包括PRIDE, PeptideAltas, MassIVE和jPOST。

            目前,大多数可用的公共数据库包含人类和一些主要模式生物的数据。当然,非模式生物的数据也在快速完善。在多个PX数据资源库中,已有超过900种不同分类特征生物的数据可用。

            正是由于这些发展成果,作者认为目前这一领域充满了机遇,特别是对于那些想从海量数据中挖掘新成果的研究者。

    蛋白质组学数据再运用方法概述

            在蛋白质组学领域,数据形式及它们所对应的数据格式的数量十分庞大。蛋白质组学数据库最需要储存的两种数据类型是Raw文件(质谱下机数据)和Analyzed文件(用于定性和定量分析)。对于PX数据库,会同时提供两种数据形式。因此能够提供一些补充信息,并且支持不同形式的数据再利用。

       件     Raw文的可用性保证了数据集的全面再分析,而Analyzed文件可用于特定研究结果的可视化及评估分析。随着数据标准的不断发展,简化了科学家对公共蛋白质组学数据的使用。作者曾总结了4种公用数据的用途:(i)直接使用(ii)再利用(iii)再加工(iv)重新目的化。图1总结了主要的一些应用方向。

            数据直接利用的一个简单例子就是上面引用到的一些蛋白质组学数据资源和蛋白质成果库的信息连接,如Uniprot与neXtProt。这种方式的数据运用效果显著。

            数据再利用指的是公用数据不仅只与补充的成果数据进行关联,同时也会应用到新的实验中,并有潜质产生新结论。质谱谱图库和谱图档案的构建与利用即是一个明显例证。此外,一类数据形式的再利用,在其它组学研究中也常被用到。从大量相互联合的独立数据集中进行数据分析被称为Meta分析。采用该分析不能从任一独立的数据集中获得新的成果。虽然有一些经典案例,但这一类型的再利用仍较少。

            数据再加工,即由于蛋白质序列数据库的发展及准确度的提高,对公用数据的再分析能够对现有结果提出新的观点。这样的分析,同样也在其它组学研究中常被用到。虽然再加工能找到一些新的发现,但是实验目的可能与原实验相同或类似。资源数据库如PeptideAltas和GPMDB利用它们专用的生物信息学分析工具和流程,对很多数据集进行例行性再加工。来源于PeptideAltas的结果被组织为build,每个build或包含单一物种的蛋白质组数据(如人类、猪等),或包含亚蛋白质组(如人类血浆)。每个build是研究人员对PeptideAtlas数据库(或其他公用数据资源,如PRIDE)编译的MS/MS谱图信息进行再分析生成的。GPMDB数据再加工的方式类似。PeptideAtlas和GPMDB数据库都积极地为Human Proteome Project(HPP)服务,提供准则和由质谱检测到的人类蛋白的更新列表(每年更新)。

            

    最后,数据的重新目的化包含所有与原实验不同的数据全新阐述及分析。蛋白质基因组分析和新的翻译后修饰位点的挖掘是这一应用两个比较显著的方向。当然,在开始对数据集进行重目的化前,需要先将数据集对“目的”的适用性进行评估。通过适合形式的质量控制可以完成这一过程。再后续的内容中,作者先探讨蛋白质组学数据的质控,接着探讨蛋白基因组学和翻译后修饰的案例。

    蛋白质组学数据的质控(Quality Control)

            在任何分析流程中,QC是极其重要的。然而,相较于小分子化合物的质谱分析,蛋白质组学数据的QC却并没有发展很完善。公用数据的可用性支持着对数据的后验质控。理想状态下,所有储存于数据库中的数据应该与客观的质量指标对接,但因为最近才有适合的软件,这一过程才开始缓慢启动。目前,蛋白质组学资源库正在评估所提交数据的内部连贯性,检测明显的注释错误,确保技术性/生物学元数据的可接受程度。一些可免费使用的工具,如PRIDE inspector,能让该联盟的任何成员检测潜在的数据错误。

            当然,蛋白质资源库水平的QC指标计算只能被用作事后检验。更完美的状态是在实验室获取数据的同时运行QC指标检验,随后再与数据一起上传至数据库。

    蛋白质基因组学

            在蛋白质基因组学研究领域,蛋白质组学数据通常与基因组学、转录组学数据进行结合分析,特别是采用DNA测序、RNA测序或Ribo测序等方式获得的数据。如果检测到的肽段与新的剪接点、长非编码RNA、小的开放阅读框等数据存在关联,基因组注释能被改进。

            蛋白基因组学极大的受益于公用数据集的可用性。一些研究已经发表了公用数据运用到人类、小鼠和大鼠蛋白质基因组学分析。此外,人类公用数据的完整纲要已经被重新分析,并为储存在LNCipedia中的人类LncRNAs提供注释存在的证据。最新的研究趋势在于利用公用数据结合Ribo-seq结果来确定小的开放阅读框。

            在本文作者看来,目前蛋白质基因组学分析存在的一个问题在于缺乏研究者和资源库之间的联系。研究者能够主导分析,资源库可以基于最新发现上传基因注释结果。不过目前,这一情况也在发生了改变。

    翻译后修饰(PTM)相关研究

            蛋白质组学(包括基于质谱和抗体的方法)能够提供独特的方法检测和定位蛋白质翻译修饰位点。对于很多已知的PTM类型,磷酸化是目前研究最为透彻的。同时,磷酸化蛋白质组学的公开数据量庞大且还在不断增长。一些高品质的数据资源库,如PhosphoSitePlus,专注于编译不同来源的磷酸化相关信息,包括基于质谱的蛋白质组学数据。公用数据集也被重分析并用于获得PTM相关研究领域的新结论。

            糖基化在PTM中也很常见。对糖基化的分析,将有利于已有的蛋白质学数据资源和糖组学资源更紧密的联结。当然,目前这一领域的研究还未完全启动。

    蛋白质组学数据集与其它组学数据集的整合

            目前,公用蛋白质组学数据与其它组学数据的联合分析变得越来越容易和有意义,使得数据科学家有了更多新的机会。

            蛋白基因组学最近被用于研究多种癌症,利用癌症特征肽段来进行诊断或治疗的目的。美国国家癌症研究所(NCI)下属的临床蛋白质组学肿瘤分析联盟(CPTAC)近期发布了许多不同肿瘤类型的有意义的研究,包括结直肠癌、乳腺癌和卵巢癌。这些数据全部被公开,并且在CPTAC数据门户网站上可用。在这里,蛋白质序列数据库是直接从肿瘤样品对应的外显子组序列中获得。

    挑战

            蛋白质组学中,缺少实验和技术元数据是该组学数据被重利用面临的主要问题,这一问题已被多次强调。蛋白质组学资源数据库所需要的元数据,相较于其他组学同等数据库要少很多,从而导致蛋白质组学数据的注释具有更多问题。现阶段,所需元数据的数量和研究者数据分享意愿之间,需要达到某种平衡。蛋白质组学数据在最近才开始兴起了分享浪潮,所以目前最主要的工作还是在于怎样促使数据分享更为便利。

            在不远的将来,蛋白质组学数据研究者们面临的一大挑战是人类临床蛋白质组学数据获得的受限,这在目前的基因组和转录组数据集中很常见。像European Genotyoe Archive(EGA)和dbGaP这些数据库,存在资源访问控制,但研究者也需要去使用。

    未来前景和现状

            总体来讲,研究质谱-蛋白质组学领域的数据科学家具有一个比较光明的未来。遗憾地是,“研究寄生虫”(research parasites)这一词组最近被广为流传。“研究寄生虫”指的是那些只以别人发表的可用数据进行分析的人。本文作者认为这一词组有失偏颇。其一,生成数据的科学家应该一开始就会被公认,并被给予适当识别和引用。虽然总会有研究者资源引用不充分,但这一现象并不只在“公用数据再利用”这一领域存在,不应该停止公用数据库的分享。其二,若发起人在数据上传时还未完成数据的全部分析,那么也很难将再利用者分析数据且进一步优化数据价值的行为称为“寄生”,特别是还采用了一些创新算法的时候。任何成熟的研究领域应该欢迎从已有数据中找到新的观点和结论的做法。

    本文由George编译,董小橙、江舜尧编辑。

    猜你喜欢

    10000+:肠道细菌 人体上的生命 宝宝与猫狗 梅毒狂想曲 提DNA发Nature 实验分析谁对结果影响大  Cell微生物专刊

    系列教程:微生物组入门 Biostar 微生物组  宏基因组

    专业技能:生信宝典 学术图表 高分文章 不可或缺的人

    一文读懂:宏基因组 寄生虫益处 进化树

    必备技能:提问 搜索  Endnote

    文献阅读 热心肠 SemanticScholar Geenmedical

    扩增子分析:图表解读 分析流程 统计绘图

    16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

    在线工具:16S预测培养基 生信绘图

    科研经验:云笔记  云协作 公众号

    编程模板 Shell  R Perl

    生物科普  生命大跃进  细胞暗战 人体奥秘  

    写在后面

    为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外150+ PI,1500+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

    学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

    展开全文
  • mapDIA 执行必要的数据预处理,包括新的基于保留时间的归一化方法和一系列肽/片段选择步骤,更重要的是,在代表性实验设计下,基于分层模型的多比较的统计显着性分析。 先进的建模技术还允许用户合并现有网络数据...
  • 蛋白质组学分析允许研究生物体或功能组之间的相互作用,并且也越来越多地用于诊断目的。 然而,由于相关生物之间的高度序列相似性,出现了困难。 此外,物种之间蛋白质的保守状态可以与它们的表达水平相关联,这...
  • 使用QFeatures进行蛋白质组学数据分析 这个为期1天的课程将讨论使用Bioconductor QFeatures从蛋白质组学实验中获得的数据的计算分析。 贡献 我们欢迎您为改进本课程而做出的所有贡献! 如果您在此过程中有任何疑问,...
  • 非靶向代谢组学数据分析方法总结

    万次阅读 多人点赞 2019-04-30 18:53:10
    生物信息学早已不再局限于基因组学领域了,后基因组学越来越受到关注,并且这几年“多组学”的也研究越来越多。其中,代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因...
  • 据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。 代谢组学数据的特点 代谢组学是系统生物学领域中继基因组学和蛋白质组学之后新近发展起来的一门学科,它通过检测生物体在受到外源...
  • 用于处理和分析空间蛋白质组学数据的生物导体工作流程 该工作流程描述了使用软件包对小鼠胚胎干细胞空间蛋白质组学数据集进行的详细分析。 工作流程( )已提交给进行同行评审。 也可以查看其他问题的问题。 如果...
  • MaxQuant是基于质谱(Ms)的蛋白质组学数据分析最常用的平台之一。自2008年首次发布以来,它在功能上有了很大的发展,可以与更多的Ms平台结合使用。在这里,我们提出了一个更新的协议,涵盖了最重要的基本计算工作...
  • 该项目提供了一套用于计算质谱和重新分析公共蛋白质组学数据的工具。 联系我们: 请您联系使用github问题: : 或以下电子邮件: MSP转换(频谱库)-> PSM Json文件 将PSM Json文件映射到Uniprot和ENSEMBL蛋白

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,940
精华内容 1,576
关键字:

蛋白质组学数据分析