精华内容
下载资源
问答
  • 富集分析集锦

    2019-12-10 21:03:13
    不管是转录组,还是芯片数据,或者其他有关基因的组学分析,每当数据分析到后面,要想得到结果,都躲不过这个富集分析,因为它是帮助我们从庞杂的组学数据中发掘规律重要的一环,对基因功能进行富集分析,就有可能...

    链接:https://www.jianshu.com/p/988d90484f77
    不管是转录组,还是芯片数据,或者其他有关基因的组学分析,每当数据分析到后面,要想得到结果,都躲不过这个富集分析,因为它是帮助我们从庞杂的组学数据中发掘规律重要的一环,对基因功能进行富集分析,就有可能发现在生物学过程中起关键作用的生物通路,并且帮助理解生物学过程的分子机制。

    现在的高通量测序带来的巨大数据量,让我们眼界大开,局限于单纯的某个基因的做法越来越行不通,但是想要从庞大的关系网络中挑选出有效信息,比如将某几个基因和某个期待的生物学现象结合起来,这个事直接做是很困难的。因此为了降低研究的复杂度,将不同生物学现象与基因的对应关系做成了多个数据库。于是,当我们手上有成百个差异基因时,就去不同数据库比对,这个过程就叫做富集分析。
    简而言之,基因富集分析是在一组基因中找到具有一定基因功能特征和生物过程的基因集,在研究差异表达基因、筛选基因的后续分析中经常使用。
    基因集也叫gene set,也就是一系列具有相同功能的基因构成的集合,比如某一条代谢通路(pathway),其中有很多的基因,因此位于同一通路下的基因就构成了一个基因集合。
    组成基因集的最基本元素就是一个一个的基因,在芯片分析中,结果往往是差异表达的探针,需要先将探针映射到基因上。注意:在映射的过程中,必须考虑到基因和探针之间的对应关系,会有多个探针对应一个基因情况,虽然比重不大,却还是要考虑。比如分析甲基化数据时,由于大部分的基因具有多个CpG位点,因此会对应多个探针ID,因此会有多个探针ID。有时A、B探针都有探针比对上,但不能就这样认为它们的差异量一样,因为A、B的差异CpG位点有时不同,B却只有3个,他们虽然都叫差异基因,但差异也分大小,不能一概而论。这里没读懂

    1.富集分析目的

    万事万物皆有其因,事实上,我们做这个富集分析的目的主要包括:
    目前正在研究某个基因,想看它在不同样本中的表达差异,也就是我们有和课题相关的目标基因,你认为这个基因是处理和对照产生不同的原因之一,但是口说无凭,需要佐证。此时你需要富集分析。
    跑程序得到的差异基因上千个,你知道他们是哪些类的,和物种什么生物过程相关,你会把基因一个一个放到注释数据库去调查吗?此时你需要富集分析。
    研究某个基因的上下游调控关系时,你可能对KEGG的那个通路图不陌生,这就是富集分析。
    它是快速调查目标基因集倾向性的方法之一。因此你可能听说过通路分析(pathway)、功能分析。就是说,手里有基因、蛋白的,都要经历这一步。

    举个生活中的例子:城市中都有生活公园,清晨你会看到许多老人在锻炼身体,上午游人来玩耍,小商贩也不能放过这个机会,下午到了放学的点,孩子们蜂拥而至,而到了晚上,中年人群广场舞激情飘扬。现在想看看公园哪个时间段更吸引人。假如一天来公园的共1000人,现在把这些人都聚集在一起,从中抽取200人,结果看到70%以上都是老人,那么基本可以确定清晨公园人流量更大。然后针对主要公园人群——老年人,公园管理部门就可以安排更便民的措施。当然,这个例子只是为了理解下面的内容
    我们上面不同年龄的人群,就对应不同的功能的基因集,当然人群中的每个人都可能不同时间光顾公园,当然基因集中的不同基因也可以但与好几个生物过程。我们这里做的富集分析,不是为了分析个体,而是看群体。先判断出哪些群体的差异是我们想要的,再看其中的个体~就是这么个过程!

    2.富集分析算法

    任何软件、分析背后都是一套算法,了解算法才能真正坐观云卷云舒。具体的方法介绍可以参考:Progress in Gene Functional Enrichment Analysis这篇文章。大体上富集分析有四类算法:ORA、FCS、PT、NT。
    富集分析四类算法

    富集分析四类算法

    1.【最常用】ORA(Over Representation Analysis):过表达分析

    首先这个名字很奇怪,但是既然人家取了这个名字,就一定有原因。这个部分很重要,需要重点理解采用“理论联系实际”的方法

    理论:什么是ORA方法?它是检验某类功能在一个数据子集中是否表现过度。又称为”2x2”算法,像上图一样,做一个列联表。上图中的ORA中,蓝圈内是感兴趣基因(8个),绿圈内是某个通路的基因(5个);灰点是既不感兴趣又不在通路内的(6个),蓝点是感兴趣但不在通路内的(5个),绿点是在通路内但不感兴趣的(2个),红点是既感兴趣又在通路内的(3个),于是就能做出来2x2列联表。再利用费舍尔精确检验或超几何分布得到p值。

    简而言之,需要4类数据:总共的基因数(作为背景基因)、总共属于某分类的基因数、样本包含的基因数(也就是用的差异基因)、样本中属于某分类的基因数。

    优点:出现的最早,做常用,有完善的统计学基础,结果比较可靠;

    缺点:仅仅使用了基因的数目,但是基因的不同表达水平没有考虑,为了得到差异基因,需要人为设置阈值,没有一个设置规定,因此结果因人而异;

    适用于差异最显著的基因,而差异不显著的基因就会被忽略,检测灵敏度会降低。

    ORA利用统计学假设每个基因相互独立,但就生物体本身而言,忽略了内部的复杂的相互作用,并且每个基因在不同的生物学过程中发挥的作用大小不一样,同样看待结果可能会不准确。

    实际:实际上就是把我们感兴趣的基因背景基因做一个交集。

    感兴趣的基因也就是差异基因了,包括上调、下调表达的(利用原始表达矩阵中p值和logFC进行筛选),一般人类芯片数据会有几百个

    背景基因就是在KEGG等数据库中有注释的基因【人类基因组有2万个左右基因,现在总共有已知功能的是7000左右,随着研究的深入,背景基因数量会越来越多,结果也会越来越全面】
    enrichKEGG结果
    enrichKEGG结果

    举个例子,KEGG通路hsa05206指的是MicroRNAs in Cancer,包括150个基因,背景基因使用了6517个;GSE17708芯片得到的差异基因数是547个,在KEGG能注释上的有80个,其中就有10个是MicroRNA通路的,概率高达12.5%(enrichKEGG都是用能在KEGG注释上的基因,比如这里是用80而不是547),那么这个通路是不是在下调基因中被显著改变?需要把全部的80个下调基因,在KEGG的530个通路中注释一遍,再一个一个进行超几何分布检验,得到p值。hsa05206通路在背景基因中查到的概率是150/6517,是显著低于12.5%的

    超几何分布属于统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数(不归还)。n = 1,茶几和分布还原为伯努利分布;n 接近 ∞,超几何分布视为二项分布

    2.FCS(Functional Class Scoring)功能集打分法

    它比ORA的进步就是基本假设做了改变,考虑的更加全面。它认为尽管单个基因的改变会造成显著性影响,但是和它类似的微效基因叠加在一起也能行。也就是说,FCS不再像ORA一样,强调个人英雄主义,而是把目光转向人民,“星星之火,可以燎原”

    Ten Years of Pathway Analysis:Current Approaches and Outstanding Chanllenges这篇文章有详细的描述。

    操作方法:

    要求的输入是一个排序的基因列表和一个基因集合,不需要设置阈值。

    计算单个基因表达水平的统计值,采用如衡量差异基因的ANOVA、Q-statistic、t检验、Z-score、信噪比(不懂),进行打分或排序,或者直接使用排序好的基因表达谱。

    同一通路上所有基因的表达水平统计值进行整合,汇集成单个通路水平的分数或统计值,采用基因水平统计的和、均值或中位数,Wilcoxon rank sum, Maxmean statistic, Kolmogorov-Smirnov statistic(不懂)。

    对通路水平的显著性进行评估:利用重抽样(bootstrap)的统计学方法。

    优点:考虑了基因表达值的个体差异化信息,更加全面

    缺点:FCS仍然和ORA一样,只能独立分析每一条通路,但是同一个基因可能涉及多个通路,不能分析这种情况:它只是根据特定的通路为差异基因进行排序,比如按基因A、B的一条通路检测得到它们的表达量分别改变3倍、10倍,但是换其它通路,可能排名就发生改变,不会一直保持B>A

    展开全文
  • 基因富集分析是指对于给定一组基因根据基因组注释信息(GO、KEGG)对基因进行聚类分析,即给定的基因是不是GO中的一个功能(或KEGG中的一个通路)。 基因的功能富集的目的说明给定的基因集对哪些功能的影响有针对性...

    概念:

    基因富集分析是指对于给定一组基因根据基因组注释信息(GO、KEGG)对基因进行聚类分析,即给定的基因是不是GO中的一个功能(或KEGG中的一个通路)。

    基因的功能富集的目的是说明给定的基因集对哪些功能的影响有针对性的,不是随机影响的。

    原理:

    基因富集分析是通过研究给定的基因集在功能节点上是否过出现得到关注的基因集显著注释的功能节点。通常利用超几何分布等方法计算给定基因在某个功能(或通路)上的P值,判断给定的基因在功能(或通路)的基因数目超过了随机的期望,是一个小概率事件

    变量差异表达分析
    N基因组所有基因、所有分析的基因
    x差异表达基因集中有功能F的基因
    MN中具有某种功能(F)的基因总数
    K差异表达基因

     clusterProfiler包进行GO、KEGG富集分析:

    1.加载R包,下载R包请参考:

    富集分析--R包--clusterProfiler下载安装与报错分析解决_Tian問的博客-CSDN博客

    #加载包
    library(clusterProfiler)
    library(org.Hs.eg.db)
    library(topGO)

    ●  clusterProfiler包由Y叔开发,可以进行基因及基因簇的分析和基因谱功能可视化,功能强大。

    ●   org.Hs.eg.db人类的基因组注释包进行基因ID的转换

    ●  topGO包辅助绘制GO富集分析结果的有向无环图

    2、数据准备,筛选感兴趣的基因集

    #自行选择筛选自己感兴趣的基因集
    gene_set <- rownames(pro_result[which(pro_result$FDR < 0.01 & abs(pro_result$log2FC) >= 2),])

    ●  根据自己的需求获取差异基因

    3、基因ID转换

    gene_symbol <- bitr(geneID = gene_set,  #感兴趣的基因集
                        fromType="ENSEMBL",   #输入ID的类型
                        toType=c("SYMBOL", "ENTREZID"),   #输出ID的类型,可为多个
                        OrgDb="org.Hs.eg.db")  #物种注释数据库

    ●  可能出现部分ID无法匹配的结果,通常输出的ID少于输入的ID

    4、GO富集分析

    gene <- gene_symbol[,3]
    CC <- enrichGO(gene = gene,  #基因列表(转换的ID)
                   keyType = "ENTREZID",  #指定的基因ID类型,默认为ENTREZID
                   OrgDb=org.Hs.eg.db,  #物种对应的org包
                   ont = "CC",   #CC细胞组件,MF分子功能,BF生物学过程
                   pvalueCutoff = 0.01,  #p值阈值
                   pAdjustMethod = "fdr",  #多重假设检验校正方式
                   minGSSize = 1,   #注释的最小基因集,默认为10
                   maxGSSize = 500,  #注释的最大基因集,默认为500
                   qvalueCutoff = 0.01,  #p值阈值
                   readable = TRUE)  #基因ID转换为基因名

    #展示GO的CC的富集结果result
    df <- CC@result

    ●  ID:GO数据库ID

    ●  Decription:基因功能描述

    ●  GeneRAatio:K/x

    ●  BgRatio:M/N

    ●  pvalue,qvalue:p值和校正过的p值

    ●  count:差异基因的数目

     5、GO富集分析可视化

    5.1绘制点图

    dotplot(CC,  #GO富集分析结果
            x = "GeneRatio",  #横坐标,默认GeneRation,也可以为Count
            color = "p.adjust",  #右纵坐标,默认p.adjust,也可以为pvalue和qvalue
            showCategory = 20,  #展示前20个点,默认为10个
            size = NULL,  #点的大小
            title = "CC_dotplot"  #设置图片的标题
            )

     5.2绘制条状图

    barplot(CC,  #GO富集分析结果
            x = "Count",  #横坐标,默认Count,也可以为GeneRation
            color = "p.adjust",  #右纵坐标,默认p.adjust,也可以为pvalue和qvalue
            showCategory = 20,  #展示前20个,默认为10个
            size = NULL,  
            title = "CC_barplot"  #设置图片的标题
            )

     5.3GO富集分析的有向无环图(DAG)

    plotGOgraph(CC,  #输出enrichGO或gseGO的有向无环图(与输入的对象对应)
                firstSigNodes = 10,  #显著性节点的个数,默认10个
                useInfo = "all",  
                sigForAll = T,  #是否在所有节点展示score/p-value
                useFullNames = T,  #是否使用全称
                )

     ●  在GO富集分析的有向无环图(DAG)中,方形是默认输出的显著性最高的前10个节点;且颜色的深浅表示显著性,颜色越深,越显著。

    ●  图形中内容的含义:

     自上而下,依次为:

    ●  GO数据库中编号(ID)

    ●  节点功能注释

    ●  p值

    ●  K/M

     6、KEGG富集分析

    KEGG<- enrichKEGG(gene = gene,   #基因列表(同GO) 
                      organism = "hsa",  #物种
                      keyType = "kegg",  #指定的基因ID类型,默认为kegg
                      minGSSize = 1, 
                      maxGSSize = 500,
                      pvalueCutoff = 0.01,  
                      pAdjustMethod = "fdr",
                      qvalueCutoff = 0.01)

     

     

    #展示GO的CC的富集结果result
    df <- KEGG@result

      7、KEGG富集分析可视化

    KEGG可视化的点图和条图和GO富集分析可视化一致,不在展示,且KEGG不可绘制DAG图

     

    GO和KEGG富集分析还可以借助其他R包绘制诸如热图、弦图,大家可自行学习


    感谢您的查看,致谢!(`・ω・´)ゞ(`・ω・´)ゞ

    欢迎关注公众号《生信Tian問的笔记》ε≡٩(๑>₃<)۶ 一心向学

     

     

     

    展开全文
  • GSEA富集分析

    2021-05-05 10:53:14
    Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包含两部分,一是已知功能的基因集 (可以是GO注释...

    GSEA定义

    Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包含两部分,一是已知功能的基因集 (可以是GO注释、MsigDB的注释或其它符合格式的基因集定义),一是表达矩阵,软件会对基因根据其于表型的关联度(可以理解为表达值的变化)从大到小排序,然后判断基因集内每条注释下的基因是否富集于表型相关度排序后基因表的上部或下部,从而判断此基因集内基因的协同变化对表型变化的影响。

    (The gene sets are defined based on prior biological knowledge, e.g., published information about biochemical pathways or coexpression in previous experiments. The goal of GSEA is to determine whether members of a gene set S tend to occur toward the top (or bottom) of the list L, in which case the gene set is correlated with the phenotypic class distinction.)

    这与之前讲述的GO富集分析不同。GO富集分析是先筛选差异基因,再判断差异基因在哪些注释的通路存在富集;这涉及到阈值的设定,存在一定主观性并且只能用于表达变化较大的基因,即我们定义的显著差异基因。而GSEA则不局限于差异基因,从基因集的富集角度出发,理论上更容易囊括细微但协调性的变化对生物通路的影响。

    GSEA原理

    给定一个排序的基因表L和一个预先定义的基因集S (比如编码某个代谢通路的产物的基因, 基因组上物理位置相近的基因,或同一GO注释下的基因),GSEA的目的是判断S里面的成员sL里面是随机分布还是主要聚集在L的顶部或底部。这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集。

     

    GSEA计算中几个关键概念:

    1. 计算富集得分 (ES, enrichment score). ES反应基因集成员s在排序列表L的两端富集的程度。计算方式是,从基因集L的第一个基因开始,计算一个累计统计值。当遇到一个落在s里面的基因,则增加统计值。遇到一个不在s里面的基因,则降低统计值。每一步统计值增加或减少的幅度与基因的表达变化程度(更严格的是与基因和表型的关联度)是相关的。富集得分ES最后定义为最大的峰值。正值ES表示基因集在列表的顶部富集,负值ES表示基因集在列表的底部富集。

    2. 评估富集得分(ES)的显著性。通过基于表型而不改变基因之间关系的排列检验 (permutation test)计算观察到的富集得分(ES)出现的可能性。若样品量少,也可基于基因集做排列检验 (permutation test),计算p-value。

    3. 多重假设检验矫正。首先对每个基因子集s计算得到的ES根据基因集的大小进行标准化得到Normalized Enrichment Score (NES)。随后针对NES计算假阳性率。(计算NES也有另外一种方法,是计算出的ES除以排列检验得到的所有ES的平均值)

    4. Leading-edge subset,对富集得分贡献最大的基因成员。

    GSEA分析

    软件和基因集下载

    (http://software.broadinstitute.org/gsea/downloads.jsp)

     

    输入数据准备

    1. 表达矩阵。常见表达矩阵格式,tab键分割,txt格式,第一列为基因名字(名字与注释数据库一致,同为GeneSymbol或EntrezID或其它自定义名字),第一行为标题行,含样品信息。也可为gct文件,具体见 http://blog.genesino.com/2014/08/GSEA-usages/

    2. 样品分组信息

      分组信息示例

    3. 基因集信息

      基因集信息示例

       

    软件运行 (每一步的步骤如有不明确的参考文后第一个链接)

    1. 导入数据

    2. 运行GSEA (若每组样品都有多于7个样品,则Permutation type选择phenotype,结果理论上更好;否则选择gene_set)

    3. 设置好参数后,点击正下方的run,等待运行结束,左侧出现success

    4. 点击success,查看结果

    顺着网页的导航一步步去查看结果,有耐心就好。主要解释下,最常见的这种图。

    1. 图最上面部分展示的是ES的值计算过程,从左至右每到一个基因,计算出一个ES值,连成线。最高峰为富集得分(ES)。在最左侧或最右侧有一个特别明显的峰的基因集通常是感兴趣的基因集。

    2. 图中间部分每一条先代表基因集中的一个基因,及其在基因列表中的排序位置。

    3. 最下面部分展示的是基因与表型关联的矩阵,红色为与第一个表型(MUT)正相关,在MUT中表达高,蓝色与第二个表型(WT)正相关,在WT中表达高。

    4. Leading-edge subset 对富集得分贡献最大的基因成员。若富集得分为正值,则是峰左侧的基因;若富集得分为负值,则是峰右侧的基因。

    5. FDR GSEA默认提供所有的分析结果,并且设定FDR<0.25为可信的富集,最可能获得有功能研究价值的结果。但如果样品数目少,而且选择了gene_set作为Permumation type则需要使用更为严格的标准,比如FDR<0.05

    Leading-edge分析

    主要对筛选感兴趣的基因有意义;选择一个或多个显著富集的基因集,查看其内Leading-edge基因的表达和重叠状态。

    MSigDB

    GSEA团队整理好的基因集,可用于注释,也可下载下来搜寻自己感兴趣的方向的基因作为一个补充。每个注释都提供了基于Gene SymbolEntrez ID的索引表格。

    参考

    1. 较早记录的一篇GSEA的使用,有脚本可以转换表达矩阵为gctcls文件作为GSEA的输入。文档为英文,但软件操作步骤还算详细,可配合着看。http://blog.genesino.com/2014/08/GSEA-usages/

    2. 最开始学习的教程,每一步操作都比较详细。 http://www.baderlab.org/Software/EnrichmentMap/Tutorial

    3. GSEA软件和数据集下载 http://software.broadinstitute.org/gsea/downloads.jsp

    4. 原文对GSEA原理的讲解是很清晰的,可以读下,关键的内容也都摘录在第一个链接里。 https://www.ncbi.nlm.nih.gov/pubmed/16199517

    展开全文
  • 基因的富集分析

    万次阅读 2017-07-26 23:08:31
    通过RNA_seq差异表达分析等获得一组基因,想要进一步了解这些基因可能参与哪些生物学过程,具有哪些功能,一般就会用到基因的富集分析了。现在小麦基因注释信息已经可以获得,目前来看包括两套。一个是TGACv1,另一...

    通过RNA_seq差异表达分析等获得一组基因,想要进一步了解这些基因可能参与哪些生物学过程,具有哪些功能,一般就会用到基因的富集分析了。现在小麦基因注释信息已经可以获得,目前来看包括两套。一个是TGACv1,另一个就是IWGSC1.0。需要用到一个叫“clusterProfiler”的R包。下面用到的数据集来自TGACv1。

    1、安装

    source("https://bioconductor.org/biocLite.R")
    biocLite("clusterProfiler")
    biocLite("topGO")
    install.packages("DOSE")

    需要的文件有3个,格式见下图。

    library("clusterProfiler")
    library(ggplot2)
    library(stringr)
    setwd("/Users/mashengwei/Desktop/TGACv1/WGCNA/")
    ####cellular_component#####
    gene <- read.csv(gene_list.txt",header=FALSE,sep="\t")
    gene <- as.factor(gene$V1)
    term2gene <- read.csv("cellular_component_Go_term_gene.txt",header=TRUE,sep="\t")
    term2name <- read.csv("GO_name.txt",header=TRUE,sep="\t")
    x <- enricher(gene,TERM2GENE=term2gene,TERM2NAME=term2name)
    out_file <- paste("TSG_nearest_CG_cellular_component_enricher.out.txt",sep ="\t")
    write.csv(x,out_file)
    dotplot(x)
    ggsave(filename="dotplot_cellular_component.png",dpi=600)
    dev.off()
    
    ####molecular_function#####
    gene <- read.csv("gene_list2.txt",header=FALSE,sep="\t")
    gene <- as.factor(gene$V1)
    term2gene <- read.csv("molecular_function_Go_term_gene.txt",header=TRUE,sep="\t")
    term2name <- read.csv("GO_name.txt",header=TRUE,sep="\t")
    x <- enricher(gene,TERM2GENE=term2gene,TERM2NAME=term2name)
    out_file <- paste("molecular_function_enricher.out.txt",sep ="\t")
    write.csv(x,out_file)
    dotplot(x)
    ggsave(filename="dotplot_molecular_function.png",dpi=600)
    dev.off()
    
    ####biological_process#####
    gene <- read.csv("gene_list3.txt",header=FALSE,sep="\t")
    gene <- as.factor(gene$V1)
    term2gene <- read.csv("biological_process_Go_term_gene.txt",header=TRUE,sep="\t")
    term2name <- read.csv("GO_name.txt",header=TRUE,sep="\t")
    x <- enricher(gene,TERM2GENE=term2gene,TERM2NAME=term2name)
    out_file <- paste("process_enricher.out.txt",sep ="\t")
    write.csv(x,out_file)
    dotplot(x) + scale_y_discrete(labels=function(y) str_wrap(y, width=10))
    ggsave(filename="dotplot_biological_process.png",dpi=600)
    dev.off()

    这里写图片描述

    将GO信息换成KEGG pathway信息即可进行KEGG pathway分析。

    展开全文
  • 一文掌握GSEA富集分析-最详细教程

    万次阅读 多人点赞 2019-04-26 17:02:46
    之前总结了一篇关于GSEA富集分析的推文——《GSEA富集分析 - 界面操作》,大略介绍了GSEA的定义、GSEA原理、GSEA分析、Leading-edge分析等,不太了解的朋友可以点击阅读先理解下概念。 最近用自己数据实战分析时...
  • 功能富集分析概述

    千次阅读 2019-07-04 10:54:00
    基因功能的富集分析已成为高通量组学数据分析的常规手段,对于揭示生物医学分子机制具有重要意义。关于GO、KEGG、GSEA等等这些词,网上也有很多教程,教大家怎么做GO分析、怎么做GSEA分析等等。但我们不仅要知其然,...
  • 利用agriGO 网络服务进行GO 富集分析 苏震徐文英杜舟周鑫 1. 分析目的 随着生命科学的发展越来越多的基因功能被实验验证或者预测推导但如何规范地 注释这些基因是一个难题基因本体论Gene Ontology GO是一个在生物...
  • 这期推文的封面是一张富集分析的网络图,来自文献:Single cell RNA sequencing of human liver reveals distinct intrahepatic macrophage populations,算是比较新颖的富集展示方法,是用Cytoscape做的。...
  • 功能注释后如何做富集分析

    千次阅读 2018-05-28 20:29:00
    功能注释后如何做富集分析 本文是为了回答知识星球里的一个提问,他为了用clusterProfiler做富集分析,打算构建一个OrgDb,也就是物种数据库。 提问 我之前写过用Bioconductor对基因组注释,用Bioconductor/...
  • GSEA富集分析 - 界面操作

    万次阅读 2017-11-17 15:30:47
    欢迎关注微信公众号生信宝典:http://mp.weixin.qq.com/s/3Nd3urhfRGkw-F0LGZrlZQGSEA定义Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布...
  • Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。 其输入数据包含两部分: 一是已知功能的基因集 (可以...
  • R绘图实战|GSEA富集分析

    千次阅读 2021-03-18 20:26:17
    GSEA(Gene Set EnrichmentAnalysis),即基因集富集分析,它的基本思想是使用预定义的基因,将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。...
  • ClueGO能以网络图的形式来展示GO富集结果。 下载ClueGO 1.官网下载 (http://apps.cytoscape.org/apps/cluego) 2.Cytoscape的APP Manager中下载 激活 ClueGO第一次使用还需要按照提示申请license,申请...
  • 基因富集分析 GSEA for time-course

    千次阅读 2019-09-17 21:37:44
    基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法,将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础,构建一个分子...
  • GSEA定义Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。...
  • 一、基因集功能富集分析(Gene Set Enrichment Analysis) 基因功能富集分析,是指借助各类数据库和分析工具进行统计分析,挖掘在数据库中与我们要研究的生物学问题具有显著相关性的基因功能类别。 For example, ...
  • 7.富集分析(Metascape数据库)“实践是检验真理的唯一标准。”“复现是学习R语言的最好办法。”2021.4.12_1DOI: 10.1016/j.cell.2020.05.032这...
  • 我们的云平台上的GO富集分析工具,需要输入的文件表格和参数很简单,但很多同学都不明白其中的原理与结果解读,这个帖子就跟大家详细解释~一、GO富集介绍: Gene Ontology(简称GO)是一个国际标准化的基因功能分类...
  •  功能富集分析: 功能富集需要有一个参考 数据集 ,通过该项分析可以找出在统计上显著富集的GO Term。该功能或者定位有可能与研究的目前有关。  GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是...
  • GO富集介绍每个基因都会对应有一个或多个GO term(也就是GO功能)。富集涉及到两个概念:前景基因和背景基因。前景基因就是你关注的要重点研究的基因集,背景基因就是所有的基因集。比如做两个样本对照组和处理组的...
  • 富集全部表达基因

    2019-11-03 21:33:34
    富集全部表达基因 目的 ​ 偶然发现了某个基因很特别,所以想看看有没有其他的特别的基因。手上只有转录组的数据,之前做过差异基因的GO/KEGG分析,所以原理上不用差异基因,用全部基因也是可以做的,用的是无参的...
  • R批量做GSEA分析还没有官方的包,但是clusterprofiler可以做,它调用了最新的gfsea包。Gene Set Testing for RNA-seq - fgsea教程 RNA-seq是利器,大部分...普通的转录组套路并不多,差异表达基因、富集分析、WGC...
  • 宏病毒组富集技术详解

    千次阅读 2020-08-18 12:00:24
    宏病毒组富集技术详解 病毒可以说是地球上最大的生物实体之一,但是由于他们具有形态小,遗传物质进化快等的特点,因而不能像细菌、古菌等微生物一样有系统的发育标记,这为其鉴别增加了一定的难度。此外,对于病毒...
  • 间作,是利用生态学生物多样性原理来调整种间关系以达到农作物增产提质的目的。合理选用植物组合,可以实现提升土壤肥力、减少病虫害发生等功能。农田重金属污染威胁着食品安全和人体健康,农田重金属问题在中国尤为...
  • 大孔吸附树脂对丁香叶中丁香苦苷类成分富集工艺研究,刘欣,高月娟,目的:研究大孔吸附树脂富集丁香苦苷类成分的工艺条件及参数。方法:以丁香叶中主要有效成分丁香苦苷为考察指标,建立HPLC分析方�
  • 通过对黄陵矿区常规地震数据进行AVO异常分析,发现黄陵矿区具备明显煤层气AVO异常,而且在最大偏移距为煤层埋度1.11倍、入折射平均角为29°左右时,该区二号煤层顶板反射界面反射系数对入折射平均角的梯度达到最大值(0....
  • 环境样品中病毒的富集与检测方法

    千次阅读 2020-11-25 07:00:00
    病毒篇:环境样品中病毒的富集与检测方法 供稿人:张行 整理编辑:谢许茵 校稿:程伟前言病毒是一类具有特殊生命活动形式的生命体,它是专一性在活细胞内寄生的非细胞型微生物,...
  • 【方法】采用肽文库试剂盒 Pro-teoMiner富集荷斯坦奶牛的血浆和血清,运用二维凝胶电泳结合液相色谱串联质谱方法,分析富集前后血浆和血清中蛋白的变化。【结果】牛血浆和血清经 ProteoMiner试剂盒富集,白蛋白含量显著...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 768
精华内容 307
关键字:

富集分析的目的