精华内容
下载资源
问答
  • 揭秘差异基因功能富集分析

    万次阅读 2018-11-01 14:26:34
    通过差异分析,我们可以知道不同分组间是否存在差异,存在差异的是哪些基因。再进一步,需要探究这些基因的表达量出现差异是由...其次,我们还需要一点统计学手段,差异基因的数目是成百上千的,每个基因又参与多...

    欢迎关注微信公众号《生信修炼手册》!

    通过差异分析,我们可以知道不同分组间是否存在差异,存在差异的是哪些基因。再进一步,需要探究这些基因的表达量出现差异是由哪些生物学过程介导的,我们的实验处理影响了哪些生物学过程。

    为了探究上述问题,我们首先需要知道基因参与的生物学过程,这个依赖于我们对生命活动的已有认知,比如常见的KEGG数据库,就存储了基因对应的通路信息。其次,我们还需要一点统计学手段,差异基因的数目是成百上千的,每个基因又参与多个生物学过程,直接将所有差异基因的功能汇总,会得到非常多的信息,由于数量庞大,所以看起来是杂乱无章的,没有任何规律可言,所以需要借助统计学手段,去挖掘差异基因集中在哪些生物学过程,也就是我们常说的富集分析。

    从上面的解释可以看到,富集分析有两个核心

    1. 基因的注释信息

    基因参与的生物学过程,也称之为基因的功能注释,这部分信息主要依赖已有的数据库,常见的数据库包括GO, KEGG, wikipathway, reactome等。

    需要注意的是,不同数据库覆盖的基因数目是不一样的,以human为例,一共2万多个蛋白编码基因 , 其中有KEGG pathway注释的只有6000多个。由于已有认知的缺陷,这个是无法避免的问题,只能通过不断的探索研究来更新和完善数据库中的内容。

    所以在富集分析时,会集合多个数据库来分析,最常见的就是GO和KEGG数据库,近年来reactome用的也越来越多。其实,只要是你感兴趣的功能数据库,都可以拿来做分析。

    2. 统计方法

    如何研究差异基因集中参与的生物学过程,需要借助统计学手段,常见的方法包括以下两种:

    1. 费舍尔精确检验
    2. GSEA

    费舍尔精确检验的核心就是得到如下所以的2X2的表格,

    DGEGenome
    in pathway1940
    not in pathway2816800

    从两个角度将基因进行分类,是否为差异基因,是否位于待研究的通路上,就可以得到上述表格了。第一列之和为差异基因的总数,第二列之和为非差异基因的总数。

    在用这种方式进行分析时,通常会选择一个log2FD的阈值,挑选显著差异的基因,这种一刀切的过滤手段去除了一些可能的关键基因,其次,如果你的差异基因没有对应的pathway注释,那么在富集分析时,会被直接丢掉,以上两点是这种方法的缺陷。

    GSEA又称之为基因集富集分析,这里的基因集指的就是数据库中的基因集合,比如pathway中的某条通路对应的所有基因,所以这种方法的研究对象和费舍尔精确检验是一致的。唯一不同的是,它的输入是所有基因,首先对基因进行排序,然后分析排序后的基因列表在某个通路下是否富集。

    在这里插入图片描述
    由于该方法不需要对基因事先过滤,所以不会丢掉某些差异基因,能够挖掘出的信息量也会增加,近年来也是越来越受欢迎。

    在后续文章中,会详细介绍不同工具的使用方法。

    展开全文
  • 功能富集分析 有在线版的: 最主流的就是DAVID,。另外还有Gather,GOrilla,revigo。可以去参考链接里看一下。但是这些有一个很大的缺点是,我们要根据自己的喜好去筛选log2fc 绝对值在2以上的基因,有很大的主观因素...

    参考链接:
    功能富集分析

    GO analysis
    有在线版的:
    最主流的就是DAVID,我觉得这个已经足够了,。另外还有Gather,GOrilla,revigo。可以去参考链接里看一下具体的网址。但是这些有一个很大的缺点是,我们要根据自己的喜好去筛选log2fc 绝对值在某一数字以上的基因,有很大的主观因素。
    因此,GSEA(基因集富集)是非常好的一种办法。可采用clusterProfiler。

    setwd("D:/biotech/RNA/aligned")
    getwd()
    
    if (!requireNamespace("BiocManager", quietly = TRUE))
      install.packages("BiocManager")
    BiocManager::install("org.Mm.eg.db")
    
    library(clusterProfiler)
    library(DOSE)
    library(org.Mm.eg.db)
    library(ggplot2)
    library(stringr)
    
    #加载数据,并挑选表达差异的基因ID,也可以用biomaRt包转换成gene name,用gene name 进行分析,这样就和参考链接里的语法一样了
    sig.gene=read.csv("diffgene.csv")
    deg <-subset(sig.gene,  padj<0.05 & abs(log2FoldChange)>=1)
    id<-deg[,1]
    head(id)
    id.df<-bitr(id, fromType = "ENSEMBL",toType = c("SYMBOL","ENTREZID"),OrgDb = org.Mm.eg.db)
    head(id.df)
    #结果显示
    'select()' returned 1:many mapping between keys and columns
    Warning message:
    In bitr(id, fromType = "ENSEMBL", toType = c("SYMBOL", "ENTREZID"),  :
      0.6% of input gene IDs are fail to map...
    #接下来GO分析做图,GO可以在GO:BP(生物过程),GO:MF(分子功能),GO:CC(细胞组分)三个方面分别进行注释。这儿举一个MF的例子,换换语法就可以得到对应的BP & CC
    ego_mf<-enrichGO(gene       = id.df$ENSEMBL,
                     OrgDb      = org.Mm.eg.db,
                     keyType    = 'ENSEMBL',
                     ont        = "MF",
                     pAdjustMethod = "BH",
                     pvalueCutoff = 0.01,
                     qvalueCutoff = 0.05)
    barplot(ego_mf,showCategory = 30,title="The GO_MF enrichment analysis of all DEGs ")+ 
      scale_size(range=c(10, 20))+
      scale_x_discrete(labels=function(ego_mf) str_wrap(ego_mf,width = 50))
    

    结果如下:
    在这里插入图片描述
    KEGG analysis

    kk<-enrichKEGG(gene = id.df$ENTREZID,
                   organism = 'mmu',
                   pvalueCutoff = 0.05)
    kk[1:5]  #查看前5个KEGG结果
    barplot(kk,showCategory = 30, title="The KEGG enrichment analysis of all DEGs")+
      scale_size(range=c(6, 40))+
      scale_x_discrete(labels=function(kk) str_wrap(kk,width = 60))
    

    结果如下:
    在这里插入图片描述

    dotplot(kk,showCategory = 25, title="The KEGG enrichment analysis of all DEGs")+
      scale_size(range=c(2,12))+
      scale_x_discrete(labels=function(kk) str_wrap(kk,width = 25))
    

    j结果如下:
    在这里插入图片描述
    Gene Set Enrichment Analysis(GSEA)

    #需把gene name 转换好
    genelist <- sig.gene$log2FoldChange
    names(genelist) <- sig.gene[,2]  #我的数据集第二列是gene name
    genelist <- sort(genelist, decreasing = TRUE)
    head(genelist)
    # GSEA分析,KeyType 也可以是 "ENSEMBL"
    gsemf <- gseGO(genelist, OrgDb = org.Mm.eg.db,keyType = "SYMBOL",ont="BP") 
    # 运行结果如下
    preparing geneSet collections...
    GSEA analysis...
    leading edge analysis...
    done...
    # 查看信息
    head(gsemf)
    # 画出GSEA图
    gseaplot(gsemf, geneSetID="GO:1990823")
    

    结果:
    在这里插入图片描述

    展开全文
  • library(ggplot2) p <- ggplot(gene_dx, aes(x=pathway_name, y=-log10(value))) p + geom_bar(stat="identity", position="dodge", aes(fill=leibie)) p + geom_bar(stat="identity", position="dodge", ...
    library(ggplot2)
    

    在这里插入图片描述
    在这里插入图片描述

    p <- ggplot(gene_dx, aes(x=pathway_name, y=-log10(value)))
    p + geom_bar(stat="identity", position="dodge", aes(fill=leibie))
    
    

    在这里插入图片描述

    p + geom_bar(stat="identity", position="dodge", aes(fill=leibie))+coord_flip()
    

    在这里插入图片描述

    p + geom_bar(stat="identity", position="dodge", aes(fill=leibie))+coord_flip()+geom_hline(aes(yintercept=-log10(c(0.1))),colour="blue",linetype="dashed")+geom_hline(aes(yintercept=-log10(c(0.05))),colour="red",linetype="dashed")
    

    在这里插入图片描述
    修改字体味新罗马

    p + geom_bar(stat="identity", position="dodge", aes(fill=leibie))+coord_flip()+geom_hline(aes(yintercept=-log10(c(0.1))),colour="blue",linetype="dashed")+geom_hline(aes(yintercept=-log10(c(0.05))),colour="red",linetype="dashed")+theme(text=element_text(size=7.5, family="serif"))
    

    在这里插入图片描述

    参考:https://blog.csdn.net/weixin_43948357/article/details/103043518

    展开全文
  • 基因富集分析

    千次阅读 2018-06-15 21:41:54
    https://www.jianshu.com/p/a1f312b60569http://www.360doc.com/content/16/0711/10/26456292_574656968.shtmldiff_gene.entrez文件,是通过各种差异基因软件找出来的差异基因的entrez ID号列表,每一个ID号一行,...

    https://www.jianshu.com/p/a1f312b60569

    http://www.360doc.com/content/16/0711/10/26456292_574656968.shtml

    diff_gene.entrez文件,是通过各种差异基因软件找出来的差异基因的entrez ID号列表,每一个ID号一行,几百个差异基因就几百行

    http://blog.sciencenet.cn/blog-1509670-971259.html

    上述表格为差异基因的KEGG Pathway富集分析结果表格。

    ID: KEGG 数据库中通路唯一的编号信息。

    Description :Gene Ontology功能的描述信息

    GeneRatio:差异基因中与该Term相关的基因数与整个差异基因总数的比值

    BgRation:所有( bg)基因中与该ID相关的基因数与所有( bg)基因的比值

    pvalue: 富集分析统计学显著水平,一般情况下, P-value < 0.05 该功能为富集项

    p.adjust 矫正后的P-Value

    qvalue:对p值进行统计学检验的q值

    Count:差异基因中与该Term相关的基因数

    setwd("C:\\Users\\Administrator\\Desktop\\ref")

    a=read.table("diff_gene.entrez")

    require(DOSE)

    require(clusterProfiler)

    gene=as.character(a[,1])

    ego <- enrichGO(gene=gene,organism="human",ont="CC",pvalueCutoff=0.01,readable=TRUE)

    ekk <- enrichKEGG(gene=gene,organism="human",pvalueCutoff=0.01,readable=TRUE)

    write.csv(summary(ekk),"KEGG-enrich.csv",row.names =F)

    write.csv(summary(ego),"GO-enrich.csv",row.names =F)


    展开全文
  • 2004)是一种广泛使用的基因富集分析方法,用于确定已知的生物学功能或过程是否在实验得到的基因列表中被过度表达。 1. 导入包 library(AnnotationHub) #library导入需要使用的数据包 library(org.Hs.eg.db) #...
  • 基因富集分析

    万次阅读 2017-07-26 23:08:31
    通过RNA_seq差异表达分析等获得一组基因,想要进一步了解这些基因可能参与哪些生物学过程,具有哪些功能,一般就会用到基因富集分析了。现在小麦基因注释信息已经可以获得,目前来看包括两套。一个是TGACv1,另一...
  • 传统富集分析(基于超几何分布或者Fisher精确检验):关注一列差异基因是否是随机分布在某一感兴趣的基因集中(某通路的基因)得到通路富集的结果时:(1)、一条通路中既有上调基因又有下调基因,无法确定这条通路总体的...
  • KEGG基因富集分析

    千次阅读 2019-09-29 15:13:44
    #kegg:基因功能存储在pathway数据库里 ...## 不同的阈值,筛选到的差异基因数量就不一样,后面的超几何分布检验结果就大相径庭。 logFC_t=1.5 deg=nrDEG deg$g=ifelse(deg$P.Value>0.05,'stab...
  • 富集分析是生物信息分析中快速了解目标基因或目标区域功能倾向性的最重要方法之一。其中代表性的计算方式有两种:一是基于筛选的差异基因,采用超几何检验判断上调或下调基因在哪些GO或KEGG或其它...
  • GSEA软件基因富集分析

    千次阅读 2020-02-27 11:29:01
    基因富集分析(GSEA)是一种计算方法,用于确定一组定义好的基因是否在两种生物状态(如表型)之间显示出统计上显著的一致性差异。 分析步骤 首先在官网下载软件:软件下载 1、准备数据 使用GSEA时,可以提供四个...
  • 富集分析基因表达花样可视化

    千次阅读 2019-07-22 09:45:22
    但是要注意该包不能用于执行这些分析,只能把分析结果进行可视化。在所有科学领域,由于空间限制和结果所需的简洁性,切实地去描述事物很难,所以需要将信息进行可视化,使用图片来传达信息。精心设计的图形能在更小...
  • 基因表达分析(中)- 富集分析

    千次阅读 2017-05-30 18:54:03
    首先对基因表达分析(上)做一个简单的回顾 研究基因表达的有如下工具:RNA-Seq,microarray, qRT-PCR等(欢迎补充) RNA-Seq,microarray一般用在探索性阶段,qRT-PCR用于验证 RNA-Seq和microarray由于他们的实验...
  • 基因富集

    千次阅读 2019-06-27 17:18:58
    但是后面继续谈到覆盖度不是意味着所有基因组都被覆盖了,而是覆盖率越高,基因组未被检测到的基因越少。根据经验公式,碱基丢失率:P = exp(-C)。假设测序深度10x,基因组长度为20k,那么丢失exp(...
  • 今天更新TCGA数据库的利用系列第三篇文章,在对TCGA数据进行挖掘时,通常会筛选出来一些表达量显著异常的基因,作为后续研究的对象,这个筛选过程叫做差异分析;本篇文章将分为三大模块对差异分析进行介绍关于差异...
  • 对多个差异表达对比进行参数化的基因富集分析(GSEA)。 当前扩展了的功能。 安装 法 if ( ! requireNamespace( " BiocManager " , quietly = TRUE )) { install.packages( " BiocManager " ) } install....
  • singleseqgset | 单细胞RNA-Seq基因富集分析NGS系列文章包括NGS基础、转录组分析(Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq...
  • 富集分析

    千次阅读 2019-11-14 11:19:52
    GO/KEGG Enrichment 这一类富集分析是最简单的富集方法,只关心基因集的富集比例;GSEA类方法更进一层,还关心基因集在打分排序中的分布情况。我们经常使用富集分析的p值以及FDR值,判断是否富集显著。然而对应的...
  • 关注阅读更多文献信息Whole transcriptome analysis of smoker palatal mucosa identifies multiple downregulated innate immunity genes吸烟者pa上黏膜的全转录组分析确定了多个下调的先天免疫基因期刊:J....
  • 差异表达基因分析[转载]

    千次阅读 2018-12-17 09:10:00
    转自:https://wenku.baidu.com/view/2532ab5176c66137ef06191a.html 1.转录组 2.转录组研究重要性 ...5.转录组数据分析 ...6.差异表达基因分析 4.1FC法——差异表达倍数法 那么也就是说A与B...
  • 基因集变异分析,是一种非参数的无监督分析方法,主要用来评估芯片和转录组的基因富集结果。通过将基因在不同样品间的表达量矩阵转化成基因集在样品间的表达量矩阵,从而来评估不同的代谢通路在不同样品间是否富集...
  • GSEA基因富集分析

    2020-07-25 11:08:52
    ###GSEA富集分析中,不需要提取差异基因,只需要将所有基因的表达情况按照一定顺序排列(一般按log2FD)之后根据对照组和实验组中所有基因在红色(蓝色)富集,从而得出对照组或者实验组所富集到的通路。因此,GSEA...
  • 手把手教学差异表达基因分析

    千次阅读 2020-09-19 23:18:00
    文章目录引言安装并导入DESeq2包数据要求制作dds对象,进行差异分析筛选差异基因完整代码 引言 对于组学分析来说,常常会寻找组间的差异,例如差异基因(转录组)、差异菌(宏基因组)以及差异通路(宏基因组),而...
  • 高颜值绘图工具ImageGP不只可以绘制常见的生信图形,还提供了不少分析功能,如之前提到的在线WGCNA分析,操作简单,参数丰富,结果交互,绝对是科研必备神器。访问也很简单,百度或谷歌搜...
  • GO富集分析示例

    万次阅读 多人点赞 2019-07-04 10:24:50
    GO是Gene Ontology的简称,是基因功能国际标准分类体系。它旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言...富集分析主要用于差异基因在GO term的富集程度...
  • 基因功能富集小结

    千次阅读 2019-07-13 23:35:19
    在生物学问题分析时,无论是通过转录组还是chip-seq等其他组学技术获得一大堆的差异基因之后,给大家留下的一个问题就是,这些差异基因属于什么功能?可能参与哪些通路?跟我研究的生物学问题是否有关?这个时候GO和...
  • 近日,国际知名期刊《核酸研究》(Nucleic Acids Research,IF:16.971)在线发表了北京大学孔雷课题组与中国科学院计算技术研究所赵屹研究员课题组合作开发的基因功能富...
  • GSEA-基因富集分析

    千次阅读 2018-08-29 17:40:00
    1.为什么写? 网上教程一抓一大把,有的能重复,有的不能重复不了,很多原因。别人能做的不代表你能复制,实践出真知。...使用预定义的基因集(通常来自功能注释或先前实验的结果),将基因按照在两类...
  • title: “GSE93798” output: word_document ...关于GSE93798的差异分析、GO分析、KEGG分析、DO分析 rm(list = ls()) #RStudio控制台(console)中出现少量中文乱码的解决方法 Sys.setlocale("LC_ALL","...
  • 利用GSEA对基因表达数据做富集分析

    千次阅读 2019-01-12 09:26:00
    用GSEA做富集分析是非常简单的,结果也很详细,并且直接出图;这个软件发表于2005年,一直都在不断更新和增加新的功能;软件基于的数据库 Molecular Signatures Database 也会根据新发表的文章进行完善。 GSEA软件...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,563
精华内容 625
关键字:

差异基因富集分析