精华内容
下载资源
问答
  • GO/KEGG/自定义通路的富集方法
    2021-09-09 15:30:10

    目录

    前言

    一、数据背景

    二、使用步骤

    1.加载所需的R包

    2.读入数据与处理表格

    3.enrichGO函数进行GO/KEGG/自定义通路的富集

    4.简单的可视化

    三、结论





    前言

    clusterProfiler 是业界大神Y叔写的一个R包,可以用来做各种富集分析,如GO、KEGG、以及GSEA富集分析等,并且对富集分析结果进行可视化。

    这里将使用clusterProfiler包对一些数据进行GO、KEGG等富集分析,并对富集结果可视化。




    一、数据背景

    本次使用到两组预后不同的临床样本的基因,希望通过富集通路来比较两者的差异通路。




    二、使用步骤




    1.加载所需的R包

    library(clusterProfiler) #clusterProfiler的主体
    library(org.Hs.eg.db) #人类的参考基因组数据包
    library(stringr) #处理表格数据的包
    library(msigdbr) #对GSEA官网的通路数据
    

    2.读入数据与处理表格

    mutation <- read.csv('Mutation_list_Final.anno.hg19_multianno.final.xls',
                         header = T,sep = '\t') #读取数据
    gene <- mutation[,c('patient','Gene_refGene')] #提取病人样本编号和基因列表
    > head(gene)
      patient Gene_refGene
    1  S01001       ARID1A
    2  S01001         FLT3
    3  S01001          RB1
    4  S01001          RB1
    5  S01001         ARAF
    6  S01001        ERBB2
    
    gene_id <- bitr(gene$Gene_refGene,fromType = 'SYMBOL', #数据源,fromtype是基因的id类型
               toType = c('ENTREZID'), #totype指需要转换成的ID类型
               OrgDb='org.Hs.eg.db') #基因ID转换,bitr函数可以将基因名转换为基因ID,这里的ENTREZID是clusterProfiler常用的ID。
    > head(gene_id)
      SYMBOL ENTREZID
    1 ARID1A     8289
    2   FLT3     2322
    3    RB1     5925
    4   ARAF      369
    5  ERBB2     2064
    6 PDGFRA     5156
    
    effect <- read.csv('effect.csv') #读取病人分组数据。
    > head(effect)
         ID siteBestResponse SD.24wk C1有无血
    1 01001               PD      NA       NA
    2 01002               PR      NA        0
    3 01003               SD       1       NA
    4 01004               PR      NA        0
    5 01006               PR      NA        0
    6 01007               PR      NA       NA
    
    gene$patient <- str_replace(gene$patient, "S","") #这里可以看到gene和effect的patientID是不一样的,这里将S去除。
    effect <- effect[,-3:-4] #去掉后两列无用数据
    PR <- effect[c(which(effect$siteBestResponse == 'PR')),] #提取出所有疗效为PR的分组
    SD_PD <- rbind(effect[c(which(effect$siteBestResponse == 'SD')),],
                   effect[c(which(effect$siteBestResponse == 'PD')),]) #提取出所有疗效为PD和SD的分组
    
    colnames(gene)[2] <- 'SYMBOL' #修改gene第二列的列名为SYMBOL
    gene <-  merge(gene,gene_id, by = 'SYMBOL',all.x = T) #合并gene和gene_id表格
      SYMBOL patient ENTREZID
    1   AKT1   01010      207
    2   AKT1   01027      207
    3   AKT2   01022      208
    4   AKT2   01023      208
    5   AKT2   01022      208
    6   AKT2   01027      208
    
    colnames(SD_PD)[1] <- 'patient' #修改列名
    SD_PD <-  merge(gene,SD_PD, by = 'patient',all.x = T) #通过patient列合并gene组和SD_PD组来标记所有gene中的SD_PD组的数据
    colnames(PR)[1] <- 'patient'  #同上
    PR <-  merge(gene,PR, by = 'patient',all.x = T) #同上
    PR <- PR[which(PR$siteBestResponse == 'PR'),] #提取PR组的数据
    SD_PD <- SD_PD[c(which(SD_PD$siteBestResponse == 'PD'),
                     which(SD_PD$siteBestResponse == 'SD')),] #提取SD_PD组的数据
    

    3.enrichGO函数进行GO/KEGG/自定义通路的富集

    #进行GO富集
    PR_GO <- enrichGO(PR$ENTREZID, #数据源
                      pvalueCutoff = 1, #P值阈值
                      qvalueCutoff = 1, #qvalue是P值的校正值,P值会过滤掉很多,可以全部输出
                      OrgDb = org.Hs.eg.db, #人类参考基因组
                      ont = "ALL", #主要的分为三种,三个层面来阐述基因功能,生物学过程(BP),细胞组分(CC),分子功能(MF)
                      readable = TRUE) #是否将基因ID转换为基因名
    write.csv(as.data.frame(PR_GO),"PR_GO.csv",row.names =FALSE) #保存结果
    SD_PD_GO <- enrichGO(SD_PD$ENTREZID,pvalueCutoff = 1,qvalueCutoff = 1,
                         OrgDb = org.Hs.eg.db,ont = "ALL",readable = TRUE)
    write.csv(as.data.frame(SD_PD_GO),"SD_PD_GO.csv",row.names =FALSE)
    
    #进行KEGG富集
    PR_KEGG <- enrichKEGG(PR$ENTREZID, #数据源
                          organism = 'hsa', #物种
                          keyType = 'kegg', #"kegg"/'ncbi-geneid'/'ncib-proteinid'/'uniprot'之一,KEGG就写kegg
                          pvalueCutoff = 1,
                          pAdjustMethod = 'BH',#P值校正方法
                          qvalueCutoff = 1)
    write.csv(as.data.frame(PR_KEGG),"PR_KEGG.csv",row.names =FALSE)
    SD_PD_KEGG <- enrichKEGG(SD_PD$ENTREZID, organism = 'hsa', keyType = 'kegg', pvalueCutoff = 1,
                           pAdjustMethod = 'BH',qvalueCutoff = 1)
    write.csv(as.data.frame(SD_PD_KEGG),"SD_PD_KEGG.csv",row.names =FALSE)
    
    library(msigdbr) #加载GSEA官网的通路数据包
    DmGO <- msigdbr(species="Homo sapiens", #物种名
                    category="C2") #选择目录,可以通过官网查询自己想富集的通路的目录
    PID_pathway <- DmGO[c(which(DmGO$gs_subcat == 'CP:PID'), 
                          which(DmGO$gs_subcat == 'CP')),] #通过自己需要富集的ID号提取通路
    PID <- enricher(gene$SYMBOL,TERM2GENE=PID_pathway[,c(3,7)],pvalueCutoff = 1) #富集指定通路集的通路,自定义通路富集需要使用基因名,即SYMBOL
    head(PID)
    write.csv(as.data.frame(PID),"PID.csv",row.names =FALSE)
    

    4.简单的可视化

    #绘制条形图
    barplot(ego_ALL, #数据源
            showCategory=20,#展示前20条通路
            drop=T)
    #绘制点状图
    dotplot(go,showCategory=50) 

    三、结论


    Y数的包果然还是非常强的,除了富集功能,包中还提供了可视化功能,非常易于使用。同时还提供了自定义通路集的富集功能,适用性很广。
     

    更多相关内容
  • 通过分子形状指数(mK)及苯环因子(G)建立有机物生物富集因子(BCF)的良好QsAR模型,计算了165种非离子性有机物的分子形状指数(1K、2K)。基于分子母体及取代基的结构特征――苯环因子(G)。将1K、G与122种非...
  • 利用多元回归方法建立了122种 NOC的生物富集因子(1g BCF)与32个M,的数学模型,其相关系数R为0.976.经逐步回归建立最佳四变量(M15. M17,M35,M91)模型,其R为0.960;并以Jackknife法检验.其1.O0交互检验系数...
  • 将它们与 122种非离子性有机物的生物富集因子( lgBCF)拟合 ,经最佳子集回归及交互验证建立令人满意的数学模型。通过 Jackknife法检验该模型具有总体稳健性 ,并对 43种非离子性有机物的生物富集因子(lgBCF)给出合理的...
  • 基于密度泛函理论(density functional theory,DFT)对21种卤代苯化合物进行结构优化,并用最佳变量子集回归分析方法研究它们在鱼体内的生物富集因子(bioconcentration factors,BcF).在DFT方法的较高基组83LYP/6-...
  • 如果正确执行,则BCF的... 研究得出结论,偶极矩和电离势是多氯联苯生物富集因子与其电子结构相关性的可靠描述。 所得的QSAR模型(​​r2 = 0.9139,= 0.8986,k = 2,SE = 0.2668)可用于在化合物合成之前预测其BCF。
  • 大数据-算法-有机污染物生物富集因子定量结构活性关系的研究.pdf
  • 利用电感耦合等离子发射光谱法(ICP-OES)测定重金属的浓度组成,采用富集因子法判别大气降尘中6种重金属的来源,采用潜在生态风险指数法评价其生态风险。结果表明:6种重金属的平均含量依次为Cd<Ni<Cu<Cr&...
  • 全网最全 KEGG 注释结果绘图,直击 SCI 绘图标注,关注我,您最好的选择!前言1. KEGG 原理KEGG(Kyoto ...富集的含义:这里pathway富集的含义与GO富集的含义相同,也是表示差异基因中注释到某个代谢通路的基因数目在

    全网最全 KEGG 注释结果绘图,直击 SCI 绘图标注,关注我,您最好的选择!

    前言

    1. KEGG 原理

    KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是系统地分析基因功能、链接基因组信息和功能信息的数据库,包括代谢通路(pathway)数据库、分层分类数据库、基因数据库、基因组数据库等。KEGG的pathway数据库是应用最广泛的代谢通路公共数据库。

    富集的含义:
    这里pathway富集的含义与GO富集的含义相同,也是表示差异基因中注释到某个代谢通路的基因数目在所有差异基因中的比例显著大于背景基因中注释到某个代谢通路的基因数目在所有背景基因中的比例。因此,做pathway富集分析,也是涉及到前景基因和背景基因。前景基因就是你关注的要重点研究的基因集,背景基因就是所有的基因集。
    **
    富集显著性(P value)的计算:**
    计算方法和公式与GO富集分析一样,也是利用超几何检验计算:

    图片

    其中,N为所有基因中具有Pathway注释的基因数目;n为N中差异表达基因的数目;M为所有基因中注释为某特定Pathway的基因数目;m为注释为某特定Pathway的差异表达基因数目。
    计算得到的P value会进一步经过多重检验校正,得到corrected-pvalue(也就是Q value)。通常我们会以Q value≤0.05为阈值,满足此条件的pathway定义为在差异表达基因中显著富集的pathway。

    2. 实例解析

    1. 数据读取

    数据的读取我们仍然使用的是 TCGA-COAD 的数据集,表达数据的读取以及临床信息分组的获得我们上期已经提过,我们使用的是edgeR 软件包计算出来的差异表达结果,提取上调基因 2832 的 ENSEMBL 号,

    ###########基因列表
    DEG=read.table("DEG-resdata.xls",sep="\t",check.names=F,header = T)
    geneList<-DEG[DEG$sig=="Up",]$Row.names
    table(DEG$sig)
    
    
    ## 
    ## Down   Up 
    ## 1296 2832
    
    

    读取样本分组信息,41个正常组织,478个癌症组织,如下:

    ######样本分组信息
    group<-read.table("DEG-group.xls",sep="\t",check.names=F,header = T)
    table(group$Group)
    
    
    ## 
    ##  NT  TP 
    ##  41 478
    
    

    2. KEGG 注释结果

    首先我们同样需要安装软件包并加载,这里面主程序就是 clusterProfiler 软件包,如下:

    ########
    if(!require(clusterProfiler)){
      BiocManager::install("clusterProfiler")
    }
    if(!require(org.Hs.eg.db)){
      BiocManager::install("org.Hs.eg.db")
    }
    if(!require(DOSE)){
      BiocManager::install("DOSE")
    }
    if(!require(topGO)){
      BiocManager::install("topGO")
    }
    if(!require(pathview)){
      BiocManager::install("pathview")
    }
    if(!require(KEGG.db)){
      BiocManager::install("KEGG.db")
    }
    library(org.Hs.eg.db)
    library(clusterProfiler)
    library(DOSE)
    library(topGO)
    library(pathview)
    library(KEGG.db)
    
    

    根据数据比对我们找到1726 个KEGG数据中有的基因,同时我们获得到一个基因的三种命名方式,即"ENTREZID", “ENSEMBL”, ‘SYMBOL’,如下:

    ####KEGG 
    eg <- bitr(geneList, 
               fromType="ENSEMBL", 
               toType=c("ENTREZID","ENSEMBL",'SYMBOL'),
               OrgDb="org.Hs.eg.db")
    
    head(eg)
    
    ##           ENSEMBL ENTREZID  SYMBOL
    ## 1 ENSG00000062038     1001    CDH3
    ## 2 ENSG00000175832     2118    ETV4
    ## 3 ENSG00000167767   144501   KRT80
    ## 4 ENSG00000164283    11082    ESM1
    ## 5 ENSG00000120254    25902 MTHFD1L
    ## 6 ENSG00000129474    84962   AJUBA
    
    

    对获得的基因进行KEGG注释,这里是人的结直肠癌的数据,故 organism = ‘hsa’, 阈值分别为 pvalueCutoff = 0.05 和 qvalueCutoff = 0.05, 注释的时候我们可以选择参数 keyType 中4种不同的选择,包括"kegg", ‘ncbi-geneid’, ‘ncib-proteinid’ and ‘uniprot’,下面我们看到利用基因列表注释到6个pathway通路,如下:

    # Run KEGG enrichment analysis 
    kegg <- enrichKEGG(eg$ENTREZID, 
                       organism = 'hsa',  
                       keyType = 'kegg', 
                       pvalueCutoff = 0.05,
                       pAdjustMethod = 'BH', 
                       minGSSize = 1,
                       maxGSSize = 500,
                       qvalueCutoff = 0.05,
                       use_internal_data = FALSE)
    head(kegg)
    
    ##                ID                             Description GeneRatio
    ## hsa05034 hsa05034                              Alcoholism    38/384
    ## hsa05322 hsa05322            Systemic lupus erythematosus    31/384
    ## hsa04613 hsa04613 Neutrophil extracellular trap formation    33/384
    ## hsa04310 hsa04310                   Wnt signaling pathway    25/384
    ## hsa04657 hsa04657                 IL-17 signaling pathway    18/384
    ## hsa04060 hsa04060  Cytokine-cytokine receptor interaction    34/384
    ##           BgRatio       pvalue     p.adjust       qvalue
    ## hsa05034 187/8115 8.845476e-15 2.529806e-12 2.420867e-12
    ## hsa05322 136/8115 1.113336e-13 1.592070e-11 1.523512e-11
    ## hsa04613 190/8115 5.170512e-11 4.929222e-09 4.716958e-09
    ## hsa04310 167/8115 2.536698e-07 1.786110e-05 1.709196e-05
    ## hsa04657  94/8115 3.122570e-07 1.786110e-05 1.709196e-05
    ## hsa04060 295/8115 1.126797e-06 5.371067e-05 5.139777e-05
    ##                                                                                                                                                                                                         geneID
    ## hsa05034 2906/2904/7054/8367/8356/8364/85235/128312/8360/8366/440689/8348/8332/8335/8340/1813/2786/8331/8354/8346/8344/2792/8338/317772/8343/8336/810/3013/8359/653604/8351/8968/8970/8350/8368/6531/8342/3018
    ## hsa05322                                   2904/8367/8356/8364/85235/128312/8360/8366/440689/8348/8332/8335/8340/8331/8354/8346/8344/8338/317772/8343/8336/3013/8359/653604/8351/8968/8970/8350/8368/8342/3018
    ## hsa04613                          5582/8367/8356/8364/85235/128312/8360/8366/440689/8348/8332/8335/8340/366/8331/8354/8346/8344/8338/317772/8343/8336/2244/3013/8359/653604/8351/8968/8970/8350/8368/8342/3018
    ## hsa04310                                                            7472/4316/85409/7473/147111/54894/8840/7477/51176/85407/27121/8313/8549/8061/6424/5582/7479/7481/59352/22943/11211/89780/11197/7476/343637
    ## hsa04657                                                                                                        225689/4314/2921/4312/2919/4322/8061/2920/3576/6374/1437/27189/6372/4586/3934/6278/3605/112744
    ## hsa04060                  3624/51330/9518/3589/2921/2919/8744/51561/268/2920/655/3576/3552/6374/1437/5473/10913/1237/284340/3557/27189/6372/10344/5008/3625/4982/6373/338376/26525/4838/3623/56300/3605/112744
    ##          Count
    ## hsa05034    38
    ## hsa05322    31
    ## hsa04613    33
    ## hsa04310    25
    ## hsa04657    18
    ## hsa04060    34
    
    

    3. 结果展示

    针对 KEGG 富集结果我们这里给出了多种展示方式,根据自己的需求以及文章的设计,选择适合自己的即可。

    绘图过程中我们需要安装并加载几个软件,如下:

    library(stringr)
    library(cowplot)
    library(ggplot2)
    
    

    绘制气泡图,气泡图解读需要说明一下,GO富集程度通过Gene ratio、Pvalue和富集到此GO term上的基因个数来衡量。

    • 横坐标是Gene ratio,数值越大表示富集程度越大。Count 位于该GO term下的差异表达基因数

    • 纵坐标是富集程度较高的GO term(一般选取富集最显著的20条进行展示,不足20条则全部列出)。

    • Pvalue取值范围[0, 1],以颜色表示,越红表示Pvalue越小,说明富集越明显。

    • 点的大小表示该term下差异基因的个数,点越大表示基因数越多。

    dotplot(kegg,showCategory=10)
    
    

    图片

    由于KEGG 的描述字体重合,故我们利用scale_y_discrete设置,避免字体彼此重合,如下:

    dotplot(kegg,showCategory=10)+
      scale_y_discrete(labels=function(x) stringr::str_wrap(x, width=60))
    
    

    图片

    绘制柱状图,如下:

    barplot(kegg,showCategory=10)+
      scale_y_discrete(labels=function(x) stringr::str_wrap(x, width=60))
    
    
    ## Scale for 'y' is already present. Adding another scale for 'y', which
    ## will replace the existing scale.
    
    

    图片

    绘制基因概念的网络图,Pathway 与差异基因关系网络图 Gene-Concept Network,对于基因和富集的Pathway 之间的对应关系进行展示说明:图中灰色的点代表基因,黄色的点代表富集到的Pathway ;如果一个基因位于一个Pathway 下,则将该基因与Pathway 连线;黄色节点的大小对应富集到的基因个数,top2富集到的Pathway ,如下:

    cnetplot(kegg,showCategory=3,circular=TRUE,colorEdge=TRUE)
    
    

    图片

    热图可以看到哪些基因富集到哪些 Pathway,如下:

    heatplot(kegg,showCategory=6)+
      scale_y_discrete(labels=function(x) stringr::str_wrap(x, width=60))
    
    
    ## Scale for 'y' is already present. Adding another scale for 'y', which
    ## will replace the existing scale.
    
    

    图片

    软件安装并加载,如下:

    if(!require(ggnewscale)){
      install.packages("ggnewscale")
    }
    library(enrichplot)
    library(ggnewscale)
    
    

    对于富集到的pathways之间的基因重叠关系进行展示,如果两个pathway的差异基因存在重叠,说明这两个节点存在overlap关系,在图中用线条连接起来,每个节点是一个富集到的pathway, 默认画top30个富集到的pathways, 节点大小对应该pathway下富集到的差异基因个数,节点的颜色对应p.adjust的值,从小到大,对应蓝色到红色。用法如下:

    ed = enrichDO(eg$ENTREZID, pvalueCutoff=0.05)
    met <- pairwise_termsim(ed)
    emapplot(met,showCategory = 15)
    
    

    图片

    在pathway通路图上标记富集到的基因,代码如下 会给出一个url链接,示例:KEGG PATHWAY: Alcoholism - Homo sapiens (human)在浏览器中打开会看到如下所示的图片,如下:

    browseKEGG(kegg, "hsa05034")
    
    

    图片

    KEGG的富集分析与GO差不多,同样的软件包同样的函数,唯一不同的是最后一个可以看到pathway通路上的基因,非常方便!

    关注公众号,每日更新,扫码进群交流不停歇,马上就出视频版,关注我,您最佳的选择!

    图片

    桓峰基因

    生物信息分析,SCI文章撰写及生物信息基础知识学习:R语言学习,perl基础编程,linux系统命令,Python遇见更好的你

    46篇原创内容

    公众号

    References:

    1. Kanehisa M, Furumichi M, Tanabe M, Sato Y, Morishima K. KEGG: new perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res. 2017;45(D1):D353-D361. doi:10.1093/nar/gkw1092

    2. Yu G, Wang L, Han Y and He Q*. clusterProfiler: an R package for comparing biological themes among gene clusters. OMICS: A Journal of Integrative Biology. 2012, 16(5):284-287.

    展开全文
  • R语言绘图(二)富集气泡图

    千次阅读 2021-12-24 15:50:50
    1.什么是富集气泡图? 气泡图是一种多变量图表,是散点图的变体。气泡图最基本的用法是使用四个值来确定每个数据序列,和散点图一样,气泡图将两个维度的数据值分别映射到坐标轴上,其中 X 轴和 Y 轴分别代表不同的...

    1.什么是富集气泡图?

    气泡图是一种多变量图表,是散点图的变体。气泡图最基本的用法是使用四个值来确定每个数据序列,和散点图一样,气泡图将两个维度的数据值分别映射到坐标轴上,其中 X 轴和 Y 轴分别代表不同的两个维度的数据,但是不同于散点图的是,每个气泡的面积代表第三个维度的数据,每个气泡的颜色代表第四个维度的数据。气泡图通过气泡的位置,面积大小和颜色等,可分析数据之间的相关性。

    需要注意的是,圆圈状气泡的大小是映射到面积而不是半径或者直径绘制的。因为如果是基于半径或者直径,那么圆的大小不仅会呈指数级变化,而且还会导致视觉误差。

     

    本文我们就来讨论一下富集气泡图是如何绘制的以及如何对其进行解读。

    2.绘图前的数据准备

    demo数据可以在https://www.bioladder.cn/shiny/zyp/bioladder2/demoData/bubble/data.txt下载。

    数据来源一般是富集结果。包含四列数据,Term是条目的名称,Size是指定点的大小(一般是富集到该条目的蛋白个数),Ratio是富集到该条目的蛋白个数/该条目的蛋白总个数,Enrichment是-log10(pvalue)用来指定气泡的颜色

     

    3. R语言怎么画富集气泡图

    library(ggplot2)
    ​
    # 读取富集气泡图数据文件
    df= read.delim("https://www.bioladder.cn/shiny/zyp/bioladder2/demoData/bubble/data.txt")# 这里读取了网络上的demo数据,将此处换成你自己电脑里的文件
     
    # 绘图
    ggplot(df,aes(x = Ratio, 
                  y = reorder(Term,Enrichment,sum), # 按照富集度大小排序
                  size = Size,
                  colour=Enrichment)) +
      geom_point(shape = 16) +                    # 设置点的形状
      labs(x = "Ratio", y = "Pathway")+           # 设置x,y轴的名称
      scale_colour_continuous(                    # 设置颜色图例
        name="Enrichment",                        # 图例名称
        low="green",                              # 设置颜色范围
        high="red")+
      scale_radius(                               # 设置点大小图例
        range=c(2,4),                             # 设置点大小的范围
        name="Size")+                             # 图例名称
      guides(   
        color = guide_colorbar(order = 1),        # 决定图例的位置顺序
        size = guide_legend(order = 2)
      )+
      theme_bw()                                  # 设置主题
    ​
    

    4. 富集气泡图结果解读

    IMG_256

    使用气泡图可以研究单个图上四个变量之间的关系。与散点图一样,气泡图也绘制 Y 变量与 X 变量。但是,气泡图上的符号(又称为气泡)大小和颜色也可以分别表示一种信息。

    这张示例图中,Y轴为term名称,X为ratio大小,气泡颜色表示富集度,气泡大小也表示富集到该条目的蛋白个数。

    5. BioLadder生信云平台在线绘制富集气泡图

    不想写代码?可以用BioLadder生信云平台在线绘制富集气泡图。

    网址:BioLadder-生物信息在线分析可视化云平台

    BioLadder目前上线了生物学分析最常用的50多个模块,主要包括以下四类:

    数据可视化:箱线图,南丁格尔玫瑰图,韦恩图,UpSet图,饼图,词云图,小提琴图,富集气泡图,弦图,柱形图等

    组学数据分析:序列的多重比对,表达数据的CV曲线图,富集气泡图,T-SNE,热图,富集气泡图等,趋势分析的mFuzz,差异分析的火山图,富集分析的气泡图,修饰位点上下游模体分析的seqLogo,Motif热图等

    功能分析:GO弦图,相互作用网络图,富集分析

    数据预处理:归一化,补值,FDR校正,长宽表互换等

    展开全文
  • KEGG富集分析散点图.md

    千次阅读 2019-06-13 08:37:00
    输入数据格式 ...pp = ggplot(pathway,aes(richFactor,Pathway)) #Pathwy是ID,richFactor是富集的基因数目除以背景的基因数目 # 改变点的大小 pp + geom_point(aes(size=R0vsR3)) # 以基因的数目表...

    输入数据格式

    81743e21-b888-4df3-a1a5-3e8045952f7c.jpg

    pathway = read.table("kegg.result",header=T,sep="\t")
     
    pp = ggplot(pathway,aes(richFactor,Pathway)) #Pathwy是ID,richFactor是富集的基因数目除以背景的基因数目
    # 改变点的大小
    pp + geom_point(aes(size=R0vsR3)) # 以基因的数目表示点大小
     
    pbubble = pp + geom_point(aes(size=R0vsR3,color=-1*log10(Qvalue))) # 显著性表示颜色
    # 自定义渐变颜色
    pbubble + scale_colour_gradient(low="green",high="red")
     
    # 绘制pathway富集散点图
    pr = pbubble + scale_colour_gradient(low="green",high="red") + labs(color=expression(-log[10](Qvalue)),size="Gene number",x="Rich factor",y="Pathway name",title="Top20 of pathway enrichment")
    # 改变图片的样式(主题)去除背景色
    pr + theme_bw()
    #去除网格线
    p_remove_grid <- pr +
    theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank())
    #网格线颜色
    panel.grid=element_line(color='grey')
    首先需要安装ggplot2
    library(ggplot2) #导入ggplot2
    x <- read.table("c:/Users/yueyao/Desktop/pathwayenrichment.txt",head = T, sep = "\t") #读入文件,我的文本文件在桌面
    pdf(file="c:/Users/yueyao/Desktop/pathway_enrichment.pdf",width=10,height=10)#生成输出文件,双引号里面为路径及文件名,可自行设置
    png(file="c:/Users/yueyao/Desktop/pathway_enrichment.png",width=800,height=800)
    p <- ggplot(x,aes(x$Rich.Factor,x$Pathway))#作图利用的两列数据
    map = p + geom_point(aes(size=x$Genes,colour=x$Qvalue))+theme(axis.text=element_text(color='black'),axis.text.y=element_text(size=14),axis.text.x=element_text(size=14),panel.background=element_rect(fill='transparent'),panel.grid=element_line(color='grey'),panel.border=element_rect(fill='transparent',color='black'),axis.title=element_text(size=16)) +labs(color="Qvalue",size="Gene number",x="Rich factor",y="Pathway name",title="Top20 of pathway enrichment")
    map
    dev.off()

    输出图片

    f6b41176-b60c-4b28-8c46-3a17ffab5e12.jpg

    转载于:https://www.cnblogs.com/raisok/p/11014006.html

    展开全文
  • 尽管有这个事实,但很少有研究真正涉及到NORM富集因子与所用煤炭质量之间的关系。 本文旨在将煤的质量与来自三个南非CFPP的燃煤残余物中感兴趣的放射性核素(K40,Ra226,Th232和Po210)的富集因子相关。 还考虑了...
  • 基因表达分析(中)- 富集分析

    千次阅读 2017-05-30 18:54:03
    我们要检验的目标是基因富集在一端是因为于目标通路相关的基因都在一端富集。那么空假设就是,你把找到的基因随便摆放也能看到富集现象。用比较专业的话说就是 先生成一个零假设的数据分布,然后观察实际数据在这个...
  • 通过室内污染暴露实验,研究了不同污染水平下...不同浓度下,同一生物的生物富集因子有一定的差异:低浓度组的生物富集因子比高浓度组的高; 生物富集达到峰值的时间也不同, 暴露于高浓度组的生物先于低浓度组达到富集峰值.
  • 大气颗粒物的来源识别与解析方法 前言 绪论 大气颗粒物的来源识别与解析 概述 扩散模型法 欧拉方法 拉格朗日方法 USEPA三种模型 受体模型法 富集因子法 因子分析法(主成分分析法) 化学质量平衡法 PMF和UNMIX法 PMF...
  • 评估虚拟筛选方法性能常用回溯性验证:收集一个靶点的活性化合物与decoy化合物,进行虚拟筛选,用命中率(hit rate)、富集因子(Enrichment Factor,EF)与ROC曲线(Receiver Operating Characteristic Curve, ROC ...
  • 2、 生物累积性(B)和高生物累积性(vB)判定标准 判定前提 判定标准 判定结果 有生物富集因子(BCF)数据a) BCF>5000 vB BCF>2000 B 无生物富集因子(BCF)数据b) logKow≤4.5 非B 和非vB logKow>4.5 可能...
  • 趋化因子受体CXCR4 是HIV 进入宿主细胞的辅助受体之一.为了研究其抗HIV 抑制剂的构效关系,6 个结构多样性和拥有高活性的抑制剂被作为训练集来...最终得到一个具有较高的ROC曲线下面积(area under curve,AUC)与富集因子
  • 得到近江牡蛎富集和排出的吸收速率常数k1、排出速率常数k2、生物富集因子BCF、生物学半衰期B1/2等动力学参数。结果表明:相同暴露浓度下,近江牡蛎对Cd的富集量和BCF显著大于Pb(p),因而对Cd的富集能力大于Pb;富集...
  • 通过建立煤层裂隙、含气性等与其弹性参数关系,进一步理清了瓦斯富集与储层...引入综合评价因子,建立其与4种岩性反演结果相关的一次线性函数,并绘制4弹性参数综合预测瓦斯富集区成果图,达到预测煤层瓦斯富集区的目的。
  • 通过将测得的重金属浓度与澳大利亚和新西兰环境与自然保护理事会(ANZECC)和美国国家海洋与大气管理局(NOAA)淡水沉积物质量指南进行比较,并通过计算地质累积指数和富集因子,可以完成数据分析。 结果表明,除了...
  • 背景:转录因子(TFs)和组蛋白修饰(HMs)之间的相互作用在基因表达的精确调控中起着重要作用。 这些相互作用的背景特异性以及其在正常和疾病中的动态还很大程度上未知。 基因组学技术的最新发展实现了通过RNA-seq...
  • 生物富集因子(BCF)值表示金属从土壤到作物的转移水平; 表明萝卜中Cd的高转移价值,其次是白菜和菠菜。 在芥菜(8.13),卷心菜(4.18)和萝卜(3.07)中观察到较高的BCF值,以防止锌污染。 使用USEPA方法计算...
  • 记录一下完整的pharmacophore的过程初始文件复合物晶体结构->PLIF->药效团序列加载蛋白复合物以及初始设置准备1.读取蛋白文件2.修改背景颜色为白色,修改立场文件3.删除多余链与配体4.调整蛋白结构显示5....
  • 所述gprofiler2cytoscape包使由得到的功能富集结果转化成网络,其中显著术语(基因本体论/ Reactome / KEGG /转录因子/等)和基因是节点。 在这个网络中,边缘将属于富集请求一部分的基因与其术语联系起来。 ...
  • 研究采集了黑龙江松嫩平原南部28个夏季大气颗粒物样品,分析了不同粒径(TSP、PM10、PM2.5)样品中常量和微量元素...富集因子分析表明:Fe、K、Ti、Mn、Co的富集因子小于1或非常接近1,Ca、Mg、Ni、Cr的富集因子大于
  • DAVID 在线数据库进行 GO/ KEGG 富集分析

    万次阅读 多人点赞 2019-12-18 17:24:35
    1、功能富集分析 随着高通量技术的发展,生物医学相关研究领域进入了组学时代,单个基因的研究已经不能满足研究人员的需要。然而,如此庞大的数据使得信息的有效提取和分析带来了新的挑战。以测序数据为例,测序结果...
  • 研究区形成断层侧向封堵的条件为泥 岩涂抹势大于22,泥岩涂抹因子小于1.5,断层泥比率大于0.73,沙二段底部、沙三上亚段和沙四上亚段达到断层侧 向封堵条件;源下油气成藏主要受储层孔喉半径和成藏期沙三段底部剩余压力...
  • 分析本区锶富集的水文地球化学环境特征,在此基础上运用R-型因子分析法,结合区域地层矿物成分分析及土(粪)样锶含量测试结果,明晰该区水文地球化学环境形成的控制作用,探索锶富集的形成原因。
  • 污染度DC(-13.53至-11.02),富集因子EF(0.26-35.47),生态风险因子Er(-29.92-7.04),潜在生态风险指数RI(-61.2-43.43),污染负荷指数PLI(- 0.01-0.04)和地理位置累积指数Igeo(4.8E-09-3.0)。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,475
精华内容 590
关键字:

富集因子