精华内容
下载资源
问答
  • title: “GSE93798” output: word_document ...关于GSE93798的差异性分析、GO分析、KEGG分析、DO分析 rm(list = ls()) #RStudio控制台(console)中出现少量中文乱码的解决方法 Sys.setlocale("LC_ALL","...

    title: “GSE93798”
    output: word_document

    knitr::opts_chunk$set(echo = TRUE)
    

    R Markdown

    关于GSE93798的差异性分析、GO分析、KEGG分析、DO分析

    rm(list = ls()) 
    
    
    #RStudio控制台(console)中出现少量中文乱码的解决方法
    Sys.setlocale("LC_ALL","Chinese")
    
    
    # if (!requireNamespace("BiocManager", quietly = TRUE))
    #   install.packages("BiocManager")
    # BiocManager::available()
    # 
    # options(BioC_mirror="http://mirrors.ustc.edu.cn/bioc/")
    
    library(BiocManager)
    
    #BiocManager::install('limma')
    library(limma)
    
    #install.packages("ggplot2")
    library(ggplot2)
    
    exp<-read.table("GSE93798_series_matrix1.txt",header = T,row.names = 1,comment.char = "!")
    
    
    annot<- data.table::fread("GPL570.annot.gz",skip ="ID",data.table = F)
    
    b <- data.table::fread("GPL22945_family.soft.gz",skip ="ID",data.table = F)
    
    
    annot<-annot[,c(1,2,3)]
    #annot=subset(annot,annot$Gene.symbol!="")
    
    exp$Gene=b$Symbol[match(rownames(exp),b$ID)]
    #处理重复基因
    exp<-aggregate(x=exp[,-ncol(exp)],by=list(exp$Gene),FUN ='mean')
    colnames(exp)[1]="Gene"
    
    write.csv(exp,"GSE93798_eXp_matrix.csv")
    
    gset<-exp[,-1]
    rownames(gset)<-exp[,1]
    
    #样本分组情况
    description<-factor(c(rep("Con_l",22),rep("IgA",20)))
    design<-model.matrix(~description+0,gset)
    colnames(design)<-c("con_l","IgA")
    
    fit<-lmFit(gset,design)
    
    #构建对比组别
    cont.matrix<-makeContrasts(IgA-con_l,levels = design)
    fit2<-contrasts.fit(fit,cont.matrix)
    
    ##差异分析
    fit2<-eBayes(fit2)
    tT<-topTable(fit2,adjust.method = "fdr",sort.by ="B",number = nrow(gset))
    
    
    tT<-data.frame(Gene=row.names(tT),tT)
    diff<-subset(tT,tT$adj.P.Val<0.01 & abs(tT$logFC)>1)
    diff$Trend<-"up"
    diff$Trend[diff$logFC<0]<-"down"
    
    write.csv(tT,"GSE93798_IgA_conl_allDEGs.csv")
    write.csv(diff,"GSE93798_IgA_conl_diffDEGs.csv")
    
    #取出差异表达基因对应的表达矩阵
    data=exp[match(diff$Gene,exp$Gene),]
    mat<-as.matrix(data[,-1])
    
    ##可视化:制作热图
    #install.packages("pheatmap")
    library(pheatmap)
    annotation_col=data.frame(type=c(rep("Con_l",22),rep("IgA",20)))
    row.names(annotation_col)<-colnames(data[,-1])
    pheatmap(log(mat + 1),color = colorRampPalette(c("blue","white","red"))(dim(mat)[1]),border_color = "NA",show_rownames = F,annotation_col = annotation_col)
    
    ##富集分析
    #BiocManager::install("clusterProfiler")
    #BiocManager::install("topGO")
    #BiocManager::install("Rgraphviz")
    #BiocManager::install("pathview")
    #BiocManager::install("org.Hs.eg.db")
    
    library(clusterProfiler)
    library(topGO)
    library(Rgraphviz)
    library(pathview)
    library(org.Hs.eg.db)
    
    ##GO分析
    #Cellular component解释的是基因存在在哪里,在细胞质还是在细胞核?如果存在细胞质那在哪个细胞器上?如果是在线粒体中那是存在线粒体膜上还是在线粒体的基质当中?这些信息都叫Cellular component。
    #Biological process是在说明该基因参与了哪些生物学过程,比如,它参与了rRNA的加工或参与了DNA的复制,这些信息都叫Biological process
    #Molecular function在讲该基因在分子层面的功能是什么?它是催化什么反应的?
    
    
    DEG.gen_symbol<-as.character(diff$Gene)
    columns(org.Hs.eg.db)
    DEG.entrez_id<-mapIds(x=org.Hs.eg.db,
                          keys = DEG.gen_symbol,
                          keytype = "SYMBOL",
                          column = "ENTREZID")
    DEG.entrez_id<-na.omit(DEG.entrez_id)
    
    #Biological process, BP 生物学过程
    erich.go.BP<-enrichGO(gene = DEG.entrez_id,
                          OrgDb = org.Hs.eg.db,
                          keyType = "ENTREZID",
                          ont = "BP",
                          pvalueCutoff = 0.01,
                          qvalueCutoff = 0.05,
                          readable = T)
    #颜色越红,生物过程越显著
    barplot(erich.go.BP,title = "BP")
    #点越大、颜色越红,相应生物过程的基因所占比越显著重要
    dotplot(erich.go.BP,title = "BP")
    #解读BP层面富集分析图:
    #横坐标是GeneRatio,意思是说输入进去的基因,它每个term(纵坐标)站整体基因的百分之多少。
    #圆圈的大小代表基因的多少,图中给出了最大的圆圈代表60个基因,圆圈的颜色代表P-value,
    #也就是说P-value越小gene count圈越大,这事就越可信。
    
    #将生物过程以树的形式进行展示
    plotGOgraph(erich.go.BP)
    
    
    
    #Cellular component,CC 细胞成分
    erich.go.CC<-enrichGO(gene = DEG.entrez_id,
                          OrgDb = org.Hs.eg.db,
                          keyType = "ENTREZID",
                          ont = "CC",
                          pvalueCutoff = 0.01,
                          qvalueCutoff = 0.05,
                          readable = T)
    
    #颜色越红,细胞构成越显著
    
    barplot(erich.go.CC,title = "CC")
    
    #点越大、颜色越红,相应细胞构成的基因所占比越显著重要
    
    dotplot(erich.go.CC,title = "CC")
    
    #将细胞构成以树的形式进行展示
    
    plotGOgraph(erich.go.CC)
    
    ##树状图很大,所以我们用代码把它存成pdf
    # pdf(file="./enrich.go.bp.tree.pdf",width = 10,height = 15)
    # plotGOgraph(erich.go.BP)
    # dev.off()
    
    
    
    
    #Molecular function,MF 分子功能
    erich.go.MF<-enrichGO(gene = DEG.entrez_id,
                          OrgDb = org.Hs.eg.db,
                          keyType = "ENTREZID",
                          ont = "MF",
                          pvalueCutoff = 0.01,
                          qvalueCutoff = 0.05,
                          readable = T)
    
    #颜色越红,分子功能越显著
    
    barplot(erich.go.MF,title = "MF")
    
    #点越大、颜色越红,相应分子功能的基因所占比越显著重要
    
    dotplot(erich.go.MF,title = "MF")
    
    #将分子功能以树的形式进行展示
    
    plotGOgraph(erich.go.MF)
    
    
    
    # ##KEGG分析
    # KEGG: Kyoto Encyclopedia of Genes and Genomes
    # KEGG是日本主导的一个项目对gene和genome进行了非常详细的注释
    
    erich.KEGG<-enrichKEGG(gene = DEG.entrez_id,
            
                           organism = "hsa",
                           keyType = "kegg",
                          
                          pvalueCutoff = 0.01,
                          qvalueCutoff = 0.05
                         )
    
    ##横轴为该pathway的差异基因个数,
    ##纵轴为富集到的pathway的描述信息, 
    ##showCategory指定展示的pathway的个数,默认展示显著富集的top10个,即p.adjust最小的10个。
    ##注意的颜色对应p.adjust值,从小到大,对应蓝色到红色。
    barplot(erich.KEGG)
    
    ##横轴为GeneRatio, 代表该pathway下的差异基因个数占差异基因总数的比例,
    ##纵轴为富集到的pathway的描述信息,
    ##showCategory指定展示的pathway的个数,默认展示显著富集的top10个,即p.adjust最小的10个。
    ##图中点的颜色对应p.adjust的值,从小到大,对应蓝色到红色,大小对应该GO terms下的差异基因个数,个数越多,点越大。
    
    dotplot(erich.KEGG)
    
    ##函数 cnetplot() 可以将基因与生物学概念 (e.g.* GO terms or KEGG pathways) 的关系绘制成网状图。
    ##对于基因和富集的pathways之间的对应关系进行展示,如果一个基因位于一个pathway下,则将该基因与pathway连线
    cnetplot(erich.KEGG,showCategory = 5)
    ##图中灰色的点代表基因,黄色的点代表富集到的pathways, 默认画top5富集到的pathwayss, pathways节点的大小对应富集到的基因个数。
    ##数字就是基因ID,如果需要更换,可以更换keytype,或者直接在enrich.KEGG.BP 的结果中进行相同ID更换
    cnetplot(erich.KEGG,circular=T,  ###画为圈图
             colorEdge=T)      ##线条用颜色区分
    
    ###画出某一特定pathway的图
    browseKEGG(erich.KEGG,"hsa04750")   
    ##http://rest.kegg.jp/link/hsa/pathway      人类
    pathview(erich.KEGG,pathway.id = "hsa04750",species = "hsa")
    
    ##疾病分析
    library(DOSE)
    erich.do<-DOSE::enrichDO(gene = DEG.entrez_id,
                          ont = "DO",
                          pvalueCutoff = 0.01,
                          qvalueCutoff = 0.05,
                          readable = T)
    
    #颜色越红,疾病越显著
    
    barplot(erich.do)
    
    #点越大、颜色越红,相应疾病的基因所占比越显著重要
    
    dotplot(erich.do)
    
    #将相应疾病以网格的形式进行展示
    
    cnetplot(erich.do)
    

    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述在这里插入图片描述在这里插入图片描述

    展开全文
  • 数据分析 检验差异

    千次阅读 2020-08-29 11:07:47
    分析差别:做出一些必要的假设:假设,数据是服从正态分布,而且不同之间不受到其它因素的影响 做下一步的分析:两组之间阅读量的差别,是因为文案本身的原因,还是其它某些随机的因素 具体流程:a.做出两组...

    方差分析-用于两个及两个以上样本差别的显著性检验

    当比较两个不同样本之间的问题时,如:比较两个不同样本(文案)之间的问题

    分析差别:做出一些必要的假设:假设,数据是服从正态分布,而且不同组之间不受到其它因素的影响

                         做下一步的分析:两组之间阅读量的差别,是因为文案本身的原因,还是其它某些随机的因素

    具体流程:a.做出两组之间无差异的假设,并服从正态分布(即u1-u2=0)

                       b.计算样本之间平均值的差异,构建我们需要检验的统计量(Z)

         

    3.选择合适的显著水平(0.05)和临界值(+-1.96)

    4.比较两者之间的大小,判断是否接受默认假设

    展开全文
  • 参考: 1.《医学案例统计分析与SAS应用》,冯国双

    在这里插入图片描述
    参考:

    1.《医学案例统计分析与SAS应用》,冯国双

    展开全文
  • 数据分析技术:数据差异的显著检验 数据差异的显著检验是数据分析的重要技术之一。然而,如何正确选择检验方法是很多初学者困惑和容易出现错误的地方。下面为大家总结一下数据差异显著检验的方法及适用范围。...

    数据分析技术:数据差异的显著性检验

    数据差异的显著性检验是数据分析的重要技术之一。然而,如何正确选择检验方法是很多初学者困惑和容易出现错误的地方。下面为大家总结一下数据差异显著性检验的方法及适用范围。

    数据分析技术:数据差异的显著性检验

    显著性检验

    首先需要理解什么是数据差异的显著性检验。在数据分析中,如果仅仅基于个案(某个数据)的采样数据是没有很强说服力的。例如:一种新药,不能因为一个人使用后,效果良好就大面积地推广,而应该基于大规模的样本判定这种新药是否有效,这就需要验证在大规模样本中实验组数据是否优于对照组数据,二者是否存在显著性的差别。显著性检验的理论就是在这种具体需求下提出来的。

    所谓数据差异的显著性检验,是面向两组或多组数据的一种数据分析方法,其目的是对两组数据之间是否存在显著的差异进行判断。一般来说,两组观测数据不可能完全相同,肯定存在或多或少的差异,但研究者关心的是两组数据的差异是否显著。如果差异显著,就可以说两组数据之间存在显著性差异;否则,它们之间的差异不显著,甚至可以说是无差别。

    数据差异的显著性可以运用在各类科学研究中,例如,在教学研究中,研究者可以研究某种教学法是否有效。在医学领域,可以研究某种新药是否对患者有效等等。

    数据的分类

    数据类型的不同,将直接影响到差异显著性检验的使用方法。数据主要可以分成三类:定距变量,定序变量和定类变量。

    定类变量:根据定性的原则区分总体中个案类别的变量。定类变量的值只能把研究对象分类,只能决定研究对象是同类或不同类,例如:性别分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况分为未婚、已婚、分居、离婚、丧偶等类。

    定序变量:区别同一类的个案中等级次序的变量。变量的值能把研究对象排列高低或大小,它是比定类变量层次更高的变量,也具有定类变量的特点,例如:文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。这些变量的值,既可以区分异同,也可以区别高低或大小。但是,各个定序变量的值之间没有确切的间隔距离,比如大学究竟比高中高出多少,是没有确切的尺度来测量的。

    定距变量:区别同一类别个案中等级次序及其距离的变量。它除了包括定序变量的特性外,还能确切测量出个案之间高低、大小次序之间的距离。

    定距变量是最常见、区分度最高的变量,这类变量可以被求取均值、方差、标准差和标准误等描述性信息,在数据分析中最受欢迎,被称为高测度数据。定序变量和定类变量则因为数据的特点,通常无法求取它们的均值和方差等信息,被称为低测度数据,需要采用与定距变量不同的分析技术。数据分析培训

    转载于:https://www.cnblogs.com/amengduo/p/9587273.html

    展开全文
  • 数据格式转换 lefse分析 绘制lefse结果图 绘制特征条形图 绘制系统发育树图 参考资料 导读 LEfSe(Linear discriminant analysis Effect Size)通过将用于统计显着的标准检验与编码生物一致和效果相关性的检验相...
  • 探索性数据分析

    万次阅读 多人点赞 2019-01-05 21:15:22
    探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J....
  • (1)检验每组数据是否服从正态分布; 第一组数据利用Matlab编译程序如下: clc; clear; load('c.mat'); c=c';%转置 alpha=0.05;%0.95置信度 % 第一组数据正态分布判断  [mu,sigma]=nor...
  • 群落差异分析

    千次阅读 2019-08-13 14:09:57
    根据丰度信息,找出不同分之间的差异因素(物种、功能),继而确定其生物学的相关性。 2.专业分析软件 Metastats LEfSe STAMP Metastats 应用范围: 只能两组样本之间比较(非参数T检验(参数T检验,一般用于正态...
  • RNA-seq:转录组数据分析处理(上)

    万次阅读 多人点赞 2019-01-26 17:04:52
    RNA-seq:转录组数据分析处理 一、流程概括 RNA-seq的原始数据(raw data)的质量评估 raw data的过滤和清除不可信数据(clean reads) reads回帖基因和转录(alignment) 计数(count ) 基因差异分析(Gene ...
  • T检验:两样本数据差异性

    万次阅读 2016-09-19 11:50:08
    我最近在研究TCGA的RNAseq数据表达差异性分析,常用的并且最简单的方法是统计量T检验。下面用一个例子来验证T检验的弊端问题所在。两配对样本的T检验是利用来自两个总体的配对样本,推断总体的两个均值是否显著...
  • 样本量大的时候做差异性分析容易得到有显著性差异的结论,原因如下图, 求p值的过程中,n越大,Z0也越大,相对应的p就小了。当然这里默认方差变化不大的情况下,因为一般来说很多数据经过平均后方差不会变化很大,...
  • 无论是传统的多细胞转录测序(bulk RNA-seq)还是单细胞转录测序(scRNA-seq),差异表达分析(differential expression analysis)是比较两组不同样本基因表达异同的基本方法,可获得一样本相对于另一样本...
  • 探索性数据分析是运用一些分析方法从大量的数据中发现未知且有价值信息的过程。 分类 探索性数据分析可分为以下4种: * RFM分析 * 聚类分析 * 因子分析 * 对应分析 RFM分析 RFM分析是针对销售行为的一种...
  • 数据描述性分析

    千次阅读 2015-09-29 14:26:57
    已知一试验(或观测)数据为,它可以是从所要研究的对象的总体X中取出的,这n个观测值就构成了一个样本。在某些简单的实际问题中,这n个观测值就是所要研究问题的全体。数据分析的任务是要对这全部n个数据进行分析...
  • 欢迎关注”生信修炼手册”!GEO数据库中的数据是公开的,很多的科研工作者会下载其中的数据自己去分析,其中差异表达分析是最常见的分析策略之一,为了方便大家更好的挖掘GEO中的数据,官网提供...
  • 数据挖掘:探索性数据分析(EDA)

    千次阅读 多人点赞 2020-02-21 15:48:22
    数据挖掘:探索性数据分析
  • 、探索性数据分析 原文:DS-100/textbook/notebooks/ch05 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 探索性数据分析是一种态度,一种灵活的状态,一种寻找那些我们认为不存在和存在的...
  • 利用R的bioconductor包进行分析。由于安装的是R3.5+版本所以实际用的是用biomanager指令,其他基本一样,系统走一遍流程,记录网络有用资料。
  • 微生物组数据系统发育分析的方法

    千次阅读 2019-01-15 00:00:00
    微生物组数据系统发育分析的方法Methods for phylogenetic analysis of microbiome dataNature Microbiology, [14.1...
  • 阅读时长:10 min 背景介绍(Introduction)宏基因学宏基因学目前的主要研究方法包括:16S/ITS/18S扩增子、宏基因、宏转录和代谢,其中以扩增子研究最为广泛。目的意义本系列文章将带领大家结合较新的16S...
  • 数据测量与相似性分析

    千次阅读 2018-10-22 16:58:58
    这篇文章中主要记录如何分析样本间相似性的内容,相似性分析在分类算法(如K最邻近分类)和聚类任务中会涉及到。相似性分析基于样本属性取值,因此对于样本属性类型及其取值的特征也有必要说明。 1.数据测量及属性...
  • 差异分析流程(一)数据预处理

    千次阅读 2019-12-14 00:16:07
    差异基因分析三大包说明一、 Limma 参考链接: https://www.jianshu.com/p/8c187c8f4d09 http://www.freesion.com/article/752576024/ https://cloud.tencent.com/developer/article/1492130 ...h...
  • 无论是传统的多细胞转录测序(bulk RNA-seq)还是单细胞转录测序(scRNA-seq),差异表达分析(differential expression analysis)是比较两组不同样本基因表达异同的基本方法,可获得一样本相对于另一样本...
  • 典型医学设计实验GEO数据分析 (step-by-step) - 数据获取到标准化介绍了实验的设计、数据获取、数据标准化和注释,下面是如何利用Limma和线性模型鉴定差异基因,并进行GO富集分析。 线性模型 为了分析发炎和未发炎...
  • 宏基因有参分析和无参分析差异

    千次阅读 2019-06-15 18:06:42
    宏基因有参分析和无参分析差异分析流程解决问题结果差异 本文参考宏基因教程Metagenomics Tutorial (HUMAnN2) 分析流程 有参流程:质控–物种组成和功能组成分析差异分析及可视化 无参流程:质控–物种...
  • 用limma包进行多组差异表达分析

    千次阅读 2020-03-15 00:20:16
    写在前面:最近在使用limma包进行差异表达分析,参考了网上许多教程都觉得说的云里雾里,很不清楚。经过我自己一段时间非常痛苦的钻研,弄明白了,解决了我的实际需求。于是决定将我的分析经验写下来,分享给需要的...
  • 数据分析数据预处理、分析建模、可视化

    万次阅读 多人点赞 2020-08-08 15:03:21
    概述:简介、思路、发展...数据分析方法:描述统计、假设检验、信度分析、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析等; 数据可视化:Excel、PowerBI、Tableau、Python;

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 246,026
精华内容 98,410
关键字:

五组数据差异性分析