精华内容
下载资源
问答
  • 对比分析的步骤和方法
    千次阅读
    2022-05-20 12:38:42

    GO和KEGG富集分析


    1. 将差异表达结果的基因名称转化为id

    因为GO和KEGG分析需要用到id,所以这一步需要将基因名字转换为id。具体步骤如下:

    1. 新建空白文件夹,将差异分析得到的diff.xls复制粘贴到文件夹中

    2. 因为在这里只需要diff.xls中的基因名称和logFC两列,所以只复制这两列粘贴到新建的文本文件symbol.txt,如下图所示:
      在这里插入图片描述

    3. 新建R语言脚本文件symbol2id.R,代码如下:

      if (!requireNamespace("BiocManager", quietly = TRUE))
          install.packages("BiocManager")
      BiocManager::install("org.Hs.eg.db")
      
      
      setwd("C:\\Users\\Administrator\\Desktop\\cptac\\4_name2id")          #设置工作目录
      
      library("org.Hs.eg.db")          #引用包
      rt=read.table("symbol.txt",sep="\t",check.names=F,header=T)    #读取文件
      genes=as.vector(rt[,1])
      entrezIDs <- mget(genes, org.Hs.egSYMBOL2EG, ifnotfound=NA)    #找出基因对应的id
      entrezIDs <- as.character(entrezIDs)
      out=cbind(rt,entrezID=entrezIDs)
      write.table(out,file="id.txt",sep="\t",quote=F,row.names=F) 
      
    4. 设置好工作目录之后,打开R软件,运行上述代码即可。运行结束在文件夹中会有id.txt,打开后如下图所示:
      在这里插入图片描述

      可以看到后面已经有了id这一列了,至此本步骤结束。

    2. GO富集分析

    GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的、对基因和蛋白质功能进行限定和描述的、并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能。在转录组项目中,GO功能分析一方面给出差异表达转录本的GO功能分类注释;另一方面给出差异表达转录本的GO功能显著性富集分析。

    下面介绍GO分析的步骤:

    1. 将含有基因id的文本文件id.txt复制粘贴到新的文件夹中

    2. 新建R语言脚本,命名为GO.R,其代码如下:

      install.packages("colorspace")
      install.packages("stringi")
      install.packages("ggplot2")
      
      if (!requireNamespace("BiocManager", quietly = TRUE))
          install.packages("BiocManager")
      BiocManager::install("DOSE")
      
      if (!requireNamespace("BiocManager", quietly = TRUE))
          install.packages("BiocManager")
      BiocManager::install("clusterProfiler")
      
      if (!requireNamespace("BiocManager", quietly = TRUE))
          install.packages("BiocManager")
      BiocManager::install("enrichplot")
      
      library("clusterProfiler")
      library("org.Hs.eg.db")
      library("enrichplot")
      library("ggplot2")
      
      setwd("C:\\Users\\Administrator\\Desktop\\cptac\\5_GO分析")                  #设置工作目录
      rt=read.table("id.txt",sep="\t",header=T,check.names=F)           #读取id.txt文件
      rt=rt[is.na(rt[,"entrezID"])==F,]                                 #去除基因id为NA的基因
      gene=rt$entrezID
      
      #GO富集分析
      kk <- enrichGO(gene = gene,
                     OrgDb = org.Hs.eg.db, 
                     pvalueCutoff =0.05, 
                     qvalueCutoff = 0.05,
                     ont="all",
                     readable =T)
      write.table(kk,file="GO.txt",sep="\t",quote=F,row.names = F)                 #保存富集结果
      
      #柱状图
      pdf(file="barplot.pdf",width = 10,height = 8)
      barplot(kk, drop = TRUE, showCategory =10,split="ONTOLOGY") + facet_grid(ONTOLOGY~., scale='free')
      dev.off()
      
      #气泡图
      pdf(file="bubble.pdf",width = 10,height = 8)
      dotplot(kk,showCategory = 10,split="ONTOLOGY",orderBy = "GeneRatio") + facet_grid(ONTOLOGY~., scale='free')
      dev.off()
      

      这里GO分析用到的包为"clusterProfiler",画图用到的包为"enrichplot"。在代码中会设置p值和q值,设置的都是0.05,如果该条件下分析得到的可用基因较少,可将q设置为0,只看p值,但这样准确性也会降低一些。

    3. 打开R软件,运行上述代码,最终得到的结果如下图所示,下图按顺序分别是柱状图、气泡图以及GO分析结果。
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    4. 讲一下GO分析得到的文本文件,也就是上面三幅图中的最后一幅图,第一列是GO分析的分类,分别是BP,CC,MF;第二列是GO的id;第三列为对应的描述;第四列为基因背景的比例;第五列为p值,表示富集的显著性;第六列为p值得校正值;第七列为q值;第八列为基因id,也就是基因名称;最后一列就是富集在每个GO上的数目。对于柱状图和气泡图,会分为BP,CC,MF,每个类别颜色越红表示富集程度越高。

    3. GO圈图绘制

    话不多说,直接上步骤。

    1. 新建R语言脚本文件GOplot.R,脚本文件和GO分析得到的结果放在同一目录下,其代码如下:

      install.packages("digest")
      install.packages("GOplot")
      
      library(GOplot)
      setwd("C:\\Users\\Administrator\\Desktop\\cptac\\6_GO圈图绘制")              #设置工作目录
      
      ego=read.table("GO.txt", header = T,sep="\t",check.names=F)      #读取kegg富集结果文件
      go=data.frame(Category = "All",ID = ego$ID,Term = ego$Description, Genes = gsub("/", ", ", ego$geneID), adj_pval = ego$p.adjust)
      
      #读取基因的logFC文件
      id.fc <- read.table("id.txt", header = T,sep="\t",check.names=F)
      genelist <- data.frame(ID = id.fc$gene, logFC = id.fc$logFC)
      row.names(genelist)=genelist[,1]
      
      circ <- circle_dat(go, genelist)
      termNum = 5                                     #限定term数目
      geneNum = nrow(genelist)                        #限定蛋白数目
      
      chord <- chord_dat(circ, genelist[1:geneNum,], go$Term[1:termNum])
      pdf(file="circ.pdf",width = 11,height = 10.5)
      GOChord(chord, 
              space = 0.001,           #基因之间的间距
              gene.order = 'logFC',    #按照logFC值对基因排序
              gene.space = 0.25,       #基因名跟圆圈的相对距离
              gene.size = 4,           #基因名字体大小 
              border.size = 0.1,       #线条粗细
              process.label = 7.5)     #term字体大小
      dev.off()
      
      termCol <- c("#223D6C","#D20A13","#FFD121","#088247","#58CDD9","#7A142C","#5D90BA","#431A3D","#91612D","#6E568C","#E0367A","#D8D155","#64495D","#7CC767")
      pdf(file="cluster.pdf",width = 11.5,height = 9)
      GOCluster(circ.gsym, 
                go$Term[1:termNum], 
                lfc.space = 0.2,                   #倍数跟树间的空隙大小
                lfc.width = 1,                     #变化倍数的圆圈宽度
                term.col = termCol[1:termNum],     #自定义term的颜色
                term.space = 0.2,                  #倍数跟term间的空隙大小
                term.width = 1)                    #富集term的圆圈宽度
      dev.off()          
      
    2. 打开R软件运行上述代码即可。最终即可得到两个圈图,如下图所示:
      在这里插入图片描述

      左半圆圈为基因名字,从下到上按照logFC进行排序得,圆圈右半部分为GO的名称,基因与GO之间得连线表示这个基因存在于该GO上。
      在这里插入图片描述

      此图为聚类图,内部圆圈为基因或蛋白,颜色表示logFC的大小,内部的一个扇形表示一个基因,如果内部的一个扇形对应着外部的一个颜色的扇形,那么表示该基因只存在于这一个颜色对应的GO里面;如果内部一个扇形对应着外部三个扇形,那么表示内部的这个基因存在于三个GO里面。

    4. KEGG富集分析

    1. 将差异分析得到的含有id的id.txt文件作为输入文件,新建文件夹,将id.txt拷贝到此文件夹下

    2. 新建R语言脚本文件,更改脚本文件的环境目录,代码如下:

      install.packages("colorspace")
      install.packages("stringi")
      install.packages("ggplot2")
      
      if (!requireNamespace("BiocManager", quietly = TRUE))
          install.packages("BiocManager")
      BiocManager::install("DOSE")
      
      if (!requireNamespace("BiocManager", quietly = TRUE))
          install.packages("BiocManager")
      BiocManager::install("clusterProfiler")
      
      if (!requireNamespace("BiocManager", quietly = TRUE))
          install.packages("BiocManager")
      BiocManager::install("enrichplot")
      
      
      library("clusterProfiler")
      library("org.Hs.eg.db")
      library("enrichplot")
      library("ggplot2")
      
      setwd("C:\\Users\\Administrator\\Desktop\\cptac\\7_KEGG分析")            #设置工作目录
      rt=read.table("id.txt",sep="\t",header=T,check.names=F)       #读取id.txt文件
      rt=rt[is.na(rt[,"entrezID"])==F,]                             #去除基因id为NA的基因
      gene=rt$entrezID
      
      #kegg富集分析
      kk <- enrichKEGG(gene = gene, organism = "hsa", pvalueCutoff =0.05, qvalueCutoff =2)      #富集分析
      write.table(kk,file="KEGGId.txt",sep="\t",quote=F,row.names = F)                          #保存富集结果
      
      #柱状图
      pdf(file="barplot.pdf",width = 10,height = 7)
      barplot(kk, drop = TRUE, showCategory = 30)
      dev.off()
      
      #气泡图
      pdf(file="bubble.pdf",width = 10,height = 7)
      dotplot(kk, showCategory = 30,orderBy = "GeneRatio")
      dev.off()
      
    3. 打开R软件运行上述代码,即可得到结果。
      在这里插入图片描述
      在这里插入图片描述

      KEGG因为数据库更新比较慢,而且分析时需要联网,因此富集到结果就会比较少。

    4. 运行完之后还会得到KEGGId.txt,里面的需要将里面的id转化为基因名字。因此新建perl脚本文件,代码太长,这里就不展示了。在该文件夹目录下打开powershell窗口,输入命令perl id2symbol.pl,运行完毕之后文件夹目录下就会产生新的含有基因名字的kegg文件,文件名为kegg.txt

    5. 至此,KEGG分析完毕

    5. KEGG圈图绘制

    这里的圈图绘制和上面的GO圈图绘制步骤一样的。话不多说,直接上代码:

    install.packages("digest")
    install.packages("GOplot")
    
    library(GOplot)
    setwd("C:\\Users\\Administrator\\Desktop\\cptac\\8_KEGG圈图绘制")              #设置工作目录
    
    ego=read.table("kegg.txt", header = T,sep="\t",check.names=F)       #读取kegg富集结果文件
    go=data.frame(Category = "All",ID = ego$ID,Term = ego$Description, Genes = gsub("/", ", ", ego$geneID), adj_pval = ego$p.adjust)
    
    #读取基因的logFC文件
    id.fc <- read.table("id.txt", header = T,sep="\t",check.names=F)
    genelist <- data.frame(ID = id.fc$gene, logFC = id.fc$logFC)
    row.names(genelist)=genelist[,1]
    
    circ <- circle_dat(go, genelist)
    termNum = 2                                     #限定term数目
    geneNum = nrow(genelist)                        #限定基因数目
    
    chord <- chord_dat(circ, genelist[1:geneNum,], go$Term[1:termNum])
    pdf(file="circ.pdf",width = 10,height = 9.6)
    GOChord(chord, 
            space = 0.001,           #基因之间的间距
            gene.order = 'logFC',    #按照logFC值对基因排序
            gene.space = 0.25,       #基因名跟圆圈的相对距离
            gene.size = 4,           #基因名字体大小 
            border.size = 0.1,       #线条粗细
            process.label = 7.5)     #term字体大小
    dev.off()
    
    termCol <- c("#223D6C","#D20A13","#FFD121","#088247","#58CDD9","#7A142C","#5D90BA","#431A3D","#91612D","#6E568C","#E0367A","#D8D155","#64495D","#7CC767")
    pdf(file="cluster.pdf",width = 10,height = 9.6)
    GOCluster(circ.gsym, 
              go$Term[1:termNum], 
              lfc.space = 0.2,                   #倍数跟树间的空隙大小
              lfc.width = 1,                     #变化倍数的圆圈宽度
              term.col = termCol[1:termNum],     #自定义term的颜色
              term.space = 0.2,                  #倍数跟term间的空隙大小
              term.width = 1)                    #富集term的圆圈宽度
    dev.off()
    

    这里将代码的工作环境更改一下,然后将kegg分析所得到的kegg.txt和之前的id.txt复制到同一目录下,然后打开R软件运行代码即可。得到的圈图如下:
    在这里插入图片描述
    在这里插入图片描述

    至此,KEGG圈图绘制结束。

    更多相关内容
  • 经平绒织物组织的分析具有一定的特殊性,主要以棉平绒为例分析经平绒织物组织的步骤和方法。首先以正面(绒面)为分析面,拆除纬纱;观察纬纱与经纱的交织情况,绘制交织图并标出绒经的位置;根据交织图确定表里组织以及绒...
  • matlab 一维二维小波分析处理,并比较不同小波去噪方法的去噪效果,指标为SNRMSE
  • 使用spss做各种相关性分析方法和步骤

    万次阅读 多人点赞 2022-01-16 12:07:20
    一般只有四种方法: 卡方检测, Spearman系数, Pearson系数, Eta系数 检验不同类型的变量的方法如下表格: 表格只是说明某一类相关性用某一种方法检测比较好, 而不是说不能用其他方法检测 用spss操作 随遍编了一手数据...

    目录

    数据类型

    相关性分析的方法

    用spss操作

    卡方检测

    Eta检测

     皮尔逊(Pesrson)检测

     Spearman(斯皮尔曼)


    数据类型

    先说明spss里的三种数据类型, 可以在 数据视图|测量 那里看到

    分别是

    1. 标度型(又称定距型) 简单来说就是有高低区别又有大小取值的, 如温度, 身高, 体重

    2. 有序性(又称定序型) 只有高低区别, 没有大小取值(或者和取值没有明显关系), 如学历, 年龄

    3. 名义型(又称定类型) 没有高低区别, 如性别, 民族

    相关性分析的方法

    顾名思义,就是看两个变量有没有某种关系? 究竟是一种什么关系?

    一般只有四种方法: 卡方检测, Spearman系数, Pearson系数, Eta系数

    检验不同类型的变量的方法如下表格:

    表格只是说明某一类相关性用某一种方法检测比较好, 而不是说不能用其他方法检测

    用spss操作

    随遍编了一手数据, 不要在意细节hhh 

    卡方检测

    选择: 分析|描述统计|交叉表

    然后把要分析的变量分别放到行和列, 比如我要分析的是抽烟和性别的关系

    点击右侧的统计, 选择卡方, 其他的随便选选也行

    确认后到输出视图, 重点注意卡方检测皮尔逊卡方, 如果检测值小于0.05, 说明相关性显著, 否则相关性不显著

    Eta检测

    和卡方检测几乎相同的步骤, 只是选择的时候不要选卡方, 选择相关性

    对称测量, 如果图中值大于0.5, 则高度相关, 且越大相关性越大

    同时如果皮尔逊系数不等于phi值, 说明他们不是线性相关

     皮尔逊(Pesrson)检测

    选择 分析|相关|双变量

    选择想要分析的两个变量, 选中皮尔逊, 双尾

    当然也可以在选项中选择其他想要显示的值

    查看相关性, 如果皮尔逊相关大于0.5(越大表示越相关)并且双尾小于0.05(排除偶然性,通过检验)说明是高度相关

     Spearman(斯皮尔曼)

    spearman检测和皮尔逊检测步骤几乎一模一样, 只是选中的是斯皮尔曼

    展开全文
  • 精品文档 SPSS常用分析方法操作步骤 一单变量单因素方差分析 例题某个年级有三个班现在对他们的一次数学考试成绩进行随机抽见下表试在显著性水平0.005下检验各班级的平均分数有无显著差异数据文件数学考试成绩.sav 1...
  • PAGE / NUMPAGES SPSS常用分析方法操作步骤 一单变量单因素方差分析 例题某个年级有三个班现在对他们的一次数学考试成绩进行随机抽见下表试在显著性水平0.005下检验各班级的平均分数有无显著差异数据文件数学考试...
  • GEO数据库分析步骤全文共2页,当前为第1页。 5. 按照自己需求选择需要的栏目,最重要的是GENE_SYMBOL,logFC 6. 点击select all result 7. 右键全选复制至excel 8. 选择需要列,数据-分列-按照空格,按照logFC分析...
  • 从类别表现、样本情况、归类函数、归类原则、预测功效等5个方面对Logistic回归模型中的基线-类别Logit模型判别分析方法中具有代表性的Bayes后验概率判别、Fisher判别的基本思想和步骤进行比较,并通过“鸢尾花”...
  • 一文汇总卡方检验分析步骤

    千次阅读 2022-04-02 14:43:57
    二、卡方检验分析步骤 1.研究目的 卡方检验是研究实际观测值与理论值之间的偏离程度,实际观测值与理论值之间的偏离程度决定卡方值的大小,卡方值越大,偏差越大;卡方值越小,偏差越小,越趋于符合,若两个值完全...

    一、类型

    SPSSAU中卡方检验包括卡方检验、卡方拟合优度、配对卡方、分层卡方。 对于上述四种卡方检验区别如下:

    二、卡方检验分析步骤

    1.研究目的

    卡方检验是研究实际观测值与理论值之间的偏离程度,实际观测值与理论值之间的偏离程度决定卡方值的大小,卡方值越大,偏差越大;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明实际观测值与理论值完全符合。

    例如:例如研究人员想知道两组学生对于手机品牌的偏好差异情况、不同减肥方式对于减肥帮助情况等,可以使用卡方检验

    2.数据格式

    SPSSAU可支持两类数据格式,一种是常规格式(非加权格式),另外一种是加权数据格式。

    (1)常规格式

    上图为常规格式(即非加权格式),一行代表一个样本,一列代表一个属性,将全部的原始数据信息列出即可。

    (2)加权格式

    在医学/实验研究时,很多时候只有汇总数据,即带加权项的数据,比如上图中X有2种情况,Y有3个情况,一种有2*3=6种组合,数据信息只有6种组别的汇总项(即加权项),分别是40,10,20,30,20,50;相当于总共有170个样本,如果是使用常规格式(即非加权格式),此时应该有170行;但加权格式则只需要6行即可表示,如上图。

    3.上传数据

    4.SPSSAU操作步骤

    操作步骤分为两步如下说明:

    Step1:点击实验/医学研究,模块下的卡方检验

    Step2:将左侧数据拖拽到右侧分析框后,点击开始分析如下图

    提示:若有加权项拖拽到右下方即可

    5.分析

    (1)卡方检验分析结果

    从分析结果中可以看出p<0.05

    (2)差异性说明

    从上表可以看出:不同减肥方式样本对于胆固醇水平共1项呈现出显著性(p<0.05),意味着不同减肥方式样本对于胆固醇水平共1项均呈现出差异性。

    (3)交叉图

    减肥方式和胆固醇水平的交叉图更直观看到三种减肥方式与胆固醇水平的关系。

    (4)统计量指标说明

    分析结果来源于SPSSAU

    (5)深入指标

    卡方检验时有多种指标(SPSSAU提供五类)可表示效应量,可结合数据类型及交叉表格类型综合选择;
    第一:如果是2*2表格,建议使用Phi指标;
    第二:如果是3*3,或4*4表格,建议使用列联系数;
    第三:如果是n*n(n>4)表格,建议使用校正列联系数;
    第四:如果是m*n(m不等于n)表格,建议使用Cramer V指标;
    第五:如果X或Y中有定序数据,建议使用Lambda指标;
    效应量值越大说明差异幅度越大,通常情况下效应量小、中、大的区分临界点分别是: 0.20,0.50和0.80。

    (6)多重比较

    多重比较,对于此案例简单来说若减肥方式与胆固醇之间存在差异,具体存在哪种差异,需要进行比较。

    分析结果来源于SPSSAU

    从上表中可以看到减肥方式与胆固醇之间比较次数为3次。

    (7)趋势卡方

    6.总结

    从上述分析中可知,三类减肥方式与胆固醇水平之间呈现出显著性差异(χ²=7.054,p =0.029 < 0.05),具体通过对比百分比差异可知,药物减肥中有83.33%的样本为胆固醇较低,明显高于饮食(36.36%)和锻炼(33.33%)时胆固醇较低的比例,因而说明药物对于减肥的帮助较高,明显高于饮食和锻炼这两种方式。

    SPSSAU卡方检验帮助手册

    三、配对卡方分析步骤

    1.研究目的

    如果研究配对数据的差异性,例如:对于待诊患者进行两种方法诊断,通过研究判断两种诊断方法是否有差异性,那么可以使用配对卡方

    2.数据格式

    配对数据一般是在实验时使用,而且配对数据的特点为:行数一定完全相等并且只有两列。

    配对数据一般是在实验时使用,而且配对数据的特点为:行数一定完全相等并且只有两列。如果研究数据的行数不相等,那可能不是配对数据

    3.上传数据

    4.SPSSAU操作步骤

    操作步骤分为两步如下说明:

    Step1:点击实验/医学研究,模块下的卡方检验

    SPSSAU仪表盘

    Step2:将左侧数据拖拽到右侧分析框后,点击开始分析如下图

    提示:若有加权项拖拽到右下方即可

    5.分析

    (1)分析结果

    分析结果来源于SPSSAU

    (2)差异性说明

    从上表可知,利用配对卡方检验去研究A方法三种结果和B方法三种结果之间的配对差异关系,本次配对对比类别数量大于2(即配对多分类),因而使用Bowker检验进行研究。配对数据之间呈现0.05水平的显著性(chi=8.333,p=0.040<0.05),意味着配对数据间有着明显的差异性

    (3)两种方法结果对比

    分析结果来源于SPSSAU

    (4)对比图

    分析结果来源于SPSSAU

    对比图中可以看到不同项A方法与B方法的百分比。

    6.总结

    配对对比类别数量为2(即配对四表格),使用McNemar检验进行研究,配对对比类别数量大于2(即配对多分类),使用Bowker检验进行研究。

    四、卡方拟合优度检验分析步骤

    1.研究目的

    如果想研究实际与预期比例之间的比较,比如研究实际性别比例情况,是否与预期性别比例表现一致,则要使用卡方拟合优度检验。(PS:卡方拟合优度检验只针对类别数据)

    2.数据格式

    (1)普通格式(非加权)

    SPSSAU数据格式

    上图为常规格式(即非加权格式),一行代表一个样本,一列代表一个属性,将全部的原始数据信息列出即可。

    (2)加权格式

    很多时候只有汇总数据,即带加权项的数据,比如上图图中研究项有3种情况,每种情况时样本量分别是40,10,20;相当于总共有70个样本,如果是使用常规格式(即非加权格式),此时应该有70行;但加权格式则只需要3行即可表示。

    3.上传数据

    4.SPSSAU操作步骤

    5.分析

    (1)分析结果

    分析结果来源于SPSSAU

    此表为卡方拟合优度检验结果,其中P值为0.689。

    (2)差异性分析

    从上表可以看出:性别全部均没有呈现显著性(p>0.05),意味着接受原假设(原假设:实际分布比例与预期比例一致),即数据分布与预期一致。

    (3)图表

    上表可以观察出不同性别的实际频数与期望频数的差异,可以看出数据分布与预期大概一致。

    6.总结

    卡方拟合优度检验研究定类数据的频数分布是否与期望频数保持一致;第一:期望频数默认为完全均匀,可自行设置期望频数;第二:分析是否呈现出显著性(p值小于0.05或0.01);第三:如果呈现出显著性(p<0.05),说明实际频数分布与期望分布具有显著差异;第四:对分析进行总结。

    SPSSAU卡方拟合优度检验帮助手册

    五、分层卡方分析步骤

    1.研究目的

    若想考虑另一个干扰因素分层项,比如是否吸烟与是否生病的关系时,将性别纳入考虑范畴,则要使用分层卡方

    2.数据格式

    加权格式如下图:

    针对分层卡方,SPSSAU支持2*2*k结构,即X和Y均为2个类别,k表示分层项的类别数量。

    3.上传数据

    4.SPSSAU操作步骤

    5.分析

    (1)汇总表格

    分析结果来源于SPSSAU

    (2)比值比OR值估计

    上表格中展示合并OR值或Ln(OR值),及其95%置信区间。

    (3)比值比齐性检验

    从上表可知:Breslow-Day比值比齐性检验并没有呈现出显著性(chi=1.089,p=0.580 >0.05),意味着各层之间关系同质,分层因素之间不存在混杂作用。

    (4)条件独立性检验

    (5)差异性说明

    从上表可知:Cochran–Mantel–Haenszel条件独立性检验呈现出显著性(chi=7.055,p=0.008 <0.05),意味着在考虑干扰因素之后,是否吸烟和是否感冒之间呈现出显著性差异。

    6.总结

    通常情况下,首先查看‘比值比齐性检验’,如果其呈现出显著性(p 值小于0.05),则说明具有混杂因素,即需要考虑分层项,即分别查看不同分层项下的数据结果。反之如果没有通过‘比值比齐性检验’,即说明没有混杂因素不需要考虑分层项,报告整体的结果即可(包括卡方检验,以及OR值)。

    Cochran–Mantel–Haenszel条件独立性用于研究考虑混杂因素(分层项)后,X与Y之间是否还存在着差异关系,相对意义较小。

    六、其它

    Q1:什么样的数据格式才适合?

    如果数据已经进行过初步统计,比如下图中的数据,胆固醇较高并且使用药物减肥的数量为2,胆固醇较低使用锻炼减肥方式的数量为3。这种属于已经统计好的数据,如果希望对此类数据进行卡方检验,则需要对数据格式进行‘改造’。

    Q2:多选题卡方检验怎么做?

    多选题与其他题项的交叉分析也可采用卡方检验,只是SPSSAU将多选题单独设计为一个方法,方法上依然是卡方检验。


    以上就是卡方检验分析步骤汇总。卡方检验是非常实用高效的方法,其它指标说明等请登录官网查看。

    以上就是本次分享的内容,登录SPSSAU官网了解更多。

    展开全文
  • 为研究比较不同X射线定量分析方法的优缺点,对CeO2-TiO2二元混合物体系样品分别用内标法、K值法绝热法进行定量分析,着重比较了三种方法在实验步骤、可操作性结果相对误差等方面的差别.结果表明,内标法操作程序较...
  • 干货。单因素方差分析步骤梳理

    千次阅读 2022-04-02 15:40:30
    从形式上看,方差分析是比较多个总体的均值是否相等,但本质上是研究变量之间的关系,本篇文章主要介绍单因素方差分析步骤。 一、前期准备 1.研究目的 方差分析(单因素方差分析),用于分析定类数据与定量数据之间...

    方差分析是20世纪20年代发展起来的一种统计方法,它是由英国统计学家费希尔在进行试验设计时为解释试验数据而首先引入的。(来源:统计学 第7版)目前,方差分析广泛应用于生物学、田间试验等。从形式上看,方差分析是比较多个总体的均值是否相等,但本质上是研究变量之间的关系,本篇文章主要介绍单因素方差分析步骤。

    一、前期准备

    1.研究目的

    方差分析(单因素方差分析),用于分析定类数据与定量数据之间的关系情况。例如研究人员想知道三组学生的智商平均值是否有显著差异。方差分析可用于多组数据,比如本科以下,本科,本科以上共三组的差异;而下述t 检验仅可对比两组数据的差异。

    2.分析要求

    分析的大致要求如下:

    异常值:如果数据有异常值,比如本身数据全部应该大于0,但却出现小于0的数字【可使用SPSSAU通用方法里的频数分析,或者描述分析等进行检查】。可以使用SPSSAU“数据处理”模块下的异常值处理,右侧分析框可以设置“判断标准”

    如有异常值,可以对异常值进行处理设为Null或者用平均值、中位数、众数、随机数等进行填补。

    正态分布:方差分析理论上是要求数据服从正态分布的,但是理论上的正态分布很难满足,数据接近于正态分布更符合实际情况,因此接近正态分布的数据直接使用方差分析即可,也可以说方差分析对于正态性的要求是稳健的。

    方差齐性:一般来讲,方差轻微不齐仅会对方差分析的结论有少许影响。如果方差不齐可以使用其他分析方法,例如:Welch anova、Brown-Forsythe anova。

    3.数据格式

    方差分析是研究不同组别的差异,比如不同学历时满意度的差异。因此数据格式中一定需要有组别X(比如学历)和分析项Y(比如满意度)。

    有时候只有分析项(比如3个分析项),但是现在希望此3个分析项的差异,那么就需要对数据进行改造,自己加入一列‘组别’,然后把数据重叠起来得到分析项Y,类似如下图:

    二、SPSSAU操作

    1.上传数据

    登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。

    2.拖拽分析项

    在“通用方法”模块中选择“方差”方法,将X定类变量放于上方分析框内,Y定量变量放于下方分析框内,点击“开始分析”即可。

    3.选择参数

    方差分析方法中有以下4个方法供研究者选择,分别是方差分析、方差齐检验、Welch anova、Brown-Forsythe anova。

    方差分析:分析定类数据与定量数据之间的关系情况。

    方差齐检验:用于分析不同定类数据组别,对定量数据时的波动情况是否一致。

    Welch anova:采用Welch分布的统计量进行的各组均值是否相等的检验

    Brown-Forsythe anova:采用Brown-Forsythe分布的统计量进行的各组均值是否相等的检验。

    补充说明:如果数据不满足方差齐性也可以使用Welch anova以及Brown-Forsythe anova。

    三、SPSSAU分析

    1.方差分析结果对比

    案例背景:分析不同学历之间的工作人员薪资是否有差异。其中1.0代表高中毕业,2.0代表专科,3.0代表本科学历,4.0代表研究生学历(数据只适用于此案例分析)。

    学历对于薪资呈现出0.05水平显著性(p=0.000<0.05)同时也可以使用折线图进行直观展示。总结可知:不同学历样本对于薪资全部均呈现出显著性差异。

    2.方差分析图对比

    上述折线图展示的是学历和薪资方差分析对比,从图中可以看出不同学历样本对于薪资均有着差异性。

    3.效应量指标

    补充说明:除此之外SPSSAU还提供了方差分析中间过程值表以及方差分析结果的普通格式以及简化纵向格式,如下:

    (1)方差分析中间过程值:

    (2)方差分析结果(普通格式)

    (3)方差分析结果(简化纵向格式)

    四、其他说明

    Q1.几种差异性分析

    如果X和Y均为定类数据,想对比差异性,此时需要使用卡方分析。如果X为定类,Y为定量;且X分为两组,比如男和女;此时也可使用t 检验进行差异对比(当然也可使用方差分析)。总结如下表:

    Q2. 方差分析中间过程值,组间平方和、组内平方和、自由度、均方等问题?

    方差分析用于研究差异,差异共由两部分组成,分别是组间平方和,组内平方和;同时对应着自由度值等;计算分别如下:

    1. 组间自由度df 1=组别数量 – 1;
    2. 组内自由度df 2 = 样本量 – 组别数量;
    3. 组间均方 = 组间平方和 / 组间自由度df1;
    4. 组内均方 = 组内平方和 / 组内自由度df2;
    5. F 值 = 组间均方 / 组内均方;
    6. p 值是结合F 值,df 1和df 2计算得到。

    五、总结

    理论上讲,方差分析前需要满足方差齐,如果方差齐则使用方差分析,如果方差不齐则使用非参数检验。理论和实践相比,永远有gap,现实研究中,最常见的依然是方差分析(而不是非参数检验),原因在于非参数检验的检验效能相对于方差分析会低一些。在方差分析时SPSSAU会自动处理方差齐性问题。


    以上就是单因素方差分析步骤的全过程!更多干货登录SPSSAU官网了解更多,进行查看。

    展开全文
  • 方差分析实用分析步骤总结

    千次阅读 2019-07-24 13:16:58
    以上这些分析两个及两个数据之间的差异情况都可以使用同一种分析方法——方差分析。 01. 概念 方差分析用于定类数据(X)与定量数据(Y)之间的差异分析,例如研究三组学生(X)的智商平均值(Y)是否有显著差异...
  • 必看 logit回归分析步骤汇总

    千次阅读 2022-04-02 16:21:28
    Logit回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X可以为定类数据(可以做虚拟变量设置),也可以为定量数据,但要求Y必须为定类数据,并且根据Y的选项数,使用相应的数据分析方法。logit回归分析一般...
  • 一文总结聚类分析步骤

    千次阅读 2022-04-02 15:06:33
    聚类分析是根据事物本身的特性研究个体分类的方法,聚类分析的原则是同一类别的个体有较大相似性,不同类别的个体差异比较大。 (2) 数据类型 1)定量:数字有比较意义,比如数字越大代表满意度越高,量表为...
  • 主成分分析法(PCA)原理和步骤

    千次阅读 2021-01-30 06:50:30
    主成分分析法(PCA)原理和步骤 主成分分析(Principal Component Analysis,PCA)是一种多变量统计方法,它是最常用的降维方法之一,通过正交变换将一组可能存在相关性的变量数据,转换为一组线性不相关的变量,...
  • 分析结构化分析与设计的思想面向对象方法并对这两个方法进行对比
  • 灰色关联分析法详细步骤解释

    千次阅读 2022-07-01 15:37:14
    灰色关联分析的实现步骤
  • 灰色关联分析步骤

    千次阅读 2021-03-09 18:19:22
    灰色关联分析是指对一个系统发展变化态势的定量描述和比较方法,其基本思想是通过确定参考数据列若干个比较数据列的几何形状相似程度来判断其联系是否紧密,它反映了曲线间的关联程度。 通常可以运用此方法来...
  • GSEA分析详细步骤

    千次阅读 2022-03-21 11:52:06
    这段时间有空为了某人学习了一下不属于我的领域的东西——GSEA分析(基因富文本分析),下面总结最近所学GSEA分析步骤方法。 1. 根据基因文件进行处理筛选 对于已有的基因文件,一般是xslx或者是csv格式(不要问...
  • 数据分析-ARIMA方法建模步骤总结

    万次阅读 2019-05-06 08:29:07
    其建模步骤与ARMA模型类似,分为5个步骤: 平稳: 通过差分的手段,对非平稳时间序列数据进行平稳操作。 定阶: 确定ARIMA模型的阶数p, q。 估计: 估计未知参数。 检验: 检验残差是否是白噪声过程。 预测: 利用模型...
  • 数据分析-数据分析步骤和方法

    千次阅读 2015-11-05 11:28:06
    数据分析的六步曲:明确分析的目的思路、收集数据、数据处理、数据分析、数据展现、报告攥写等 其中: 数据的来源有:数据库、公开出版物、互联网、市场调查 数据的处理包含数据清洗、数据转化、数据提取、...
  • 线性回归分析步骤总结

    千次阅读 2022-04-02 16:16:23
    线性回归分析研究影响关系情况,回归分析实质上就是研究X(自变量)对Y(因变量,定量数据)的影响关系情况。当自变量为1个时,是一元线性回归,又称作简单线性回归;自变量为2个及以上时,称为多元线性回归。线性回归广泛...
  • 比较基因组学常用分析软件和分析方法 (1)同源基因的查找 OrthoMCL or Orthofinder; (2)多序列比对 Muscle / MAFFT / ClustalW / T-coffee, Muscle 效果好点 (3)调取保守区域,并收尾连接,形成supergene ...
  • 安卓逆向分析步骤总结

    千次阅读 多人点赞 2020-09-03 16:30:50
    这篇博客用于总结我对安卓逆向分析的学习理解,主要以分析步骤来表现,当然同时也提供给大家学习交流,仅此而已。 我们应当努力奋斗,有所作为。这样,我们就可以说,我们没有虚度年华,并有可能在时间的沙滩上...
  • 层次分析法(AHP)详细步骤

    万次阅读 多人点赞 2019-01-07 13:01:10
    层次分析法(AHP)是美国运筹学家萨蒂于上世纪70年代初,为美国国防部研究“根据各个工业部门对国家福利的贡献大小而进行电力分配”课题时,应用网络系统理论多目标综合评价方法,提出的一种层次权重决策分析方法...
  • meta分析一般步骤

    万次阅读 多人点赞 2018-07-26 16:42:57
    Meta分析总体可分为以下几步: ...在制定文献检索策略时,总体的要求就是查全查准。 需要考虑如下几个方面: 1. 圈定搜索数据库(外文有:MEDLINE、the Cochrane library、医学文摘、TOXLINE、OVI...
  • meta分析七步快速见刊策略
  • 步骤 一 Pearson相关分析 二 偏相关分析 方法一 正规步骤但是麻烦 1分析 相关 偏相关 2选择变量导入右侧框再点击选项选择零阶相关系数可选可不选零 阶先关系数就是 pearson相关系数选了偏于对比查看继续 确定 1 SPSS...
  • 下面通过一个实例来具体了解一下,验证性因子分析的操作步骤以及过程中需要注意的内容。1、背景当前有一份215份的研究量表数据,共由四个因子表示,第一个因子共5项,分别是A1~A5;第二项因子共5项,分别是B1~B5;第...
  • 机载激光雷达数据过滤方法对比分析,黄燕,邓喀中,Lidar的数据过滤是数据预处理的重要步骤,也是获取高精度数字高程模型的关键。本文对现有常用的机载激光数据过滤方法按照不同类别�

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 607,022
精华内容 242,808
热门标签
关键字:

对比分析的步骤和方法