精华内容
下载资源
问答
  • 2018-11-09 21:40:00

    p值还是 FDR ?

    如何筛选显著性差异基因,p value, FDR 如何选

    经常有同学询问如何筛选差异的基因(蛋白)。已经计算了表达量和p value值,差异的基因(蛋白)太多了,如何筛选。其中最为关键的是需要对p value进行校正。

    基本概念:

    1. 零假设:在随机条件下的分布。

    2. p值:在零假设下,观测到某一特定实验结果的概率称为p值。

    3. 假阳性:得到了阳性结果,但这个阳性结果是假的。

    4. 假阴性:得到了阴性结果,但这个阴性结果是假的。

    单次检验:

    针对单个基因(蛋白),采用统计检验,假设采用的p值为小于0.05,我们通常认为这个基因在两个(组)样本中的表达是有显著差异的,但是仍旧有5%的概率,这个基因并不是差异基因。

    单多次检验:

    当两个(组)样本中有10000个基因采用同样的检验方式进行统计检验时,这个时候就有一个问题,单次犯错的概率为0.05, 进行10000次检验的话,那么就有0.05*10000=500 个基因的差异被错误估计了。

    多重检验矫正:

    为了解决多次检验带来的问题,我们需要对多次检验进行校正。那如何校正呢?在此介绍两种方法:

    1. Bonferroni 校正法  
      Bonferroni校正法:如果进行N次检验,那么p值的筛选的阈值设定为p/N。 比如,进行10000次检验的话,如果p值选择为0.05, 那么校正的p值筛选为0.000005。 p值低于此的基因才是显著性差异基因。  
      该方法虽然简单,但是过于严格,导致最后找的差异基因很少,甚至找不到差异的基因。

    2. FDR(False Discovery Rate) 校正法  
      FDR错误控制法是Benjamini于1995年提出的一种方法,基本原理是通过控制FDR值来决定p值的值域。相对Bonferroni来说,FDR用比较温和的方法对p值进行了校正。其试图在假阳性和假阴性间达到平衡,将假/真阳性比例控制到一定范围之内。  
      那么怎么从p值来估算FDR呢,人们设计了几种不同的估算模型。其中使用最多的是Benjamini and Hochberg方法,简称BH法。该方法分两步完成,具体如下:  
      2.1  假设总共有m个候选基因,每个基因对应的p值从小到大排列分别是p(1),p(2),…,p(m)  
      2.2  若想控制FDR不能超过q,则只需找到最大的正整数i,使得 p(i)<= (i*q)/m . 然后,挑选对应p(1),p(2),…,p(i)的基因做为差异表达基因,这样就能从统计学上保证FDR不超过q。

    如何实现多重检验:

    1. 如果你了解R语言的话,那么采用p.adjust方法就可以了。  

    转载于:https://www.cnblogs.com/wangprince2017/p/9937351.html

    更多相关内容
  • 将实验样本的代谢组进行数据可视化,利用Echarts绘制差异代谢产物分类与HMDB化学分类的旭日图

    前言

    整理实验数据,进行可视化,旭日图有利于简洁明了的展示多层次结构

    数据准备工作

    • 对公司返回回来的代谢组结果进行整理,在MSMS二级质谱结果中找到需要分析组别的csv格式文件,直接用excel打开(p值过滤后的数据)
    image-20211222195935067
    • 在总表的结果文件中找到全部物质的KEGG信息和HMDB信息
    image-20211222200239998
    • 利用vlookup函数对目的分组数据进行所需信息的匹配

      image-20211222200448598
    • 对匹配后的物质进行手动筛选分类整理

    image-20211222200548216

    绘图

    excel旭日图的绘制

    • 对上面分类汇总的数据设置如下(不要合并单元格,最后一列一定要赋值
    image-20211222200930875
    • 选中A列到D列区域的有效数据,插入-插入层次结构图表-旭日图,生成如下
    image-20211222201055168
    • 注意:多层子目录不要命名,写一个,下面同样的空白即可;最后一列一定要赋值,没有具体的值可以像我一样全部写1,不然无法生成旭日图

    ECharts旭日图的绘制

    • excel一键绘制旭日图虽然快捷简便,但许多细节无法按需调整,色彩饱和度过高,数据标签的摆放,圈内外径的调整等等都不方便,而下面使用echarts绘制旭日图尽管录入数据麻烦,但是出图美观,调整方便
    • 可直接在 ECharts旭日图 (我这里用的drink flavor,更适合我的展示需求)按数据准备中整理后的结果替换模板,实时可视化,便于调整,可出png和svg两种格式结果图
    • 可根据 RGB颜色对照表 自行替换想要颜色
    • 画布大小问题
      • 在线的echarts的画布大小是根据浏览器页面调整的,有时候会出现超出页面且下载后的图片也显示不全的情况(在线的就是显示什么样,下载下来就什么样),这时可调整最后option参数中r0r的半径范围来控制整个图片大小
      • 如果数据太多仍然显示不全,可使用另一个 菜鸟在线编辑器 ,可设置画布大小(这里每次调整需重新运行,不能实时运行,建议在echarts中调整差不多后再到这边调整出图大小)。菜鸟只能直接出png格式,且默认最外层字体颜色随子扇叶(个人觉得更美观,不喜欢可以color: #000000)
    ECharts旭日图
    ECharts旭日图
    菜鸟编辑器修改后的旭日图
    image-20211222203242623

    附演示代码

    附编辑器内全部演示代码,echarts则只用var data部分即可。

    <!DOCTYPE html>
    <html>
    <head>
        <meta charset="utf-8">
        <title>ECharts 实例</title>
        <!-- 引入 echarts.js -->
        <script src="https://cdn.staticfile.org/echarts/4.3.0/echarts.min.js"></script>
    </head>
    <body>
        <!-- 为ECharts准备一个具备大小(宽高)的Dom --> //设置画布大小
        <div id="main" style="width: 1200px;height:1200px;"></div> 
        <script type="text/javascript">
            // 基于准备好的dom,初始化echarts实例
            var myChart = echarts.init(document.getElementById('main'));
     
    var data = [
      {
        name: 'Amino acid', //最里面第一层圈
        itemStyle: {
          color: '#B22222'
        },
        children: [ //第二层子圈
          {
            name: 'Cysteine and\n methionine metabolism',
            itemStyle: {
              color: '#DC143C'
            },
            children: [ //第三层子圈
              {
                name: '5-Methylthioadenosine',
                value: 1,
                itemStyle: {
                  color: '#DC143C'
                }
              },
        
            ]
          },
          {
            name: 'Glutathione metabolism',
            itemStyle: {
              color: '#CD5555'
            },
            children: [
              {
                name: 'Pyroglutamic acid',
                value: 1,
                itemStyle: {
                  color: '#CD5555'
                }
            
              },
              
            ]
          },
          {
            name: 'Lysine biosynthesis',
            itemStyle: {
              color: '#EE6363'
            },
            children: [
              {
                name: 'Aminoadipic acid',
                value: 1,
                itemStyle: {
                  color: '#EE6363'
                }
              },
            ]
          },
           {
            name: 'Tryptophan metabolism',
            itemStyle: {
              color: '#FF6A6A'
            },
            children: [
              {
                name: 'N-Acetylserotonin',
                value: 1,
                itemStyle: {
                  color: '#FF6A6A'
                }
              },
               {
                name: 'L-Formylkynurenine',
                value: 1,
                itemStyle: {
                  color: '#FF6A6A'
                }
              },
            ]
          },
           {
            name: 'Tyrosine metabolism',
            itemStyle: {
              color: '#FA8072'
            },
            children: [
              {
                name: 'Normetanephrine',
                value: 1,
                itemStyle: {
                  color: '#FA8072'
                }
              },
            ]
          },
        ]
      },
        {
        name: 'Carbohydrate',
        itemStyle: {
          color: '#CD950C'
        },
        children: [
          {
            name: 'Amino sugar and\n nucleotide sugar metabolism',
            itemStyle: {
              color: '#EEAD0E'
            },
            children: [
              {
                name: 'Chitobiose',
                value: 1,
                itemStyle: {
                  color: '#EEAD0E'
                }
              },
              {
                name: 'N-Acetyl-D-glucosamine',
                value: 1,
                itemStyle: {
                  color: '#EEAD0E'
                }
            
              },
            ]
          },
          {
            name: 'Glycolysis / Gluconeogenesis',
            itemStyle: {
              color: '#FFB90F'
            },
            children: [
              {
                name: 'D-Glucose 1-phosphate',
                value: 1,
                itemStyle: {
                  color: '#FFB90F'
                }
            
              },
              
            ]
          },
          {
            name: 'Butanoate metabolism',
            itemStyle: {
              color: '#CDAD00'
            },
            children: [
              {
                name: '(R)-3-Hydroxybutyric acid',
                value: 1,
                itemStyle: {
                  color: '#CDAD00'
                }
              },
            ]
          },
           {
            name: 'Starch and sucrose metabolism',
            itemStyle: {
              color: '#FFD700'
            },
            children: [
              {
                name: 'Glucose 6-phosphate',
                value: 1,
                itemStyle: {
                  color: '#FFD700'
                }
              },
               
            ]
          },
           {
            name: 'Citrate cycle (TCA cycle)',
            itemStyle: {
              color: '#FFA500'
            },
            children: [
              {
                name: 'Citric acid',
                value: 1,
                itemStyle: {
                  color: '#FFA500'
                }
              },
              {
                name: 'Succinic acid',
                value: 1,
                itemStyle: {
                  color: '#FFA500'
                }
              
              },
            ]
          },
          
          {
            name: 'C5-Branched dibasic acid\n metabolism',
            itemStyle: {
              color: '#CD8500'
            },
            children: [
              {
                name: 'Mesaconate',
                value: 1,
                itemStyle: {
                  color: '#CD8500'
                }
              },
            ]
          },
           {
            name: 'Pentose and \nglucuronate interconversions',
            itemStyle: {
              color: '#FF8C00'
            },
            children: [
              {
                name: 'Ribitol',
                value: 1,
                itemStyle: {
                  color: '#FF8C00'
                }
              },
               
            ]
          },
        ]
      }, 
      {
        name: 'Cofactors and\n Vitamins',
        itemStyle: {
          color: '#20B2AA'
        },
        children: [
          {
            name: 'Retinol metabolism',
            itemStyle: {
              color: '#53868B'
            },
            children: [
              {
                name: 'Stale',
                value: 1,
                itemStyle: {
                  color: '#53868B'
                }
              },
            ]
          },
          {
            name: 'Biotin metabolism',
            itemStyle: {
              color: '#008080'
            },
            children: [
              {
                name: 'Biotin',
                value: 1,
                itemStyle: {
                  color: '#008080'
                }
              },
              {
                name: 'Dethiobiotin',
                value: 1,
                itemStyle: {
                  color: '#008080'
                }
              },
            ]
          },
          {
            name: 'Vitamin B6 metabolism',
            itemStyle: {
              color: '#008B8B'
            },
            children: [
              {
                name: '4-Pyridoxic acid',
                value: 1,
                itemStyle: {
                  color: '#008B8B'
                }
              },
            ]
          },
           {
            name: 'Nicotinate and nicotinamide \nmetabolism',
            itemStyle: {
              color: '#79CDCD'
            },
            children: [
              {
                name: 'Quinolinic acid',
                value: 1,
                itemStyle: {
                  color: '#5F9EA0'
                }
              },
            ]
          }, 
           {
            name: 'Thiamine metabolism',
            itemStyle: {
              color: '#20B2AA'
            },
            children: [
              {
                name: '5-(2-Hydroxyethyl)-4-methylthiazole',
                value: 1,
                itemStyle: {
                  color: '#20B2AA'
                }
              },
            ]
          },
            {
            name: 'Pantothenate and \nCoA biosynthesis',
            itemStyle: {
              color: '#00CED1'
            },
            children: [
              {
                name: 'Pantothenic acid',
                value: 1,
                itemStyle: {
                  color: '#00CED1'
                }
              },
            ]
          },  {
            name: 'Folate biosynthesis',
            itemStyle: {
              color: '#48D1CC'
            },
            children: [
              {
                name: 'Pyrimidodiazepine',
                value: 1,
                itemStyle: {
                  color: '#48D1CC'
                }
              },
            ]
          },  
          {
            name: 'Ubiquinone and other \nterpenoid-quinone biosynthesis',
            itemStyle: {
              color: '#40E0D0'
            },
            children: [
              {
                name: 'Dehypoxanthine futalosine',
                value: 1,
                itemStyle: {
                  color: '#40E0D0'
                }
              },
            ]
          },
           {
            name: 'Riboflavin metabolism',
            itemStyle: {
              color: '#AFEEEE'
            },
            children: [
              {
                name: 'Lumichrome',
                value: 1,
                itemStyle: {
                  color: '#AFEEEE'
                }
              },
              {
                name: 'Riboflavin',
                value: 1,
                itemStyle: {
                  color: '#AFEEEE'
                }
              },
            ]
          },
        ]
      },
      {
        name: 'Lipid',
        itemStyle: {
          color: '#CDB38B'
        },
        children: [
     {
            name: 'Fatty acid biosynthesis',
            itemStyle: {
              color: '#EECBAD'
            },
            children: [
              {
                name: 'Myristic acid',
                value: 1,
                itemStyle: {
                  color: '#EECBAD'
                }
              },
            ]
          },
          {
            name: 'alpha-Linolenic acid metabolism',
            itemStyle: {
              color: '#FFDAB9'
            },
            children: [
              {
                name: 'Stearidonic acid',
                value: 1,
                itemStyle: {
                  color: '#FFDAB9'
                }
              },
            ]
          },
          {
            name: 'Steroid biosynthesis',
            itemStyle: {
              color: '#EED5B7'
            },
            children: [
              {
                name: 'Lathosterol',
                value: 1,
                itemStyle: {
                  color: '#EED5B7'
                }
              },
            ]
          },
          {
            name: 'GlycerophosphoLipid',
            itemStyle: {
              color: '#FFE4C4'
            },
            children: [
              {
                name: 'Glycerol 3-phosphate',
                value: 1,
                itemStyle: {
                  color: '#FFE4C4'
                }
              },
            ]
          },
        ]
      },
      {
        name: 'Nucleotide',
        itemStyle: {
          color: '#2E8B57'
        },
        children: [
          {
            name: 'Purine metabolism',
            itemStyle: {
              color: '#3CB371'
            },
            children: [
              {
                name: 'beta-D-3-Ribofuranosyluric acid',
                value: 1,
                itemStyle: {
                  color: '#3CB371'
                }
              },
            ]
          },
           {
            name: 'Pyrimidine metabolism',
            itemStyle: {
              color: '#8FBC8F'
            },
            children: [
              {
                name: 'Cytosine',
                value: 1,
                itemStyle: {
                  color: '#8FBC8F'
                }
              },
              {
                name: 'Thymine',
                value: 1,
                itemStyle: {
                  color: '#8FBC8F'
                }
              },
              {
                name: 'Dihydrouracil',
                value: 1,
                itemStyle: {
                  color: '#8FBC8F'
                }
              },
            ]
          },
        ]
      },
      {
        name: 'Xenobiotics',
        itemStyle: {
          color: '#CD96CD'
        },
        children: [
          {
            name: 'Neomycin, kanamycin and\n gentamicin biosynthesis',
            itemStyle: {
              color: '#AB82FF'
            },
            children: [
              {
                name: 'Gentamicin C1a',
                value: 1,
                itemStyle: {
                  color: '#AB82FF'
                }
              },
            ]
          },
        ]
      },
    ];
    option = {
      title: {
    
        textStyle: {
          fontSize: 14,
          align: 'center'
        },
        subtextStyle: {
          align: 'center'
        },
        sublink: 'https://twocanis.github.io/'
      },
      series: {
        type: 'sunburst',
        data: data,
        radius: [0, '95%'],
        sort: undefined,
        emphasis: {
          focus: 'ancestor'
        },
        levels: [
          {},
          {
            r0: '13%', //内径
            r: '30%', //外径
            itemStyle: {
              borderWidth: 2
            },
            label: {
              align: 'right',  //调整文字摆放方向
    			fontSize: 14, //调整label字符大小
              color:'#000000', //使文字显示为黑色
    
            }
          },
          {
            r0: '30%', //下一个圈的内径要和上一个全2外经一致才不会出现交错
            r: '68%',
            label: {
              align: 'right',
    			fontSize: 14,
              color:'#000000'
            }
          },
          {
            r0: '68%',
            r: '70%',
            label: {
              position: 'outside',
              padding: 3,
    			fontSize: 14, //这里不额外设置颜色则和母扇叶颜色一致
              silent: false
            },
            itemStyle: {
              borderWidth: 4
            }
          }
        ]
      }
    };
    
     
            // 使用刚指定的配置项和数据显示图表。
            myChart.setOption(option);
        </script>
    </body>
    </html>
    
    展开全文
  • 测序行业的蓬勃发展,带来微生物组学日新月异的变化。目前,单一组学的文章不断“贬值”,前沿研究的目光从单一组...而16s与代谢组的贯穿分析思路同样常见于高分文章中,通过16s探究不同处理/环境下菌群的物种组成变...
    测序行业的蓬勃发展,带来微生物组学日新月异的变化。目前,单一组学的文章不断“贬值”,前沿研究的目光从单一组学逐步拓展至多组学对贯穿分析,即结合多个组学的分析角度,从多个层面阐述生物学机制。 微生物多组学贯穿分析策略十分丰富:如常见的16s与宏基因组贯穿分析,可以验证物种的特征、丰富功能的探究;而16s与代谢组的贯穿分析思路同样常见于高分文章中,通过16s探究不同处理/环境下菌群的物种组成变化,结合代谢组对应的代谢物的变化,进而找到不同处理/环境下引发细菌丰度差异最终导致代谢表型差异的机制。 参考阅读《选好思路和方法,给自己一篇多组学高分文章》 在16s与代谢组贯穿分析中 ,相关性热图是一个重要的分析手段,主要用于逐一呈现细菌物种与代谢物间的相关性高低,是筛选潜在关联的物种与代谢物的主要途径,对于下游的实验起到指导意义。此类相关性热图在高分文章中频繁出现,足见其重要性(图1、图2)。

    687837a199fd9d364ff5ea293d6261cb.png

    图1 物种代谢物热图(2015,Cell Host& Microbe,IF=15.753 )[1]

    82cacfb70a387d5732781e43bd713fc2.png

    图2 物种代谢物热图(2018,NatureMedicine,IF=30.641)[2 ] 那么,该如何画出此类高分文章中的相关性热图呢?这里,以16s与代谢组的数据为例,向大家分享如何使用R语言进行两个组学数据的相关性计算、绘制相关性热图。   1.加载R包
    #psych包用于计算相关性、p值等信息
    library(psych)
    #pheatmap包用于绘制相关性热图
    library(pheatmap)
    #reshape2包用于输出数据的整合处理
    library(reshape2)
    2.读入数据
    #读取微生物丰度信息表
    #表头需带有分类水平、物种名称等关键信息
    #第一列为样本名称信息
    phy "phy.xls", sep = "\t", header = T,row.names=1)

    2412afdc10bf1cd55881aa5f3351026a.png

    图3 微生物丰度信息表格
    #读取代谢物信息表
    met "met.xls", sep = "\t", header = T,row.names=1)

    5db92ab623f4baeff20b54b1016a4a49.png

    图4 代谢物丰度信息表格 3.计算相关性、p值
    #计算相关性矩阵(可选:”pearson”、”spearman”、”kendall”相关系数)、p值矩阵
    cor "pearson",adjust="none")
    #提取相关性、p值
    cmt pmt head(cmt)
    head(pmt)
    4.数据保存
    #输出相关系数表格,第一行为代谢物信息,第一列为物种信息
    cmt.outwrite.table(cmt.out,file="cor.txt",sep="\t",row.names=F)

    a2781d2ce42bae359ac698378cfa84a8.png

    图5 相关性系数表格  
    #输出p值表格,第一行为代谢物信息,第一列为物种信息
    pmt.outwrite.table(pmt.out,file="pvalue.txt",sep="\t",row.names=F)

    05ae10a0c0872d798710aba34facee86.png

    图6  p值表格  
    #以关系对的形式输出表格
    #第一列为物种名,第二列为代谢物名,第三、第四列对应显示相关系数与p值
    df "cor")
    df$pvalue as.vector(pmt)
    head(df)
    write.table(df,file="cor-p.txt",sep="\t")

    c823729ec909ea159ac6bae493766a9f.png

    图7  关系对信息   5.绘制显著性标记
    0.01的以“**”标注,p值
    6.绘制相关性热图
    #自定义颜色范围

    13275c5b984e8f8512b93f71658f12d9.png

    图8 R语言绘制的物种+代谢物相关性热图
    #图片保存,代码中输入”filename=”,或在R语言软件中点击“文件-另存为” 进行保存
    pheatmap(cmt,scale = "none",cluster_row = T, cluster_col = T, border=NA,
          display_numbers = pmt, fontsize_number = 12, number_color ="white",
          cellwidth = 20, cellheight =20,color=mycol,filename="heatmap.pdf")
    参考文献 [1]Kostic AD, Gevers D, Siljander H, et al. The dynamics ofthe human infant gut microbiome in development and in progression toward type 1diabetes. Cell Host Microbe. 2015;17(2):260–273.doi:10.1016/j.chom.2015.01.001 [2]Hoyles, Lesleyet al. “Molecular phenomics and metagenomics of hepatic steatosis innon-diabetic obese women.” Nature medicine vol. 24,7 (2018):1070-1080. doi:10.1038/s41591-018-0061-3   c96c07bb21d6d725db8229a305ff60a7.gif

    实用科研工具推荐      
    详实生信软件教程分享
    前沿创新组学文章解读
    独家生信视频教程发布

    0954afc25052147a1f00a264404d36d1.gif
    展开全文
  • 'plain'), axis.ticks = element_line(color = 'black')) p Snipaste_2021-10-28_22-49-44 差异代谢物筛选 #VIP 值帮助寻找重要的代谢物 vip  getVipVn(oplsda) vip_select  vip[vip > 1] #通常以VIP值>...

    主成分分析(PCA)是一种无监督降维方法,能够有效对高维数据进行处理。但PCA对相关性较小的变量不敏感,而PLS-DA(偏最小二乘判别分析)能够有效解决这个问题。而OPLS-DA(正交偏最小二乘判别分析)结合了正交信号和PLS-DA来筛选差异变量。

    本分析主要用于代谢组学中差异代谢物的筛选

    数据集

    液相色谱高分辨质谱法(LTQ Orbitrap)分析了来自183位成人的尿液样品。

    sacurine list 包含了三个数据矩阵:

    dataMatrix为样本-代谢物含量矩阵(log10转换过),记录了各种类型的代谢物在各样本中的含量信息。共计183个样本(行)以及109种代谢物(列)。

    sampleMetadata中记录了183个样本所来源个体的年零、体重、性别等信息。

    variableMetadata为109种代谢物的注释详情,MSI level水平。

    rm(list = ls())
    # load  packages
    library(ropls)
    # load data
    data(sacurine)
    #查看数据集
    head(sacurine$dataMatrix[ ,1:2])
    head(sacurine$sampleMetadata)
    head(sacurine$variableMetadata)
    #提取性别分类
    genderFc = sampleMetadata[, "gender"]
    > head(sacurine$dataMatrix[ ,1:2])
           (2-methoxyethoxy)propanoic acid isomer (gamma)Glu-Leu/Ile
    HU_011                               3.019766           3.888479
    HU_014                               3.814339           4.277149
    HU_015                               3.519691           4.195649
    HU_017                               2.562183           4.323760
    HU_018                               3.781922           4.629329
    HU_019                               4.161074           4.412266
    > head(sacurine$sampleMetadata)
           age   bmi gender
    HU_011  29 19.75      M
    HU_014  59 22.64      F
    HU_015  42 22.72      M
    HU_017  41 23.03      M
    HU_018  34 20.96      M
    HU_019  35 23.41      M

    OPLS-DA

    # 分组以性别为例
    # 通过orthoI指定正交组分数目
    # orthoI = NA时,执行OPLS,并通过交叉验证自动计算适合的正交组分数
    oplsda = opls(dataMatrix, genderFc, predI = 1, orthoI = NA)
    OPLS-DA
    183 samples x 109 variables and 1 response
    standard scaling of predictors and response(s)
          R2X(cum) R2Y(cum) Q2(cum) RMSEE pre ort pR2Y  pQ2
    Total    0.275     0.73   0.602 0.262   1   2 0.05 0.05
    d6906b5178edb370219b89f68a5a3f22.png
    Snipaste_2021-10-28_21-32-57

    结果中,R2XR2Y分别表示所建模型对X和Y矩阵的解释率,Q2表示模型的预测能力,它们的值越接近于1表明模型的拟合度越好,训练集的样本越能够被准确划分到其原始归属中。

    • Inertia(惯量)柱形图(左上)

      展示了3个正交轴的R2YQ2Y。通过展示累计解释率评估正交组分是否足够。

    • 显著性诊断(右上)

      实际和模拟模型的R2YQ2Y值经随机排列后的散点图,模型R2YQ2Y(散点)大于真实值时(横线),表明产生过拟合2。右上图,OPLS-DA模型的R2Y和Q2Y与随机置换数据后获得的相应值进行比较。

    • 离群点展示(左下)

      展示了各样本在投影平面内以及正交投影面的距离,具有高值的样本标注出名称,表明它们与其它样本间的差异较大。颜色代表性别分组。

    • x-score plot(右下)

      各样本在OPLS-DA轴中的坐标,颜色代表性别分组。

    可视化

    library(ggplot2)
    library(ggsci)
    library(tidyverse)
    #提取样本在 OPLS-DA 轴上的位置
    sample.score = oplsda@scoreMN %>%  #得分矩阵
      as.data.frame() %>%
      mutate(gender = sacurine[["sampleMetadata"]][["gender"]],
             o1 = oplsda@orthoScoreMN[,1]) #正交矩阵
    head(sample.score)#查看
    > head(sample.score)
                  p1 gender         o1
    HU_011 -1.582933      M -4.9806037
    HU_014  1.372806      F -1.7443382
    HU_015 -3.341370      M -3.4372771
    HU_017 -3.590063      M -0.9794960
    HU_018 -1.662716      M  0.3155845
    HU_019 -2.312923      M  0.6561281
    p <- ggplot(sample.score, aes(p1, o1, color = gender)) +
      geom_hline(yintercept = 0, linetype = 'dashed', size = 0.5) + #横向虚线
      geom_vline(xintercept = 0, linetype = 'dashed', size = 0.5) +
      geom_point() +
      #geom_point(aes(-10,-10), color = 'white') +
      labs(x = 'P1(5.0%)',y = 'to1') +
      stat_ellipse(level = 0.95, linetype = 'solid', 
                   size = 1, show.legend = FALSE) + #添加置信区间
      scale_color_manual(values = c('#008000','#FFA74F')) +
      theme_bw() +
      theme(legend.position = c(0.1,0.85),
            legend.title = element_blank(),
            legend.text = element_text(color = 'black',size = 12, family = 'Arial', face = 'plain'),
            panel.background = element_blank(),
            panel.grid = element_blank(),
            axis.text = element_text(color = 'black',size = 15, family = 'Arial', face = 'plain'),
            axis.title = element_text(color = 'black',size = 15, family = 'Arial', face = 'plain'),
            axis.ticks = element_line(color = 'black'))
    p
    db67cb54cf39d680097e02dc5c83d3be.png
    Snipaste_2021-10-28_22-49-44

    差异代谢物筛选

    #VIP 值帮助寻找重要的代谢物
    vip <- getVipVn(oplsda)
    vip_select <- vip[vip > 1]    #通常以VIP值>1作为筛选标准
    head(vip_select)
    
    vip_select <- cbind(sacurine$variableMetadata[names(vip_select), ], vip_select)
    names(vip_select)[4] <- 'VIP'
    vip_select <- vip_select[order(vip_select$VIP, decreasing = TRUE), ]
    head(vip_select)    #带注释的代谢物,VIP>1 筛选后,并按 VIP 降序排序
    > head(vip_select)   
                                   msiLevel      hmdb chemicalClass
    p-Anisic acid                         1 HMDB01101        AroHoM
    Malic acid                            1 HMDB00156        Organi
    Testosterone glucuronide              2 HMDB03193 Lipids:Steroi
    Pantothenic acid                      1 HMDB00210        AliAcy
    Acetylphenylalanine                   1 HMDB00512        AA-pep
    alpha-N-Phenylacetyl-glutamine        1 HMDB06344        AA-pep
                                        VIP
    p-Anisic acid                  2.533220
    Malic acid                     2.479289
    Testosterone glucuronide       2.421591
    Pantothenic acid               2.165296
    Acetylphenylalanine            1.988311
    alpha-N-Phenylacetyl-glutamine 1.965807
    #对差异代谢物进行棒棒糖图可视化
    #代谢物名字太长进行转换
    vip_select$cat = paste('A',1:nrow(vip_select), sep = '')
    p2 <- ggplot(vip_select, aes(cat, VIP)) +
      geom_segment(aes(x = cat, xend = cat,
                       y = 0, yend = VIP)) +
      geom_point(shape = 21, size = 5, color = '#008000' ,fill = '#008000') +
      geom_point(aes(1,2.5), color = 'white') +
      geom_hline(yintercept = 1, linetype = 'dashed') +
      scale_y_continuous(expand = c(0,0)) +
      labs(x = '', y = 'VIP value') +
      theme_bw() +
      theme(legend.position = 'none',
            legend.text = element_text(color = 'black',size = 12, family = 'Arial', face = 'plain'),
            panel.background = element_blank(),
            panel.grid = element_blank(),
            axis.text = element_text(color = 'black',size = 15, family = 'Arial', face = 'plain'),
            axis.text.x = element_text(angle = 90),
            axis.title = element_text(color = 'black',size = 15, family = 'Arial', face = 'plain'),
            axis.ticks = element_line(color = 'black'),
            axis.ticks.x = element_blank())
    p2
    13bd0392ae69ab92edf3f997485392df.png
    Snipaste_2021-10-28_23-35-09

    参考

    1. OPLS-DA在R语言中的实现 | 小蓝哥的知识荒原 (blog4xiang.world)

    2. R包ropls的偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA)

    3. 用PLS和OPLS分析代谢组数据 - 简书 (jianshu.com)

    4. ropls: PCA, PLS(-DA) and OPLS(-DA) for multivariate analysis and feature selection of omics data (bioconductor.org)

    往期

    1. 单组学的多变量分析|1.PCA和PLS-DA

    2. 单组学的多变量分析| 2.稀疏偏最小二乘判别分析(sPLS-DA)

    4e2d7dd694b456fbfd401affd81aef4b.png

    展开全文
  • 蚯蚓在DMP质量浓度为200 mg/kg和600 mg/kg的自然土壤中污染胁迫7,14,21 d,采用蛋白质双向电泳技术筛选出表皮组织差异表达的140个蛋白质斑点,并用肽质量指纹图谱技术和数据库比对海初步鉴定出5种差异蛋白质,分别...
  • SIMCA教程2 韩晓春.docx

    2020-03-12 22:17:42
    SCIMA讲义,SIM提供了单独的自变量间的相关性P(corr),因变量的相关性c(corr...通过建立OPLS-DA模型,创建S-Plot图,筛选差异代谢物。利用OPLS-DA模型,创建SUS-Plot图,找到三组间差异代谢物并研究组间共同变化趋势
  • 本期分享一篇中南大学今年发表在Computational and Structural Biotechnology Journal 杂志(影响因子6.018)上的论文《结合代谢组学和网络药理学揭示羟基红花黄色素A抗急性颅脑损伤的机制》。 外伤性脑损伤...
  • 默认我们都会用两倍差异 (fold change == 2 | 0.5)作为一个筛选标准。Log2转换的优势就体现出来了,上调的基因转换后Log2 (fold change)都大于等于1,下调的基因转换后Log2 (fold change)都小于等于-1。无论是展示...
  • 标题:孤独症的基因变异与肠道微生物群、代谢物和细胞因子的改变有关Gene variations in autism spectrum disorder are associated wi...
  • 转录组测序可以得到大量差异表达基因和调控代谢通路,但由于基因与表型之间很难之间关联,导致关键的信号通路难以确定,因此往往达不到预期的研究目的。代谢产物是生物体在内外调控下基因转录的最终结果,是生物体...
  • 本期课程则汇总了biomarker研究中的典型图表以形成”图表九宫格“,并着重讲解有关biomarker表达差异(基础表达和变化趋势)、诊断标志(ROC曲线和四格表)的相关图表;同时,依据模拟数据,实操演示Graphpad、SPSS...
  • R语言绘制差异火山图示例

    千次阅读 2020-12-03 00:01:57
    基因表达差异火山图 提到差异火山图,相信很多同学肯定不陌生。因为形似火山(喷发),所以称为火山图。差异火山图最常见于转录组数据的分析中,在基因表达层面,用于展示两组间表达量上调和下调的基因。常规的...
  • 代谢组学数据分析的统计学方法综述

    万次阅读 多人点赞 2018-10-01 21:34:14
    如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志成为近年来代谢组学研究的热点和难点。据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。 代谢组学数据的特点...
  • Metabolomics

    千次阅读 2021-04-08 12:06:14
    一般用的多的是Metaboanalyst里的两个模块 差异代谢物筛选 差异代谢物分析 通路富集及ROC分析 转录组与蛋白组关联 转录组与蛋白组没有关联 是否可以 转录组—代谢物组—蛋白质组 间接关联 相关性分析 #####代谢通路...
  • 代谢组+基因组联合分析

    千次阅读 2021-01-21 10:37:02
    代谢组学是定量描述生物内源性代谢物对内外因变化应答规律的科学,能够直接反映生命体的终端和表型信息,近年来在疾病诊断和分型、生物标志物发现、药物研发、基因功能解析、代谢途径及调控机理等领域发挥着重要作用...
  • 如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志成为近年来代谢组学研究的热点和难点。网络药理学能够通过计算机模拟算法、运用组学、高通量筛选及网络分析等技术揭露药物-靶点-疾病之间复杂...
  • 基因组学、转录组学、蛋白组学及代谢组学等生信问题(高通量数据)中,面临的第一步往往就是降维(或者说筛选特征)。降维方法分为两大类:单变量分析降维法、多变量分析降维法。单变量降维常常使用FC值或者P值,多...
  • 差异变量筛选、中药化学成分靶点获取、代谢小分子网络关联分析、文献解读
  • 代谢组学精华汇总

    万次阅读 多人点赞 2018-10-01 22:26:58
    代谢组学的介绍 代谢组学那些事儿   代谢组数据处理 代谢组学数据分析的统计学方法综述 典型机器学习算法在代谢组学数据分析中的...筛选差异代谢产物通常基于OPLS-DA模型,因为它更易于进行模型解释,所有跟...
  • 取2的对数是因为经验上2倍差异比较常用,故取log2变换既可以使上调或下调数据对称(上、下调的类型同等重要,无偏好),而且坐标轴1个单位刻度的变化即为2倍差异(方便快速筛选差异足够大的点); Y轴:两组基因表达或...
  • 参考链接: ...但是这些有一个很大的缺点是,我们要根据自己的喜好去筛选log2fc 绝对值在2以上的基因,有很大的主观因素。 因此,此阿勇基因集富集是非常好的一种办法。可采用clusterProfiler。 ...
  • 导入完成后得到可形成互作关系的差异蛋白网络,不能形成互作关系的单个差异蛋白不再出现: 设置节点间连接线的粗细 combined_score表示数据的支持度,combined_score越粗两种蛋白间互作关系越强,默认筛选阈值为0.4...
  • 虚拟筛选(virtual screening,VS)也称计算机筛选,即在进行生物活性筛选之前,利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,以降低实际筛选化合数目,同时提高...
  • 运行计算模式1:基于Greengenes OTU的结果和EMBL模型模式2:基于Greengenes OTU和AGORA模型模式3:基于ASV和EMBL模型模式4:基于ASV和AGORA模型结果说明表格1: 微生物对代谢物的贡献表格表格2:原...
  • 撰文 | 617责编 | 兮肠道微生物组发挥着多种多样的功能,比如营养代谢、参与免疫调控等。研究发现肠道微生物组的改变与许多疾病都存在一定关联,且疾病人群的肠道微生物组的α-多样...
  • 所有组中共鉴定出 361 个代谢物,其中有128个是五组中常见的差异代谢物(DEM,VIP>1和 P)。这些DEM主要为脂质(23.43%)、核苷酸(14.06%)、氨基酸(14.84%)、碳水化合物(11.72%)等。 图1 PCA和OPLS-DA分析 2....
  • 非靶向代谢组学数据分析方法总结

    万次阅读 多人点赞 2019-04-30 18:53:10
    其中,代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因组学和转录组学是生物信息的上游,更多的体现的是生物活动的内在本质因素,而代谢组学是生物信息的最下游,体现的...
  • 背景介绍(Introduction)宏基因组学宏基因组学目前的主要研究方法包括:16S/ITS/18S扩增子、宏基因组、宏转录组和代谢组,其中以扩增子研究最为广泛。目的意义本系列文章将带领大家结合较新的16S/ITS扩增子相关文献,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 653
精华内容 261
关键字:

差异代谢物筛选