精华内容
下载资源
问答
  • 假设检验 p-value,FDR,q-value

    千次阅读 2020-03-26 20:51:42
    单个假设检验中主要依靠p值(或统计量t)做出是否拒绝零假设H0的决定:p-value和预先设定的检验水准 α 做对比,如果p-value小于等于α,拒绝原假设,否则不拒绝原假设。 p-value:表征了在原假设成立的条件下,重复...

    1、p-value

    单个假设检验中主要依靠p值(或统计量t)做出是否拒绝零假设H0的决定:p-value和预先设定的检验水准 α 做对比,如果p-value小于等于α,拒绝原假设,否则不拒绝原假设。

    • p-value:表征了在原假设成立的条件下,重复进行当前的试验,获得现有统计量t及其更极端情况的概率。
    • 给定检验水准 α 时,可得出对应的拒绝域;根据当前试验,可以计算出 p-value 。当 p-value 越小时,表示此时试验得到的统计量t越落在拒绝域。因此基于 p-value 的结果等价于基于t值的结果。因此,p-value 越小,拒绝原假设的信心越大。
    • 假阳性率:false positive rate, FPR.检验水准α给出了事先犯I-型错误的最大概率。

    2、多重假设检验和总体错误率

    在进行多重假设检验时,每个单独的假设都具有其本身的I型错误。在这种情况下,如果不进行任何的控制,犯I-型错误的概率会随着假设检验的个数而迅速增加。
    多重假设检验中,广泛使用的错误控制指标是总体错误率(family-wise error rate,FWER),即至少出现一次错误地拒绝真实H0的可能性;FWER小于等于alpha。而研究者更关心的是能否尽量多地识别出差异表达的基因,并且能够容忍和允许总的拒绝中发生少量的错误识别,称为错误发现false discovery。即需要在错误发现和总的拒绝次数R之间寻找一种平衡,即在检验出尽可能多的候选变量的同时将错误发现率控制在一个可以接受的范围。

    • 错误发现率(False Discovery Rate,FDR),表示了在所有R次拒绝中错误发现的期望比例。错误发现率和假阳性率之间有着本质的差别。错误发现率将范围限定在总的拒绝次数中;而假阳性率则针对所有变量数而言。
      给定FDR的控制水平α,多重假设检验次数M,通过求得拒绝H0的次数N,可得出多重检验M次中,有多少次是被错误识别的(=α * N)。Benjamini和Hochberg给出了一个基于p-value的逐步向下控制程序,用于求出拒绝H0的次数N的值。并且证明在BH控制下,FDR 小于等于 α。

    3、FDR校正后的p-value,即q-value

    • 用FDR错误控制法对p-value作多重假设检验校正

    FDR错误控制法是Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定P值的域值. 假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例Q=V/R平均而言不 能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%.

    对所有候选基因的p值进行从小到大排序,则若想控制fdr不能超过q,则只需找到最大的正整数i,使得 p(i)<= (i*q)/m.然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证fdr不超过q。
    因此,FDR的计算公式如下:

    q-value(i)=p(i)*length(p)/rank(p)

    展开全文
  • p-value&FPR以及q-value&FDR

    万次阅读 2018-01-07 00:12:53
    在测序数据中,我们经常能在差异统计表格看到P-value以及FDR值。而在生信数据的分析中,也会经常对P-value进行FDR校正。这么做的目的是什么,FDR校正的原理又是什么呢? 首先我们来看P-value的定义:在假设检验中,...
    在测序数据中,我们经常能在差异统计表格看到P-value以及FDR值。而在生信数据的分析中,也会经常对P-value进行FDR校正。这么做的目的是什么,FDR校正的原理又是什么呢?
    
    首先我们来看 P-value的定义:在假设检验中,当原假设(H0)为真时,所得到的样本观察结果或更极端结果出现的概率。
    如果P-value很小,说明原假设为真时,这个数据甚至更极端的数据出现的概率很小;而当P-value小于一个我们人为预先设定的值α(生物分析中一般取0.05)的时候,与其相信这个小概率事件的发生,我们认为更为合理的选择是拒绝原假设(H0)。

    下面引用在网上看到的一个解释,十分简洁易懂。



    好了,理解了P-value的概念后,为了方便理解接下来的概念,用一张表格来表示假设检验的结果:



    如果我们有m个基因,那么我们就要做m次假设检验。每一次的假设检验的零假设H0为:两个样本的这个基因没有显著性差异。其中有m0个零假设是正确的,即这个基因在两个样本中确实没有显著性差异;但有m1=m-m0个零假设是错误的,即两个样本的这个基因是有显著性差异。m次检验之后,被拒绝的零假设的个数记为R。

    我们再回头思考刚才的问题:原假设(H0)为真时,当P-value小于α,拒绝了原假设(H0)。这同时出现了假阳性的情况:H0是无效假设(阴性),拒绝了H0就意味着认为是阳性结果;同样的,这也是假设检验中的第一类错误:否定真实假设的错误,亦称弃真错误。因此p-value本质是控制假阳性率(False positive rate,FPR)。

    假设检验的目的是make decision. 传统上把小概率事件的概率定义为0.05或0.01, 但不总是这样. 主要根据研究目的. 在一次试验中(注意:是一次试验, 即single test),0.05 或0.01的cutoff足够严格了(想象一下, 一个口袋有100个球, 95个白的, 5个红的, 只让你摸一次, 你能摸到红的可能性是多大?). 我刚才强调的是single test, 在multiple test中, 通常不用p-value, 而采用更加严格的q-value. 与p-value 不同,q-value 控制的是FDR (false discovery rate)。

    什么是FDR?给出定义:错误发现率,表示了在所有R次拒绝中错误发现的期望比例。错误发现率和假阳性率之间有着本质的差别。错误发现率将范围限定在总的拒绝次数中,即FDR = E(V/R);而假阳性率则针对所有变量数而言。需要在错误发现次数V和总的拒绝次数R之间寻找一种平衡,即在检验出尽可能多的候选变量的同时将错误发现率控制在一个可以接受的范围。

    为什么在multiple test 中要采用q-value进行判断呢?

    举个例子.假如有一种诊断艾滋病(AIDS)的试剂, 试验验证其准确性为99%(每100次诊断就有一次false positive). 对于一个被检测的人(singletest) 来说, 这种准确性够了. 但对于医院 (multiple test) 来说,这种准确性远远不够, 因为每诊断10000个个体, 就会有100个人被误诊为艾滋(AIDS).这显然是不能接受的。所以,对于多重检验,如果不进行任何控制,犯第一类错误的概率便会随着假设检验的个数迅速增加。为了合理控制,有必要引入一个更加严格的指标,也就是q-value。它就是校正后的p-value

    在多重假设检验中,有许多方法来克服这个问题。比如对每个测试用例赋校正后的p-value,或者将 p-value 的阈值从0.05下降到一个更为合理的阈值。许多传统的技术例如Bonferronicorrection从某种意义上来说显得较为保守,他们主要是依靠减少假阳性的个数,同时也会减少 TDR (True Discovery Rate)。FDR方法则是一种更加新颖靠谱的方法。这个方法同样会对每个测试用例赋校正后的p-value,但是,它还控制了错误发现的个数。即在检验出尽可能多的候选变量的同时将错误发现率控制在一个可以接受的范围。

    那么如何用FDR对P-value校正呢?Benjamini和Hochberg提出了以FDR作为多重检验的准则,但是其检验的方法采用的是Simes(1986)提出的算法。设总共有m个候选基因,每个基因对应的p值从小到大排列分别是p(1),p(2),... p(m),则若想控制fdr不能超过q,则只需找到最大的正整数i,使得p(i)<= (i*q)/m。然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证fdr不超过q(这个可以推导出来,比较容易,就不演示了)。


    展开全文
  • P-value是啥

    千次阅读 2019-09-24 10:51:55
    1,P-value 是在零假设(null hypothesis)成立的情况下,观察值或比观察值更极端的值发生的概率。

    1,P-value 是在零假设(null hypothesis)成立的情况下,观察值或比观察值更极端的值发生的概率。

    在这里插入图片描述

    展开全文
  • 显著性测试,p-value/p

    千次阅读 2019-05-30 15:34:31
    p-value的意义就是当前模型要显著的好于别的模型, 先计算chi-square值,然后根据值去查卡方图,得到p-value值,大于0.05(经验值),则说明拒绝假设H0的概率小,H0成立。比如硬币真假,如果7次反面,3次正面,计算...
    p-value的意义就是当前模型要显著的好于别的模型,
    先计算chi-square值,然后根据值去查卡方图,得到p-value值,大于0.05(经验值),则说明拒绝假设H0的概率小,H0成立。比如硬币真假,如果7次反面,3次正面,计算chi-square的值为1.7,根据卡方图,p值介于0.25~0.1之间,大于0.05,则为真币。算法模型中,可以比较logloss,auc,如果p-value远远小于0.05,则说明baseline的表现更好不成立,对应新模型表现更好。
    实验的python代码如下:
    
    baseline = {'aaa': [0.20799, 0.20871, 0.21037, 0.211, 0.21215],
                'bbb': [0.20632, 0.20565, 0.20459, 0.20436, 0.2042],
                'ccc': [0.22306, 0.22286, 0.22138, 0.2215, 0.22064],
                'ddd': [0.22195, 0.22168, 0.22208, 0.22172, 0.22238],
                'eee': [0.2131, 0.21311, 0.2116, 0.21078, 0.2113],
                'fff': [0.20759, 0.20763, 0.20672, 0.2067, 0.20612]}
    ggg = [0.22379, 0.22338, 0.22321, 0.22226, 0.22281]
    
    for name in baseline.keys():
        base_result = baseline[name]
        t, p = ttest_ind(base_result, ngcf)
        print(name, p)
    展开全文
  • 统计 p-value 含义

    千次阅读 2015-08-25 09:18:41
    p-value是一种概率:在原假设为真的前提下,出现该样本或比该样本更极端的结果的概率之和。     例子: 我们假设 H0:出现正面的概率是1/2 扔硬币20次出现了14次正面.该样本的单边p-value计算如下: ...
  • p-value解析

    千次阅读 2014-10-24 09:04:58
    1 . P-value:假定值、假设机率 2.
  • P-value个人理解

    万次阅读 2017-06-04 13:01:14
    最近见到p-value的频率有点高,之前也看到很多次了,基本当时懂了过几天就忘记了,整理下。 P值定义[from:百度百科] P值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P...
  • 统计中的p-value检验

    千次阅读 2017-06-11 17:15:58
    最近和一个老同学讨论统计中的p-value检验问题,其中涉及到为什么需要用p-value来做假设检验的判断依据,上网查到了一个很好的例子: 教室里四位同学将装了若干数量的白球和黑球的箱子放在了课桌上,然后他们...
  • 做基因表达分析时必然会要做差异分析(DE) DE的方法主要有两种: Fold change t-test fold change的意思是样本质检...Q-value,是P-value校正值,P值是统计差异的显著性的。Q值比P值更严格的一种统计。 p-value...
  • T检验和p-value含义及计算公式

    万次阅读 多人点赞 2018-01-30 14:50:32
    p-value是一种概率:在原假设为真的前提下,出现该样本或比该样本 更极端 的结果的概率之和。     例子: 我们假设 H0:出现正面的概率是1/2 扔硬币20次出现了14次正面.该...
  • P-Value检验和假设检验

    千次阅读 2015-02-02 12:25:24
    P-Value,Probability,Pr),P 值是进行检验决策的另一个依据。 P 值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P 为显著,P 为非常显著,其含义是样本间的...
  • R语言添加p-value和显著性标记

    万次阅读 多人点赞 2018-02-18 13:34:20
    R语言添加p-value和显著性标记,原文链接 https://mp.weixin.qq.com/s/gRw0krS3LY7c0QK9y47EJw 作者简介 Introduction taoyan:伪码农,R语言爱好者,爱开源。 个人博客: https://ytlogos.github.io/ 往期回顾 ...
  • 郑冰刚提到P值,说P值的定义(着重号是笔者加的,英文是从WikiPedia摘来的): ...The P-value is the probability of obtaining a result at least as extreme as the one that was actually observed, given ...
  • 在线计算t-test P-Value

    千次阅读 2008-10-27 21:36:00
    在线计算T-test P-Value p-Value Calculator for the Student t-Test http://www.danielsoper.com/statcalc/calc08.aspx T Distribution Calculator http://www.stat.tamu.edu/~west/applets/tdemo.html
  • 使用scipy计算皮尔逊相关系数时会返回相关系数和p-value两个值,刚开始把p-value和置信度当做了一回事,后来经过查阅资料之后才了解到并不是那样,现记录下来供自己备忘和有需要的同学参考: API用法 scipy.stats....
  • 多重检验中的FDR错误控制方法与p-value的校正及Bonferroni校正
  • T检验、卡方检验以及p-value

    万次阅读 2019-02-23 20:06:25
    P-value 进行比较,如果 P-value α \alpha α ,则说明在显著性水平 α \alpha α 下拒绝原假设, α \alpha α 通常情况下设置为0.05。 T检验 (T-test) T检验,也称为 student t 检验 (Student’s t ...
  • 个人博客: https://ytlogos.github.io/往期回顾R语言学习笔记之聚类分析R语言可视化学习笔记之ggpubr包上篇文章中提了一下如何通过ggpubr包为ggplot图添加p-value以及显著性标记,本文将详细介绍。利用数据集...
  • 浅谈p-value

    千次阅读 2018-09-15 16:25:30
    转至:https://www.jianshu.com/p/4c9b49878f3d 硬币有正反两面,在概率中我们知道,出现正反面的概率各为50%(1/2),所以作为一个正常的硬币,如果我们投无限次后,结果一定会是正反各占50%。但是,如果我想知道...
  • 【Python】python中p-value的实现

    万次阅读 2018-05-05 14:46:56
    案例: tt = (sm-m)/np.sqrt(sv/float(n)) # t-statistic for ...pval = stats.t.sf(np.abs(tt), n-1)*2 # two-sided pvalue = Prob(abs(t)>tt) print 't-statistic = %6.3f pvalue = %6.4f' % (tt, pval) t-s...
  • KS检验-如何理解KS检验中的p-value

    万次阅读 2019-03-20 17:05:16
    首先介绍一下什么是KS检验原文: ... KS检验 Kolmogorov-Smirnov检验是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。 单样本K-S检验是用来...这个0.05就是P Value.
  • P-value 更加的浅显易懂

    万次阅读 2016-12-08 17:09:33
    0.普通逻辑 复习一下普通逻辑的基本...P表示打了疫苗P, Q表示得流行病Q 或者,更形式化一点: if P then NOT Q 然后,如果观察到你得了流行病Q,那么就可以推出你没有打疫苗P——这个推断只不过是上述前提条
  • 【数学】假设检验求p-value

    千次阅读 2018-10-10 19:30:32
    1. 不存在p检验,只有Z检验、T检验、卡方检验、U检验等,这些检验都有p值。   2. t检验只有当确定数据分布为正态分布时才用;独立重复实验得到结果可假设为服从正态分布(存疑);同样是t检验,也分为两种:独立...
  • 数据分析中常碰见多重检验问题 (multiple testing).Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定P值的域值. 假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,099,778
精华内容 839,911
关键字:

P-value