精华内容
下载资源
问答
  • 11.1 p值的意义

    2019-05-23 09:48:53
    11.1 如何看待 Nature《科学家们起来反对统计显著性》一文,对统计意义的误解源头真p 吗? 标签:机器学习与数据挖掘 作者:孟浩巍 原文链接:...

    11.1 如何看待 Nature《科学家们起来反对统计显著性》一文,对统计意义的误解源头真的是 p 值吗?

    标签:机器学习与数据挖掘
    作者:孟浩巍
    原文链接:https://www.zhihu.com/question/317252051/answer/633033538?utm_oi=50144498155520
    是知乎上面的答案 写的很好啊
    198 人赞同了该回答

    不必过度解读,几乎每过两年就会出现一篇类似的文章来告诉大家:你的统计学方法错啦;Pvalue不重要啦;反对统计显著性啦;加强统计学教育啦等等。

    其实,要领会精神,内核是:告诉大家不要一刀切地下科学结论。

    (2019年3月26日)今晚稍微有点时间,简单更一点。

    其实要解释“统计显著”这个概念,那得先给大家讲讲历史故事。所谓的统计pvalue其实是做假设检验的一个产物,那假设检验主要是Pearson,Fisher,Neyman以及小Pearson 这4位大神建立起来的。

    最早的时候Pearson提出了一个显著性水平 α\alpha 这个概念,当时主要是为了做拟合优度检验,简单来说,就是一个抽样分布和已知分布是否相同,现在应用非常广泛的二联表检验里的 χ2\chi^{2} 检验就是基于这个原理。

    而Fisher当时是在Pearson手下的一个农场里做一些统计分析的工作,他最早比较明确地提出来显著性检验这个概念的人,一个比较著名的例子就是“女士品茶”,就是当时有一个Young lady非常喜欢喝茶,然后还喜欢在茶(T)里加牛奶(M),还号称能够尝出来是这两者先后加入的顺序,即能够通过品尝知道是TM(先加茶再加奶)还是MT(先加奶再加茶)。Fisher觉得,有必要通过一定的统计学方法来确定这个事情是不是真实客观的。那怎么来做这件事情呢?他先准备好MT,TM各4杯,然后让妹子盲喝,最后妹子答对了8杯里的7杯。那么Fisher老爷子就开始计算概率了,假设妹子纯靠猜8杯答对7杯的概率应该按二项分布计算:

    P{87}=C87×(0.5)7×(0.5)1=0.03125P\left\{ 8杯猜对7杯 \right\} = C_{8}^{7} \times (0.5)^{7} \times (0.5)^{1} = 0.03125

    P{88}=C88×(0.5)8=0.00390625P\left\{ 8杯猜对8杯 \right\} = C_{8}^{8} \times (0.5)^{8} = 0.00390625

    那么这个时候:

    P{87}=0.03515625P\left\{ 8杯猜对7杯以上 \right\} = 0.03515625

    Fisher老爷子一看,这瞎猜出现这种情况的概率平均每20次还不到1次(0.05),那我就索性信了这个妹子吧,认为妹子不是瞎猜,而是真的有这个分辨TM、MT的能力。这个就是最早的统计检验,这里的

    P{87}P\left\{ 8杯猜对7杯以上 \right\}

    就是我们现在所谓的PvalueP-value,不要问我为什么 Pvalue<0.05P-value < 0.05 就是能否定原假设,就是统计显著,这特么是Fisher老爷子一拍脑门想出来的啊!没有什么为什么 233333!

    (2019年3月29日)继续写一点。

    Fisher老爷子这个检验很好,也给出了PValueP-Value这个概念,告诉我们当PvalueP-value 小于一定的cutoff就需要否定我们的假设。但是还不完善,后来Neyman和小Pearson(K Pearson的儿子,Pearson相关系数的提出者)完善了统计检验的步骤:一个统计检验应该包括假设 H0H_{0} 和备择假设H1H0H_{1},H_{0}H1H_{1}是两个互斥的集合,同时二者的合集构成全集;当不能够接受H0H_{0}的时候,就一定需要接受H1H_{1};同时明确了两类错误,分别称为第一类错误,第二类错误及功效函数。

    其中,第一类错误,也叫“去真”错误;第二类错误也叫“纳伪”错误。这两个错误在不同的检验问题下,重要程度往往不同且通过数学可以证明,这两者不能同时减小。压下葫芦起了瓢,当一个减少以后,另外一个一定增加。

    怎么理解这个“去真”错误呢?就是真的发生了一个小概率事件,恰巧被我们观测到了,结果由于Pvalue<0.05P-value < 0.05的原因,我们否定了不应该否定的 H0H_{0} 造成了错误。去真往往会带来问题,因此现在习惯上喜欢在统计检验的时候,首先关注的是H0H_{0}的第一类错误。

    那么PvalueP-value有什么问题呢?常见的大概有下面几种:

    PvalueP-value不能完全代表总体的情况,只能够代表样本的情况;比如你要检验的是A城市与B城市的平均身高有无显著差距;如果你只抽样了20个人,那么很可能就会得到Pvalue极小的情况,但这并不能代表你的H0H_{0}真实的情况!
    PValuePValue的多重检验的假阳性问题;当你有1000个检验问题的时候,使用相同的检验方法,就很可能出现几十个PvalueP-value带来的假阳性问题。
    PValue临界值附近的经常存在争议;比如我有一个药物A,进行了20个人的配对实验,结果发现PValue=0.04PValue = 0.04;同时有个药物B也进行了同样的实验发现PValue=0.06P-Value = 0.06. 那么我能不能说药物B对这个病没有效果?我能不能说药物A对这个病有疗效?我能不能说A与B的药效有显著差异?这种问题经常在PvaluePvalue的临界值附近出现,所以一定要小心!
    PValue的计算选择错了统计方法;这个问题很有趣,很多时候,你可能计算出了一个Pvalue<2.2e16P-value < 2.2e-16的一个超显著的PValuePValue结果,但是你忘记你的 $H_{0} .. 举个例子,比如你想比较的是两个总体的均值是否相同;结果你用错了统计学方法,搞了个KS,, test,殊不知KS test是用来检验两者分布是否相同的检验,结果得到了超显著的P-value。这种情况下,很遗憾,你用了错误的统计学方法,得到了错误的P-value$,最终得到了错误的检验结论!
    (待续 。。。)

    展开全文
  • 在实验进行过程中,尽管尽量排除随机误差影响,以突出实验处理效果,但由于个体间无法避免差异,以及诸多无法控制因素,使得实验结果最后表现观察处理处理效应之外,还包括实验误差效应。 因此对两个...

    显著性检验


    抽样实验会产生抽样误差,对实验资料进行比较分析时,不能仅凭两个结果(平均数或率)的不同就作出结论,而是要进行统计学分析,鉴别出两者差异是抽样误差引起的,还是由特定的实验处理引起的。

    显著性检验(significance test)就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。或者说,显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。 显著性检验是针对我们对总体所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设。

    下文简述各种差异性检验思想(两组样本差异),同时结合scipy.stats文档中的描述进行python实践。

    参数检验


    在下文中,我们给出了两个样本,它们可以来自相同或不同的分布,我们想检验这些样本是否具有相同的统计特性:

    比较均值


    t检验

    t检验适用于:正态分布、方差具有齐性的两组间小样本比较;对于大样本不满足正态分布的数据而言t-检验还是相当精确有效的手段。
    检验:两个平均数的差异是否显著。

    均值相同的两组样本测试:

    from scipy import stats
    
    rvs1 = stats.norm.rvs(loc=5, scale=10, size=500)
    rvs2 = stats.norm.rvs(loc=5, scale=10, size=500)
    stats.ttest_ind(rvs1, rvs2)
    
    #Ttest_indResult(statistic=1.3361991573958927, pvalue=0.18178876551839254)
    

    均值不同的两组样本测试:

    rvs3 = stats.norm.rvs(loc=8, scale=10, size=500)
    stats.ttest_ind(rvs1, rvs3)
    
    #Ttest_indResult(statistic=-4.5208184543856769, pvalue=6.8983225888305648e-06)
    

    note:如果我们观察来自相同或不同人群的两个独立样本,例如男孩和女孩或两个种族的考试分数,我们可以使用该测试。该测试测量样本之间的平均(预期)值是否显着不同。如果我们观察到大的p值,例如大于0.05或0.1,那么我们不能拒绝相同平均分数的零假设。如果p值小于阈值,例如1%,5%或10%,那么我们拒绝相等平均值的零假设。

    # In[t检验]
    import numpy as np
    from scipy import stats
    np.random.seed(12345678)
    
    #用相同的方法测试样品:
    rvs1 = stats.norm.rvs(loc=5,scale=10,size=500)
    rvs2 = stats.norm.rvs(loc=5,scale=10,size=500)
    stats.ttest_ind(rvs1,rvs2)
    #Ttest_indResult(statistic=0.26833823296238857, pvalue=0.78849443369565098)
    stats.ttest_ind(rvs1,rvs2, equal_var = False)
    # 参数equal_var = False表示:Welch's t-test:不考虑方差相等的t'检验
    # 应用条件与t检验大致相同,但t′检验用于两组间方差不齐时,t′检验的计算公式实际上是方差不齐时t检验的校正公式。
    #Ttest_indResult(statistic=0.26833823296238857, pvalue=0.78849452749501059)
    
    #ttest_ind 低估了不等方差的p:
    rvs3 = stats.norm.rvs(loc=5, scale=20, size=500)
    stats.ttest_ind(rvs1, rvs3)
    #Ttest_indResult(statistic=-0.46580283298287956, pvalue=0.64145827413435608)
    stats.ttest_ind(rvs1, rvs3, equal_var = False)
    #Ttest_indResult(statistic=-0.46580283298287956, pvalue=0.64149646246568737)
    
    #当样本数量n1!=n2时,等方差t-statistic不再等于不等方差t-statistic:
    rvs4 = stats.norm.rvs(loc=5, scale=20, size=100)
    stats.ttest_ind(rvs1, rvs4)
    #Ttest_indResult(statistic=-0.99882539442782847, pvalue=0.31828327091038783)
    stats.ttest_ind(rvs1, rvs4, equal_var = False)
    #Ttest_indResult(statistic=-0.69712570584654354, pvalue=0.48716927725401871)
    
    #使用不同均值,方差和n进行T检验:
    rvs5 = stats.norm.rvs(loc=8, scale=20, size=100)
    stats.ttest_ind(rvs1, rvs5)
    #Ttest_indResult(statistic=-1.4679669854490669, pvalue=0.14263895620529113)
    stats.ttest_ind(rvs1, rvs5, equal_var = False)
    #Ttest_indResult(statistic=-0.94365973617133081, pvalue=0.34744170334794089)
    

    拟合优度检验


    Kolmogorov-Smirnov test (KS检验)

    适用:连续分布,拟合优度
    思想:依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。

    对于两个样本都来自同一分布的例子,

    stats.ks_2samp(rvs1, rvs2)
    #Ks_2sampResult(statistic=0.025999999999999995, pvalue=0.9954119517306488)
    

    pvalue=0.9954119517306488,我们不能拒绝零假设,因为pvalue很高。

    不同均值的两个分布为例,

     stats.ks_2samp(rvs1, rvs3)
     #Ks_2sampResult(statistic=0.11399999999999999, pvalue=0.002713210366128314)
    

    pvalue低于1%,,拒绝零假设。

    非参数检验


    以上的参数检验都基于共同的两个假设:正态性假定和方差齐性假定 。但是,我们在实际工作中,不可能总是遇到满足这两个假定的统计数据,这时候,如果强行采用参数检验就会造成错误。此时,可以采用基于秩和的非参数检验,如Kruskal-Wallis检验。

    Wilcoxon符号秩检验(t检验的非参数版本)


    点击Wilcoxon符号秩检验详细了解。
    非参数原假设(零假设):检验了两个相关配对样本x,y来自同一分布的。
    非参数检验具有无需对总体分布作假定的优点,而就成对观察值作的参数方式的T检验,必须假定有关的差别总体服从正态分布。
    思想:

    • 检验x-y的分布是否关于零对称。它是两样本t检验的非参数版本。

    使用条件:

    • 由于正态近似用于计算,因此使用的样本应该很大。一般是要求n> 20。
    • 成对检验,数据是配对的。(x,y长度一致)。

    scipy.stats函数:wilcoxon(x[, y, zero_method, correction])

    from scipy import stats
    x = [1, 3, 5, 7, 9]
    y = [2, 4, 6, 8, 10]
    stats.wilcoxon(x,y)
    #  UserWarning: Warning: sample size too small for normal approximation.
    #  warnings.warn("Warning: sample size too small for normal approximation.")
    #WilcoxonResult(statistic=0.0, pvalue=0.025347318677468252)
    

    规则是要求n> 20,样本过少会告警。

    Kruskal-Wallis H检验(它是ANOVA的非参数版本)


    点击Kruskal-Wallis H检验详细了解。
    思想:假设两个分布的样本中位数相等,用于检验样本是否来源于相同的分布。它用于比较两个或多个相同或不同样本大小的独立样本。它扩展了Mann-Whitney U检验,该检验仅用于比较两组。Kruskal-Wallis检验的参数等价物是单因素方差分析 (ANOVA)。

    使用条件:

    • 具有卡方分布的假设,每组中的样本数量不能太小。(n>5)
    • 比较没有配对的两个独立样本,样本可具有不同的大小。(x,y长度可以不一致)

    scipy.stats函数:kruskal(*args, **kwargs)

    from scipy import stats
    x = [1, 3, 5, 7, 9]
    y = [2, 4, 6, 8, 10]
    stats.kruskal(x, y)
    #KruskalResult(statistic=0.27272727272727337, pvalue=0.60150813444058948)
    

    Mann-Whitney秩检验


    点击Mann-Whitney秩检验,U检验详细了解。
    它假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是检验这两个总体的均值是否有显著的差别。
    思想:

    • 首先,混合两组数据,对所有数据排序。
    • 按照数值大小给定一个值叫做秩。最小的值秩为1,最大的为N(假定两个样本总共有N个观察值)。 如果有相同的值,就得到相同的秩。相同的值的秩是他们的秩的平均值。
    • 如果两组的秩的和差距比较大,就会得出较小的p值,认为这两组间有显著差异。

    使用条件:

    • 比较没有配对的两个独立样本,样本可具有不同的大小。(x,y长度可以不一致)
    • 仅在每个样本中的观察次数> 20且您有2个独立的等级样本时使用。

    scipy函数:mannwhitneyu(x, y[, use_continuity, alternative])

    from scipy import stats
    x = [1, 3, 5, 7, 9]
    y = [2, 4, 6, 8, 10]
    stats.mannwhitneyu(x, y)
    #MannwhitneyuResult(statistic=10.0, pvalue=0.33805165701157347)
    

    P值的意义


    不得不提的P值
    P 值(pvalue),就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果 P 值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P 值越小,我们拒绝原假设的理由越充分。
    总之,P 值越小,表明结果越显著。但是检验的结果究竟是 “显著的”、“中度显著的” 还是 “高度显著的” 需要我们自己根据 P 值的大小和实际问题来解决。

    Scipy.stats中关于两样本差异假设检验的API汇总


    API汇总

    • T检验: ttest_ind(a, b[, axis, equal_var, nan_policy])

    • Kolmogorov-Smirnov检验拟合优度: kstest(rvs, cdf[, args, N, alternative, mode])

    • Mann-Whitney秩检验,U检验: mannwhitneyu(x, y[, use_continuity, alternative])

    • Wilcoxon符号秩检验: wilcoxon(x[, y, zero_method, correction]) 执行

    • Kruskal-Wallis H检验: kruskal(*args, **kwargs)

    展开全文
  • 统计学中的P值与显著性的意义

    千次阅读 2015-04-08 13:10:00
    统计学意义p值) 结果统计学意义是结果真实程度(能够代表总体)一种估计方法。专业上,p值为结果可信程度一个递减指标,p值越大,我们越不能认为样本中变量关联是总体中各变量关联可靠指标。p值是...

    统计学意义(p值)

     

          结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联(变量之间的独立性成立),我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。


    如何判定结果具有真实的显著性

          在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。实践中,最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两>比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。通常,许多的科学领域中产生p值的结果≤0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性结果0.05≥p>0.01被认为是具有统计学意义,而0.01≥p≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。

     

    所有的检验统计都是正态分布的吗

    并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、f检验或卡方检验。这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了,(参阅非参数和方差分析的正态性检验)。这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。

    转载于:https://www.cnblogs.com/AmatVictorialCuram/p/4402143.html

    展开全文
  • 大数据文摘出品 编译:武帅、宁静 我们在日常生活中做出决定时,总会在心里提前打个“小算盘“——估算一下概率值P,研究者做某项...P值的表面意义是,当原假设为真时,检验统计量出现某不应该值所需的概率;而...

    大数据文摘出品

    编译:武帅、宁静

     

    我们在日常生活中做出决定时,总会在心里提前打个“小算盘“——估算一下概率值P,研究者做某项检测,根据概率值P,得出最终的结果;资本家做投资,根据以往数据的统计分布,估算P值,得出最终的决策等等。P值在潜移默化地影响着我们的生活,那么有没有想过我们所依赖的P值到底可靠吗?

     

    P值的表面意义是,当原假设为真时,检验统计量出现某不应该值所需的概率;而其实际意义则是,只需多小的概率就能出现拒绝原假设的检验统计值。

     

    Nature上的统计学家早就发现,P值本身无法提供支持相关模式或假说之证据,P值可能给我们每个人都上演了一场“楚门的世界”,先附上Nature链接,看看他们怎么说。

     

    Nature链接:

    https://www.nature.com/articles/d41586-019-00857-9

     

     

    P值不可靠?

     

    发布这篇文章的三位统计学家,分别是瑞士巴塞尔大学的动物学教授Valentin Amrhein,加州大学洛杉矶分校的流行病学的统计学教授Sander Greenland,伊利诺伊州埃文斯顿西北大学的统计学方法学家和营销学教授Blake McShane。

     

    他们提出:“我们永远不应该仅仅因为P值大于0.05之类的阈值而得出“没有差异”或“没有关联” ,或者等价,因为置信区间包括零。我们也不应该断定两项研究之间存在冲突,因为一项研究结果具有统计学意义,另一项则没有。这些错误会浪费研究工作并误导政策决策。"

     

    (注: α 显著性水平,是接受或拒绝原假设的概率分界点,如果p<α,就认为在1-α的置信水平下,样本观测值与总体假设值之间的差异是显著的,从而不能接受原假设,即拒绝原假设。 大家对0.05的显著性水平比较认可,把p<0.05作为了一种比较公认的判断标准,因而符合p<0.05的研究结果就比较容易得到发表)

     

    同时,文章指出,当区间估计包括严重的风险增加时,得出结论认为统计上不显着的结果“无关联”是荒谬的。声称这些结果与显示相同观察效果的早期结果形成对比同样荒谬。然而,这些常见的做法表明,依赖统计显着性阈值可能会误导我们。(参见下图)

     

     

    这些错误以及类似的错误普遍存在,对数百篇文章的调查发现,统计上不显着的结果被解释为“没有差异”或“没有影响”的约有一半。

     

     

    这个发现说明,我们所看到的文献,都是所谓通过了显著性检验的部分,或者说都是符合研究者意图的部分,而对于那些没有通过检验、不符合研究者意图的研究到底是个什么情况,我们就不得而知了。

     

    例如研究者为了使研究结果符合自身意图,事先通过样本选择、条件控制等手段对实验设计进行了优化,选择性地只报告符合意图的变量,甚至选择性地删除、补充或修改数据,选择性地扩大样本容量等等。显然,这种为了发表文章而人为地达到p<0.05要求的做法,是严重违背实事求是的科学精神和学术道德的,当然也严重损害了假设检验的声誉。

     

    那么P值的真正含义是什么呢?

     

    或许,数据科学家Admond Lee会给我们答案,下文是他对于P值的探索经历,可随文摘菌一探究竟。(Admond Lee是知名的数据科学家和顾问,凭借其在数据科学和行业知识方面的极强的专业素养,帮助那些初创公司的创始人和各公司利用数据解决他们遇到的问题)

     

     

    探索P值的真正含义

     

    犹记得当我作为暑期学生在欧洲核子研究中心进行第一次海外实习时(注:欧洲核子研究中心,法语为Conseil Européenn pour la Recherche Nucléaire, 简称CERN,位于瑞士日内瓦西部接壤法国的边境,是世界上最大的粒子物理学实验室,同时也是万维网的发祥地。最近以探测到“上帝粒子”—希格斯玻色子(Higgs boson)而为大众所熟知),那时候大多数人还在谈论着希格斯玻色子的发现,即使已经确认希格斯玻色子的发现满足5个标准差阈值。(即P值为0.0000003)

     

    然而,那时候我对p值、假设检验甚至统计显著性都一无所知。接下来的事你猜对了。我用谷歌搜索了p-value这个词,看了维基百科后我却更困惑了…

     

    在统计学的假设检验中,对一个给定的统计模型来说,p值或概率值是一个特定的概率,即当原假设为真时,统计结果(例如两个对照组中样本均值差的绝对值)不小于实际观测值的概率。

                                                                        ——维基百科

     

    所以P值的真正含义是什么呢?到了现在,尤其是当我进入数据科学领域之后,我才慢慢理解了p值的含义,以及它是如何在某些实验成为决策制定工具的一部分的。

     

    因此,我决定讲清楚p值是什么,以及如何将它们用于假设检验,以期有助于你更加直观透彻地理解p值,显然我们不能跳过对其他相关概念和p值定义的基本理解,但我保证会以一种直观的方式进行解释,而不是直接向你扔去一堆技术术语。

     

    为你提供从构建假设检验到理解P值,我将从以下四个方面解释我们的决策过程的全流程,我“墙裂”建议你仔细地阅读所有内容,从而对P值有一个详细的理解:

    1. 假设检验

    2. 正态分布

    3. 什么是p值?

    4. 统计显著性

     

     

    假设检验

           

    假设检验

         

    在讨论P值的含义之前,让我们先理解下假设检验吧。P值是用于确定我们结果的统计显著性的,而我们的最终目标就是要确定我们结果的统计显著性。

     

    统计显著性是建立在下面这三个简单的概念上的:

    • 假设检验

    • 正态分布

    • P值

     

    假设检验是用来检验利用样本数据所得到的原假设(null hypothesis,也称零假设,虚无假设)是否符合总体特征。备择假设(alternative hypothesis,也称对立假设)则是当原假设被认为是错误的时候你需要接受的假设。

     

    换句话说,我们首先要建立原假设,然后用样本数据检验原假设是否成立。如果不成立,那我们就接受备择假设。就这么简单。

     

    为了判断原假设是否成立,我们需要用P值来衡量它的统计显著性。如果数据更倾向于支持备择假设,那我们就拒绝原假设,接受备择假设。这将在后面的部分中进一步解释。

     

    让我们用一个例子来加深对概念的理解,这个例子在之后介绍其它概念时也会用到。

     

    示例:假设一家披萨店声称他们的配送时间不多于30分钟,但你觉得他在说谎。于是你随机抽取了一些配送时间,然后用假设检验的方法来验证你的观点:

    • 原假设—平均配送时间不多于30分钟

    • 备择假设—平均配送时间大于30分钟

     

    我们需要确定的是样本数据更倾向于支持哪一个假设。因为我们只关心平均配送时间是否大于30分钟,所以我们这里使用单侧检验。因为我们只想知道配送时间大于30分钟的可能性,所以忽略配送时间不大于30分钟这一方面的可能性。换句话说,我们只想知道披萨店是否撒谎了。

     

    假设检验的常用方法之一是Z检验。这里我们只想知道结果的含义,所以对于该方法的底层理论就不做详细介绍了。

     

     

    正态分布

     

    均值为μ、标准差为σ的正态分布

     

    正态分布是一个用来描述数据分布特征的概率密度函数,正态分布有两个参数-平均值μ和标准差σ,平均值描述的是数据分布的集中趋势,它决定了正态分布的峰值位置。标准差描述的是数据分布的离中趋势,它决定了这些值与平均值的距离。

     

    正态分布通常与68-95-99.7法则(即3σ法则)联系在一起。(如上图所示)

    • 68%的数据在平均值的1个标准差内

    • 95%的数据在平均值的2个标准差内

    • 99.7%的数据在平均值的3个标准差内

     

    还记得我在开头谈到希格斯玻色子的发现时,提到的5个标准差的阈值吗("five sigma”threshold)?

     

    5σ是指99.9999426696856%的数据都能够证实确实发现了希格斯玻色子。这是一个严格设置的阈值,以避免任何潜在的错误信号。

     

    哇,好酷啊!现在你可能想知道,“那如何将正态分布应用到以前所说的假设检验中去呢?”

     

    因为我们用Z检验来做假设检验,那我们就要先计算Z得分(Z-scores)。Z得分是指一个数据点离平均值有多少个标准差的距离。在这个例子中,每个数据点就是我们收集的披萨配送时间。

           

    计算每个数据点的Z得分的公式

         

     

     

    注意,当我们计算好了每个披萨配送时间的Z得分、并且绘制了如下的标准正态分布曲线图后,x轴上的单位就由分钟变成了标准差,这是因为我们通过将数据减去平均值后再除以标准差,从而对数据做了标准化处理(见上方公式)。

     

    观察标准正态分布曲线图很有用,因为我们可以将测试结果和经过标准化处理的“正常”总体进行比较。尤其是变量的量纲不同时,标准化处理就十分有必要了。

     

    Z得分的标准正态分布

     

     

    Z得分可以告诉我们整体数据相对于平均值的位置。

     

    我很喜欢Will Koehrsen的说法——Z得分越高或是越低,结果就越不可能是偶然发生的,结果也就越有意义,但是,Z得分究竟为多少时,才能确保我们的结果是有意义并且可以量化的呢?

     

    敲黑板,划重点,这时候就需要用到我们之前谈到的P值了。通过和预先设置的显著性水平(也称为)进行比较,我们就可以判定结果是否具有统计显著性。

     

    什么是P值?

     

    Cassie Kozyrkov对p值的精彩解释

     

    终于说到了P值!之前的那些内容只是一个铺垫,现在有请我们的主角—P值登场!但是,为了理解这个神秘的p值,以及它是如何应用到假设检验中去的,你们还是不能把先前说到的那些一股脑儿地还给我。

     

    如果你还记得上面的内容,那么恭喜你,接下来你读到的会是这篇文章中最精彩的部分。这里,我们不用维基百科所给出的关于P值的定义,而是用我们之前提到过的披萨配送时间!

     

    回想一下,我们曾为了检验平均配送时间是否大于30分钟,而随机抽取了一些披萨配送时间。如果最终结果支持披萨店的说法(即平均配送时间不多于30分钟),我们就接受原假设;否则,就拒绝它。

     

    在这里p值就派上用场了:我手头这些数据足以说明披萨配送时间不多于三十分钟,即原假设是正确的吗?而p值正是用概率回答了这一问题。p值越小,证据看起来就越无力。相应地,原假设看起来就越荒谬。当我们认为原假设过于荒谬时应该怎么办呢?当然是拒绝它,转投备择假设的怀抱啦!如果p值小于一个预先设置的显著性水平(一般也称为α值,我叫它荒谬阈值——不要问我为什么,我只是觉得这样更容易理解),就拒绝原假设。

     

    现在我们终于理解p值的意义了。让我们趁热打铁,应用到我们的例子中去吧。

     

    披萨配送时间中的p值:既然我们已经收集了一些样本时间,就可以计算一番了。我们发现,平均配送时间延长了10分钟,相应的p值为0.03。这意味着,由于随机噪声的干扰,我们有3%的可能性观测到平均配送时间至少延长了十分钟。p值越低,结果就越有意义,它由噪声引起偏差的可能性就越小。

     

    在我们的例子中,大多数人对p值都有一个常见的误解:p值为0.03意味着结果中的3%情况是偶然出现的。这个想法是错误的。人们往往想得到一个明确答案(包括我),也正是因为这点,怎样解释p值困惑了我很长时间。

     

    p值说明不了任何事。它仅仅是以预期比较为基础的一种方法,帮助我们做出一个相对合理的决策。

                                                                                                                                            —— Cassie Kozyrkov

     

    下面是如何用0.03的p值来帮助我们做出合理决策的方法:

     

    想像一下,我们现在生活在一个披萨平均配送时间不多于30分钟的世界,在分析了样本数据之后,p值为0.03,低于显著性水平0.05(假定我们预设了该显著性水平),那么我们就可以说这个结果具有统计显著性。我们坚信披萨店是不会欺骗我们的。可是,当具有统计显著性的结果告诉我们事实并不是这样时,我们就需要考虑下我们最初的信念是否还有意义。那我们又该怎么做呢?首先,我们要想尽一切办法来维护原假设。但是随着披萨店得到的差评越来越多,并且还经常为不及时的配送寻找糟糕的借口,以致于我们这些友军也觉得继续为披萨店进行辩护是十分荒谬的,因此,我们决定拒绝原假设!最后,我们做出了一项合理决策,就是再也不在这家店买披萨了。你应该早已意识到了...根据我们的例子来看,p值不能用于证明任何东西。

     

    我认为,p值就是当结果具有统计显著性时,一个用来挑战我们初始信念(原假设)的工具。当我们觉得初始信念十分荒谬那一刻(假设p值显示结果是统计显著性的),我们就决定抛弃它(拒绝原假设),并做出一个合理的决定了。

     

    统计显著性

     

    最后,我们将此前提到的所有内容放在一起,并检测结果是否具有统计显著性,只有p值是不够的,我们还需要设置一个阈值(又叫做显著性水平—α)。每次实验之前都应该预先设置好α以防偏差。如果观察到的p值小于α值,那么我们就认为结果具有统计显著性。通常我们将α值设定为0.05或0.01(这个值的设定取决于你所要研究的问题)。

     

    如前所述,假设实验前我们就把α值设定为0.05,因为p值为0.03,低于α值,所以我们认为所得到的结果具有统计显著性。

     

    为了方便参考,下面列出整个实验的基本步骤:

    1. 陈述原假设

    2. 陈述备择假设

    3. 确定要使用的α值

    4. 找到与你的α水平相关联的Z得分

    5. 使用该公式查找测试统计信息

    6. 如果检验统计量的值小于α水平的Z得分(或者p值小于α值),就拒绝原假设。否则,接受原假设。

     

             

    步骤5中用来计算测试数据的公式

         

    对于P值的思考

     

    不可否认的是,p值本来就让很多人困惑不已。作为一名数据科学家,Admond Lee也是花了很长时间才真正理解了p值的含义以及如何将它应用到决策过程中去。但是不要过度依赖p值,因为它只能帮助到我们整个决策中的一小部分而已。

     

    相关链接:

    https://towardsdatascience.com/p-values-explained-by-data-scientist-f40a746cfc8

     

    展开全文
  • 为了比较药物A和药物B...假设结果是上图这样,药物A治愈了更多人,但是没有一项研究是完美,总是有一些随机事件~~这就是p值得由来,p越接近0,越认为药物A和药物B有差异,多大p阈值能帮助我们做出正确判定了 ...
  • 统计学意义P值

    万次阅读 2004-07-01 14:26:00
    sig值就是统计意义p值 结果统计学意义是结果真实程度(能够代表总体)一种估计方法。专业上,p值为结果可信程度一个递减指标,p值越大,我们越不能认为样本中变量关联是总体中各变量关联可靠指标。p值是将...
  • P值 卡方值

    万次阅读 2019-10-17 13:01:48
    P值P值即概率,反映某一事件发生的可能性大小。 不同的P数值所表达的含义也是...P的意义不表示两组差别的大小,P反映两组差别有无统计学意义,并不表示差别大小 表示对原假设的支持程度,是用于确定是否应该拒...
  • 在编程时候,不少语言或者编程包只有现成双侧T检验函数,我想知道怎么根据双侧T检验的p值来得到单侧T检验的p值。 或者更广一点来说,单侧T检验p值与双侧T检验的p值是什么关系? 双侧T检验 零假设H0:μ=0H0:μ=...
  • Understanding Hypothesis Tests: Significance Levels (Alpha) and P values in Statistics
  •  通过把所得到统计检定,与统计学家建立了一些随机变量概率分布(probability distribution)进行比较,我们可以知道在多少%机会下会得到目前结果。倘若经比较后发现,出现这结果机率很少,
  • 建立流失玩家预测模型之初,对于P值和F值不是非常理解,后来随着模型的建立,清楚了P值和F值的意义,结合实际业务,对这两个值进行权衡。 P值,英文为precision,准确率。 R值,英文为recall,召回率。 实例:...
  • 为了澄清对统计学检验和P值的误解和误用,本文通过回顾P值相关理论,总结了P值的优势和劣势,强调了P值在使用中应注意的问题,旨在使非统计专业人员避免对P值的误解和误用。 关键词:P值;假设检验;置信区间
  • 下面就从这里展开,来解释一下特征向量和特征值的几何意义。 首先允许我介绍一下特征值方程(Ap=λp为了后面表述的更好理解一些,暂且使用p吧)中的各项: A是一个矩阵,也可以说是一个变换阵; p是一个向量...
  • none:隐藏对应元素,不为隐藏对象保留其物理空间 block:指定对象为块元素 inline:指定对象为内联元素 inline-block:指定对象为内联块元素 ...转载于:https://www.cnblogs.com/gxx129/p/10859437.html...
  • 添加链接描述 转载于:https://www.cnblogs.com/luoganttcc/p/10525209.html
  • 统计学--从对P值的理解谈起

    千次阅读 2017-11-09 23:33:27
    1.知乎来自的大神姚岑卓对P值的解释,P值代表,在假设原假设(HO)正确时,出现现状或更差的情况的概率.这句话意义深刻,值得品味。 2.另一个就是来自果壳的文章统计学里“P”的故事:蚊子、皇帝的新衣和不育的...
  • 通过把所得到统计检定,与统计学家建立了一些随机变量概率分布(probabilitydistribution)进行比较,我们可以知道在多少%机会下会得到目前结果。倘若经比较后发现,出现这结果机率很少,亦即是说,是在...
  • ui=∑Ff=1PufQfi+μ+bu+bir^ui=∑f=1FPufQfi+μ+bu+bi\hat{r}_{ui}=\sum_{f=1}^{F}{P_{uf}Q_{fi}}+\mu+b_u+b_i 更像是矩阵分解多一点,没有涉及到SVD数学意义,这篇博客大概会写一些数学SVD数学理解,以及SVD在...
  • FDR(矫正后的P值)问题

    千次阅读 热门讨论 2020-03-19 22:11:03
    但是我的结果中FDR普遍为0.99且一样,而P值则小于0.05,这就让我比较迷茫? 为什么会出现这种情况?是我在处理的哪个环节出错了吗? 在这种情况下,是否应该根据FDR来判断,FDR处理的意义是什么? 于是以下,就这...
  • 美国统计协会发布有关统计学意义P值的声明–提供提高定量科学的行为和解释的准则美国统计协会(ASA)发布了”统计意义P值的声明”,其中包含正确使用,解释p值的6个原则.ASA发布这个P值的指南,以提高定量科学的行为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,352
精华内容 540
关键字:

p值的意义