精华内容
下载资源
问答
  • 对两列数据的相关性以及显著性水平的问题一直有困扰,由于对excel的钟情,总是倾向于把数据分析放在excel中进行。本文简单分析excel和SPSS对相关分析和显著性水平的检验应用。(1)方法介绍Excel中相关性系数可以...

    对两列数据的相关性以及显著性水平的问题一直有困扰,由于对excel的钟情,总是倾向于把数据分析放在excel中进行。本文简单分析excel和SPSS对相关分析和显著性水平的检验应用。

    (1)方法介绍

    Excel中相关性系数可以直接调用CORREL或者Pearson(查看帮助发现两者计算公式一样,如下图

    sg_trans.gif

    SPSS中相关性分析在直接使用“分析—相关—双变量”,然后设置相关系数计算方法以及置信区间。如下图:

    sg_trans.gif

    相关性的显著水平分析,多数是根据设置的临界值来判断的,就是所谓的置信区间,常见的有99%,95%和90%,意思就是说在这个概率下显著性的水平。比如,你说两列数据相关吧,相关系数确实不大;你说他们不相关吧,理由也不充分,所以就有了显著性水平分析的必要。相关系数的显著性分析可以通过构建T统计量实现:

    sg_trans.gif

    其中r是相关系数,n是样本量。如果,T值大于临界值|ta|,表明在设定的置信水平上存在正相关;T值小于-|ta|,表明在设定的置信水平上存在负相关;如果-|ta|

    (2)实例分析

    Excel:现有两列数据X和Y,首先,用correl函数做出两组数据的相关系数(correl=0.626748);然后构建T统计量;最后计算99%,95%和90%的置信区间水平下的T临界值(用函数T.INV)。步骤如下:

    sg_trans.gif

    通过比较T统计值和临界值很容易发现,T统计量(5.89)不在T临界值内(-2.44

    SPSS:相对更简单,直接通过设置置信区间即可,如下看到在99%下显著相关,因为P=0.000,远小于0.01的水平。

    sg_trans.gif

    展开全文
  • 显著性水平 p值 z值

    万次阅读 多人点赞 2019-06-14 11:38:03
    1 显著性水平 显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。 α表示原假设为真时,拒绝原假设的概率。 1-α 为置信度或置信水平,其表明了区间估计的可靠性 。 2 P值 P值代表,在...

    1 显著性水平

    显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。

    α表示原假设为真时,拒绝原假设的概率。

    1-α 为置信度置信水平,其表明了区间估计的可靠性 。

    2 P值

    P值代表,在假设原假设(HO)正确时,出现现状或更差的情况的概率.

    设置一个想要推翻的结论的对立面的null hypothesis,而P值就是假设null hypothesis成立的情况下,计算实际观察结果与零相吻合,以及更坏情况出现的概率。而这个概率就是P值.

    α <0.05,说明犯一类错误(拒绝真实的原假设)是个小概率事件,故拒绝HO. 
    这与显然显著性检验中,P<0.05,原假设是个小概率事件,故拒绝HO,有着本质的区别。 

    在假设检验中常见到P值即概率,反映某一事件发生的可能性大小。

    统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为有统计学差异, P<0.01 为有显著统计学差异,P<0.001为有极其显著的统计学差异。其含义是样本间的差异由抽样误差所致的概率小于0.05 、0.01、0.001。

    数据解释

    P值

    碰巧的概率

    对无效假设

    统计意义

    P>0.05

    碰巧出现的可能性大于5%

    不能否定无效假设

    两组差别无显著意义

    P<0.05

    碰巧出现的可能性小于5%

    可以否定无效假设

    两组差别有显著意义

    P <0.01

    碰巧出现的可能性小于1%

    可以否定无效假设

    两者差别有非常显著意义

     

    3 P值和显著性水平区别

    显著性水平:显著性水平是假设检验中的一个概念,是指当原假设为正确时人们却把它拒绝了的概率或风险。它是公认的小概率事件的概率值,必须在每一次统计检验之前确定,通常取α=0.05或α=0.01。这表明,当作出接受原假设的决定时,其正确的可能性(概率)为95%或99%。

    P值:p值是指在一个概率模型中,统计摘要(如两组样本均值差)与实际观测数据相同,或甚至更大这一事件发生的概率。换言之,是检验假设零假设成立或表现更严重的可能性。p值若与选定显著性水平(0.05或0.01)相比更小,则零假设会被否定而不可接受。

    4 z值

    z统计是用来衡量样本均值偏离整体均值的方差倍数,就是偏离方差的程度。

    根据中心极限定理,总体样本N,每次抽样数n,每次抽样的均值的分布趋近正态分布。也就是随机误差符合正态分布。其分布的数学期望为总体均值μ,方差为总体方差的1/n。

     

    Z值与P值关系 \left| Z \right| P值 差异程度

    \ge2.58\le0.01非常显著
    \ge1.96\le0.05显著
    <1.96>0.05不显著

      如果检验一个样本平均数(\bar{X})与一个已知的总体平均数(μ0)的差异是否显著。其Z值计算公式为:

      Z=\frac{\bar{X}-\mu_0}{\frac{S}{\sqrt{n}}}

      其中:

     https://rrsongzi-gmail-com.iteye.com/blog/1860571

     

    • \bar{X}是检验样本的平均数;
    • μ0是已知总体的平均数;
    • S是样本的标准差
    • n是样本容量。    
    •  
    展开全文
  • 转载-显著性水平入门

    2018-09-27 17:26:27
    无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间...后来醉心于统计理论半载有余才摸到显著性检验的皮毛,也为显著性检验理论之精妙,品种之繁多,逻辑之严谨所折服。在此,特...

    转载-https://www.cnblogs.com/hdu-zsk/p/6293721.html

    无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头。后来醉心于统计理论半载有余才摸到显著性检验的皮毛,也为显著性检验理论之精妙,品种之繁多,逻辑之严谨所折服。在此,特写下这篇博文,以供那些仍然挣扎在显著性检验泥潭的非统计专业的科研界同僚们参考。由于笔者本人也并非统计专业毕业,所持观点粗陋浅鄙,贻笑大方之处还望诸位业界前辈,领域翘楚不吝赐教。小可在此谢过诸位看官了。

         本篇博文致力于解决一下几点问题,在此罗列出来:1.什么是显著性检验? 2.为什么要做显著性检验? 3.怎么做显著性检验?下面就请跟随笔者的步伐一步步走入显著性检验的“前世与今生”。


     

    一:显著性检验前传:什么是显著性检验?它与统计假设检验有什么关系?为什么要做显著性检验?

         “显著性检验”实际上是英文significance test的汉语译名。在统计学中,显著性检验是“统计假设检验”(Statistical hypothesis testing)的一种,显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。实际上,了解显著性检验的“宗门背景”(统计假设检验)更有助于一个科研新手理解显著性检验。“统计假设检验”这一正名实际上指出了“显著性检验”的前提条件是“统计假设”,换言之“无假设,不检验”。任何人在使用显著性检验之前必须在心里明白自己的科研假设是什么,否则显著性检验就是“水中月,镜中花”,可望而不可即。用更通俗的话来说就是要先对科研数据做一个假设,然后用检验来检查假设对不对。一般而言,把要检验的假设称之为原假设,记为H0;把与H0相对应(相反)的假设称之为备择假设,记为H1。

         如果原假设为真,而检验的结论却劝你放弃原假设。此时,我们把这种错误称之为第一类错误。通常把第一类错误出现的概率记为α

         如果原假设不真,而检验的结论却劝你不放弃原假设。此时,我们把这种错误称之为第二类错误。通常把第二类错误出现的概率记为β

         通常只限定犯第一类错误的最大概率α, 不考虑犯第二类错误的概率β。我们把这样的假设检验称为显著性检验,概率α称为显著性水平。显著性水平是数学界约定俗成的,一般有α =0.05,0.025.0.01这三种情况。代表着显著性检验的结论错误率必须低于5%或2.5%或1%(统计学中,通常把在现实世界中发生几率小于5%的事件称之为“不可能事件”)。(以上这一段话实际上讲授了显著性检验与统计假设检验的关系)

         为了方便接下来的讲授,这里举一个例子。赵先生开了一家日用百货公司,该公司分别在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额,集合中的每一个数代表着一年中某一个月的公司销售额。

         郑州分公司Z = {23,25,26,27,23,24,22,23,25,29,30}

         杭州分公司H = {24,25,23,26,27,25,25,28,30,31,29}

    现在,赵先生想要知道两个公司的销售额是否有存在明显的差异(是否存在郑州分公司销售额>杭州分公司销售额,抑或反之),以便对接下来公司的战略业务调整做出规划。下属们知道赵老板的难处,纷纷建议“只需要求平均值就知道哪个分公司的销售额更大了”。但是作为拥有高学历的赵先生懂得这样一件哲学即“我们生活在概率的世界之中”。那也就意味着,平均值并不能够说明什么问题,即便杭州分公司的销售额平均值大于郑州分公司的销售额平均值仍然不能说明杭州分公司的销售额一定就大于郑州分公司的销售额,因为“这样一种看似存在的大于关系实质上是偶然造成的而并不是一种必然”。

         赵先生最终决定,使用方差验检查这两个数据。(请先忽略为什么用方差检验,检验方法的选择下文中会详述)

         最后赵先生发现,方差检验的p 值= 0.2027,那也就意味着,虽然杭州分公司的年平均销售额26.63大于郑州分公司的销售额25.18,但是实质上,两个分公司的销售额并没有明显的差异。(相信此时的你心中有万千草泥马奔过:方差检验是怎么做的?p值是什么鬼?为什么p=0.2027意味着销售额没有明显差异?信息量好大肿么办?)

     

    不要急,不要慌,让我们从头来过,整理一下赵先生这里究竟发生了什么。这里很有必要了解一下根植于赵先生思维里的“慢动作”。

    第一点:如上文所述的一样,“无假设,不检验”,赵先生做了什么样的假设(Hypothesis)?

    由于赵先生想要知道两个公司的销售额是否有存在明显的差异 ,所以他的假设就是“样本集Z(郑州分公司)和样本集H(杭州分公司)不存在显著性差异,换言之这两个集合没有任何区别(销售额间没有区别)!”这就是赵先生的假设。那么问题来了,为什么赵先生要假设这两个样本集之间不存在任何区别,而不是假设这两个样本集存在区别。因为这个假设(Hypothesis)正是方差检验的原假设(null hypothesis)。那么问题又来了,什么是原假设。所谓原假设是数学界为了方便讨论而默认的“原始的假设”。没有什么为甚么可言,约定俗成罢了。

    第二点:p值怎么回事?

    这里并不用管p值是怎样得到的,直接给出结论。在显著性水平α =0.05的情况下,p>0.05接受原假设,p值<0.05拒绝原假设。我们的原假设是样本集Z和样本集H间不存在显著性差异,但是由于p=0.2027>0.05,所以接受原假设,即样本集Z和样本集H间不存在显著性差异。当然有接受就有拒接,如果这里的p值小于0.05,那么就要拒绝原假设,即集合Z和集合H间存在显著性差异。

    第三点:怎么做方差检验以及为何做方差检验之后再细讲,这里暂且不表。

    在这一章节的最后,给出本章的两个问题的答案,相信你现在已经可以理解:

    1什么是统计假设检验?

    所谓统计假设检验就是事先对总体(随机变量)的参数总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合理。而把只限定第一类错误概率的统计假设检验就称之为显著性检验。在上例中,我们的假设就是一种显著性检验。因为方差检验不适用于估计参数和估计总体分布,而是用于检验试验的两个组间是否有差异。而方差检验正是用于检测我们所关心的是这两个集合(两个分布)的均值是否存在差异。

    2.为什么要做显著性检验?

    因为我们想要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。 在我们的例子中,差异就是H的均值要高于Z的均值,但是最终的结论p>0.05证明,这个差异纯属机会变异(H均值>Z均值是偶然的,当H和Z的采样点数趋于无穷多时,H的均值会趋近等于Z的均值)而不是假设与真实情况不一致。如果p值<0.05,那么也就意味着我们的假设(H集合和Z集合没差别)与真实情况不一致,这就使得假设不成立,即H集合和Z集合有差别。

     


     

    二:怎么做显著性检验?(基于MATLAB)

    显著性检验可以分为参数检验和非参数检验。参数检验要求样本来源于正态总体(服从正态分布),且这些正态总体拥有相同的方差,在这样的基本假定(正态性假定和方差齐性假定)下检验各总体均值是否相等,属于参数检验。

    当数据不满足正态性和方差齐性假定时,参数检验可能会给出错误的答案,此时应采用基于秩的非参数检验。

    参数检验的方法及其相应知识点的解释(这里只给出参数检验中常见的方差分析):

    方差分析主要分为'①单因素一元方差分析'; '②双因素一元方差分析 '; '③多因素一元方差分析 '; '④单因素多元方差分析 '。下面一节对各种方差分析的实现方法进行介绍。但在介绍之前,我要首先“剧透”一下两个重要的点,理解这些点有助于区别不同类型的方差分析。

    什么叫做因素,什么叫做元?

    先解释一下什么叫做"元"。我假定正在看这篇博文的人一定具有小学以上文化水平,那么想必你一定对“一元二次方程”“二元一次方程”“多元一次方程”这种概念不陌生。所谓的“元”,正是指未知变量的个数。在统计假设检验中,仍然把待检验的未知变量称之为“元”而把影响未知变量的行为(事件)称之为“因素”。有过机器学习基础的同学可以把“元”和“因素”分别理解成机器学习中的“特征个数”和“标签个数”。拥有多个特征便是“多元”,而拥有多个标签便是“多因素”。

     

    ①单因素一元方差分析的方法和案例:

    相关MATLAB函数:

    函数一:anova1( X, Group, displayopt)

    参数解释:在第一种用法中,X是一个n行1列的数组,Group也是一个n行1列的数组。X为待检验的样本集,这个样本集中包括若干个对照组和实验组的全部数据。那么机器怎么知道哪个数据属于哪个组呢?很简单,通过Group这个列向量一一对应指明即可。一下这个例子来自于MATLAB的help文档,在这里用于实例说明:

    假定现在有三组数据

    组一(st):82 86 79 83 84 85 86 87

    组二(al1):74 82 78 75 76 77

    组三(al2):79 79 77 78 82 79

    现在需要对这三组数据做方差检验,使用anova1函数的方法如下

    1.首先将所有的数据放在同一个数组strength中:

    >> strength = [82 86 79 83 84 85 86 87 74 82 78 75 76 77 79 79 77 78 82 79];

    2.设置对应与strength对应位置的标签为alloy:

    >> alloy = {'st','st','st','st','st','st','st','st','al1','al1','al1','al1','al1','al1','al2','al2','al2','al2','al2','al2'};

    3.调用anova1函数

    >> p = anova1(strength,alloy)

     

    最终得到的结果会是一个数值和两幅图,一个值是p值。p值得看法在上文已经介绍过,这里不再细细的介绍。在本例中,p的值如下

    p =  1.5264e-004

    显然,从p值看,三组值之间存在显著性差异。有一点必须提一下:这里p存在显著性差异并不意味着三组之间两两都存在显著性差异,而只是说明显著性差异在这三组之间存在。

    第一幅图是一张表,这张表被称之为ANOVA表。相信许多非统计专业的同学见到ANOVA表的一瞬间是崩溃的,一堆问题奔涌而出:

    Source是什么鬼?SS是什么鬼,df是什么鬼,MS是什么鬼,F是什么鬼,Prob>F是什么鬼,etc.

    这里为了解决“什么鬼”的问题,对这张表给出详细的解释:

    Source表示方差来源(谁的方差),这里的方差来源包括Groups(组间),Error(组内),Total(总计);

    SS(Sum of squares)表示平方和

    df(Degree of freedom)表示自由度

    MS(Mean squares)表示均方差

    F表示F值(F统计量),F值等于组间均方和组内均方的比值,它反映的是随机误差作用的大小。

    Prob>F表示p值

    这里需要引出两个小问题:第一个小问题是F值怎么使用,第二个小问题是p值和F值的关系是什么?

    率先普及一下p值和F值之间的关系:

    F实际值>F查表值,则p<=0.05

    F实际值<F查表值,则p>0.05

    不难看出F值在本例中等于15.4,它正是组间方差92.4和组内方差6的比值。查F分布表(下图),

    根据 n=19( Total 的df),m=2(Groups的df)

    可得F0.05( m, n-m-1) = F0.05( 2, 16) = 3.634。F实际值15.4>F查表值3.634,所以可以判定显著性差异存在,且p值小于0.05

    以上讲述了如何仅仅使用F值判断显著性差异的方法并讲述了F值同p值之间的关系。下面这张表格是箱型图,它的看法如下图所表注:

    这里有必要提一下anova1函数中的参数displayopt 的作用。在大规模的anova1调用中(例如把anova1放在for循环中反复调用),需要把displayopt设置为'off',否则anova1每调用一次就会绘制两幅图,这样会迅速的耗费计算机的内存,容易造成程序崩溃。

    除了上文中介绍的第一种调用anova1的方式,还有一种方式用于均衡的方差分析。所谓均衡就是要求不同的组别内的统计数据个数必须相同。在上例中出现的各个组的统计个数分别为{8,6,6}就属于非均衡。在均衡状态下,每个组的数据单独构成X中的一列,这样便可以省略参数Group,调用方式就可以简化为anova1(X)

     

    在上文中,我们提到过。方差分析必须满足两条假设,分别是正态性假定和方差齐性假定。因此,在一个完整的统计工程中,必须首先检测数据的正态性假定和方差齐性假定,这就涉及到另外两个函数lillietest正态检验函数(这正是我们上文提到的分布假设检验而不是参数检验,它检验的目标是数据集服从何种分布)和vartestn方差齐性检验(这正是我们上文提到的参数检验而不是分布假设检验 ,它检测的目标是数据集的分布服从什么样的参数,这里就是方差)

     

    函数二:lillietest(X)

    >> [h,p] = lillietest (strength(1:8))

    h =     0

    p =    0.5000

    解释:h = 0可以认为数据服从正态分布,h=1则认为不服从正态分布

    p >0.05可以认为接受原假设h = 0,则数据服从正态分布

    >> [h,p] = lillietest (strength(9:14))

    h =     0

    p =    0.5000

    >> [h,p] = lillietest (strength(15:20))

    h =     0

    p =    0.5000

    可以得出结论,strength中三组数都服从正态分布

     

    函数三:vartestn(X, Group)

    >> p = vartestn(strength,alloy,'off')

    p=0.5142

    注意:X和Group必须是列向量,否则会报错

    p>0.05则说明X中的不同Group是齐次的,也就是方差性齐。

     

    ②双因素一元方差分析的方法和案例:

     

    正如上文所述,既然是双因素,那便是有多个标签了。因此双因素一元方差分析可以理解成“单特征双标签机器学习技术”。由于双因素一元方差分析要求数据是均衡的,所以它的标签可以省略,就如同上文中介绍的anova1的第二种使用方法一样。这里的例子引用于MATLAB的anova2的help文档,用于说明anova2的使用方法。

    这里有一批爆米花数据,现在我们知道这些爆米花的质量打分同两个因素相关,一个是爆米花的品牌(有三个品牌:Gourmet,National,Generic)另一个是爆米花的制作工艺(油炸,气压)。这些数据如下所述:

                        brand    Gourmet        National       Generic

    methods

         油炸                        5.5000          4.5000         3.5000

         油炸                        5.5000          4.5000         4.0000

         油炸                        6.0000          4.0000         3.0000

         气压                        6.5000          5.0000         4.0000

         气压                        7.0000          5.5000         5.0000

         气压                        7.0000          5.0000         4.5000

     

    现在需要了解的目标有三个,第一:列和列之间是否有显著性差异(品牌间的显著性差异),原假设是显著性差异不存在;第二:行与行之间是否存在显著性差异,原假设是显著性差异不存在 ;第三:品牌和方法之间的交互作用是否明显,原假设是交互作用不明显

    为了完成以上三个问题,所以特别引入anova2函数,anova2函数的参数如下:

    p = anova2( X, reps, displayopt)

    X即为待检验数组。其中,X的每列一代表一种因素,X的每若干行代表另一种因素,这里的若干使用reps指明。displayopt同anova1一样,这里不再详述。anova2的返回是一值一幅图。下面是具体的MATLAB方法:

    >> popcorn =[

      5.5000  4.5000  3.5000

      5.5000  4.5000  4.0000

      6.0000  4.0000  3.0000

      6.5000  5.0000  4.0000

      7.0000  5.5000  5.0000

      7.0000  5.0000  4.5000];

     

    >> [p,table,stats] = anova2(popcorn,3)

     

    p =

        0.0000    0.0001    0.7462

    解释:p(1) = 0.0000, 推翻原假设,所以列与列之间的显著性差异存在(品牌间存在显著性差异);p(2) = 0.0001,推翻原假设,所以行与行之间的显著性差异存在(方法间的显著性差异存在);p(3) = 0.7462,保留原假设,则品牌和方法间的交互作用不明显。

    图表中的Columns代表列,Rows代表行,Interaction代表交互作用,其他的与我们在anova2中讲述的完全相同,这里也不再详细分析。

    ③多因素一元方差分析的方法和案例:

    p = anovan(X, Group, Opt);

    其中,X代表着待检验数据;Group代表着X的因素,由于是多因素,所以Group是多个列组成的。Opt可以选择为'model',model后面可以填写'full'和'interaction'。

    比如因素有三个x,y,z,那么如果model为interaction,计算结果会包括x的显著性,y的显著性,z的显著性,xy,xz,yz的交互影响显著性

    如果model为full,计算结果会包括x的显著性,y的显著性,z的显著性,xy,xz,yz的交互影响显著性以及xyz的交互显著性。

    这里的例子仍然来自于MATLAB的help文档,y是待检验的数据,g1,g2,g3是与y中数据一一对应的3个因素(数据标签)

    y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';

    g1 = [1 2 1 2 1 2 1 2];

    g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'};

    g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

     

    >> p = anovan(y,{g1 g2 g3},'model','interaction')

     

    p =

        0.0347

        0.0048

        0.2578

        0.0158

        0.1444

        0.5000

    这里有一个使用的小窍门,如果你想做非平衡双因素一元方差分析那么也可以采用多因素一元方差分析函数。

    ④单因素多元方差分析的方法和案例:

    [d, p] = manova1(X, Group);

    p,X和Group与之前相同。该方差分析的原假设是“各组的组均值是相同的多元向量”这里对d做出解释:

    d=0,接受原假设

    d=1,拒绝原假设,认为各组的组均值不完全相同,但是不能拒绝它们共线的假设。

    d=2,拒绝原假设,各组的组均值向量可能共面,但是不共线。

    四种商品(x1,x2,x3,x4)按照不同的两种销售方式进行销售,数据如下:

    编号   x1     x2     x3     x4     销售方式

    1      125    60     338     210     1

    2     119     80     233     330     1

    3       63     51     260     203     1

    4       65     51     429     150     1

    5     130     65     403     205     1

    6       65     33     480     260     1

    7     100     34     468     295     2

    8       65     63     416     265     2

    9     110     69     377     260     2

    10     88     78     299     360     2

    11     73     63     390     320     2

    12   103     54     416     310     2

    13     64     51     507     320     2

     

    >> X =

       125    60   338   210

       119    80   233   330

        63    51   260   203

        65    51   429   150

       130    65   403   205

        65    33   480   260

       100    34   468   295

        65    63   416   265

       110    69   377   260

        88    78   299   360

        73    63   390   320

       103    54   416   310

        64    51   507   320

     

    >> Groups =

         1

         1

         1

         1

         1

         1

         2

         2

         2

         2

         2

         2

         2

    >> [d, p] = manova1(X, Groups);

    d =     0

    p =    0.0695

     

    因此,拒绝原假设,各组的组均值不是相同的多元向量。

    非参数检验:

    到这类,参数检验部分就算是说完了。我们可以回顾一下,参数检验的四种函数分为anova1,anova2,anovan,manova1。他们都基于共同的两个假设:正态性假定和方差齐性假定 ,分别对应着函数lillietest 和vartestn。但是,我们在实际工作中,不可能总是遇到满足这两个假定的统计数据,这时候,如果强行采用参数检验就会造成错误。此时,可以采用基于秩和的非参数检验。这里我们介绍两种非参数检验:Kruskal-Wallis检验,Friedman检验。通过参数检验的部分介绍,想必读者已经对显著性检验入门,有些细节这里不再详细介绍,留作有兴趣读者自行查询。这里对分参数检验只做必要介绍。

    ①Kruskal-Wallis检验

    Kruskal-Wallis检验又被称之为单因素非参数方差分析,是非参数版的anova1。该检验的原假设是:k个独立样本来自于相同的正态总体。其MATLAB函数如下:

    p = kruskalwallis(X,Group)

    X,Group,p和参数检验里的完全相同。不再详细介绍。

     

    ②Friedman检验

    Friedman检验又被称之为双因素秩方差分析,是非参数版的anova2。同anova2一样,待检验的数据也必须是均衡的。但是需要特别注意的是,Friedman检验和anova2检验不完全相同,anova2同时注意两个因素对待检验数据的影响,但是,Friedman检验只注重2个因素中的其中一个对待检验数据的影响,而另一个因素则是用来区分区组用的。

    如上图所示矩阵X,Friedman检验只关注X的各个列(因素A)水平之间有无显著差异,他对各行之间(因素B,也被称之为区组因素)完全不感兴趣。因此,Friedman检验的原假设是k个独立样本(X的各列)来自于相同的正态总体。至于为何Friedman检验对因素B不感兴趣,这里通过一个例子说明。该例子来源于《MATLAB统计分析与应用40个案例分析》

    有4名美食评委1234对来自于四个地区ABCD的名厨的名菜水煮鱼做出评价打分,数据如下:

                   地区       A       B       C      D

    美食评委 

         1                    85     82     82     79

         2                    87     75     86     82

         3                    90     81     80     76

         4                    80     75     81     75

    现在我们想知道,这四个地方的水煮鱼品质是否相同。

     

    数据分析:我们的目标是四个地方水煮鱼的品质是否相同。那么同一个评委对四个地区厨师的打分就具有可参考性,而不同地区评委之间对同一个厨师的打分参考性几乎没有(受评委自己的主观意识影响太强)。因此,我们认为四个地区是因素A,而评委是因素B(区组因素),不同区组之间的数据没有可比较性。

     

    >> X =

        85    82    82    79

        87    75    86    82

        90    81    80    76

        80    75    81    75

    >> p = friedman(X,1)

    p = 0.0434

    因此可以认为,四个地区制作水煮鱼的水平有显著性差别。至于是那两个之间有显著性差别还需要一一比较。

    结语:讲到这里,常见的显著性检验方法就算是讲完了。希望通过这篇博文可以使显著性检验不再成为各位看官的心头大患,不必再谈“检”色变。如果真的可以做到这样,于愿足矣。

    展开全文
  • 数据可视化——R语言为ggplot图形添加P值和显著性水平准备安装和加载R包示例数据均值比较的方法用于添加P值的R函数compare_means()stat_compare_means()独立双样本组间比较配对双样本组间比较多组样本的组间比较多个...

    本文对一篇英文博客进行翻译,博客原文链接:Add P-values and Significance Levels to ggplots

    概述:本文介绍如何轻松地为ggplot图形添加P值和显著性水平:

    • 比较两组或多组的均值
    • 自动地将P值和显著性水平添加到ggplot图形中,如箱形图,点图,条形图和折线图等

    使用工具: R语言中的ggplot2包和ggpubr包

    在这里插入图片描述

    准备

    安装和加载R包

    本文使用ggpubr包,要求版本高于0.1.3。ggpubr是一个基于ggplot2的计算工具包。

    • 直接输入以下命令从CARN中下载安装
    install.packages("ggpubr")
    
    • 也可以从GitHub中下载安装最新版本
    if(!require(devtools)) install.packages("devtools")
    devtools::install_github("kassambara/ggpubr")
    
    • 加载ggpubr
    library(ggpubr)
    

    ggpubr的官方文档可在以下位置获得:http://www.sthda.com/english/rpkgs/ggpubr

    示例数据

    示例数据集:ToothGrowth

    data("ToothGrowth")
    head(ToothGrowth)
    

    示例数据如下:

    ##    len supp dose
    ## 1  4.2   VC  0.5
    ## 2 11.5   VC  0.5
    ## 3  7.3   VC  0.5
    ## 4  5.8   VC  0.5
    ## 5  6.4   VC  0.5
    ## 6 10.0   VC  0.5
    

    均值比较的方法

    R中用于两组或多组间均值比较的标准统计方法在之前的文章也有描述:comparing means in R

    均值比较的常见方法:

    方法R实现函数描述
    T-testt.test()比较两组(参数检验)
    Wilcoxon testwilcox.test()比较两组(非参数检验)
    ANOVAaov()或anova()比较多组(参数检验)
    Kruskal-Walliskruskal.test()比较多组(非参数检验)

    以下链接提供了各种方法的详细介绍:

    用于添加P值的R函数

    介绍两个ggpubr包中的函数

    • compare_means():用于执行均值比较
    • stat_compare_means():用于在ggplot图形中自动添加P值和显著性水平

    compare_means()

    该函数用于执行均值比较。该函数与标准的R函数相比,灵活性更强。

    简化形式如下:

    compare_means(formula, data, method = "wilcox.test", paired = FALSE,
      group.by = NULL, ref.group = NULL, ...)
    
    • formula:指定一个公式,公式形式为 x ~ group,其中,x 表示一个数值型变量,group 表示一个因子型变量,包含一个或多个水平。例如,一个示例公式为 formula = TP53 ~ cancer_group,表示在 cancer_group 对应的各水平间比较TP53的表达水平;也可以同时指定多个响应变量,如 formula = c(TP53, PTEN) ~ cancer_group。
    • data:指定一个数据框(data.frame),数据框需包含formula中的变量。
    • method:指定统计检验的方法。默认为“wilcox.test”,即Wilcoxon检验(非参数检验);也可指定其他统计方法:
      • “t.test”,即T检验(参数检验)。“t.test”和“wilcox.test”用于两组样本间的比较。当超过两组时,将会执行两两比较(pairwise comparison)。
      • “anova”(参数检验)或 “kruskal.test”(非参数检验),用于执行多组间的单因素方差分析。
    • paired:指定一个逻辑变量,表示是否需要执行配对检验,仅适用于t.test 和wilcox.test。
    • group.by:指定一个分组变量的字符名,用于在统计检验之前对数据进行分组。当存在group.by指定的变量时,均值比较将在不同水平的各个子集数据中执行。
    • ref.group:指定一个组别的字符名,作为对照组(reference group)。如果指定,各个分组水平将与对照组水平进行比较。也可指定ref.group为“.all.”,表示每个分组水平将于所有分组水平(如base-mean)进行比较。

    stat_compare_means()

    该函数是对ggplot2的扩展,可将均值比较后的P值添加到ggplot图形中,如箱形图、点图、条形图和折线图等。

    简化形式如下:

    stat_compare_means(mapping = NULL, comparisons = NULL hide.ns = FALSE,
                       label = NULL,  label.x = NULL, label.y = NULL,  ...)
    
    • mapping:通过 aes() 设置绘图时的aesthetic

    • comparisons:指定一个列表(list),每个列表元素需为长度等于2的向量。向量的内容可以为X轴的两个组别名(字符型),也可以是两个感兴趣组的组别索引(整数值),表示采用指定的两个组别进行比较。

    • hide.ns:逻辑变量,如果设为TRUE,显示显著性水平时将隐藏 ns 字样,即组间差异不显著时不显示 ns 字样。

    • label:指定一个字符串,表示标签类型。可为:“p.signif”(显示显著性水平),“p.format”(显示格式化的P值)。

    • label.x, label.y:指定一个数值,表示显示标签的绝对坐标位置。

    • :传递给函数compare_means()的参数,如method、paired、ref.group。

    独立双样本组间比较

    执行统计检验

    compare_means(len ~ supp, data = ToothGrowth)
    

    示例结果如下:

    ## # A tibble: 1 x 8
    ##     .y. group1 group2      p  p.adj p.format p.signif   method
    ##                       
    ## 1   len     OJ     VC 0.0645 0.0645    0.064       ns Wilcoxon
    

    method默认为“wilcox.test”(非参数检验),可指定method = “t.test”,表示T检验(参数检验)

    返回值为具有以下列的数据框:

    • .y.:用于统计检验的数值变量

    • p:P值

    • p.adj:调整后的P值,调整P值的默认方法为p.adjust.method = “holm”

    • p.format: 格式化的P值

    • p.signif:显著性水平,即用不同数量的 * 表示显著性水平

    • method:用于组间比较的统计方法

    创建添加P值的箱形图

    p <- ggboxplot(ToothGrowth, x = "supp", y = "len",
              color = "supp", palette = "jco",
              add = "jitter")
    #  Add p-value
    p + stat_compare_means()
    # Change method
    p + stat_compare_means(method = "t.test")
    

    在这里插入图片描述
    注意:显示P值的标签位置可以通过如下参数来调整:label.x, label.y, hjust 和vjust

    显示P值的标签默认为 compare_means() 返回值中的 methodp 的组合。也可以通过 aes() 函数指定为其他显示形式。例如:

    aes(label = ..p.format..)aes(label = paste0(“p =”, ..p.format..))
    表示只显示格式化的P值,而不显示method
    
    aes(label = ..p.signif..)
    表示仅显示显著性水平
    
    aes(label = paste0(..method.., “\n”, “p =”, ..p.format..))
    表示在method名和P值之间添加换行符(“\n”)
    

    示例如下:

    p + stat_compare_means( aes(label = ..p.signif..), 
                            label.x = 1.5, label.y = 40)
    

    在这里插入图片描述
    另外,也可以将参数label指定为字符向量:

    p + stat_compare_means( label = "p.signif", label.x = 1.5, label.y = 40)
    

    配对双样本组间比较

    执行统计检验

    compare_means(len ~ supp, data = ToothGrowth, paired = TRUE)
    

    示例结果如下:

    ## # A tibble: 1 x 8
    ##     .y. group1 group2       p   p.adj p.format p.signif   method
    ##                         
    ## 1   len     OJ     VC 0.00431 0.00431   0.0043       ** Wilcoxon
    

    使用函数 ggpaired() 可视化配对数据

    ggpaired(ToothGrowth, x = "supp", y = "len",
             color = "supp", line.color = "gray", line.size = 0.4,
             palette = "jco")+
      stat_compare_means(paired = TRUE)
    

    在这里插入图片描述

    多组样本的组间比较

    • 全局检验(所有组的均值比较)
    # Global test
    compare_means(len ~ dose,  data = ToothGrowth, method = "anova")
    

    示例结果如下:

    ## # A tibble: 1 x 6
    ##     .y.        p    p.adj p.format p.signif method
    ##                     
    ## 1   len 9.53e-16 9.53e-16  9.5e-16     ****  Anova
    

    添加全局检验的P值(所有组比较总的P值)

    # Default method = "kruskal.test" for multiple groups
    ggboxplot(ToothGrowth, x = "dose", y = "len",
              color = "dose", palette = "jco")+
      stat_compare_means()
    # Change method to anova
    ggboxplot(ToothGrowth, x = "dose", y = "len",
              color = "dose", palette = "jco")+
      stat_compare_means(method = "anova")
    

    在这里插入图片描述

    • 两两比较(Pairwise comparisons)

    如果分组变量包含两个以上的水平,两两比较的检验(pairwise test)将自动执行。默认方法为“wilcox.test”,也可设置为“t.test”。

    # Perorm pairwise comparisons
    compare_means(len ~ dose,  data = ToothGrowth)
    

    示例结果如下:

    ## # A tibble: 3 x 8
    ##     .y. group1 group2        p    p.adj p.format p.signif   method
    ##                           
    ## 1   len    0.5      1 7.02e-06 1.40e-05  7.0e-06     **** Wilcoxon
    ## 2   len    0.5      2 8.41e-08 2.52e-07  8.4e-08     **** Wilcoxon
    ## 3   len      1      2 1.77e-04 1.77e-04  0.00018      *** Wilcoxon
    
    # Visualize: Specify the comparisons you want
    my_comparisons <- list( c("0.5", "1"), c("1", "2"), c("0.5", "2") )
    ggboxplot(ToothGrowth, x = "dose", y = "len",
              color = "dose", palette = "jco")+ 
      stat_compare_means(comparisons = my_comparisons)+ # Add pairwise comparisons p-value
      stat_compare_means(label.y = 50)     # Add global p-value
    

    在这里插入图片描述

    如果需要指定标签显示的Y轴位置,可使用参数label.y

    ggboxplot(ToothGrowth, x = "dose", y = "len",
              color = "dose", palette = "jco")+ 
      stat_compare_means(comparisons = my_comparisons, label.y = c(29, 35, 40))+
      stat_compare_means(label.y = 45)
    

    在这里插入图片描述
    注:ggsignif 包也可以很方便的为条形图添加组间比较的P值

    • 相对于对照组的多重两两比较的检验(Multiple pairwise tests)
    # Pairwise comparison against reference
    compare_means(len ~ dose,  data = ToothGrowth, ref.group = "0.5",
                  method = "t.test")
    

    示例结果如下:

    ## # A tibble: 2 x 8
    ##     .y. group1 group2        p    p.adj p.format p.signif method
    ##                         
    ## 1   len    0.5      1 6.70e-09 6.70e-09  6.7e-09     **** T-test
    ## 2   len    0.5      2 1.47e-16 2.94e-16  < 2e-16     **** T-test
    
    # Visualize
    ggboxplot(ToothGrowth, x = "dose", y = "len",
              color = "dose", palette = "jco")+
      stat_compare_means(method = "anova", label.y = 40)+      # Add global p-value
      stat_compare_means(label = "p.signif", method = "t.test",
                         ref.group = "0.5")                    # Pairwise comparison against reference
    

    在这里插入图片描述

    • 相对于所有组(base-mean)的多重两两比较的检验
    # Comparison of each group against base-mean
    compare_means(len ~ dose,  data = ToothGrowth, ref.group = ".all.",
                  method = "t.test")
    

    示例结果如下:

    ## # A tibble: 3 x 8
    ##     .y. group1 group2        p    p.adj p.format p.signif method
    ##                         
    ## 1   len  .all.    0.5 1.24e-06 3.73e-06  1.2e-06     **** T-test
    ## 2   len  .all.      1 5.67e-01 5.67e-01     0.57       ns T-test
    ## 3   len  .all.      2 1.37e-05 2.74e-05  1.4e-05     **** T-test
    
    # Visualize
    ggboxplot(ToothGrowth, x = "dose", y = "len",
              color = "dose", palette = "jco")+
      stat_compare_means(method = "anova", label.y = 40)+      # Add global p-value
      stat_compare_means(label = "p.signif", method = "t.test",
                         ref.group = ".all.")                  # Pairwise comparison against all
    

    在这里插入图片描述

    下面使用Github中可用的骨髓瘤数据集展示一些典型情况,其中,与“.all.”的比较将很有用。

    将依据患者molecular进行分组,绘制各个组别DEPDC1基因的表达水平。目的是比较各个组别之间是否存在差别,如果有差别,差别又在哪里。

    要回答以上问题,可以在所有7个组之间进行两两比较(pairwise comparison)。 由于组别较多,将导致很多种组别组合,这将很难解释。

    一个简单的解决办法是将7组中的每一组与“.all.”(如base-mean)比较。当检验结果显著时,可以得出结论:与所有组相比,xxx组的DEPDC1的表达水平显著降低或显著升高。

    # Load myeloma data from GitHub
    myeloma <- read.delim("https://raw.githubusercontent.com/kassambara/data/master/myeloma.txt")
    # Perform the test
    compare_means(DEPDC1 ~ molecular_group,  data = myeloma,
                  ref.group = ".all.", method = "t.test")
    

    示例结果如下:

    ## # A tibble: 7 x 8
    ##      .y. group1           group2        p   p.adj p.format p.signif method
    ##                                   
    ## 1 DEPDC1  .all.       Cyclin D-1 0.149690 0.44907  0.14969       ns T-test
    ## 2 DEPDC1  .all.       Cyclin D-2 0.523143 1.00000  0.52314       ns T-test
    ## 3 DEPDC1  .all.     Hyperdiploid 0.000282 0.00169  0.00028      *** T-test
    ## 4 DEPDC1  .all. Low bone disease 0.005084 0.02542  0.00508       ** T-test
    ## 5 DEPDC1  .all.              MAF 0.086107 0.34443  0.08611       ns T-test
    ## 6 DEPDC1  .all.            MMSET 0.576291 1.00000  0.57629       ns T-test
    ## # ... with 1 more rows
    

    注意:上面的R代码中myeloma数据的下载地址存在错误,可从以下链接找到myeloma数据:https://github.com/kassambara/data/blob/master/myeloma.txt
    然后自己将全部数据复制并保存为myeloma.txt,从本地读取myeloma.txt。

    # Visualize the expression profile
    ggboxplot(myeloma, x = "molecular_group", y = "DEPDC1", color = "molecular_group", 
              add = "jitter", legend = "none") +
      rotate_x_text(angle = 45)+
      geom_hline(yintercept = mean(myeloma$DEPDC1), linetype = 2)+ # Add horizontal line at base mean
      stat_compare_means(method = "anova", label.y = 1600)+        # Add global annova p-value
      stat_compare_means(label = "p.signif", method = "t.test",
                         ref.group = ".all.")                      # Pairwise comparison against all
    

    在这里插入图片描述

    根据上图的结果,可以得出proliferation组的DEPDC1表达水平显著升高;Hyperdiploid组和Low bone disease组中DEPDC1表达水平显著降低。

    注意:想要隐藏 ns 标志,可以设置参数 hide.ns = TRUE

    # Visualize the expression profile
    ggboxplot(myeloma, x = "molecular_group", y = "DEPDC1", color = "molecular_group", 
              add = "jitter", legend = "none") +
      rotate_x_text(angle = 45)+
      geom_hline(yintercept = mean(myeloma$DEPDC1), linetype = 2)+ # Add horizontal line at base mean
      stat_compare_means(method = "anova", label.y = 1600)+        # Add global annova p-value
      stat_compare_means(label = "p.signif", method = "t.test",
                         ref.group = ".all.", hide.ns = TRUE)      # Pairwise comparison against all
    

    在这里插入图片描述

    多个分组变量

    • 使用另一个变量进行分组后再执行独立双样本比较

    执行统计检验:

    compare_means(len ~ supp, data = ToothGrowth, 
                  group.by = "dose")
    

    示例结果如下:

    ## # A tibble: 3 x 9
    ##    dose   .y. group1 group2       p  p.adj p.format p.signif   method
    ##                         
    ## 1   0.5   len     OJ     VC 0.02319 0.0464    0.023        * Wilcoxon
    ## 2   1.0   len     OJ     VC 0.00403 0.0121    0.004       ** Wilcoxon
    ## 3   2.0   len     OJ     VC 1.00000 1.0000    1.000       ns Wilcoxon
    

    在上面的示例中,对于分类变量dose的每一个水平,分类变量supp又将数据分为两个水平:OJ和VC,然后在这两个水平上对数值变量len进行均值比较。

    可视化:创建一个按组划分的多面板框图(此处为“dose”)

    # Box plot facetted by "dose"
    p <- ggboxplot(ToothGrowth, x = "supp", y = "len",
              color = "supp", palette = "jco",
              add = "jitter",
              facet.by = "dose", short.panel.labs = FALSE)
    # Use only p.format as label. Remove method name.
    p + stat_compare_means(label = "p.format")
    

    在这里插入图片描述

    # Or use significance symbol as label
    p + stat_compare_means(label =  "p.signif", label.x = 1.5)
    

    在这里插入图片描述

    注意:想要隐藏 ns 标志,可以设置参数hide.ns = TRUE

    可视化:创建一个包含所有箱形图的单一面板。X表示dose,Y表示len,颜色表示supp

    p <- ggboxplot(ToothGrowth, x = "dose", y = "len",
              color = "supp", palette = "jco",
              add = "jitter")
    p + stat_compare_means(aes(group = supp))
    

    在这里插入图片描述

    # Show only p-value
    p + stat_compare_means(aes(group = supp), label = "p.format")
    

    在这里插入图片描述

    # Use significance symbol as label
    p + stat_compare_means(aes(group = supp), label = "p.signif")
    

    在这里插入图片描述

    • 使用另一个变量进行分组后再执行配对双样本比较

    执行统计检验:

    compare_means(len ~ supp, data = ToothGrowth, 
                  group.by = "dose", paired = TRUE)
    

    实例结果如下:

    ## # A tibble: 3 x 9
    ##    dose   .y. group1 group2      p  p.adj p.format p.signif   method
    ##                        
    ## 1   0.5   len     OJ     VC 0.0330 0.0659    0.033        * Wilcoxon
    ## 2   1.0   len     OJ     VC 0.0191 0.0572    0.019        * Wilcoxon
    ## 3   2.0   len     OJ     VC 1.0000 1.0000    1.000       ns Wilcoxon
    

    可视化:创建一个按组划分的多面板框图(此处为“dose”)

    # Box plot facetted by "dose"
    p <- ggpaired(ToothGrowth, x = "supp", y = "len",
              color = "supp", palette = "jco", 
              line.color = "gray", line.size = 0.4,
              facet.by = "dose", short.panel.labs = FALSE)
    # Use only p.format as label. Remove method name.
    p + stat_compare_means(label = "p.format", paired = TRUE)
    

    在这里插入图片描述

    其他绘图方式

    • 条形图和折线图(一个分组变量)
    # Bar plot of mean +/-se
    ggbarplot(ToothGrowth, x = "dose", y = "len", add = "mean_se")+
      stat_compare_means() +                                         # Global p-value
      stat_compare_means(ref.group = "0.5", label = "p.signif",
                         label.y = c(22, 29))                   # compare to ref.group
    # Line plot of mean +/-se
    ggline(ToothGrowth, x = "dose", y = "len", add = "mean_se")+
      stat_compare_means() +                                         # Global p-value
      stat_compare_means(ref.group = "0.5", label = "p.signif",
                         label.y = c(22, 29))     
    

    在这里插入图片描述

    • 条形图和折线图(两个分组变量)
    ggbarplot(ToothGrowth, x = "dose", y = "len", add = "mean_se",
              color = "supp", palette = "jco", 
              position = position_dodge(0.8))+
      stat_compare_means(aes(group = supp), label = "p.signif", label.y = 29)
    ggline(ToothGrowth, x = "dose", y = "len", add = "mean_se",
              color = "supp", palette = "jco")+
      stat_compare_means(aes(group = supp), label = "p.signif", 
                         label.y = c(16, 25, 29))
    

    在这里插入图片描述

    注意:经过实际测试,笔者发现R语言中的统计方法计算结果的P值与SPSS中的P值存在差异。如,常规的方差分析(ANOVA) + 事后两两组间比较(如Bonferroni校正)使用上述R函数就很难得出与SPSS中一致的结果。如果需要使用SPSS的统计P值,建议对生成的图形进行后期修改。

    References

    原文链接:Add P-values and Significance Levels to ggplots

    展开全文
  • Excel/SPSS相关性及显著性水平分析

    千次阅读 2018-12-20 14:55:13
    转载自 ...nbsp; 对两列数据的相关性以及显著性水平的问题一直有困扰,由于对excel的钟情,总是倾向于把数据分析放在excel中进行。本文简单分析excel和SPSS对相关分析和显著性水平...
  • 假设检验中的P值 与显著性水平的联系

    万次阅读 多人点赞 2016-05-19 10:53:29
    假设检验是推断统计中的一项重要内容。...统计学根据显著性检验方法所得到的P 值,一般以P &lt; 0.05 为显著, P&lt;0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0...
  • 在假设检验中,我们很多时候对显著性水平α和P值理解不透彻?在这篇文章中,我将继续关注概念和图形,以帮助您更直观地理解假设检验在统计学中的工作原理。 为了实现它,我将在我之前文章的基础上将显著性水平α和P...
  • 文章来自微信公众号:发现Minitab概述在假设检验中,我们很多时候对显著性水平α和P值理解不透彻?在这篇文章中,我将继续关注概念和图形,以帮助您更直观地理解假设检验在统计学中的工作原理。为了实现它,我将在我...
  • 显著性检验

    2019-10-09 02:46:48
    显著性检验(significance test)就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。或者说,...
  • 相关性和显著性分析

    万次阅读 2020-01-03 15:33:00
    相关分析用于研究定量数据之间的关系情况,包括是否有关系,以及关系紧密程度等。 1、如果呈现出显著性(结果右上角有*号,...2、如果说相关系数值小于0.2,但是依然呈现出显著性(右上角有*号,1个*号叫0.05水平显...
  • 显著性检验:P值和置信度

    千次阅读 2021-05-26 16:21:17
    显著性差异(ρ,Statistical significance) 是统计学上对数据差异性的评价。 当数据之间具有了显著性差异,就说明参与比对的数据应该不是来自于同一总体(population),而是来自于具有差异的两个不同总体,...
  • 统计假设检验之显著性检验(significance test)

    千次阅读 多人点赞 2019-07-14 17:52:03
    转载于 关于显著性检验,你想要的都在这儿了!!(基础篇) 无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。笔者作为科研界...
  • 显著性检验理解

    千次阅读 2018-03-12 11:58:33
    https://wenku.baidu.com/view/c16e77e8af1ffc4ffe47acdc.html无论你从事何种领域的科学研究还是统计...后来醉心于统计理论半载有余才摸到显著性检验的皮毛,也为显著性检验理论之精妙,品种之繁多,逻辑之严谨所...
  • 【通俗理解】显著性检验,T-test,P-value

    万次阅读 多人点赞 2018-08-12 11:14:21
    备注: ... 显著性检验,判定实验结果是否由随机误差导致的。举例很好,很清楚 虽然样本中,均值苏州销售额大于郑州,但T-test发现这是随机导致的,P&...结果:在显著性水平α =0.05的情况下,p&...
  • 显著性检验基础知识

    2018-05-04 09:41:02
    转载自 https://www.cnblogs.com/hdu-zsk/p/6293721.html无论你从事何种领域的科学研究...后来醉心于统计理论半载有余才摸到显著性检验的皮毛,也为显著性检验理论之精妙,品种之繁多,逻辑之严谨所折服。在此,特...
  • 关于显著性检验,你想要的都在这儿了!!(基础篇) &nbsp;无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。...
  • 显著性检验python

    千次阅读 2020-12-16 14:42:24
    信用特征检验/模型稳健检验的代码实现1.1  常用的检验实现1.1.1  ttest_ind1.1.2  曼-惠特尼U检验(Mann-Whitney U test)1.1.3  KS_检验1.1.4  非参数统计...
  • 显著性分析-秩和检验与校正

    千次阅读 2020-05-10 09:46:41
    显著性分析通常分为参数检验方法和非参数检验方法,参数检验法中常用的是t检验,但是t检验需要假定两组样本都服从正态分布,这样适用的情况有限。 秩和检验是一种非参数检验法,不需要对数据分布作特殊假设,因而能...
  • 显著性检验,T-test,P-value

    千次阅读 2019-07-10 17:38:00
    备注: 源:https://www.cnblogs.com/hdu-zsk/p/6293721.html 显著性检验,判...
  • 常用显著性检验

    万次阅读 2015-12-02 09:12:55
     适用于计量资料、正态分布、方差具有齐的两组间小样本比较。包括配对资料间、样本与均数间、两样本均数间比较三种,三者的计算公式不能混淆。  2.t'检验  应用条件与t检验大致相同,但t′检验用于两组间方差...
  • 文章目录抽样抽样方法:概率抽样和非概率抽样样本量估计总体概率公式样本量公式汇总均值差异显著性检验单样本总体比例的检验两总体比例之差的显著性检验 抽样 抽样方法:概率抽样和非概率抽样 样本量估计 样本...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 27,617
精华内容 11,046
关键字:

常见的显著性水平