精华内容
下载资源
问答
  • 大部分科研搬砖者们都会进行假设检验,求算出P值,如果P小于0.05,我们就说两者之间有显著性差异。那么你真的了解P值君,到底是啥吗?下面和小编一起走进统计学的世界吧,让你的数据分析地更有理有据,文章看起来...

    428dbe7dc87a68e816d3759eadb56956.png

    几乎每篇实验性的科研论文里都要有对照组和实验组,我们往往也是将实验组和对照组相比,看看性能是变好了还是变差了,有没有显著性差异呢?大部分科研搬砖者们都会进行假设检验,求算出P值,如果P值小于0.05, 我们就说两者之间有显著性差异。那么你真的了解P值君,到底是啥吗?下面和小编一起走进统计学的世界吧,让你的数据分析地更有理有据,文章看起来更高大上哦!

    060db8e552a570e39a7f643139dd8249.png

    上图是一片文章里关于数据统计学代表性的说明。一般任何一篇实验性的论文里,都要有统计学分析这一模块。也就是说你不能只做一组实验,只测一个数据,就去说这个产品或者实验结果好不好,这样是没有说服力的。因此,一般的科研论文里,每组数据至少是三个样本量,再对比组分之间的差异。有些教授更注重数据的真实性和再现性,因此可能会让第二个学生来重复你的实验,看是否能得到相同的结果。总之,就是说我们科研论文里的数据要有统计学意义,要能反映真实的水平。上图论文里的统计学分析也是目前用的最多的一种简单的分析,大意是所有的数据是从三个独立的实验中得到的,并且数据的呈现方式是平均值±标准偏差的方式。使用的单因子ANOVA方差分析的方式求算P值,若P值小于0.05,则会被认为是具有显著性差异。

    那么上述中的P值具体是什么呢?且听笔者娓娓道来。

    现代统计学可分为统计描述和统计推断两个部分。统计描述简单来说,就是把数据按一定的方式呈现,求算平均值、中位数,看看数据处于什么水平。标准差就是用来看数据波动的程度。当然也可以用柱状图,箱线图,散点图等统计图形来更为形象直观地展示。而统计推断是用我们手中的样本数据来推断其背后的总体特征,分为参数估计和假设检验两大部分。

    参数估计是利用样本的统计量去估计总体的参数,比如说用样本的平均数去估算整体的平均值。考虑到抽样误差,一般我们会用一个范围,而不是一个单一的值去估计总体参数,此即所谓的区间估计。

    假设检验则是利用小概率反正法思想,从问题的对立面(H0,原假设)出发,假定H0成立的条件下,去计算检验统计量,获得P值,再通过P值来在H0,H1(备择假设)之间做进一步取舍。因此,P值就是在H0为真的条件下,获得当前样本或者更偏的样本的概率。我们举个例子,比如说我们假设实验组和对照组两者均值相等,根据假设检验求算出P值小于0.05,这也就说明只有5%不到的概率表示原假设(实验组和对照组两者均值相等)成立,介于这概率太低,那么也就能说明原假设应该是不成立的,也就是实验组和对照组两者均值不相等,有显著性差异。

    了解了P值之后,要了解假设检验的方法。下表给出了统计学中常用的假设检验的方法。

    数据类型

    均值

    等方差检验

    正态分布数据

    非正态分布数据

    正态分布数据

    非正态分布数据

    单总体

    偏差已知,使用Z检验;偏差未知,使用T检验

    中位数检验

    卡方检验

    Bonett检验

    双总体

    双T检验或配对检验

    Mann- Whitney检验

    F检验

    Levene检验

    多总体

    方差分析

    Kruskal-walls检验法、Mood中位数检验法、Fredman检验法

    Bonett检验

    Levene检验

    看到复杂的上表,千万不要头疼,我们一般使用较多的便是多总体的方差分析的方法,来比较实验组与对照组之间是否有显著性差异。而方差分析,一般利用origin\graphpad\minitab,甚至EXCEL都是有公式能够进行计算的。

    下面来看看处理好数据之后,如何把数据展示出来吧。大家也都知道,好的杂志发表的顶尖文章里,配图和实验数据的展示也都是一流的。下图是一篇论文里展示数据的方式,可以发现作者用柱状图的形式,将各组数据的平均值及偏差表示出来,又两两对比是否存在显著性差异。*代表两者之间P值小于0.05,**代表两者之间P值小于0.01,***代表两者之间P值小于0.001。这样我们便能很直观的了解到各组之间的数据水平及差异。

    519bc8c96da8639f349af16d490b3ea0.png

    上图是常见的科研论文里呈现数据的柱状图,我们一般使用ORIGIN或者Graphpad便可以画出来。下面,小编给大家介绍一个新软件,专门用来进行统计学分析及画图的软件-MINITAB。学好了,可以让你的数据处理地更专业,也能用更好的方式去呈现你的实验数据。

    首先,来看一下百度百科对Minitab软件的介绍吧。Minitab软件是现代质量管理统计的领先者,全球六西格玛实施的共同语言,以无可比拟的强大功能和简易的可视化操作深受广大质量学者和统计专家的青睐。Minitab 1972年成立于美国的宾夕法尼亚州州立大学(Pennsylvania State University),到目前为止,已经在全球100多个国家,4800多所高校被广泛使用。

    打开MINITAB的界面是下面这样的。

    05e093deb9a784e78a0867c2cccc62f2.png

    我们一般使用最多的两个功能,分别是统计与图形两个模块。

    8ce813ffd7a91ddf33d3ed0703c05e26.png

    093b93862a5e2a045d71c3160a2bb6e4.png

    下面来到重点,介绍一下如何求算两组数据之间的P值以及如何画箱线图。首先,我们要确定这两组数据是不是正太分布,是不是等方差,根据我们上面列的表格,选择合适的假设检验的方法。

    cfcff9d69640789f0e95657e2a73f756.png

    上图实验组和对照组的数据,经计算是独立正态等方差的,因此我们选择双T假设检验的方法,求算出P值为0.002, 小于0.05,也就是说在95%的置信度下,实验组和对照组是有显著性差异的。

    双样本 T 检验和置信区间: 对照组, 实验组

    方法

    μ₁: 对照组 的均值

    µ₂: 实验组 的均值

    差值: μ₁ - µ₂

    未针对此分析假定等方差。

    描述性统计量

    样本

    N

    均值

    标准差

    均值标
    准误

    对照组

    5

    5.40

    2.07

    0.93

    实验组

    5

    11.200

    0.837

    0.37

    差值的估计值

    差值

    差值的 95%
    置信区间

    -5.80

    (-8.37, -3.23)

    检验

    原假设

    H₀: μ₁ - µ₂ = 0

    备择假设

    H₁: μ₁ - µ₂ ≠ 0

    T 值

    自由度

    P 值

    -5.80

    5

    0.002

    此外,我们也可以将这两组数据,画成箱线图,更直观地表示两组数据的分布情况。

    4260631aec6c2762f9ffd041538bb25d.png

    Minitab是统计学及数据处理领域中功能非常强大的一款软件,如果大家有兴趣,可以再深层次地学习一下,能够对分析实验数据,对比差异性能提供更专业的技术支持。

    以上,就是今天介绍的统计学知识啦,现在你了解P值是什么了吗?实验论文中,我们一般的样本量大多为3个或5个,求算平均值及标准偏差。没有误差棒的数据图,是会被诟病的。 所以请大家千万要有数据统计的意识,保证你的实验数据是有代表性意义的。在进行统计学分析的时候,做到知其然并知其所以然!

    本文由作者杜老师供稿

    投稿邮箱

    tougao@cailiaoren.com

    投稿以及内容合作可加微信

    cailiaorenvip

    【计算服务】

    材料人重磅推出特色计算服务,为广大材料&化学科技工作者提供包括第一性原理计算、有限元计算、分子动力学计算、流体力学计算、相图计算等一系列材料计算代算服务,以及相关的计算指导、培训服务。如有需要,欢迎扫码添加客服咨询(微信号:cailiaoren001)

    e461d08d6e0fde786dd9532d0877ca5a.png

    b61b75cec77f6eb5a409a6b70e32ddda.png

    展开全文
  • “这个变量的p-value小于0.05,所以这个变量很重要” ........ 你真的知道自己在说什么么???这个p-value到底是个什么鬼?为什么小于0.05就很重要?很重要是什么意思????? 终于... 这次,我们通俗易懂地...

    当我们说到p-value时,我们在说什么?

    “这个变量的p-value小于0.05,所以这个变量很重要”

    ........

    你真的知道自己在说什么么???这个p-value到底是个什么鬼?为什么小于0.05就很重要?很重要是什么意思?????

    终于...

    这次,我们通俗易懂地来讲讲到底什么是p-value(p值)。

    在讲p-value之前,我们用掷硬币来举个例子。

    硬币有正反两面,在概率中我们知道,出现正反面的概率各为50%(1/2),所以作为一个正常的硬币,如果我们投无限次后,结果一定会是正反各占50%。但是,如果我想知道自己手中的硬币,到底是不是正常的硬币,有没有做过手脚,在实际操作中是没办法投掷无限次的。因此,我们只能用有限的结果来判断“硬币是否为常规硬币”这个问题的答案。

    在统计学上,做这个检验时,通常会设定一个虚无假设(也叫零假设,Null Hypothesis),通常记作H0。以及一个对立假设(Alternative Hypothesis),及与虚无假设对立的假设,如果证明虚无假设错误,则可以推出对立假设成立。

    在掷硬币这个例子中,我们可以设定

    H0: 手中的硬币是常规硬币

    H1: 手中的硬币做过手脚

    如果手中硬币是常规硬币,我们知道正面和反面出现的概率各为50%,所以如果我投掷10次硬币,则正面和反面出现的次数各位5次。正面5次,反面5次,就是我们对于投掷10次硬币的期望值(expected value)。

    现在我们开始投掷硬币,出现的是正面3次,反面7次。这个结果就是我们对于投掷10次硬币的观测值(observed valued),即实际的结果。

    通过分析期望值和观测值的差距,我们就可以判断出硬币是否正常。而这个期望值和观测值差距的判断方法就是chi-square。

     
    Figure 1 chi-square计算公式

    上图即为chi-square的计算公式,O代表观测值(observed value),E代表期望值(expected value)。有没有觉得这和方差的公式很像?没错,其实方差是一组数据与其均值的比较,而chi-suaqre是一组数据与另一组数据期望值的比较。

    那么在掷硬币这个例子中chi-square(卡方)=(3-5)^2/5+(7-5)^2/5=1.6

     
    Figure 2 掷硬币实验:观测值与期望值对比表

    算出了chi-square,那么又怎判断检验结果呢?现在,跟我一起把卡方分布表(见Figure 2)拿出来~

     
    Figure 3 卡方分布表

    上图即为卡方分布表,左上角的α表示错误拒绝H0假设的概率(即虚无假设事实上成立,但我们计算出的结果却错误判断虚无假设不成立的概率)。n代表自由度(degree of freedom),即独立变量数减1,在这个例子中,独立变量数为2(正面和反面),所以自由度为1(2-1=1)。

    当然,你也会见到与上图不一样的卡方分布图,比如Figure 3。P代表α,即P(当H0为真时拒绝H0)(其实就是p-value),df代表自由度(degree of freedom)。

     
    Figure 4 卡方分布表

    假设置信度为95%,即错误拒绝H0的概率为0.05。展开解释就是,我们有95%的概率确信检验结果正确,有5%的概率会错误拒绝虚无假设。(我们总说的p值与0.05比较就是这个啦,其实不一定时0.05,根据具体情况可以设置不一样的值,只是大部分时候都用0.05)

    对照着卡方分布表(Figure 4),找到1所在的行(我们计算出的chi-square自由度是1),发现1.6是介于1.323和2.706之间,查表得出其p值为0.25到0.1之间,大于0.05,所以我们不能拒绝H0。换句话说,H0成立,即硬币是常规硬币,没有做手脚。

     
    Figure 5 卡方分布表(chi-square=1.6)

    大家通过观察卡方分布表能够发现,在用一个自由度下,chi-square越大,其p值就越小。举个极端的例子,如果在掷硬币的例子中,我投掷10次硬币,刚好5次正面,5次反面,则此时算是的chi-square为0(观测值与期望值一致),这时的p-value是远大于0.095,没有理由拒绝H0,H0假设成立,即硬币是常规硬币。

     
    Figure 6 卡方分布表(chi-square=0)

    总结一下,

    p-value的作用:p-value就是用来判断H0假设是否成立的依据。因为期望值是基于H0假设得出的,如果观测值与期望值越一致,则说明检验现象与零假设越接近,则越没有理由拒绝零假设。如果观测值与期望值越偏离,说明零假设越站不住脚,则越有理由拒绝零假设,从而推出对立假设的成立。

    p-value的计算:计算chi-suqare,计算自由度,查卡方分布表。

    总的思路是,

    做出H0,H1这对互斥的假设,计算出H0为真时的期望值,统计出实际的观测值,通过期望值和观测值求得chi-square(卡方),再通过卡方查表,得到p值。根据p值与α(1-置信度)的比较,如果p-value<α,则拒绝(reject)H0,推出H1成立;如果p-value>α,则接受(accpet)H0,推出H1不成立。

    最后再划重点,把开头的几个问题再解释下。

    【这个p-value到底是个什么鬼?】p值可通过计算chi-square后查询卡方分布表得出,用于判断H0假设是否成立的依据。

    【为什么小于0.05就很重要?】大部分时候,我们假设错误拒绝H0的概率为0.05,所以如果p值小于0.05,说明错误拒绝H0的概率很低,则我们有理由相信H0本身就是错误的,而非检验错误导致。大部分时候p-value用于检验独立变量与输入变量的关系,H0假设通常为假设两者没有关系,所以若p值小于0.05,则可以推翻H0(两者没有关系),推出H1(两者有关系)。

    【很重要是什么意思?】当p值小于0.05时,我们就说这个独立变量重要(significant),因为这个独立变量与输出结果有关系。




    转载于:https://www.cnblogs.com/lijingblog/p/11043513.html

    展开全文
  • P-value

    千次阅读 2018-11-21 20:26:16
    0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。实际上,P 值不能赋予数据任何重要性,只能说明某事件发生的机率。P &lt; 0.01 时样本间的差异比P &lt; 0.05 时更大,这种说法...

    P值在数学上对应着分位数方程;

    应用(百度百科)

    统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P <0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。实际上,P 值不能赋予数据任何重要性,只能说明某事件发生的机率。P < 0.01 时样本间的差异比P < 0.05 时更大,这种说法是错误的。统计结果中显示Pr > F,也可写成Pr( >F),P = P{ F0.05 > F}或P = P{ F0.01 > F}。

    P值的意义

    1. P值是一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。

    2. 拒绝原假设的最小显著性水平

    3. 观察到的(实例的) 显著性水平。

    4. 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。

    展开全文
  • p-value

    2017-10-17 10:59:54
    p-value:拒绝原假设H0...例如,原假设“人们拇指平均长度是10cm”,根据样本数据得到p-value是0.03,这意味着如果人们拇指平均长度是10cm,得到样本或更极端结果的概率是0.03,小于0.05,这时我们就可以认为原假设不可

    p-value:拒绝原假设H0时犯错误的概率,即其值越小,越说明拒绝原假设H0 接受备择假设H1是正确的。
    直观来说,就是犯错概率越低越好。

    也可以解释为,假定“不靠谱”原假设为真时,得到与样本相同或者比样本更极端结果的概率。
    例如,原假设“人们拇指平均长度是10cm”,根据样本数据得到p-value是0.03,这意味着如果人们拇指平均长度是10cm,得到样本或更极端结果的概率是0.03,小于0.05,这时我们就可以认为原假设不可能成立,即拒绝原假设。

    这里需要注意的是,P值不是给定样本结果时原假设为真的概率,而是给定原假设为真时样本结果出现的概率。

    p-value与alpha值:
    p值精确地算出一个取样的稀罕程度,alpha值是事先给出的对样本稀有程度的判定界限。

    展开全文
  • 最通俗易懂的p value讲解

    万次阅读 2019-03-24 09:45:45
    什么是p value? 这个问题,曾一度让我怀疑我根本都没有学懂知识,只是像规则一样记住然后胡乱使用而已。此番记录就当再次考验我是否真正理解到p value的含义。 p value,代表在原假设条件下,实验事件可能发生的...
  • P-Value检验和假设检验

    千次阅读 2015-02-02 12:25:24
    假设检验是推断统计中的一项重要内容。 用SAS、SPSS等专业统计软件进行假设检验,在假设检验中常见到P 值( P-Value,Probability,Pr),P ...为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05
  • 评测中的P Value

    千次阅读 2009-03-13 17:53:00
    今天一个同事问我p-value的事情。这个东西,已经好久不弄了。...一般pvalue的界定值是0.05. 如果大于这个值,说明可信度不高,测试误差率很大,数据不可靠。如果是小于等于0.05,说明误差在0.05以内,是可接受了。
  • P-Value P值的含义

    2011-06-14 09:27:00
    如果是检验问题,p值反映的是样本数据支持原假设的证据,p值越大,...通常当p小于0.05时,就认为原假设不成立。 P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况的...
  • p-value是通过T检验产生的一个参数,它代表了两组样本之间的差异性。 一般来说,当p-value<0.05时,我们认为这两组样本差异显著。 一般情况下,看p-value即可判断样本差异性,但是事实情况并非如此。 有时候...
  • 假设检验中的P 值 (P value)

    万次阅读 2009-05-07 19:58:00
    假设检验是推断统计中的一项重要内容。用SAS、SPSS等专业统计软件进行假设检验,在假设检验中常见到P...统计学根据显著性检验方法所得到的P 值,一般以P P F,也可写成Pr( >F),P = P{ F0.05 > F}或P = P{ F0.01 > F}。
  • 假设检验 p-value,FDR,q-value

    千次阅读 2020-03-26 20:51:42
    单个假设检验中主要依靠p值(或统计量t)做出是否拒绝零假设H0的决定:p-value和预先设定的检验水准 α 做对比,如果p-value小于等于α,拒绝原假设,否则不拒绝原假设。 p-value:表征了在原假设成立的条件下,重复...
  • 显著性测试,p-value/p

    千次阅读 2019-05-30 15:34:31
    先计算chi-square值,然后根据值去查卡方图,得到p-value值,大于0.05(经验值),则说明拒绝假设H0的概率小,H0成立。比如硬币真假,如果7次反面,3次正面,计算chi-square的值为1.7,根据卡方图,p值介于0.25~0.1...
  • P-value个人理解

    万次阅读 2017-06-04 13:01:14
    最近见到p-value的频率有点高,之前也看到很多次了,基本当时懂了过几天就忘记了,整理下。 P值定义[from:百度百科] P值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P...
  • 【通俗理解】显著性检验,T-test,P-value

    万次阅读 多人点赞 2018-08-12 11:14:21
    备注: 源:https://www.cnblogs.com/hdu-zsk/p/6293721.html 显著性检验,判定实验结果是否由随机误差导致的。举例很好,很清楚 虽然样本中,均值苏州销售额...结果:在显著性水平α =0.05的情况下,p&...
  • T检验和p-value含义及计算公式

    万次阅读 多人点赞 2018-01-30 14:50:32
    T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。  目的:比较样本均数 所代表的未知总体均数μ和已知...
  • 什么是p value? 这个问题,曾一度让我怀疑我根本都没有学懂知识,只是像规则一样记住然后胡乱使用而已。此番记录就当再次考验我是否真...
  • P-value 更加的浅显易懂

    万次阅读 2016-12-08 17:09:33
    0.普通逻辑 复习一下普通逻辑的基本...P表示打了疫苗P, Q表示得流行病Q 或者,更形式化一点: if P then NOT Q 然后,如果观察到你得了流行病Q,那么就可以推出你没有打疫苗P——这个推断只不过是上述前提条
  • p-value&FPR以及q-value&FDR

    万次阅读 2018-01-07 00:12:53
    在测序数据中,我们经常能在差异统计表格看到P-value以及FDR值。而在生信数据的分析中,也会经常对P-value进行FDR校正。这么做的目的是什么,FDR校正的原理又是什么呢? 首先我们来看P-value的定义:在假设检验中,...
  • 什么是p-value

    2021-01-14 16:32:25
    什么是p-value 人们经常认为p-value与probability是一个概念,这是不对的。但是他们之间确实有一定的联系。probability表示的是某个事件发生的概率,而p-value表示的该事件与等价事件以及更rarer事件发生的概率之和...
  • Hypothesis with R and Understanding of P-value and confidence-intervalHypothesis with R数据集说明数据可视化使用t-test(small samples)进行双边假设检验 Hypothesis with R 数据集说明 基于Galton数据集,...
  • 显著性检验,T-test,P-value

    千次阅读 2019-07-10 17:38:00
    备注: 源:https://www.cnblogs.com/hdu-zsk/p/6293721.html 显著性检验,判...
  • p-value解析

    千次阅读 2014-10-24 09:04:58
    1 . P-value:假定值、假设机率 2.
  • 白话 P-value 这个再通俗不过了~

    千次阅读 2017-07-14 11:36:02
    准备再尝试一下,用大白话叙述一遍统计推断中最基础的东西(假设检验、P值、……),算是把这段时间的阅读和思考做个梳理(东西不难,思考侧重在如何表述和展示)。这次打算用一种“迂回的”表达方式,比如,本文从...
  • 白话 P-value

    2017-01-04 22:28:45
    白话 P-value 这个再通俗不过了~ 来源: 李佳融 Ricardo的日志 准备再尝试一下,用大白话叙述一遍统计推断中最基础的东西(假设检验、P值、……),算是把这段时间的阅读和思考做个梳理(东西不难...
  • python计算p-value

    2021-08-29 06:42:53
    有的时候新方法有效果提升,但是为了验证这种提升是否是显著的(防止有的方法具有随机性),需要进行ttt检验,根据计算的ppp-valuevaluevalue来决定两种方法的均值是否真的存在显著差异。 ttt检验通常有 1. 单样本ttt...
  • 文章目录怎么计算P值单尾与双尾的P值抽样分布单一分布中抽样两个独立分布中抽样 怎么计算P值 抛两次硬币,计算两次都为正...可以看到 p 值不小于 0.05(显著性阈值) 计算四个正面,一个反面的概率: p 值由三部分组成

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,552
精华内容 2,220
关键字:

pvalue小于0.05