精华内容
下载资源
问答
  • T检验:两样本数据的差异

    万次阅读 2016-09-19 11:50:08
    两配对样本的T检验是利用来自两个总体的配对样本,推断总体的两个均值是否显著差异,从而推断两个总体是否存在差异。前提,我们是假定总体是服从正态分布的,X N(u1,σ21)X~N(u_{1},\sigma_{1}^{2}) 原假设:H0:u1...

    我最近在研究TCGA的RNAseq数据表达差异性的分析,常用的并且最简单的方法是统计量T检验。下面用一个例子来验证T检验的弊端问题所在。

    两配对样本的T检验是利用来自两个总体的配对样本,推断总体的两个均值是否显著差异,从而推断两个总体是否存在差异。

    前提,我们是假定总体是服从正态分布的, XN(u1,σ21)
    原假设: H0:u1u2=0 ; 备择假设: H0:u1u20

    统计量:

    t=(X¯¯¯Y¯¯¯)(u1u2)Sw1n1+1n2t(n1+n22)

    其中,

    Sw=(n11)S21+(n21)S22n1+n22

    通过对T检验的P值来判断是否存在差异,从而判断数据是否来自同一个样本。

    下面以 sin(x) 为例来说明:
    代码:

    x=seq(-pi,pi,0.0001)
    y1=sin(x)
    y2=-y1
    
    png("test.png")
    plot(y1~x)
    lines(y2~x)
    dev.off()
    
    mean(y1)
    [1] 9.974243e-11
    mean(y2)
    [1] -9.974243e-11
    t.test(y1,y2)
    #结果
    
            Welch Two Sample t-test
    
    data:  y1 and y2
    t = 5.0003e-08, df = 125660, p-value = 1
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:
     -0.007819244  0.007819244
    sample estimates:
        mean of x     mean of y 
     9.974243e-11 -9.974243e-11 
    

    图如下所示:
    数据的图像

    可以明显发现,两个数据来自不同分布,差异很明显,但是T检验的P值却为1,表明不存在差异,与图像的结果明显不符合。这就是T检验的不足。

    关于T检验的改进方法介绍,在下一次分享中将会介绍。

    展开全文
  • 怎么知道组之间是否有显著性差异? 方法:单因素方差分析;双尾检验;K-S检验;x²检验;蒙特卡罗检验 1 K-S检验法介绍: 有人首先想到单因素方差分析或双尾检验(2 tailed TEST)。其实这些是不准确的,最好采用...

    怎么知道组之间是否有显著性差异?

     方法:单因素方差分析;双尾检验;K-S检验;x²检验;蒙特卡罗检验

    1 K-S检验法介绍:

    有人首先想到单因素方差分析或双尾检验(2 tailed TEST)。其实这些是不准确的,最好采用Kolmogorov-Smirnov test(柯尔莫诺夫-斯米尔诺夫检验)来分析变量是否符合某种分布或比较两组之间有无显著性差异。(https://www.cnblogs.com/sddai/p/5737408.html)

     

    K-S检验是统计学中在对一组数据进行统计分析是所用到的一种方法。它原理是比较观测频率分布和某一“标准”的频率分布,确定观测分布模式的显著性。它是将需要做统计分析的数据和另一组标准数据(如点数据样本与完全随机模式CSR进行对比)进行对比,求得它和标准数据之间的偏差的方法

    一般在K-S检验中,首先假设两个频率分布十分相似,如果两个频率分布的差异非常小,这种差异的出现存在偶然性;如果差异大,偶然发生的可能性就小。再计算需要做样本数据与标准数据的累积分布函数然后求这两个累积分布函数的差的绝对值中的最大值D最后通过查K-S检定表以确定D值是否落在所要求对应的置信区间内。若D值落在了对应的置信区间内,说明样本数据与标准数据或另一组对比数据没有显著差异。反之亦然。

     

    1.2 简言步骤之(改https://blog.csdn.net/ljzology/article/details/80407704):

    (1)提出假设H0:Fn(x)=F(x)

    (2)给定一个显著水平α,例如100次试验中只有5次出现机会,则α=0.05

    (3)计算样本累计频率与理论分布累计概率的绝对差,令最大的绝对差为Dn;Dn=max{[Fn(x) - F(x)]}

    (4)用样本容量n和显著水平α查出临界值Dna;

    或者用D 0.05的经验算法判断,计算作为比较基础的门限值,即;如果是两个样本模式比较,则

     

     

    (5)如果计算得出的D值大于Dα= 0.05这一阈值,可得出两个分布的差异在统计意义上是显著的。

    (6)不过大多数软件如CLAMPFIT,MINIANALYSIS统计出来的结果都是直接有P值。根据这个值(alpha=0.05)就可以断定有没有差异了。(https://www.cnblogs.com/sddai/p/5737408.html)

     

    1.3 实例:

     

     

    【引申】—— 累积分布函数(cumulative distribution function,简写CDF)定义:对连续函数,所有小于等于a的值,其出现概率的和。F(a)=P(x<=a)

    除了K-S检验外,还有x²检验和蒙特卡罗检验。

    转载于:https://www.cnblogs.com/wuht2018/p/10192962.html

    展开全文
  • 曼-惠特尼U检验(Mann-Whitney检验) How the Mann-Whitney test works ...Mann-Whitney检验又叫做秩和检验,是比较没有配对的两个独立...最小的值秩为1,最大的为N(假定两个样本总共N个观察值)。如果相...

    曼-惠特尼U检验(Mann-Whitney检验)

    How the Mann-Whitney test works

    Mann-Whitney检验又叫做秩和检验,是比较没有配对的两个独立样本的非参数检验。思想是这样的:假定要检验两组数据之间有没有差异。首先,不管分组把所有数据排序。按照数值大小给定一个值叫做秩。最小的值秩为1,最大的为N(假定两个样本总共有N个观察值)。如果有相同的值,就得到相同的秩。相同的值的秩是他们的秩的平均值。如果两组的秩的和差距比较大,就会得出较小的p值,认为这两组间有显著差异。

    How to think about the results of a Mann-Whitney test

    样本量太小的话效度会很低。比如,如果总的数据只有7个或者更少的话,p值总是大于5%的。

    Is the Mann-Whitney test the right test for these data?

    分析之前要先看一下,Mann-Whitney 检验是否适合手头的问题。

    问题

    解释

    “误差”是独立的吗?

    “误差”指的是每个值和中位数的差异。仅当误差的分布是随机的时候Mann-Whitney 检验的结果才有意义。一般要保证独立样本。样本不独立可能会导致误差不随机。

    数据是配对的吗?

    如果数据是配对的,应该用Wilcoxon成对检验。

    是只比较两组数据吗?

    Mann-Whitney 检验只用于两组数据的比较。如果要比较多组数据,可以用 Kruskal-Wallis 检验。用几次 Mann-Whitney 检验来比较多个组间的差异是不适合的,就如同ANOVA 不能用多次t检验代替一样。

    两个分布的形状是相同的吗?

    Mann-Whitney 检验不需要假定数据符合某种分布,但是要求两个分布是相同的。如果两组的分布差异比较大,可能需要数据转换使之相近。

    是否比较中位数?

    Mann-Whitney 检验比较的是两组的中位数。

    数据分布时正态的吗?

    非参数检验的好处和弱点是不需要假定数据符合某种分布。非参数检验有时候更适合(当数据分布未知时),有时候效度较低(当已知分布时参数检验效度更高)。所以如果数据能够转换为正态分布,t检验将会有更高的效度。

    曼-惠特尼U检验的步骤

    Computation of the U test begins by arbitrarily designating two samples as group 1 and group 2.the data from the two groups are combined into one group ,with each data value retaining a group identifier of its original group.the pooled values are then ranked from 1 to n,with the smallest value being assigned a rank of 1.

    The sum of the ranks of Values from group 1 is computed and designated as W1 and the sum of the ranks of values from group 2 is designated as W2.[1]

      该方法的具体步骤如下:

      第一步:将两组数据混合,并按照大小顺序编排等级。最小的数据等级为1,第二小的数据等级为2,以此类推(若有数据相等的情形,则取这几个数据排序的平均值作为其等级)。

      第二步:分别求出两个样本的等级和W1W2

      第三步:计算曼-惠特尼U检验统计量,n1为第一个样本的量,n2为第二个样本的量:

    U_1=n_1n_2+\frac{n_1(n_1+1)}{2}-W_1
    U_2=n_1n_2+\frac{n_2(n_2+1)}{2}-W_2

      选择U1U2中最小者与临界值Uα比较,当U < UA时,拒绝H0,接受H1

      在原假设为真的情况下,随机变量U的均值和方差分别为:

      E(U)=\frac{n_1n_2}{2}  D(U)=\frac{n_1n_2(n_1+n_2+1)}{12}

      当n1n2都不小于10时,随机变量近似服从正态分布。

      第四步:作出判断。

      设第一个总体的均值为μ1,第二个总体的均值为μ2,则有:

      1)H_0:\mu_1\le\mu_2,H_1:\mu_1>\mu_2,如果Z < − Zα,则拒绝H0

      2)H_0:\mu_1\ge\mu_2,H_1:\mu_1<\mu_2,如果Z > Zα,则拒绝H0

      3)H_0:\mu_1=\mu_2,H_1:\mu_1\ne\mu_2,如果Z > − Zalpha / 2,则拒绝H0

    [ 编辑]

    曼-惠特尼U检验的应用举例

      下面是两种不同加工方式的菜粕在黄牛瘤胃内培养16h的干物质降解率,用曼-惠特尼U检验比较其有无差异:

          两种加工方式的菜粕瘤胃培养16h的干物质降解率(%)

    预压浸出组等级排序螺旋热榨组等级排序
    39.33342.915
    44.10844.6910
    35.89144.549
    43.35645.3111
    47.611337.732
    43.71748.7514
      46.7112
      41.854

      先按照大小顺序排列等级(见上表),而后计算W1 = 38,W2 = 67,n1 = 6,n2 = 8。

      假设两种菜粕的16h瘤胃干物质降解率除了平均水平以外在其它方面无差异,即检验:

    H 0:两种菜粕的16h瘤胃干物质降解率无差异;
    H 1:两种菜粕的16h瘤胃干物质降解率有差异。

      计算U值:

    U_1=6\times 8+\frac{6\times 7}{2}-38=31
    U_2=6\times 8+\frac{8\times 9}{2}-67=17

      U2值较小,选取U2Uα(α=0.05)比较,通过查表(附表)可知Uα = 8,U2 > Uα,即接受H0,认为两种加工方式的菜粕瘤胃培养16h的干物质降解率无显著差异。

     

     

    n2123456789101112131415
    n1               
    1               
    2       00001111
    3    01122334455
    4   0123445678910
    5  01235678911121314
    6  12356810111314161719
    7  135681012141618202224
    8 02468101315171922242629
    9 024710121517202326283134
    10 035811141720232629333639
    11 036913161923263033374044
    12 1471114182226293337414549
    13 1481216202428333741455054
    14 1591317222631364045505559
    15 15101419242934394449545964
    n2123456789101112131415
    n1               
    1               
    2       00001111
    3    01122334455
    4   0123445678910
    5  01235678911121314
    6  12356810111314161719
    7  135681012141618202224
    8 02468101315171922242629
    9 024710121517202326283134
    10 035811141720232629333639
    11 036913161923263033374044
    12 1471114182226293337414549
    13 1481216202428333741455054
    14 1591317222631364045505559
    15 15101419242934394449545964
    n2123456789101112131415
    n1               
    1               
    2       00001111
    3    01122334455
    4   0123445678910
    5  01235678911121314
    6  12356810111314161719
    7  135681012141618202224
    8 02468101315171922242629
    9 024710121517202326283134
    10 035811141720232629333639
    11 036913161923263033374044
    12 1471114182226293337414549
    13 1481216202428333741455054
    14 1591317222631364045505559
    15 15101419242934394449545964

    转载于:https://www.cnblogs.com/baiting/p/4680071.html

    展开全文
  • 一、总体与样本定义 总体:所研究的所有事件的...① 简单随机抽样:抽签,随机编号生成器,放回抽样和不放回种 ② 分层抽样:将总体分为几层,层内部相似,层与层之间差距较大,再对每一层进行简单随机抽样...

    统计学系列目录(文末有大奖赠送
    统计学①——概率论基础及业务实战
    统计学②——概率分布(几何,二项,泊松,正态分布)
    统计学④——置信区间
    统计学⑤——假设验证

    一、总体与样本定义

    总体:所研究的所有事件的集合
    样本:是从总体中抽出的数量相对较小的集合,可用于做出对总体的结论

    二、抽样方法

    我们希望抽取的样本分布和总体分布一致,这样用样本估计总体会比较准确,这种样本叫作无偏样本。
    在这里插入图片描述
    无偏样本的抽样方法
    简单随机抽样:抽签,随机编号生成器,有放回抽样和不放回两种
    分层抽样:将总体分为几个层,层内部相似,层与层之间差距较大,再对每一层进行简单随机抽样
    整群抽样:将总体分为几个群,群与群之间相似,随机抽取几个群作为样本
    系统抽样:随机选取一个数据K,每次到第K个抽样单位就抽一次

    三、总体参数的估计

    ①总体均值
    当通过抽样获得无偏样本后,可以直接用样本的均值来估计总体的均值,如下:
    在这里插入图片描述
    在这里插入图片描述
    ②总体方差
    方差是否可以直接用样本方差呢?答案是No,因为方差衡量的是分散性,样本相对总体而言,数量较少,可能会将一些异常值排除在外,导致样本的方差要少于总体
    在这里插入图片描述
    如果要确切知道总体的方差,并且拥有总体的数据,方差的计算如下:
    在这里插入图片描述
    如果需要用样本估计总体的方差,计算如下:
    在这里插入图片描述
    之所以用n-1而不是n,,是因为n-1会使得方差稍微大一些,更接近总体方差

    ③总体比例
    样本比例直接估计总体比例
    在这里插入图片描述

    四、比例抽样分布

    当考虑从一个总体中抽取所有大小为n的样本,由这些样本中的某个比例所形成的分布,就叫比例的抽样分布,一般用Ps表示样本比例变量

    一般用来求解这类问题:当得知公司生产的糖果有25%的红色的,那么随机抽取100个样本,至少有50%的糖果是红色的概率?

    Ps的期望和方差定义为:
    在这里插入图片描述
    如果n>30时,二项分布可以近似为正态分布
    在这里插入图片描述
    需要进行连续性修正

    五、均值抽样分布

    如果考虑从一个总体中抽出所有大小为n的样本,然后用这些样本的均值形成一个分布,那么这个分布就叫均值抽样分布。

    一般用来求解这类问题:总体中每个袋子平均有10颗糖,那么随机抽取一个袋子中糖的个数小于8的概率是多少?

    期望和方差的计算如下:
    在这里插入图片描述
    样本的均值期望就是总体的均值,而方差却不等于总体方差,这里是为什么呢?

    因为总体方差衡量的是总体样本的分散性,而均值方差衡量的是所有抽取的样本的均值的分散性,是2个不同的东西。用总体的方差/n 表示随着样本数量增多,样本均值方差会越来越小,意味着样本均值越来越接近于总体均值

    如果总体符合均值为μ,方差为σ^2的正态分布,那么抽取的样本均值符合如下分布:
    在这里插入图片描述
    如果总体不是正态分布时,那样本均值还会符合上述分布吗?答案是看情况,如果抽取的样本n很大时,还是符合上述分布的,这里要重点引出中心极限定理:
    在这里插入图片描述
    中心极限定理可以运用于:

    ① 如果总体属于二项分布,用X~B(n,p)表示,n>30,则样本均值的抽样分布近似N(np,pq/n)
    ② 如果总体属于泊松分布,用Po(λ)表示,n>30,则样本均值的抽样分布近似N(λ,λ/n)

    因为均值的抽样分布属于正态分布,就可以通过标准化再差概率表得到特定样本均值的概率了


    本人互联网数据分析师,目前已出ExcelSQLPandasMatplotlibSeaborn机器学习统计学个性推荐关联算法工作总结系列。


    微信搜索并关注 " 数据小斑马" 公众号,回复“统计”可以免费获取下方深入浅出统计学、统计学原理、赤裸裸的统计学9本统计学入门到精通必备经典教材
    在这里插入图片描述

    展开全文
  • 简介两独立样本检验可以判断两个独立的样本是否来自相同分布的总体。这种检验过程是通过分析两个独立样本的均值、中位数、离散趋势、偏度等描述性统计量之间的差异来实现的检验类型 Mann-Whitney U检验法 检验两个...
  • 在SPSS中独立样本T检验所检验的是独立样本,配对样本T检验检验的是相关样本。如何判断是独立样本还是相关样本呢? 举例说明: ... (相关样本)“考察家庭中夫妻之间收入的差异性”相关样本有一一...
  • 原文链接:衡量两个概率分布之间的差异性的指标 衡量两个概率分布之间的差异性的指标 衡量两个概率分布之间的差异性的指标 KL散度(Kullback–Leibler divergence) JS散度(Jensen-Shannon divergence) ...
  • 现有两组样本数据,假如它们分别基于两套不同的方法,或者测于不同的设备,又或是出自两个人之手,如何证明它们或没有显著性差别呢?当然可以拿个Excel表把数据画个图,然后找一堆人来投票,看觉得差不多还是觉得...
  • 简介在总体分布未知的条件下对样本来自的两相关配对总体是否具有显著差异进行的检验,可以判断两个相关的样本是否来自相同分布的总体检验方法 符号检验 符号检验是一种利用正、负号的数目对某种假设作出判定的非...
  • 如何判断两个现象间存在因果关系

    千次阅读 2020-06-10 20:15:45
    如何判断两个现象间存在因果关系/如何证明一个association是causal的 本博客为转载个人觉得合理的答案,不妥之处欢迎指正。 作者:程毅南 链接:https://www.zhihu.com/question/20532054/answer/15399462 来源:...
  • matlab人脸识别论文

    万次阅读 多人点赞 2019-10-11 17:41:51
    虽然人脸识别方法的分类标准可能有所不同,但是8前的研究主要有两个方向,一类是从人脸图像整体(Holistic Approaches)出发,基于图像的总体信息进行分类识别,他重点考虑了模式的整体属性,其中较为著名的方法:...
  • 关于统计学里面的P值,与定义的a是很有关系的,只有根据定义好的a,去判断P值是否有统计学意义。 以上是个人的一些理解。另外还想补充一下p值的具体含义(自己学的时候也总是不好理解): 就用p&amp;amp;amp;...
  • 建模方法(四)-因子分析定义和应用

    万次阅读 多人点赞 2018-08-20 20:58:05
    它通过研究众多变量之间的内部依赖关系,使用少数几“抽象”的变量来表示其基本的 数据结构。这几抽象的变量被称作“因子”,能反映原来 众多变量的主要信息。原始的变量是可观测的显在变量,而 因子一般是不可...
  • 遗传算法(一) 遗传算法的基本原理

    千次阅读 多人点赞 2020-02-03 22:25:13
    如果现在我们从生物学的角度来看这问题,那么请问:由上述过程产生的后代是否有和其父母一样的性状呢?答案是否。在后代的生长过程中,它们体内的基因会发生一些变化,使得它们与父母不同。这过程我们称为「变异...
  • 在统计学中,差异显著性检验是“统计假设检验”(Statistical hypothesis testing)的一种,用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。 在实验进行过程中,尽管尽量排除随机误差的...
  • SPSS比较两组数据有无显著性差异 独立样本T检验

    万次阅读 多人点赞 2021-01-15 12:08:26
    输入两组需要检验有无显著性... 0.05,两组数据的方差无显著差异,可以认为两个独立样本的方差一致 平均值等同性t检验,第五列Sig.(双尾)=0.786 在满足方差齐性的条件下,sig = 0.786 > 0.05,可以认为A、B组数据均
  • SPSS独立样本t检验

    千次阅读 2020-09-26 22:54:55
    总目录:SPSS学习整理 平均值检验目的适用情景数据处理SPSS操作SPSS输出...判断两个样本的均值是否相等 适用情景 数据处理 SPSS操作 SPSS输出结果分析 没啥说的 p=0.001<0.05认为平均值不等于50 知识点 ...
  • R语言差异检验:t检验

    千次阅读 2019-11-09 00:24:28
    文章目录@[toc]单样本t检验适用条件具体计算公式R语言示例独立样本t检验适用条件具体计算公式R语言示例配对样本t检验适用条件具体计算公式R...两样本均数的差异比较 分类: 单样本t检验 独立样本t检验 配对样本t...
  • SPSS实现独立样本非参数检验

    千次阅读 2020-09-30 00:09:27
    检验两个样本的分布是否相同 适用情景 数据处理 SPSS操作 这里勾选想检验的分布,体重数据勾选正态分布 SPSS输出结果分析 基本信息 p=0.684>0.05接受原假设,认为两组数据不存在显著差异。 第一个显著性为1...
  • 我目前是做BP网络非线性拟合,因为数据量庞大,样本等问题,一直收敛不到我的要求,我之前也考虑按维数归一化,因为我的样本第一个数据是300左右,最后的数据是0.1左右,这样的话由于一个样本的数据之间差异太大所以...
  • 其中,样本按照来源可以分为单样本两样本,按照样本容量大小可以分为大样本容量和下样本容量,根据中心极限定理,大样本容量下的总体均值、总体比例的抽验分布近似正态分布,而小样本容量下的抽样分布一般采t分布...
  • 基于卷积神经网络的人脸识别

    万次阅读 多人点赞 2020-07-06 16:59:22
    第六步确定优化器即最开始使用的是SGD优化器,SGD优化器随机梯度下降算法参数更新针对每一个样本集x(i) 和y(i) 。批量梯度下降算法在大数据量时会产生大量的冗余计算,比如:每次针对相似样本都会重新计算。这种情况...
  • 面板数据分析步骤及流程-R语言

    万次阅读 多人点赞 2016-08-16 16:49:55
    面板数据(Panel Data),也成平行数据,具有时间序列和截面两个维度,整个表格排列起来像是一个面板。 面板数据举例: 模型说明及分析步骤 1、首先确定解释变量和因变量; 2、R语言操作数据格式...
  • 所谓显著性差异,就是证明数据的差异不是偶然发生的。 一、为什么t检验和wilcoxon秩和检验要二选一? 示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 二、使用步骤 1.引入库 代码...
  • 首先我们要界定好独立样本是指两个样本之间彼此独立,没有任何的相关关系,用数理统计的语言来说就是相关系数为0。 然后在菜单栏依次点击Analyze -> Compare Mean ->Independent-Samples T Test,进入...
  • 工作中遇到要对两个Excel表格文件进行数据对比,找出其中不同的行。例如,比较同一用户的信息是否一致,这里的信息可能是不同版本的,但是属性列是一致的,数据内容上可能不同。如下表所示: Excel 1 姓名 性别...
  • 一、t检验的概念 以 t 分布(未知)为基础的一类比较均数的假设检验方法,t 分布的发现使得小样本统计推断成为可能。...推断样本所属总体的均数是否已知值有差异。 例 某研究人员在东北某县抽取...
  • 先概括一下:本文主要阐述了A/Btest中组间差异的比率检验(单比率检验,双比率检验),统计功效和,以及何通过显著性水平还有统计功效反实验所需选样本量。根绝这些理论使用python对着三功能封装成类,进行实现 一...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 25,581
精华内容 10,232
关键字:

判断两个样本是否有差异