精华内容
下载资源
问答
  • u检验、t检验、F检验、卡方检验详细分析

    万次阅读 多人点赞 2019-09-10 17:30:29
    要点: 一、正态分布是统计学的基础,它对于各种假设检验极其的重要,t...二、假设检验步骤 1 提出假设,包括无效假设H0和备择假设H1。 2 预设检验水准,一般设为0.05,概率小于0.05为小概率事件 3 选定检...

    要点:

    一、正态分布是统计学的基础,它对于各种假设检验极其的重要,t分布,F分布,卡方分布都是基于正态分布衍生出来的,而且中心极限定理也证明了,多数分布在样本量n足够大的情况下,其样本均值服从正态分布。

    二、假设检验的步骤

           1 提出假设,包括无效假设H0和备择假设H1。

           2 预设检验水准\alpha,一般设为0.05,概率小于0.05为小概率事件

           3 选定检验方法,检验方法的选定要依据抽样的样本数量等因素进行确定

           4 依据检验方法,确定在H0假设下的发生概率,如果小于0.05,则证明,H0假设为小概率事件,就可以拒绝H0

    三、假设检验的实质是否定,是为了否定H0。


    一、u检验(总体均值,总体方差已知的情况下使用)

           u检验,又称为z检验,是基于正态分布的检验。举个简单的例子:

     一台机器生成某种金属球,直径服从正态分布N(10,0.04)。抽取100个样本后,发现样本的均值为9.8cm,请问该机器生产的产品直径的均值是否为10cm。在0.05的显著性水平下

    1、H0:u_{0}=10cm   H1:u_{0}\neq 10cm

    2、取\alpha=0.05

    3、样本量为100,所以这里选择u检验(为什么会选择u检验,而不选择t检验?在总体方差已经知道的情况下,不管样本数量多少都可以选择u检验。而如果总体方差未知,且样本数量小于40,则应该选择t检验。那么如果总体方差未知,但是样本数量超过40了,则u检验和t检验都可以使用,因为样本量大的情况下,t分布趋向于正态分布

    4、计算

    u=\frac{9.8-10}{0.2/\sqrt{100}}=-10

    可以发现这里是双边检验,所以查u_{0.025}=1.96。所以拒绝H0

    二、t检验(总体均值已经知道,但总体方差未知,只知道样本的方差)

      (一)、单总体t检验

     一台机器生成某种金属球,直径服从正态分布。抽取16个样本后,发现样本的均值为9.8cm,方差为0.04,请问该机器生产的产品直径的均值是否为10cm。在0.05的显著性水平下

    1、H0:u_{0}=10cm   H1:u_{0}\neq 10cm

    2、取\alpha=0.05

    3、总体方差未知,样本量为16,所以这里选择t检验(如果样本数量较大,比如超过40,亦可以选择u检验)

    4、计算

    t=\frac{9.8-10}{0.2/\sqrt{16}}=-4

    t_{0.025}(15)=2.49,所以拒绝H0

     (二)、两总体t检验(这两个总体的方差齐,且服从正态分布)

    两台机器A,B生产某种金属球,从A生产的产品中取16件,发现其均值为9.8cm,方差为0.04,从B生产的产品中取9件,发现其均值为9.7cm,方差为0.015,是否可以认定A,B产品的直径有显著性差异,在0.05的显著性水平下。

    1、H0:\mu _{A} =\mu_{B}   H1:\mu _{A} \neq \mu_{B}

    2、取\alpha=0.05

    3、判断两个总体的均值是否有显著性差异,要用t检验

    4、计算

    t=\frac{9.8-9.7}{\sqrt{\frac{0.04}{16}+\frac{0.015}{9}}}=1.5506

    t_{0.025}(16+9-2)=2.3978,所以接受H0。

    三、卡方检验(总体均值未知,单个正态总体的卡方检验,卡方检验的目标是为了检验样本的总体是否符合某种分布)

    一台机器生成某种金属球,直径服从正态分布。抽取16个样本后,发现样本的均值为9.8cm,方差为0.04,请问该机器生产的金属球的直径的方差是否为0.02。

    1、H0:\sigma ^{2}=0.02   H1:\sigma ^{2}\neq 0.02

    2、取\alpha=0.05

    3、总体均值未知,样本量为16,所以这里选择卡方检验

    4、计算

    \chi ^{2}=\frac{(n-1)s^{2}}{\sigma ^{2}}=\frac{(16-1)*0.04^{2}}{0.02 ^{2}}=60

    \chi ^{2}_{0.05}(15)=24.995,所以拒绝H0,说明金属球的直径不符合方差为0.02的正态分布。

    注:卡方检验还有另一种计算方式为

    \sum_{i}^{n}\frac{A_{i}-np_{i}}{np_{i}}

    四、F检验(总体均值未知,两个正态总体的F检验,F检验的目标是为了检验两个样本的总体的方差是否相同,t检验中的方差齐是可以用F检验来进行检验的)

    两台机器A,B生产某种金属球,从A生产的产品中取10件,发现其方差为0.02,从B生产的产品中取10件,发现其方差为0.015,是否可以认定A,B产品的方差相等,在0.05的显著性水平下。

    1、H0:\sigma_{A} ^{2}=\sigma_{B} ^{2}   H1:\sigma_{A} ^{2}\neq \sigma_{B} ^{2}

    2、取\alpha=0.05

    3、判断两个总体的方差是否齐,要用F检验

    4、计算

    F=\frac{\frac{1}{n}\sum_{i}^{n}X_{i}^{2}}{\frac{1}{m}\sum_{j}^{m}X_{j}^{2}}=\frac{D_{i}}{D_{j}}

    将数据带入得到F=1.333,查F_{0.05}(10,10)=2.978,所以接受H0,说明在0.05的显著性水平下可以认为方差相等。

    展开全文
  • 假设检验-U检验、T检验、卡方检验、F检验

    万次阅读 多人点赞 2019-06-20 16:47:41
    一、假设检验 假设检验是根据一定的假设条件,由样本推断总体的一种方法。 假设检验的基本思想是小概率反证法思想,小概率思想认为小概率事件在一次试验中基本上不可能发生,在这个方法下,我们首先对总体作出一个...

    一、假设检验

    假设检验是根据一定的假设条件,由样本推断总体的一种方法。

    假设检验的基本思想是小概率反证法思想,小概率思想认为小概率事件在一次试验中基本上不可能发生,在这个方法下,我们首先对总体作出一个假设,这个假设大概率会成立,如果在一次试验中,试验结果和原假设相背离,也就是小概率事件竟然发生了,那我们就有理由怀疑原假设的真实性,从而拒绝这一假设。

    二、假设检验的四种方法

    1、有关平均值参数u的假设检验

    根据是否已知方差,分为两类检验:U检验和T检验。
    如果已知方差,则使用U检验,如果方差未知则采取T检验。

    2、有关参数方差σ2的假设检验

    F检验是对两个正态分布的方差齐性检验,简单来说,就是检验两个分布的方差是否相等

    3、检验两个或多个变量之间是否关联

    卡方检验属于非参数检验,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。根本思想在于比较理论频数和实际频数的吻合程度或者拟合优度问题。

    三、U检验(Z检验)

    U检验又称Z检验。

    Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法(总体的方差已知)。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。

    Z检验步骤:

    第一步:建立虚无假设 H0:μ1 = μ2 ,即先假定两个平均数之间没有显著差异,

    第二步:计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法,

    1、如果检验一个样本平均数(X)与一个已知的总体平均数(μ0)的差异是否显著。其Z值计算公式为:

    其中:

    X是检验样本的均值;

    μ0是已知总体的平均数;

    S是总体的标准差;

    n是样本容量。

    2、如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著。其Z值计算公式为:

    第三步:比较计算所得Z值与理论Z值,推断发生的概率,依据Z值与差异显著性关系表作出判断。如下表所示:

    第四步:根据是以上分析,结合具体情况,作出结论。

    例子:一种原件,要求使用寿命不低于1000小时,现从一批这种原件中抽取25件,测得其使用寿命的平均值为950小时,已知该原件服从标准差S=100小时的正太分布,试在显著性水平α=0.05下确定这批原件是否合格

    解:使用寿命小于1000小时即为不合格,此题为左单侧检验

          拒绝域为:Z<-μα  ;  查表得  μ0.05=1.65

    已知s2=100*2,X=950,n=25  假设H0:μ=1000;H1<1000

    选取统计量 Z=(X - μ)(S/√n)= (950-1000)/(100/√25)=-2.5

    因为 Z=-2.5<<-μα  =-1.65 ,所以拒绝H0,即认为这批原件不合格

    四、T检验

    亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。目的是用来比较样本均数所代表的未知总体均数μ和已知总体均数μ0。

    T统计量计算公式:

    自由度:v=n - 1

    T检验的步骤

    第一步:建立虚无假设H0:μ1 = μ2,即先假定两个总体平均数之间没有显著差异;

    第二步:计算统计量T值,对于不同类型的问题选用不同的统计量计算方法

    1、如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度,其统计量T值的计算公式为:

    2、如果要评断两组样本平均数之间的差异程度,其统计量T值的计算公式为:

    第三步:根据自由度df=n-1,查T值表,找出规定的T理论值并进行比较。理论值差异的显著水平为0.01级或0.05级。不同自由度的显著水平理论值记为T(df)0.01和T(df)0.05

    第四步:比较计算得到的t值和理论T值,推断发生的概率,依据下表给出的T值与差异显著性关系表作出判断。

    第五步:根据是以上分析,结合具体情况,作出结论。

    实际应用中,T检验可分为三种:单样本T检验、配对样本T检验和双独立样本T检验

    单样本T检验

    例子:已知某班的一次数学测验成绩复查正态分布,现从全班中抽取16人,测得这些人成绩是[50,44,91,90,74,72,89,81,65,62,68,74,63,61,33,47],问在α=0.05下,是否可以认为全体考生的平均分是70分?

    from scipy import stats
    import numpy as np
    
    rvs = [50,44,91,90,74,72,89,81,65,62,68,74,63,61,33,47]
    mean = np.mean(rvs)#均值
    std = np.std(rvs)#标准差
    print("均值:",mean,"  标准差:",std)
    
    t_val, p = stats.ttest_1samp(rvs, 70)
    print("t_val:",t_val,"   p值:", p)

    结论,因为p值=0.42>0.05,所以可以认为全体考生的平均分是70分

    配对样本T检验

    配对t检验是采用配对设计方法观察以下几种情形:

    1.配对的两个受试对象分别接受两种不同的处理;

    2.同一受试对象接受两种不同的处理;

    3.同一受试对象处理前后的结果进行比较(即自身配对);

    4.同一对象的两个部位给予不同的处理。

    例子:在针织品漂白工艺过程中, 要考虑温度对针织品断裂强力(主要质量指标)的影响。为了比较70℃与80℃的影响有无差别,在这两个温度下,分别重复做了8次试验,强力数据如下。问在70℃时的平均断裂强力与80℃时的平均断裂强力间是否有显著差别? 假定断裂强力服从正态分布(α=0.05)

    70℃时的强力:20.5, 18.8, 19.8, 20.9, 21.5, 19.5, 21.0, 21.2

    80℃时的强力:17.7, 20.3, 20.0, 18.8, 19.0, 20.1, 20.0, 19.1

    from  scipy.stats import ttest_rel
    import pandas as pd
    
    x = [20.5, 18.8, 19.8, 20.9, 21.5, 19.5, 21.0, 21.2]
    y = [17.7, 20.3, 20.0, 18.8, 19.0, 20.1, 20.0, 19.1]
    # 配对样本t检验
    t_val, p = ttest_rel(x, y)
    print('t_val:',t_val,"   p值:", p)

    结论: 因为p值=0.1149>0.05, 故接受原假设, 认为在70℃时的平均断裂强力与80℃时的平均断裂强力间无显著差别

    双独立样本T检验

    例子:甲乙两台机床加工螺丝帽,螺丝帽的半径都服从正态分布,为验证两台机床加工的螺丝帽半径是否相等,分别取两台机床加工的8、7枚螺丝帽进行测量,分别测得[20.5,19.8,19.7,20.4,20.1,20.0,19.0,19.9]\[20.7,19.8,19.5,20.8,20.4,19.6,20.2] 问两台机器生产的螺丝帽半径是否有差异(α=0.05)

    from scipy.stats import norm,ttest_ind #引入正态分布(norm),T检验(ttest_ind)
    
    n1_samples = [20.5,19.8,19.7,20.4,20.1,20.0,19.0,19.9]
    n2_samples = [20.7,19.8,19.5,20.8,20.4,19.6,20.2]
    
    #独立双样本 t 检验的目的在于判断两组样本之间是否有显著差异:
    t_val, p = ttest_ind(n1_samples, n2_samples)
    print('t_val:',t_val,"   p值:", p) #p值小于0.05时,认为差异显著;大于等于0.05时表示差异不显著

    结论:p值=0.408>0.05,接受原假设,甲乙机床制造的螺丝帽半径没有显著性差异

    五、卡方检验

    卡方检验又称X2检验,就是检验两个变量之间有没有关系。

    属于非参数检验,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。根本思想在于比较理论频数和实际频数的吻合程度或者拟合优度问题。

    X2计算公式为:

    例子1:有AB两种药可以治疗某种疾病,问两种药物的疗效是否相同?

    药类

    有效

    无效

    合计

    有效率

    A药

    67

    26

    93

    72.04%

    B药

    44

    30

    74

    59.46%

    合计

    111

    56

    167

    66.47%

    解:建立假设H0,两种药物疗效相同,计算得其理论值为:

    药类

    有效

    无效

    合计

    A药

    61.831.2

    93

    B药

    49.224.8

    74

    合计

    111

    56

    167

    X2=(67-61.8)2/61.8+(26-31.2)2/31.2+(44-49.2)2/49.2+(30-24.8)2/24.8=2.94

    查表得P>0.1,按0.05标准,不拒绝H0,即可以认为两种药物的疗效相同

    例子2:探究死亡年龄和居住地、性别是否有关?

    #old     | ruralMale| ruralFemale | urbanMale | urbanFemale
    #50-54 | 11.7        | 8.7               | 15.4           | 8.4
    #55-59 | 18.1        |11.7              | 24.3           | 13.6
    #60-64 | 26.9        | 20.3             | 37              | 19.3
    #65-69 | 41           | 30.9             | 54.6           | 35.1
    #70-74 | 66           | 54.3             | 71.1           | 50

    from  scipy.stats import chi2_contingency
    import numpy as np
    kf_data = np.array([[11.7,8.7,15.4,8.4], 
                        [18.1,11.7,24.3,13.6],
                        [26.9,20.3,37,19.3],
                        [41,30.9,54.6,35.1],
                        [66,54.3,71.1,50]])
    kf = chi2_contingency(kf_data)
    print('chisq-statistic=%.4f, p-value=%.4f, df=%i \n expected_frep: \n%s'%kf)

    结论: 因为p值=0.9961>0.05, 故接受原假设, 认为死亡年龄和居住地、性别无显著差别。

    六、F检验

    F检验法是检验两个正态随机变量的总体方差是否相等的一种假设检验方法。

    F统计量计算公式:

    例子:存在两组数据,需要验证这两组数据的方差齐性。
    x = [20.5, 18.8, 19.8, 20.9, 21.5, 19.5, 21.0, 21.2]
    y = [17.7, 20.3, 20.0, 18.8, 19.0, 20.1, 20.0, 19.1]

    from scipy.stats import levene
    
    x = [20.5, 18.8, 19.8, 20.9, 21.5, 19.5, 21.0, 21.2]
    y = [17.7, 20.3, 20.0, 18.8, 19.0, 20.1, 20.0, 19.1]
    f_val, p = levene(x, y)
    print(f_val, p)

    结论,p值=0.93大于0.05,认为两个总体不具有方差齐性

     

    参考博客:

    https://blog.csdn.net/weixin_34289454/article/details/88178694

    https://blog.csdn.net/ludan_xia/article/details/81737669

     

    展开全文
  • 独立样本T检验及Mann-Whitney U 检验操作正态性校验数据整体是否符合正态分布SPSS中的操作步骤某分组上是否符合正态分布SPSS中的操作步骤独立样本t检验SPSS中的操作步骤Mann-Whitney U 检验SPSS中的操作步骤方法1...


    一个连续型变量数据是否符合正态分布,通常有以下两种情况:一种情况是数据本身整体的分布是否符合正态分布;另一种就是数据在某个分组上是否符合正态分布。

    正态性校验

    数据整体是否符合正态分布

    检验数据本身整体是否符合正态分布

    下面是为了分析菌群α多样性指数Chao1,Shannon以及observed_otus指数在正常和模型组之间有无显著性差异,所以需要先分析Shannon这一列数据是否符合正态分布(图1)
    在这里插入图片描述

    SPSS中的操作步骤

    ①依次点击:“分析”-“非参数检验”-“旧对话框”-“单样本K-S”(图2),在弹出的对话框中,将“年龄”选入右侧栏中,并在下方“检验分布”中勾选“正态”(图3)选项。然后点击确定。在这里插入图片描述
    ②分析结果

    从上方SPSS的输出结果可以看出:渐近显著性(双侧)为0.073大于0.05,意味着Shannon数据整体是符合正态分布的。

    检验变量在某个分组上是否符合正态分布
    在这里插入图片描述
    还是用上面的案例,如果要比较不同组别的Shannon是否有差异,这时候就需要检验Shannon在不同组别上是否符合正态分布。

    某分组上是否符合正态分布

    在SPSS中,正态分布的检验方法有:计算偏度系数(Skewness)和峰度系数(Kurtosis)、Kolmogorov-Smirnov检验(KS检验或D检验)、Shapiro-Wilk(SW检验或W检验)、直方图、QQ图等。

    SPSS中的操作步骤

    ①依次点击:“分析”-“描述统计”-“探索”
    在这里插入图片描述
    ②在弹出的窗口中,将“Shannon”选入因变量列表,将“性别”选入“Group”列表
    在这里插入图片描述
    ③设置参数,点击右侧的“图”按钮,勾选“含检验的正态图”,点击继续,再点击确定。
    在这里插入图片描述
    ④结果分析,在结果界面点击左侧“正态性检验”标签,在右侧的正态性检验表中,看夏皮洛-威尔克那部分的显著性水平
    在这里插入图片描述
    此表,是对数据的统计描述,我们可以关注下偏度(Skewness)和峰度(Kurtosis)。
    偏度SK越趋近0,数据越服从正态分布,众数=中位数=平均数;SK>0,为正偏态或左偏,众数<中位数<平均数;SK<0,为负偏态或右偏,众数>中位数>平均数。
    峰度KG越趋近3,数据越服从正态分布;KG>3,峰度尖锐;KG<3,峰度扁平。(或exceess_KG=KG-3,exceess_KG越趋近0,数据越服从正态分布)
    但是仅根据偏度和峰度还不足以判断数据是否服从正态分布,需要做进一步的检验。

    由上图正态性校验可以看出1分组P>0.05,2分组P>0.05,**这里注意了:当所有分组的P都大于0.05,就能说是符合正态分布,只要有一个分组的P小于0.05,就拒绝变量符合正态分布的结论。**Shannon在分组上就符合正态分布了,所以就可以使用参数类的t检验,若不符合就使用非参数Mann-Whitney检验了。

    注意:大样本看KS,小样本看SW。

    独立样本t检验

    SPSS中的操作步骤

    ①点击“分析”–“比较平均值”–“独立样本t检验”
    在这里插入图片描述
    ②将Shannon选入右侧检验变量,将Group选入分组变量
    在这里插入图片描述
    ③点击“定义组”,设置性别的分组编码,然后点击确定进行运算
    在这里插入图片描述
    ④结果分析
    在这里插入图片描述
    基于来莱文方差等同性检验,如果方差齐,就选择第一行的T检验结果,如果方差不齐则接受第二行的T检验结果。这里判定方差齐性的标准为莱文方差等同性检验的显著性,基于本例为0.107>0.05,意味着原假设方差齐成立,接受假设方差齐。因此这里的T检验结果为:T=0.499,P=0.631>0.05。所以Shannon指数在正常与模型组之间没有显著性差异。

    Mann-Whitney U 检验

    Mann-Whitney U 检验是用得最广泛的两独立样本秩和检验方法。简单的说,该检验是与独立样本t检验相对应的方法,当正态分布、方差齐性等不能达到t检验的要求时,可以使用该检验。其假设基础是:若两个样本有差异,则他们的中心位置将不同。

    为了分析菌群α多样性指数Chao1,Shannon以及observed_otus指数在正常和模型组之间有无显著性差异。
    SPSS数据视图:
    在这里插入图片描述
    变量视图:
    在这里插入图片描述

    SPSS中的操作步骤

    方法1

    U值计算公式:U=n1*n2+n1(n1+1)/2-R
    R为R1和R2中较小的值
    R1、R2分别为两组秩的总和

    操作步骤

    进入菜单如下图:
    在这里插入图片描述
    点击进入如下的界面,“目标”选项卡定制分析
    在这里插入图片描述
    进入“字段”选项卡,将“Group”选入“检验字段”框,将“Chao1,Shannon和Observe-otus”选入“检验字段”框中。
    在这里插入图片描述
    再进入“设置”选项卡,选中“定制检验”单选按钮,选择“Mann-Whitney U(二样本)”检验。点击“运行”即可。
    在这里插入图片描述
    结果解读
    这是输出的主要结果,零假设是“在Group类别上,Shannon等分布相同”,其P=0.690,0.548,0.421>0.05,故保留原假设,认为这三个指数在正常组与模型组之间没有统计学差异。
    在这里插入图片描述
    双击该数据集,可以查看详细信息。

    方法2

    U值计算公式:
    U1=n1n2+n1(n1+1)/2-R1
    U2=n1
    n2+n2(n2+1)/2-R2
    U为U1和U2中较小的值

    操作步骤

    1. 在SPSS 18及之后版本中,可以点击Analyze — Nonparametric Tests — Legacy Dialogs(旧对话框) — 2 Independent Samples(如下图所示),本文按照此操作步骤为例来展示。[版本18之前的软件点击Analyze——Nonparametric Tests——2 Independent Samples]
      在这里插入图片描述
      出现如下对话框,勾选检验类型“Test Type”中的“Mann-Whitney U”选项:
      在这里插入图片描述
    2. 将因变量“engagement”放入“Test Variable List”,将自变量“gender”放入“Grouping Variable” 在这里插入图片描述
      注:如果有多个需要分析的因变量,可以一齐放入“Test Variable List”,在报告结果时可以同时显示多个因变量与性别之间的关系。例如,加入自变量“happiness” (如下图所示):
      在这里插入图片描述
    3. 点击分组变量中的分组定义“Define Groups”,将性别分组中男性组的赋值1填写至“Group 1”,将女性组的赋值2填写至“Group 2”,点击下方的“Continue”。
      在这里插入图片描述
    4. 返回至主对话框后点击“Option”按钮,如果在处理的数据中有缺失值,在“Missing Values”中选择“Exclude cases test-by-test”,在进行Mann-Whitney U检验时可以自动排除缺失数据。
      在这里插入图片描述
      注:如果选择了多个因变量进入此项分析,例如数据中有两个因变量:

    “engagement”与“happiness”,这两个因变量中均有缺失值,第8名调查者的“engagement”数据缺失,第11名调查者的“happiness”数据缺失,处理缺失数据时选择“Exclude cases test-by-test”或者“Exclude cases listwise”是有区别的:

    ① 选择“Exclude cases test-by-test”

    选择“Exclude cases test-by-test”后,只排除缺失的数据,其余数据均保留。如分析“engagement”时,只排除第8名调查者的缺失数据,而第11名调查者的数据保留,而分析“happiness”时只排除第11名调查者的缺失数据,而第8名调查者的数据保留。
    在这里插入图片描述
    【选择“Exclude cases test-by-test”模式,分析幸福值的性别差异时将包括第8名调查者的“happiness”变量值(5.66);选择“Exclude cases test-by-test”模式,分析接受程度评分的性别差异时将包括第11名调查者的“engagement”变量值(5.83)】

    ② 选择“Exclude cases listwise”

    选择“Exclude cases listwise”意味着,任何一个因变量中有数据缺失,那么该调查者的全部数据都被剔除,例如第8名调查者中“engagement”中数据缺失,第11名调查者“happiness”数据缺失,那么在在进行Mann-Whitney U检验时将第8名与第11名调查者的数据同时剔除。
    在这里插入图片描述
    【选择“Exclude cases listwise”模式,分析幸福值的性别差异时将不包括第8名调查者的“happiness”变量值(5.66);选择“Exclude cases listwise”模式,分析接受程度评分的性别差异时将不包括第11名调查者的“engagement”变量值(5.83)】

    1. 选择对话框中Statistics中的Deive与Quartiles选项后选择Continue。
      在这里插入图片描述
      提示:选择Statistics中的Deive与Quartiles选项后,报告出的结果并不一定是有用的,例如我们希望分别得到男性和女性组中广告接受程度的中位数,而结果只会报告广告接受程度及性别变量的中位数。因此,下一步我们介绍两组的中位数如何计算。

    2. 最后回到Two-Independent-Sample Tests对话框,点击OK,得到输出结果。

    计算各分组的中位数

    在SPSS软件中进行Mann-Whitney U检验,无法报告各分组的中位数,而中位数是两组比较时的重要参数。因此,我们可以通过以下6步完成中位数的计算。

    (1) 点击菜单中Analyze>Compare Means>Means…
    在这里插入图片描述
    出现中位数计算的对话框,如下图所示:
    在这里插入图片描述
    2. 将engagement放入因变量列表中,将gender放入自变量中。
    在这里插入图片描述
    3. 选择Options按钮,选择需要计算的参数:
    在这里插入图片描述
    4. 选择Median,取消预先选择的Mean、Number of Cases、Standard Deviation。
    在这里插入图片描述
    5. 点击Continue,返回Means对话框。
    6. 点击OK,得到结果。

    结果解读

    1. Mann-Whitney U检验结果

    本例中男性组和女性组的数据分布相似,因为我们先解读数据分布相似时的结果,使用旧对话框得出的结果如下图所示:
    在这里插入图片描述
    Test Statistics表格中Mann-Whitney U代表检验的U统计量值为145;Z代表Z值;Asymp.Sig(2-tailed)代表渐进P值;Exact Sig[2*(1-tailed Sig.)]代表精确P值。

    样本量越大,渐进P值就越接近真实P值。当每个分组的样本量小于20时,SPSS软件会自动计算精确P值,此时选择精确P值来判断检验假设。当样本量大于20时,渐进P值可以很好地代表真正的P值,因此选择渐进P值来判断检验假设。

    本例中每组的样本量为20个,结果报告了精确P值为0.142,本例选用精确P值判断检验假设,P值大于界值0.05,因此不能拒绝原假设,即不能认为男性组和女性组的广告接受程度有统计学差异。

    提示:如果在SPSS报告的结果中发现渐进P值与精确P值显示为“0.000”,这意味着P值小于0.0005,并不是真的为0。

    2. 计算中位数输入结果

    在本文的第六步中可以计算出各组的中位数值如下图:
    在这里插入图片描述
    【Median:中位数;gender:性别;engagement:接受度评分;Male:男性;Female:女性;Total:全部;】

    3. 计算结果的表达

    ① 数据分布相同的结果表达——中位数

    中文表述:使用Mann-Whitney U检验判断男性与女性对于此药品广告的接受程度是否有差异。通过柱形图可以判断两组接受程度评分的数据分布相似。男性组中接受度评分的中位数为5.58,女性组中接受度评分的中位数为5.38。Mann-Whitney U检验结果显示男性组与女性组的接受度评分差异没有统计学意义,U=145,Z=-1.488,P=0.142。

    英文表述:A Mann-Whitney U test was run to determine if there were differences in engagement score between males and females. Distributions of the engagement scores for males and females were similar, as assessed by visual inspection. Median engagement score for males (5.58) and females (5.38) was not statistically significantly different, U = 145, z = -1.488, p = .142, using an exact sampling distribution for U (Dineen & Blakesley, 1973).

    ② 数据分布不同的结果表达——平均秩次

    如果在实际的数据计算中发现各分组中数据的分布形状不同,则不能用中位数进行比较,需要对各组的数据进行编秩,算出平均秩次。

    中文表述:使用Mann-Whitney U检验判断男性与女性对于此药品广告的接受程度是否有差异。通过柱形图可以判断两组接受程度评分的数据分布不同。Mann-Whitney U检验结果显示男性组(平均秩次为23.25)与女性组(平均秩次为17.75)对于此药品广告的接受度评分差异没有统计学意义,U=145,Z=-1.488,P=0.142。

    英文表述:A Mann-Whitney U test was run to determine if there were differences in engagement score between males and females. Distributions of the engagement scores for males and females were not similar, as assessed by visual inspection. Engagement scores for males (mean rank = 23.25) and females (mean rank = 17.75) were not statistically significantly different, U = 145, z = -1.488, p = .142, using an exact sampling distribution for U (Dineen & Blakesley, 1973).

    展开全文
  • 假设检验步骤及实例

    2021-05-31 21:57:11
    因为备选假设是公司引擎排放满足标准,也就是平均值u所以我们使用单尾检验中的左尾检验 总结 综合以上分析,本次假设检验是单样本,t分布检验,单尾检验中的左尾。 证据是什么? 在零假设成立前提下,得到样本平均...
    import pandas as pd 
    import numpy as np
    import matplotlib.pyplot as plt
    

    “超级引擎”是一家专门生产汽车引擎的公司,根据政府发布的新排放要求,引擎排放平均值要低于20ppm,(ppm是英文百万分之一的缩写,这里我们只要理解为是按照环保要求汽车尾气中碳氢化合物要低于20ppm)

    data = pd.Series([15.6,16.2,22.5,20.5,16.4,
                       19.4,16.6,17.9,12.7,13.9])
    
    mean=data.mean()
    
    std=data.std()
    print("样本标准差:",std)
    print("样本均值:",mean)
    
    样本标准差: 2.9814426038413018
    样本均值: 17.169999999999998
    

    原假设和备假设

    原假设H0:公司引擎排放不满足标准,也就是平均值u>=20。这里的20是政府规定新标准的最低可能值。

    备选假设H1:公司引擎排放满足标准,也就是平均值u<20

    确定检验类型

    检验类型有很多种,因为这里只有1个样本,所以选择单样本检验

    确定抽样的分布类型

    在我们这个汽车引擎案例中,样本大小是10(小于30),属于小样本。那小样本的抽样分布是否满足t分布呢?因为t分布还要求数据集近似正态分布,所以我们看下样本数据集的分布长什么样。

    import seaborn as sns
    plt.rcParams['font.sans-serif']=['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    sns.distplot(data)
    plt.title('数据集分布')
    plt.grid(True)
    plt.show()
    

    上图可知:满足正态分布,符合t分布,自由度df=n-1=10-1=9

    检验方向

    单尾检验(左尾,右尾),还是双尾检验?

    因为备选假设是公司引擎排放满足标准,也就是平均值u<20

    所以我们使用单尾检验中的左尾检验

    总结

    综合以上分析,本次假设检验是单样本,t分布检验,单尾检验中的左尾。

    证据是什么?

    在零假设成立前提下,得到样本平均值的概率p是多少?
    计算p值步骤:

    (1)计算出标准误差

    标准误差=样本标准差除以样本大小n的开方。这里的样本标准差是用来估计总体标准差的

    (2)计算t值

    t=(样本平均值-总体平均值)/标准误差

    (3)根据t值,自由度的计算出概率p值

    from scipy import stats
    pop_mean = 20
    t,p_two = stats.ttest_1samp(data,pop_mean)
    print('t值 = ',t,'双尾检验的p值=',p_two)
    
    t值 =  -3.001649525885985 双尾检验的p值= 0.014916414248897527
    
    p_one = p_two/2
    print('单尾检验的p值=',p_one)
    
    单尾检验的p值= 0.0074582071244487635
    

    判断标准是什么?

    alpha=0.05
    
    if(t<0 and p_one< alpha): 
        #左尾判断条件
        print('拒绝零假设,有统计显著,也就是汽车引擎排放满足标准')
    else: 
        print('接受零假设,没有统计显著,也就是汽车引擎排放不满足标准')
    
    拒绝零假设,有统计显著,也就是汽车引擎排放满足标准
    
    #查找t表格获取95%的置信水平,自由度n-1对应的t值
    t_ci = 2.262
    
    # 使用scipy计算标准误差
    se = stats.sem(data)
    
    # 置信区间上限
    a = mean - t_ci * se
    
    #置信区间下限
    b=mean + t_ci * se
    
    print('单个平均值的置信区间,95置信水平 CI=(%f,%f)'%(a,b))
    
    单个平均值的置信区间,95置信水平 CI=(15.037353,19.302647)
    

    数据分析报告

    1、描述统计分析

    样本平均值 17.17ppm,样本标准差2.98ppm

    2、推论统计分析

    (1)假设检验 单样本t(9)=-3.00 , p=.0074 (α=5%),单尾检验(左尾)

    公司引擎排放满足标准

    (2)置信区间

    单个平均值的置信区间,95% CI=(17.11,17.23)

    
    
    展开全文
  • 曼-惠特尼U检验

    千次阅读 2016-01-15 15:46:58
    曼-惠特尼U检验又称“曼-惠特尼秩和检验”,是由H.B.Mann和D.R.Whitney于1947年提出的。它假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是检验这两个总体的均值是否有显著的差别。 一.定义 曼-...
  • “Mann-Whitney U检验主要用于检验两组样本是否来自同一总体,也等价于判断两组样本是否存在差异(例如,均值显著不同则必然来自不同的总体)。Mann-Whitney U检验思想与Wilcoxon带符号的等级检验类似,不同之处在于...
  • covariance(eviews做协整检验步骤)

    千次阅读 2021-03-22 09:35:40
    u'v??ri?ns]美音:[ko'v?r??ns] 【数】协方差 realized covariance的中文翻译realized covariance 实现协方差双语例句1Firstly, a weighted realized variance and a weighted realized covariance which arebased ...
  • 假设检验及其相关概念的定义1.1 什么是假设检验1.2 一些基本概念1.3 解释p值与计算p值1.4 单双测检验2 假设检验的方法2.1 z检验2.1.1 z检验的定义及公式2.1.2 z检验的实例2.2 t检验2.2.1 t检验的定义2.2.2 t检验的...
  • 除了使用Wilcoxon进行单样本位置检验外,其实也可以使用wilcoxon进行两样本位置检验,基本原理与单样本中心位置检验一样:将来组容量相等的样本值做差,然后分别计算差值中为负数的秩和(R−R^-R−)和为正的秩和(R+...
  • 曼-惠特尼U检验(Mann-Whitney检验) How the Mann-Whitney test works Mann-Whitney检验又叫做秩和检验,是比较没有配对的两个独立样本的非参数检验。思想是这样的:假定要检验两组数据之间有没有差异。...
  • 对于8个单细胞转录组数据集,...统计上述8个数据集的ARI和NMI均值,作为NMI和SE聚类的性能评估,但均值可能是随机采样导致的结果更优,如果要严格说明需进行统计学分析,如Mann-Whitney U等统计方法,如果得到pval...
  • GraphPad prism卡方检验操作详细步骤

    千次阅读 2020-12-29 17:17:01
    一、卡方检验软件操作1.选择所需图表样式①打开软件,选择左侧 New Table & Graph 中的 Contingency 选项。②点击创建。2.输入数据,完善表格①在此处输入数据所设置的组别。②在此处输入各组的所有的样本数据。...
  • 工具/原料 UNetbootin软件下载地址: http://www.downcc.com/soft/info/10708.html Ubuntu系统光盘iso文件自己搜索下载地址 方法/步骤 1首先要检验一下你下载的iso文件的完整性。就是平时大家说的hash值。 hash 1.04...
  • Mann-whitney 检验算法学习

    万次阅读 2018-05-13 00:26:24
    曼-惠特尼U检验又称“曼-惠特尼秩和检验”,是由H.B.Mann和D.R.Whitney于1947年提出的 [1] 。它假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是检验这两个总体的均值是否有显著的差别。 2、Mann...
  • 数学建模的时候自己找的显著性检验的几个有用的例子,感觉可以参考下,分享给大家
  • 概率论:假设检验

    万次阅读 2016-04-18 22:10:07
    假设检验问题分为两类,一类是参数的假设检验,一类是分布的假设检验! 设总体X的分布未知,或 X的某个分布参数 theta未知,对总体分布或分布参数 theta 提出一个假设 "H0" ,然后根据样本所提供的信息,运用统计分析的方法...
  • 一、独立样本四格表资料的检验 问题的提出: 检验:比较两个样本均数的差别是否有统计学意义。 检验:多个样本均数之间的差别是否有统计学意义。 在医学研究中,还常需对比两组或多组定性变量(如检验结果:愈合...
  • 产品某精度属性的标准值为u,标准差为c(双侧检验) 从一批产品中抽取n个样品,均值为u1,问:在(1-a)%的置信度之下,样本是否合格 第一步: 选择样本估计量x‘=Ave(xi),x’~N(u,c^2/n) 设x‘的分布函数为F(x’) 第...
  • 白噪声检验

    千次阅读 2020-09-07 15:47:12
    白噪声检验: 对数据序列的随机性做假设检验。 可以用的方法:LjunBox检验。 原假设:是随机的,既是白噪声序列。 它返回一个p值。 p值大,接受原假设;p值小,拒绝原假设。分割线:0.05。 0.05置信区间以下,可以...
  • 假设检验及例题讲解

    千次阅读 2021-04-28 18:41:22
    )2 检验方式2.1 检验统计量2.2 拒绝域2.3 接受域3 假设检验步骤3.1 两种假设检验3.1.1 一个总体参数的假设检验 先举一个例子 我们在生活中经常会遇到对一个总体数据进行评估的问题,但我们又不能直接统计全部数据,...
  • 异方差: 模型中随机扰动项的方差 随 解释变量 的变动而变动。 异方差的修正: 加权最小二乘法。 举例: 如果Var(ui)=σi2=σ2Xi2Var(u_{i}...考虑Var(uiXi)=σ2Var(\frac{u_{i}}{X_{i}})=\sigma^{2}Var(Xi​ui​​)...
  • ADF检验

    万次阅读 2019-08-30 18:47:47
    白噪声(white noise)过程是平稳的: Xt=Ut,U−t N(0,σ2)X_t=U_t,U-t~N(0,\sigma^2)Xt​=Ut​,U−t N(0,σ2) 随机游走(random walk)过程是非平稳的: X−t=Xt−1+Ut,Ut N(0,σ2)X-t = X_{t-1} + U_t,U_t~N(0,\...
  • 卡方检验详解分析与实例

    千次阅读 2021-11-11 17:04:03
    1.什么是卡方检验 卡方检验是一种用途很广的假设检验方法,属于非参数检验的范畴。 主要是比较两个或两个以上样本率以及两个分类变量的关联性分析。 根本思想是在于比较理论频次与实际频次的吻合程度或拟合优度问题...
  • 假设检验-W检验

    千次阅读 2018-08-28 20:35:07
    传送:随机变量概率分布函数汇总-离散型分布+连续型分布 ...检验步骤:1.将数据按数值大小从新排列,使得X1≤X2...≤Xn;2.计算分母;3.查表得a值;4.计算W;5.若W值小于判断界限值Wa(查表),则拒绝...
  • KS检验

    2021-05-03 09:31:30
    1、KS-检验(Kolmogorov-Smirnov test) Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max| f(x)- g(x)|,当实际...
  • Source: ...这也称作Mann-Whitney U-test 你想要看看两个足球队在一年进球数均值是否一样。以下为每个队在一年6场比赛中的进球数: Team A:
  • SNHT Buishand Buishand Research on the Comparison of Different Homogeneity Test Methods LIU Jia l MA Zhenfeng l FAN Guangzhou2 Y()U Yong I I Sichuan Climatic Research Centre, Chengdu 610071 2 Chengdu...
  • 正态性检验方法汇总

    万次阅读 多人点赞 2019-05-22 10:23:46
    正态分布在统计学中有着极为重要的地位,它是χ2\chi^2χ2分布、ttt分布、FFF分布的基础,也是许多统计方法的理论基础,故检验样本是否来自正态分布具有十分重要的意义。 正态性检验的方法有很多,以下列举了一些...
  • 详解MySQL5.6安装步骤

    2021-01-19 11:26:59
    是开放源码的小型关系型数据库管理系统,目前MySQL被广泛应用于在Internet上的中小型网站中,但是对于刚接触MySQL数据库服务器的朋友来说,是非常陌生的,那么现在爱站小编为大家详解MySQL5.6步骤。1、点击下载好的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 23,545
精华内容 9,418
关键字:

u检验步骤