精华内容
下载资源
问答
  • 现代非参数统计

    2018-04-21 21:08:25
    《现代非参数统计》是“All of ...《现代非参数统计》主要包括10章内容,主要讲述参数delta方法自助法之类的经验CDF、覆盖基本的光滑方法正态均值、利用正交函数的参数推断、小波其他的适应方法等。
  • 在每节末都有软件使用注解,给出了如何分别用R、SPSSSAS等软件对例子数据进行分析的具体步骤。每章末都有相关的练习题,以便读者练习使用有关检验方法
  • 非参数统计:方法与应用》作为该课题的一个成果1996年奉献给读者。第一,作者在承担国家教委人文社会科学研究八五规划项目博士点基金项目年代我国居民消费结构及倾向的研究过程中,感到在很多情况下,参数统计方法...
  • 非参数估计》王星编著第二版,清华大学出版。是学习非参数检验非常好的教材。
  • 是上非参数统计课的作业,要求将易丹辉、董寒青《非参数统计:方法与应用》的课后例题全部在R语言中实现了,由于第一章没有例题,故从第二章开始。
  • 非参数统计

    2019-01-14 20:28:54
    关于非参数统计学习的课程资料,各种理论证明,以及习题答案。(已获授权)
  • 非参数统计是数理统计学中一个体系博大、理论精深且富有实用价值的分支,《非参数统计》对非参数统计的理论方法进行了系统的论述,内容上有一定的广度深度,经典全面,反映了本学科的现代面貌,语言表达具有简洁...
  • 此为吴喜之费参数统计第三版课后作业与例题的数据包,
  • 定 价 59.00元 出版社 人民邮电出版社 出版时间 2006-4 丛 书 图灵数学 统计学丛书 非参数统计是21世纪统计理论的三大发展方向之...非参数统计不仅是统计类学科的必修课,也是统计应用工作者必须掌握的基本方法思想。
  • 现代数学译丛03-现代非参数统计-[美]L·沃塞曼-吴喜之(译)-科学出版社-2008
  • 非参数统计概述

    千次阅读 多人点赞 2019-11-16 22:48:05
    文章目录非参数统计概述引言参数方法举例Wilcoxon 符号秩检验Wilcoxon秩检验 引言 非参数统计(nonparametric statistics)是相对于参数统计而言的一个统计学分支,是数理统计的重要内容。在参数统计中,我们往往...

    非参数统计概述

    引言

    非参数统计(nonparametric statistics)是相对于参数统计而言的一个统计学分支,是数理统计的重要内容。在参数统计中,我们往往碰到的是这样的情况:

    • 总体分布的数学形式已知(例如正态分布、指数分布等)。
    • 总体分布的概率密度函数中含有有限个参数。

    然而实际情况往往不是这样,我们通常不知道总体分布的数学形式,或者虽然已知总体的分布但却不能用有限个参数去刻画,我们只能对总体做出一些简单的假定(例如总体分布是连续的或者离散的,总体分布是否对称),这时如果我们要对总体的某些性质进行估计或者假设检验,就需要使用非参数方法

    非参数方法是一种不依赖于总体分布具体形式的统计推断方法,构造统计量通常与总体分布无关,也就是说,非参数方法与总体分布无关,因此,非参数方法也被称为自由分布(distribution-free)方法。非参数方法具有如下的特点:

    • 适用面广但针对性较差
    • 对变量的量化要求很低。无论是分类变量和数值变量,都可以使用非参数方法进行估计或检验。
    • 非参数方法对于数据的要求不如参数方法严格
    • 非参数方法具有较好的鲁棒性,不容易受数据中极端值和离群点的影响。
    • 对于符合参数方法条件的数据,使用非参数方法会使犯第二类错误的概率增大,即统计功效会更小。

    由以上的特点,我们可以总结出选用参数方法和非参数方法的原则:

    • 如果中位数(而不是均值)更能反应数据的集中趋势时(极端值较多),应当选用非参数方法。
    • 如果数据为定序变量(如优良中)时,应当采用非参数方法。
    • 如果数据符合参数方法的条件时,应当优先选用参数方法

    接下来我们来详细讨论一些非参数方法的例子。

    非参数方法举例

    Wilcoxon 符号秩检验

    Wilcoxon符号秩检验(signed-rank test)对应着参数方法中的单样本t检验法和配对样本t检验法。接下来我们通过一个例子来讲解Wilcoxon符号秩检验的步骤。

    假设我们研究的课题是上培训班是否会提升学生成绩,我们收集到的数据如下:

    BeforeAfter
    7260
    6286
    7083
    6053
    7575
    5565
    7189
    4856

    根据这一张表格,我们可以进一步得到这样的另一张表格。

    DiffSigned-rank
    -12-4
    247
    135
    -7-1
    0
    103
    186
    82

    其中,Diff是拿右边一列减去左边一列得到的数据,而得到Signed-rank略显复杂,首先我们将Diff的绝对值从小到大进行排名(rank),分别编上1-n的编号,然后根据Diff的实际符号,给排名也添加上相同的符号,我们就得到了样本的符号秩(signed-rank),我们就由符号秩来构造统计量。

    需要注意的是,我们进行Wilcoxon符号秩检验时,不考虑Diff=0的情况,我们要将Diff=0的数据去除。

    接下来我们用符号秩来构造统计量 Z Z Z Z = ∑ i = 1 n S R i ∑ i = 1 n S R i 2 Z = \frac{\sum^n_{i=1}SR_i}{\sqrt{\sum^n_{i=1}SR_i^2}} Z=i=1nSRi2 i=1nSRi
    与参数方法中的 Z Z Z统计量一样, Z Z Z~ N ( 0 , 1 ) N(0,1) N(0,1),于是我们算得 Z Z Z统计量之后,就可以通过标准正态分布来计算p值,在上面这个例子中: Z = 1.52 Z=1.52 Z=1.52
    我们进行一个双尾检验,查表可得 p − v a l u e = 2 ∗ ( 1 − 0.9357 ) = 0.1286 > 0.05 p-value=2*(1-0.9357)=0.1286>0.05 pvalue=2(10.9357)=0.1286>0.05
    得出结论:应当接受零假设,成绩与是否上辅导班无关。

    Wilcoxon秩和检验

    Wilcoxon秩和检验(rank-sum test)用于检验两个总体的中位数是否相等,适用于中位数能更好的反应总体集中趋势的情况,对应了参数方法中的Two sample t-test,同样我们通过一个例子来讲解Wilcoxon秩和检验的过程。

    我们仍然使用上面的表格,只不过我们这次研究的题目是成绩是否与性别有关。(实际上,两列数据的样本容量可以不同)可以发现,这样一来,数据中的行不再是一一对应关系。

    MaleFemale
    7260
    6286
    7083
    6053
    7575
    5565
    7189
    4856

    我们将两列数据合在一起,进行从小到大的排序,求出它们的秩(秩的英文为rank,也可以翻译为排名)。

    Rank(Male)Rank(Female)
    115.5
    714
    913
    5.52
    12.512.5
    38
    1015
    14

    需要注意的是,当出现多个样本值相同时,它们的秩应当等于它们占用的秩的位置的平均值。接下来我们来构造统计量,首先我们将每一列元素的秩进行求和:
    S u m 1 = ∑ i n 1 R 1 Sum1 = \sum_i^{n_1}{R_1} Sum1=in1R1 S u m 2 = ∑ i n 2 R 2 Sum2 = \sum_i^{n_2}{R_2} Sum2=in2R2
    设两个变量的样本容量分别是 n 1 n_1 n1, n 2 n_2 n2,我们构造下面的统计量:
    W = S u m 1 − n 1 ∗ ( n 1 + 1 ) 2 W=Sum1 - \frac{n_1*(n_1+1)}{2} W=Sum12n1(n1+1)
    同样的,利用 S u m 2 Sum2 Sum2也可以构造一个这样的统计量,但实际上检验一个即可。我们同样避开直接寻找 W W W的分布,我们选择再构造一个统计量:
    Z = W − n 1 n 2 / 2 n 1 n 2 ( n 1 + n 2 + 1 ) / 12 Z=\frac{W-n_1n_2/2}{\sqrt{n_1n_2(n_1+n_2+1)/12}} Z=n1n2(n1+n2+1)/12 Wn1n2/2
    同样的, Z Z Z~ N ( 0 , 1 ) N(0,1) N(0,1),接下来我们就可以在标准正态分布中查找到 P − v a l u e P-value Pvalue,从而做出是否拒绝零假设的判断。

    在上面这个例子中,我们计算得到:
    W = 23 W=23 W=23 Z = − 0.945 Z=-0.945 Z=0.945
    查表得到对应的p值为:
    p − v a l u e = 2 ∗ ( 1 − 0.8289 ) = 0.3422 > 0.05 p-value=2*(1-0.8289)=0.3422>0.05 pvalue=2(10.8289)=0.3422>0.05所以我们应当接受零假设,成绩与性别无关。

    斯皮尔曼相关性检验

    在参数统计中,我们学习过一个相关系数 ρ x y \rho_{xy} ρxy,它的定义如下: ρ x y = C o v ( X , Y ) S X S Y \rho_{xy}=\frac{Cov(X,Y)}{S_XS_Y} ρxy=SXSYCov(X,Y)实际上,我们把这个相关系数称为皮尔逊相关系数(Pearson Correlation),而接下来我要介绍的是另一个相关系数,称为斯皮尔曼相关系数(Spearman Correlation)。

    首先举一个例子,假设我们研究的课题是学生考试分数与课堂满意度是否相关,我们采集到了这样一组数据:

    ScoreHappiness
    30不满意
    40一般
    50不满意
    60一般
    70满意
    80满意
    90满意
    100满意

    可以看到,这里的Happiness数据是定序变量,我们没有办法计算它的方差和它与定距变量的协方差,但我们可以对它们进行排序,参考前两种方法,我们这两列数据分别排序并求出它们的秩。

    Rank(Score)Rank(Happiness)
    11.5
    23.5
    31.5
    43.5
    56.5
    66.5
    76.5
    86.5

    同样的,对于相同的样本值,我们也要采用取平均值的方法求它们的秩。接下来我们对这两列秩求它们的皮尔逊相关系数,得到的就是原数据的斯皮尔曼相关系数:
    ρ = C o v ( R 1 , R 2 ) S R 1 S R 2 \rho=\frac{Cov(R_1,R_2)}{S_{R_1}S_{R_2}} ρ=SR1SR2Cov(R1,R2)另外还有一个简便计算公式,设样本容量为 n n n
    ρ = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho=1-\frac{6\sum{d_i^2}}{n(n^2-1)} ρ=1n(n21)6di2然后,与参数方法中的皮尔逊相关性检验类似,有:
    ρ 1 − ρ 2 / n − 2 ∼ t ( n − 2 ) \frac{\rho}{\sqrt{1-\rho^2}/\sqrt{n-2}}\sim t(n-2) 1ρ2 /n2 ρt(n2)
    然后在 t t t分布中计算 p − v a l u e p-value pvalue,做出判断。

    Bootstrap

    Bootstrap简单的来说,我们已有一个容量为 n n n的原始样本,利用随机数等方式进行放回抽样得到一个容量同样为 n n n的样本,这种样本就称为Bootstrap样本或自助样本。

    我们反复地、独立地从原始样本中抽取很多很多个Bootstrap样本(通常不少于1000个),利用这些样本对总体进行统计推断,这种方法被称为非参数Bootstrap方法,又称为自助法。

    我们使用成绩与性别关系的数据:

    MaleFemale
    7260
    6286
    7083
    6053
    7575
    5565
    7189
    4856

    我们对两列数据进行有放回抽样,得到了1000个Bootstrap样本,记作 D 1 D_1 D1- D 1000 D_{1000} D1000。我们需要分析的是两个样本之间的中位数是否有差异,因此我们将每一个Bootstrap样本的中位数差值求出来,用这1000个数据的中位数差构成一个统计分布,用直方图表示:
    在这里插入图片描述
    然后我们再根据已知的中位数差值,在这个统计分布中计算p值、置信区间等,做出统计推断。

    Bootstrap是一种非常重要的方法,常常应用于各种玄学建模 。需要注意的是Bootstrap方法也有参数版本的方法,在这里并不讨论。

    Bootstrap实现的Python代码如下:

    # -*- coding: UTF-8 -*-
    import numpy as np
    import matplotlib.pyplot as plt
    def bootstrap(data):
        temp = []
        while len(temp) != len(data):
            r = np.random.randint(0,len(data))
            temp.append(data[r])
        temp = np.array(temp)
        return temp
    
    
    if __name__ == "__main__":
        male = np.array([72,62,70,60,75,55,71,48])
        female = np.array([60,86,83,53,75,65,89,56])
        v = []
        for i in range(2000):
            mbootstrap = bootstrap(male)
            fbootstrap = bootstrap(female)
            v.append(np.median(mbootstrap) - np.median(fbootstrap))
        v = np.array(v)
        plt.hist(v,bins=50)
        plt.show()
    

    Permutation

    Permutation,翻译为中文就是排列、置换的意思。在参数方法中进行假设检验,我们一般是假设或者已知总体的分布,然后构造统计量,得到这个统计量在零假设为真时的抽样分布,然后在抽样分布中计算p值,做出推断。而Permutation使得我们可以得到对任意统计量在零假设为真时的抽样分布,从而进行统计推断。接下来我们举例说明Permutation的过程。

    我们仍然使用成绩与性别的关系数据:

    MaleFemale
    7260
    6286
    7083
    6053
    7575
    5565
    7189
    4856

    H 0 : 男 女 成 绩 中 位 数 没 有 差 异 H_0:男女成绩中位数没有差异 H0: H 1 : 男 女 成 绩 中 位 数 有 差 异 H_1:男女成绩中位数有差异 H1:
    Permutation与Bootstrap类似,我们也需要将以下的步骤重复1000次以上:

    1. 把所有数字随机分配给Male( n 1 = 8 n_1=8 n1=8)和Female( n 2 = 8 n_2=8 n2=8)
    2. 计算Male和Female的中位数
    3. 计算并保存median(M)-median(F)

    重复1000次以上之后,我们就可以得到两组数据中位数差的近似分布,用直方图表示:
    在这里插入图片描述
    这样我们就获得了中位数差统计量的统计分布,然后我们根据这个分布和实际的中位数差,我们就可以计算出p值,从而进行统计推断。
    Permutation的Python代码如下:

    # -*- coding: UTF-8 -*-
    import numpy as np
    import matplotlib.pyplot as plt
    
    
    def permutation(data):
        perm = []
        num = set([])
        while len(perm) != len(data):
            r = np.random.randint(0, 16)
            if r not in num:
                perm.append(data[r])
                num.add(r)
        perm = np.array(perm)
        return perm
    
    
    if __name__ == "__main__":
        data = np.array([72, 62, 70, 60, 75, 55, 71, 48, 60, 86, 83, 53, 75, 65, 89, 56])
        diff = []
        for i in range(3000):
            temp = permutation(data)
            df = np.median(temp[:8]) - np.median(temp[8:])
            diff.append(df)
        diff = np.array(diff)
        plt.hist(diff, bins=50)
        plt.show()
    

    小结

    在这一篇博文中,我主要介绍以下几种非参数统计方法:

    • Wilcoxon符号秩检验
    • Wilcoxon秩和检验
    • Spearman相关性检验
    • Bootstrap
    • Permutation

    但无论是参数方法还是非参数方法都属于频率论的范畴,它们都存在着一个致命的缺陷:它们的检验过程是在假定零假设成立的情况下进行的,为了解决这个问题,需要把目光投向另一个统计学领域——贝叶斯统计。

    展开全文
  • 这本参考教材对学习非参数者有很大帮助,思路清晰,内容详细,不是高清版本,但是基本上能顺利阅读,所以上传希望能帮助到大家!
  • 贝叶斯非参数统计中的先验的估计
  • 非参数统计方法

    2018-03-13 06:54:21
    学R非参数统计的好教材书。大牛吴喜之的经典教材之一
  • 非参数统计检验

    千次阅读 2018-11-28 12:59:20
    非参数统计分析

    非参数统计的方法用于总体分布未知的情形,其目的在于检验一个变量的分布在不同组中是否具有相同的位置参数。

    NPAR1WAY语句

    功能

    格式:

    proc npar1way data=数据集名 [选项];
    by 变量名;
    class 变量名;
    var 变量名;
    run;
    

    注:
    proc的选项:
    i.wilcoxon:指定使用Wilcoxon秩和分析方法;
    ii.noprint:结果输出窗口不显示计算结果;

    单个样本的非参数检验

    此情形使用Univariate过程。
    目的: 检验某个样本均值是否等于特定值。

    某产品标注的净含量为1kg,现对该产品进行抽样统计分析,试判断该产品重量是否与标注一致?

    代码:

    data test;              /*创建数据集*/
    input x @@;
    cards;
    0.998 0.997 0.995 0.994 0.990 0.981 0.986 0.995
    0.976 0.986 0.996 0.976 0.965 0.986 0.992 1.001
    0.985 1.002 0.999 0.993 0.994 0.995 0.993 0.991
    0.975 0.984 0.976 0.954 0.987 0.986 0.985 0.976
    ;
    run;
    proc univariate data=test mu0=1;   /*设置mu0为1,检验其*均值是否为1/
    var x;
    run;
    
    

    结果:
    给出了一些基本统计信息:

    下图显示秩检验的p值<0.05的显著水平,应拒绝原假设:

    两样本的非参数检验

    概述: 当两个独立样本来自正态分布和具有相同的方差时,一般采用T检验比较均值。当样本不满足这两个条件时,则采用Wilcoxon秩和检验。

    对某校高一高二学生的英语学习能力作评价,主要测试学生的口语能力,测试分数如下,分析两个年级的学生英语口语能力是否有显著差异?

    代码:

    data test;                        /*创建数据集*/
    input x type$;
    cards;
    78 1
    67 1
    88 1
    98 1
    78 1
    77 1
    65 1
    85 1
    70 1
    67 2
    78 2
    69 2
    87 2
    85 2
    87 2
    90 2
    65 2
    77 2
    ;
    run;
    proc npar1way data=test wilcoxon;    /*进行wilcoxon检验*/
    class type;                   /*指定分组变量*/
    var x;                        /*指定非参数检验变量*/
    run;
    

    结果:
    t检验双边概率值为1,故可接受原假设,认为这两个年级的口语能力是无显著差别的。

    多个样本的非参数检验

    概述: 当多个样本数据满足正态分布且具有相等的方差时,比较它们的均值可以采用方差分析。当数据不满足上述条件时,可采用多样本均值比较的非参数Kruskal-Wallis秩和检验。此检验的目的是分析某个变量在另一分类变量取不同值时,它的取值(用位置统计量衡量)是否有显著不同。
    编程实现: NPAR1WAY过程可以实现,与两样本情形不同的是,class语句的分类变量它有两个以上的取值水平。

    成对样本的非参数检验

    类似于单样本的非参数检验,使用Univariate过程,成对的数据作差处理,检验其均值是否显著为0。

    现对某培训机构的培训后的学员的基础能力是否有提高进行抽样调查,学生培训前后的成绩如下表。

    代码:

    data test;                           /*创建数据集*/
    input x y;
    d=x-y;
    cards;
    89 95
    78 88
    96 95
    78 87
    74 80
    75 83
    84 90
    79 76
    80 83
    85 88
    ;
    run;
    proc univariate data=test;            /*配对样本的符号检验*/
    var d;
    run;
    

    结果:
    符号检验的p值大于0.05,说明应该接受原假设,即认为培训前后的成绩没有显著差别。

    展开全文
  • 非参数统计实验报告—两独立样本数据位置检验方法
  • 利用非参数统计方法,对5Cr-0.5Mo耐热钢寿命预测中的主曲线进行分析,提出新的主曲线形式(双指数形式),给出5Cr-0.5Mo耐热钢主曲线表达式。与传统的多项式主曲线以及近来提出的主曲线相比,双指数形式主曲线有很好的统计...
  • 研究了重叠区域图像分割和参数统计的算法,提出综合利用阈值法距离变换,并采用所设计的两个计算流程在对图像进行分割的同时完成参数统计。计算机模拟结果表明,整个算法不需要人工干预,易于软件硬件实现。
  • 计算检验统计量 在非参数检验中,我们使用等级来计算检验统计量。 5.将检验统计量与决策规则进行比较 在这里,你将接受或拒绝基于比较的零假设。 在讨论非参数检验的类型时,我们将更深入地研究这一部分。 5.非参数...

    1980年代末,汉斯拉伊大学(Hansraj College)经济学荣誉毕业生的平均薪酬约为每年100万印度卢比。这一数字大大高于80年代初或90年代初毕业的人们。

    他们平均水平如此之高的原因是什么呢?沙鲁克·汗是印度收入最高的名人之一,1988年毕业于汉萨拉吉学院,当时他在那里攻读经济学荣誉学位。

    这一点,以及还有很多的例子都会告诉我们,平均值并不是很好的可以指示出数据的中心在哪里。它可能会受到异常值的影响。在这种情况下,查看中位数是更好的选择。 它是一个很好的数据中心的指示器,因为一半数据位于中间值以下,另一半位于中间值上方。

    到目前为止,一切都很好——我相信你已经看到人们早些时候提出了这一点。问题是没有人告诉你如何进行像假设检验这样的分析。

    统计检验用于制定决策。为了使用中位数进行分析,我们需要使用非参数检验。非参数测试是分布独立的检验,而参数检验假设数据是正态分布的。说参数检验比非参数检验更加的臭名昭著是没有错的,但是前者没有考虑中位数,而后者则使用中位数来进行分析。

    接下来我们就进入非参数检验的内容。

    **注意:**本文假定你具有假设检验,参数检验,单尾检验和双尾检验的先决知识。

    1.非参数测试与参数测试有何不同?

    当总体参数的信息完全已知时使用参数检验,而当总体参数的信息没有或很少使用非参数检验,简单的说,参数检验假设数据是正态分布的。然而,非参数检验对数据没有任何分布。

    但是参数是什么?参数不过是无法更改的总体特征。让我们看一个例子来更好地理解这一点。

    一位老师使用以下公式计算了班级学生的平均成绩:

    img

    看上面给出的公式,老师在计算总分时已经考虑了所有学生的分数。假设学生的分数是准确的,并且没有遗漏的分数,你是否可以更改学生的总分数?并不可以。因此,平均分被称为总体的一个参数,因为它不能被改变。

    2.什么时候可以应用非参数检验?

    让我们看一些例子。

    1.比赛的获胜者由名词决定,而名次是根据越过终点线来进行排名的。现在,第一个越过终点线的人排名第一,第二个越过终点线的人排名第二,依此类推。我们不知道获胜者是以多远的距离击败了另一个人,因此区别是未知的。

    2.有20人接受了一个疗程的治疗,并且通过调查记录他们的症状。遵循治疗过程后,要求患者在5个类别中进行选择。调查看起来像这样:

    img

    现在,如果你仔细查看上述调查中的值可以发现,值是不可以扩展的,它是基于病人的经验来判断的。而且,评分是被分配的而不是被计算的。在这种情况下,参数检验无效。

    对于名义数据,不存在任何参数检验。

    3.检测极限是值通过给定的分析方法可以检测到的物质的最低数量,但是不一定要将其定量为精确值。例如,病毒载量就是你血液中的HIV含量。病毒载量可以超出检测极限,也可以更高的数量。

    4.在上面的平均薪酬方案的例子中,沙鲁克的收入是一个离群值。什么是离群值?沙鲁克的收入与其他经济学专业毕业生的收入相距异常。因此,沙鲁克的收入在这里变得异常,因为它与数据中的其他值之间存在异常距离。

    总而言之,非参数检验可以应用于以下情况:

    1. 数据不遵循任何概率分布
    2. 数据由顺序值或等级构成
    3. 数据中有异常值
    4. 数据具有检测极限

    这里要注意的一点是,如果存在一个针对问题的参数检验,则使用非参数检验将产生非常不准确的答案。

    3.使用非参数检验的优缺点

    在上面的讨论中,你可能已经注意到,我提到了使用非参数测试可能有利或不利的几点,因此现在让我们共同来看一下这些点。

    优点

    使用非参数检验而不是参数检验的优点是

    1.即使样本量很小,非参数测试也可以提供准确的结果。

    2.当正态性假设被违背时,非参数检验比参数检验更加有效。

    3.它们适用于所有数据类型,例如标称,序数,间隔或具有离群值的数据。

    缺点

    1.如果数据进行任何参数检验,那么使用非参数检验可能是一个可怕的错误。

    2.非参数检验的临界值表未包含在许多计算机软件包中,因此这些测试需要更多的手工计算。

    4.非参数检验的假设检验

    现在你知道非参数检验对总体参数无所谓,因此它不对父级总体的均值、标准差等做出任何假设。这里的零假设是一般的,因为两个给定的总体是相等的。

    进行非参数检验时应遵循的步骤:

    第一步是建立假设并选择一个显著性水平

    现在,让我们看看这两个是什么

    假设:我的预测是Rahul会赢得比赛,另一个可能的结果是Rahul不会赢得比赛。这些都是我的假设。我的备择假设是Rahul将赢得比赛,因为我们将让备择假设等于我们想要证明的。零假设是相反的假设,通常零假设是没有差异的陈述。例如,

    零假设:H0:样本均值与总体均值之间没有显著性差异

    备择假设:H1:样本均值与总体均值之间存在显著性差异

    显著性水平: 它是做出错误决定的可能性。在上述假设陈述中,零假设表示样本和总体均值之间没有差异。假设样本均值和总体均值之间没有差异时,拒绝零假设的风险为5%。这种拒绝零假设成立的风险或可能性称为显著性水平。

    显著性水平用α表示

    在非参数检验中,根据研究的兴趣,假设检验可以是单侧或双侧。

    2.设置测试统计信息

    要了解什么是统计量,让我们看一个例子。一位老师计算了A部分学生的平均成绩,例如36分,她使用A部分学生的平均成绩来表示B,C和D部分学生的平均成绩。这里要注意的是,老师没有使用学生在所有部分中获得的总成绩,而是使用了A部分的平均成绩。在这里,平均成绩被称为统计信息,因为老师没有使用整个数据。

    在非参数检验中,将观察到的样本转换为等级,然后将等级视为检验统计量。

    3.设定决策规则

    决策规则只是告诉我们何时拒绝原假设的一个语句。

    4.计算检验统计量

    在非参数检验中,我们使用等级来计算检验统计量。

    5.将检验统计量与决策规则进行比较

    在这里,你将接受或拒绝基于比较的零假设。

    在讨论非参数检验的类型时,我们将更深入地研究这一部分。

    5.非参数测试

    1.曼·惠特尼U检验(Mann Whitney U test)

    也称为曼惠特尼威尔科克森(Mann Whitney Wilcoxon)和威尔科克森秩和检验(Wilcoxon rank sum test),是独立样本t检验的一种替代方法。让我们通过一个例子来理解这一点。

    一个制药组织创造了一种新的药物来治疗梦游,一个月后对5名患者进行了观察。另一组5人已经服用了旧药物一个月。然后,该组织要求个人记录上个月的梦游病例数。结果是:

    img

    如果你看这张表,服用新药的一个月内发生梦游的病例比服用老药的少。

    查看下面给出的图形。

    现在,在这里你可以看到当一个人服用新药时,他发生梦游的几率会降低。

    理解这个问题了吗?我们来看看Mann Whitney U测试是如何工作的。我们很想知道服用不同药物的两组报告的梦游病例数是否相同。假设如下:

    H0:两组报告的病例数量相同

    H1:两组报告的病例数不同

    我选择5%的显著性水平进行测试。下一步是设置一个测试统计信息。

    对于Mann Whitney U检验,检验统计量由U 表示,U是U 1 和U 2 的最小值。

    $$

    $$
    其中r1为第一组的秩和,r2为第二组的秩和,n1为第一组的大小,n2为第二组的大小。

    现在,我们将通过合并这两组来计算秩。现在的问题是

    如何分配秩?

    秩是非参数检验的非常重要的组成部分,因此,学习如何为样本分配秩非常重要。让我们学习如何分配秩。

    1.我们将两个样本合并,并按升序排列。我分别对旧药和新药使用OD和ND来代替。

    NDNDNDNDNDODODODODOD
    样本1123447889

    此处,最小值被赋值为1,第二个最小值被赋值为2,依此类推。

    NDNDNDNDNDODODODODOD
    样本1123447889
    12345678910

    但是请注意,数字1、4和8在组合样本中出现了多次。因此分配的秩是错误的。

    样本中有联系时如何分配秩呢?

    联系基本上是一个样本中出现多次的数字。排序数据后,查看样本中数字1的位置。在这里,数字1出现在第一和第二位置。在这种情况下,我们取1和2的平均值(因为数字1出现在第一和第二位置),并将平均值分配给数字1,如下所示。我们对数字4和8遵循相同的步骤。这里的数字4出现在第5位和第6位上,它们的均值为5.5,因此我们将数字5.5分配给数字4。沿这些行计算数字8的等级。

    NDNDNDNDNDODODODODOD
    样本1123447889
    1.51.5345.55.578.58.510

    当样本中存在联系时,我们分配平均秩,以确保每个大小为n的样本的秩和相同。因此,秩和将始终等于
    n ( n + 1 ) 2 \frac{n(n+1)}{2} 2n(n+1)
    2.下一步是计算组1和组2的秩和。

    R 1 = 15.5
    R 2 = 39.5

    3.使用U 1 和U 2 的公式,计算它们的值。

    U 1 = 24.5
    U 2 = 0.5

    现在,U = min(U 1 ,U 2 )= 0.5

    注意:对于Mann Whitney U test,U的值在(0,n 1 * n 2 )范围内,其中0表示两组完全不同,n 1 * n 2 表示两组之间存在一定的关系。而且,U 1 + U 2 始终等于n 1 * n 2 。请注意,此处的U值为0.5,非常接近0。

    现在,我们使用临界值表来确定临界值(用p表示), 该值是从检验的显著性水平得出的一个点 ,用于拒绝或接受无效假设。在Mann Whitney U test中,检验标准为

    接受H0:U ≤ 临界值

    拒接H0:U > 临界值

    在这里,p = 2

    U <临界值,因此,我们拒绝零假设,并得出结论,没有重要证据表明两组报告的梦游病例数目相同。

    2.威尔科克森符号秩检验(Wilcoxon Sign-Rank Test)

    当样本违反正态分布假设时,就可以使用该检验代替配对t检验。

    一位老师在课堂上教了一个新题,并决定在第二天进行突击测验。一共有6名学生接受了测试,满分为10分,第一次测试分数如下:

    注意:假定以下数据违反了正态分布的假设。

    学生123456
    分数864256

    现在,老师决定在一周的自习课中再次参加考试。分数如下

    学生123456
    分数6889410

    让我们检查一下一周后的学生成绩是否有所提高。

    学生第一次测试第二次测试差异(第二次分数-第一次分数)
    188-2
    2682
    3484
    4297
    554-1
    66104

    在上表中,在某些情况下,学生的得分比以前低,并且在某些情况下,学生4的进步相对较高。这可能是由于随机效应。我们将使用此测试分析差异是系统的还是偶然的。

    下一步对差值的绝对值进行排序。请注意,只有在按升序排列数据后才能执行此操作。

    差异
    -11
    22.5
    -22.5
    44.5
    44.5
    76

    在Wilcoxon sign-rank test中,我们需要符号秩,基本上是将与差异相关的符号分配给秩,如下所示。

    差异符号秩
    -11-1
    22.52.5
    -22.5-2.5
    44.54.5
    44.54.5
    766

    容易吧?那么现在的假设是什么?

    H0:正秩和

    H1:负秩和

    假设可以是单侧的,也可以是双侧的,我使用单侧假设,使用5%的显著性水平。因此,α=0.05

    此测试的测试统计量是W在下面定义的W 1 和W 2中的较小者:

    W1:正秩和

    W2:负秩和

    W 1 = 17.5

    W 2 = 3.5

    W =min(W 1 ,W 2 )= 3.5

    在这里,如果W 1 与W 2 相似,那么我们接受零假设。否则,在中,如果差异反映出学生得分的提高,则我们拒绝原假设。

    W的临界值可以在表中查到。

    接受或拒绝零假设的标准是

    接受H0:W ≤ 临界值

    拒绝H0:W>临界值

    **在这里,W>临界值= 2,因此我们接受零假设并得出结论,两个检验的分数之间没有显著差异。 **

    W

    img

    在这里,W>临界值= 2,因此我们接受零假设并得出结论,两个测试的标记之间没有显着差异。

    3.符号检验(Sign Test)

    该检验与Wilcoxon Sign-Rank Test相似,如果数据违反正态性假设,也可以用它代替配对t检验。我将使用在Wilcoxon Sign-Rank Test中使用的相同例子(假设它不遵循正态分布)来解释符号测试。

    让我们再次查看数据。

    学生第一次测试第二次测试差异(第二次分数-第一次分数)符号
    186-2-
    2682+
    3484+
    4297+
    554-1-
    66104+

    在Sign Test中,我们没有考虑大小,因此忽略了等级。假设与以前相同。

    H0:中位数差为0

    H1:中位数差为正

    在这里,如果我们看到相同数量的正差和负差,则零假设成立。否则,如果我们看到更多的正号,则拒绝零假设。

    测试统计量:此处的测试统计量小于正负号的数量。

    确定临界值,拒绝和接受原假设的标准为:

    接受H0:如果+和-的符号数量≤临界值

    拒绝H0:如果+和-的符号数量>临界值

    在这里,+&–符号的较小数目= 2 <临界值=6。因此,我们拒绝零假设,并得出结论,没有明显的证据表明中位数差为零。

    4.秩和检验(Kruskal-Wallis Test)

    当你处理两个以上的独立群体时,该测试是非常有用的,它可以比较k个群体的中位数。当数据违反了正态分布的假设并且样本量太小时,此测试可以替代单因素方差分析。注意:Kruskal-Wallis Test可用于连续和有序级别的因变量。

    让我们看一个例子,以增强我们对Kruskal-Wallis Test的理解。

    登革热患者分为3组,并给予三种不同类型的治疗。经过3天的疗程后,患者的血小板计数如下。

    治疗方法1治疗方法2治疗方法3
    420006700078000
    480005700089000
    570007900067000
    6900080000
    45000

    请注意,三种治疗的样本量不同,可以使用Kruskal-Wallis Test来解决。

    处理1、2和3的样本量如下:

    方法1;n 1 = 5

    方法2;n 2 = 3

    处理3;n 3 = 4

    n = n 1 + n 2 + n 3 = 5 + 3 + 4 = 12

    假设在下面给出,选择5%的显著性水平

    H0:三种方法的中位数相同

    H1:三种方法的中位数不同

    将这些样本从最小到最大进行排序,然后将秩分给样本。

    回想一下,秩和将始终等于n(n + 1)/ 2。

    在这里,秩和= 78

    n(n + 1)/ 2 =(12 * 13)/ 2 = 78

    我们必须检查3个总体中位数之间是否存在差异,因此我们将基于秩在检验统计数据中汇总样本信息。在此,测试统计量由H表示,并由以下公式给出
    H = ( 12 n ( n + 1 ) ∑ j = 1 k R j 2 n j ) − 3 ( n + 1 ) H=\left(\frac{12}{n(n+1)} \sum_{j=1}^{k} \frac{R_{j}^{2}}{n_{j}}\right)-3(n+1) H=(n(n+1)12j=1knjRj2)3(n+1)
    在这里 :k=比较的组数,

    n=总样本大小,

    nj=第j组的样本量,

    Rj=第j组的秩和。

    下一步就是利用临界值确定H的临界值,测试标准如下:

    接受H0:H ≥ 临界值

    拒绝H0:H<临界值

    H的值计算出来是6.0778,临界值为5.656。因此,我们拒绝零假设,并得出结论,没有重要证据表明这三个总体中位数相同。

    注意:在Kruskal-Wallis Test中,如果有3个或更多独立的比较组,每组中有5个或更多观察值,则检验统计量H近似为k-1自由度的卡方分布。因此,在这种情况下,你可以在卡方分布表中找到检验的临界值作为临界值。

    5.斯皮尔曼等级相关性(Spearman Rank Correlation)

    假如我去市场买了一条裙子,巧合的是,我的朋友从她附近的市场上买了同一条裙子,但她为此付出了更高的价钱。与我的朋友相比,我朋友家附近的市场更加昂贵。那么,地区会影响商品价格吗?如果确实如此,那么该地区与商品价格之间便存在联系。我们在这里使用斯皮尔曼等级相关性是因为它确定两个数据集之间是否存在相关性。

    蔬菜的价格因地区而异。我们可以使用斯皮尔曼等级相关性来检查蔬菜价格和面积之间是否存在关系。这里的假设是:

    H0:价格与面积无关

    H1:价格与面积有关
    img

    在这里,趋势线表明蔬菜价格与面积之间呈正相关。但是,应使用斯皮尔曼等级相关性检查相关方向和强度。

    斯皮尔曼等级相关性是皮尔逊相关系数的非参数替代,用Rs表示。Rs的取值范围(-1,1),其中

    -1代表秩之间存在负相关关系

    0代表秩之间没有相关性

    1代表秩之间存在正相关性

    将秩分配给样本后,使用以下公式计算S斯皮尔曼秩相关系数。

    Case 1 :当数据中没有联系时
    ρ = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho=1-\frac{6 \sum d_{i}^{2}}{n\left(n^{2}-1\right)} ρ=1n(n21)6di2
    Case 2:当数据中有联系时
    ρ = 1 n ∑ i = 1 n ( ( R ( x i ) − R ( x ˉ ) ) ( R ( y i ) − R ( y ˉ ) ) ) ( 1 n ∑ i = 1 n ( R ( x i ) − R ( x ˉ ) ) 2 ) ( 1 n ∑ i = 1 n ( R ( y i ) − R ( y ˉ ) ) 2 ) \rho=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(\left(R\left(x_{i}\right)-R(\bar{x})\right)\left(R\left(y_{i}\right)-R(\bar{y})\right)\right)}{\sqrt{\left(\frac{1}{n} \sum_{i=1}^{n}\left(R\left(x_{i}\right)-R(\bar{x})\right)^{2}\right)\left(\frac{1}{n} \sum_{i=1}^{n}\left(R\left(y_{i}\right)-R(\bar{y})\right)^{2}\right)}} ρ=(n1i=1n(R(xi)R(xˉ))2)(n1i=1n(R(yi)R(yˉ))2) n1i=1n((R(xi)R(xˉ))(R(yi)R(yˉ)))
    在这里R(x)和R(y)为秩,R(xbar)和R(ybar)为平均秩

    让我们通过一个例子来理解这些公式的应用。下表包括学生的数学和科学的的分数。

    零假设表示标记之间没有关系,备择假设指出标记之间有关系。选择5%的显著性水平进行测试

    数学56754571626458807661
    科学66704060655659776763

    现在计算秩和d,d是秩和n之间的差值,而n是样本大小=10。执行以下操作:

    数学56754571626458807661
    科学66704060655659776763
    等级(M)93104658127
    等级(S)42107598136
    d5103140011
    d平方(d-square)251091160011

    现在,使用该公式计算斯皮尔曼等级相关系数。因此,斯皮尔曼等级相关性为0.67,这表明在数学和科学测试中获得的学生排名之间呈正相关,这意味着你在数学中的排名越高,你在科学中的排名越高,反之亦然。

    你也可以通过使用显著性水平和样本量确定临界值来检查此情况。拒绝或接受零假设的标准为:

    接受H0:|rs| ≥临界值

    拒绝H0:|rs|<临界值

    注意:此处的自由度为n-2。

    临界值为0.033,小于0.67因此我们拒绝零假设。

    结束

    当参数检验的假设被违反时,非参数检验将更强大,并且可以用于所有数据类型,例如标称,有序,区间以及数据具有离群值的情况。如果任何参数检验对问题是有效的,则使用非参数检验将给出非常不准确的结果。

    总而言之,

    Mann Whitney U Test用于检验两组独立组间的差异,分别为有序因变量和连续因变量

    Wilcoxon sign rank test用于检验两个相关变量之间的差异,该差异考虑了差异的大小和方向,但是Sign检验忽略了大小,仅考虑了差异的方向。

    Kruskal-Wallis Test通过使用中位数比较了两个以上独立组的结果。

    Spearman Rank Correlation技术用于检查两个数据集之间是否存在关联,还可以说明关联的类型。

    展开全文
  • 非参数统计 吴喜之 在超星上的书,我小小搞了一下,嘿嘿
  • matlab对比实验代码SnPM:统计非参数映射 统计非参数映射(SnPM)工具箱为功能神经影像实验的体素水平非参数排列/随机测试提供了可扩展的框架,并具有独立的观察结果。 SnPM工具箱提供了的“统计信息”部分的替代...
  • 东北大学应用数理统计第二章知识点总结——参数估计,知识点总结PDF版本 内容详见https://blog.csdn.net/qq_36770651/article/details/109829564
  • 统计学高清思维导图-非参数方法
  • 利用目标背景之间的强度差别,基于自适应核密度估计模型对运动目标进行了非参数统计建模。为了实现具有较大范围运动目标的跟踪,在充分考虑目标背景之间的相关性前提下,采用目标特征统计的背景加权直方图对搜索...
  • 首先提出一些实际问题,然后引入非参数统计的概念,进而分析了非参数统计的优势,重点提出非参数统计中两样本的比较方法,目的在于指导实际的问题。
  • 论文研究-我国人口量度变化率的非参数统计分析──兼评人口控制政策实施绩效及目标.pdf,
  • 包含描述性统计、概率、概率分布、抽样分布、区间估计、假设检验、两总体均值之差比例之差的推断、总体方差统计推断、多个比率的比较、独立性检验、拟合优度检验、方差分析、线性回归、残差分析、多元回归、时间...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 723,288
精华内容 289,315
关键字:

参数统计和非参数统计的区别