精华内容
下载资源
问答
  • 非参数统计 pythonOnce one has a good understanding of the data they have to work with, they next need to decide what they aim to answer with this information. Understanding the problem at hand is part...

    非参数统计 python

    Once one has a good understanding of the data they have to work with, they next need to decide what they aim to answer with this information. Understanding the problem at hand is part of the Business Understanding step in the Data Science Process.

    一旦对要使用的数据有了很好的了解,他们接下来就需要决定他们打算用这些信息来回答什么。 了解当前问题是数据科学流程中“业务理解”步骤的一部分。

    A business question with a data solution can often be posed as a hypothesis. For example “Is there a difference in the customer conversion rate between our old website design and a proposed new layout?” Having a hypothesis to test is a must-have before statistical testing can occur.

    带有数据解决方案的业务问题通常可以被假设为假设。 例如,“我们的旧网站设计与建议的新布局之间的客户转化率是否有所不同?” 要进行统计检验,必须有一个假设要检验。

    Two types of hypotheses are exploratory and confirmatory; as the names might suggest, exploratory analysis seeks to uncover the “why” and dig into the data while confirmatory hypotheses are more applicable when you have a pretty good idea of what is going on with the data and need evidence to support thinking. It is important to decide a priori which of your hypotheses belong to these categories. It has been argued that limiting exploratory hypothesis testing can help to increase certainty in results.

    两种类型的假设是探索性的和证实性的; 顾名思义,探索性分析旨在找出“原因”并挖掘数据,而当您对数据的运行状况有了很好的了解并且需要证据来支持思维时,确认性假设就更适用。 事先确定您的假设属于这些类别非常重要。 有人认为 ,限制探索性假设检验可以帮助增加结果的确定性。

    Once the hypothesis has been determined, the next question to answer is “am I comparing the mean or the median of two groups?”. Parametric tests will compare group means, while non-parametric tests compare group medians. A common misconception is that the decision rests solely on whether the data is normally distributed or not, especially when there is a smaller sample size and distribution of the data can matter significantly. Other factors should also be considered.

    确定假设后,下一个要回答的问题是“我是否在比较两组的均值或中位数?”。 参数测试将比较组均值,而非参数测试将比较组中位数。 一个常见的误解是,决策完全取决于数据是否正常分发,尤其是在样本量较小且数据分发可能很重要的情况下。 还应该考虑其他因素。

    Parametric tests are widely regarded as handling data that is normally distributed — data with a Gaussian distribution — well. However, parametric tests also:

    参数测试被广泛认为是处理正态分布的数据(具有高斯分布的数据)。 但是,参数测试也:

    • Work well with skewed and non-normal distributions.

      与偏斜和非正态分布一起很好地工作。
    • Perform well when the spread of each group is different or the groups have different amounts of variability.

      当每个组的传播不同或组具有不同的可变性时,请表现良好。
    • Typically have more statistical power than non-parametric tests.

      通常具有比非参数检验更大的统计能力。

    If sample size is sufficiently large and group mean is the preferred measure of central tendency, parametric tests are the way to go.

    如果样本量足够大并且组均值是集中趋势的首选度量标准,则应进行参数检验。

    If group median is the preferred measure of central tendency for the data, go with non-parametric tests regardless of sample size. Non-parametric tests are great for comparing data that is prone to outliers, like salary. They are also useful for data with small sample size and/or non-normal, and are especially useful for working with ordinal or ranked data. You should also stick with non-parametric tests for ordinal and ranked data.

    如果组中位数是数据集中趋势的首选度量,则无论样本量大小,均应使用非参数检验。 非参数测试非常适合比较容易出现异常值的数据,例如薪水。 它们对于样本量较小和/或非正常的数据也很有用,对于处理序数或排序数据特别有用。 您还应该坚持对序数和排名数据进行非参数测试。

    Some of the most commonly used statistical parametric tests and their non-parametric counterparts are as follows:

    一些最常用的统计参数检验及其对应的非参数检验如下:

    Image for post
    Where n = sample size
    其中n =样本量

    There are also tests which compare correlation — looking for associations between variables e.g. Pearson, Spearman, Chi-Squared — and regression tests — seeing if a change in one or more independent variables will predict the change in a dependent variable e.g. simple & multiple regression.

    还有一些比较相关性的测试(寻找变量之间的关联,例如Pearson,Spearman,Chi-Squared)和回归测试,以查看一个或多个自变量的变化是否可以预测因变量的变化,例如简单回归和多元回归。

    A quick overview of when you might use each of the above tests:

    关于何时可以使用上述每个测试的快速概述:

    The Paired t test is used when you are looking at one population sample with a before and after score or result. This could be comparing a classroom of students beginning of year proficiency on reading to their end of year proficiency to determine if there was growth or decrease in understanding. The non-parametric counterpart is the Wilcoxon Signed Rank test, which can be used to determine whether two dependent samples were selected from populations having the same distribution and takes into account the magnitude and direction of the difference.

    当您查看一个总体得分之前或之后或结果之后的样本时,将使用成对t检验 。 这可能是将学生从一年级开始的阅读能力与年末水平的阅读能力的课堂进行比较,以确定理解的增加还是减少。 非参数对应项是Wilcoxon Signed Rank检验 ,该检验可用于确定是否从分布相同的总体中选择了两个相关样本,并考虑了差异的大小和方向。

    The Unpaired t test, also widely known as the 2-sample or independent t test, is used to compare two samples from different, unrelated groups to determine if there is a difference in the group means. The Mann-Whitney U test, also known as the Wilcoxon rank-sum test, is similar to the Wilcoxon Signed Rank test but measures the magnitude and direction of the difference between independent samples.

    未配对t检验 (也称为2样本或独立t检验)用于比较来自不同,不相关组的两个样本,以确定组均值是否存在差异。 Mann-Whitney U检验 (也称为Wilcoxon秩和检验)与Wilcoxon Signed Rank检验相似,但测量独立样本之间差异的大小和方向。

    Finally, the One-way ANalysis Of VAriance (ANOVA) is used to determine difference in group means for two or more groups where there is one independent variable with at least two distinct levels. An example of this would be predicting the weight of a dog based on breed given a set of dogs of different breeds. The Kruskal Wallis test, an extension of the Mann-Whitney U test for comparing two groups, can be used to compare medians of multiple groups where the distribution of residuals is assumed to not be normal.

    最后, 单方差分析(ANOVA)用于确定两个或多个组的组均值差异,其中两个或多个组存在一个具有至少两个不同水平的自变量。 一个例子是给定一组不同品种的狗,根据品种预测狗的体重。 Kruskal Wallis检验是Mann-Whitney U检验的扩展,用于比较两组,可用于比较假定残差分布不正常的多个组的中位数。

    There are certain assumptions that are made for data that is to be analyzed using parametric tests. The four assumptions are that 1) the data is normally distributed (or that difference between the samples is normally distributed for paired test), 2) there is similarity in variance in the data, 3) sample values are numeric and continuous, and 4) that sample observations are independent of each other. The below functions from the statsmodels.api module allow us to explore these assumptions during data exploration.

    对于要使用参数测试进行分析的数据,存在某些假设。 这四个假设是:1)数据是正态分布的(或成对测试的样本之间的差异是正态分布的),2)数据的方差相似,3)样本值是数字和连续的,以及4)样本观测值彼此独立。 statsmodels.api模块中的以下函数使我们能够在数据探索期间探索这些假设。

    statsmodels.api.graphics.plot_regress_exog()statsmodels.api.graphics.qqplot()

    Let’s examine how to call up these tests in Python 3. First, the parametric data:

    让我们研究一下如何在Python 3中调用这些测试。首先,参数数据:

    The stats module is a great resource for statistical tests.

    统计模块是统计测试的重要资源。

    Paired t test is

    配对t检验为

    scipy.stats.ttest_rel

    Unpaired t test is

    未配对的t检验是

    scipy.stats.ttest_ind
    • For ttest_rel and ttest_ind, the P-value in the output measures an alternative hypothesis that 𝜇0 != 𝜇1; for one-sided hypothesis, e.g. 𝜇0 > 𝜇1, divide p by 2 and if p/2 < alpha (usually 0.05).

      对于ttest_rel和ttest_ind,输出中的P值会度量另一个假设:𝜇0!= 𝜇1; 对于单面假设(例如𝜇0> 𝜇1),将p除以2,如果p / 2 <alpha(通常为0.05)。

    One-way ANOVA is

    单向方差分析是

    scipy.stats.f_oneway
    • A significant P-value signals that there is a difference between some of the groups, but additional testing is needed to determine where the difference lies.

      显着的P值表示某些组之间存在差异,但是需要进行额外的测试才能确定差异所在。

    For the non-parametric data:

    对于非参数数据:

    Wilcoxon Signed Rank is

    威尔科克森签名等级为

    scipy.stats.wilcoxon

    Wilcoxon Rank-Sum is

    威尔科克森排名和为

    scipy.stats.ranksums
    • Signed rank and rank-sum tests should be used for continuous distributions.

      有符号的等级和等级和检验应用于连续分布。

    Kruskal Wallis is:

    Kruskal Wallis是:

    scipy.stats.kruskal(group1, group2, group3)
    • Similar to ANOVA, rejection of the null hypothesis does not tell us which of the groups is different, so additional post hoc group comparison is necessary.

      与ANOVA相似,对原假设的拒绝并不能告诉我们哪个组不同,因此有必要进行额外的事后组比较。

    In terms of takeaways, it is never good practice to conclude on the results of one test, but significant findings should lead to additional investigation. Bonferroni corrections, a topic for another time, can be used to reduce spurious positives.

    就外卖而言,总结一项测试的结果永远不是一个好习惯,但是重要的发现应该导致进一步的调查。 Bonferroni校正是另一个话题,可以用来减少假阳性。

    翻译自: https://medium.com/@zachary.a.zazueta/parametric-vs-non-parametric-statistical-tests-in-python-9c7ab48e954a

    非参数统计 python

    展开全文
  • 非参数统计:方法应用》作为该课题的一个成果1996年奉献给读者。第一,作者在承担国家教委人文社会科学研究八五规划项目博士点基金项目年代我国居民消费结构及倾向的研究过程中,感到在很多情况下,参数统计方法...
  • 非参数与参数统计之核函数核函数的本质是什么核函数的产生过程常见的核函数 核函数的本质是什么 核函数的产生过程 众所周知,分布函数的导数是密度函数,即: f(x)=F′(x)=lim⁡h→0F(x+h)−F(x−h)2hf(x)=F&#...

    核函数的本质是什么

    核函数的产生过程

    众所周知,分布函数的导数是密度函数,即:
    f(x)=F(x)=limh0F(x+h)F(xh)2hf(x)=F&#x27;(x)=\lim_{h\rightarrow0}\frac{F(x+h)-F(x-h)}{2h}
    由于分布函数是未知的,所以用经验分布函数来近似代替分布函数,何为经验分布函数呢?下面给出其定义
    定义:Fn(x)=1ni=1nI(Xix)F_n(x)=\frac{1}{n}\sum_{i=1}^{n}I(X_{i}\leq x )
    那么经验分布函数为何可以近似替代分布函数呢?
    分布函数F(X)=P(Xx)F(X)=P(X\leq x),所以通俗的理解就是经验分布函数是用频率来近似表示概率以此来近似替代分布函数。
    于是:fn(x)=limh0Fn(x+h)Fn(xh)2hf_n(x)=\lim_{h\rightarrow0}\frac{F_n(x+h)-F_n(x-h)}{2h}
    根据经验分布函数的定义有
    Fn(x+h)=1ni=1nI(Xix+h)F_n(x+h)=\frac{1}{n}\sum_{i=1}^{n}I(X_{i}\leq x+h )
    Fn(xh)=1ni=1nI(Xixh)F_n(x-h)=\frac{1}{n}\sum_{i=1}^{n}I(X_{i}\leq x-h )
    所以有
    Fn(x+h)Fn(xh)=1ni=1nI(1xiXh1)F_n(x+h)-F_n(x-h)=\frac{1}{n}\sum_{i=1}^{n}I(-1\leq \frac{x_{i}-X}{h}\leq 1 )
    所以
    fn(x)=1nhi=1nI(xiXh1)f_n(x)=\frac{1}{nh}\sum_{i=1}^{n}I(| \frac{x_{i}-X}{h}|\leq 1 )
    这里,我们先假设k(u)=12I(u1)k(u)=\frac{1}{2}I(|u|\leq 1),因此有
    k(xiXh)=12I(xiXh1)k(\frac{x_{i}-X}{h})=\frac{1}{2}I(| \frac{x_{i}-X}{h}|\leq 1 )
    于是,fn(x)f_n(x)又可以进一步写成
    fn(x)=1ni=1n1hk(xiXh)f_n(x)=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{h}k(\frac{x_{i}-X}{h})
    在这里,我们将k(xiXh)k(\frac{x_{i}-X}{h})称为核函数。
    上述的核函数,我们将其称为均匀核函数,因为它只有2种结果,在示性函数的区间中为12\frac{1}{2},否则就是0。
    这样做显然是不合适的,因为在实际的估计中,若XiX_{i}越接近xx,核函数应该得到一个较大的、趋近于1的值,若XiX_{i}距离xx相对较远,则核函数应该得到一个较小的、趋近于0的值。(这也是我们通常将核函数视为一个权重的原因)
    于是,天才的数学家、统计学家们便发明出了一系列这样的神奇的核函数,不妨来一起感受一下。
    常见的核函数及其表达式和图像详见下一小节 常见的核函数

    常见的核函数

    除上述提到的均匀核函数外,常用的核函数还有
    1.Triangle 核函数:k(u)=(1u)I(u1)k(u)=(1-|u|)I(|u|\leq 1)
    2.Epanechnikov 核函数:k(u)=34(1u2)I(u1)k(u)=\frac{3}{4}(1-u^2)I(|u|\leq 1)
    3.Quartic 核函数:k(u)=1516(1u2)2I(u1)k(u)=\frac{15}{16}(1-u^2)^2I(|u|\leq 1)
    4.Triweight 核函数:k(u)=3532(1u2)3I(u1)k(u)=\frac{35}{32}(1-u^2)^3I(|u|\leq 1)
    5.Gaussian 核函数:k(u)=12πexp(12u2)k(u)=\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}u^2)
    6.Cosine 核函数:k(u)=π4cos(πu2)I(u1)k(u)=\frac{\pi}{4}cos(\frac{\pi u}{2})I(|u|\leq 1).

    其图像如下:
    在这里插入图片描述

    [1]: 孙志华,尹俊平等 非参数与半参数统计[M] 清华大学出版社.2016.

    展开全文
  • 常用非参数检验 在用样本数据对总体信息做出统计推断时,通常要求抽样应满足随机性和独立性,因为几乎所有的抽样定理...参数假设检验相对应的还有非参数假设检验,例如分布的正态性检验,样本的随机性检验等,这类检

     常用非参数检验

    更多MATLAB数据分析视频请点击,或者在网易云课堂上搜索《MATLAB数据分析与统计》 http://study.163.com/course/courseMain.htm?courseId=1003615016

    在用样本数据对总体信息做出统计推断时,通常要求抽样应满足随机性和独立性,因为几乎所有的抽样定理都是建立在数据独立的基础之上的。而在用样本数据对正态总体参数做出统计推断(例如参数估计和假设检验)时,还要附加一个要求:样本数据应服从正态分布,这种数据分布类型已知的总体参数的假设称为参数假设检验。与参数假设检验相对应的还有非参数假设检验,例如分布的正态性检验,样本的随机性检验等,这类检验通常只假定分布是连续的或对称的,并不要求数据服从正态分布。

     1 游程检验

        在实际应用中,需要对样本数据的随机性和独立性作出检验,这要用到游程检验,它是一种非参数检验,用来检验样本数据的随机性,通常人们认为满足随机性的样本数据也满足独立性。

     在以一定顺序(如时间)排列的有序数列中,具有相同属性(如符号)的连续部分被称为一个游程,一个游程中所包含数据的个数称为游程的长度,通常用R表示一个数列中的游程总数。

    例:

    设某样本n=12人的标志表现为男、女,有以下三种排列。

      (i) 男\男,女\女\女,男,女\女,男\男\男\男 (ii) 男\男\男\男\男\男\男,女\女\女\女\女 (iii)男,女,男,女,男,女,男,女,男,女,男\男

        连续出现男或女的区段称为游程。

     每个游程包含的个数为游程长度。以r表示序列中游程的个数:

      (i)r=5, (ii)r=2, (iii)r=11

      可以看出,(i)是随机性序列;(ii)(iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。

     在游程检验中,数据序列的游程总数偏少或偏多都是数据不满足随机性的变现,因此,游程的一般都是W={R>r1或R<r2}。


    例2:

    一个包含12个数的有序序列如下:

    6  13  9  16  6  8  4  8  11  10  5  1

    -  +     +   +    -   -    -   -   +    +    -   -

    这是一个数值序列,可以采用以下两种方式计算游程总数。

    (1)以某一值(例如数据的均值)为界,将大于该值标记为“+”,小于该值标记为“-”,等于的去除,然后确定游程总数,可得游程总数为5

     (2)根据数列中出现的连续增和连续减的子序列数确定游程总数,这种方式下确定的游程总数为8.

    MATLAB统计工具箱中提供了runstest函数,用来做游程检验,调用格式如下:

     <1>h = runstest(x)

          对样本数据序列x进行游程检验,原假设为H0:数据出现是随机的,备择假设为H1:数据出现顺序不随机。此时已x的均值为界计算游程。输出参数h等于0或1,若为0,则在显著性水平0.05下接受原假设,认为样本数据满足随机性;若为1,则拒绝原假设,认为样本数据不满足随机性。runstest函数会把x中的NaN作为缺失数据而忽略。

     <2> h = runstest(x,v)

        以数值v为界进行游程检验,v的默认值为数据序列x的均值。

     <3>h=runstest(x,‘ud’)

          根据数列中出现的连续增和连续减的子序列数确定游程总数,从而进行游程检验,此时,数列x中与前一元素相同的数将会被去除

     <4> h = runstest(...,param1,val1,param2,val2,.....)

            用可选的成对出现的参数名和参数值控制计算结果,可用的参数与参数值如下表

     <5>[h,p]=runstest(......)

       返回检验的p值,当p值小于或等于显著性水平a时,拒绝原假设,否则接受原假设

     参数名                         参数值及说明

    ‘alpha’                    检验的显著性水平,取值介于

                                   0--1之间,默认值为0.05


    ‘method’             指定计算p值的方法,可能的取值情况如下

                               ‘exact’:利用精确方法计算p值,适用于小样本(样本容量<50)情形

                               ‘approximate’:利用正态近似计算p值,适用于大样本情形


    ‘tail’                   尾部类型变量,用来指定备择假设的形式,可能的取值如下:

                              ‘both’:双侧检验

                               ‘right’右尾检验

                              ‘ left’ 作为检验


    <6>[h,p,stats]=runstest(......)

       返回一个结构体变量stats,它包含以下字段

      nurns:游程总数

     n1:数据序列中大于v的数据个数

     n0:数据序列中小于v的数据个数

     z:检验统计量的值


    例:

    研究中国福利彩票“双色球”开奖号码中的蓝色球号码的出现是否随机


    %读取”双色球开奖数据.xls“第1个工作表中的I2:I98中的数据,即蓝色球号码
    x=xlsread('C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter5\双色球开奖数据.xls',1,'I2:I98');
    %调用runstest函数,对蓝色球号码进行游程检验
    %因为样本较大,所以指定,‘method’为‘aproximate’:利用正态近似计算p值
    %v值为默认
    [h,p,stats]=runstest(x,[],'method','approximate')


    h =

         0


    p =

        0.4192


    stats =

        nruns: 45
           n1: 50
           n0: 47
            z: -0.8079

    runstest函数返回的检验的p值p=0.4192>0.05,所以在显著性水平=0.05下接受原假设H0:蓝色球号码出现顺序是随机的。


    .2 符号检验

      (1)符号检验的原理

         设X为连续总体,其中位数记为Me,考虑假设检验问题

      H0:Me=M0,                   H1:Me/=M0(Me不等于M0)

     记p+=P(X>M0),p-=P(X<M0),由于Me是总体X的中位数,可知当H0成立时,p+=p-=0.5,因此可以把上述假设等价于

     H0:p+=p-=0.5,            H1:p+/=p-(p+不等于p-)

    把Xi>M0的个数记为n+,Xi<M0的个数记为n-,另m=n+  +  n-

    如果H0成立,当m固定时,min(n+,n-)不应太小,否则应认为H0不成立。选取检验统计量

        S=min(n+,n-)

    对于固定的m和给定的显著性水平a,根据S的分布计算临界值Sa,当S<=Sa时,拒绝原假设H0,即认为总体中位数Me与M0有显著差异;当S>Sa时,接受H0,,即认为总体中位数Me与M0为显著性差异。

      符号检验还可用于配对样本的比较检验,符号检验法是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。具体地讲,若两个样本差异不显著,正差值与负差值的个数应大致各占一半。

    (2)符号检验的MATLAB实现

     MATLAB统计工具箱中提供了signtest函数,用来符号检验,其调用格式如下:

      <1>  [p,h,stats] = signtest(x)

         根据样本观测量x做双侧符号检验,原假设是x来自于中位数为0的连续分布,备择假设是x来自中位数不为0的连续分布。输出参数分别为检验的p值,变量h,和包含检验统计量信息的结构体变量stats,当p>a(显著性水平)或h=0时,接受原假设;当p<=a或h=1时,拒绝原假设。

     <2>[p,h,stats]=signtest(x,m,param1,val1,.....)

      双侧符号检验,原假设是x来自于中位数为m的连续分布,备择假设是x来自于中位数不为m的连续分布,此时用可选的成对出现的参数名和参数值来控制计算结果,可用的参数名与参数值如下表

    参数名                  参数值及说明

    'alpha'                检验的显著性水平,其取值介于0--1

                                默认值为0.05


    ‘method’         指定计算p值的方法,可能的取值情况如下

                               ‘exact’:利用精确方法计算p值,适用于小样本(样本容量<100)情形

                               ‘approximate’:利用正态近似计算p值,适用于大样本情形

    <3> [p,h,stats]=signtest(x,y,param1,val1,.......)

         配对样本x和y的双侧符号检验,原假设是x-y来自于中位数为0的连续分布,备择假设是x-y来自于中位数不为0的连续分布,x,y是等长的向量。


    例:在一次选举的民意调查中,随机询问了200名选民,结果显示,69人支持甲,108人支持乙,23人弃权。分析甲乙两人的支持率是否有显著差异。取显著性水平a=0.05;

    分析:  用p1和p2分别表示甲乙两位候选人的支持率,根据题目要求可写出如下假设:

     H0:p1=p2=0.5,  H1:p1/=p2(p1不等于p2)

    调用signtest函数求解

    %定义样本观测值向量,-1表示支持甲,0表示弃权,1表示支持乙
    x=[-ones(69,1);zeros(23,1);ones(108,1)];
    p=signtest(x)     %符号检验,检验x的中位数是否为0

    p =

        0.0043

    由于signtest函数返回的检验值p=0.0043<0.01,所以在显著性水平=0.01下拒绝原假设H0,认为甲乙两位候选人的支持率有非常显著的差异。


    例:

    两组(各10名)有资质的评酒员分别对12种不同的酒进行品评,每个评酒员在品尝后进行评分,然后对每组的每个样品计算其平均分,评分结果如下

                    样品1      样本2      样品3    样品4     样品5      样品6      样品7      样品8      样品9      样品10    样品11     样品12   

    第一组     80.3      68.6          72.2     71.5      72.3          70.1         74.6        73.0        58.7        78.6         85.6           78.0

    第二组     74.0       71.2        66.3      65.3     66.0           61.6        68.8          72.6        65.7        72.6         77.1           71.5

    利用符号检验方法比较两组评酒员的评分是否有显著差异,取显著性水平a=0.05

    %样本1
    x=[80.3,68.6,72.2,71.5,72.3,70.1,74.6,73.0,58.7,78.6,85.6,78.0];
    %样本2
    y=[74.0,71.2,66.3,65.3,66.0,61.6,68.8,72.6,65.7,72.6,77.1,71.5];
    p=signtest(x,y)  %配对样本的符号检验


    p =

        0.0386

    由于signtest函数返回p=0.0386<0.05,所以在显著性水平=0.05下认为两组评分有显著差异。


    3 Wilcoxon(威尔科克森)符号秩检验

       符号检验只考虑的分布在中位数两侧的样本数据的个数,并没有考虑中位数两侧数据分布的疏密程度,这就使得符号检验的结果比较粗糙,检验功率较低。统计学家维尔科克森在1945年,提出了一种更为精细的“符号秩检验法”,该方法是在配对样本的符号检验基础上发展起来的,比传统的单独用正负号的检验更加有效。它适用于单个样本中位数的检验,也适用于配对样本的比较检验,但并不要求样本之差服从正态分布,只要求对称分布即可。

      (1)Wilcoxon(威尔科克森)符号秩检验的原理

          设连续总体X服从对称分布,其中位数记为Me,考虑假设检验问题:

              H0:Me=M0,               H1:Me/=M0(Me不等于m0)

       从总体X中抽取容量为n的样本X1,X2,......,Xn,将 |Xi-M0| ,i=0,1,2,....n,从小到大排序,并计算它们的秩(即序号,取值相同时求平均秩),根据 Xi-M0 的符号将|Xi-M0|分为正好组和负号组,用W+和W-分别表示正号组和负号组的秩和,则W+  +  W-  =n(n+1)/2。

       如果H0成立,则W+和W-取值相差不大,即min(W+,W-)不应太小,否则认为H0不成立。选取统计量

        W=min(W+,W-)

        对于给定的显著性水平a,根据W的分布计算出临界值Wa,当W<=Wa时,拒绝原假设H0,即认为总体中位数Me与M0有显著性差异;当W>Wa时,接受H0,即认为总体中位数Me与M0无显著差异。

      对于配对样本的符号秩检验,只需将两样本对应数据做差,即可将其化为单样本符号秩检验

     讲解下面这个例子

     http://wiki.mbalib.com/wiki/%E5%A8%81%E5%B0%94%E7%A7%91%E5%85%8B%E6%A3%AE%E7%AC%A6%E5%8F%B7%E7%A7%A9%E6%A3%80%E9%AA%8C

       (2)Wilcoxon(威尔科克森)符号秩检验的MATLAB实现

        MATLAB统计工具箱中提供了signrank函数,用来做Wilcoxon(威尔科克森)符号秩检验,其调用格式如下:

         <1>[p,h,stats]=signrank(x)

        根据样本观测值向量x做双侧符号秩检验,原假设是x来自于中位为0的分布,备择假设是x来自于中位数不为0的分布。该检验假定x的分布是连续的,并且关于其中位数对称。输出参数分别为检验的p值、变量h和包含检验统计量信息的结构体变量stats,当p>a(显著性水平)或h=0时,接受原假设;当p<=a(显著性水平)或h=1时,拒绝原假设。

      <2> [p,h,stats]=signrank(x,m,param1,val1,......)

          双侧符号秩检验,检验样本观测值向量x是否来自于中位数为m的分布,此时用可选的成对出现的参数名和参数值来控制计算结果,参数名和参数值如下表

      

    参数名                  参数值及说明

    'alpha'                检验的显著性水平,其取值介于0--1

                                默认值为0.05


    ‘method’         指定计算p值的方法,可能的取值情况如下

                               ‘exact’:利用精确方法计算p值,适用于小样本(样本容量<15)情形

                               ‘approximate’:利用正态近似计算p值,适用于大样本情形

    <3> [p,h,stats]=signrank(x,y,param1,val1,.....)

         配对样本x和y的双侧符号检验,原假设是x-y来自于中位数为0的分布,备择假设是x-y来自于中位数不为0的分布,此时,x和y是等长的向量,其他参数说明同上。


    例:

    抽样某品牌面粉的重量,抽查了16包,其观测值如下:

    20.21,19.95,20.15,20.07,19.91,19.99,20.08,20.16,19.99,20.16,20.09,19.97,20.05,20.27,19.96,20.06

    试检验中位数与原来设定的20是否有显著性差别,去显著性水平为0.05

     根据题目要求可写出如下假设:

      H0:Me=20,                H1:Me/=20(Me不等于20)

    调用signrank函数求解

    %输入样本观测向量
    %换行时要加入...,不然就会说一个2x8的矩阵
    x=[20.21,19.95,20.15,20.07,19.91,19.99,20.08,20.16,...
        19.99,20.16,20.09,19.97,20.05,20.27,19.96,20.06];

    %调用signrank检验
    [p,h,stats]=signrank(x,20)


    p =

        0.0298


    h =

         1


    stats =

              zval: 2.1732                 %近似正态统计量
        signedrank: 110                %符号秩统计量

    由于返回的p=0.0298<0.05,所以在显著性水平=0.05下拒绝原假设,不能认为此组面粉数据的中位数为20.


    .4 曼-惠特尼秩和检验

     曼-惠特尼U检验又称“曼-惠特尼秩和检验”,是由H.B.Mann和D.R.Whitney于1947年提出的。它假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是检验这两个总体的均值是否有显著的差别。

     (1)曼-惠特尼秩和检验的原理

       设X和Y是两个连续型总体,其分布函数分别为F(x-u1)和F(x-u2)均未知,即两总体分布形状相同,位置参数(例如中位数)可能不同,从两总体分布中分布抽取容量为n1和n2的样本X1,X2,......,Xn1 和 Y1,Y2,.....,Yn2,并且两样本独立,考虑假设性检验问题

     H0:u1=u2,                H1:u1/=u2(u1不等于u2)

     将样本观测数据X1,X2,....,Xn1和Y1,Y2,....,Yn2混合在一起,从小到大排序,并计算它们的秩(即序号,取值相同时求平均秩)。记X1,X2,...,Xn1的秩和为Wx,Y1,Y2,....,Yn2的秩和为Wy,则

        Wx+Wy =(n1+n1)(n1+n2+1)/2

    选取检验统计量         

                       Wx ,        n1<=n2

    W=          

                       Wy,             n1>n2

    如果H0成立,W的取值不应过于偏小或偏大,否则拒绝H0,对于给定显著性水平a, 根据W的分布计算下临界值W1和上临界值W2,当W<=W1或W>=W2时,拒绝原假设H0,;当W1<W<W2时,接受H0。通常样本容量之一超过10时,可认为W近似服从正态分布,从而可用近似正态检验法。

     (2)曼-惠特尼秩和检验的MATLAB实现

      MATLAB统计工具箱中提供了ranksum函数,用来做秩和检验,其调用格式如下:

     [p,h,stats]=ranksum(x,y,param1,val1,........)

      根据样本观测值向量x和y做双侧秩和检验,原假设两独立样本x和y来自于具有相同中位数的连续分布,备择假设是x和y具有不同的中位数。此时可选成对出现的参数和参数值来控制计算结果。可选的参数名与参数值如下表:

     

    参数名                  参数值及说明

    'alpha'                检验的显著性水平,其取值介于0--1

                                默认值为0.05


    ‘method’         指定计算p值的方法,可能的取值情况如下

                               ‘exact’:利用精确方法计算p值,适用于小样本(样本容量<10)情形

                               ‘approximate’:利用正态近似计算p值,适用于大样本情形

    输出参数分别为检验的p值、变量h和包含检验统计量信息的结构体变量stats,当p>a(显著性水平)或h=0时,接受原假设;当p<=a或h=1时,拒绝原假设。

    例:

    某科研团队要研究两种饲料(高蛋白饲料和低蛋白饲料)对小白鼠体重的影响,先用高蛋白饲料喂养12只小白鼠,低蛋白饲料喂养7只小白鼠,记录在一段时间内体重的增加量,得到如下观测数据

    饲料                                  各鼠增加的体重

    高蛋白       133  112  102  129  121  161  142  88  115  127  96  125

    低蛋白        71    119  101  83  107     134  92

    试检验两种不同饲料喂养的小白鼠的体重增加是否有显著差异,去显著性水平=0.05;

    根据题目要求可做如下假设:

     H0:u1=u2,                 H1:u1/=u2(u1不等于u2)

    调用ranksum函数进行求解


    %第一组体重增加量
    x=[133,112,102,129,121,161,142,88,115,127,96,125];
    %第二组体重增加量
    y=[71,119,101,83,107,134,92];

    %调用ranksum进行检验
    [p,h,stats]=ranksum(x,y,'method','approximate')


    p =

        0.0832


    h =

         0


    stats =

           zval: 1.7326
        ranksum: 141

    函数返回p=0.0832>0.05,在显著性水平=0.05下接受原假设,认为两种饲料喂养的小白鼠体重的增加量没有显著性差异。

    更多MATLAB数据分析视频请点击,或者在网易云课堂上搜索《MATLAB数据分析与统计》 http://study.163.com/course/courseMain.htm?courseId=1003615016

    展开全文
  • 非参数统计

    2020-07-17 22:40:01
    例题:用湖北省油菜投入产出的数据,计算油菜产量物质费用投入、土地投入、劳动力投入的直接通径系数。 数据详见这里 1.首先计算油菜产出y各投入之间的简单相关系数 clear clc A=xlsread('youcai.xlsx',...

    例题:用湖北省油菜投入与产出的数据,计算油菜产量与物质费用投入、土地投入、劳动力投入的直接通径系数。

    数据详见这里

     

    1.首先计算油菜产出y与各投入之间的简单相关系数

    clear
    clc
    A=xlsread('youcai.xlsx','B2:E14');
    for i=1:3
        xi=log(A(:,i+1));
        y=log(A(:,1));
        [ry(i),py(i)]=corr(xi,y,'type','pearson');
    end
    ry,py
    ry =
    
        0.9640    0.9835    0.8980
    
    
    py =
    
       1.0e-04 *
    
        0.0011    0.0000    0.3076

    此处可以看到p1,p2,p3<<0.05,拒绝原假设,认为各投入都与油菜产出y相关。

     

    2.计算所有自变量之间的相关系数

    A=xlsread('youcai.xlsx','B2:E14');
    for i=1:3
        xi=log(A(:,i+1));
        for j=1:3
            xj=log(A(:,j+1));
            r(i,j)=corr(xi,xj,'type','pearson');
        end
    end
    r
    r =
    
        1.0000    0.9565    0.9267
        0.9565    1.0000    0.9420
        0.9267    0.9420    1.0000
    



    3.建立通径方程

     

    4.计算出直接通径系数

    p=inv(r)*ry'
    p =
    
        0.3751
        0.9438
       -0.3386

    可以看出,湖北省油菜产出主要是面积的投入影响的,其次是物质费用投入的影响,湖北省油菜产量没有受到劳动力减少的影响。

    展开全文
  • 这本参考教材对学习非参数者有很大帮助,思路清晰,内容详细,不是高清版本,但是基本上能顺利阅读,所以上传希望能帮助到大家!
  • 内部分享PPT:内容包括统计...参数统计与非参数统计的比较;单总体位置参数的检验;分布的一致性检验: χ2检验;两总体的比较与检验;多总体的比较与检验 http://wenku.baidu.com/view/222a736eb84ae45c3b358c3a.html
  • 时间序列分析与非参数统计

    千次阅读 2017-11-21 09:48:07
    未知参数的估计值 D. 拟合模型的具体形式 以下哪个说法是错误的( A )。 得分/总分 A. 如果一个序列的残差不是白噪声序列,说明模型提取信息充分 2.00/2.00 B. 一个序列显示出显著的短期相关性,就...
  • 此为吴喜之费参数统计第三版课后作业例题的数据包,
  • 目录导引非参数统计基本概念1.1 假设检验1.2 经验分布1.2.1 经验分布1.2.2 生存函数1.3 检验的相对效率1.4 分位数1.5 秩秩检验统计量1.6 U统计量 这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。...
  • R语言与非参数统计(核密度估计) 核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。 假设我们有n个数X1...
  • 非参数统计分析

    2020-02-24 11:03:55
    利用R软件自带程序或自编程序完成中位数的符号检验,两总体比较的Wilcoxon秩和检验和K-S检验,独立性随机性的卡方检验和Fisher列联表检验,相关性秩检验协同性检验以及多总体比较的秩和检验和卡方检验;...
  • 非参数检验(Nonparametric tests)是统计分析方法的重要组成部分,它参数检验共同构成统计推断的基本内容。非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于...
  • 参数模型与非参数模型

    万次阅读 2018-06-01 22:59:44
    统计专业中有一门课程叫做《非参数统计》,研究的对象就是秩检验、核密度估计等。在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上...
  • 非参数统计:方法应用 (全书例题R语言实现) 第二章 2.1 例2.1 a <- c(88,12) b <- c(0.95,0.05) chisq.test(a,p = b) $p.value p = 0.001318969 例2.2 a <- c(380,69,43,8) b <- c(0.8,0.12,0.07,...
  • 最近学习非参数统计,碰到一个样例,准确说明了若数据不服从正态分布,或有明显的偏态表现,应用t统计量和t检验推断未必能发挥较好的效果~ 这是一个课本上的例题,数据是16座预售楼盘均价,判断是否媒体公布的37...
  • 非参数检验(Nonparametric tests)可能就是一个比较好的方法。对非正态分布数据,我们无法根据样本数据对总体分布的统计参数进行推断,可以用排秩(排序)的方法来规避不是正态分布的问题,用样本的排序情况来推断总体...
  • 放b站上了,超级详细的,把能出的题都写出来了,个人认为。 https://www.bilibili.com/read/cv3965524
  • R语言与核密度估计非参数统计Tag内容描述:1、R语言与非参数统计(核密度估计),核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen...
  • 由于博主此次使用的是非参数检验,将重点介绍非参数检验相关内容,仍然是深入浅出的风格,先放一些概念,再总结实际使用的技巧。写在这里,供大家参考学习。  为了方便描述公式和定义,部分内容摘自网络,鉴于是...
  • 非参数检验(Nonparametric tests)可能就是一个比较好的方法。对非正态分布数据,我们无法根据样本数据对总体分布的统计参数进行推断,可以用排秩(排序)的方法来规避不是正态分布的问题,用样本的排序情况来推断总体...
  • 2.非参数统计的概念参数统计的对比分析 添加链接描述 3.非参数统计的检验方法 3.1相关性检验 检验得出的相关性系数是否可信 补充知识:非参数检验方法 概述:一种总体分布状况无关但可以对总体进行检验的方法,...
  • 参数模型与非参数模型1、概述2、参数机器学习算法3、非参数机器学习算法 1、概述   LR是参数模型,SVM是非参数模型。    参数模型、非参数模型(以及半参数模型)的概念应该源自于统计学中。统计专业课程《...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,386
精华内容 554
关键字:

参数统计与非参数统计