精华内容
下载资源
问答
  • 九、非参数检验:使用python进行单总体位置参数的检验-符号秩检验
    2020-07-12 13:03:43

    符号检验利用了观察值和原假设的中心位置之差的符号来进行检验,但是没有利用这些差值的大小所包含的信息。不同的符号代表了在中心位置的哪一边,而差的绝对值的秩的大小代表了距离中心的远近。

    1. 统计量秩

    1.1. 秩的概念

    简单来说,对一组有序的数,其中的每个元素都有一个顺序号,可以称为“秩次”。

    import numpy as np
    import pandas as pd
    x=[-5,-3,-1,0,1,3,5]
    x=pd.Series(x)
    x.rank()
    # 结果
    # 1,2,3,4,5,6,7
    

    从上面的计算可以看成,秩的概念跟一组数据中元素的大小位置有关。如果该组数据一共有n个元素,那么其中的任何一个元素的秩次在1到n之间取值。

    1.2. 秩和

    直观理解,秩和就是满足一定条件的秩的总和。在一个来自连续对称分布的总体的样本中,样本点距离对称中心应该对称分布。假如总体分布的对称中心的估计为 M 0 M_0 M0,那么对样本来说, F ( X i − M 0 ) = 1 − F ( M 0 − X i ) F(X_i-M_0 )=1-F(M_0-X_i) F(XiM0)=1F(M0Xi).
    那么如何才能从样本数据反映总体的分布特征呢?
    (1) 求 d i = ∣ x i − M 0 ∣ d_i=|x_i-M_0| di=xiM0
    (2) 求 d中每个元素的秩次
    使用 R + R^+ R+代表 x i − M 0 > 0 x_i-M_0 \gt 0 xiM0>0的秩次之和(简称秩和); R − R^- R代表 x i − M 0 < 0 x_i-M_0 \lt 0 xiM0<0的秩次之和。
    那么如果总体为连续对称分布的话, R + = R − R^+ = R^- R+=R.

    import numpy as np
    import pandas as pd
    x=[-5,-3,-1,0,1,3,5]
    x=pd.Series(x)
    abs(x).rank()
    # 结果
    # 6.5, 4.5, 2.5, 1.0, 2.5, 4.5, 6.5
    

    从上面的结果可以明显看出 R + = R − R^+ = R^- R+=R.

    2. Wilcoxon符号秩检验

    Wilcoxon同时使用了样本点偏离中心位置的方向(符号检验)和偏离的大小。因为比符号检验更优。

    2. 1. wilcoxon符号秩检验步骤:

    1. 计算 ∣ X i − M 0 ∣ , i = 1 , 2 , . . . , n |X_i-M_0|, i = 1,2,...,n XiM0,i=1,2,...,n
    2. 计算 ∣ X i − M 0 ∣ |X_i-M_0| XiM0的秩,若遇到等秩情况,采用平均值
    3. R + R^+ R+等于 X i − M 0 > 0 X_i-M_0 \gt 0 XiM0>0对应的 ∣ X i − M 0 ∣ |X_i-M_0| XiM0的秩和;而 R − R^- R等于 X i − M 0 < 0 X_i-M_0 \lt 0 XiM0<0对应的 ∣ X i − M 0 ∣ |X_i-M_0| XiM0的秩和。
    4. 对双边检验:
      H 0 : M = M 0 H 1 : M ≠ M 0 H_0: M=M_0 \quad H_1: M\neq M_0 H0:M=M0H1:M=M0
      检验统计量 R = m i n ( R + , R − ) R=min(R^+, R^-) R=min(R+,R)。当R很小时拒绝原假设。
      左边检验:
      H 0 : M ≥ M 0 H 1 : M < M 0 H_0: M\ge M_0 \quad H_1: M\lt M_0 H0:MM0H1:M<M0
      检验统计量 R = R − R=R^- R=R
      右边检验:
      H 0 : M ≤ M 0 H 1 : M > M 0 H_0: M\le M_0 \quad H_1: M\gt M_0 H0:MM0H1:M>M0
      检验统计量 R = R + R=R^+ R=R+
    5. 使用scipy.stats中的wilcoxon进行检验。

    2.2. Python中wilcoxon检验

    • 函数原型:
      stats.wilcoxon(
      x,
      y=None,
      zero_method=‘wilcox’,
      correction=False,
      alternative=‘two-sided’,
      )

    3. 验证样例

    例1:为了解垃圾邮件对大型公司决策层的工作影响程度,某网站收集了19家大型公司的CEO和他们邮箱里每天收到的垃圾邮件件数,得到如下数据(单位:封):
    310,350,370,377,389,400,415,425,440,295,325,296,250,340,298,365,375,360,385
    从平均意义上来看,垃圾邮件数量的中心位置是否超过320封?显著性水平为0.05。
    解:假设检验如下:
    H 0 : M = 320 H 1 : M > 320 H_0: M=320 \quad H_1: M\gt 320 H0:M=320H1:M>320

    import numpy as np
    from scipy import stats
    data = [310,350,370,377,389,400,415,425,440,295,325,296,250,340,298,365,375,360,385]
    data = np.array(data)
    data = data-320
    stats.wilcoxon(data,  correction=True, alternative='greater')
    # 结果:
    pvalue=0.005949317582258638
    

    因为 p v a l u e < α = 0.05 pvalue \lt \alpha=0.05 pvalue<α=0.05 ,因此拒绝原假设。可以认为垃圾邮件数量的中心位置超过了320封。

    更多相关内容
  • 前面几讲中的参数检验都是基于这样一个假设:样本来自于正态分布的总体!那么如果总体不符合正态分布时,如何对其参数或者分布进行检验呢?这就涉及到非参数检验,我们首先从单个总体的位置参数和分布检验讲起。 .....

    前面几讲中的参数检验都是基于这样一个假设:样本来自于正态分布的总体!那么如果总体不符合正态分布时,如何对其参数或者分布进行检验呢?这就涉及到非参数检验,我们首先从单个总体的位置参数和分布检验讲起。

    例1:假设某城市16座预售的楼盘均价(单位:百元/ m 2 m^2 m2 )如下表所示:
    36 32 31 25 28 36 40 32
    41 26 35 35 32 87 33 35
    问:该地区评价楼盘价格是否与媒体公布的3700元/ m 2 m^2 m2的说法相符?

    解:若假设楼盘均价服从正态分布,则有参数统计分析建立假设如下:
    H 0 : μ = 37 H 1 : μ ≠ 37 H_0: \mu=37 \quad H_1:\mu \neq 37 H0:μ=37H1:μ=37
    那么该问题就是方差未知的均值检验,其检验统计量为:
    X ‾ − μ s / n ∼ t ( n − 1 ) \frac{\overline X -\mu}{s/\sqrt{n}}\sim t(n-1) s/n Xμt(n1)
    使用python计算如下:

    import numpy as np
    from scipy import stats
    data=[36, 32, 31, 25, 28, 36, 40, 32, 41, 26, 35, 35, 32, 87, 33, 35]
    _, pval=stats.ttest_1samp(data, 37)
    # 结果:
    pval=0.8895650329479428
    

    p v a l = 0.8895650329479428 > α = 0.05 pval=0.8895650329479428>\alpha=0.05 pval=0.8895650329479428>α=0.05,因此没有理由拒绝原假设。

    以上16个数据中,其中只有3个楼盘的均价高于37, 其他13个均低于37, 由正态分布的对称性可知,若37为楼盘的均价的平均水平,则从总体中提取的数据分布在37左右的个数应该大致相等,不应该出现比例失衡,因此37不能作为正态分布的对称中心。
    然而若知道某一连续数据总体中心位置的参数(中位数和均值),总体均值的点估计是样本均值,总体中位数的点估计是样本中位数,对于单峰对称分布来说,两者差距不大,而对于非对称分布来说,中位数较均值对总体的中心位置来说,将是更稳健的估计。

    由于分布未知,使用参数估计会出现错误,则以上检验用中位数检验较为合理,由此引入非参数检验。

    1. 符号检验的基本原理

    假设总体分布函数为 F ( x ) F(x) F(x), M e M_e Me是总体的中位数,对于假设检验问题:
    H 0 : M e = M 0 H 1 : M e ≠ M 0 H_0: M_e=M_0 \quad H_1: M_e\neq M_0 H0:Me=M0H1:Me=M0
    定义: S + = c o u n t { X i : X i > M 0 , i = 1 , 2 , . . . , n } S^+=count\{X_i: X_i \gt M_0, i=1,2,...,n\} S+=count{Xi:Xi>M0,i=1,2,...,n}, S − = c o u n t { X i : X i < M 0 , i = 1 , 2 , . . . , n } S^-=count\{X_i:X_i \lt M_0, i=1,2,...,n\} S=count{Xi:Xi<M0,i=1,2,...,n}, 则有 S + + S − = n , k = m i n ( S + , S − ) S^+ + S^-=n, k=min(S^+, S^-) S++S=nk=min(S+,S)

    简单来说,就是遍历样本数据,然后分别记录大于中位数的个数( S + S^+ S+)和小于中位数的个数( S − S^- S)。那么对每一个样本点来说,要么大于中位数,要么小于中位数(等于的排除),那么就是一个0-1分布问题了。

    在原假设情况下, K ∼ b ( n , 0.5 ) K\sim b(n,0.5) Kb(n,0.5), 在显著性水平为 α \alpha α下的拒绝域为:
    2 P b i n o m ( K ≤ k ∣ n , p = 0.5 ) ≤ α 2P_{binom}(K\le k|n, p=0.5)\le \alpha 2Pbinom(Kkn,p=0.5)α
    其中 k k k为满足上式最大的 k k k值。
    使用python计算如下:

    import numpy as np
    from scipy import stats
    
    data=[36, 32, 31, 25, 28, 36, 40, 32, 41, 26, 35, 35, 32, 87, 33, 35]
    data = np.array(data)
    k=min(len(data[data>37]), len(data[data<37]))
    pval=2*stats.binom.cdf(k, len(data), 0.5)
    # 结果:
    pval = 0.02127075195312
    

    因为 p v a l = 0.02127075195312 < α = 0.05 pval = 0.02127075195312\lt \alpha=0.05 pval=0.02127075195312<α=0.05,所以拒绝原假设。

    这里使用符号检验得到了与使用t检验相反的结论,到底该相信哪个结论?在总体分布未知的情况下,符号检验要优于t检验。

    1.1. 符号检验的小结

    零假设备择假设检验统计量p值
    M e = M 0 M_e = M_0 Me=M0 M e > M 0 M_e \gt M_0 Me>M0 K = S − K=S^- K=S p ( K ≤ k ) p(K\le k) p(Kk)
    M e = M 0 M_e = M_0 Me=M0 M e < M 0 M_e \lt M_0 Me<M0 K = S + K=S^+ K=S+ p ( K ≤ k ) p(K\le k) p(Kk)
    M e = M 0 M_e = M_0 Me=M0 M e ≠ M 0 M_e\neq M_0 Me=M0 K = m i n ( S + , S − ) K=min(S^+, S^-) K=min(S+,S) 2 p ( K ≤ k ) 2p(K\le k) 2p(Kk)

    注: 在实际问题中可能有某一些观察值 x i x_i xi 正好等于 M 0 M_0 M0 , 一般采用的方法是将这
    些正好等于 M 0 M_0 M0 的观察值舍去,并相应地减少样本容量的n值.

    2. 大样本情况

    当样本容量n较大时,根据中心极限定理,且 E ( S + ) = n 2 , v a r ( S + ) = n 4 E(S^+)=\frac{n}{2}, var(S^+)=\frac{n}{4} E(S+)=2n,var(S+)=4n,所以有如下结论:
    s + − n 2 n / 4 ∼ N ( 0 , 1 ) \frac{s^+-\frac{n}{2}}{\sqrt{n/4}}\sim N(0,1) n/4 s+2nN(0,1)
    因为标准正态分布时连续分布,所以在离散的二项分布近似中,要用连续性修正量,即:
    S + − n 2 ± 0.5 n / 4 ∼   N ( 0 , 1 ) \frac{S^+-\frac{n}{2} \pm0.5}{\sqrt{n/4}}\sim \ N(0,1) n/4 S+2n±0.5 N(0,1)
    上式中,当 S + < n 2 S^+\lt \frac{n}{2} S+<2n时取加号(+),当 S + > n 2 S^+\gt \frac{n}{2} S+>2n时取减号(-).

    2.1. 大样本情况下的符号检验

    零假设备择假设检验统计量p值
    M e = M 0 M_e = M_0 Me=M0 M e > M 0 M_e \gt M_0 Me>M0 Z Z Z p ( Z ≤ z 0 ) p(Z\le z_0) p(Zz0)
    M e = M 0 M_e = M_0 Me=M0 M e < M 0 M_e \lt M_0 Me<M0 Z Z Z p ( Z ≤ z 0 ) p(Z\le z_0) p(Zz0)
    M e = M 0 M_e = M_0 Me=M0 M e ≠ M 0 M_e\neq M_0 Me=M0 Z Z Z p ( ∥ Z ∥ ≤ ∥ z 0 ∥ ) p(\|Z\|\le\|z_0\|) p(Zz0)

    例2: 设某化妆品厂商有A和B两个品牌,为了解顾客对A品牌和B品牌在使用上的差异,将A品牌和B品牌同时交给45个顾客使用,一个月后得到如下数据:

    • 喜欢A品牌的客户人数:22人
    • 喜欢B品牌的客户认识:18人
    • 不能区分的人数:5人

    解:假设检验问题如下:
    H 0 : P ( A ) = P ( B ) H 1 : P ( A ) ≠ P ( B ) H_0: P(A)=P(B) \quad H_1: P(A)\neq P(B) H0:P(A)=P(B)H1:P(A)=P(B)
    由给定的数据知道: S + = 22 , S − = 18 , S + + S − = 40 S^+ =22, S^- = 18, S^++S^-=40 S+=22,S=18,S++S=40
    使用python计算如下(使用大样本):

    import numpy as np
    from scipy import stats
    z0=(22-40/2 - 0.5)/(np.sqrt(40)/2)
    z0=abs(z0)
    Z=stats.norm(loc=0, scale=1)
    pval=Z.cdf(z0)+Z.sf(-z0)
    # 结果:
    pval=0.6352562959972483
    

    因为 p v a l = 0.6352562959972483 < α = 0.05 pval=0.6352562959972483 \lt \alpha=0.05 pval=0.6352562959972483<α=0.05。所以没有理由拒绝原假设。

    展开全文
  • 实现单个总体率、两总体比率的假设检验,卡方拟合优度检验、符号检验等
  • 总体参数的假设检验 R

    千次阅读 2020-12-06 17:58:50
    简单统计推断:总体参数的假设检验 1.假设检验的逻辑步骤 (1)写出零假设和备择假设 (2)确定检验统计量 (3)确定显著性水平α (4)根据数据计算检验统计量的实现值 (5)得到检验是否显著的结论 2.对于正态总体...

    简单统计推断:总体参数的假设检验
    1.假设检验的逻辑步骤
    (1)写出零假设和备择假设
    (2)确定检验统计量
    (3)确定显著性水平α
    (4)根据数据计算检验统计量的实现值
    (5)得到检验是否显著的结论

    2.对于正态总体均值的检验
    2.1根据一个样本对其总体均值大小进行检验
    单尾检验
    双尾检验【如果一个单尾检验问题用了双尾检验,p值就比单尾检验时大了一倍】

    2.2根据来自两个总体的独立样本对其总体均值的检验

    w=read.table('drug.txt',header=T) #读入数据
    x=w[w[,2]==1,1];y=w[w[,2]==2,1]   #分开两个数据
    t.test(x,y,alt='greater')         #检验【不检验方差,直接用方差不等的方法去做,不会有问题】
    

    2.3成对样本的问题

    t.test(w$before,w$after,alt='greater',pair=T)    #直接检验
    t.test(w$before-w$after,alt='greater')           #相减后检验
    

    2.4关于正态性检验的问题
    (1)最简单实用方法:Shapiro正态性检验
    (2)直观办法:正态QQ图(不一定正确):用样本分位数与正态分位数做散点图,如果总体是正态的,则图上的点应该近似地排成一条直线。

    x=scan('sugar.txt')
    qqnorm(x);qqline(x)
    

    在这里插入图片描述

    3.对于比例的检验
    3.1对于总体比例的检验
    (1)精确检验【首选】

    binom.test(0.23*1500,1500,.25,alt='less')
    

    两个总体比例之差p1-p2的检验:

    binom.test(c(.2*1200,.21*1300),c(1200,1300),alt='less')
    

    (2)利用公式的近似检验【计算机不发达时的遗产】
    (3)用连续性修正的近似检验

    3.2对于连续变量比例的检验
    两种等价形式检验:
    1.看中位数或α分位数是否是某个事先认定的值(零假设)
    2.大于(或小于)某数的观测值是否为一个事先认定的比例(零假设)
    Q:存活时间低于2小时的是否少于70%?【此检验又称为(推广的)符号检验,不用对总体分布进行任何假定,通常把符号检验归于非参数检验范畴】

    x=scan('life.txt')
    binom.test(sum(x<2),60,.7,alter='greater')
    

    4.非参数检验
    4.1关于非参数检验的一些常识
    (1)和数据本身的总体分布无关的检验称为非参数检验。
    (2)在总体分布已知时,传统方法有较大的势,效率要高【势(power):当备择假设正确时,该检验拒绝零假设的概率,强势检验也称为高效率检验】 但在总体分布未知时,非参数统计比假定了错误总体分布时的传统方法要高,有时要高很多。
    (3)如何比较检验的效率:通常用两种检验方法的渐近相对效率(ARE)来度量,当ARE等于1时表示两者效率一样。一般来说,检验T1对检验T2的相对效率是这两个检验在拒绝零假设时所使用的最小样本量n1和n2的反比:n2/n1,显然,用的样本量越少,效率越高。
    (4)秩(rank)的概念:一般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。

    4.2关于单样本位置的符号检验【3.2有介绍广义的符号检验】
    狭义的符号检验

    x=scan('gs.txt')
    pbinom(sum(x>100),25,.5)
    

    大于零假设中位数m的个数等于所有观测值减去m之后所得的符号为正的差的个数,而小于m的个数等于符号为负的差个数。这就是之所以称为符号检验的原因。
    如果有等于中位数m的,即既不相应于属于正号,又不相应于属于负号,对判断没有贡献,一般把它删除。

    4.3关于单样本位置的Wilcoxon符号秩检验
    要求假定样本点来自连续对称总体分布,对总体中位数的检验,等价于对总体均值的检验。
    该检验的具体步骤:
    (1)对i=1,…,n,计算∣Xi-M0∣,它们代表这些样本点到M0的距离。
    (2)把上面的n个绝对值排序,并找出它们的n个秩,如果它们有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4)。
    (3)令W+等于Xi-M0>0的∣Xi-M0∣的秩的和,而W-等于Xi-M0<0的∣Xi-M0∣的秩的和。
    (4)对双边检验H0:M=M0<=>H1:M≠M0,在零假设下,W+和W-应差不多。因而,当其中之一很小时,应怀疑零假设。在此,取检验统计量W=min(W+,W-)
    (5)根据得到的W值,利用统计软件或查Wilcoxon符号秩检验的分布表以得到在零假设下的p值。如果n很大要用正态近似:得到一个与W有关的正态随机变量Z的值,再用软件或查正态分布表得到p值。
    (6)如果p值较小(比如小于或等于给定的显著性水平,譬如0.05)则可以拒绝零假设。如果p值较大则没有充分的证据来拒绝零假设,但不意味着接受零假设

    4.4关于随机性的游程检验(runs test)
    游程检验方法:检验一个取两个值的变量的这两个值的出现是否时随机的。
    游程:样本中相同的值在一起称为一个游程,单独的值也算。

    library(tseries)
    x=scan('run1.txt')
    runs.test(factor(x))
    

    当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某个确定值及大于该值的个数(类似于0和1的个数)是否随机的问题。

    library(tseries)
    x=scan('run2.txt')
    runs.test(factor(x>median(x))) #这里runs.test()不是精确检验
    

    4.5比较两独立总体中位数的Wilcoxon(Mann-Whitney)秩和检验
    检验所需唯一假定:两个总体的分布有类似形状(不一定对称)
    原理:假定第一个样本有m个观测值,第二个样本有n个观测值,把两个样本混合之后把这m+n个观测值按照大小次序排序,然后记下每个观测值在混合排序下面的秩。之后分别把两个样本所得到的秩相加,记秩和分别是Xx和Xy,这两个值可以互相推算,称为Wilcoxon统计量。该统计量的分布与两个总体分布无关,由此分布可以得到p值。

    w=read.table('gdp.txt')
    wilcox.test(w[w[,2]==1,1],w[w[,2]==2,1],alt='less') #单尾检验
    
    展开全文
  • [p,h,stats]=signtest(x,m,param1,val1,.....) 双侧符号检验,原假设是x来自于中位数为m的连续分布,备择假设是x来自于中位数不为m的连续分布,此时用可选的成对出现的参数名和参数值来控制计算结果,可用的参数名...

    皮尔森拟合优度检验

    http://blog.sina.com.cn/s/blog_7054a1960102wizu.html

    https://blog.csdn.net/qq_41000485/article/details/99423456

    https://blog.csdn.net/matlab_matlab/article/details/56272365

    [h,p,stats]=chi2gof(.....)

       返回一个结构体变量stats,它包含以下字段:

      chi2stat:卡方检验统计量

      df : 自由度

      edges:合并后各区间的边界向量

      O: 落入每个小区间内观测的个数,即时间频数

     E: 每个小区间对应的理论频数

     [......]=chi2gof(x,name1,val1,name2,val2,.......)

       通过可选的成对出现的参数名和参数值来控制初始分组、原假设中的分布、显著性水平等。控制初始分组的参数与参数值如下表:

      参数名             参数值                                说明

    ‘nbins’             正整数,默认值为10      分组(或区间)的个数

    ‘ctrs’                 向量                                   指定各区间的中点

    ‘edges’            向量                                   指定各个区间的边界

    注意:上述三个参数不能同时指定,一次调用最多只能指定其中的一个参数,因为后两个参数已经潜在的指定了分组数了

    chi2gof函数可以利用以下参数值来控制原假设中的分布

    参数名                                    参数值                                                          说明

    ‘cdf’                   函数名字字符串、函数句柄、                         指定原假设中的分布,与‘expected’参数不同同时出现,若为函数名字符串或函数句柄,则x是函数的唯一

                            由函数字符串(或函数句柄)与函数中        输入参数;若是由函数名字字符串(或函数句柄)与函数中所含有参数值

                            所含参数的参数值构成的元胞数组                 构成的元胞数组,则x是函数的第一个输入参数,其他参数为后续输入

                                                                                                         

    ‘expected’                         向量                                              指定各区间的理论频数,与‘cdf’不能同时出现

    ‘nparams’                      向量                                                 指定分布中待估参数的个数,它确定了卡方分布的自由度

    chi2gof函数控制检验的其他方面的参数与参数值列表

    参数名             参数值                                说明

    ‘emin’      非负整数,默认值5       指定一个区间对应的最小理论频数,初始分组中,

                                                                理论频数小于这个值的区间和相邻区间合并。如果指定为0,

                                                                将不进行区间合并

    ‘frequency’   与x等长的向量               指定x中各元素出现的频数

    ‘alpha’           0--1之间的数,默认值0.05        指定检验的显著性水平


    %参数'cdf'的值是由函数名字符串与函数中所包含参数的参数值构成的元胞数组
    % [h1,p1,stats1]=chi2gof(x,'nbins',7,'cdf',{'normcdf',mean(x),std(x)})

    % %参数‘cdf’的值有函数句柄与函数中所包含的参数值构成的元胞数组
    % [h2,p2,stats2]=chi2gof(x,'nbins',6,'cdf',{@normcdf,mean(x),std(x)})

    %指定初始分组数为6,检验数据是否服从参数为ms的泊松分布
    [h3,p3,stats3]=chi2gof(f,'ctrs',f,'frequency',x,'cdf',{@poisscdf,mean(x)},'nparams',1)
    % [h,p,s] = chi2gof(x,'cdf',{@unifcdf,1,6})
    %  [h,p,s]= chi2gof(x,'cdf',@(z)unifcdf(z,ahat,bhat),'nparams',2);
    %   [h,p,s] = chi2gof(x,'cdf',@(z)raylcdf(z,phat),'nparams',1);
    %检验数据是否服从指数分布
    %   [h,p,s]chi2gof(x,'cdf',@(z)gamcdf(z,mu),'nparams',1);

    close all;clear all;clc 
    x=[8,16,17,10,6,2,1];
    f=0:6;n=60;
    lamda=dot(f,x)/n%点积
    pi=poisspdf(f,lamda) %泊松分布
    x1=[8,16,17,10,9];
    p2=[pi(1),pi(2),pi(3),pi(4),pi(5)+pi(6)+pi(7)]
    chi=sum((x1-60.*p2).^2./(n.*p2))
    chi2inv(1-0.05,5-1-1)
    [h,p,st]=chi2gof(f,'ctrs',f,'frequency',x,'expected',n*pi,'nparams',1) %调用工具箱
    
    
    
    col3=st.E/sum(st.O) %计算表中的第3列数据
    col4=st.E %计算表中的第4列数据
    col5=st.O.^2./col4  %计算表中的第5列数据
    sumcol5=sum(col5)  %计算表中的第5列数据的和
    k2=chi2inv(0.95,st.df)  %求临界值,st.df为自由度
    
    h =
    
         0
    
    %接受假设,电话站在一小时接到电话服从泊松分布
    p =
    
        0.9833
    
    
    st = 
    
      包含以下字段的 struct:
    
        chi2stat: 0.1630
              df: 3
           edges: [-0.5000 0.5000 1.5000 2.5000 3.5000 6.5000]
               O: [8 16 17 10 9]
               E: [8.1201 16.2402 16.2402 10.8268 8.3006]

    符号检验  X Y样本数量相等

    (1)符号检验的原理

         设X为连续总体,其中位数记为Me,考虑假设检验问题

      H0:Me=M0,                   H1:Me/=M0(Me不等于M0)

     记p+=P(X>M0),p-=P(X<M0),由于Me是总体X的中位数,可知当H0成立时,p+=p-=0.5,因此可以把上述假设等价于

     H0:p+=p-=0.5,            H1:p+/=p-(p+不等于p-)

    把Xi>M0的个数记为n+,Xi<M0的个数记为n-,另m=n+  +  n-

    如果H0成立,当m固定时,min(n+,n-)不应太小,否则应认为H0不成立。选取检验统计量

        S=min(n+,n-)

    对于固定的m和给定的显著性水平a,根据S的分布计算临界值Sa,当S<=Sa时,拒绝原假设H0,即认为总体中位数Me与M0有显著差异;当S>Sa时,接受H0,,即认为总体中位数Me与M0为显著性差异。

      符号检验还可用于配对样本的比较检验,符号检验法是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。具体地讲,若两个样本差异不显著,正差值与负差值的个数应大致各占一半。

    .(2)符号检验的MATLAB实现

     MATLAB统计工具箱中提供了signtest函数,用来符号检验,其调用格式如下:

      <1>  [p,h,stats] = signtest(x)

         根据样本观测量x做双侧符号检验,原假设是x来自于中位数为0的连续分布,备择假设是x来自中位数不为0的连续分布。输出参数分别为检验的p值,变量h,和包含检验统计量信息的结构体变量stats,当p>a(显著性水平)或h=0时,接受原假设;当p<=a或h=1时,拒绝原假设。

     <2>[p,h,stats]=signtest(x,m,param1,val1,.....)

      双侧符号检验,原假设是x来自于中位数为m的连续分布,备择假设是x来自于中位数不为m的连续分布,此时用可选的成对出现的参数名和参数值来控制计算结果,可用的参数名与参数值如下表

    参数名                  参数值及说明

    'alpha'                检验的显著性水平,其取值介于0--1

                                默认值为0.05

    ‘method’         指定计算p值的方法,可能的取值情况如下

                               ‘exact’:利用精确方法计算p值,适用于小样本(样本容量<100)情形

                               ‘approximate’:利用正态近似计算p值,适用于大样本情形

    <3> [p,h,stats]=signtest(x,y,param1,val1,.......)

         配对样本x和y的双侧符号检验,原假设是x-y来自于中位数为0的连续分布,备择假设是x-y来自于中位数不为0的连续分布,x,y是等长的向量

    例:在一次选举的民意调查中,随机询问了200名选民,结果显示,69人支持甲,108人支持乙,23人弃权。分析甲乙两人的支持率是否有显著差异。取显著性水平a=0.05;

    分析:  用p1和p2分别表示甲乙两位候选人的支持率,根据题目要求可写出如下假设:

     H0:p1=p2=0.5,  H1:p1/=p2(p1不等于p2)

    调用signtest函数求解
    
    %定义样本观测值向量,-1表示支持甲,0表示弃权,1表示支持乙
    x=[-ones(69,1);zeros(23,1);ones(108,1)];
    p=signtest(x)     %符号检验,检验x的中位数是否为0
    
    
    p =
    
        0.0043
    
    由于signtest函数返回的检验值p=0.0043<0.01,所以在显著性水平=0.01下拒绝原假设H0,认为甲乙两位候选人的支持率有非常显著的差异。

    例:

    两组(各10名)有资质的评酒员分别对12种不同的酒进行品评,每个评酒员在品尝后进行评分,然后对每组的每个样品计算其平均分,评分结果如下

                    样品1      样本2      样品3    样品4     样品5      样品6      样品7      样品8      样品9      样品10    样品11     样品12   

    第一组     80.3      68.6          72.2     71.5      72.3          70.1         74.6        73.0        58.7        78.6         85.6           78.0

    第二组     74.0       71.2        66.3      65.3     66.0           61.6        68.8          72.6        65.7        72.6         77.1           71.5

    利用符号检验方法比较两组评酒员的评分是否有显著差异,取显著性水平a=0.05
    
    %样本1
    x=[80.3,68.6,72.2,71.5,72.3,70.1,74.6,73.0,58.7,78.6,85.6,78.0];
    %样本2
    y=[74.0,71.2,66.3,65.3,66.0,61.6,68.8,72.6,65.7,72.6,77.1,71.5];
    p=signtest(x,y)  %配对样本的符号检验
    
    
    
    p =
    
        0.0386
    
    由于signtest函数返回p=0.0386<0.05,所以在显著性水平=0.05下认为两组评分有显著差异。

     Wilcoxon(威尔科克森)符号秩检验

    符号检验只考虑的分布在中位数两侧的样本数据的个数,并没有考虑中位数两侧数据分布的疏密程度,这就使得符号检验的结果比较粗糙,检验功率较低。统计学家维尔科克森在1945年,提出了一种更为精细的“符号秩检验法”,该方法是在配对样本的符号检验基础上发展起来的,比传统的单独用正负号的检验更加有效。它适用于单个样本中位数的检验,也适用于配对样本的比较检验,但并不要求样本之差服从正态分布,只要求对称分布即可。

      (1)Wilcoxon(威尔科克森)符号秩检验的原理

          设连续总体X服从对称分布,其中位数记为Me,考虑假设检验问题:

              H0:Me=M0,               H1:Me/=M0(Me不等于m0)

       从总体X中抽取容量为n的样本X1,X2,......,Xn,将 |Xi-M0| ,i=0,1,2,....n,从小到大排序,并计算它们的秩(即序号,取值相同时求平均秩),根据 Xi-M0 的符号将|Xi-M0|分为正好组和负号组,用W+和W-分别表示正号组和负号组的秩和,则W+  +  W-  =n(n+1)/2。

       如果H0成立,则W+和W-取值相差不大,即min(W+,W-)不应太小,否则认为H0不成立。选取统计量

        W=min(W+,W-)

        对于给定的显著性水平a,根据W的分布计算出临界值Wa,当W<=Wa时,拒绝原假设H0,即认为总体中位数Me与M0有显著性差异;当W>Wa时,接受H0,即认为总体中位数Me与M0无显著差异。

      对于配对样本的符号秩检验,只需将两样本对应数据做差,即可将其化为单样本符号秩检验

      <1>[p,h,stats]=signrank(x)

        根据样本观测值向量x做双侧符号秩检验,原假设是x来自于中位为0的分布,备择假设是x来自于中位数不为0的分布。该检验假定x的分布是连续的,并且关于其中位数对称。输出参数分别为检验的p值、变量h和包含检验统计量信息的结构体变量stats,当p>a(显著性水平)或h=0时,接受原假设;当p<=a(显著性水平)或h=1时,拒绝原假设。

      <2> [p,h,stats]=signrank(x,m,param1,val1,......)

          双侧符号秩检验,检验样本观测值向量x是否来自于中位数为m的分布,此时用可选的成对出现的参数名和参数值来控制计算结果,参数名和参数值如下表

    参数名                  参数值及说明

    'alpha'                检验的显著性水平,其取值介于0--1

                                默认值为0.05

    ‘method’         指定计算p值的方法,可能的取值情况如下

                               ‘exact’:利用精确方法计算p值,适用于小样本(样本容量<15)情形

                               ‘approximate’:利用正态近似计算p值,适用于大样本情形

    <3> [p,h,stats]=signrank(x,y,param1,val1,.....)

         配对样本x和y的双侧符号检验,原假设是x-y来自于中位数为0的分布,备择假设是x-y来自于中位数不为0的分布,此时,x和y是等长的向量,其他参数说明同上。

    例:

    抽样某品牌面粉的重量,抽查了16包,其观测值如下:

    20.21,19.95,20.15,20.07,19.91,19.99,20.08,20.16,19.99,20.16,20.09,19.97,20.05,20.27,19.96,20.06

    试检验中位数与原来设定的20是否有显著性差别,去显著性水平为0.05

     根据题目要求可写出如下假设:

      H0:Me=20,                H1:Me/=20(Me不等于20)

    调用signrank函数求解
    
    %输入样本观测向量
    %换行时要加入...,不然就会说一个2x8的矩阵
    x=[20.21,19.95,20.15,20.07,19.91,19.99,20.08,20.16,...
        19.99,20.16,20.09,19.97,20.05,20.27,19.96,20.06];
    
    %调用signrank检验
    [p,h,stats]=signrank(x,20)
    
    
    p =
    
        0.0298
    
    
    h =
    
         1
    
    
    stats =
    
              zval: 2.1732                 %近似正态统计量
        signedrank: 110                %符号秩统计量
    
    由于返回的p=0.0298<0.05,所以在显著性水平=0.05下拒绝原假设,不能认为此组面粉数据的中位数

    秩和检验 X Y样本数量可以不相等

      MATLAB统计工具箱中提供了ranksum函数,用来做秩和检验,其调用格式如下:

     [p,h,stats]=ranksum(x,y,param1,val1,........)

      根据样本观测值向量x和y做双侧秩和检验,原假设两独立样本x和y来自于具有相同中位数的连续分布,备择假设是x和y具有不同的中位数。此时可选成对出现的参数和参数值来控制计算结果。可选的参数名与参数值如下表:

    参数名                  参数值及说明

    'alpha'                检验的显著性水平,其取值介于0--1

                                默认值为0.05

    ‘method’         指定计算p值的方法,可能的取值情况如下

                               ‘exact’:利用精确方法计算p值,适用于小样本(样本容量<10)情形

                               ‘approximate’:利用正态近似计算p值,适用于大样本情形

    输出参数分别为检验的p值、变量h和包含检验统计量信息的结构体变量stats,当p>a(显著性水平)或h=0时,接受原假设;当p<=a或h=1时,拒绝原假设。

    例:

    某科研团队要研究两种饲料(高蛋白饲料和低蛋白饲料)对小白鼠体重的影响,先用高蛋白饲料喂养12只小白鼠,低蛋白饲料喂养7只小白鼠,记录在一段时间内体重的增加量,得到如下观测数据

    饲料                                  各鼠增加的体重

    高蛋白       133  112  102  129  121  161  142  88  115  127  96  125

    低蛋白        71    119  101  83  107     134  92

    试检验两种不同饲料喂养的小白鼠的体重增加是否有显著差异,去显著性水平=0.05;

    根据题目要求可做如下假设:

     H0:u1=u2,                 H1:u1/=u2(u1不等于u2)

    调用ranksum函数进行求解

    %第一组体重增加量
    x=[133,112,102,129,121,161,142,88,115,127,96,125];
    %第二组体重增加量
    y=[71,119,101,83,107,134,92];
    
    %调用ranksum进行检验
    [p,h,stats]=ranksum(x,y,'method','approximate')
    
    
    
    p =
    
        0.0832
    
    
    h =
    
         0
    
    
    stats =
    
           zval: 1.7326
        ranksum: 141
    
    函数返回p=0.0832>0.05,在显著性水平=0.05下接受原假设,认为两种饲料喂养的小白鼠体重的增加量没有显著性差
    %20 P163
    clc,clear
    x=[2.36,3.14,7.52,3.48,2.76,5.43,6.54,7.41];
    y=[4.38,4.25,6.54,3.28,7.21,6.54];
    yx=[y,x]; 
    yxr=tiedrank(yx) %计算秩
    yr=sum(yxr(1:length(y))) %计算y的秩和
    [p,h,s]=ranksum(y,x) %利用Matlab工具箱直接进行检验

        计算pearson相关系数

    %r= corr(x, y, 'type' , 'Spearman');  
       r1=corr(x,y,'type','pearson');%corr默认pearson相关系数

    参考链接

    https://blog.csdn.net/MATLAB_matlab/article/details/56005671

    其他:

    Kstest

    Test  statistics :   

    [h,p,ksstat,cv]  = kstest(x,CDF,alpha,type)

    x :被测试的数据样本,以列向量输入 ( continuous distribution defined by cumulative distribution function )

    CDF :被检验的样本 cumulative distribution function ,缺省值为 N(0,1)

    Alpha : 显著性水平,缺省时为 0.05

    Type :字符输入。 'unequal' (缺省值)检验两者分布是否相同

     'larger'  检验 x 的 CDF 大于给定的 CDF

     'smaller'  检验 x 的 CDF 小于给定的 CDF

    h h=0 不拒绝原假设,即两个分布相同

     h=1 拒绝原假设,即两个分布不同

    p : 拒绝原假设的最小显著性水平

    ksstat :假设为真时,满足 student 分布

    cv : critical value/cutoff value , determining if ksstat is significant.

    Kstest2

    [h,p,ks2stat] = kstest2(x1,x2,alpha,type)

    详见 ketest

    https://wenku.baidu.com/view/2696d520915f804d2b16c158.html?fr=search-1-income6

    展开全文
  • 参数估计中字母顶上的符号的含义

    千次阅读 2018-10-21 12:32:25
    hat 均值,估计值,用于表示这个量是随机变量的均值而不是随机变量 bar   tilde 误差值,测量值   什么都不加是真值 dot 导数   Innovation: 时间序列估计中的... ...
  • Wilcoxon 符号秩检验的检验目的和符号检验是一样的,但 Wilcoxon 符号秩检验需要假设样本点来自连续对称总体分布,在这个假设下总体的对称中心是总体中位数之一。Wilcoxon 符号秩检验就是要检验双边问题 H0 :M = M0...
  • 一文读懂参数检验和非参数检验: 前言 假设检验 概念:是一种根据样本数据来推断总体...根据检验的目标,对有待推断的总体参数或分布作一个零假设 H0H_0H0​ 构造检验统计量, 且该统计量服从某种已知分布.(卡方分布、t
  • 最近学习非参数统计,碰到一个样例,准确说明了若数据不服从正态分布,或有明显的偏态表现,应用t统计量和t检验推断未必能发挥较好的效果~ 这是一个课本上的例题,数据是16座预售楼盘均价,判断是否与媒体公布的37...
  • 统计学之参数估计

    千次阅读 2019-12-29 22:48:48
    在参数估计中,用来估计总体参数的统计量称为估计量,用符号θ^表示,如样本均值、样本方差。根据一个具体的样本计算出来的估计量的数值称为估计值。 点估计与区间估计 点估计:用样本统计量θ^的某个取值直接...
  • 符号检验和wilcoxon符号秩检验的区别

    千次阅读 2021-04-24 12:23:39
    具体介绍如下:两者的特点不同:1、wilcoxon符号秩检验的特点:正负符dao号检验和威尔科克森符号秩检验,都可看作是就成对观察值而进行的参数方式的T检验的代用品,非参数检验具有无需对总体分布作假定的优点,而就...
  • 文章目录1 参数检验与非参数检验2 非参数检验方法2.1 单样本总体分布检验2.1.1 卡方检验2.1.2 二项分布检验2.1.3 游程检验2.1.4 Kolmogorov—Smirnov检验2.2 两独立样本差异性检验2.2.1 Kolmogorov—Smirnov检验...
  • 参数检验:假定数据服从某分布(一般为正态分布),通过样本参数的估计量(x±s)对总体参数(μ)进行检验,比如t检验、u检验、方差分析。 非参数检验:不需要假定总体分布形式,直接对数据的分布进行检验。由于不...
  • STDEVP 返回以参数形式给出的整个样本总体的标准偏差。标准偏差反映相对于平均值 (mean) 的离散程度。 语法 STDEVP(number1,number2,...) Number1,number2,... 为对应于样本总体的 1 到 30 个参数。也可以不使用...
  • 一、单样本非参数检验 (一)总体分布的卡方检验 1.目的:根据样本数据推断总体的分布与某个已知分布是否有显著差异 2.基本假设:H0:总体分布与理论分布无显著差异 3.基本方法: ①根据已知总体的构成比计算...
  • 符号秩检验

    2018-11-26 13:48:51
    参数为单个样本,或者是两个样本相减,或者是两个参数,paired=F时,是Wilcoxon秩和检验。当paired = FALSE(独立样本)时,就是Mann-Whitney U检验, 在R语言中进行符号秩检验可以使用wilcox.test( ) ...
  • 学习笔记 学习书目:《统计学:从数据到结论》–吴喜之 非参数检验 啥是非参数检验 很多检验都假定了总体的...这种和数据本身的总体分布无关的检验称为非参数检验。 非参数检验的优越性 在分布未知时,如...
  • 我们之前比较两总体均值时,都要假定感兴趣的总体是近似正态分布。然而,在许多情况,这种正态总体的假定是不可靠的。 能否在总体分布不知道的时候有办法检验两个总体的中位数是否相等呢? 我们在这里,介绍一种常用...
  • 1.参数估计的一般问题 2.一个总体参数的区间...用来估计总体参数的统计量的名称,称为估计量,用符号O表示。 用来估计总体参数时计算出来的估计量的具体数值,称为估计值。 1.2 点估计与区间估计 参数估计方法有点...
  • 参数统计检验

    千次阅读 2018-11-28 12:59:20
    参数统计分析
  • 参数统计概述

    千次阅读 多人点赞 2019-11-16 22:48:05
    文章目录非参数统计概述引言非参数方法举例Wilcoxon 符号秩检验Wilcoxon秩和检验 引言 非参数统计(nonparametric statistics)是相对于参数统计而言的一个统计学分支,是数理统计的重要内容。在参数统计中,我们往往...
  • T检验,方差分析,非参数检验,卡方检验一.T检验1.T检验分类2.T检验的使用前提3.T检验的适用类型二.非参数检验1.非参数检验介绍2....单总体检验:单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是
  • 假设检验参数检验平均值检验单样本t检验两独立样本t检验配对样本t检验非参数检验卡方检验单样本K-S检验两独立样本的非参数检验多个独立样本的非参数检验两配对样本检验多匹配样本的非参数检验 总体数据不可能全部...
  • 参数检验与非参数检验的区别

    万次阅读 2019-05-11 18:21:10
    2,二者的根本区别在于参数检验要利用到总体的信息(总体分布、总体的一些参数特征如方差),以总体分布和样本信息对总体参数作出推断;非参数检验不需要利用总体的信息(总体分布、总体的一些参数特征如方差),以...
  • 原文 A Survey of Symbolic Execution Techniques 目录 1. 介绍 1.1 例子 ...2. 符号执行引擎 ...2.1 混合符号和具体执行 ...2.2 符号执行的设计...2.4 回溯符号执行 Symbolic Backward Execution 3. 内存模型 3.1...
  • 软件工程导论—总体设计

    千次阅读 多人点赞 2020-05-08 16:21:53
    展开来说就是,对一个复杂的问题不应该立刻用计算机指令、数字和逻辑符号来表示,而应该用较自然的抽象语句来表示,从而得出抽象程序。 抽象程序对抽象的数据进行某些特定的运算并用某些合适的记号(可能是自然语言...
  • 参数检验和非参数检验

    万次阅读 多人点赞 2018-05-22 21:34:33
    、检验步骤4、检验的p值在一个假设检验问题中, 拒绝原假设H0的最小显著性水平称为检验的p值.5、单正态总体参数的检验(1)(2)(3)6、两正态总体参数的检验(1)(2)7、成对数据的t检验所谓成对数据, 是指两个...
  • python非参数检验

    千次阅读 2019-11-25 15:42:01
    目录 单样本非参数检验 中位数(均值)检验【wilcoxon符号值秩检验】 分布的检验 游程检验 两样本的非参数检验 ...独立样本中位数(均值)检验【Mann-Whitney-Wilcoxon检验or Wilcoxon秩...在总体分布未知或与总体...
  • 总体统计量的估计方法

    千次阅读 2019-06-26 09:56:00
    符号定义: $\mu$:总体均值。 $\hat{\mu}$:总体均值的点估计量,在总体均值未知时,其可作为总体均值的估计值。 $\bar{x}$:样本均值,和总体均值的计算方法一样。 如果想要十分近似的估...
  • 浅谈参数估计

    万次阅读 2019-09-03 09:38:34
    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数. 估计量 如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 40,273
精华内容 16,109
关键字:

总体参数符号

友情链接: verilog2vhdl-03FEB2012.zip