精华内容
下载资源
问答
  • ks检验matlab小程序.zip

    2020-05-07 16:47:15
    用于判别所给数据源在置信率为0.05时的概率分布形式。A的形式为n×1,添加了威布尔分布 (1)求取待检测数据的特征参数;...(3)利用K-S检验方法,比较匹配数据和待检测数据之间的相似性,给出检验结果。
  • KS检验

    2021-05-03 09:31:30
    1、KS-检验(Kolmogorov-Smirnov...KS检验与t-检验之类的其他方法不同是KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布事,KS检验的灵敏度没有相

    1、KS-检验(Kolmogorov-Smirnov test)

    Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max| f(x)- g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则则接受H0假设。
    KS检验与t-检验之类的其他方法不同是KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布事,KS检验的灵敏度没有相应的检验来的高。在样本量比较小的时候,KS检验最为非参数检验在分析两组数据之间是否不同时相当常用。
    PS:t-检验的假设是检验的数据满足正态分布,否则对于小样本不满足正态分布的数据用t-检验就会造成较大的偏差,虽然对于大样本不满足正态分布的数据而言t-检验还是相当精确有效的手段。

    2、原理

    2、1首先观察下分析数据

    对于以下两组数据:

    controlB={1.26, 0.34, 0.70, 1.75, 50.57, 1.55, 0.08, 0.42, 0.50, 3.20, 0.15, 0.49, 0.95, 0.24, 1.37, 0.17, 6.98, 0.10, 0.94, 0.38}
    treatmentB= {2.37, 2.16, 14.82, 1.73, 41.04, 0.23, 1.32, 2.91, 39.41, 0.11, 27.44, 4.51, 0.51, 4.50, 0.18, 14.68, 4.66, 1.30, 2.06, 1.19}
    

    对于controlB,这些数据的统计描述如下:

    Mean = 3.61
    Median = 0.60
    High = 50.6 Low = 0.08
    Standard Deviation = 11.2
    

    可以发现这组数据并不符合正态分布, 否则大约有15%的数据会小于均值-标准差(3.61-11.2),而数据中显然没有小于0的数。

    2、2 观察数据的累计分段函数

    对controlB数据从小到大进行排序:

    sorted controlB={0.08, 0.10, 0.15, 0.17, 0.24, 0.34, 0.38, 0.42, 0.49, 0.50, 0.70, 0.94, 0.95, 1.26, 1.37, 1.55, 1.75, 3.20, 6.98, 50.57}

    10%的数据(2/20)小于0.15,85%(17/20)的数据小于3。所以,对任何数x来说,其累计分段就是所有比x小的数在数据集中所占的比例。下图就是controlB数据集的累计分段图
    在这里插入图片描述
    可以看到大多数数据都几种在图片左侧(数据值比较小),这就是非正态分布的标志。为了更好的观测数据在x轴上的分布,可以对x轴的坐标进行非等分的划分。在数据都为正的时候有一个很好的方法就是对x轴进行log转换。下图就是上图做log转换以后的图:
    在这里插入图片描述

    将treatmentB的数据也做相同的图(如下),可以发现treatmentB和controlB的数据分布范围大致相同(0.1 - 50)。但是对于大部分x值,在controlB数据集中比x小的数据所占的比例比在treatmentB中要高,也就是说达到相同累计比例的值在treatment组中比control中要高。KS检验使用的是两条累计分布曲线之间的最大垂直差作为D值(statistic D)作为描述两组数据之间的差异。在此图中这个D值出现在x=1附近,而D值为0.45(0.65-0.25)

    在这里插入图片描述
    值得注意的是虽然累计分布曲线的性状会随着对数据做转换处理而改变(如log转换),但是D值的大小是不会变的。

    3、百分比图(percentile plot)

    估算分布函数肩形图(Estimated Distribution Function Ogive)是一种累计分段图的替代方式。其优势在于可以让你使用概率图纸作图(坐标轴经过特殊分段处理,y轴上的数值间隔符合正态分布),从而根据概率在y轴上的分布可以直观的判断数据到底有多符合正态分布,因为正态分布的数据在这种坐标上是呈一条直线。
    那么这种图是如何画的呢?
    假设我们有这5个数{-0.45, 1.11, 0.48, -0.82, -1.26},从小到大对它们进行排序,{ -1.26, -0.82, -0.45, 0.48, 1.11 }。0.45是中位数,百分比为0.5,而0.45的累计分布函数中占了0.4到0.6的区间。根据数据x在数据集(N)中排位r可以计算x的百分数(percentile)为r/(N+1)。将上述数据与他们的百分数配对,得到{ (-1.26,.167), (-0.82,.333), (-0.45,.5), (0.48,.667), (1.11,.833) }。然后将各点之间用直线连接就是百分比图了。如下图中红线所示(另一条线为累计分段曲线)。

    在这里插入图片描述
    treatmentB的数据近似对数正态分布,其几何均值为2.563,标准差为6.795。该数据的百分图(红)与其近似的对数正态分布曲线(蓝)如下。

    在这里插入图片描述
    由于数据近似正态分布,所以对其采用t-检验是最佳的检验方法。

    实践

    scipy库中一个kstest方法来实现检测功能

    kstest(rvs, cdf, args=(), N=20, alternative='two-sided', mode='auto'):
    

    rvs:str, array_like, 或 callable;如果是字符串,则应该是其中的分布名称scipy.stats。如果是数组,则它应该是一维随机变量观测值的数组。如果是可调用的,它应该是生成随机变量的函数;必须具有关键字参数大小。
    cdf:str 或 callable;如果是字符串,则应该是其中的分布名称scipy.stats。如果rvs是字符串,则cdf可以为False或与rvs相同。如果是可调用的,则该可调用的用于计算cdf。
    args:tuple, sequence, 可选参数;分发参数,如果rvs或cdf是字符串,则使用。
    N:int, 可选参数;如果rvs是字符串或可调用的样本大小。默认值为20。
    alternative:{‘two-sided’, ‘less’, ‘greater’}, 可选参数;定义替代假设。提供以下选项(默认为“ two-sided”):

    import numpy as np
    import pandas as pd
    from scipy import stats
    
    data = [87,77,92,68,80,78,84,77,81,80,80,77,92,86,
           76,80,81,75,77,72,81,72,84,86,80,68,77,87,
           76,77,78,92,75,80,78]
    # 样本数据,35位健康男性在未进食之前的血糖浓度
    
    df = pd.DataFrame(data, columns =['value'])
    e = df['value'].mean()  # 计算均值
    std = df['value'].std()  # 计算标准差
    stats.kstest(df['value'], 'norm', (e, std))
    # .kstest方法:KS检验,参数分别是:待检验的数据,检验方法(这里设置成norm正态分布),均值与标准差
    # 结果返回两个值:statistic → D值,pvalue → P值
    # p值大于0.05,为正态分布
    
    #KstestResult(statistic=0.1590180704824098, pvalue=0.3066297258358026)
    # p值大于0.05,不拒绝原假设,因此上面的数据服从正态分布。
    #且一般情况下, stats.kstest(df[‘value’], ‘norm’, (u, std))一条语句就得到p值的结果。
    
    #from scipy import stats
    #stats.kstest(rvs, cdf, args=(),…)
    #其中rvs可以是数组、生成数组的函数或者scipy.stats里面理论分布的名字
    #cdf可以与rvs一致。若rvs和cdf同是数组,则是比较两数组的分布是否一致;一个是数组,另一个是理论分布的名字,则是看样本是否否和理论分布
    #args是一个元组,当rvs或者cds是理论分布时,这个参数用来存储理论分布的参数,如正态分布的mean和std。
    

    下面是通过代码实现的获取累计这折线图。

    import numpy as np
    import pandas as pd
    from scipy import stats
    import matplotlib.pyplot as plot
    
    data = [87,77,92,68,80,78,84,77,81,80,80,77,92,86,
           76,80,81,75,77,72,81,72,84,86,80,68,77,87,
           76,77,78,92,75,80,78]
    # 样本数据,35位健康男性在未进食之前的血糖浓度
    
    df = pd.DataFrame(data, columns =['value'])
    e = df['value'].mean()  # 计算均值
    std = df['value'].std()  # 计算标准差
    sd = np.random.rand(35)
    stats.kstest(df['value'], 'norm', (e, std))
    df.sort_values(by=["value"],inplace= True)
    df.index = range(1,len(df)+1)
    index = df.index/df.shape[0]
    plot.scatter(np.log(df.value),index,color="red")
    plot.plot(np.log(df.value),index,color="red")
    #正态
    xdata = np.linspace(68,93,1000)
    ydata = [stats.norm.cdf(i,e,std) for i in xdata]
    plot.plot(np.log(xdata),ydata,color="blue")
    plot.show()
    

    在这里插入图片描述
    下面经过计算可以看出,ks的检验过程

    import numpy as np
    import pandas as pd
    from scipy import stats
    import matplotlib.pyplot as plot
    
    data = [87,77,92,68,80,78,84,77,81,80,80,77,92,86,
           76,80,81,75,77,72,81,72,84,86,80,68,77,87,
           76,77,78,92,75,80,78]
    # 样本数据,35位健康男性在未进食之前的血糖浓度
    
    df = pd.DataFrame(data, columns =['value'])
    e = df['value'].mean()  # 计算均值
    std = df['value'].std()  # 计算标准差
    sd = np.random.rand(35)
    print(stats.kstest(df['value'], 'norm', (e, std)))
    print('--'*40)
    df.sort_values(by=["value"],inplace= True)
    df.index = range(1,len(df)+1)
    index = df.index/df.shape[0]
    
    
    #
    df["py"] = df["value"].apply(stats.norm.cdf,loc=e, scale=std)
    #print(df.py)
    df["fy"] = index - df["py"]
    print(df.loc[:,["value","fy"]])
    
    
    KstestResult(statistic=0.1590180704824098, pvalue=0.3056480127078781)
    --------------------------------------------------------------------------------
        value        fy
    1      68  0.004590
    2      68  0.033162
    3      72 -0.010397
    4      72  0.018174
    5      75 -0.069352
    6      75 -0.040781
    7      76 -0.064229
    8      76 -0.035657
    9      77 -0.064918
    10     77 -0.036346
    11     77 -0.007775
    12     77  0.020797
    13     77  0.049368
    14     77  0.077940
    15     78  0.044012
    16     78  0.072583
    17     78  0.101155
    18     80 -0.002986
    19     80  0.025585
    20     80  0.054157
    21     80  0.082728
    22     80  0.111300
    23     80  0.139871
    24     81  0.101875
    25     81  0.130447
    26     81  0.159018
    27     84  0.008123
    28     84  0.036694
    29     86 -0.025444
    30     86  0.003128
    31     87 -0.003475
    32     87  0.025096
    33     92 -0.037649
    34     92 -0.009078
    35     92  0.019494
    

    通过输出的结果,我们可以看到,在26号数时D检测值最大

    展开全文
  • python——t检验和ks检验

    千次阅读 2020-03-24 12:27:17
    目录生成一个样本描述性统计T检验和KS检验 生成一个样本 import numpy as np from scipy import stats ''' 在这里,我们将t分布的所需形状参数(在统计中对应于自由度)设置为10。使用size = 1000表示我们的样本包含...

    生成一个样本

    import numpy as np
    from scipy import stats
    '''
    在这里,我们将t分布的所需形状参数(在统计中对应于自由度)设置为10。使用size = 1000表示我们的样本包含1000个独立绘制的(伪)随机数。由于未指定关键字参数loc和scale,因此将它们设置为默认值零和一。
    '''
    np.random.seed(2020)
    x=stats.t.rvs(10,size=1000)
    
    d:\Anaconda3\lib\importlib\_bootstrap.py:219: RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 192 from C header, got 216 from PyObject
      return f(*args, **kwds)
    d:\Anaconda3\lib\importlib\_bootstrap.py:219: RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 192 from C header, got 216 from PyObject
      return f(*args, **kwds)
    
    x
    
    array([-1.79937219e+00, -9.16947599e-01, -6.23672658e-02,  6.93167535e-01,
            1.80118163e+00, -1.02592060e+00,  4.01066025e-01, -1.91015338e-01,
           -1.19563987e-01, -2.26134986e-01,  3.23050886e-01, -9.22061883e-01,
            1.35064128e+00,  5.42949841e-01, -4.60522342e-01,  1.01424367e+00,
           -2.20308350e-01, -2.59316115e-01,  1.52749609e-01,  4.63332848e-01,
           -7.63435123e-01,  3.51077958e-01, -1.20694886e+00, -9.74257986e-02,
           -5.82930066e-02,  2.90404773e-01, -1.61086154e-01, -1.20916124e-01,
            7.52397419e-01,  3.99534824e-01,  8.25653983e-01,  6.69627593e-01,
           -2.08560499e+00, -2.33150645e+00,  1.26080788e+00, -1.06018145e+00,
           -2.64190038e-01, -6.06938922e-01, -2.76862279e-01,  2.19626508e+00,
           -5.08492116e-01,  1.03688480e+00,  7.64800971e-01,  6.85051528e-01,
            1.44908752e-01,  7.84647158e-02, -1.33507204e+00, -2.91500267e-03,
           -3.41229510e-01, -1.71745063e+00, -1.05830288e+00,  3.64122554e-01,
           -3.08349226e-01, -5.16484855e-01, -8.98755695e-01,  1.19968196e-01,
            7.75893767e-01,  7.48960897e-01, -5.22244842e-01, -5.01603404e-01,
            2.42525394e-01,  1.11303062e+00, -2.40953584e-01,  1.08495827e-01,
           -3.48788202e-01,  1.90611916e-01,  4.64715652e-01,  1.44927602e+00,
            4.62647827e-01,  1.29131093e+00, -1.91232214e+00,  7.63557003e-01,
            4.39071347e-01,  2.70055877e-01, -4.90372934e-01,  8.64151858e-01,
            3.86246914e-01,  1.36265801e+00, -1.88792648e+00,  1.36666145e+00,
           -5.16043304e-01, -2.22099152e+00, -7.18979232e-01, -6.20482628e-01,
           -7.15841369e-01, -4.54799087e-01, -9.55602901e-02, -3.45630716e-01,
            1.24773888e+00,  7.81183082e-01, -3.70699115e-01,  2.83458583e+00,
            4.89026489e-02, -4.22891142e-01, -5.58655211e-01, -4.02121958e-01,
           -9.72855346e-01, -2.64769519e-01,  3.06353094e-01,  7.88867173e-01,
            3.34265051e-02,  1.51818327e-01, -1.01860792e+00, -2.00735348e+00,
            1.53877595e+00, -1.83679404e-01,  2.62407339e-01, -2.36135884e+00,
            1.35516891e-01, -1.22892795e+00, -4.58815730e-01, -1.43076291e+00,
           -1.02552654e+00, -4.14160111e-01,  8.66666545e-01,  7.60102259e-01,
            5.07226554e-02,  8.97690959e-01, -6.21611401e-01, -1.37674039e+00,
            3.14506644e+00, -1.05763693e-01, -2.17657105e+00,  6.60361160e-01,
           -9.98428328e-01, -1.09877083e+00,  1.18607328e+00,  1.40722016e+00,
            2.57477060e+00,  1.31960769e-01, -3.69164901e-01, -9.64919664e-01,
           -8.09420250e-01,  2.21967948e-01, -3.02601823e-01, -2.43457161e+00,
           -1.75800766e+00,  1.94960559e-01, -4.70040682e-01, -1.54720971e+00,
            2.83967200e-01, -1.31312282e+00, -1.21888345e+00,  2.17262865e+00,
           -4.67741401e-01,  3.65184673e-01, -5.17542541e-01, -1.38431605e-01,
            1.20425425e+00, -3.59548580e-01,  6.81515393e-01,  8.10493589e-01,
           -1.90650953e+00,  3.47785640e-01, -7.93668736e-01, -2.12985117e+00,
            3.28987538e+00, -1.92844296e+00, -2.93629540e-01,  2.89118286e-01,
           -5.59469458e-01, -9.53687384e-01, -1.49961443e+00,  4.18682537e-01,
            1.62982834e-01, -7.95447423e-01, -1.67759534e-01,  1.29297515e+00,
            9.91589670e-01, -2.91405755e-01,  3.39254829e-01, -7.45802187e-01,
            1.28416736e-01, -1.30075076e-02,  6.15615192e-01, -9.60827114e-01,
            5.85180189e-01, -6.54609677e-03, -1.70012744e+00, -2.01086610e+00,
           -1.55337488e+00, -1.48792330e-01, -4.87362644e-01, -1.46177538e-02,
           -7.61429996e-01,  7.26066729e-03,  7.61362964e-01, -1.52205730e-01,
           -1.21967690e+00,  1.80757986e-01,  4.83092697e-01, -5.73581980e-01,
           -2.75049063e+00, -4.73260606e-01,  1.43346909e+00,  3.40165863e-01,
            9.62642309e-01,  1.26195277e+00, -1.01484047e+00,  5.74035611e-01,
            3.06959938e+00, -1.06769702e+00, -1.11481136e+00, -6.54523649e-01,
           -3.64085138e-02, -1.60232903e+00, -4.73992998e-01, -2.53760021e-01,
           -1.66595060e+00,  2.57650511e+00, -1.62012373e+00,  1.69824712e+00,
            9.91285915e-01, -1.20208981e+00, -1.17894856e+00,  2.46615552e-01,
            7.14680934e-01,  5.60965530e-01,  2.89920106e-01, -4.17970148e-02,
            1.07576669e+00,  7.97204795e-01,  1.46495756e+00, -8.74192281e-01,
           -4.13581633e-01,  7.52948119e-01,  6.42370467e-01,  8.37751364e-01,
            3.49279637e-01,  3.20054985e-01, -1.22765020e+00,  1.15293577e+00,
            1.19246800e+00, -1.45251058e+00, -8.57420389e-01,  7.01822972e-01,
           -6.31196323e-01,  4.74819915e-01, -3.97675576e-01,  3.99861943e-01,
           -3.22211572e-01,  4.69449430e-01,  1.90734110e-01, -5.77826928e-01,
            1.39639925e-01, -6.77690141e-01, -3.24901738e-01,  7.26996665e-01,
           -9.65225515e-01, -5.87541183e-01, -2.45436379e+00, -1.46933565e+00,
           -3.50510148e-01,  6.21482343e-01,  1.07609277e-01,  7.10654443e-02,
           -7.38847949e-01,  1.23334104e+00,  2.25958988e-01, -6.59597265e-01,
           -3.44780451e-01,  3.94303881e-01,  2.89530992e-01,  1.78517003e+00,
           -6.02216889e-01, -1.36605026e+00,  4.65872583e-02,  1.08180913e+00,
            1.23751595e+00, -5.36831313e-01, -3.58100319e-01,  5.01469481e-01,
           -1.32375572e+00,  9.04311818e-02, -1.02552670e+00,  1.33671711e+00,
           -4.24495154e-01,  1.25094432e-01, -5.84271712e-01, -8.98355284e-01,
           -6.31428046e-01, -1.28628534e+00, -1.38725639e-01,  6.39099571e-02,
           -6.27458927e-02,  3.49503912e-01, -1.49697063e+00,  1.46353500e+00,
           -1.12010503e-01, -8.32609087e-01, -3.93624330e-01, -7.95758265e-01,
           -2.56427774e-01,  6.88291393e-01,  4.07696874e-01,  2.20811481e-01,
           -1.77355407e+00,  1.53306673e+00, -8.77953903e-01,  1.75035291e-01,
            1.41491266e-04,  5.14717682e-01,  1.07605822e+00, -7.72818413e-02,
           -8.68092400e-01,  5.35060965e-01,  4.00531067e-01, -6.38972284e-01,
            1.35654431e-01, -6.85395862e-01, -5.64921163e-01, -4.57333264e-01,
            1.16398213e+00,  1.61745391e+00, -9.35842375e-01, -7.67413907e-01,
            3.81203063e-01,  2.83199925e-01, -6.58560058e-01, -5.75123773e-01,
            1.77037607e+00,  1.15374591e+00,  1.65424362e+00, -2.91742701e-01,
           -8.67794157e-01, -1.13712304e+00,  2.22675326e+00, -7.18912178e-01,
           -1.99020525e+00, -6.78266021e-01,  8.18983944e-01, -5.63827377e-01,
            1.65298380e-01,  1.61059028e+00, -4.75257953e-01,  9.28472771e-01,
           -2.14187239e+00, -2.09125662e-01,  1.83804388e-01, -1.10644847e+00,
            3.81194542e-01, -1.16031785e+00, -7.93882599e-01,  1.39007476e+00,
           -1.05070145e-01, -3.58467504e-01, -7.57766660e-02,  1.66509589e+00,
           -7.64445677e-01, -7.78358147e-01, -3.76169489e-01,  2.29208116e+00,
           -3.55574465e+00,  1.93148247e-01,  3.69624880e-01,  1.04401457e+00,
           -4.82090136e-01,  3.02605257e-01,  1.27945570e+00,  1.42889518e+00,
           -1.25080706e-01,  1.15118961e-01,  1.06259696e+00, -4.93663778e-01,
           -4.82725126e-01, -9.33504356e-01,  1.06817947e+00,  1.35031138e-01,
           -4.72107707e-01, -9.01418963e-01,  1.02287328e+00, -1.09974515e+00,
           -6.02084789e-01, -1.62122913e+00,  1.12320555e+00, -3.10711556e+00,
            3.40643711e-01, -1.31555565e+00,  1.08834375e+00,  2.94294385e-01,
           -1.04399975e+00,  6.56700165e-02, -4.04297787e-01, -2.50936648e+00,
           -3.40409573e+00, -1.17415783e+00,  1.55202882e+00, -2.43021346e+00,
           -2.06654428e-01,  2.77203185e-01, -1.92454320e+00, -3.21138712e+00,
            7.81846978e-01, -4.94343116e-01, -1.42285605e+00,  1.01165779e+00,
           -1.05621289e+00, -4.70858405e-01, -1.84855538e+00,  1.83544233e+00,
            8.54216877e-02,  1.20768462e+00, -5.00878167e-02, -3.01017318e-01,
            6.74436614e-02,  3.57643587e+00,  9.73112849e-03, -1.41660006e+00,
            9.55491387e-01,  1.55697817e+00, -1.76747086e+00, -8.36885348e-02,
            1.32484606e-01,  6.59713537e-01, -4.39207927e-01,  7.29622464e-01,
           -8.83102516e-01, -5.68212399e-01, -1.54701409e+00, -1.83484749e+00,
           -1.11207542e+00, -6.30133038e-01,  3.59731712e+00, -1.22433911e+00,
            4.81430610e-01,  1.69157704e+00,  1.24325615e+00,  1.89304306e+00,
           -2.52977962e-01,  4.13964819e-01, -1.29019087e-02,  2.32770647e+00,
           -2.18338566e+00,  9.56747474e-01, -7.86999019e-01,  2.72178666e-01,
            7.83949548e-01, -6.15045341e-01,  1.81493448e-01,  1.84227027e-01,
            6.23226125e-01, -3.13434625e-01,  2.03515829e+00, -3.26083617e-01,
            1.33384415e+00,  1.53257334e+00,  2.17861109e-01, -3.25970270e-01,
           -1.71850221e-01,  8.62358831e-01,  1.14420483e+00,  1.74114274e+00,
            2.76831195e-01,  5.44802610e-01, -7.49641276e-01, -8.43549430e-01,
            9.40281558e-01,  2.22689248e+00, -8.61136444e-01,  2.04034863e-01,
           -2.88333582e-01,  1.29941573e-01, -9.44808543e-01, -1.07027467e+00,
           -1.24412738e+00,  1.20884480e-01, -8.87989794e-01, -5.05801499e-01,
            5.71754111e-01, -2.20892129e+00, -1.03869720e+00, -1.19586039e-02,
           -5.91241725e-01, -1.11146963e+00,  4.75419608e-01, -2.17156133e-01,
           -3.24144476e-01, -8.88137773e-02,  2.89674600e+00,  1.35049104e+00,
            9.91113967e-01,  1.20965203e+00, -3.29231573e-01,  4.85379819e-01,
            1.29285142e+00,  8.44040495e-03, -9.01242040e-01,  8.34947862e-01,
            1.70705398e+00,  9.32748859e-01,  1.52478129e-02, -1.08514648e+00,
            7.43950996e-01,  5.20194904e-02,  1.07873251e-01,  6.72791526e-01,
            1.03483294e+00, -1.76558135e-01,  6.93114569e-01,  2.91510294e-02,
            7.26748970e-01,  4.94061553e-01,  2.16663518e+00,  8.04155766e-01,
            8.88196452e-01,  9.53864778e-01,  1.92699086e+00, -1.38556787e-01,
            1.51858059e-01, -1.69771866e+00, -1.08174290e+00,  2.49518963e-01,
           -2.36819129e-01,  3.91158717e-01, -6.51798125e-01, -1.99902160e+00,
           -6.80987615e-01, -1.87441803e-01,  1.44935725e+00, -6.41260947e-01,
           -4.99065166e-01, -6.45009215e-01, -9.17364747e-01, -8.55997669e-01,
            2.19335212e+00, -5.66664302e-01, -1.97867758e+00,  1.94087914e-01,
            1.68614966e-01, -6.60388994e-01,  1.34923590e+00, -1.37132068e-01,
           -9.89474077e-01,  2.39157298e+00,  2.04987816e-01,  3.05089529e-01,
            1.13792090e+00, -1.41417687e+00,  3.72546926e-01,  8.90006152e-01,
           -2.37727905e-01,  7.15436698e-01,  8.74792313e-01, -1.69586708e+00,
            1.71054562e+00, -7.88000038e-01, -3.11766786e-01, -1.23965323e+00,
            4.68960542e-01, -1.18410977e+00, -1.18461208e+00,  2.04842309e-01,
            1.32590028e-01, -8.84822591e-01, -2.34845349e+00,  6.28220250e-01,
           -1.30874939e-02,  1.13634500e+00, -2.17638776e+00, -1.22577437e+00,
            7.88243135e-01, -1.20009066e+00,  1.91180242e+00, -1.29433083e+00,
            2.28446800e-01, -4.50400877e-01, -7.30477576e-01,  3.55069314e-01,
           -3.06574408e-01, -1.23074720e+00,  5.51622900e-01, -7.32176553e-01,
            9.40304844e-01,  2.12630177e+00, -7.00436261e-01, -1.07417304e+00,
            3.65847962e-01, -1.44356346e+00,  4.74709400e-01, -1.06116166e-01,
           -6.66407243e-01,  1.90500484e+00,  2.75017564e-01,  4.57761931e-02,
           -1.28097188e+00, -9.71959081e-01, -1.07396235e-01,  1.06247882e+00,
            3.58182102e-01,  4.22178850e-01, -4.31319965e-01, -4.90864508e-01,
           -6.47302201e-01,  2.37596386e+00, -6.96921942e-02,  3.09228602e-01,
            1.21870025e+00, -2.70134220e-01,  3.08017056e-01, -5.84184856e-01,
           -1.27852639e+00,  4.18588129e-01, -7.45331945e-01, -1.59068294e-01,
            2.80776902e-01,  3.46668564e-01,  6.76588944e-01, -1.11051783e+00,
           -1.08971194e+00,  1.41879573e-01, -7.63544990e-01, -6.65690087e-01,
           -1.76808103e+00,  4.22807571e-01, -4.39634215e-01,  1.24194445e-01,
            7.61460961e-01, -3.99892508e-01,  3.93130817e-01, -3.43281082e-02,
           -9.86332136e-01,  2.66332391e+00,  9.72884761e-01, -1.18004766e+00,
           -1.09838424e+00,  6.40122114e-01,  8.55557360e-01,  3.96390559e-01,
            1.94218446e+00, -5.52968777e-01, -1.62050947e-01, -2.65894704e-01,
            2.33393748e+00,  6.57008336e-01,  2.58477191e-01,  2.43219079e+00,
           -2.32021713e+00,  3.97121111e-01,  9.77122138e-02, -3.13478838e-01,
            1.09516389e+00,  5.53267244e-01,  2.70629023e-01, -7.58102582e-01,
           -1.66491499e+00,  1.14093117e+00, -7.91930409e-01, -4.91190473e-01,
            1.27886657e+00, -5.69314357e-01,  9.06733565e-01,  3.40679223e-01,
            6.41147048e-02, -5.72075184e-01, -1.05409977e-02, -1.64904015e+00,
           -3.50495148e+00, -1.07449345e+00, -1.07177849e+00,  3.74000256e-01,
            6.71714697e-01,  4.29318166e-01, -8.40398760e-01,  9.80742549e-01,
            1.14754252e-02, -3.04449258e-01, -6.98813734e-01,  6.64483704e-02,
            6.99714715e-01, -7.40769598e-01,  5.16941065e-01, -1.52159277e+00,
            7.25639074e-01,  3.01346301e-01,  3.86813048e-01, -3.06866377e-01,
           -1.13479221e+00,  1.03880390e+00, -2.71805294e+00, -8.21892545e-01,
           -1.26687403e+00,  1.47390986e+00,  3.95502192e-02, -6.74448802e-01,
            3.63877950e-01,  3.61230522e-01,  2.41602128e-01,  2.15287848e+00,
            1.40127340e+00, -1.51486354e-02, -1.11754724e+00, -1.47355465e-02,
            2.09592683e-01, -1.95353546e+00,  5.72710722e-01,  9.78364994e-01,
            1.21984164e+00,  6.90469416e-02, -1.35689390e+00,  3.22861905e+00,
            3.61823853e+00, -9.87534567e-01,  5.11165110e-01,  5.32794477e-01,
            2.08582449e-01,  3.72183451e-01,  2.81463979e-01,  1.07231679e+00,
           -7.10901741e-01,  1.78485769e-01,  6.72799179e-02,  2.20681631e-01,
            1.22115922e+00, -4.27986412e-01, -7.96295559e-01, -4.14046066e-01,
           -3.64119089e-02, -3.10820027e-01, -6.50293560e-01, -6.77101477e-01,
           -7.78321108e-02, -7.95070770e-01,  5.94612609e-02, -1.82026772e+00,
           -2.37428376e-01, -1.39288448e+00,  6.96976667e-01,  9.02302818e-01,
           -1.25895725e+00,  1.28672905e+00,  1.78920416e+00, -2.50457967e-01,
            1.99555644e-02,  1.31965662e+00,  3.84139171e-01, -3.28156125e-02,
            2.04359887e-01, -2.26492308e+00, -5.52222954e-01,  9.77392353e-01,
           -1.36763824e+00, -1.05187782e+00,  2.62200011e-02,  1.04246432e+00,
            7.41673361e-02,  3.31257408e-01, -1.59514855e-01, -1.03112795e+00,
           -5.70931036e-01, -1.64417057e-01, -5.92448957e-02,  1.99017808e+00,
            7.99713912e-01,  5.22006783e-01,  2.39040174e+00,  9.01094668e-02,
           -1.89556983e-01, -3.78931260e+00, -6.90240883e-01,  1.36924651e-01,
           -1.43466386e+00, -1.03118382e+00, -2.17888811e-01, -7.71372386e-01,
            1.34727901e+00, -3.49114017e-01, -1.25712954e+00, -1.09320595e+00,
            1.17191204e+00, -5.60330678e-01, -2.02828820e+00, -1.15174936e+00,
           -9.09022130e-01,  3.53276860e-01,  4.03861482e-02,  2.07662361e-01,
           -2.01047245e+00, -7.84043337e-01,  5.96431590e-01, -2.71363318e+00,
            6.48175176e-02,  1.07548132e-01, -8.40236372e-02, -5.88029636e-01,
           -1.01843183e+00, -7.75717652e-01, -9.97061999e-01, -2.09938703e-01,
            1.36240452e-01,  1.12394611e+00,  3.30243432e-01, -6.80752603e-01,
           -2.02732860e+00, -1.07136590e+00, -5.39416801e-01, -9.22231451e-02,
           -2.75038929e-01,  1.13240300e+00,  1.80717194e-01, -6.96441382e-01,
           -1.34698859e+00, -2.83031805e+00,  3.57892652e-01, -3.12758418e+00,
            5.31434015e-01, -6.72184025e-01,  1.40090147e+00,  3.23006925e-01,
            2.74605145e-01,  6.28495840e-01, -2.43919087e+00, -3.73581222e-01,
           -7.78091987e-01,  3.40000949e-01, -1.64136220e-01, -1.74345397e+00,
           -1.01895973e+00, -5.09155078e-02,  1.23765182e+00, -1.01082482e+00,
            1.12175979e-01, -2.54944459e+00, -5.99798217e-01,  1.28582406e-01,
            3.46721204e-01,  4.15834370e-01, -1.58833310e+00, -1.22441551e+00,
            1.87723603e+00, -2.28946794e+00, -1.55878215e+00,  1.01398465e+00,
           -1.77897731e+00, -4.51670894e+00,  1.20557656e+00,  3.94199177e-01,
            5.74476546e-01, -6.38153861e-01, -6.60106900e-01,  9.75272601e-01,
           -6.16124750e-01,  1.03447295e+00,  2.52370756e-01, -3.20622788e-01,
            9.01685902e-01,  8.96673400e-01,  1.70066988e-01,  6.68706515e-01,
           -1.75531656e+00,  1.02578301e+00, -8.44902227e-01,  9.04132173e-01,
            6.85724088e-01, -1.84000820e+00, -4.07477191e-01, -1.82119522e+00,
           -1.01164182e-01, -8.15360799e-01, -4.53228821e-01,  2.19557738e-01,
           -5.99549119e-01, -2.22593096e-01,  7.15476674e-01, -5.54389695e-01,
           -2.76667105e-01,  6.81784255e-01, -9.87076936e-01,  2.51663653e-01,
           -8.60889766e-01, -1.62639294e-02,  1.25996146e-01, -6.02397003e-01,
           -3.79509914e-01,  1.15651248e+00, -3.70510248e-01,  4.51471255e-01,
            8.49687922e-01,  1.52503857e-01, -3.81245200e-01, -3.97668144e-01,
           -1.38012519e+00, -3.42556608e-01, -9.65798827e-01, -4.60301848e-02,
            4.96586428e-03,  1.49271501e+00,  3.04949487e-01, -5.78192510e-01,
           -9.47462912e-02, -2.60891093e-01, -1.62449811e-01,  9.52706107e-01,
           -8.53091255e-01, -7.28591504e-01, -1.13119730e+00,  6.30989700e-01,
            7.99143599e-01,  2.01677473e+00, -1.14975420e-01,  2.87907952e-01,
           -3.77346381e-01, -1.84760885e+00,  1.07076299e+00, -9.91416876e-01,
           -9.64751836e-01,  1.60627994e+00,  2.18403904e-01, -1.65083839e+00,
           -3.72828414e-02, -9.80715232e-01, -9.13371110e-01, -1.08877786e-01,
           -1.22094387e-01, -1.38673390e-01, -5.93839831e-01,  4.54203420e-01,
           -1.53949310e+00, -3.91304425e-01, -4.98499095e-01, -9.65375597e-01,
           -6.45086720e-01,  2.21712572e-01,  1.47852358e+00, -7.38363353e-01,
            3.79611546e-01, -5.03879825e-01, -1.47343248e-01,  5.99098313e-02,
           -2.55774579e-01, -6.57828973e-01, -2.48280864e+00, -7.59752834e-01,
            4.01349800e-01,  2.23696398e-01,  3.96695750e-01,  6.71896290e-01,
            9.34436908e-01,  1.58745228e-01, -8.47427795e-01, -1.79698788e+00,
            7.70740713e-01,  9.93491448e-01,  4.86574804e-01,  1.85259905e+00,
            6.88065845e-02,  5.97567123e-01, -7.16941778e-01,  1.76719572e+00,
           -6.77591123e-01,  1.95433831e+00,  6.42688371e-01, -1.66799497e-02,
            4.57572640e-01,  3.95743410e-02,  1.97152412e-01,  1.68384677e+00,
            7.17119962e-01, -1.09555242e+00, -1.98426712e-01, -4.98962833e-01,
            2.08847976e+00,  9.55048249e-02,  5.34907227e-02, -1.07698637e+00,
            2.12435189e-01,  2.42523782e+00,  4.82199454e-01, -1.72664098e+00,
            4.40842285e-01,  1.06823313e+00, -4.71414760e-01, -9.89152854e-01,
            1.56733198e+00,  7.01238847e-02,  1.64552555e+00, -5.05172246e-01,
           -1.53124141e+00, -7.26814216e-01,  2.96880989e+00, -4.57751355e-01,
            9.23176296e-01, -1.57182499e+00, -6.10276616e-01,  6.33556483e-01,
           -8.29672373e-01, -9.51414725e-02, -1.01612493e+00, -1.65914088e+00,
            1.50240690e-02, -4.04605525e-01,  4.54091957e-01,  1.96104806e-01,
            1.92194868e+00, -1.56156827e+00,  1.32702829e+00,  3.66661037e-02,
            1.26848221e-01, -1.07561704e-02,  9.33018317e-01, -1.52379256e-01])
    
    import pandas as pd
    
    df_x=pd.DataFrame(x)
    df_x.describe().T
    
    countmeanstdmin25%50%75%max
    01000.0-0.0728911.081381-4.516709-0.739328-0.0505020.5636633.618239

    描述性统计

    x.mean()
    
    -0.07289058666672985
    
    x.min()
    
    -4.5167089414384085
    
    x.max()
    
    3.618238525954051
    
    x.var()
    
    1.168214980664953
    
    m, v, s, k = stats.t.stats(10, moments='mvsk')
    
    m
    
    array(0.)
    
    v
    
    array(1.25)
    
    s
    
    array(0.)
    
    k
    
    array(1.)
    
    stats.t.stats(10, moments='mvsk')
    
    (array(0.), array(1.25), array(0.), array(1.))
    
    sstr = '%-14s mean = %6.4f, variance = %6.4f, skew = %6.4f, kurtosis = %6.4f'
    
    print(sstr % ('distribution:', m, v, s ,k))
    
    distribution:  mean = 0.0000, variance = 1.2500, skew = 0.0000, kurtosis = 1.0000
    
    '''
    注意:stats.describe使用无偏估计量作为方差,而np.var是有偏估计量。
    对于我们的样本,样本统计量与理论值相差很小。
    '''
    n, (smin, smax), sm, sv, ss, sk = stats.describe(x)
    print(sstr % ('sample:', sm, sv, ss, sk))
    
    sample:        mean = -0.0729, variance = 1.1694, skew = 0.0162, kurtosis = 0.8654
    

    T检验和KS检验

    print('t-statistic = %6.3f pvalue = %6.4f' %  stats.ttest_1samp(x, m))
    
    t-statistic = -2.132 pvalue = 0.0333
    
    tt = (sm-m)/np.sqrt(sv/float(n))  # t-statistic for mean
    pval = stats.t.sf(np.abs(tt), n-1)*2  # two-sided pvalue = Prob(abs(t)>tt)
    print('t-statistic = %6.3f pvalue = %6.4f' % (tt, pval))
    
    t-statistic = -2.132 pvalue = 0.0333
    

    Kolmogorov-Smirnov检验可用于检验样本来自标准t分布的假设

    print('KS-statistic D = %6.3f pvalue = %6.4f' % stats.kstest(x, 't', (10,)))
    
    KS-statistic D =  0.057 pvalue = 0.0027
    
    print('KS-statistic D = %6.3f pvalue = %6.4f' % stats.kstest(x, 'norm'))
    
    KS-statistic D =  0.053 pvalue = 0.0069
    
    d, pval = stats.kstest((x-x.mean())/x.std(), 'norm')
    print('KS-statistic D = %6.3f pvalue = %6.4f' % (d, pval))
    
    KS-statistic D =  0.039 pvalue = 0.0871
    

    注意:Kolmogorov-Smirnov检验假设我们针对给定参数的分布进行检验,因为在最后一种情况下,我们估计均值和方差,因此违反了该假设,并且检验统计量的分布(p值是根据,是不正确的。

    scipy参考文档

    展开全文
  • 假设检验-KS检验

    万次阅读 2018-08-27 17:13:08
    传送:随机变量概率分布函数汇总-离散型分布+连续型分布 KS(Kolmogorov-Smirnow)是一种非参数的统计检验方法(是针对连续分布的检验)。这种检测常被用来应用于比较单样本是否符合某个...KS检验与卡方检验相比(都采...

    传送:随机变量概率分布函数汇总-离散型分布+连续型分布

    KS(Kolmogorov-Smirnow)是一种非参数的统计检验方法(是针对连续分布的检验)。这种检测常被用来应用于比较单样本是否符合某个已知分布(将样本数据的累计频数分布与特定理论分布相比较,如果两者间差距较小,则推断该样本取自某特定分布簇),双样本的KS检测比较两个数据集的累积分布(连续分布间的相似性)

    KS检验与卡方检验相比(都采用实际频数与理论频数之差进行检验),不需要将数据分组,可直接对原始数据的n个观测值进行检验,故KS检验对数据的利用更加完整,KS检验主要用于有计量单位的连续和定量数据。KS检验具有稳健性(不依赖均值的位置),对数据量纲不敏感,一般来说比卡方检验更有效,适用范围广

    1.单样本KS检验

    H0:总体X具有分布F,构造检验统计量Z

    当H0为真时,Z依分布收敛于Kolmogorov分布 

    1.均匀分布检验,原假设为数据集符合均匀分布(备选假设为样本数据来自的总体分布不符合均匀分布)统计量D=max|Fo(x)-Fn(x)|,Fn(x)为随机变量的累计概率分布函数,D值越小,越接近0表示样本数据来自的总体分布接近均匀分布
    ks.test(S,"punif")
    
    2.正态分布检验
    #检测数据集X是否符合正态分布,100个数 
    x=rnorm(100);
    ks.test(x,"pnorm");  #原假设为符合正态分布(随着个数的增加,数据集将更加符合正态分布)
    
    3.指数分布检验
    ks.test(x,"pexp")
    
    4.gamma分布检验
    ks.test(x,"pgamma",1) #原假设数据集符合伽玛分布,数据集是否符合形状参数=1的伽玛分布
    
    5.weibull分布检验
    ks.test(x,"pweibull",1) #原假设数据集符合威布尔分布,数据集是否符合形状参数=1的威布尔分布
    
    6.卡方分布检验(原假设-数据集符合卡方分布)
    s<-rchisq(1000,1)
    ks.test(x,"pchisq",1) #检验数据集是否符合自由度=1的卡方分布
    
    7.F分布检验
    ks.test(s,"pf",1,1,2)
    
    8.t分布检验
    ks.test(s,"pt",1,2)	#自由度=1,ncp=2的t分布
    
    9.贝塔分布检验
    ks.test(s,"pbeta",1,2)

    2.双样本KS检验-检验总体分布是否相同

    两样本KS检验对双样本经验分布函数的位置和形状参数差异都比较敏感,是比较两样本最有用+最常规的非参数检验方法

    假定两个独立样本的样本量分别为n1,n2,F_{1}(x),F_{2}(x)为两个样本的累积经验分布函数,D_{j}=F_{1}(x_{j})-F_{2}(x_{j})构造检验统计量Z(近似正态分布):

    #生成均匀分布样本数据-来自两个独立总体的两个样本
    set.seed(3); 
    x=runif(n=20,min=0,max=20);
    y=runif(n=20,min=0,max=20);
    #经验累积分布函数
    plot(ecdf(x),do.points=FALSE,verticals=T,xlim=c(0,20)); lines(ecdf(y),lty=3,do.points=FALSE,verticals=T);
    
    ks.test(x,y);

     

    展开全文
  • ks检验matlab小程序

    2013-11-06 15:12:27
    用于判别所给数据源在置信率为0.05时的概率分布形式。A的形式为n×1,添加了威布尔分布 (1)求取待检测数据的特征参数;...(3)利用K-S检验方法,比较匹配数据和待检测数据之间的相似性,给出检验结果。
  • 1. KS检验Kolmogorov-Smirnov检验是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。单样本K-S检验是用来检验一个数据的观测经验分布是否符合已知的理论分布。两样本K-...

    1. KS检验

    Kolmogorov-Smirnov检验是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。

    单样本K-S检验是用来检验一个数据的观测经验分布是否符合已知的理论分布。

    两样本K-S检验由于对两样本的经验分布函数的位置和形状参数的差异都敏感,所以成为比较两样本的最有用且最常用的非参数方法之一。

    检验统计量为:D_{n}=\sup _{x}|F_{n}(x)-F(x)|,其中Fn(x)为观察序列值,F(x)为理论序列值或另一观察序列值

    1.1 步骤

    (1)提出假设H0:Fn(x)=F(x)

    (2)计算样本累计频率与理论分布累计概率的绝对差,令最大的绝对差为Dn;Dn=max{[Fn(x) - F(x)]}

    (3)用样本容量n和显著水平a查出临界值Dna;

    (4)如果Dn<Dna,则认为拟合是满意的。

    1.2 实例

    单样本KS检验


    两样本KS检验

     

    2. t检验

    T检验,也称student t检验,主要用户样本含量较小,总体标准差未知的正态分布。

    t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。

    t检验分为单总体检验和双总体检验。

    单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。
    单总体t检验统计量为:
    其中
    样本平均数,
    为样本标准偏差,n为样本数。该统计量t在零假说:μ=μ0为真的条件下服从 自由度为n−1的t分布

    2.1 步骤

    (1)建立假设、确定假设水准α;

    (2)计算检验统计量t;

    (3)查相应界值表,确定P值,下结论;

    3. f检验

    T检验和F检验的由来:为了确定从样本中的统计结果推论到总体时所犯错的概率。

    F检验又叫做联合假设检验,也称方差比率检验、方差齐性检验。是由英国统计学家Fisher提出。

    通过比较两组数据的方差,以确定他们的精密度是否有显著性差异。

    计算步骤:

    样本 标准偏差的平方,即:
    S *S  = ∑(x-μ) '2 /(n-1)
    两组数据就能得到两个S 2
    F=S' 2/S' 2
    然后计算的F值与查表得到的F表值比较,如果
    F < F  表明两组数据没有显著差异;
    F ≥ F 表 表明两组数据存在显著差异。

    4. Grubbs检验

    4.1 概述

    一组测量数据中,如果个别数据偏离平均值很远,那么称这个数据为“可疑值”。用格拉布斯法判断,能将“可疑值”从测量数据中剔除。

    4.2 步骤

    (1) 计算平均值μ和标准差σ;

    (2) 计算“可疑值”的G值:

                        Gi=(xi-μ)/σ,  其中i为可疑值编号。

    (3) 定出检测水平α,那么置信概率p=1-α(α越小越严格);根据p值和测量次数n查格拉布斯表得到临界值Gp(n);

    (4) 比较Gi和临界值,如果Gi>Gp(n),则判为异常;

    4.3  狄克逊检验

    用于一组测定数据的一致性检验和提出异常数值的检验,适用于检出一个或多个异常值。

    当最大值和最小值同时为可疑值,或在最大(小)值同侧同时出现两个可疑值时,此方法不理想。

    检测方法如下:

    将n次测定的数据从小到大排列为x1,x2,...,xn-1,xn。x1为最小可疑值,xn为最大可疑值,然后按照下列相应公式计算统计量r:


    根据n次测定和显著性水平从表中查得的临界值,如果将统计量r大于临界值,则判为异常,可以剔除。重复检测,知道不再检出其他异常值为止。


    5. 卡方检验

    卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

    5.1 步骤

    (1)提出原假设H0:总体X的分布函数F(x);

    (2)将总体x的取值范围分成k个互不相交的小区间A1-Ak;

    (3)把落入第i个区间Ai的样本的个数记做fi,成为组频数,f1+f2+f3+...+fk = n;

    (4)当H0为真时,根据假设的总体理论分布,可算出总体X的值落入第i个小区间Ai的概率pi,于是n*pi就是落入第i个小区间Ai的样本值的理论频数;

    (5)当H0为真时,n次试验中样本落入第i个小区间Ai的频率fi/n与概率pi应该很接近。基于这种思想,皮尔逊引入检测统计量

               ,在H0假设成立的情况下服从自由度为k-1的卡方分布。

    5.2 检验方法

           独立样本四格表

           自由度为1(k=2),自由度=(行数 - 1) * (列数 - 1)

            假设两个分类变量X和Y,值域分别为(x1, x2)和(y1, y2),其样本频数列联表为:

     
    y1
    y2
    总计
    x1
    a
    b
    a+b
    x2
    c
    d
    c+d
    总计
    a+c
    b+d
    a+b+c+d

             V = 1 ,卡方分布的临界概率是:

          卡方分布临界值

    x2值描述了自变量与因变量之间的相关程度:x2值越大,相关程度也越大,所以很自然的可以利用x2值来做降维,保留相关程度大的变量。

    6. 对比

    6.1 KS检验与卡方检验

    相同点:都采用实际频数和期望频数只差进行检验

    不同点:①卡方检验主要用于类别数据,而KS检验主要用于有计量单位的连续和定量数据。

                  ②卡方检验也可以用于定量数据,但必须先将数据分组才能获得实际的观测频数,而KS检验能直接对原始数据进行检验,所以它对数据的利用比较完整。

    6.2 KS检验的优势与劣势

    • 作为一种非参数方法,具有稳健性
    • 不依赖均值的位置
    • 对尺度化不敏感
    • 适用范围广(t检验仅局限于正态分布,当数据偏离正态分布太多时,t检验会失效)
    • 比卡方更有效
    • 如果数据缺失服从正态分布,则没有t检验敏感(有效)
    展开全文
  • KS检验及其在机器学习中的应用

    千次阅读 2020-04-27 21:50:43
    KS检验及其在机器学习中的应用什么是KS检验Kolmogorov–Smirnov 检验,简称KS检验,是统计学中的一种非参数假设检验,用来检测单样本是否服从某一分布,或者两样本是否服从相...
  • 1.概述 KS(Kolmogorov-Smirnow)是一种非参数的统计检验方法,是针对连续分布的检验。这种检测常被用来应用于比较单样本是否符合某个已知分布(将样本数据的累计频数...①KS检验与卡方检验相比(都采用实际频数与理...
  • Python | KS检验以及其余非参数检验的实现1 什么是KS检验2 KS检验分类?3 KS检验的Python实现3.1 检验指定的数列是否服从正态分布3.2 检验指定的两个数列是否服从相同分布4 其余的非参数检验4.1 Wilcoxon符号秩检验...
  • KS检验-如何理解KS检验中的p-value

    万次阅读 2019-03-20 17:05:16
    KS检验 Kolmogorov-Smirnov检验是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。 单样本K-S检验是用来检验一个数据的观测经验分布是否符合已知的理论分布。 两样本K-...
  • Minitab中的正态性检验提供了三种方法:Anderson-Darling(AD),Ryan-Joiner(RJ)和Kolmogorov-Smirnov(KS)。AD检验是默认的,那它在检验非正态的时候是不是最好的方法呢?对于这三种正态性检验方法,检验结果有时是有...
  • KS检验、t检验、卡方检验 一、KS检验 1.概述 KS(Kolmogorov-Smirnow)是一种非参数的统计检验方法,是针对连续分布的检验。这种检测常被用来应用于比较单样本是否符合某个已知分布(将样本数据的累计频数分布与特定...
  • Kolmogorov-Smirnov拟合优度检验 单样本Kolmogorov-Smirnov拟合优度检验。 安装 $ npm install compute-kstest 要在浏览器中使用,请使用 。 用法 var kstest = require( 'compute-kstest' ); kstest(x,y [,...
  • 对于单样本KS检验,检验统计量为,当根据观测值计算出的则拒绝H0,否则接受H0假设。 目录 基于数据的KS检验统计量的展开式 理论分布在接受域中的上下限 反向验证 案例分析 或许可行的改进及建议 附件:...
  • #寻找真知派#如上一篇文章所述,样本所属总体服从正态分布是数据分析和...基于偏度和峰度的假设检验基于偏度-峰度的检验是利用了正态分布偏度(3阶矩)和峰度(4阶矩)都为0的特点。如果样本数据能满足偏度和峰度均为0...
  • 导读当我们应用统计方法对数据进行分析时,会发现很多方法都要求数据服从正态分布或近似服从正态分布,例如t检验、方差分析、线性回归等,所以对数据进行正态性检验是很有必要的,这节就介绍一下如何用SPSS对数据...
  • 这篇文章,教大家用Python实现常用的假设检验!服从什么分布,就用什么区间估计方式,也就用什么检验!比如:两个样本方差比服从F分布,区间估计就采用F分布计算临界值(从而得出置信区间),最终采用F检验。假设检验...
  • <p>SPSS的KS检验显著性0.00,方差齐性显著性也是0.00,但频数图看是正态分布啊,这是什么原因 <p><img alt="" height="956" src=...
  • KS检验学习[转载]

    2018-11-28 20:40:00
    转自:... ... 1.定义 Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分...
  • R语言中执行KS检验

    万次阅读 2017-05-31 16:19:10
    说明ks-Kolmogorov-Smirnow,这种检测常被用来应用于比较样本是否符合某个已知分布,而双样本的KS检测两个数据集累积分布的比较。
  • 资料来源:《R 语言核心技术手册》和 R 文档数据基本来自胡编乱造 和 R 文档本文基本囊括了常用的统计检验在 R 中的实现函数和使用方法。连续型数据基于正态分布的检验均值检验t.test(1:10, 10:20)#>#> Welch ...
  • 在统计学中,差异显著性检验是“统计假设检验”(Statistical hypothesis testing)的一种,用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。 在实验进行过程中,尽管尽量排除随机误差的...
  • 基于背景重构和二维KS检验的有害入侵检测方法
  • 假设检验——KS检验

    2019-04-08 17:31:00
    https://blog.csdn.net/ljzology/article/details/80407704 转载于:https://www.cnblogs.com/IcarusYu/p/10671959.html
  • 当p值低于1%是,拒绝原假设,即认为两份数据源于不同的分布。 案例 from scipy.stats import ks_2samp import numpy as np beta = np.random.beta(7, 5, ...ks_value = ks_2samp(beta, norm) print(ks_value) ...
  • 基于KS检验的高斯混合模型分裂与合并算法
  • Matlab中的数据分布KS检验

    万次阅读 2017-02-15 15:22:37
    KS-检验(Kolmogorov-Smirnov test) -- 检验数据是否符合某种分布 Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。...KS检验与t-检验之类的其他方法不同
  • 双样本 Kolmogorov-Smirnov 检验是一种统计检验,用于确定两组数据是来自相同还是不同的分布。 零假设是两个数据集都来自相同的连续分布。 此处包含的测试旨在比较二维分布。 该函数中的算法取自 Peacock [1]。 用法...
  • python 检验数据分布,KS-检验(Kolmogorov-Smirnov test) – 检验数据是否符合某种分布 Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据...KS检验...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,660
精华内容 4,264
关键字:

ks检验