精华内容
下载资源
问答
  • 参数统计概述

    千次阅读 多人点赞 2019-11-16 22:48:05
    文章目录非参数统计概述引言非参数方法举例Wilcoxon 符号秩检验Wilcoxon秩检验 引言 非参数统计(nonparametric statistics)是相对于参数统计而言的一个统计学分支,是数理统计的重要内容。在参数统计中,我们往往...

    非参数统计概述

    引言

    非参数统计(nonparametric statistics)是相对于参数统计而言的一个统计学分支,是数理统计的重要内容。在参数统计中,我们往往碰到的是这样的情况:

    • 总体分布的数学形式已知(例如正态分布、指数分布等)。
    • 总体分布的概率密度函数中含有有限个参数。

    然而实际情况往往不是这样,我们通常不知道总体分布的数学形式,或者虽然已知总体的分布但却不能用有限个参数去刻画,我们只能对总体做出一些简单的假定(例如总体分布是连续的或者离散的,总体分布是否对称),这时如果我们要对总体的某些性质进行估计或者假设检验,就需要使用非参数方法

    非参数方法是一种不依赖于总体分布具体形式的统计推断方法,构造统计量通常与总体分布无关,也就是说,非参数方法与总体分布无关,因此,非参数方法也被称为自由分布(distribution-free)方法。非参数方法具有如下的特点:

    • 适用面广但针对性较差
    • 对变量的量化要求很低。无论是分类变量和数值变量,都可以使用非参数方法进行估计或检验。
    • 非参数方法对于数据的要求不如参数方法严格
    • 非参数方法具有较好的鲁棒性,不容易受数据中极端值和离群点的影响。
    • 对于符合参数方法条件的数据,使用非参数方法会使犯第二类错误的概率增大,即统计功效会更小。

    由以上的特点,我们可以总结出选用参数方法和非参数方法的原则:

    • 如果中位数(而不是均值)更能反应数据的集中趋势时(极端值较多),应当选用非参数方法。
    • 如果数据为定序变量(如优良中)时,应当采用非参数方法。
    • 如果数据符合参数方法的条件时,应当优先选用参数方法

    接下来我们来详细讨论一些非参数方法的例子。

    非参数方法举例

    Wilcoxon 符号秩检验

    Wilcoxon符号秩检验(signed-rank test)对应着参数方法中的单样本t检验法和配对样本t检验法。接下来我们通过一个例子来讲解Wilcoxon符号秩检验的步骤。

    假设我们研究的课题是上培训班是否会提升学生成绩,我们收集到的数据如下:

    BeforeAfter
    7260
    6286
    7083
    6053
    7575
    5565
    7189
    4856

    根据这一张表格,我们可以进一步得到这样的另一张表格。

    DiffSigned-rank
    -12-4
    247
    135
    -7-1
    0
    103
    186
    82

    其中,Diff是拿右边一列减去左边一列得到的数据,而得到Signed-rank略显复杂,首先我们将Diff的绝对值从小到大进行排名(rank),分别编上1-n的编号,然后根据Diff的实际符号,给排名也添加上相同的符号,我们就得到了样本的符号秩(signed-rank),我们就由符号秩来构造统计量。

    需要注意的是,我们进行Wilcoxon符号秩检验时,不考虑Diff=0的情况,我们要将Diff=0的数据去除。

    接下来我们用符号秩来构造统计量 Z Z Z Z = ∑ i = 1 n S R i ∑ i = 1 n S R i 2 Z = \frac{\sum^n_{i=1}SR_i}{\sqrt{\sum^n_{i=1}SR_i^2}} Z=i=1nSRi2 i=1nSRi
    与参数方法中的 Z Z Z统计量一样, Z Z Z~ N ( 0 , 1 ) N(0,1) N(0,1),于是我们算得 Z Z Z统计量之后,就可以通过标准正态分布来计算p值,在上面这个例子中: Z = 1.52 Z=1.52 Z=1.52
    我们进行一个双尾检验,查表可得 p − v a l u e = 2 ∗ ( 1 − 0.9357 ) = 0.1286 > 0.05 p-value=2*(1-0.9357)=0.1286>0.05 pvalue=2(10.9357)=0.1286>0.05
    得出结论:应当接受零假设,成绩与是否上辅导班无关。

    Wilcoxon秩和检验

    Wilcoxon秩和检验(rank-sum test)用于检验两个总体的中位数是否相等,适用于中位数能更好的反应总体集中趋势的情况,对应了参数方法中的Two sample t-test,同样我们通过一个例子来讲解Wilcoxon秩和检验的过程。

    我们仍然使用上面的表格,只不过我们这次研究的题目是成绩是否与性别有关。(实际上,两列数据的样本容量可以不同)可以发现,这样一来,数据中的行不再是一一对应关系。

    MaleFemale
    7260
    6286
    7083
    6053
    7575
    5565
    7189
    4856

    我们将两列数据合在一起,进行从小到大的排序,求出它们的秩(秩的英文为rank,也可以翻译为排名)。

    Rank(Male)Rank(Female)
    115.5
    714
    913
    5.52
    12.512.5
    38
    1015
    14

    需要注意的是,当出现多个样本值相同时,它们的秩应当等于它们占用的秩的位置的平均值。接下来我们来构造统计量,首先我们将每一列元素的秩进行求和:
    S u m 1 = ∑ i n 1 R 1 Sum1 = \sum_i^{n_1}{R_1} Sum1=in1R1 S u m 2 = ∑ i n 2 R 2 Sum2 = \sum_i^{n_2}{R_2} Sum2=in2R2
    设两个变量的样本容量分别是 n 1 n_1 n1, n 2 n_2 n2,我们构造下面的统计量:
    W = S u m 1 − n 1 ∗ ( n 1 + 1 ) 2 W=Sum1 - \frac{n_1*(n_1+1)}{2} W=Sum12n1(n1+1)
    同样的,利用 S u m 2 Sum2 Sum2也可以构造一个这样的统计量,但实际上检验一个即可。我们同样避开直接寻找 W W W的分布,我们选择再构造一个统计量:
    Z = W − n 1 n 2 / 2 n 1 n 2 ( n 1 + n 2 + 1 ) / 12 Z=\frac{W-n_1n_2/2}{\sqrt{n_1n_2(n_1+n_2+1)/12}} Z=n1n2(n1+n2+1)/12 Wn1n2/2
    同样的, Z Z Z~ N ( 0 , 1 ) N(0,1) N(0,1),接下来我们就可以在标准正态分布中查找到 P − v a l u e P-value Pvalue,从而做出是否拒绝零假设的判断。

    在上面这个例子中,我们计算得到:
    W = 23 W=23 W=23 Z = − 0.945 Z=-0.945 Z=0.945
    查表得到对应的p值为:
    p − v a l u e = 2 ∗ ( 1 − 0.8289 ) = 0.3422 > 0.05 p-value=2*(1-0.8289)=0.3422>0.05 pvalue=2(10.8289)=0.3422>0.05所以我们应当接受零假设,成绩与性别无关。

    斯皮尔曼相关性检验

    在参数统计中,我们学习过一个相关系数 ρ x y \rho_{xy} ρxy,它的定义如下: ρ x y = C o v ( X , Y ) S X S Y \rho_{xy}=\frac{Cov(X,Y)}{S_XS_Y} ρxy=SXSYCov(X,Y)实际上,我们把这个相关系数称为皮尔逊相关系数(Pearson Correlation),而接下来我要介绍的是另一个相关系数,称为斯皮尔曼相关系数(Spearman Correlation)。

    首先举一个例子,假设我们研究的课题是学生考试分数与课堂满意度是否相关,我们采集到了这样一组数据:

    ScoreHappiness
    30不满意
    40一般
    50不满意
    60一般
    70满意
    80满意
    90满意
    100满意

    可以看到,这里的Happiness数据是定序变量,我们没有办法计算它的方差和它与定距变量的协方差,但我们可以对它们进行排序,参考前两种方法,我们这两列数据分别排序并求出它们的秩。

    Rank(Score)Rank(Happiness)
    11.5
    23.5
    31.5
    43.5
    56.5
    66.5
    76.5
    86.5

    同样的,对于相同的样本值,我们也要采用取平均值的方法求它们的秩。接下来我们对这两列秩求它们的皮尔逊相关系数,得到的就是原数据的斯皮尔曼相关系数:
    ρ = C o v ( R 1 , R 2 ) S R 1 S R 2 \rho=\frac{Cov(R_1,R_2)}{S_{R_1}S_{R_2}} ρ=SR1SR2Cov(R1,R2)另外还有一个简便计算公式,设样本容量为 n n n
    ρ = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho=1-\frac{6\sum{d_i^2}}{n(n^2-1)} ρ=1n(n21)6di2然后,与参数方法中的皮尔逊相关性检验类似,有:
    ρ 1 − ρ 2 / n − 2 ∼ t ( n − 2 ) \frac{\rho}{\sqrt{1-\rho^2}/\sqrt{n-2}}\sim t(n-2) 1ρ2 /n2 ρt(n2)
    然后在 t t t分布中计算 p − v a l u e p-value pvalue,做出判断。

    Bootstrap

    Bootstrap简单的来说,我们已有一个容量为 n n n的原始样本,利用随机数等方式进行放回抽样得到一个容量同样为 n n n的样本,这种样本就称为Bootstrap样本或自助样本。

    我们反复地、独立地从原始样本中抽取很多很多个Bootstrap样本(通常不少于1000个),利用这些样本对总体进行统计推断,这种方法被称为非参数Bootstrap方法,又称为自助法。

    我们使用成绩与性别关系的数据:

    MaleFemale
    7260
    6286
    7083
    6053
    7575
    5565
    7189
    4856

    我们对两列数据进行有放回抽样,得到了1000个Bootstrap样本,记作 D 1 D_1 D1- D 1000 D_{1000} D1000。我们需要分析的是两个样本之间的中位数是否有差异,因此我们将每一个Bootstrap样本的中位数差值求出来,用这1000个数据的中位数差构成一个统计分布,用直方图表示:
    在这里插入图片描述
    然后我们再根据已知的中位数差值,在这个统计分布中计算p值、置信区间等,做出统计推断。

    Bootstrap是一种非常重要的方法,常常应用于各种玄学建模 。需要注意的是Bootstrap方法也有参数版本的方法,在这里并不讨论。

    Bootstrap实现的Python代码如下:

    # -*- coding: UTF-8 -*-
    import numpy as np
    import matplotlib.pyplot as plt
    def bootstrap(data):
        temp = []
        while len(temp) != len(data):
            r = np.random.randint(0,len(data))
            temp.append(data[r])
        temp = np.array(temp)
        return temp
    
    
    if __name__ == "__main__":
        male = np.array([72,62,70,60,75,55,71,48])
        female = np.array([60,86,83,53,75,65,89,56])
        v = []
        for i in range(2000):
            mbootstrap = bootstrap(male)
            fbootstrap = bootstrap(female)
            v.append(np.median(mbootstrap) - np.median(fbootstrap))
        v = np.array(v)
        plt.hist(v,bins=50)
        plt.show()
    

    Permutation

    Permutation,翻译为中文就是排列、置换的意思。在参数方法中进行假设检验,我们一般是假设或者已知总体的分布,然后构造统计量,得到这个统计量在零假设为真时的抽样分布,然后在抽样分布中计算p值,做出推断。而Permutation使得我们可以得到对任意统计量在零假设为真时的抽样分布,从而进行统计推断。接下来我们举例说明Permutation的过程。

    我们仍然使用成绩与性别的关系数据:

    MaleFemale
    7260
    6286
    7083
    6053
    7575
    5565
    7189
    4856

    H 0 : 男 女 成 绩 中 位 数 没 有 差 异 H_0:男女成绩中位数没有差异 H0: H 1 : 男 女 成 绩 中 位 数 有 差 异 H_1:男女成绩中位数有差异 H1:
    Permutation与Bootstrap类似,我们也需要将以下的步骤重复1000次以上:

    1. 把所有数字随机分配给Male( n 1 = 8 n_1=8 n1=8)和Female( n 2 = 8 n_2=8 n2=8)
    2. 计算Male和Female的中位数
    3. 计算并保存median(M)-median(F)

    重复1000次以上之后,我们就可以得到两组数据中位数差的近似分布,用直方图表示:
    在这里插入图片描述
    这样我们就获得了中位数差统计量的统计分布,然后我们根据这个分布和实际的中位数差,我们就可以计算出p值,从而进行统计推断。
    Permutation的Python代码如下:

    # -*- coding: UTF-8 -*-
    import numpy as np
    import matplotlib.pyplot as plt
    
    
    def permutation(data):
        perm = []
        num = set([])
        while len(perm) != len(data):
            r = np.random.randint(0, 16)
            if r not in num:
                perm.append(data[r])
                num.add(r)
        perm = np.array(perm)
        return perm
    
    
    if __name__ == "__main__":
        data = np.array([72, 62, 70, 60, 75, 55, 71, 48, 60, 86, 83, 53, 75, 65, 89, 56])
        diff = []
        for i in range(3000):
            temp = permutation(data)
            df = np.median(temp[:8]) - np.median(temp[8:])
            diff.append(df)
        diff = np.array(diff)
        plt.hist(diff, bins=50)
        plt.show()
    

    小结

    在这一篇博文中,我主要介绍以下几种非参数统计方法:

    • Wilcoxon符号秩检验
    • Wilcoxon秩和检验
    • Spearman相关性检验
    • Bootstrap
    • Permutation

    但无论是参数方法还是非参数方法都属于频率论的范畴,它们都存在着一个致命的缺陷:它们的检验过程是在假定零假设成立的情况下进行的,为了解决这个问题,需要把目光投向另一个统计学领域——贝叶斯统计。

    展开全文
  • 参数统计检验

    千次阅读 2018-11-28 12:59:20
    参数统计分析

    非参数统计的方法用于总体分布未知的情形,其目的在于检验一个变量的分布在不同组中是否具有相同的位置参数。

    NPAR1WAY语句

    功能

    格式:

    proc npar1way data=数据集名 [选项];
    by 变量名;
    class 变量名;
    var 变量名;
    run;
    

    注:
    proc的选项:
    i.wilcoxon:指定使用Wilcoxon秩和分析方法;
    ii.noprint:结果输出窗口不显示计算结果;

    单个样本的非参数检验

    此情形使用Univariate过程。
    目的: 检验某个样本均值是否等于特定值。

    某产品标注的净含量为1kg,现对该产品进行抽样统计分析,试判断该产品重量是否与标注一致?

    代码:

    data test;              /*创建数据集*/
    input x @@;
    cards;
    0.998 0.997 0.995 0.994 0.990 0.981 0.986 0.995
    0.976 0.986 0.996 0.976 0.965 0.986 0.992 1.001
    0.985 1.002 0.999 0.993 0.994 0.995 0.993 0.991
    0.975 0.984 0.976 0.954 0.987 0.986 0.985 0.976
    ;
    run;
    proc univariate data=test mu0=1;   /*设置mu0为1,检验其*均值是否为1/
    var x;
    run;
    
    

    结果:
    给出了一些基本统计信息:

    下图显示秩检验的p值<0.05的显著水平,应拒绝原假设:

    两样本的非参数检验

    概述: 当两个独立样本来自正态分布和具有相同的方差时,一般采用T检验比较均值。当样本不满足这两个条件时,则采用Wilcoxon秩和检验。

    对某校高一高二学生的英语学习能力作评价,主要测试学生的口语能力,测试分数如下,分析两个年级的学生英语口语能力是否有显著差异?

    代码:

    data test;                        /*创建数据集*/
    input x type$;
    cards;
    78 1
    67 1
    88 1
    98 1
    78 1
    77 1
    65 1
    85 1
    70 1
    67 2
    78 2
    69 2
    87 2
    85 2
    87 2
    90 2
    65 2
    77 2
    ;
    run;
    proc npar1way data=test wilcoxon;    /*进行wilcoxon检验*/
    class type;                   /*指定分组变量*/
    var x;                        /*指定非参数检验变量*/
    run;
    

    结果:
    t检验双边概率值为1,故可接受原假设,认为这两个年级的口语能力是无显著差别的。

    多个样本的非参数检验

    概述: 当多个样本数据满足正态分布且具有相等的方差时,比较它们的均值可以采用方差分析。当数据不满足上述条件时,可采用多样本均值比较的非参数Kruskal-Wallis秩和检验。此检验的目的是分析某个变量在另一分类变量取不同值时,它的取值(用位置统计量衡量)是否有显著不同。
    编程实现: NPAR1WAY过程可以实现,与两样本情形不同的是,class语句的分类变量它有两个以上的取值水平。

    成对样本的非参数检验

    类似于单样本的非参数检验,使用Univariate过程,成对的数据作差处理,检验其均值是否显著为0。

    现对某培训机构的培训后的学员的基础能力是否有提高进行抽样调查,学生培训前后的成绩如下表。

    代码:

    data test;                           /*创建数据集*/
    input x y;
    d=x-y;
    cards;
    89 95
    78 88
    96 95
    78 87
    74 80
    75 83
    84 90
    79 76
    80 83
    85 88
    ;
    run;
    proc univariate data=test;            /*配对样本的符号检验*/
    var d;
    run;
    

    结果:
    符号检验的p值大于0.05,说明应该接受原假设,即认为培训前后的成绩没有显著差别。

    展开全文
  • 推断统计参数估计假设检验

    千次阅读 多人点赞 2020-03-03 00:35:24
    目录   1、总体、个体、样本样本容量 ...   1)参数估计、点估计区间统计的概念    2)点估计说明    3)区间估计说明   4、中心极限定理    1)中心极限定理的概念    2...

    目录

      1、总体、个体、样本和样本容量
       1)总体、个体、样本和样本容量的概念
       2)本文章使用的相关python库
      2、推断统计的概念
       1)推断统计的概念
       2)为什么要进行推断统计?
      3、参数估计(点估计和区间估计)
       1)参数估计、点估计和区间统计的概念
       2)点估计说明
       3)区间估计说明
      4、中心极限定理
       1)中心极限定理的概念
       2)中心极限定理的推导(手写推导)
       3)由中心极限定理得出的几个结论
       4)python实现中心极限定理
      5、参数估计中置信区间的推导
       1)什么是小概率事件?
       2)随机变量的分布的概念
       3)标准正态分布的概率密度函数和和分布函数
       4)随机变量的α分位数的概念
       5)标准正态的分位数表怎么得到的呢?
       6)区间估计的定义
       7)置信水平1-α的解释
       8)枢轴法求置信区间的步骤(手写推导)
      6、假设检验
       1)假设检验的概念
       2)假设检验的理论依据
       3)P-Value值与显著性水平
       4)假设检验的步骤
       5)单边检验和双边检验
       6)常用的假设检验

    1、总体、个体、样本和样本容量

    1)总体、个体、样本和样本容量的概念
    • 总体:我们所要研究的问题的所有数据,称为总体。
    • 个体:总体中的某个数据,就是个体。总体是所有个体构成的集合。
    • 样本:从总体中抽取的部分个体,就构成了一个样本。样本是总体的一个子集。
    • 样本容量:样本中包含的个体数量,称为样本容量。
    2)本文章使用的相关python库
    import numpy as np
    import pandas as pd
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    import seaborn as sns
    import warnings
    from sklearn.datasets import load_iris
    from scipy import stats
    
    sns.set(style="darkgrid")
    mpl.rcParams["font.family"] = "SimHei"
    mpl.rcParams["axes.unicode_minus"] = False
    warnings.filterwarnings("ignore")
    

    2、推断统计的概念

    1)推断统计的概念

      “推断统计”研究的是用样本数据去推断总体数量特征的一种方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。

    2)为什么要进行推断统计?

      在实际研究中,总体数据的获取往往是比较困难的,总体参数一般也是未知的。因此,我们就需要利用总体的某个样本,通过样本统计量去估计总体参数。基于这个需求,我们就需要学习推断统计。
      通过上述叙述,我们给推断统计做一个说明。“推断统计”就是利用样本统计量,去推断总体参数的一种方法。
      

    3、参数估计(点估计和区间估计)

    1)参数估计、点估计和区间统计的概念
    • 参数估计:用样本统计量去估计总体的参数。比如,用样本均值去估计总体均值,用样本方差去估计总体方差。
    • 点估计:用样本统计量的某个取值,直接作为总体参数的估计值。
    • 区间估计:在点估计的基础之上,给出总体参数估计值的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    2)点估计说明
    ① 怎么求鸢尾花的平均花瓣长度?

      事实上,世界上鸢尾花千千万,我们总不能说把所有的鸢尾花的数据信息,都统计出来。因此,这就需要我们用样本均值去估计总体均值。

    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    # 计算鸢尾花花瓣长度的均值
    df["petal length (cm)"].mean()
    

    结果如下:
    在这里插入图片描述
    结果分析:点估计有点简单粗暴,容易受到随机抽样的影响,很难保证结果的准确性。但是,点估计也不是一无是处,样本值是来自总体的一个抽样,在一定程度上还是可以反映出总体的一部分特征。同时,样本容量越接近总体容量,点估计值也会越准确。
      

    3)区间估计说明
    ① 什么是区间估计?

      当你碰到一个陌生人,我让你判断出这个人的年龄是多少?这里有两种方式完成你的推断。第一,这个人25岁。第二,这个人20-25岁之间。哪种结果更让你信服呢?很明显第二种更让人信服。对于第一种说法,相当于上述的点估计。第二种,相当于区间估计,就是给定一个区间,这个区间包含真值。
      统计学中对区间估计的定义:在点估计的基础之上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。

    ② 问题:获取一个抽样样本后,如何确定置信区间和置信度?

    要确定置信区间和置信度,就需要知道样本和总体,在分布上有怎样的联系。中心极限定理给出了这个问题很好的回答。上述疑问将在下面为您一一揭晓。
      

    4、中心极限定理

    1)中心极限定理的概念

      设从均值为μ,方差为σ²的任意一个总体中,抽取样本量为n的样本。当n充分大的时候,样本均值X拔近似服从均值为μ,方差为σ²/n的正态分布。
    在这里插入图片描述
    注意:中心极限定理要求n充分大,但是多大才叫充分大呢?一般在统计学中n>=30称之为大样本(统计学中的一种经验说法)。因此在实际生产中,不用多想,肯定都是大样本。

    2)中心极限定理的推导(手写推导)

      设X1,X1,…,Xn是从总体中抽取出来的样本容量为n的随机样本,假设总体均值为μ,方差为σ²。那么很显然这n个样本是独立同分布的,“独立”指的就是每个个体被抽到的概率是相同的,每个球被抽到也不会影响其它球被抽到,“同分布”指的是每一个个体都和总体分布一样,均值为μ,方差为σ²。
      基于上述叙述,下面我们来推导样本均值X拔的分布。
    在这里插入图片描述

    3)由中心极限定理得出的几个结论
    • 不管进行多少次抽样,每次抽样都会得到一个均值。当每次抽取的样本容量n足够大时,样本均值总会围绕总体均值附近,呈现正态分布。
    • 当样本容量n足够大时,样本均值构成正态分布,样本均值近似等于总体均值μ,而样本方差等于总体方差σ²除以n,即σ²/n。
    • 样本均值分布的标准差,我们称之为标准误差,简称“标准误”。
    4)python实现中心极限定理
    # 设置一个随机种子,保证每次产生的随机数都是一定的
    np.random.seed(3)
    # 产生均值为50,标准差为80,大小为100000的一个总体
    all_ = np.random.normal(loc=50,scale=80,size=100000)
    # 创建一个样本均值数组
    mean_array = np.zeros(10000)
    for i in range(len(mean_array)):
        mean_array[i] = np.random.choice(all_,size=64,replace=True).mean()
    
    display("样本的均值:",mean_array.mean())
    display("样本的标准差:",mean_array.std())
    display("偏度:",pd.Series(mean_array).skew())
    sns.distplot(mean_array)
    

    结果如下:
    在这里插入图片描述
    从图中可以看出:样本均值近似等于总体均值50,而样本方差等于总体方差80除以8,即10。

    5、参数估计中置信区间的推导

      我们要知道什么是α值,什么是置信度,什么是置信区间,以及怎么求置信区间。首先要了解以下几方面的知识,才能有一个比较透彻的了解。

    • 1)什么是小概率事件?
    • 2)随机变量的分布的概念。
    • 3)标准正态分布的概率密度函数和和分布函数
    • 4)随机变量的α分位数的概念。
    • 5)标准正态的分位数表怎么得到的呢?
    • 6)区间估计的概念。
    • 7)置信水平1-α的解释
    • 8)枢轴法求置信区间的步骤。
    1)什么是小概率事件?
    • “小概率事件”指的就是在一次随机试验中,几乎不可能发生。
    • 假定参数是射击靶上10环的位置,随机进行一次射击,打在靶心10环的位置上的可能性很小,但是打中靶子的可能性确很大。然后用打在靶上的这个点画出一个区间,这个区间包含靶心的可能性就很大,这就是区间估计的基本思想。
    2)随机变量的分布的概念

    在这里插入图片描述

    3)标准正态分布的概率密度函数和和分布函数

    在这里插入图片描述

    4)随机变量的α分位数的概念

    在这里插入图片描述

    5)标准正态的分位数表怎么得到的呢?
    ① 标准正态分位数表的公式推导

    在这里插入图片描述
    注意:红色方框中的公式,就是标准正态分布分位数表的由来。

    ② 标准正态分布分位数表

    在这里插入图片描述

    6)区间估计的定义

    在这里插入图片描述

    7)置信水平1-α的解释

      对总体样本进行反复抽样(每次抽取到的样本容量都为n),那么每个样本均值都会确定一个区间(a,b),每个这样的区间要么包含总体参数,要么不包含总体参数,不能说成“以多大的概率包含总体的参数”。其中包含总体参数的区间有1-α个,而只有α个区间不包含总体参数,如下图所示(红色表示该样本构成的区间估计不包含总体参数,白色表示该样本构成的区间估计包含总体参数)。
      用一个详细的案例说明:如果对总体返回抽样10000次,每次抽样的样本量都是n,每个样本都会得到一个区间估计,那么10000次抽样,就会得到10000个区间。当置信水平1-α=95%时,那么就表示10000个区间中包含总体参数的有9500个抽样样本,只有500个样本不包含总体参数,这个不包含总体参数的样本就相当于我们估计错误。这个概率只有5%。这个5%在统计学中,就叫做小概率事件,也就是说在一次随机试验中,这个小概率事件不可能发生。
      即:当我们随机抽取一个样本容量为n的抽样样本,并且利用这个样本构造总体参数的置信区间,当指定了置信水平1-α=95%时,那么这个样本,基本就可以认为是包含了总体参数,也就是说,总体参数就在这个置信区间内。
    在这里插入图片描述

    8)枢轴法求置信区间的步骤(手写推导)
    ① 什么是枢轴量?
    • 枢轴量指的就是包含待估计参数,而不包含其它未知参数,并且分布已知的一个量。
    • 枢轴量设计到三个重要点:1、包含估计参数。2、不包含其它未知参数。3、该枢轴量的分布已知。
    ②以总体μ的置信区间为例(方差σ²已知),讲述枢轴量求置信区间的步骤。

    在这里插入图片描述

    6、假设检验

    1)假设检验的概念

      假设检验,也称为显著性检验,指通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。我们事先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。
      在假设检验中,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1。然后根据样本信息进行分析判断,是选择接受原假设,还是拒绝原假设(接受备择假设)。假设检验基于“反证法”。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时我们选择去接受原假设。

    2)假设检验的理论依据(小概率事件)

      在假设检验中,违反逻辑与常规的结论,就是小概奉事件。我们认为,小概率事件在一次试验中是不会发生的。我们首先认为原假设为真,如果在此基础上,小概率事件发生,则我们就拒绝原假设,否则,我们就选择去接受原假设。
      假设检验遵循“疑罪从无”的原则,接受原假设,并不代表原假设一定是正确的,只是我们没有充分的证据,去证明原假设是错误的,因此只能维持原假设。那么,假设检验中的小概率事件是怎么得出的呢?想想之前讲到的置信区间,是不是一切都验然开朗了?
      “疑罪从无”很形象的说明的假设检验向我们传达的含义。也就是说,当我们没有充分的理由拒绝原假设,就必须接受原假设,即使原假设是错误的,但是你找不到证据证明原假设是错误的,你就只能认为原假设是对的。反之,经过一次随机试验,你如果找到了某个理由拒绝了原假设,那么原假设肯定就是错误的,这个是一定的。

    3)P-Value值与显著性水平

      假设检验,用来检验样本的统计量与总体参数,是否存在显著性差异。那么如何才算显著呢?我们就可以计算一个概率值(P-Value),该概率值可以认为就是支持原假设的概率,因为在假设检验中,通常原假设为等值假设,因此,P-Value也就表示样本统计量与总体参数无差异的概率。然后,我们再设定一个阈值,这个阈值叫做“显著性水平 ” (使用α表示),通常α的取值为0.05(1-α叫做置信度)。当P-Value的值大于α时,接受原假设。当P-Value的值小于α时,拒绝原假设。简单记为:p值越小越拒绝原假设。软件中一般都会展示这个p值,那里的p值,指的就是我们这里所叙述的p值。
      假设检验和参数估计是推断统计的两个组成部分,都是利用样本对总体进行某种推断,但是两者进行推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的一种方法,总体参数在估计前是未知的。而假设检验,则是对总体参数先提出一个假设,然后用样本信息去检验这个假设是否成立。

    4)假设检验的步骤
    • ① 根据实际问题的要求,提出原假设和备择假设。
    • ② 给出显著性水平α以及样本容量n。
    • ③ 确定检验统计量和拒绝域。
    • ④ 计算出检验统计量的值,并作出决策。
    5)单边检验和双边检验

    在这里插入图片描述

    6)常用的假设检验
    ① 单个正态总体均值的假设检验法(Z检验:方差已知)

      Z检验用来判断样本均值是否与总体均值具有显著性差异。Z检验是通过正态分布的理论来推断差异发生的概率,从而比较两个均值的差异是否显著。Z检验适用于:

    • 总体呈正态分布。
    • 总体方差已知。
    • 样本容量较大。
      在这里插入图片描述
    ② 案例如下

    在这里插入图片描述

    ③ 有个人说:鸢尾花的平均花瓣长度为3.5cm,这种说法可靠吗?假设经过长期大量验证,鸢尾花花瓣长度总体的标准差为1.8cm,我们就可以使用Z检验来验证了。
    from scipy import stats
    
    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    
    mean = df["petal length (cm)"].mean()
    n = len(df)
    sigma = 1.8
    
    z = (mean - 3.5) / (sigma / np.sqrt(n))
    display(z)
    

    结果如下:
    在这里插入图片描述

    ④ 单个正态总体均值的假设检验法(t检验:方差未知)

      t检验,与Z检验类似,用来判断样本均值是否与总体均值具有显替性差异。不过,t检验是基于t分布的。检验适用于:

    • 总体呈正态分布。
    • 总体方差未知。
    • 样本容量较小。
      在这里插入图片描述
    ⑤ 案例说明

    在这里插入图片描述

    ⑥ 代码演示
    # 方法一
    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    
    mean = df["petal length (cm)"].mean()
    std = df["petal length (cm)"].std()
    n = len(df)
    display(mean,std)
    t = (mean - 3.5) / (std / np.sqrt(n))
    display(t)
    
    # 方法二
    from scipy import stats
    stats.ttest_1samp(df["petal length (cm)"],3.5)
    

    结果如下:
    在这里插入图片描述

    展开全文
  • Excel统计某列重复数量方法

    千次阅读 2019-11-28 19:04:55
    1,COUNTIF函数 比如要统计重复的列为A列,在要统计的A列隔壁插入一空列B列,在要统计的数据第一列对应位置输入公式=COUNTIF(A:A,A2),...countif函数,第一个参数为要统计的列,第二个参数为要统计重复的。 ...

    1,COUNTIF函数

    比如要统计重复的列为A列,在要统计的A列隔壁插入一空列B列,在要统计的数据第一列对应位置输入公式=COUNTIF(A:A,A2),然后将公式向下填充,即可得到整列的重复统计数据。

    =COUNTIF(A:A,A2) 解读:A:A 选择A列自动填充,A2 代表要在A列中统计重复数量的值为A2

    countif函数,第一个参数为要统计的列,第二个参数为要统计重复的值。

     

     

    2,数据透视表

    参考这个百度知道连接

    https://zhidao.baidu.com/question/241045717.html

    展开全文
  • 统计分析】1 P值和Z得分

    千次阅读 2018-09-12 20:28:39
  • #网络参数数量 def get_parameter_number(net): total_num = sum(p.numel() for p in net.parameters()) trainable_num = sum(p.numel() for p in net.parameters() if p.requires_grad) return {'Total': to...
  • 描述性统计参数估计假设检验

    万次阅读 多人点赞 2021-04-03 01:15:43
    描述性统计所提取的统计的信息称为统计量,包括频数与频率,反映集中趋势的均值、中位数、众数分位数,反映离散程度的极差、方差标准差,反映分布形状(相对于正态分布)的偏度峰度。 变量分为类别变量数值...
  • 宏观量是大量微观量的统计平均,具有统计平均的意义,对于单个微观粒子,宏观量是没有意义的.相对于微观量的统计平均性质的宏观量也叫统计量.需要指出的是,描写宏观世界的物理量例如速度、动能等实...
  • scipy求一些统计量的p值和分位数

    万次阅读 2016-10-06 11:05:33
    scipy.stats模块中有不少涉及计算统计量的子模块 如 scipy.stats.uniform scipy.stats.norm scipy.stats.t scipy.stats.chi2 scipy.stats.f ...这里重点介绍求F统计量的p值和分位数,t统计量,
  • 将各个手册单元多维度的信息,使用统计方法简化成一维的数值,是为倾向,然后据之进行匹配,匹配的目的就是要找寻实验组对照组样本中拥有相同(或者相似)倾向的样本,它们之间的差异,就是因果效用。...
  • 那么我们今天来了解下如何使用json提取器一次性提取多个参数值。 json提取器提取多个值 以上是响应数据,我需要把这两个参数都提取出来传给下一个接口的请求,添加json提取器 关于json提取器参数介绍: names of ...
  • 统计一个数据集里数据出现的频率,次数可以使用value_count value_counts默认参数如下: value_counts(values, sort=True, ascending=False, normalize=False, bins=None, dropna=True) 对于Series类型的数据 data...
  • 白话空间统计之四:P值和Z值(中)

    万次阅读 多人点赞 2015-07-31 16:16:20
    要说P、Z之前(本文的P、Z写法,请忽略大小写),我们先看看一个中学化学的概念:PH。 另外,还要纠正一个说法,p 是一个(p value),而z是一个得分(z sc...
  • 做线性回归的时候,检验回归方程各变量对因变量的解释参数很容易搞混乱,下面对这些参数进行一下说明:1.t检验:t检验是对单个变量系数的显著性检验 一般看p; 如果p小于0.05表示该自变量对因变量解释性很强。...
  • 给出一组数据,对它们进行总个数、求和、平均、方差、中位数计算。 def getNum(): #获取用户输入的不确定数据 nums = [] i = input("请输入数字(回车退出:)") while i != '': nums.append(eval(i)) i = ...
  • P (p value)与统计检验

    千次阅读 2019-02-21 15:19:48
    P (p value)与统计检验
  • Python数据分析基础: 异常检测处理

    千次阅读 多人点赞 2020-10-31 22:05:31
    本篇继续分享数据清洗中的另一个常见问题:异常检测处理。 1 什么是异常? 在机器学习中,异常检测处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本...
  • matlab像素统计

    万次阅读 2017-01-01 16:08:55
    impixel函数可以返回用户指定的图像像素的颜色数据,impixel函数可以返回选中像素或者是像素集的数据,可以直接将像素坐标作为该函数的输入参数,或用鼠标选中像素。imshow trees.tif vals = impixel上面的代码...
  • 推断统计研究的是如何根据样本数据去推测总体特征的方法。进行推断的原因是在实际生产中,获取总体数据通常比较困难,甚至不可能完成,因此需要对总体进行抽样,通过样本统计量去估计总体参数
  • 参数统计

    千次阅读 2017-08-23 21:56:39
    参数统计 出自 MBA智库百科(http://wiki.mbalib.com/) 非参数统计(Nonparametric statistics) 目录 [隐藏] 1 什么是非参数统计2 非参数统计的适用范围3 非参数统计的特点4 非参数统计...
  • 白话空间统计之四:P值和Z得分(中)

    万次阅读 多人点赞 2015-07-31 16:23:14
    要说P、Z之前(本文的P、Z写法,请忽略大小写),我们先看看一个中学化学的概念:PH。 另外,还要纠正一个说法,p 是一个(p value),而z是一个得分(z scores),上篇文章中,...相对于极度的强酸极度的强碱
  • 灰度差分统计特征有: 平均: 对比度: 熵: i表示某一灰度,p(i)表示图像取这一灰度的概率 close all;clear all;clc; % 纹理图像的灰度差分统计特征 J = imread('qiang1.jpg'); A = double(J); [m,n] =...
  • Wilcoxon 符号秩检验的检验目的符号检验是一样的,但 Wilcoxon 符号秩检验需要假设样本点来自连续对称总体分布,在这个假设下总体的对称中心是总体中位数之一。Wilcoxon 符号秩检验就是要检验双边问题 H0 :M = M0...
  • 频数工具读取表和一组字段,并创建一个包含唯一字段值和每个唯一字段值的出现次数的新表。输出表将包含频率字段和指定的频率字段及汇总字段。汇总字段参数是可选项,选中后则频率计算的唯一属性值将由每个汇总字段的...
  • 在训练机器学习算法或应用统计技术时,错误或异常可能是一个严重的问题,它们通常会造成测量误差或异常系统条件的结果,因此不具有描述底层系统的特征。实际上,最佳做法是在进行下一步分析之前,就应该进行异常...
  • 假设检验之p(probability value)

    千次阅读 2019-09-08 21:08:24
    而假设检验是,根据以往的经验先给出总体参数值的一个假设,然后通过现有的样本信息去检验这个假设是否成立。 关于假设检验过程中的原假设、备择假设、单侧检验及双侧检验等内容都比较容易理解。这里重点讨论一...
  • 如果使用友盟进行自定义事件多参数统计,友盟后台没有相关参数值时,请检查两方面。 友盟 sdk 版本。老版本是不支持的,我现在使用 6.0.3 版本,请确保你的 sdk 确实支持。 注意你设置的参数的 key 不要与...
  • //记录最小值最大; for(int i=0;i;i++) { if(a[i]) { b=a[i]; } if(a[i]>c) { c=a[i]; } s+=a[i]; } System.out.println("最小的数是:" + b +"\n最大的数是: " + c + "\n...
  • 导读:在数据科学中,通常会使用统计信息来描述汇总数据。本节介绍几个具有此类功能的描述性统计数据。作者:保罗·戴特尔(Paul Deitel)、哈维·戴特尔(Harvey Deitel)来...
  • array_count_values() - 统计数组中所有的

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 552,120
精华内容 220,848
关键字:

参数值和统计值