精华内容
下载资源
问答
  • 上一篇讲了正态分布的基本概念和概率求解的计算方法(正态分布及其概率计算https://blog.csdn.net/weixin_41140174/article/details/99696028)...主要讲独立正态分布组合概率的计算、二项分布近似正态分布条件运用...

    上一篇讲了正态分布的基本概念和概率求解的计算方法(正态分布及其概率计算https://blog.csdn.net/weixin_41140174/article/details/99696028),这篇主要讲独立正态分布组合概率的计算、二项分布近似正态分布的条件和运用,泊松分布近似正态分布的条件和运用

    1. 独立正态分布组合概率计算

    问题:已经新郎和新娘的体重都符合正态分布,分别为新郎~N(190,500), 新娘~N(150,400),过山车座驾最高能够承载380磅的重量,为安全起见,新郎新娘综合体重不能超过380磅,问新郎新娘综合体重不超过这个数值的概率是多少?

    1)正态分布X+Y概率分布

    如果独立的随机变量X和Y都符合正态分布,那么X+Y也符合正态分布,如果:

    正态分布X-Y概率分布:

    如果独立的随机变量X和Y都符合正态分布,那么X-Y也符合正态分布,如果:

    问题求解:上述问题就转化为求X+Y的分布概率问题,即X+Y~N(340,900)分布,求P(X+Y<380),是简单的正态分布概率计算。

    2) 随机正态分布变量X线性变化aX+b的正态分布

    如果变量X符合正态分布,记为X~N(μ,σ^2), 则aX+b也符合正态分布,记为:

    3) 独立观察结果之和的正态分布

    如果变量X符合正态分布,记为X~N(μ,σ^2),则X1+X2+...+Xn也符合正态分布

    2. 二项分布的正态分布近似

    问题:有40个选择题,每个选择题有4个答案,答对30题则可以进入下一轮并获得不菲奖金,如果随机作答,问通过的概率有多少?

    这是一个二项分布问题,X~B(40,0.25), 要求P(X>=30), 相当于求P(X=30)+P(X=31)+...+P(X=40)

    由于涉及到大的阶乘计算,且要计算的概率事件比较多,因此计算量非常大,容易出错。

    1)二项分布近似:

    如果X~B(n,p), 且np>5, np>5 (也有的统计书上的要求是np、nq>10), 则可以近似有X~N(np,npq)近似替代二项分布(np, npq分别是二项分布的期望和方差)

    注:James .T.McClave《商务与经济统计学》的二项分布可近似为整体分布的条件为(μ-3σ,μ-3σ)(其中μ=np,σ=npq^1/2)落在二项分布(0,n)之内

    上述问题P(X>=30)就转化为X~N(np,npq)中的P(X>=30)的问题,通过转化为标准正态分布并查询概率分布表,可以轻松获得结果。但运用的时候需要对X进行连续性修正。

    2)连续性修正

    主要是对于变量X的范围边界处理,对于离散分布,X=30是一个确定的概率,但在连续分布,概率分布总是一定范围内的概率,X=30的概率分布为0,离散X=30是对应到连续变量的范围应为29.5-30.5。

    于是,P(X>=30)(离散分布)--->P(X>29.5)(正态分布),这种调整称为连续性修正,在n比较小的时候非常重要。

    1. 求离散分布P(X<=a), 相当于求正态分布P(X<a+0.5)
    2. 求离散分布P(X>=a),  相当于求正态分布P(X>a-0.5)
    3. 求离散分布P(a<=X<=b),  相当于求正态分布P(a-0.5<X<b+0.5)

    3. 泊松分布的正态近似

    问题:已经过山车每年发生故障的次数为40,问故障低于52次的概率是多少?

    这是一个泊松分布问题,需要求出故障次数从1次到51次的概率之和,然后相加,非常大的计算量。既然求一个范围内的概率,那我们可以用连续分布来近似。

    如果X~P0(λ)且λ>15, 则可以用X~N(λ,λ)进行近似,其中λ为泊松分布的期望和方差。

    上述问题就转化为求正态分布X~N(40,40),P(X<51.5)(对X<52进行连续性修正)

    展开全文
  • java正态分布运用

    千次阅读 2019-07-19 10:26:29
    正态分布起源于误差分析,早期的天文学家通过长期对一些天体的观测收集到了大量数据,并利用这些数据天体运动的物理模型,其中第谷开 普勒在建模中提出了一条原则—“模型选择的最终标准是其...

    1正态分布描述

    正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre(棣莫弗)于1733年受次提出的,但由于德国数学家Gauss(高斯)率先将其应用于天文学家研究,故正态分布又叫高斯分布。正态分布起源于误差分析,早期的天文学家通过长期对一些天体的观测收集到了大量数据,并利用这些数据天体运动的物理模型,其中第谷与开 普勒在建模中提出了一条原则—“模型选择的最终标准是其与观测数据的符合程度”,这个“符合程度”实质上蕴涵了误差概率理论的问题,伽例略是第一个在其著作中提出随机误差这一概念的人。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

    1.1正态分布的定义

    正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态分布之所以被称为正态,是因为它的形态看起来合乎理想。在现实生活中,遇到测量之类的大量连续数据时,你"正常情况下"会期望看到这种形态。

    1.2正态分布符号定义

    若随机变量X服从一个数学期望为μ、方差为的高斯分布,记为N(μ,)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。正态分布有两个参数,即均数(μ)和标准差(σ)。 μ是位置参数,当σ固定不变时, μ越大,曲线沿横轴,越向右移动;反之, μ越小,则曲线沿横轴,越向左移动。是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。通常用表示标准正态分布。

    1.3正态分布公式

    正态分布函数密度曲线可以表示为:x服从正态分布,记为X~N(m,s2),其中μ为均值,s为标准差X∈(-∞,+ ∞ )标准正态分布另正态分布的μ为0,s为1

    标准正态分布图形如下所示

     

    1.4正态分布函数密度曲特征

    A、正态分布函数密度曲线在横轴上方均数处最高。

    B、正态分布函数密度曲线以均数为中心,左右对称。

    C、正态分布函数密度曲线有两个参数,即均数(μ)和标准差( s )。 μ是位置参数,当s固定不变时, μ越大,曲线沿横轴,越向右移动;反之, μ越小,则曲线沿横轴,越向左移动。是形状参数,当μ固定不变时, s越大,曲线越平阔; s 越小,曲线越尖峭。通常用N( μ , )表示均数为μ ,方差为s的正态分布。用N(0,1)表示标准正态分布。

    D、正态分布函数密度曲线下面积的总和为1。

    1.5正态概率计算公式

    如图下图所示a到b的阴影部分面积其中a,b为自变量,μ为期望,s为标准差。

    对于标准正态分布概率求解公式如下,即令一般正态概率公式μ为0,s为1,上下限为负无穷到正无穷即可得到,通常我们用来表示标准正态概率。

    1.5标准正态分布方差和期望

    标准正态分布期望E(x)=μ

    标准正态分布方差Var(x)=

    1.6正态概率计算步骤

    第一步:确定数据分布:在做正态概率分计算,首先确定数据是否符合正态分布,确定正态分布的均值和方差。对一些不符和正态分布的数据进行取对数或者样本重新排列称符合正态分布的标准后,在确定均值和方差。

    第二步:标准化(平移,收放):对一般正态分布进行标准化,标准化的过程为先平移,平移过程用公式表达即,再对结果进行收放,收放过程即为,其中y= 。则标准化公式:;其中Z为标准分,x为随机变量,μ为均值,s为标准差。

    第三步:使用概率表:通过标准分,进行查表(标准正态分布概率表),得到具体的概率。

    2正态概率的应用

    例:某公司准备通过考试招工300名。其中280名正式工,20名临时工。实际报考人数为1675名。考试满分400分。考试不久后,通过当地新闻媒体得到如下消息:考试平均成绩是166分,360分以上的高分考生31名。某考生的成绩为256分。问他能否被录取?若被录取,能否是正式工?

    数学建模:由具体问题,我们可以假设考生的成绩分布符合正态分布。设考生的成绩为x,最低分数线为,均值μ为166,方差设为,正态分布可以记作:

    解决思想:根据条件求出方差 根据正态分布求出最低分数线 ,根据考生的成绩算出该考生在所有考生中的比例

    3正态分布的优缺点

    3.1正态分布优点

    对于社会上遇到的大部分问题,其概率分布规律基本都满足正态分布,为了计算某种概率,我们就可以通过数学建模利用正态分布方便解决问题。

    一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。

    在一定条件下可以利用正态分布近似估算二项分布和泊松分布。

    3.2正态分布缺点

    无法近似估算符合几何分布的问题,无法精确解决离散数据概率。

    3.3正态分布不适用场景

        数据离散性太大,数据不符合正态分布特点,通过对数据进行取对数或者重新排序亦无法达到正态分布特点,无法得出均数(期望)和标准差。

    3.4正态分布适用场景

        连续型数据或者数据离散性小,数据基本符合正态分布特点,或者对不符合的数据进行取对数或者样本重新排序达到正态分布特点,有具体的均数(期望)和标准差。

    4正态概率算法输入数据

    4.1正态概率算法输入数据

    @param μ double,表示正态分布均数(期望)

    @param  double,表示正态分布标准差(方差的开平方)

    4.2正态概率算法中间结果

    @param z double,表示正态分布标准差

    4.3正态分布算法输出结果

    @return S1 double,表示正态概率值

    4.4正态概率算法图形化展示

    5正态概率算法异常和误差

    5.1正态概率算法可能异常或误差

    异常:算出的标准差超出概率表出现异常

    误差:保留小数位数造成不精确

    5.2正态概率算法异常或误差处理

    异常:解决,过小捕获异常并给予概率为0。

    误差:解决,进行小数点位数自定义保留封装,根据具体精度进行设置。

    6正态概率算法描述

    6.1类和方法描述

    类源码见源程序: Distribution.src.NormalDistribution.zheng04

    方法描述:通过对需要计算标准概率的的正态分布的均值和标准差进行计算得出具体标准分再通过调用org.apache.commons.math3.distribution类来实现。

    6.2类和方法调用接口

    见源程序:Distribution.src.NormalDistribution.zheng04

    zheng04.java 下包含如下方法:

    cumulativeProbability(double z) //需要求的正态分布的标准分

    调用封装方法:

    NumFormat.java 下如下方法:

    ZeroFormat (double num ,int n) //对num数值保留位数n的自行设置

    复制代码

            /**
             * 保留几位小数
             * @param num double,预备格式数据
             * @return result double,保留指定小数点数据
             */
            public static double ZeroFormat(double num,int n)
            {
                BigDecimal bigDecimal=new BigDecimal(num);
                //DecimalFormat ff = new DecimalFormat("#.0000");  //保留四位小数
                //double result = Double.valueOf(ff.format(num));
                //return result;
                return bigDecimal.setScale(n, BigDecimal.ROUND_HALF_UP).doubleValue();
                        //setscale(n,BigDecimal.ROUND_HALF_UP).doubleValue;
            }

    复制代码

     

    6.3源码

    复制代码

    package NormalDistribution;
    import java.util.Scanner;
    
    import org.apache.commons.math3.distribution.NormalDistribution;
    /**
     * 
     * @(#)zheng01.java 
     * @Description:描述:根据提供的正态分布的均值和标准差得到正态概率的具体实现。
     * @Definitions:定义:在处理符合正态分布的连续型数据,知道了这组数据的均值和方差为了求得随机变量符合某个范围的概率为:P(X<x)这类问题称之为正态概率。表达式为:X~N(μ,σ^2)             
     * @Explanation:符号解释:μ为该组连续数据的均值;σ为该组连续数据的标准差。
     * @Comments:条件:在一组连续型数据,已知该组数据的均值和标准差,求解随机变量x的正态概率。这种情况下适用于本算法。
     * @优点:知道正态分布具体的均值和标准差可以利用此算法快速求出小于随机变量X的正态概率。
     * @缺点:无法近似估算符合几何分布的问题,无法精确解决离散数据概率,对于没有给出均值或者标准差的正态分布无法计算。
     * @适用场景:连续型数据或者数据离散性小,数据基本符合正态分布特点,或者对不符合的数据进行取对数或者样本重新排序达到正态分布特点,有具体的均数(期望)和标准差。。
     * @不适用场景:数据离散性太大,数据不符合正态分布特点,通过对数据进行取对数或者重新排序亦无法达到正态分布特点,无法得出均数(期望)和标准差。
     * @输入/出参数:见具体方法
     * @异常/误差:
     *          异常:输入数据不合法,如:要求输入double数据,输入字母。
     *          误差:保留小数位数造成不精确
     *       解决:
     *          异常:输入不合法给予提示。
     *          误差:进行小数点位数自定义保留封装,根据具体精度进行设置。
     * @Create Date:  2015年8月6日16:39:25
     * @since   JDK1.6  s
     * @author Magicfairytail
     */
    public class zheng04 {
    
        public static void main(String[] args) {
            /**
             * 均值为 μ标准差σ的正态分布的具体实现
             * @param μ double型保留四位小数,表示正态分布均值
             * @param σ double型保留四位小数,表示正态分布标准差
             * @return S1 double型保留四位小数,表示p(X<x)的正态概率
             */
            NormalDistribution normalDistributioin = new NormalDistribution(0,1);//新建一个标准正态分布对象
            Scanner in=new Scanner(System.in);
            do {
                System.out.println("请输入ц:");
                double ц=in.nextDouble();
                //ц=NumberFormat.ZeroFormat(ц);//对所得数据保留4位小数
                System.out.println("请输入σ:");
                double σ=in.nextDouble();
                //σ=NumberFormat.ZeroFormat(σ);    //对所得数据保留4位小数            
    
                System.out.println("请输入x:");
                double x=in.nextDouble();
                //x=NumberFormat.ZeroFormat(x);//对所得数据保留4位小数
                double z=(x-ц)/σ;
                z=NumberFormat.ZeroFormat(z,4);//对所得数据保留4位小数
                    try {
                        double S1 = normalDistributioin.cumulativeProbability(z);
                        S1=NumberFormat.ZeroFormat(S1,4);//对所得数据保留4位小数
                        System.out.println("正态分布概率为:");
                        System.out.println(S1);
                        System.out.println();
                        System.out.println("请问您还要继续输入吗?(1/0)");
                        
                    } catch (Exception e) {
                        // 这里的异常为所得的结果过小导致异常,直接将结果自动置0
                        System.out.println("正态分布概率为:");
                        System.out.println("0");
                        System.out.println();
                        System.out.println("请问您还要继续输入吗?(1/0)");
                    }
                
            } while (in.nextInt()==1);//while循环,当输入的值为1继续,为其他值则终止程序
        }
    
    }

    复制代码

     

    7正态分布的变换

    7.1在随机变量独立性的情况下,正态分布可以做以下的变换

     ; ;其中 ;

    7.2在随机变量独立性的情况下,正态分布方差和期望的变换

     ; ; ;

     ;; ;

    那么

    7.3在随机变量独立观察的情况下,正态分布方差和期望的变换

    8正态分布估算二项分布

    8.1正态分布估算二项分布条件

    a、二项分布和正态分布的形状十分相似

    b、np和nq双双大于5可以用正态分布近似代替二项分布

    若符合以上2个条件,正态分布的期望等于np,方差等于npq即

    其中n为二项分布实验总次数,p为一次成功的概率,q为。记作

    8.2误差修正

    8.2.1连续修正概念

    将离散数据转换为连续标度时,所做的小幅调整,这个过程叫做连续修正

    8.2.2连续修正使用方法

    总结起来就是"小加大减",即在计算 这种形式的概率时,关键是要确保所选择的范围中包含离散数值a,在一个连续标度上一般加上相邻两个自变量单位距离的一半(eg:修正后即为;自变量X的单位距离为1);而在在计算 这种形式的概率时,一定要确保所选择的范围中包含离散数值b,在一个连续标度上一般减去相邻两个自变量单位距离的一半(eg:修正后即为;自变量X的单位距离为1);处理介于型数据时,需要进行连续性修正,以便确保a和b均包含在内(eg:修正后即为;自变量X的单位距离为1) tip:这里的数据都为离散型数据,因为我们是拿正态分布来估算二项分布,所以就会存在误差,通过对离散数据的连续修正则可以减小误差。

    9正态分布估算泊松分布

    9.1正态分布估算泊松分布条件

    a、泊松分布的形状与正态分布相似

    b、如果 ,则可用进行近似

    若符合以上2个条件,我们就可以用正态分布近似估算泊松分布,正态分布的期望等于,方差等于其中为泊松分布的平均发生次数(或者发生率)。

    tip:近似计算时注意连续性修正。

    10正态分布估算应用

    10.1正态分布近似估算二项分布应用

    在12个问题中答对5题或5题以下的概率,其中每个问题只有两个备选答案。

    使用二项分布计算如下:

    由题可知,即求出 ,其中

    各个概率用下列公式进行计算:

    其中 

    我们需要求 ,其中。为此,需要求。然后将算得的所有概率加起来。各个概率为:

    将以上概率加起来,得到总概率为:

    (保留三位小数)

    使用正态分布近似计算:

    ,即 ,近似正态分布为,也就是。我们要求这里注意连续性修正应为,先计算标准差(保留两位小数)

    这与二项分布计算的0.387十分接近。

    10.2正态分布近似估算泊松分布

    游乐园过山车发生故障的次数符合泊松分布,其中 。求第一年的故障次数小于52次的概率有多大?

    使用泊松分布计算:

    如果某物体以某种平均频率发生故障,则这种情况符合泊松分布,以均值为其参数,如果X表示一年内的故障次数,则 。

    我们需要求 ,因此我们要求出52以内的所有X值分别对应的概率。

    这个概率太过复杂这里给出计算方法

    使用正态分布近似估算泊松分布:

    如果用X表示一年内故障次数,则

    由于 较大,我们可以用正态分布近似代替泊松分布。即可以用

    我们需要求故障次数小于52的概率,由于用连续概率分布近似代替离散概率分布,所以必须进行连续性修正。我们不应将52计算在内,只需要求出 。

    计算标准分

    (保留两位小数)

    通过查询标准正态概率表可得结果为0.9656,则一年内的故障次数小于52的概率为0.9656。

    11 总结与共享 


    11.1总结

    展开全文
  • 对于大样本的抽样分布,由中心极限定理,无论总体分布是否为正态分布,其均值x_bar的抽样分布为近似正态分布,同时对于较大的n(n>=30),s将会是σ的优良估计。 x_bar的抽样分布的置信区间可以使用z统计来...

    目录

    大样本抽样分布

    正态分布小样本抽样分布—t分布

    运用t分布构建小样本抽样均值的置信区间

    运用t分布进行小样本抽样均值检验


    大样本抽样分布

    对于大样本的抽样分布,由中心极限定理,无论总体分布是否为正态分布,其均值x_bar的抽样分布为近似正态分布,同时对于较大的n(n>=30),s将会是σ的优良估计。

    x_bar的抽样分布的置信区间可以使用z统计量来构建,z统计量为:

    x_bar的抽样分布的置信区间为:

    其中Zα/2是z的右边使得右尾面积等于α/2的z值(如Figure 6.5),σx_bar是x_bar抽样分布的标准差,σ是总体的标准差,s是样本的标准差

    正态分布小样本抽样分布—t分布

    对于小样本来说,如果总体分布为(近似)正态分布,则样本均值也符合(近似)正态分布,但是小样本的的方差不是总体方差σ的优良估计,这时需要用到t分布来刻画总体的方差。

    定义统计量t:

    如果我们从正态分布中抽取样本,则t统计量就与z统计量极其相似的抽样分布:钟型、对称、均值为0。两个分布的主要区别是t统计量比z统计量具有更大的变动性,因为t统计量包含随机变量x_bar和s,而z统计量仅包含x_bar。

    t统计量的抽样分布的总变异性取决于样本量n,假设样本数为n,则称df=n-1为t分布的自由度。一般来说t分布比正态分布更宽、更扁平,当n趋紧于总体时,t分布就时总体正态分布,s-->σ

    t分布表如下:

    运用t分布构建小样本抽样均值的置信区间

    运用t分布构建小样本抽样均值的置信区间时,一般来说,σ未知,X_bar置信区间为:

    其中tα/2是基于n-1个自由度t分布中右尾面积a/2对应的t值

    运用t分布进行小样本抽样均值检验

    小样本均值检验与小样本均值置信区间估计类似

     

    展开全文
  • 判断数据是否符合正态分布,比如使用3-sigma判断数据异常前,首先需要确定的是数据是否符合...该检验的零检验是样本$x_1,cdots ,x_n$来自于一个正态分布的母体。这个检验的统计是:$$W = frac{(sum_{i=1}^{n}a_{...

    判断数据是否符合正态分布,比如使用3-sigma判断数据异常前,首先需要确定的是数据是否符合正态分布。今天一起梳理下检测正态分布的方法。

    Shapiro-Wilk test

    Shapiro-Wilk test是一种在频率上统计检验中检验正态性的方法。该检验的零检验是样本$x_1,cdots ,x_n$来自于一个正态分布的母体。这个检验的统计量是:

    $$W = frac{(sum_{i=1}^{n}a_{i}x_{(i)})^2}{sum_{i=1}^{n}(x_i-bar{x})^2}$$

    其中:

    $x_{(i)}$用括号包含下标索引i的;不与x混淆,它是第i阶统计量,即样本中的第i个最小数

    $overline {x}=(x_{1}+cdots +x_{n})/n$是样本的平均值。

    常量$a_i$通过公式$(a_1,dots ,a_n)=frac{m^{T}V^{-1}}{sqrt{(m^{T}V^{-1}V^{-1}m)}}, m=(m_1,dots ,m_n)^T$,其中$m_1,dots ,m_n$是从一个标准的正态分布随机变量上采样的有序独立同分布的统计量的期望值。V是这些有序统计量的协方差。

    这个统计检验的假设是样本来自于一个正态母体,因此,一方面,如果p值小于选择的显著度水平(通常0.05),那么在更大概率下我们应该拒绝零假设,数据的证据显示我们的样本不是来自一个正态分布母体。另一方面,如果p值比选择的显著度水平大,那么我们没有证据拒绝零假设,数据来自于一个正态分布。

    Python代码:import numpy as np

    from scipy import stats

    np.random.seed(0)

    x = np.random.randn(1, 1000)

    print(stats.shapiro(x[0]))

    # (0.9985557794570923, 0.5914123058319092)

    # 输出(统计量W的值,P值)

    # W的值越接近1就越表明数据和正态分布拟合得越好,P值>指定水平, 不拒绝原假设,可以认为样本数据服从正态分布

    # 不适合样本>5000的情况

    参考链接:

    Kolmogorov-Smirnov test

    Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max|f(x)- g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则接受H0假设。

    KS检验与t-检验之类的其他方法不同是KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布时,KS检验的灵敏度没有相应的检验来的高。在样本量比较小的时候,KS检验最为非参数检验在分析两组数据之间是否不同时相当常用。

    Kolmogorov检验找出在每一个数据点上经验累积概率与目标分布的累积概率之差的上界,列出公式是这样的:

    $$D_n = underset{x}{sup}|F_n(x)-F(x)|$$

    其中sup函数表示一组距离中的上确界,这是个数学概念,表示在原假设$F_n(x)=F(x)$的条件下,$F_n(x)-F(x)$的绝对值的最小上界。$F_n(x),F(x)$分别代表经验的和理论的累积概率。其意图在于如果原假设成立,则$D_n$应该很小,如果很大,则原假设不成立。但是,这个上确界怎么求出来呢?请看下面的公式:

    $$D_n = underset{x}{sup}|F_n(x)-F(x)|=underset{1leq kleq n}{max}{|F_n(x_k)-F_0(x_k)|,|F_0(x_{k+1}-F_n(x_k)|}$$

    其中k为样本从小到大排列后的序数。从公式中看出$D_n$是经验和目标累积概率之差和错一位后再求出的差中最大的一个。Kolmogorov还给出了这个距离的分布函数,并给出了判断的临界值。当然现在的统计软件都直接计算p值,很少有人查表了。

    Kolmogorov-Smirnov检验(K-S检验)基于累积分布函数,用以检验一个经验分布是否符合某种理论分布或比较两个经验分布是否有显著性差异。

    两样本K-S检验由于对两样本的经验分布函数的位置和形状参数的差异都敏感而成为比较两样本的最有用且常规的非参数方法之一。

    优点:该检验不依赖于要测试的累积分布函数,相比于卡方拟合检验(卡方检验需要50个以上的样本),不需要大量的样本。

    缺点:只适用于连续分布;在分布中间敏感,在两端不够敏感;最大的局限在于整个分布需要完全确定,如果位置,形状等参数都是从数据中估计的,判定区间不再有效,因此这些参数一般只能通过模拟得到。

    scipy.stats.kstest是一个很强大的检验模块,除了正态性检验,还能检验 scipy.stats 中的其他数据分布类型。

    scipy.stats.kstest(rvs, cdf, args=(), N=20, alternative=’two-sided’, mode=’approx’)

    rvs:待检验的数据

    cdf:检验方法,这里我们设置为‘norm’,即正态性检验

    args:分布参数,可选

    N:样本数量

    alternative:默认为双尾检验,可以设置为‘less’或‘greater’作单尾检验

    mode:定义计算p-value的方式

    使用示例:import numpy as np

    from scipy import stats

    np.random.seed(0)

    x = np.random.randn(1, 100)

    print(stats.kstest(x[0], 'norm'))

    # KstestResult(statistic=0.0582486387238324, pvalue=0.8865884365301941)

    输出结果中第一个为统计量,第二个为P值(注:统计量越接近0就越表明数据和标准正态分布拟合的越好,如果P值大于显著性水平,通常是0.05,接受原假设,则判断样本的总体服从正态分布)

    参考链接:

    Anderson-Darling test

    这个方法是由T. W. Anderson和D. A. Darling于1954年提出的,与K-S检验相比,AD检验度量经验累积概率和理论累积概率之差的方法显得更加自然。下面的公式就是其方法:

    $$Z = nint_{-infty}^{infty}[F_n(x)-F(x)]^{2}w(x)f(x)dx$$

    是不是感觉像是计算方差的公式,我的直观感觉,就是把每个数据点的差求平方以后相加,得到总的分布偏差,这样就考虑了所有的差异点,而不是像K-S检验那样只考虑一个最大的。

    公式中f(x)是理论分布密度函数,w(x)是某个权重函数。若w(x)≡1,则为Cramér-Von Mises统计量$W^2$。

    用上面的积分公式计算统计量比较麻烦,因此两位统计学家又推导出了简单的计算方法,见下面的公式:

    $$A^2=-n-sum_{i}^{n}frac{2i-1}{n}[ln F(Y_i)+ln (1-F(Y_{n+1-i})]$$

    其中$Y_i=frac{X_i-hat{mu}}{hat{sigma}}$

    注意这个公式计算所采用的数据顺序是从小到大排列的,不是原来的数据排列顺序。

    scipy.stats.anderson是由 scipy.stats.kstest 改进而来的,可以做正态分布、指数分布、Logistic 分布、Gumbel 分布等多种分布检验。默认参数为 norm,即正态性检验。

    返回:statistic – 统计数;critical_values – 评判值;significance_level – 显著性水平import numpy as np

    from scipy import stats

    np.random.seed(0)

    x = np.random.randn(1, 100)

    print(stats.anderson(x[0], 'norm'))

    # AndersonResult(statistic=0.18097695613924714, critical_values=array([0.555, 0.632, 0.759, 0.885, 1.053]), significance_level=array([15. , 10. , 5. , 2.5, 1. ]))

    # 如果输出的统计量值statistic < critical_values,则表示在相应的significance_level下,接受原假设,认为样本数据来自给定的正态分布。

    参考链接:

    scipy.stats.normaltest

    scipy.stats.normaltest运用了D’Agostino–Pearson综合测试法,返回(得分值,p值),得分值=偏态平方+峰态平方scipy.stats.normaltest(a, axis=0, nan_policy='propagate')

    这里的三个参数都有必要看一下:

    a:待检验的数据

    axis:默认为0,表示在0轴上检验,即对数据的每一行做正态性检验,我们可以设置为axis=None来对整个数据做检验

    nan_policy:当输入的数据中有空值时的处理办法。默认为 propagate,返回空值;设置为raise时,抛出错误;设置为omit时,在计算中忽略空值。

    代码示例:import numpy as np

    from scipy import stats

    np.random.seed(0)

    x = np.random.randn(1, 100)

    print(stats.normaltest(x[0]))

    # NormaltestResult(statistic=0.45430460563864783, pvalue=0.7967994182504964)

    如果pvalue是>0.05,则代表是正态分布。

    参考链接:

    Lilliefors-test

    检验样本数据是否来自正态总体。采用方法是:当总体均值和方差未知时,用样本的均值和方差代替后 再用K-S检验法。据说效果不如Anderson-Darling test。原假设 H0:样本服从正态分布; 备择假设 H1:样本不服从正态分布import numpy as np

    from statsmodels.stats.diagnostic import lilliefors

    np.random.seed(0)

    x = np.random.randn(1, 100)

    print(lilliefors(x[0]))

    # 输出(统计量的值,P值)=(0.06433451870420759, 0.40018452551214856),P值>指定水平0.05,接受原假设,可以认为样本数据服从正态分布

    参考链接:

    展开全文
  • 【判断题】线性回归模型的随机误差项不服从正态分布,OLS估计将是有偏的 【简答题】Board of Directors 【单选题】铸件上垂直于分型面的立壁均应有斜度。当立壁的表面为非加工面时,该斜度称为( ) 【简答题】...
  • 0.0 神说,要有正态分布,于是就有了正态分布。 0.1 神看正态分布是好的,就让随机误差都随了正态分布。 0.2 正态分布的奇妙之处,就是许多看似随机事件竟然服从一个表达式就能表达的分布,如同上帝之手特意为之。...
  • 转自:机器之心我们从高中就开始学正态分布,现在做数据分析、机器学习还是离不开它,那你有没有想过正态分布有什么特别之处?为什么那么多关于数据科学和机器学习的文章都围绕正态分布展开?本文作者专...
  • Python中的正态分布统计

    千次阅读 2021-01-28 22:18:13
    正态分布:若随机变量x服从有个数学期望为μ,方差为σ2 的正态分布,记为N(μ,σ)其中期望值决定密度函数的位置,标准差决定分布的幅度,当υ=0,σ=0 时的正态分布是标准正态分布判断方法有画图/k-s检验1....
  • 正态分布运用:正态之美 作者 白宁超 2015年10月15日18:30:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理。首先提到统计学,很多人认为是经济学或者数学的专利,计算机并没有交集。诚然...
  • 本篇着重谈一下正态分布的各种计算。对于连续数据分布来说,给出的都是概率密度函数,要想计算概率,就要用到积分。假设一个随机变量服从正态分布N(μ,σ^2)分布,求a≤b的概率P。于是有其中-∞≤b∞。在μ和σ未知...
  • T 分布(近似标准正态分布

    千次阅读 2018-01-12 15:42:00
    1.1 定义 定义:假设X服从标准正态分布N(0,1)...由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ总体方差的估计值,为了u变换(正态化变换)区别,称为t变换,统计t 值的分布称为t分...
  • 【转载】用R语言做正态分布检验。2、shapiro.test() 可以进行关于正态分布的Shapiro-Wilk检验。适用条件样本含量应大于2002、用夏皮罗-威尔克(Shapiro-Wilk)法检验数据正态性 即W检验,1965 年提出,适用于样本含量n...
  • 连续型变量 如:正态分布 离散型变量 如:二项分布、泊松分布 三者之间的关系 二项分布(Binomial distribution) 二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布,记作。伯努利试验是...
  • 微信公众号:pythonEducation模型和统计项目QQ:231469242目录:1.Shapiro-Wilk test样本量小于502.normaltest样本量小于50, normaltest运用了D’Agostino–Pearson综合测试法,每组样本数大于203.Lilliefors-test-...
  • 本文讨论了多元正态分布的定义,重点讨论多元正态分布的独立性、回归最佳预测等问题。
  • 三、总体和样本一、统计概率分布随机变量是对实验结果的数值描述。随机变量的值取决于实验结果,根据取值可以将概率分为离散型随机变量和连续型随机变量。随机变量的概率分布式描述随机变量取不同值的概率。引入三个...
  • 指的是总体是正态分布,从总体中抽出样本,构造统计,研究统计的分布 一个正态总体 s是样本方差 1、抽出样本构造的统计是均值,统计的分布是正态分布。可以看出取均值之后,方差变小了,波动性变小,变...
  • 运用python来求出数据的常用统计(包括均值、方差)并绘制相应的经验分布函数图,用男生女生各自睡眠时间的经验分布函数图像与正态总体随机数的经验分布函数图像做对比。根据经验分布函数是依据样本以频率估计概率...
  • 一、 概念  指变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种概率分布。  正态分布的由来 ...正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gaus
  •     索引—— ... 正态分布 二项分布 参数估计可信区间 假设检验   四、正态分布 1、从样本频数分布到概率分布  直方图/频率图的性质: (1)直条的面积实质上是频率(或者百分比...
  • 笔者从心理学网站中抽取了有一组关于说服者态度强硬指数的数据,为了探究受试者态度强硬的程度说服结果的关系,我们首先需要知道他们的强硬指数的 “ 段位 ”,即他们超过了群体中百分之几的...
  • 2、通过正态分布的图形特征,归纳正态曲线的性质.二、过程方法讲授法引导发现法.通过教师先讲,师生再共同探究的方式,让学生深刻理解相关概念,领会数形结合的数学思想方法,体会数学知识的形成.三、情感...
  • 首先,就是这个总体是服从正态分布的。然后我们从总体中抽取出的这些样本所构成的统计所服从的分布,就是我们今天需要学习的。本节难度较大,主要难在那几种分布(x2x^2x2, t 分布、F分布之间的拼凑) 一、需要...
  • 正态分布-python建模

    2018-04-18 22:21:00
    正态分布有极其广泛的实际背景,生产科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的 强力、 抗压强度、口径、长度等指标;同一种生物体的身长、体重等...
  • 高斯分布 正态分布

    千次阅读 2010-11-30 21:21:00
    <br />正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,707
精华内容 1,482
关键字:

正态分布运用条件与样本量

友情链接: Dimmercode.rar