精华内容
下载资源
问答
  • 总体参数估计概述

    千次阅读 2009-10-26 19:47:00
    统计推断(Statistical inference)就是根据样本的实际数据,对总体的数量特征作出具有一定可靠程度的估计和判断。统计推断的基本内容有参数估计和假设检验两方面。概括地说,研究一个随机变量,推断它具有什么样的...

    统计推断(Statistical inference)就是根据样本的实际数据,对总体的数量特征作出具有一定可靠程度的估计和判断。统计推断的基本内容有参数估计和假设检验两方面。概括地说,研究一个随机变量,推断它具有什么样的数量特征,按什么样的模式来变动,这属于估计理论的内容,而推测这些随机变量的数量特征和变动模式是否符合我们事先所作的假设,这属于检验理论的内容。参数估计和假设检验的共同点是它们都对总体无知或不很了解,都是利用部分观察值所提供的信息,对总体的数量特征作出估计和判断,但两者所要解决问题的着重点的所有方法有所不同。本节先研究总体参数估计的问题。

     

    总体参数估计是以样本统计量(即样本数字特征)作为未知总体参数(即总体数字特征)的估计量,并通过对样本单位的实际观察取得样本数据,计算样本统计量的取值作为被估计参数的估计值。

     

    不论社会经济活动还是科学试验,人们作出某种决策之前总是要对许多情况进行估计。例如商品推销人员要估计新式时装可能为消费者所喜好的程度,自选商场经理要估计附近居民的购买能力,民意调查机构要估计竞选者的得票率,医药生产部门要推广某种药品的新配方,必须估计新药疗效的提高程度等等。这些估计通常是在信息不完全、结果不确定的情况下作出。参数估计为我们提供一套在满足一定精确度要求下根据部分信息来估计总体参数的真值,并作出同这个估计相适应的误差说明的科学方法

     

    科学的抽样估计方法要具备三个基本条件。

     

    首先是要有合适的统计量作为估计量。我们知道统计量是样本随机变量的函数,根据样本随机变量可以构造许多统计量,但不是所有的统计量都能够充当良好的估计量。例如,从一个样本可以计算平均数、中位数、众数等等,现在要用来估计总体平均数,究竟以哪个样本统计量作为估计量更合适,如果采用样本平均数作为估计量,这就需要回答样本平均数和总体平均数存在什么样的内在联系,以样本平均数作为良好估计量的标准是什么等等。只有这些问题解决了,才能通过样本的实际观察确定估计值,而估计值是参数估计的基础

     

    其次,要有合理的允许误差范围。允许误差范围又称抽样极限误差,指样本统计量与被估计总体参数离差的绝对值可允许变动的上限或下限离差的绝对值愈小表明抽样估计的准确度愈高,反之,就表明准确度愈差了。由于统计量本身也是随机变量,所以要使所做的估计完全没有误差是难以实现的,但估计误差也不能太大,估计误差如果超过了一定限度参数估计本身也就会失去价值。当然也不见得误差愈小就是愈好的估计,因为减少误差势必增加费用、时间,增加人力、物力、财力的负担,这样甚至会失去组织抽样调查的意义。所以在做估计的时候应该根据所研究对象的变异程度和分析任务的要求确定一个合理的允许误差范围,凡估计值与被估计值之间的离差不超过允许范围,这种估计都算是有效的。例如估计粮食亩产600公斤,允许误差范围6公斤,这意味着如果实际的粮食亩产在594606公斤之间都应该认为估计是有效的。我们把允许误差的区间594606公斤称为估计区间,允许误差与估计值之比称为误差率,(1–误差率)称为估计精度,上例误差率为6/600=1%,估计精度为11%=99%

     

    再次,要有一个可接受的置信度。估计置信度又称估计推断的概率保证程度,这是估计的可靠性问题。由于抽样是随机抽样,统计量是随机变量,估计值所确定的估计区间也是随机的,在实际抽样中并不能做主被估计的参数真值都落在允许误差的范围内。这就产生要冒多大风险相信所作的估计。如果一种估计可信度很低,这就意味着所冒的风险很大,这种估计也就没有什么价值。例如我们愿意冒10%的风险,这表示如果进行多次重复估计,则平均每100次估计将10次是错误,90次估计正确。90%就称为置信度或称概率保证程度。在抽样估计中要求达到100%的置信度是难以做到的,但置信度小了,估计结论的可靠性太低,又会影响估计本身的价值,所以在做估计的时候,也应该根据所研究问题的性质和工作的需要确定一个可接受的估计置信度。当然估计置信度的要求和准确度的要求应该结合起来考虑,估计的准确度很高而置信度很低或准确很低而置信度很高都是不合适的。

     

    展开全文
  • 正态总体参数的检验  1 总体标准差已知时的单个正态总体均值的U检验  例:  某切割机正常工作时,切割的金属棒的长度服从正态分布N(100,4)。从该切割机切割的一批金属棒中随机抽取15根,测得长度为:  97 102 ...

    正态总体参数的检验

    更多MATLAB数据分析视频请点击,或者在网易云课堂上搜索《MATLAB数据分析与统计》 http://study.163.com/course/courseMain.htm?courseId=1003615016

      1 总体标准差已知时的单个正态总体均值的U检验

      例:

     某切割机正常工作时,切割的金属棒的长度服从正态分布N(100,4)。从该切割机切割的一批金属棒中随机抽取15根,测得长度为:

     97 102 105 112 99 103 102 94 100 95 105 98 102 100 103

    假设总体的方差不变,试检验该切割机工作是否正常,即检验总体均值是否等于100?,取显著性水平a=0.05。

    分析:

    这是总体标准差已知时的单个正态总体均值的检验,根据题目要求可写出如下假设:

      H0:u=u0=100,                H1=u /=u0(u不等于u0)

     H0称为原假设,H1称为被择假设(或对立假设)

    MATLAB统计工具箱中的ztest函数用来做总体标准差已知时的单个正态总体均值的检验

    调用格式ztest

    [h,p,muci,zval]=ztest(x,mu0,Sigma,Alpha,Tail)

    x:是输入的观测向量

    mu0:假设的均值

    Sigma:总体标准差

    Alpha:显著性水平,默认0.05

    Tail:尾部类型变量,‘both’双侧检验(默认),u不等于uo;‘right’右侧检验,u>u0; ‘left’左侧检验,u<u0;

    返回值:

    h:假设的结果(0,1),h=0时,接受假设H0;h=1,拒绝假设H0

    p:检验的p值,p>Alpha时,接受原假设H0;p<=Alpha时,拒绝原假设H0.

    muci:总体均值u的置信水平为1-Alpha的置信区间

    zval:检验统计量的观测值

    %定义样本观测值向量

    x=[97 102 105 112 99 103 102 94 100 95 105 98 102 100 103];

    mu0=100;       %原假设中的mu0

    sigma=2;       %总体标准差

    Alpha=0.05;    %显著性水平

    %调用ztest函数做总体均值的双侧检验(默认),

    %返回变量h,检验的p值,均值的置信区间muci,检验统计量的观测值zval

    [h,p,muci,zval]=ztest(x,mu0,sigma,Alpha)

    h =

         1

    p =

        0.0282

    muci =

      100.1212  102.1455

    zval =

        2.1947

    由ztest函数返回值可以看到,h=1,且p=0.0282<0.05,所以在显著性水平=0.05下拒绝的原假设H0:u=u0=100,因此认为该切割机不能正常工作,同时还返回了总体均值的置信水平为95%(1-0.05)的置信区间为[100.1212  102.1455]。

    现在我们已经知道u不等于u0(100),那么接下来还需要做如下的检验

    H0:u<=u0=100;               H1:u>u0

    这里就需要设置一下尾部类型变量了,Tail用来指定备择假设H1的形式,它可能取的字符串‘both’,‘right’和'left',对应的备择假设分别为H1:u/=u0(不等于),(双侧检验)、

    H1:u>u0,(右尾检验)和H1:u<u0(左尾检验)

    %定义样本观测值向量

    x=[97 102 105 112 99 103 102 94 100 95 105 98 102 100 103];

    mu0=100;       %原假设中的mu0

    sigma=2;       %总体标准差

    Alpha=0.05;    %显著性水平

    tail='right';

    %调用ztest函数做总体均值的双侧检验(默认),

    %返回变量h,检验的p值,均值的置信区间muci,检验统计量的观测值zval

    [h,p,muci,zval]=ztest(x,mu0,sigma,Alpha,tail)

    h =

         1

    p =

        0.0141

    muci =

      100.2839       Inf

    zval =

        2.1947

    返回值中,h=1且p=0.0141<0.05,在显著性水平下=0.05下拒绝了原假设H0:u<=u0=100;

    如果:

    H0:u>uo=100;      H1=u<u0

    那么tail应为‘left’;

    返回值将会 h=0,p>0.05,接受原假设H0,即认为u>100;

    2 总体标准差未知时的单个正态总体均值的t检验

    例:

    化肥厂用自动包装机包装化肥,某日测得9包化肥的质量如下:

    49.4  50.5  50.7  51.7  49.8  47.9  49.2  51.4  48.9 

    设每包化肥的质量服从正态分布,是否可以认为每包化肥的平均质量为50?取显著性水平a=0.05。

    分析:这是总体标准差未知时的单个正态总体均值的检验,根据题目要求可以写出如下假设:

     H0:u=u0=50,                      H1:u/=u0(u不等于u0)

    MATLAB统计工具箱中提供了ttest函数用来做总体标准差未知时的正态总体均值的检验,调用格式和ztest类似,返回值有点不同

    [h,p,muci,stats]=ttest(x,mu0,Alpha,Tail)

    输入参数中没有标准差,其它都一样

    返回值stats是一个结构体变量,包括t检验统计量的观测值,自由度,和样本的标准差;其它都一样

    %定义样本观测值向量

    x=[49.9 50.5 50.7 51.7 49.8 47.9 49.2 51.4 48.9];

    mu0=50;    %原假设中的均值u0=50

    Alpha=0.05;  %显著性水平alpha

    %调用ttest函数做总体均值的双侧检验

    %返回变量h,检验值p,均值的置信空间muci,结构体变量stats

    [h,p,muci,stats]=ttest(x,mu0,Alpha)

    h =

         0

    p =

        1.0000

    muci =

       49.0625   50.9375

    stats =

        tstat: -1.7478e-14

           df: 8

           sd: 1.2196

    由于返回值h=0,p=1>0.05,所以在显著性水平=0.05下接受原假设H0:u=u0=50,认为每包化肥的平均质量为50,并且总体均值u的置信水平为95%的置信区间为[49.0625 50.9375]

    3 总体标准差未知时的两个正态总体均值的比较 t 检验

      (1)两独立样本的 t 检验

       例:

      甲、乙两台机床加工同一种产品,从这两台机床加工的产品中随机抽取若干件,测得产品直径为:

      甲机床:20.1,20.0,19.3,20.6,20.2,19.9,20.0,19.9,19.1,19.9

      乙机床:18.6, 19.1,20.0,20.0,20.0,19.7,19.9,19.6,20.2

      设甲、乙两机床加工的产品的直径分布服从正态分布N(u1,a1^2)和N(u2,a2^2),试比较甲、乙两台机床加工的产品的直径均值是否有显著性差异,取显著性水平a=0.05

     分析:这是总体标准差未知,并且两样本是相互独立的,对这两样本均值做比较检验,根据题目要求,可写出如下假设

      H0:u1=u2                       H1:u1/=u2(u1不等于u2)

     MATLAB统计工具箱中的ttest2函数可以用来做总体标准差未知时的两个正态总体均值的比较检验;

    调用格式:

    [h,p,muci,stats]=ttest(x,y,Alpha,Tail,vartype)

    x,y为输入的两个样本观测值

    Alpha为显著性水平

    tail为尾部类型

    cartype:为方差类型,用来指定两总体方差是否相等,‘equal’表示等方差,‘unequal’表示异方差

    返回值与ttest函数一致,muci是指均值差的置信空间

    %定义甲机床的样本观测值向量

    x=[20.1,20.0,19.3,20.6,20.2,19.9,20.0,19.9,19.1,19.9];

    %定义乙机床的样本观测值向量

    y=[18.6, 19.1,20.0,20.0,20.0,19.7,19.9,19.6,20.2];

    Alpha=0.05;               %显著性水平

    tail='both';              %尾部类型为双侧

    vartype='equal';          %方差类型为等方差

    %调用ttest2函数作两个正态总体均值的比较检验

    %返回变量h,检验的p值,均值差的置信区间,结构体变量stats

    [h,p,muci,stats]=ttest2(x,y,Alpha,tail,vartype)

    h =

         0

    p =

        0.3191

    muci =

       -0.2346    0.6791

    stats =

        tstat: 1.0263

           df: 17

           sd: 0.4713

    返回的检验值p>0.05,所以在显著性水平=0.05下,接受原假设H0:u1=u2,认为甲、乙两台机床加工的产品的直径没有显著差异。此时,u1-u2的置信水平为95%的置信区间为[-0.2346    0.6791]

     (2)配对样本的 t 检验

        (两样本不是独立的)

     例:

     两组(各10名)有资质的评酒员分别对12种不同的酒进行品评,每个评酒员在品尝后进行评分,然后对每组的每个样品计算其平均分,评分结果如下

                    样品1      样本2      样品3    样品4     样品5      样品6      样品7      样品8      样品9      样品10    样品11     样品12   

    第一组     80.3      68.6          72.2     71.5      72.3          70.1         74.6        73.0        58.7        78.6         85.6           78.0

    第二组     74.0       71.2        66.3      65.3     66.0           61.6        68.8          72.6        65.7        72.6         77.1           71.5

    设两组评酒员的评分分布服从正态分布N(u1,a1^2)和N(u2,a2^2),试比较两组评酒员的评分是否有显著差异,取显著性水平a=0.05

    分析:由于每个红酒样本都对应两个评分,显然样本等长,并且两样本不独立,这是配对样本的比较问题,根据题目要求可写出如下的假设:

      H0:u1=u2,                      H1:u1/=u2(u1不等于u2)

     由于两个样本不独立,通常的做法是将两个样本对应数据最差,把两个正态总体均值的比较检验转化为单个正态总体均值的检验,然后就可用ttest函数进行检验

     上面的假设改写为如下假设

      H0:u=u1-u2=0,                   H1:u/=0(u不等于0)

    然后调用ttest函作配对样本的比较 t 检验

    调用格式

    [h,p,muci,stats]=ttest(x,y,Alpha,Tail)

    x,y为输入的观测样本观测值向量,其它参数与ttest一致

    %样本1

    x=[80.3,68.6,72.2,71.5,72.3,70.1,74.6,73.0,58.7,78.6,85.6,78.0];

    %样本2

    y=[74.0,71.2,66.3,65.3,66.0,61.6,68.8,72.6,65.7,72.6,77.1,71.5];

    Alpha=0.05;     %显著性水平

    tail='both';    %尾部类型为双侧

    %调用ttest函数作配对样本的比较t检验

    %返回变量h,检验的p值,均值差的置信区间muci,结构体变量stats

    [h,p,muci,stats]=ttest(x,y,Alpha,tail)

    h =

         1

    p =

        0.0105

    muci =

        1.2050    7.2617

    stats =

        tstat: 3.0768

           df: 11

           sd: 4.7662

    返回值p=0.0105<0.05,所以在显著性水平a=0.05下拒绝原假设H0:u=u1-u2=0,认为两组评酒员的评分有显著差异。此时两总体均值差的置信水平为95%的置信区间为

    [  1.2050    7.2617],该区间不包含0,说明第一组评酒员的评分明显高于第二组评酒员的评分。

    ​4 总体均值未知时的单个正态总体方差的卡方检验

    例:

    化肥厂用自动包装机包装化肥,某日测得9包化肥的质量如下:

    49.4  50.5  50.7  51.7  49.8  47.9  49.2  51.4  48.9 

    设每包化肥的质量服从正态分布,是否可以认为每包化肥的质量的方差等于1.5?取显著性水平a=0.05。

    分析:这是总体均值未知时的单个正态总体方差的检验,根据题目要求可以写出如下假设:

    H0:a^2=a0^2=1.5,                      H1:a^2/=a0^2(a^2不等于a0^2)

    MATLAB统计工具箱中的vartest函数可用来做总体均值未知时的单个正态总体方差的检验

    调用格式:

    [h,p,varci,stats]=vattest(x,v,alpha,tail)

    输出参数

    x:样本观测值向量

    v:原假设中的方差

    alpha:显著性水平

    tail:尾部类型

    输出参数

    varci为方差的置信区间,其他都一样

    %定义样本观测值向量

    x=[49.9,50.5,50.7,51.7,49.8,47.9,49.2,51.4,48.9];

    var0=1.5;    %原假设中的方差

    Alpha=0.05;  %显著性水平

    tail='both'; %尾部类型为双侧

    %调用vartest函数作单个正态总体方差的双侧检验

    %返回值变量h,检验值p,方差的置信区间varci,结构体变量stats

    [h,p,varci,stats]=vartest(x,var0,Alpha,tail)

    h =

         0

    p =

        0.8800

    varci =

        0.6787    5.4594

    stats =

        chisqstat: 7.9333    %卡方检验统计量的观测值

               df: 8                     %卡方检验统计量的自由度

    返回值p=0.88>0.05,所以在显著性水平a=0.05下接受原假设H0:a^2=a0^2=1.5,认为每包化肥的质量的方差等于1.5,此时总体方差a^2的置信水平为95%的置信区间为[0.6787    5.4594]

    5 总体均值未知时的两个正态总体方差的比较F检验

    甲、乙两台机床加工同一种产品,从这两台机床加工的产品中随机抽取若干件,测得产品直径为:

      甲机床:20.1,20.0,19.3,20.6,20.2,19.9,20.0,19.9,19.1,19.9

      乙机床:18.6, 19.1,20.0,20.0,20.0,19.7,19.9,19.6,20.2

      设甲、乙两机床加工的产品的直径分布服从正态分布N(u1,a1^2)和N(u2,a2^2),试比较甲、乙两台机床加工的产品的直径方差是否有显著性差异,取显著性水平a=0.05

    分析:这是总体均值未知时的两个正态总体方差的比较检验,根据题目要求可写出如下假设:

      H0:a1^2=a2^2,                         H1:a1^2/=a2^2(a1^2不等于a2^2)

    MATLAB统计工具箱中的vartest2函数可以用来做总体均值未知时的两个正态总体方差的比较检验

    调用格式:

    [h,p,varci,stats]=vattest2(x,y,alpha,tail)

    输入参数:

    x,y为样本观测值向量

    alpha:显著性水平

    tail:尾部类型

    返回值与vartest函数一致,置信区间varci是a1^2/a2^2的置信区间

    %定义甲机床的样本观测值向量

    x=[20.1,20.0,19.3,20.6,20.2,19.9,20.0,19.9,19.1,19.9];

    %定义乙机床的样本观测值向量

    y=[18.6, 19.1,20.0,20.0,20.0,19.7,19.9,19.6,20.2];

    Alpha=0.05;               %显著性水平

    tail='both';              %尾部类型为双侧

    [h,p,varci,stats]=vartest2(x,y,Alpha,tail)

    h =

         0

    p =

        0.5798

    varci =

        0.1567    2.8001

    stats =

        fstat: 0.6826    %F检验统计量的观测值

          df1: 9               %F检验统计量的分子自由度

          df2: 8              %F检验统计量的分母自由度

    返回的检验的p值p=0.5789>0.05,所以在显著性水平a=0.05下接受原假设H0:a1^2=a2^2,认为甲乙两台机床加工产品的直径的方差相等。此时a1^2/a2^2的置信水平为95%的置信区间为[  0.1567    2.8001]

    6 检验功效与样本容量的计算

     (1)假设检验的两类错误

       假设检验可能会犯两类错误:第一类错误是本来原假设H0正确,却由于抽样的原因拒绝了H0,这类错误又称之为“拒真”错误,犯第一类错误的概率记为a;第二类错误是本来H0不正确,却由于抽样的原因接受了H0,这类错误又称为“取伪”错误,犯第二类错误的概率记为b,假设检验需要控制犯两类错误的概率均在一个较低的水平,而实际上在样本容量固定的前提下,降低a的同时会增加b,,降低b的同时a也会增加,为了平衡这一矛盾,提出了显著性检验的概念,也就是在控制犯第一类错误的概率不超过某一水平(即显著性水平)的前提下去制约b。

     (2)检验功效与样本容量的关系

     原假设不成立的条件下,拒绝原假设的概率(即1-b)称为检验的功效,它反映了一个显著性检验能够区分原假设和备择假设的能力,通常情况下,应使得检验功效达到一个较高的水平(例如90%以上)。

     当给定样本容量时可以求得检验功效,样本容量越大,检验功效越高,即区分原假设与备择假设的能力越强;反之,给定检验功效,也可求出样本容量

    (3) 调用sampsizepwr函数求样本容量和检验功效

     MATLAB统计工具箱中提供了sampsizepwr函数,用来求样本容量和检验功效,其调用格式如下:

       <1> n=sampsizepwr(testtype,p0,p1)

        对于不同类型的双侧检验,在显著性水平0.05下,求使得检验功效不低于90%的最小的样本容量n。输入参数p0和p1分别用来指定原假设和备择假设中的参数值,testtype用来指定检验类型,是字符串变量,其取值如下表

    testtype参数取值                       说明                                                               备注

    ‘z’                                          标准差已知时                             p0是形如[u0,a0]的向量,其元素分别为原假设对应的总体均值

                                              正态总体均值的检验                               和标准差。p1是备择假设对应的总体均值


    ‘t’                                       标准差未知正态总体                       p0是形如[u0,a0]的向量,其元素分别为原假设对应的总体均值

                                               均值的检验                                                和样本标准差,p1是备择假设对应的总体均值


    ‘var’                                     正态总体的方差检验                             p0和p1分别是原假设和备择假设对应的总体方差


    ‘p’                                   二项分布的比例(成功概率)检验            p0和p1分别是原假设和备择假设对应的参数值

    当参数p1为向量时,输出参数n是与p1等长的向量


    <2>n=sampsizepwr(testtype,p0,p1,power)

            求样本容量,用power参数指定参数功效,其值介于0-1之间

     <3>power=sampsizepwr(testtype,p0,p1,[ ],n)

       给定样本容量n,求检验功效power

     <4>p1=sampsizepwr(testtype,p0,[  ],power,n)

      给定样本容量n和检验功效power,求备择假设中的参数p1.

     <5> [......]=sampsizepwr(.....,n,param1,val1,param2,val2,......)

      用可选的成对出现的参数名和参数值控制计算结果,可用的参数名与参数值如下

    参数名                      参数值及说明

    ‘alpha’                   检验的显著性水平,取值0--1之间,默认值0.05


    ‘tail’                        尾部类型变量,用来指定备择假设的形式,  

                                       可取值‘both’,‘right’,‘left’


    例:设需要对某一正态总体的均值进行如下检验:

             H0:u=100,                H1:u>104

      已知总体标准差a=6.58,取显著性水平=0.05,同时要求检验功效达到90%以上,求所需要的样本容量

      调用sampsizepwr函数求解


    mu0=100;       %原假设对应的总体均值
    sigma0=6.58;   %原假设对应的标准差
    mu1=104;       %备择假设对应的总体均值
    pow=0.9;       %检验功效

    %调用sampsizepwr函数求样本容量
     n=sampsizepwr('z',[mu0,sigma0],mu1,pow,[],'tail','right')

    n =

        24

    要检验功效达到90%以上,需要的样本容量至少为24,如果指定不同的样本容量,还可求得相应的检验功效


    n=1:60;   %指定不同的样本容量,1,2,....60
    mu0=100;  %原假设对应的总体均值
    sigma0=6.58;  %原假设对应的标准差
    mu1=104;      %备择假设对应的总体均值
    %调用sampsizepwr函数求不同样本容量对应的检验功效
    pow=sampsizepwr('z',[mu0,sigma0],mu1,[],n,'tail','right');
    plot(n,pow,'k');   %绘制检验功效与样本容量关系曲线
    xlabel('样本容量');
    ylabel('检验功效');

    由图可知,随着样本容量的增大, 检验功效逐渐趋向于1.

    更多MATLAB数据分析视频请点击,或者在网易云课堂上搜索《MATLAB数据分析与统计》 http://study.163.com/course/courseMain.htm?courseId=1003615016


    展开全文
  • 1. MLE的意义:样本估计总体分布参数 假定一个事件的观测样本服从如下分布,我们如何确定总体数据的分布模型? 首先应该想到是建立线性回归模型,然而由于该变量不是正态分布的,而且是不对称的,因此不符合线性...

    1. MLE的意义:样本估计总体分布参数

    假定一个事件的观测样本服从如下分布,我们如何确定总体数据的分布模型?

    首先应该想到是建立线性回归模型,然而由于该变量不是正态分布的,而且是不对称的,因此不符合线性回归的假设

    常用的方法是对变量进行对数、平方根、倒数等转换,使转换后的变量服从正态分布,并进行线性回归建模。变换后的效果如下

    不幸的是,所有这些都不接近正态分布,那么应该如何对这些数据进行建模,才能不违背线性模型(高斯分布或者近似高斯分布)的基本假设?

    如何利用正态分布以外的其他分布来建模这些数据呢?如果使用了不同的分布,又将如何来估计系数/参数?这便是最大似然估计(MLE)的主要优势。

    2. MLE意义:实例分析

    Comment:数据呈现高斯分布或者近似高斯分布,可以使用线性回归进行建模;

    Comment:数据偏离高斯分布非常严重,建议使用最大似然建模并估计模型参数;

    示例如下:

    在研究统计和概率时,诸如x>100的概率,因为x服从正态分布,平均值为50,标准差为10。在这些问题中,我们已经知道分布(在这种情况下是正态分布)及其参数(均值和标准差),但在实际生活问题中,这些参数是未知的,并且必须从数据中估计出来。MLE可以帮助我们确定给定数据的分布参数可以用下面例子加深理解:假设用数据来表示班级中学生的体重。数据如下图所示:

    看起来这组数据似乎遵循正态分布(其实偏差还是蛮严重的)。即使我们假设该组数据已经满足了正态分布,那么我们该如何得到这个正态分布的均值和标准差呢?

    一种方法是直接计算给定数据的平均值和标准差,分别为49.8公斤和11.37公斤。这些值能很好地表示给定的数据,但还不能最好地描述总体情况(也就是我们通常说的模型泛化能力差,在样本数据集上表现良好,在测试集/样本总体上表现差)。

    这种情况下,我们就可以使用最大似然MLE来获得更稳健的参数估计。因此,MLE可以定义为从样本数据中估计总体参数(如均值和方差、泊松率(Lambda)等)的方法从而使获得观测数据的概率(可能性)最大化

    3. 技术细节

    3.1 分布参数

    所谓的分布参数可以理解为一个概率分布的量化指数,它是样本总数的数值特征或一个统计模型。

    例如,高斯分布就是通过均值方差两个分布参数唯一确定的:

    同样,泊松分布是由分布参数λ唯一控制,即事件在时间或空间间隔内发生的次数:

    大多数数据分布都有1个或2个参数控制,但有些分布可以有多达4个参数,比如4参数β分布。

    3.2 似然,对数似然,最大化似然函数

    通过概率论的基本分布:对于任意分布(非均匀分布),总是在某些数值位置上出现的概率大,而在其他的位置上出现的概率小。

    现实中我们需要做的是:在已知的少量观测样本上,如何建立模型,估计模型参数,进而最大概率地估计样本总体。

    在MLE中,假定似然函数L(θ;x),其中θ是分布参数向量,x是观测集。需要做的是寻找具有给定观测值(x值)的最大可能性的θ值。

     

    如果假设观测集(Xi)是独立的同分布IID随机变量,概率分布为f0(其中f0=正态分布,例如图1),似然函数可以简化为:

    为了求似然函数的极大值/极小值,取此似然函数的导数,并将其设为0。所以:

     

    为找到对数似然函数LL的极大值,可以:

    • 取对数似然函数的一阶导数,并将其等价于0;

    • 取对数似然函数的二阶导数,并确认其为负值。

    在许多情况下,微积分对最大化似然估计没有直接帮助,但最大值仍然可以很容易地识别出来。在寻找最大对数似然值的参数值时,没有任何东西比一阶导数等于零具有更为 “优先”或特殊的位置。当需要估计一些参数时,它仅仅是一个方便的工具而已。

    4. 反思

    我们自然而言会想到:参数空间中是否存在比标准线性模型估计更好的系数。正态分布是缺省分布,也是最广泛使用的分布形式,但如果采用其它更为正确的分布,则可以得到更好的结果最大似然估计是一种可以用于估计分布参数而不考虑所使用的分布的技术因此,如果遇见数据建模问题时,应该首先看看数据的分布情况,看看有没有比正态分布更有意义的分布!

    展开全文
  • 推断统计研究的是如何根据样本数据去推测总体特征的方法。进行推断的原因是在实际生产中,获取总体数据通常比较困难,甚至不可能完成,因此需要对总体进行抽样,通过样本统计量去估计总体参数

      本文总结了数据分析中用到的推断统计分析知识点,是自己学习参数估计和假设检验的学习笔记。


      推断统计研究的是如何根据样本数据去推测总体特征的方法。进行推断的原因是在实际生产中,获取总体数据通常比较困难,甚至不可能完成,因此需要对总体进行抽样,通过样本统计量去估计总体参数。

    一、参数估计

    1. 点估计

      就是用样本的统计量去代替总体参数。
      优点: 可以给出具体的估计值;
      缺点: 估计结果容易受到随机抽样的影响,无法保证结论的准确性。

    2. 区间估计

      根据样本统计量计算出一个可能的区间与概率。
      优点: 可给出合理的范围(置信区间)及信心指数(置信度);
      缺点: 不能给出具体的估计值。

    2.1 中心极限定理

      如果总体(分布不重要)均值为 μ方差为 σ 2 σ^2 σ2,进行足够多次随机抽样,样本容量为n,当n增大时,样本均值近似服从正太分布X~N(μ, σ 2 σ^2 σ2/n)。
      结论:
      1、多次抽样,每次抽样会得到一个均值,均值会围绕在总体均值左右,呈正太分布。
      2、当样本容量n足够大(一般n>=30),样本均值服从正太分布。
      1)样本均值构成的正态分布,其均值等于总体均值μ;
      2)样本均值构成的正态分布,其标准差等于σ/ n \sqrt n n
      注意:
      1、样本均值的标准差,称为标准误差,简称标准误
      2、区分总体标准差σ,样本标准差(一次抽样获得的标准差),标准误差(样本均值构成的正太分布的标准差)。

    2.2 程序模拟中心极限定理

    import numpy as np
    import pandas as pd
    import seaborn as sns
    
    #定义总体数据
    #loc:均值;scale:标准差;size:数组大小,即数组中含有的元素个数
    all_ = np.random.normal(loc=30,scale=80,size=10000)
    #创建均值数组,用来存放每次抽样(每个样本)的均值
    mean_arr = np.zeros(1000)
    for i in range(len(mean_arr)):
        #随机抽样,size:样本容量;replace:是否为放回抽样,默认为True
        mean_arr[i] = np.random.choice(all_,size=64,replace=False).mean()
    #样本均值构成正态分布,该正态分布的均值等于总体均值
    #标准差等于总体标准差/根号n
    print('样本均值构成的正太分布的均值:',mean_arr.mean())
    print('样本均值构成的正太分布的标准差(标准误):',mean_arr.std())
    print('偏度:',pd.Series(mean_arr).skew())
    sns.distplot(mean_arr)
    

    样本均值构成的正太分布的均值: 30.653383960104826
    样本均值构成的正太分布的标准差(标准误): 9.918944517394578
    偏度: 0.05852723907161612
    在这里插入图片描述

    2.3 正态分布的特性

      1、以均值为中心,在1倍标准差内( μ-σ,μ+σ),包含约68%的样本数据。
      2、以均值为中心,在2倍标准差内(μ-2σ,μ+2σ),包含约95%的样本数据。
      3、以均值为中心,在3倍标准差内(μ-3σ,μ+3σ),包含约99.7%的样本数据。
      其中,σ为样本均值的标准差,即标准误差。

    2.4 程序检验正态分布的特性

    #标准差
    scale = 50
    x = np.random.normal(0,scale,size=100000)
    #定义标准差的倍数,倍数从1到3
    for times in range(1,4):
        y = x[(x > -times * scale) & (x < times * scale)]
        print(times,'倍标准差:',f'{len(y) * 100 / len(x)}%')
    

    1 倍标准差: 68.392%
    2 倍标准差: 95.499%
    3 倍标准差: 99.734%

    2.5 行业应用

      参数估计在行业的应用,具体操作要根据实际场景来:
      1、工业生产量的判断。
      2、服务业投诉量是否改进判断。
      3、电商业用户访问量、用户流失等评估。
      4、金融、保险业风险评估。

    二、 假设检验

      区间估计是通过正面方式,来计算总体参数的可能取值(区间);而假设检验是从反正角度来判断,是接受原假设还是拒绝原假设。

    1. 相关概念

      1、小概率事件
      小概率事件在一次试验中不会发生,一旦发生则拒绝原假设。
      接受原假设,并不代表原假设一定是正确的,只是没有充分的证据去证明原假设是错误的,因此只能接受原假设。
      2、P-Value与显著性水平
      P-Value是支持原假设的概率,设定的阈值(α表示)为显著性水平,α通常选定为0.1、0.05、0.01,具体根据样本量选择,常选0.05。
      3、原假设与备择假设
      1)若是等值估计,等值选为原假设,不等选为备择假设;
      2)在单边检验中,原假设为维持现状,改变现状为备择假设。

    2.假设检验的步骤

      1、设置原假设和备择假设;
      2、设置显著性水平α(通常选择0.05);
      3、根据问题选择检验方式;
      4、计算统计量,并通过统计量获取P值;
      5、根据P值与α值,决定接受原假设还是备择假设。

    3. Z检验

      Z检验用来判断样本均值与总体均值是否有显著性差异。Z检验是通过正太分布理论来推断差异发生的概率,从而比较两个均值的差异是否显著。

    3.1 适用场景

      1、总体呈正态分布;
      2、总体方差已知;
      3、样本容量较大(一般>=30)
    1和3满足其一即可,因为在样本容量很大时,样本均值近似呈正态分布。

    3.2 Z统计量计算方式

    在这里插入图片描述
    x一把:样本均值;
    μ0:待检测的总体均值;
    σ:总体的标准差
    n:样本容量
      Z统计量含义: 样本均值与总体均值的距离是几倍标准误差,如果大于1.96倍或小于-1.96倍,表示样本均值落在了拒绝域。

    3.3 Z检验Python实现

    from scipy import stats
    已知:样本 a = np.array([]),总体均值mean,总体标准差std
    样本均值:sample_mean = a.mean()
    标准误差:se = std / np.sqrt(len(a))
    Z统计量:Z = (sample_mean = mean) / se
    P值:P = 2 * stats.morm.sf(abs(Z))
    

    4. t 检验

      t检验用来判断样本均值是否与总体均值具有显著性差异,t检验是基于t分布的。

    4.1 适用场景

      1、总体呈正态分布;
      2、总体方差未知;
      3、样本数量较少(<30)
    当样本容量>30,t分布接近正太分布

    4.2 t 统计量计算方式

    在这里插入图片描述
    x一把:样本均值;
    μ0:待检测的总体均值;
    S:样本的标准差
    n:样本容量

    4.3 t 检验Python实现

    已知:样本 a = np.array([]),总体均值mean
    样本均值:sample_mean = a.mean()
    样本标准差:sample_std = a.std()
    t统计量:(sample_mean - mean) / (sample_std / np.sqrt(len(a)))
    P值:2 * stats.t.sf(abs(t),df=len(a)-1),df为自由度,
    

    简单理解,自由度就是变量能够自由取值的个数,t分布的自由度为n-1

    展开全文
  •  b、置信区间概念图来表示  c、得 到总体均值在μ在1-a置信水平下的置信区间,它由估计值给估计误差组成 置信下限  置信上限  a是事先确定好的...
  • 统计学 参数估计 总体方差的估计 1.概述 2.卡方分布图像 因为分布的图稥是不对称的,所以我们需要两个分位点 3.例题 解 先求得 a/2 和1-a/2 两个分位点的值,带入
  • 样本估计总体

    千次阅读 2019-07-04 09:59:07
    样本是从总体X中按一定的规则抽出的个体的全部,X1,X2,…,XnX_1,X_2,…,X_nX1​,X2​,…,Xn​表示; 样本中所含个体的个数称为样本容量,nnn表示。 就好比要研究一个班的平均身高: 这个班的所有同学的...
  • 我在调试faster rcnn demo.py的代码后,监控卡口图片做了测试,并统计了其浮点运算次数(这只是一个粗略的统计,即仅统计了卷积部分乘法运算次数),另外,该代码可以通过pycharm调试,为了能深入理解其内部原理,...
  • 参数估计

    千次阅读 2019-09-02 22:09:01
    点估计(point estimate)是样本统计量的某个取值直接作为总体参数的估计值。例如,样本均值x直接作为总体均值μ的估计值,样本方差s2直接作为总体方差σ2的估计值。点估计的方法有:矩估计法、顺序统计量法、...
  • 参数检验与非参数检验

    千次阅读 2019-11-05 20:53:27
    参数检验:若样本所来自的总体为分布已知的数学形式(如正态分布),对其总体参数进行假设检验,则称为参数检验。 参数检验的特点: 分析目的:对总体参数(μ π)进行估计或检验。 分 布:要求总体分布已知,如:...
  • 如果需要进行比较准确的判断,则需要使用非参数检验的方法。其中总体分布的卡方检验(也记为χ2检验)就是一种比较好的方法。一、定义 总体分布的卡方检验适用于配合度检验,是根据样本数据的实际频数推断总体分布...
  • 总体样本方差的无偏估计样本方差为什么除以n-1

    万次阅读 多人点赞 2018-08-01 15:02:22
    样本是总体样本中随机抽取一系列个体组成的集合,它是总体样本的一部分。 应该把样本和总体样本一样进行抽象化理解,因此样本也存在期望和方差。 这里有一个重要的假设,就是随机选取的样本与总体样本同分布,它...
  • overall accuracy 总体精度的计算

    万次阅读 2018-03-05 21:54:48
    总体精度是在分类问题上常用的指标,通常都是使用基于sk-learn的api来计算模型最终在测试数据集上的总体精度,总体精度(OA)与平均精度(AA)不同,总体精度是...normalize = False,这个参数表示返回正确的个数...
  • 参数估计:核密度估计KDE

    万次阅读 多人点赞 2016-12-14 11:38:46
    http://blog.csdn.net/pipisorry/article/details/53635895核密度估计Kernel Density Estimation(KDE)概述密度估计的问题...参数估计参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布
  • 参数估计与非参数估计

    千次阅读 2017-10-12 15:48:45
    参数估计要求明确参数服从什么分布,明确模型的具体形式,然后给出参数的估计值。根据从总体中抽取的样本估计总体分布中包含的未知参数。非参数估计对解释变量的分布状况与模型的具体形式不做具体规定 ,运用核密度...
  • 统计学之参数估计

    千次阅读 2019-12-29 22:48:48
    在参数估计中,用来估计总体参数的统计量称为估计量,符号θ^表示,如样本均值、样本方差。根据一个具体的样本计算出来的估计量的数值称为估计值。 点估计与区间估计 点估计:样本统计量θ^的某个取值直接...
  • 参数统计概述

    千次阅读 多人点赞 2019-11-16 22:48:05
    参数统计概述 文章目录非参数统计概述引言非参数方法举例Wilcoxon 符号秩检验Wilcoxon秩和检验 引言 非参数统计(nonparametric statistics)是相...总体分布的概率密度函数中含有有限个参数。 然而实际情况往往不...
  • 参数估计方法整理

    万次阅读 多人点赞 2018-08-06 10:33:27
    参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。 参数估计包括点估计和区间估计。...矩估计是基于一种简单的“替换”思想,即样本矩估计总体矩 优点:简单易行, 并不需要事先...
  • 参数估计概念整理

    千次阅读 2018-05-15 14:29:51
    分为点估计和区间估计两个部分统计量:可以简单理解为根据样本构造的概率密度函数参数空间:参数估计中,我们假设总体的概率密度函数已知,而未知的是函数中的几个参数Θ表示。Θ的所有可能取值即为参数空间。...
  • 而在样本数据对正态总体参数做出统计推断(例如参数估计和假设检验)时,还要附加一个要求:样本数据应服从正态分布,这种数据分布类型已知的总体参数的假设称为参数假设检验。与参数假设检验相对应的还有非参数...
  • Hyperopt 参数优化

    万次阅读 多人点赞 2018-08-28 20:02:03
    Hyperopt(Hyper-parameter Optimization)用于模型选择和参数优化。 参数选择在训练模型时是一个很关键的部分。然而存在这样的问题,一方面参数选择背后包含着一定的数学原理,对于新手来说难上手;另一方面,一个...
  • 统计学 参数估计之点估计(矩估计,最大似然估计) 详解含推导 ...现在我们将总体参数笼统的称为 θ ,而用于估计总体参数 θ 的统计量我们称为 θ^ ,参数估计的实际含义就是如何 θ^ 来表示 θ 估计量 估计参数时计算
  • python实现参数估计

    千次阅读 2019-12-23 00:30:47
    根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知...
  • 浅谈参数估计

    千次阅读 2019-09-03 09:38:34
    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数. 估计量 如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,...
  • POSIX标准总体分析

    万次阅读 2016-03-26 12:12:28
    线程是有趣的 了解如何正确运用线程是每一个优秀程序员必备的素质。...那么为什么对于大多数合作性任务,多线程比多个独立的进程更优越呢?这是因为,线程共享相同的内存空间。不同的线程可以存取内存中的同一个
  • 我们希望抽取的样本分布和总体分布一致,这样样本估计总体会比较准确,这种样本叫作无偏样本。 无偏样本的抽样方法: ① 简单随机抽样:抽签,随机编号生成器,有放回抽样和不放回两种 ② 分层抽样:将总体分为几...
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...
  • RANSAC鲁棒参数估计

    千次阅读 2010-08-31 14:05:00
    RANSAC鲁棒参数估计
  • 统计学——参数估计与假设检验

    千次阅读 2019-02-13 17:15:04
    在参数估计中,用来估计总体参数的统计量称为估计量。样本均值、样本比例、样本方差等都可以是一个估计量。而根据一个具体的样本计算出来的估计量的数值称为估计值。 参数估计的方法有点估计和区间估计两种。点估计...
  • 平稳时间序列参数估计

    万次阅读 2017-06-22 09:06:51
    说明对未知参数的估计方法有三种:矩估计(运用p+q个样本的自相关系数估计总体的自相关系数),极大似然估计(使得联合密度函数达到最大的参数值),最小二乘估计(使得残差平方和达到最小的那组参数值即为最小二乘...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 130,746
精华内容 52,298
关键字:

总体参数用什么表示