精华内容
下载资源
问答
  • 本文主要概述数理统计中具有广泛应用数据处理基本方法及运用计算机数据处理软件对总体(一般是未知分布F)进行关键参数估计(如标准差,期望)从而对总体有大致把握及预测未来走向趋势。 关键词:方差分析;回归...

      数理统计中的数据预测及参数估计

    摘要

    置身于当下信息爆炸的时代,如何对数据有效的处理即在最短的时间以最高的收益,获取为我所用的信息成为当下热门的研究方向。本文主要概述数理统计中具有广泛应用的数据处理基本方法及运用计算机数据处理软件对总体(一般是未知分布F)进行关键参数估计(如标准差,期望)从而对总体有大致的把握及预测未来的走向趋势。

       关键词:方差分析;回归分析;线性回归;bootstrap方法;Visual Basic语言编写Excel宏

    引言

    在科学实验和生产实践中,影响某一事物因素多种多样,往往我们由于时间或精力财力受限,不可能对所有因素面面俱到的分析,这就需要我们找出关键因素,这就引入了两种用途广泛的统计模型:方差分析和回归分析模型。而在近代统计中我们又引入了非参数和参数bootstrap方法,利用Microsoft公司开发的Excel软件处理已有样本,编写宏来解决一系列特定的问题。

                                原理

    方差分析(Analysis of Variance,ANOVA),又称“变异数分析”,1920年由波兰数学家R.A.Fisher发明,通常用于两个以上的样本参数差别的显著性检验。

    要求:各组观察值服从正态分布或近似正态分布,并且各组之间的方差具有齐性。

    基本思想:将所有测量值间的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。

    方差分析包括单因素方差分析双因素方差分析多因素方差分析,由于篇幅受限,本文只介绍前两种。

    单因素方差分析:

     

     

     

     

     

    双因素方差分析:

    一些基本概念和单因素方差分析大同小异,笔者在此就不在赘述,只给出方差分析表:

          笔者这里重点介绍:线性回归中的一元线性回归:

    线性回归:即在已有数据集上通过构建一个线性的模型来拟合该数据集特征向量的各个分量之间的关系,对于需要预测结果的新数据,我们利用已经拟合好的线性模型来预测其结果。关于线性回归的方法,这里只介绍最小二乘法

    原理:

     

     

    对于(4)式YY,可以写为如下形式:

     

    后续将在应用方面给出一元回归实现的Python代码,接着介绍多元线性回归的思想

     

    (篇幅受限,只介绍Bootstrap方法中的抽样)

    1、基本思想

    Bootstrap抽样的基本思想是在全部样本未知的情况下,借助部分样本的有放回多次抽样,构建某个估计的置信区间,抽象地说,通过样本得到的估计并没有榨干样本中的信息,bootstrap利用重采样,把剩余价值发挥在构建置信区间上。

     

    2、算法流程

    对于一个样本x1,x2,...,xnx1,x2,...,xn,其总体的概率分布中的参数θθ是未知的,(参数θθ可以简单理解为一些指标,比如,均值、中位数、方差等,当然还有一些比较复杂的指标),现在想要利用这些有限的样本得到一个估测值θ^θ^。

    Step1:根据自己的需要选择确定重采样的次数i,1000或者2000等;

    Step2:从x1,x2,...,xnx1,x2,...,xn中有放回的抽取n次(这个n必须要已知样本数目相等),因为是有放回的,所以在n次抽取之后,可能有的样本被抽取多次,也可能有的样本一次都没有被抽取。

    Step3:重复Step2,一共i次(Step1中的i),对每次抽取后的结果都计算出一个θ^θ^值。

    Step4:利用得到的θ1^,θ1^,...,θi^θ1^,θ1^,...,θi^作为一个sample,计算其α2∗100%α2∗100%和(1−α)∗100%(1−α)∗100%的百分位置,得到的就是近似出的,估测总体参数θθ的置信区间的最低和最高点[x,y][x,y]。

     

    3、举例说明

    想要统计全校学生的平均年龄,但是学校总体的数据比较难拿到,而且数据量很大,但是现在你已经有了一部分学生的年龄信息,比如200个学生的信息。

    现在你从这200个学生信息中有放回的抽取200次,计算对应的平均年龄θ^θ^,重复30次(即上文中的i),这30个θ^θ^的分布大概就能代表全校学生的平均年龄。

    可能会有疑问,觉得这种方法结果不准确,但是我们使用这个方法的原因就是不能知道准确的全部样本,所以才使用bootstrap模拟,模拟出来的只是一个相对准确的结果。

                                  案例实战分析

     

    Python实现一元线性回归(纯原创)

    这道题的数据来源课本p267题9

    import matplotlib.pyplot as plt
    import math
    # 碳含量单位(%)
    x=[0.10, 0.30, 0.40, 0.55, 0.70, 0.80, 0.95, 1.05, 1.15, 1.25, 1.35, 1.40, 1.65, 1.70, 1.80]
    # 20℃时电阻y(μΩ)
    y=[15, 18, 19, 21, 22.6, 23.8, 24, 27.3, 27.8, 30.2, 31.2, 33.2, 34, 35, 36.1]
    plt.style.use('ggplot')
    ## 解决中文字符显示不全
    from matplotlib.font_manager import FontProperties
    font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=12) 
    plt.scatter(x, y)
    plt.xlabel('碳含量x%',fontproperties = font)
    plt.ylabel("20℃时电阻y(μΩ)",fontproperties = font)
    plt.title('一元线性回归案例',fontproperties = font)
    plt.show()
    averx=0
    avery=0
    sumz=0
    for i in range (len(x)): 
        averx+=x[i]
    averx/=len(x)
    temp1=0
    temp2=0
    temp3=0
    for i in range (len(y)):
        avery+=y[i]
    avery/=len(y)
    for i in range (len(x)): 
        temp1+=(x[i]-averx)*(y[i]-avery)
        temp2+=(x[i]-averx)**2
        temp3+=(y[i]-avery)**2
    sumz=temp1/temp2
    a=avery-sumz*averx
    print(f"_x={averx},_y={avery},_b={sumz},_a={a}\n")
    r=temp1/(math.sqrt(temp2)*math.sqrt(temp3))
    print(f"y^={a}+{sumz}*x^,回归系数r为:{r}")
    
    
    

    r为:

    输出结果:

     

    最后Excel编写宏解决方差分析,回归分析课本上已有详细代码,不再赘述

                              结论

    方差分析模型事实上不是真正分析方差,而是分析用偏差平方和度量的数据的变异,它是从可比组的数据中分解出可追溯到某些特定来源的变异的一种技巧。

    回归分析是研究自变量为一般变量(非随机变量),因变量是随机变量时两者之间的相关关系,通过极大似然法找出关键参数拟合出回归函数进而预测数据走势

    参数和非参数bootstrap方法可用于当人们对总体知之甚少的情况下,是一种近代统计中用与数据处理的实用方法。

    而介绍Excel软件则是用其自带的函数库和在其环境下编写的宏来实现大量数据的处理(假设检验,多因素方差分析总体中位数平均数的估计)

    致谢

    概率论与数理统计授课老师:王琳教授

    概率论与数理统计助教:王斌

    理论支持:topdown范式,知识的前瞻性,视野胸襟开阔的重要性,

    再次感谢王琳教授一学期将自己对这门课理解倾囊相授,还有感谢助教到考试周准备PPT的辛苦和批改作业的认真

    参考文献

    【1】概率论与数理统计 第四版 浙江大学出版社

     【2】CSDN博文《特征选择-方差分析》《一元线性回归案例》 《matlab实现回归分析》 

     

     

    展开全文
  • 本文主要涉及内容:假设检验检验方法选择、相关性研究的方法选择不知道什么,好像基础统计大家不是很重视样子,是希望直接上案例看应用吗?目前统计学已更新文章,统计学连贯性比较强,前面更新文章如下:...
    本文主要涉及内容:假设检验的检验方法选择、相关性研究的方法选择

    不知道为什么,好像基础的统计大家不是很重视的样子,是希望直接上案例看应用吗?目前统计学已更新的文章,统计学连贯性比较强,前面更新文章如下:

    我要自学生信之统计学:统计学概述(一)

    我要自学生信之统计学:跳出假设检验的逻辑坑

    我要自学生信之统计学:总体均数的估计

    我用一段话把统计学进行一个描述,这对于你理解统计学会有一定的帮助。无论想要研究什么样的问题,我们面临的第一个问题是我们的数据是什么类型的,是定量数据还是定性数据,定性数据又可以分为顺序数据和分类数据。这里简单的解释一下:定量数据就是可以用数字来描述的(血压、血糖、血脂)、顺序数据就是有一定的等级的(癌症I期、II期、III期)、分类数据基本没有高低之分(A型、B型还是C型)。

    44947870d653f3b27b8e29b22d8891f8.png

    在确定数据类型后为了更好的实验效果,我们需要采取尽可能合理的实验设计。实验设计需要尽量排除无关变量的影响。目前常用的设计方法有:完全随机设计、随机区组设计等

    在实验结束后,我们需要根据实验目的来选择下一步的方法,我们可以选择用描述性统计如样本平均值、标准差等对样本进行描述。进一步可以进行推断统计,利用样本的统计量来估计总体的参数这就是参数估计,而通常我们的实验目的是为了判断差异性,根据数据类型、样本数量、因素水平的不同决定了我们用什么样的检验方法,根据数据的分布是否正态以及方差齐性又可以决定是用参数检验还是非参数检验。

    根据什么样本资料,什么实验设计,采取什么统计学方法,我做了一个思维导图,仅供参考。

    06a251b91925fd5d66bfdaf5b44e4e83.png

    下面我们选取两个案例进行讲解:

    案例1

    已知某地新生儿出生体重均数为3.36 kg 。从该地农村随机抽取40名新生儿,测得其平均体重为3.27 kg,标准差为0.44kg,问该地农村新生儿出生体重是否与该地新生儿平均出生体重不同?

    分析:总体方差未知,样本量较小,用单样本t检验

    (1)建立检验假设,确定检验水准

    =3.36 该地农村新生儿体重与该地新生儿平均出生体重相同

    3.36该地农村新生儿体重与该地新生儿平均出生体重不同

    (2)计算检验统计量

    t=

    =
    =-1.294

    (3)确定P值,作出统计推断,查t界表得0.2<P<0.4,按照

    的检验水平,不拒绝
    ,差别无统计学意义,尚不能认为该地农村新生儿体重与该地新生儿平均出生体重不同。

    如果样本量足够大, 抽样分布会近似服从正态分布,就可以用U检验的方式。

    案例2

    对24名儿童接种卡介苗,按同年龄、同性别配成12对,每对中的2名儿童分别接种两种结核菌素,一种为标准品,另一种为新制品,分别注射在儿童的前臂,72h后记录两种结核茵素的皮肤反应平均直径,见表8.1,问儿童皮肤对两种不同结核菌素的反应性有无差别?

    b1b8d5eef3867b55ecf6c21580c03931.png

    分析:本题为两组定量资料的配对实验,所以应该选取的方法是配对t检验

    (1)建立检验假设,确定检验水准

    =0 儿童皮肤对不同结核菌素的反应性无差别

    0 儿童皮肤对不同结核菌素的反应性有差别

    (2)计算检验统计量

    =195,
    =3.25

    =0.719

    配对t检验的统计量t:

    t=

    =4.520,

    对于自由度的解释简单来说就是可以改变的量,例如X+Y=8,这里的自由度就是1,虽然有两个变量,但是他们的和是确定的,所以当一个变量取值后另外一个变量的值是不能改变的。

    (3)确定P值,作出统计推断,查t界表得,

    ,而4.520>4.437,故P<0.001,拒绝
    ,接受
    ,差异具有统计学意义,可认为两种不同结核菌素对儿童皮肤反应性有差别。

    之前很多人对于P值的概念不清晰,P值的作用:反映两组差别有无统计学意义,什么叫统计学意义:是否具有统计学显著意义就意味着要排除随机误差的因素。这两句对于解释这两个概念基本够用了。

    假设检验的错误

    上面所有提到的都是进行假设检验的方法,那是不是假设检验就没有错误了呢?首先还是要正确理解P值的概念。

    P值是指在

    成立的前提下,出现现有样本统计量以及更极端隋况的概率。P值越小说明当前样本的证据越倾向于拒绝
    。当P值小于等于事先规定的检验水准
    时.就拒绝
    。P值的大小不仅与总体参数间的差别有关,而且与抽样误差等有关。不能认为P值越小,总体参数间的差别越大。P值越小,说明实际观测到的差异与
    之间不一致的程度就越大,越有理由拒绝
    。假设检验只做出拒绝或不拒绝
    的定性结论。但不能给出总体参数间差别大小的结论。

    但是作为一个接受或者拒绝原假设的概率,我们其实也是有犯错的概率的,不管是弃真(第一类错误)还是取伪(第二类错误)。这并非完美的指标,只是大多数情况下是最不坏的指标。比如很有可能我们的显著性水平的取值是不够小的。

    f65ee3823c13e04437fae4573bec4b8f.png
    模型预测

    基于模型的预测,可以基于单个因素,也可以基于多个因素,数据可以是定量数据、分类数据或者顺序数据,自变量和因变量的数据类型可以随意组合,这就决定了我们选择的研究方法注定不同。

    常用的模型分为两种:回归模型和分类模型 我们会尽量让我们的模型更加的优秀,例如:在线性回归里我们会采取最小二乘法使预测值和真实值尽可能的接近,同时加一些罚项尽可能的收缩。

    进行模型预测之后,下一步就需要对预测模型预估:具体可以参考我这么这篇文章

    我要自学生信之统计学:模型预测的评价

    这一部分先在统计学这里开个头,后期会结合案例进行讲解。

    展开全文
  • 下面是这次习题课的主要内容:Fisher显著性检验的几个基本概念单样本正态总体参数的显著性检验双样本正态总体参数的显著性检验假设检验和区间估计的关系单参数指数分布族的显著性检验Bernoulli分布的假设检验似然比...

    本次习题课主要介绍检验的方法,跟上一次的习题课的关联非常密切,在这次的总结中会详细的对比两节课所学内容的相同和差异。下面是这次习题课的主要内容:

    • Fisher显著性检验的几个基本概念
    • 单样本正态总体参数的显著性检验
    • 双样本正态总体参数的显著性检验
    • 假设检验和区间估计的关系
    • 单参数指数分布族的显著性检验
      • Bernoulli分布的假设检验
    • 似然比检验
    • p-值
    • 例题

    Fisher显著性检验的几个基本概念

    原假设和对立假设

    设有样本
    知道样本来自某一个参数分布族
    其中
    为参数空间,设

    命题
    称为
    原假设或者零假设(null hypothesis)
    命题
    称为
    对立假设或者备选假设(altenative hypothesis)

    我们关心的假设检验问题就是

    如果

    是单点集那么我们称之为
    简单(simple)零假设,否则就称为复杂(composite)或者复合原假设

    拒绝域和接受域

    我们把样本空间
    划分成两个不交的部分

    当样本属于
    时,接受
    ,那么
    为接受域

    当样本属于
    时,拒绝
    ,那么
    为拒绝域

    两种错误

    时,而样本却落入了拒绝域
    ,于是我们采取了拒绝
    的错误决策,这样的错误为
    第一类错误(type I error)
    时,而样本却落入了接受域
    ,于是我们采取了接受
    的错误决策,这样的错误为
    第二类错误(type II error)

    40507f23880b5fc6d5d87bae37961b66.png
    两种错误的关系

    第一类错误的概率

    也记作

    第二类错误的概率

    也记作

    我们知道没有办法找到一个检验使两种错误的概率都尽可能的小。(这里我简写了如果有兴趣可以在评论区跟我讨论一下)

    势函数
    对于一个检验方法
    其拒绝域为
    我们称
    为此检验的势函数

    由定义可以看出

    • 时,此检验犯第一类错误的概率为
    • 时,此检验犯第二类错误的概率为

    显著性水平

    对于检验
    和事先给定的
    如果其满足
    则称
    使检验
    的水平或者显著性水平,也称
    为显著性水平
    的检验

    求取某假设的显著性检验的步骤如下

    • 根据实际问题,建立假设
    • 选取一个合适的统计量
      ,使当
      成立时,
      的分布已知,且与参数
      无关(称此分布为统计量
      的零分布)
    • 根据
      的特点,确定拒绝域
      的形状
    • 对于给定的显著性水平
      ,确定拒绝域
    • 由样本观测值
      ,计算统计量
      的值
      ,由
      是否属于
      ,作出最后判断

    单样本正态总体参数的显著性检验

    单样本正态总体均值的检验

    为来自
    的iid样本,现在我们感兴趣的是其均值
    的如下假设:

    64f340a7d2cc94880baae1b6cb7b992f.png
    单样本正态总体均值的显著性检验

    单样本正态总体方差的检验

    为来自
    的iid样本,现在我们感兴趣的是其方差
    的如下假设:

    c8f9e2a0778839cca051804fa7e6bae1.png
    单样本正态总体方差的显著性检验

    双样本正态总体参数的显著性检验

    为来自
    的iid样本,设
    为来自
    的iid样本,并且全样本独立

    双样本正态总体均值的检验

    我们感兴趣的假设为

    924b84102b9189e9fd31c60a9f841b34.png
    双样本正态总体均值的显著性检验

    其中在最后一种情况下有

    双样本正态总体方差的检验

    我们感兴趣的假设为

    fd47db8f65c9c037fa76b1b1e2050fa4.png
    双样本正态总体方差的显著性检验

    假设检验和区间估计的关系

    我们以一个双边检验的例子来说明这两者之间的关系

    对于单样本正态总体均值的显著性检验,当

    时,关于假设
    的检验统计量为

    注意到最后一个式子说明

    的置信水平为
    的置信区间为

    对于单样本正态总体方差的显著性检验,当

    未知时,关于假设
    的检验统计量为

    注意到最后一个式子说明

    的置信水平为
    的置信区间为

    置信水平为

    的置信区间与双边检验有异曲同工之妙

    我们可以这样理解置信区间:当

    落在
    的置信水平为
    的置信区间内时,在显著性水平
    下,我们没有理由拒绝原假设,对于单侧置信限我们也可以用单边的检验去理解。

    这里再附一个之前的笔记作为对照

    isle:数理统计习题课3.31zhuanlan.zhihu.com
    97f6614e3bd7929ef066dd4fe38bebde.png

    单参数指数分布族的显著性检验

    首先我们来回顾一下指数分布族

    aee363b814be20e15a7089c380b6601f.png
    指数分布族定义

    则由上述定义我们知道单参数指数分布族可以有如下的表示:

    单参数指数分布族
    重要推论
    是来自单参数指数分布族的iid样本,其中
    是严格增函数,则对任意给定的常数
    分别是
    的非降和非增函数

    单参数指数分布族的假设检验

    我们感兴趣的有三个假设的问题和其第一类错误概率的最大值:

    由于

    是非增函数,则第一类错误的最大值为
    ,我们要求其临界值c满足

    同理我们要求这里的临界值c满足

    对于双边假设我们有

    Bernoulli分布的假设检验

    是来自
    的iid样本,则样本的分布为:

    则此时对于p的显著性检验如下表

    c264bd2855660c07a6edd6abc8beac60.png

    其中

    a1e8b9380c3dacc97f07896ab4bf4cf4.png

    似然比检验

    针对似然比检验我们用来检验更加一般的内容

    似然比统计量
    是来自
    的iid样本,令
    ,则我们称统计量
    为似然比统计量
    似然比检验
    似然比统计量
    作为检验统计量,且取其拒绝域为
    时,其中临界值c满足

    注:如果似然比统计量

    的零分布位置,如果存在一个统计量
    关于
    是单调的且它的零分布已知,我们可以给出一个基于
    的显著性检验

    p-值

    为了更好的理解p-值的定义,我们要复习以下的内容:

    ccd75e02905756d017ceb85e823991ee.png

    由上述的内容我们可以得到下面的单边的p值和双边的p值

    单边检验的p值
    给定样本观测值
    为该检验的p值
    双边检验的p值
    给定样本观测值
    为该检验的p值

    p值的意义在于下面这个定理

    ff870219e9c206401e51c5751045d9e0.png

    由这个定理我们可以知道

    • 样本值
      落入水平为
      的拒绝域的充要条件是此样本的p值小于
    • 换句话说p值是可以拒绝原假设的显著性水平
      的最小值
    • 引入p值的最大优点在于,不用事先给定显著性水平
      ,只用计算样本的p值,对于一切大于此p值的
      ,则拒绝原假设的概率不超过

    同时我们还可以知道以下两点

    • p值越小,证据越显著,原假设越荒谬,我们越有理由拒绝原假设
    • 一般来说,当p>0.05时,我们更倾向于接受原假设

    例题

    5a0a7ffd716621be5746e1d77d0ebe83.png
    单样本检验
    • 原假设为
    • 拒绝域为
    • 由于
      则其落入拒绝域,我们可以得到结论:出租车运营不符合常规

    e301bab109efe7b593cd4e90376c4d62.png
    双样本检验

    (1)

    • 检验
    • 取检验统计量
    • 拒绝域为
    • 代入数据
    • 代入题目数据知
      则未落入拒绝域,可以接受原假设

    (2)

    • 检验
    • 取检验统计量
    • 拒绝域为
    • 代入数据知
      未落入拒绝域,所以不能认为其有显著性差异

    9cca2e7af9944f44ea07fd7619dd2dae.png
    原题

    4ad042cc8c77626647a4ba6c07555beb.png
    应用

    7e665387a63388d9168c8b7fc751e612.png
    进阶

    9(1)

    • 的联合密度为
    • 拒绝域由
      确定

    9(2)

    • 时递增,在
      时递减
    • 则拒绝域可以化为

    9(3)

    10 (第九题的直接应用)

    • 我们可以取的检验统计量为
    • 可以得到的拒绝域为
    • 代入数据知
      则其未落入拒绝域,所以认为没有显著差异

    26(1)

    • 的联合密度为
    • 则似然比统计量可以求得

    26(2)

    • 关于
      先增后减,所以拒绝域可以是

    26(3)

    • 由9题可知
    • 则原题转化成
      且独立求
      的分布
      • 的联合密度为
      • 的联合密度为
      • 可以得出
        前面的项为
        的密度,后面的项为
        的密度

    7de9f5cbb7f72ac3c3e0dfb18f3ddf3a.png
    似然比检验的应用
    • 的联合密度为
    • 下,求
      解得
    • 可以求出似然比统计量为
      则有
    • 所以拒绝域可以表示为
      由于

    621bd41050c664fd2141cc69ae0f4918.png
    • 的联合密度函数为
    • 由于
    • 的联合密度函数为
    • 可以得出
      则可以得到
      即得证
    展开全文
  • Parzen window 概率密度估计

    千次阅读 2018-01-25 17:09:27
    参数估计的方法主要有:直方图法、核方法。 Parzen窗估计属于非参数估计的方法的一种。 在数学上一个连续概率密度函数p(x)的需满足以下的条件: 1、x在a和b之间的概率: window概率密度估计" title=...

    非参数估计:已知样本所属的类别,但未知总体概率密度函数的形式,要求我们直接推断概率密度函数本身。非参数估计的方法主要有:直方图法、核方法。

    Parzen窗估计属于非参数估计的核方法的一种


    在数学上一个连续概率密度函数p(x)的需满足以下的条件:
    1、x在a和b之间的概率为:
    Parzen <wbr>window概率密度估计


    2、对所有的x,p(x)非负
    3、p(x)的积分值为1
    Parzen <wbr>window概率密度估计


    最经常使用的概率密度函数就是高斯函数(正态分布)
    Parzen <wbr>window概率密度估计

    Parzen <wbr>window概率密度估计
    将一维的情况扩展到多维,现在的x就是一个向量,p(x)也需要满足下列条件:
    1、在一个区域Rx的概率为
    Parzen <wbr>window概率密度估计
    2、概率密度函数的积分值为1
    Parzen <wbr>window概率密度估计

    Parzen <wbr>window概率密度估计
    密度估计
    给点n个数据样本x1,x2,....,xn,我们可以估计概率密度函数p(x),对于新的样本x就可以计算出相应的p(x).这个过程就是密度估计。
    密度估计的基础是:一个向量x落入到区域R的概率为
    Parzen <wbr>window概率密度估计
    假设R非常小,所以p(x)的变化也很小,上面的公式就改写为:
    Parzen <wbr>window概率密度估计

    其中V是R的“体积”
     
    另一方面,假设x1,...,xn是根据密度函数p(x)独立取的n个样本点,其中有k个样本点落入到区域R中,关于R的概率就为:
    Parzen <wbr>window概率密度估计
    这样就可以得到一个p(x)的估计函数:
    Parzen <wbr>window概率密度估计
     
    Parzen window密度估计
    假设R是以x为中心的超立方体,h为这个超立方体的边长,在2-D的方形中有V=h*h,3-D的立方体中有V=h^3。
    Parzen <wbr>window概率密度估计

    Parzen <wbr>window概率密度估计
    给定上面的公式,表示的是Xi是否落在方形中。
    Parzen概率密度估计公式的表示如下:
    估计的思路是:概率除以体积=概率密度
    Parzen <wbr>window概率密度估计
    其中Parzen <wbr>window概率密度估计被称作窗口函数(window function)。
    同时可以对窗口函数做一定的泛化,就有其他的Parzen window密度估计方法。
    例如在1-D的情况下使用Gaussian函数:
    Parzen <wbr>window概率密度估计
    这种方法就相当于将n个点为中心的高斯函数计算平均。其中标准差Parzen <wbr>window概率密度估计需要预先设定。
     

    常见的几种核函数: 
    (1)方窗: 



    其中h为超立方体的棱长 
    (2)高斯窗(正态窗) 


    即以样本xi为均值、协方差矩阵为Σ=ρ2Q的正态分布 
    一维情况为: 

    (3)超球窗 


    其中V是超球体的体积,ρ是超球体的半径


    高斯窗的例子:
    给定五个点:x1=2, x2=2.5, x3=3, x4=1, x5=6, 计算x=3位置的Parzen概率密度函数,采用Parzen <wbr>window概率密度估计的高斯函数作为window function。
    计算过程如下:
    Parzen <wbr>window概率密度估计

    Parzen <wbr>window概率密度估计

    采用图形的方式进行显示,并假设上面的5个点对整个密度函数做出相等的贡献:
    Parzen <wbr>window概率密度估计
    采用Parzen Window对这个五个点估计得到的概率密度函数为:
    Parzen <wbr>window概率密度估计


    所以,由上面的例子:

    用样本的核函数分布的加权求和,叠加估计出指定位置的概率密度

    主要参考资料:http://www.personal.rdg.ac.uk/~sis01xh/teaching/CY2D2/Pattern2.pdf

    展开全文
  • 按照抽样需要估计的总体参数类型的不同,最常用的对样本均值的估计和对样本比例的估计,因此这里主要讨论估计平均值时样本大小的计算和估计比例时样本大小的计算。 排版比较费劲,请允许我使用截屏的方式分享。
  • 《应用多元统计分析》北京大学数学科学学院概率统计系“应用多元统计分析”课程使用多年教材,它主要介绍一些实用多元统计分析方法的理论及其应用,并列举了各方面应用实例,同时还以国际上著名统计分析...
  • 第二类是更重要,是通过这些已有样本数据,对整个未知的总体进行推断,估计总体当中我们感兴趣未知参数值,即统计推断工作,这是我们重点关注内容。 那我们什么需要关注统计推断的方法呢?因为,当...
  • 基于京九铁路构建准自然实验样本并运用非参数匹配估计方法,本文探讨了交通基础设施投资与经济增长关系.利用1991-2010年中部地区50个县数据检验了京九铁路投资对途经...
  • 本书主要内容包括: 统计学发展和应用领域、概率理论、数据收集概念和方法、对数据总体信息描述、常用的参数估计和假设检验方法. 书中注重以概率理论解释常见统计方法的原理, 并通过计算机模拟帮助读者理解...

空空如也

空空如也

1 2 3 4 5
收藏数 88
精华内容 35
关键字:

总体参数估计的主要方法为