精华内容
下载资源
问答
  • 高斯混合模型参数估计
  • PSF参数估计

    2018-04-14 15:47:28
    模糊长度和尺度估计
  • 多元线性回归的参数估计方法,吴仕勋,赵东方,本文依据高斯—马尔可夫定理,通过对最小二乘估计方法得出的参数估计值的分析,从另外两个角度出发得出了参数估计的值与最小二乘
  • 文章阐述了指数模型参数估计的傅立叶分析法和最小二乘法,计算表明两者通常可以获得较小 的残差及良好的参数估计值.两种方法可互为验证,时实际指教模型的参数估计有一定的参考价值
  • 采用matlab进行Weibull参数估计,包括矩估计,最小二乘估计等
  • 参数估计-最小二乘法

    2019-01-18 11:35:32
    介绍最小二乘法参数估计,计算系统参数模型的原理,以及推导过程
  • 神经网络的参数估计

    2018-09-17 12:50:49
    里面大量讲解神经网络算法的参数估计的应用方法,带有大量注释,方遍学习交流
  • 参数估计

    千次阅读 2018-10-10 23:31:28
    一、参数估计内容 1.参数估计的requisites   我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理...

    前言

      学了很久的数理统计,总觉得知识在脑海中没有一个清晰的轮廓,虽然也可以自己通过纸和笔整理,但是,也想要通过新的方式,用文字的方式输出,这一想法已经在我脑海里盘旋了好久了,终于在今天开始落实。

    一、参数估计内容

    1.参数估计的requisites

      我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理和中心极限定理有一些了解,最好还要知道三大抽样分布的性质。

    但是还是简单提一下统计量的概念吧:统计量是从样本中得到的,是样本的函数,统计量不含有任何未知参数。

    2.参数估计的目的

      我们在统计中,总是想要通过样本去推断总体的性质,而引进统计量,就是对样本进行描述的过程。实际中,我们感兴趣的问题总是与总体分布中的未知参数有关系,所以,我们要对参数进行估计和检验。
    这里的参数是指:

    • 分布中的未知参数和未知参数的函数
    • 分布的各种特征函数

    3.参数估计的类型和使用

    在此之间,我们必须要明确一点,估计是一个方法,不是一个具体算出来的值;只是,在给定样本以后,用这种估计的方法,可以算出数值。

    3.1 点估计

      点估计,顾名思义是对某个未知参数的值的估计,就像是数轴上的一个点。因此我们的目的也就是找到一个未知参数的好的估计量。
      知道点估计的含义以后,我们先来看看常用的找估计量的方法:

    • 矩估计
    • 最大似然估计
    • 最小方差无偏估计
    • 贝叶斯估计

    3.1.1 矩估计

      矩估计的基本原理就是:替换原理通过样本的矩替换总体的矩,用样本矩的函数替换总体矩的函数。
      这么做的好处是:在总体分布函数未知的情况下,通过样本的特征数可以对各种参数进行估计。
      矩估计的实质是:用样本的经验分布函数去替换总体的分布,理论基础是格里纹科定理。
      具体的操作就是:

    1. 假设已知总体的概率密度函数,但其中的参数未知,通过这个带有未知参数的密度函数去求总体的各阶矩;
    2. 利用样本的数据,求各阶矩;
    3. 通过总体各阶矩和样本各阶矩相等,构造方程组,解出参数。

    3.1.2 最大似然估计(MLE)

      最大似然估计,也可以叫做极大似然估计,从字面理解非常到位就是,找到一个未知参数的估计,使得在这个估计的条件下,由总体概率密度函数推算的分布下,样本发生的可能性最大。即是,最大的像这样的估计。
    具体操作就是:

    1. 将未知参数的估计设为x,带入总体密度函数。
    2. 建立在样本的独立性的条件下,根据样本求出样本取得当下值的概率。
    3. 通过分析计算出使得概率达到最大的x,就是未知参数的极大似然估计。
      最大似然估计具有不变性。

    3.1.3 最小方差无偏估计

      首先引进均方误差(MSE)的概念,均方误差是用于衡量点估计好坏的一种标准,关于衡量点估计好坏的标准在后文还会详细介绍,这里为了需要,先简单提一下。首先明确一点,均方误差是对点估计进行的计算。具体的计算公式是,参数估计值与真实值之差的平方的期望,通过分解,也等于估计值的方差加估计值的期望与真实值之差的平方。
      一致最小均方误差估计,是需要在一个确定的估计类里,找到均方误差相对最小的那个。但由于是在估计类里找,如果不对估计加任何限制,则一致最小均方误差估计是不存在的,所以没有意义。
      最小方差无偏估计,这里是指一致最小方差无偏估计,就是对于一个参数的无偏估计而言,最小的均方误差就意味着最小的方差。对于参数空间中的任何无偏估计,具有最小方差的那个估计就称作是一致最小方差无偏估计(UMVUE)
    实际上,用于判断是否是UMVUE,可以通过一个定理方便地得到:未知参数的UMVUE必然与任一零的无偏估计不相关。也就是说,现在还有一个其他的随机变量X,均值是零,那么这个未知参数的UMVUE与这个随机变量X的相关系数(Cov)为零。

    3.1.4 贝叶斯估计

      前面介绍的三种办法是频率学派的理论,而贝叶斯估计是贝叶斯学派的观点。
      贝叶斯估计是建立在已经有关于参数的分布的信息的基础上,叫做先验信息,然后进行样本观测,推算后验分布。也可以理解为,用总体和样本对先验分布做出调整。
      具体做法是:

    1. 在参数未知的条件下,确定总体的分布
    2. 根据参数的先验信息确定先验分布 π(θ)
    3. 求出在通过先验分布得到的未知参数后,样本的联合分布 p(X|θ)
    4. 确定样本和未知参数的联合分布,也就是2.与3.得到的分布函数之积 h(X,θ)=p(X|θ)π(θ)。
    5. 对参数θ的贝叶斯推断,π(θ|X)= h(X,θ)/m(X),其中m(X) 是从h(X,θ)中对θ整个参数空间积分得到的,X的边际概率函数。

    3.2 点估计好坏的评价标准

      前面已经提到点估计的目的是找到未知参数的好的估计量,那么到底怎么定义“好”,也是我们需要关心的。在点估计中,有如下标准衡量:

    • 无偏性
    • 有效性
    • 相合性
    • 均方误差
    • 充分性原则
    • 有效估计

      我刚学参数估计的时候,脑子里总是记不住这些性质到底在描述什么QAQ
      好吧,其实现在也记不住,我也必须翻一下笔记了…

    • 无偏性
        无偏性是描述经过重复抽样以后,所有对这个未知参数的估计值的平均等于真实的参数值。具体判断也就是计算这个估计的均值,看它是否等于真实值。关于无偏性还有一些性质,最好能够记住:
      1. 样本的k阶中心距通常不是总体k阶中心矩的无偏估计
      2. 无偏性不具有不变性,也就是无偏估计的函数不一定是无偏估计
          无偏估计还有渐近无偏估计,就是当样本量趋近于无穷时,均值的极限趋近于真实值。也是用于衡量一个估计是一个好的估计的准则。
    • 有效性
        有效性是建立在两个无偏估计的基础上,比较两个无偏估计的方差,方差小的更有效。
    • 相合性
        与渐近无偏性从期望的极限角度理解不同,相合性是从概率的角度,即未知参数的估计,在样本量趋近于无穷大的时候,估计量依概率收敛到未知参数。也即是说,当样本量增大的时候,被估计的参数能够被估计到任意指定的精度。判断相合性,我们采用验证它的充分条件:
      1. 渐进无偏性
      2. 方差收敛到0
          由大数定理知道,矩估计一般都是相合的
    • 均方误差
        MSE,是通过计算参数估计值与真实值之差的平方的期望,其大小能够反映估计的好坏,在同一估计类里越小越好。
    • 充分性原则
        首先,要注意充分性原则和充分性是两个不同的东西!充分性是描述统计量不丢失关于样本的任何信息,则称这个统计量为充分统计量。那么,充分性原则和充分性一点关系都没有吗?也不是的。在比较两个无偏估计的好坏的时候,较好的那个无偏估计总是样本的充分统计量;并且,将不是样本充分统计量的统计量,关于充分统计量求期望,得到的估计,一定是充分统计量,并且新的估计的方差也得到了降低。
        换句话说,对于所有的统计推断问题,考虑未知参数的估计问题,只需要在基于充分统计量的函数中进行即可,这就是充分性原则。
        你可能还在想,怎么将不是样本充分统计量的统计量关于一个充分统计量求期望?利用随机过程讲义的第一章的内容,利用条件概率公式,连续函数求积分,离散函数求∑。
    • 有效估计
        有效估计是一个估计,它的方差达到了Cramer-Rao方程的下界,有效估计一定是UMVUE哈。具体计算来判断是否是有效估计的话:
      1. 根据总体密度函数(含参数)检验满足C-R方程的条件;
      2. 求费希尔信息量,找到C-R下界;
      3. 对无偏估计求方差,检验是否等于C-R下界。

    3.3 区间估计

      之前我们讨论的都是点估计,但是关于统计量的精度我们无法定量的回答,必须通过它们的分布来反映。在实际中,度量点估计精度直观方法就是给出未知参数的一个区间,这就是区间估计。
      区间估计是想要找到两个统计量,构成一个区间,这个区间盖住未知参数真值的可能性不确定,但是人们总是希望在尽可能小的区间下,区间盖住真值的可能性越大越好,由此得到置信区间的定义:
      置信区间,是一个有样本值得到的随机区间,未知参数真值落在这个随机区间中的概率大于等于1-a,或者理解为,未知参数真值不落在这个随机区间中的概率小于置信度,满足这个条件的随机区间称作置信区间。首先,置信水平是随机区间盖住真值的概率,置信水平等于置信度,然后,我自己理解置信度是这样的:当大量重复实验,用置信区间的计算方法,得到很多个N个随机区间的时候,有(N* 置信水平)的那么多个区间,包括了均值。
      那具体怎么做区间估计呢?我们通过构造区间估计的方法,使用最基本的枢轴量法:

    1. 什么是枢轴量?
        枢轴量是样本和未知参数的函数,它具有的性质是其分布不依赖与未知参数,或者说,它的概率密度函数与参数无关。
    2. 枢轴量有什么用?
        在参数未知的时候,没有办法直接凭空从置信水平找到随机区间的上下限,所以采用枢轴量的分布函数,以此为媒介,根据置信水平,先算出枢轴量的置信区间,再反解出上下限。
    3. 枢轴量怎么用?
        其实2.已经解答过了,从未知参数的好的点估计(MLE)出发,用它的性质和密度函数构造。根据置信水平,通常采用等尾置信区间保证区间长度最短,先算出枢轴量的置信区间,再反解出上下限。
    4. 有什么特别的检验的构造套路吗?
        老师教过的有:
      • 单个正态总体参数:分为均值、方差是否已知,对均值和方差分别都有不同的枢轴量
      • 大样本置信区间:原理是中心极限定理,在样本方差已知的时候,很ok;在样本方差未知的时候,中心极限定理的分布可以将方差换成它的相合估计。注意哦,大样本运用中心极限定理,最多只有样本的方差的相合估计代替方差,不可以用均值的无偏估计代替总体均值位置上的μ的!
      • 两独立正态总体下均值之差和方差之比的置信区间:类似于单个正态总体,在估计均值的时候,要看方差是否已知,或者方差成比例;在估计方差之比的时候,直接就有枢轴量,不需要讨论均值是否已知。

      除了这些,均匀分布的总体还有一些特别的构造方法,课后题和期中考试卷子也有涉及,供自己参考~
      注:区间估计构造枢轴量的时候,大量用到前面一章节的统计量及其分布、以及三大抽样分布的基础。

    二、整体学习思路

      参数的点估计—>穿插如何评价点估计的好坏—>参数的区间估计
      建议的学习思路:点估计—>评价点估计的好坏—>参数估计,感觉独立开会更清晰一些~

    三、声明

      全文都是我个人的学习笔记,肯定有出现错误欢迎指正。

    展开全文
  • 参数估计资料

    2018-07-24 20:36:06
    详细解释了参数估计的知识,包括点估计、矩估计等,深入浅出讲解最大似然法的原理。
  • 广义高斯分布参数估计(GGD)。 这是对广义高斯分布中两个参数alpha,beta的估计方法,对自然图像的大量统计特征就符合这一分布。 参数估计
  • 主要是关于logistic的三种求参数的算法:Yule算法,Rhodes算法,Nair算法matlab算法的实现。
  • 利用分数阶傅里叶变换对线性调频信号进行参数估计,包括中心频率和调频率,在阶次搜索的时候利用了粗搜索和精细搜索的两级搜索方法
  • 针对系统参数以随机方式变化的时变系统,提出了参数估计器的设计方案,通过选择估计算法中的设计参量,从而保证了参数估计的几乎必然收敛性。同时证明了均方参数估计误差的有界性。
  • 威布尔分布参数估计在EXCEL中的实现方法研究,史景钊,花恒明,三参数威布尔分布的参数估计比较复杂,大多数估计方法都需要编程计算。推导了相关系数优化法求解三参数威布尔分布位置参数的公式
  • kde核密度估计,非参数估计的一种,使用高斯核函数进行概率密度估计,应用于独立成分分析确定控制限等过程
  • 递推最小二乘实现参数估计,对不确定的系统有良好的参数估计效果。
  • 参数估计-统计学

    2018-01-31 08:02:24
    参数估计 统计学 参数估计 统计学 参数估计 统计学 参数估计 统计学 参数估计 统计学 参数估计 统计学 参数估计 统计学
  • 粒子滤波参数估计

    2018-07-27 23:47:40
    这是粒子滤波用于参数估计的代码,很适合初学者,里面集成了很多参数估计的思想
  • 参数估计

    2016-04-11 16:55:56
    基于核估计的非参数估计方法
  • 系统辨识与参数估计课程讲义2006-系统辨识与参数估计—0课程介绍.ppt 北京科技大学《系统辨识与参数估计》课程讲义
  • 分数阶傅里叶法对LFM信号进行检测和参数估计的参考文献,可以参考原理。
  • 什么是参数估计

    千次阅读 2020-10-20 20:06:51
    参数估计(parameter estimation) 参数估计属于统计推断的范畴,是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。 统计推断是数理统计研究的核心问题,是指根据样本对总体分布或分布的数字特征等作出...

    参数估计(parameter estimation)

    目录

    参数估计(parameter estimation)

    点估计(point estimation)

    矩估计法(method  of  moments),

    区间估计(interval estimation)

    参数估计属于统计推断的范畴,是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。
    统计推断是数理统计研究的核心问题,是指根据样本对总体分布或分布的数字特征等作出合理的推断。
    参数估计分为:点估计、区间估计

    点估计(point estimation)

    点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。例如,设一批产品的废品率为θ。为估计θ,从这批产品中随机地抽出n 个作检查,以X记其中的废品个数,用X/n估计θ,这就是一个点估计。

    构造点估计常用方法:

    • 矩估计法:用样本矩估计总体矩,比如:用样本均值估计总体均值。
    • 最大似然估计法:于1912年由英国统计学家R.A.费希尔提出,利用样本分布密度构造似然函数来求出参数的最大似然估计。
    • 最小二乘法:主要用于线性统计模型中的参数估计问题。比如:Y=a0+a1X的参数估计就可以用最小乘法。
    • 贝叶斯估计法:基于贝叶斯学派的观点而提出的估计法。可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计,其次有容许性准则, 最小化最大准则,最优同变准则等。大样本优良性准则有相合性、最优渐近正态估计和渐近有效估计等。

    点估计能够明确告知人们“未知参数是多少”,但不能反映估计的可信程度。

    矩估计法(method  of  moments),

    矩估计法也称"矩法估计",原理是用样本矩作为相应的总体矩估计来求出估计量的方法,其思想是如果总体中有 K个未知参数,可以用前 K阶样本矩估计相应的前k阶总体矩,然后利用未知参数与总体矩的函数关系,求出参数的估计量。
    矩法估计一般求的是一阶原点矩二阶中心矩

    假设总体X的k阶原点矩:

    令总体的k阶原点矩等于它样本的k阶原点矩
     


    注:矩法相比于极大似然法、最小二乘法,效率很低。目前很少使用。

     

     

    区间估计(interval estimation)

    区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。

    例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。

    求置信区间常用的三种方法:

    • 利用已知的抽样分布。
    • 利用区间估计与假设检验的联系。
    • 利用大样本理论。

    区间估计可以告知置信区间范围,但不能直接告知人们“未知参数是多少”。

    置信区间

    区间估计(interval estimation)是从点估计值和抽样标准误出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平(confidence level),这个建立起来的包含待估计参数的区间称为置信区间(confidence interval),指总体参数值落在样本统计值某一区内的概率。

    所谓置信水平就是给出一个区间的信心,这个信心以概率来表示,绝大多数情况下取 0.95,表示你对所估计的总体参数有95%的信心落在你所给的区间内。通常置信水平以1-α表 示,α称为显著性水平

    置信区间的建立就与中心极限定理和抽样分布有关了,在给定置信度的条件下,置信区间的宽度决定于抽样分布。 建立置信区间的意思是在设定的置信水平(如取0.95)下,总体参数落在这个区间的概率为 0.95,大致的理解是如果抽100次样,建立100个置信区间,大约95个区间包含总体参数,约5个区间不包含总体参数(注意不是一定有5个,可能会多,也可能会少)。

    划定置信区间的两个数值分别称为置信下限(lower confidence limit,lcl)和置信上限(upper confidence limit,ucl)

    置信区间最主要的应用是用于假设检验

    展开全文
  • matlab实现隐马尔可夫模型相关算法,backward算法,forward算法,viterbi算法,附带参数估计的笔记。
  • 推断统计:参数估计和假设检验

    千次阅读 多人点赞 2020-03-03 00:35:24
    目录 ...  3、参数估计(点估计和区间估计)    1)参数估计、点估计和区间统计的概念    2)点估计说明    3)区间估计说明   4、中心极限定理    1)中心极限定理的概念    2...

    目录

      1、总体、个体、样本和样本容量
       1)总体、个体、样本和样本容量的概念
       2)本文章使用的相关python库
      2、推断统计的概念
       1)推断统计的概念
       2)为什么要进行推断统计?
      3、参数估计(点估计和区间估计)
       1)参数估计、点估计和区间统计的概念
       2)点估计说明
       3)区间估计说明
      4、中心极限定理
       1)中心极限定理的概念
       2)中心极限定理的推导(手写推导)
       3)由中心极限定理得出的几个结论
       4)python实现中心极限定理
      5、参数估计中置信区间的推导
       1)什么是小概率事件?
       2)随机变量的分布的概念
       3)标准正态分布的概率密度函数和和分布函数
       4)随机变量的α分位数的概念
       5)标准正态的分位数表怎么得到的呢?
       6)区间估计的定义
       7)置信水平1-α的解释
       8)枢轴法求置信区间的步骤(手写推导)
      6、假设检验
       1)假设检验的概念
       2)假设检验的理论依据
       3)P-Value值与显著性水平
       4)假设检验的步骤
       5)单边检验和双边检验
       6)常用的假设检验

    1、总体、个体、样本和样本容量

    1)总体、个体、样本和样本容量的概念
    • 总体:我们所要研究的问题的所有数据,称为总体。
    • 个体:总体中的某个数据,就是个体。总体是所有个体构成的集合。
    • 样本:从总体中抽取的部分个体,就构成了一个样本。样本是总体的一个子集。
    • 样本容量:样本中包含的个体数量,称为样本容量。
    2)本文章使用的相关python库
    import numpy as np
    import pandas as pd
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    import seaborn as sns
    import warnings
    from sklearn.datasets import load_iris
    from scipy import stats
    
    sns.set(style="darkgrid")
    mpl.rcParams["font.family"] = "SimHei"
    mpl.rcParams["axes.unicode_minus"] = False
    warnings.filterwarnings("ignore")
    

    2、推断统计的概念

    1)推断统计的概念

      “推断统计”研究的是用样本数据去推断总体数量特征的一种方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。

    2)为什么要进行推断统计?

      在实际研究中,总体数据的获取往往是比较困难的,总体参数一般也是未知的。因此,我们就需要利用总体的某个样本,通过样本统计量去估计总体参数。基于这个需求,我们就需要学习推断统计。
      通过上述叙述,我们给推断统计做一个说明。“推断统计”就是利用样本统计量,去推断总体参数的一种方法。
      

    3、参数估计(点估计和区间估计)

    1)参数估计、点估计和区间统计的概念
    • 参数估计:用样本统计量去估计总体的参数。比如,用样本均值去估计总体均值,用样本方差去估计总体方差。
    • 点估计:用样本统计量的某个取值,直接作为总体参数的估计值。
    • 区间估计:在点估计的基础之上,给出总体参数估计值的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    2)点估计说明
    ① 怎么求鸢尾花的平均花瓣长度?

      事实上,世界上鸢尾花千千万,我们总不能说把所有的鸢尾花的数据信息,都统计出来。因此,这就需要我们用样本均值去估计总体均值。

    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    # 计算鸢尾花花瓣长度的均值
    df["petal length (cm)"].mean()
    

    结果如下:
    在这里插入图片描述
    结果分析:点估计有点简单粗暴,容易受到随机抽样的影响,很难保证结果的准确性。但是,点估计也不是一无是处,样本值是来自总体的一个抽样,在一定程度上还是可以反映出总体的一部分特征。同时,样本容量越接近总体容量,点估计值也会越准确。
      

    3)区间估计说明
    ① 什么是区间估计?

      当你碰到一个陌生人,我让你判断出这个人的年龄是多少?这里有两种方式完成你的推断。第一,这个人25岁。第二,这个人20-25岁之间。哪种结果更让你信服呢?很明显第二种更让人信服。对于第一种说法,相当于上述的点估计。第二种,相当于区间估计,就是给定一个区间,这个区间包含真值。
      统计学中对区间估计的定义:在点估计的基础之上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。

    ② 问题:获取一个抽样样本后,如何确定置信区间和置信度?

    要确定置信区间和置信度,就需要知道样本和总体,在分布上有怎样的联系。中心极限定理给出了这个问题很好的回答。上述疑问将在下面为您一一揭晓。
      

    4、中心极限定理

    1)中心极限定理的概念

      设从均值为μ,方差为σ²的任意一个总体中,抽取样本量为n的样本。当n充分大的时候,样本均值X拔近似服从均值为μ,方差为σ²/n的正态分布。
    在这里插入图片描述
    注意:中心极限定理要求n充分大,但是多大才叫充分大呢?一般在统计学中n>=30称之为大样本(统计学中的一种经验说法)。因此在实际生产中,不用多想,肯定都是大样本。

    2)中心极限定理的推导(手写推导)

      设X1,X1,…,Xn是从总体中抽取出来的样本容量为n的随机样本,假设总体均值为μ,方差为σ²。那么很显然这n个样本是独立同分布的,“独立”指的就是每个个体被抽到的概率是相同的,每个球被抽到也不会影响其它球被抽到,“同分布”指的是每一个个体都和总体分布一样,均值为μ,方差为σ²。
      基于上述叙述,下面我们来推导样本均值X拔的分布。
    在这里插入图片描述

    3)由中心极限定理得出的几个结论
    • 不管进行多少次抽样,每次抽样都会得到一个均值。当每次抽取的样本容量n足够大时,样本均值总会围绕总体均值附近,呈现正态分布。
    • 当样本容量n足够大时,样本均值构成正态分布,样本均值近似等于总体均值μ,而样本方差等于总体方差σ²除以n,即σ²/n。
    • 样本均值分布的标准差,我们称之为标准误差,简称“标准误”。
    4)python实现中心极限定理
    # 设置一个随机种子,保证每次产生的随机数都是一定的
    np.random.seed(3)
    # 产生均值为50,标准差为80,大小为100000的一个总体
    all_ = np.random.normal(loc=50,scale=80,size=100000)
    # 创建一个样本均值数组
    mean_array = np.zeros(10000)
    for i in range(len(mean_array)):
        mean_array[i] = np.random.choice(all_,size=64,replace=True).mean()
    
    display("样本的均值:",mean_array.mean())
    display("样本的标准差:",mean_array.std())
    display("偏度:",pd.Series(mean_array).skew())
    sns.distplot(mean_array)
    

    结果如下:
    在这里插入图片描述
    从图中可以看出:样本均值近似等于总体均值50,而样本方差等于总体方差80除以8,即10。

    5、参数估计中置信区间的推导

      我们要知道什么是α值,什么是置信度,什么是置信区间,以及怎么求置信区间。首先要了解以下几方面的知识,才能有一个比较透彻的了解。

    • 1)什么是小概率事件?
    • 2)随机变量的分布的概念。
    • 3)标准正态分布的概率密度函数和和分布函数
    • 4)随机变量的α分位数的概念。
    • 5)标准正态的分位数表怎么得到的呢?
    • 6)区间估计的概念。
    • 7)置信水平1-α的解释
    • 8)枢轴法求置信区间的步骤。
    1)什么是小概率事件?
    • “小概率事件”指的就是在一次随机试验中,几乎不可能发生。
    • 假定参数是射击靶上10环的位置,随机进行一次射击,打在靶心10环的位置上的可能性很小,但是打中靶子的可能性确很大。然后用打在靶上的这个点画出一个区间,这个区间包含靶心的可能性就很大,这就是区间估计的基本思想。
    2)随机变量的分布的概念

    在这里插入图片描述

    3)标准正态分布的概率密度函数和和分布函数

    在这里插入图片描述

    4)随机变量的α分位数的概念

    在这里插入图片描述

    5)标准正态的分位数表怎么得到的呢?
    ① 标准正态分位数表的公式推导

    在这里插入图片描述
    注意:红色方框中的公式,就是标准正态分布分位数表的由来。

    ② 标准正态分布分位数表

    在这里插入图片描述

    6)区间估计的定义

    在这里插入图片描述

    7)置信水平1-α的解释

      对总体样本进行反复抽样(每次抽取到的样本容量都为n),那么每个样本均值都会确定一个区间(a,b),每个这样的区间要么包含总体参数,要么不包含总体参数,不能说成“以多大的概率包含总体的参数”。其中包含总体参数的区间有1-α个,而只有α个区间不包含总体参数,如下图所示(红色表示该样本构成的区间估计不包含总体参数,白色表示该样本构成的区间估计包含总体参数)。
      用一个详细的案例说明:如果对总体返回抽样10000次,每次抽样的样本量都是n,每个样本都会得到一个区间估计,那么10000次抽样,就会得到10000个区间。当置信水平1-α=95%时,那么就表示10000个区间中包含总体参数的有9500个抽样样本,只有500个样本不包含总体参数,这个不包含总体参数的样本就相当于我们估计错误。这个概率只有5%。这个5%在统计学中,就叫做小概率事件,也就是说在一次随机试验中,这个小概率事件不可能发生。
      即:当我们随机抽取一个样本容量为n的抽样样本,并且利用这个样本构造总体参数的置信区间,当指定了置信水平1-α=95%时,那么这个样本,基本就可以认为是包含了总体参数,也就是说,总体参数就在这个置信区间内。
    在这里插入图片描述

    8)枢轴法求置信区间的步骤(手写推导)
    ① 什么是枢轴量?
    • 枢轴量指的就是包含待估计参数,而不包含其它未知参数,并且分布已知的一个量。
    • 枢轴量设计到三个重要点:1、包含估计参数。2、不包含其它未知参数。3、该枢轴量的分布已知。
    ②以总体μ的置信区间为例(方差σ²已知),讲述枢轴量求置信区间的步骤。

    在这里插入图片描述

    6、假设检验

    1)假设检验的概念

      假设检验,也称为显著性检验,指通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。我们事先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。
      在假设检验中,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1。然后根据样本信息进行分析判断,是选择接受原假设,还是拒绝原假设(接受备择假设)。假设检验基于“反证法”。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时我们选择去接受原假设。

    2)假设检验的理论依据(小概率事件)

      在假设检验中,违反逻辑与常规的结论,就是小概奉事件。我们认为,小概率事件在一次试验中是不会发生的。我们首先认为原假设为真,如果在此基础上,小概率事件发生,则我们就拒绝原假设,否则,我们就选择去接受原假设。
      假设检验遵循“疑罪从无”的原则,接受原假设,并不代表原假设一定是正确的,只是我们没有充分的证据,去证明原假设是错误的,因此只能维持原假设。那么,假设检验中的小概率事件是怎么得出的呢?想想之前讲到的置信区间,是不是一切都验然开朗了?
      “疑罪从无”很形象的说明的假设检验向我们传达的含义。也就是说,当我们没有充分的理由拒绝原假设,就必须接受原假设,即使原假设是错误的,但是你找不到证据证明原假设是错误的,你就只能认为原假设是对的。反之,经过一次随机试验,你如果找到了某个理由拒绝了原假设,那么原假设肯定就是错误的,这个是一定的。

    3)P-Value值与显著性水平

      假设检验,用来检验样本的统计量与总体参数,是否存在显著性差异。那么如何才算显著呢?我们就可以计算一个概率值(P-Value),该概率值可以认为就是支持原假设的概率,因为在假设检验中,通常原假设为等值假设,因此,P-Value也就表示样本统计量与总体参数无差异的概率。然后,我们再设定一个阈值,这个阈值叫做“显著性水平 ” (使用α表示),通常α的取值为0.05(1-α叫做置信度)。当P-Value的值大于α时,接受原假设。当P-Value的值小于α时,拒绝原假设。简单记为:p值越小越拒绝原假设。软件中一般都会展示这个p值,那里的p值,指的就是我们这里所叙述的p值。
      假设检验和参数估计是推断统计的两个组成部分,都是利用样本对总体进行某种推断,但是两者进行推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的一种方法,总体参数在估计前是未知的。而假设检验,则是对总体参数先提出一个假设,然后用样本信息去检验这个假设是否成立。

    4)假设检验的步骤
    • ① 根据实际问题的要求,提出原假设和备择假设。
    • ② 给出显著性水平α以及样本容量n。
    • ③ 确定检验统计量和拒绝域。
    • ④ 计算出检验统计量的值,并作出决策。
    5)单边检验和双边检验

    在这里插入图片描述

    6)常用的假设检验
    ① 单个正态总体均值的假设检验法(Z检验:方差已知)

      Z检验用来判断样本均值是否与总体均值具有显著性差异。Z检验是通过正态分布的理论来推断差异发生的概率,从而比较两个均值的差异是否显著。Z检验适用于:

    • 总体呈正态分布。
    • 总体方差已知。
    • 样本容量较大。
      在这里插入图片描述
    ② 案例如下

    在这里插入图片描述

    ③ 有个人说:鸢尾花的平均花瓣长度为3.5cm,这种说法可靠吗?假设经过长期大量验证,鸢尾花花瓣长度总体的标准差为1.8cm,我们就可以使用Z检验来验证了。
    from scipy import stats
    
    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    
    mean = df["petal length (cm)"].mean()
    n = len(df)
    sigma = 1.8
    
    z = (mean - 3.5) / (sigma / np.sqrt(n))
    display(z)
    

    结果如下:
    在这里插入图片描述

    ④ 单个正态总体均值的假设检验法(t检验:方差未知)

      t检验,与Z检验类似,用来判断样本均值是否与总体均值具有显替性差异。不过,t检验是基于t分布的。检验适用于:

    • 总体呈正态分布。
    • 总体方差未知。
    • 样本容量较小。
      在这里插入图片描述
    ⑤ 案例说明

    在这里插入图片描述

    ⑥ 代码演示
    # 方法一
    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    
    mean = df["petal length (cm)"].mean()
    std = df["petal length (cm)"].std()
    n = len(df)
    display(mean,std)
    t = (mean - 3.5) / (std / np.sqrt(n))
    display(t)
    
    # 方法二
    from scipy import stats
    stats.ttest_1samp(df["petal length (cm)"],3.5)
    

    结果如下:
    在这里插入图片描述

    展开全文
  • 参数估计的基本原理与直方图方法 1. 前言 在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。 在此背景下,采用非参数估计,即不对...

    非参数估计的基本原理与直方图方法

    1. 前言

    在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。
    在此背景下,采用非参数估计,即不对概率密度函数的形式作任何假设,而是直接用样本估计出整个函数。当然,这种估计只能用数值方法取得,无法得到完美的封闭函数形式。
    从另一个角度来看,概率密度函数的参数估计实际是在指定的一类函数中选择一个函数作为对未知函数的估计,而非参数估计则可以是看作是从所有可能的函数中进行的一种选择。

    2. 直方图方法

    非参数概率密度估计的最简单方法:

    1. 把样本 x x x的每个分量在其取值范围内分成 k k k个等间隔的小窗。如果 x x x d d d维向量,则这种分割就会得到 k d k^d kd个小体积或者小舱,每个小舱的体积记作 V V V
    2. 统计落入每个小舱内的样本数目 q i q_i qi
    3. 把每个小舱内的概率密度看作是常数,并用 q i N V \frac{q_i}{NV} NVqi作为其估计值,其中 N N N为样本总数。

    3. 非参数估计的基本原理

    已知样本集 X = { x 1 , . . . , x N } X=\{x_1,...,x_N\} X={x1,...,xN}中的样本是从服从密度函数 ρ ( x ) \rho(x) ρ(x)的总体中独立抽取出来的,求 ρ ( x ) \rho(x) ρ(x)得估计 ρ ( x ) ^ \hat{\rho(x)} ρ(x)^。与参数估计相同,这里不考虑类别,即假设样本都是来自同一个类别,对不同类别只需要分别进行估计即可。
    考虑在样本所在空间得某个小区域 R R R,某个随机向量落入这个小区域得概率是:
    P R = ∫ R ρ ( x ) d x (1) P_R=\int_{R} \rho(x) dx \tag 1 PR=Rρ(x)dx(1)
    根据二项分布,在样本集 X X X中恰好有 k k k个落入小区域 R R R得概率是:
    P R = C N k P R k ( 1 − P R ) N − k (2) P_R=C_N^k P_R^k(1-P_R)^{N-k} \tag 2 PR=CNkPRk(1PR)Nk(2)
    其中 C N k C_N^k CNk表示在 N N N个样本中取 k k k个的组合数。 k k k的期望值是:
    E [ k ] = N P R (3) E[k]=NP_R \tag 3 E[k]=NPR(3)
    而且 k k k的众数(概率最大的取值)是:
    m = [ ( N + 1 ) P R ] (4) m=[(N+1)P_R] \tag 4 m=[(N+1)PR](4)
    其中 [   ] [ \ ] [ ]表示取整数。因此,当小区域中实际落入了 k k k个样本时, P R P_R PR的一个很好的估计是:
    P R ^ = k N (5) \hat{P_R} = \frac{k}{N} \tag 5 PR^=Nk(5)
    ρ ( x ) \rho(x) ρ(x)连续、且小区域 R R R的体积 V V V足够小时,可以假定在该小区域范围内 ρ ( x ) \rho(x) ρ(x)是常数,则式 ( 2 ) (2) (2)可近似为:
    P R = ∫ R ρ ( x ) d x = ρ ( x ) V (6) P_R=\int_R \rho(x) dx = \rho(x) V \tag 6 PR=Rρ(x)dx=ρ(x)V(6)
    用式 ( 5 ) (5) (5)代入 ( 6 ) (6) (6),可得在小区域 R R R的范围内:
    ρ ( x ) ^ = k N V (7) \hat{\rho(x)}=\frac{k}{NV} \tag 7 ρ(x)^=NVk(7)
    这就是在上面的直方图中使用的对小舱内概率密度的估计。

    1. 如果小舱选择过大,则假设 ρ ( x ) \rho(x) ρ(x)在小舱内为常数的做法就显得粗糙,导致最终估计出的密度函数也非常粗糙;
    2. 如果小舱过小,则有些小舱内可能就会没有样本或者很少样本,导致估计出的概率密度函数很不连续。

    所以,小舱的选择应该与样本总数相适应。理论上讲,假定样本总数是 n n n,小舱的体积为 V n V_n Vn,在 x x x附近位置上落入小舱的样本个数是 k n k_n kn,那么当样本趋于无穷多时 ρ ( x ) ^ \hat{\rho(x)} ρ(x)^收敛于 ρ ( x ) \rho(x) ρ(x)的条件是:
    ( 1 ) V n = 0 ( n → ∞ ) , ( 2 ) k n = ∞ ( n → ∞ ) , ( 3 ) k n n = 0 ( n → ∞ ) (1) V_n = 0 (n \rightarrow \infty),(2)k_n = \infty(n \rightarrow \infty),(3) \frac{k_n}{n} = 0(n \rightarrow \infty) (1)Vn=0(n)(2)kn=(n)(3)nkn=0(n)
    直观的解释是:随着样本数的增加,小舱体积应该尽可能小(1),同时又必须保证小舱内有充分多的样本(2),但每个小舱内的样本数又必须是总样本数中很小的一部分(3)

    展开全文
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...
  • 参数与非参数估计

    2015-06-04 17:13:15
    很好的参数估计和非参数估计的资料,希望有用的同学需要时下载完善

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 302,180
精华内容 120,872
关键字:

参数估计