精华内容
下载资源
问答
  • 什么参数估计

    千次阅读 2020-10-20 20:06:51
    参数估计属于统计推断的范畴,是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。 统计推断是数理统计研究的核心问题,是指根据样本对总体分布或分布的数字特征等作出合理的推断。 参数估计分为:点估计...

    参数估计(parameter estimation)

    目录

    参数估计(parameter estimation)

    点估计(point estimation)

    矩估计法(method  of  moments),

    区间估计(interval estimation)

    参数估计属于统计推断的范畴,是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。
    统计推断是数理统计研究的核心问题,是指根据样本对总体分布或分布的数字特征等作出合理的推断。
    参数估计分为:点估计、区间估计

    点估计(point estimation)

    点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。例如,设一批产品的废品率为θ。为估计θ,从这批产品中随机地抽出n 个作检查,以X记其中的废品个数,用X/n估计θ,这就是一个点估计。

    构造点估计常用方法:

    • 矩估计法:用样本矩估计总体矩,比如:用样本均值估计总体均值。
    • 最大似然估计法:于1912年由英国统计学家R.A.费希尔提出,利用样本分布密度构造似然函数来求出参数的最大似然估计。
    • 最小二乘法:主要用于线性统计模型中的参数估计问题。比如:Y=a0+a1X的参数估计就可以用最小乘法。
    • 贝叶斯估计法:基于贝叶斯学派的观点而提出的估计法。可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计,其次有容许性准则, 最小化最大准则,最优同变准则等。大样本优良性准则有相合性、最优渐近正态估计和渐近有效估计等。

    点估计能够明确告知人们“未知参数是多少”,但不能反映估计的可信程度。

    矩估计法(method  of  moments),

    矩估计法也称"矩法估计",原理是用样本矩作为相应的总体矩估计来求出估计量的方法,其思想是如果总体中有 K个未知参数,可以用前 K阶样本矩估计相应的前k阶总体矩,然后利用未知参数与总体矩的函数关系,求出参数的估计量。
    矩法估计一般求的是一阶原点矩二阶中心矩

    假设总体X的k阶原点矩:

    令总体的k阶原点矩等于它样本的k阶原点矩
     


    注:矩法相比于极大似然法、最小二乘法,效率很低。目前很少使用。

     

     

    区间估计(interval estimation)

    区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。

    例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。

    求置信区间常用的三种方法:

    • 利用已知的抽样分布。
    • 利用区间估计与假设检验的联系。
    • 利用大样本理论。

    区间估计可以告知置信区间范围,但不能直接告知人们“未知参数是多少”。

    置信区间

    区间估计(interval estimation)是从点估计值和抽样标准误出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平(confidence level),这个建立起来的包含待估计参数的区间称为置信区间(confidence interval),指总体参数值落在样本统计值某一区内的概率。

    所谓置信水平就是给出一个区间的信心,这个信心以概率来表示,绝大多数情况下取 0.95,表示你对所估计的总体参数有95%的信心落在你所给的区间内。通常置信水平以1-α表 示,α称为显著性水平

    置信区间的建立就与中心极限定理和抽样分布有关了,在给定置信度的条件下,置信区间的宽度决定于抽样分布。 建立置信区间的意思是在设定的置信水平(如取0.95)下,总体参数落在这个区间的概率为 0.95,大致的理解是如果抽100次样,建立100个置信区间,大约95个区间包含总体参数,约5个区间不包含总体参数(注意不是一定有5个,可能会多,也可能会少)。

    划定置信区间的两个数值分别称为置信下限(lower confidence limit,lcl)和置信上限(upper confidence limit,ucl)

    置信区间最主要的应用是用于假设检验

    展开全文
  • 参数估计 在该项目中考虑了对正则化参数估计的下采样。 此项目中使用的文件名约定包括以下信息。 文件包含内容的描述符(例如:Data1D,NoisePlot) 测试功能编号,由“ F”后的数字表示 SNR,由“ S”后的数字...
  • 参数估计资料

    2018-07-24 20:36:06
    详细解释了参数估计的知识,包括点估计、矩估计等,深入浅出讲解最大似然法的原理。
  • 该存储库包含由Richard Aster,Brian BorchersClifford Thurber撰写的第三版“参数估计和逆问题”(2018)的MATLAB代码。 “示例”目录中的代码将为教科书重新创建相应的基于MATLAB的示例,包括图形。 练习的...
  • 采用matlab进行Weibull参数估计包括矩估计,最小二乘估计等
  • 推断统计:参数估计和假设检验

    千次阅读 多人点赞 2020-03-03 00:35:24
    目录 ...  3、参数估计(点估计区间估计)    1)参数估计、点估计区间统计的概念    2)点估计说明    3)区间估计说明   4、中心极限定理    1)中心极限定理的概念    2...

    目录

      1、总体、个体、样本和样本容量
       1)总体、个体、样本和样本容量的概念
       2)本文章使用的相关python库
      2、推断统计的概念
       1)推断统计的概念
       2)为什么要进行推断统计?
      3、参数估计(点估计和区间估计)
       1)参数估计、点估计和区间统计的概念
       2)点估计说明
       3)区间估计说明
      4、中心极限定理
       1)中心极限定理的概念
       2)中心极限定理的推导(手写推导)
       3)由中心极限定理得出的几个结论
       4)python实现中心极限定理
      5、参数估计中置信区间的推导
       1)什么是小概率事件?
       2)随机变量的分布的概念
       3)标准正态分布的概率密度函数和和分布函数
       4)随机变量的α分位数的概念
       5)标准正态的分位数表怎么得到的呢?
       6)区间估计的定义
       7)置信水平1-α的解释
       8)枢轴法求置信区间的步骤(手写推导)
      6、假设检验
       1)假设检验的概念
       2)假设检验的理论依据
       3)P-Value值与显著性水平
       4)假设检验的步骤
       5)单边检验和双边检验
       6)常用的假设检验

    1、总体、个体、样本和样本容量

    1)总体、个体、样本和样本容量的概念
    • 总体:我们所要研究的问题的所有数据,称为总体。
    • 个体:总体中的某个数据,就是个体。总体是所有个体构成的集合。
    • 样本:从总体中抽取的部分个体,就构成了一个样本。样本是总体的一个子集。
    • 样本容量:样本中包含的个体数量,称为样本容量。
    2)本文章使用的相关python库
    import numpy as np
    import pandas as pd
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    import seaborn as sns
    import warnings
    from sklearn.datasets import load_iris
    from scipy import stats
    
    sns.set(style="darkgrid")
    mpl.rcParams["font.family"] = "SimHei"
    mpl.rcParams["axes.unicode_minus"] = False
    warnings.filterwarnings("ignore")
    

    2、推断统计的概念

    1)推断统计的概念

      “推断统计”研究的是用样本数据去推断总体数量特征的一种方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。

    2)为什么要进行推断统计?

      在实际研究中,总体数据的获取往往是比较困难的,总体参数一般也是未知的。因此,我们就需要利用总体的某个样本,通过样本统计量去估计总体参数。基于这个需求,我们就需要学习推断统计。
      通过上述叙述,我们给推断统计做一个说明。“推断统计”就是利用样本统计量,去推断总体参数的一种方法。
      

    3、参数估计(点估计和区间估计)

    1)参数估计、点估计和区间统计的概念
    • 参数估计:用样本统计量去估计总体的参数。比如,用样本均值去估计总体均值,用样本方差去估计总体方差。
    • 点估计:用样本统计量的某个取值,直接作为总体参数的估计值。
    • 区间估计:在点估计的基础之上,给出总体参数估计值的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    2)点估计说明
    ① 怎么求鸢尾花的平均花瓣长度?

      事实上,世界上鸢尾花千千万,我们总不能说把所有的鸢尾花的数据信息,都统计出来。因此,这就需要我们用样本均值去估计总体均值。

    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    # 计算鸢尾花花瓣长度的均值
    df["petal length (cm)"].mean()
    

    结果如下:
    在这里插入图片描述
    结果分析:点估计有点简单粗暴,容易受到随机抽样的影响,很难保证结果的准确性。但是,点估计也不是一无是处,样本值是来自总体的一个抽样,在一定程度上还是可以反映出总体的一部分特征。同时,样本容量越接近总体容量,点估计值也会越准确。
      

    3)区间估计说明
    ① 什么是区间估计?

      当你碰到一个陌生人,我让你判断出这个人的年龄是多少?这里有两种方式完成你的推断。第一,这个人25岁。第二,这个人20-25岁之间。哪种结果更让你信服呢?很明显第二种更让人信服。对于第一种说法,相当于上述的点估计。第二种,相当于区间估计,就是给定一个区间,这个区间包含真值。
      统计学中对区间估计的定义:在点估计的基础之上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。

    ② 问题:获取一个抽样样本后,如何确定置信区间和置信度?

    要确定置信区间和置信度,就需要知道样本和总体,在分布上有怎样的联系。中心极限定理给出了这个问题很好的回答。上述疑问将在下面为您一一揭晓。
      

    4、中心极限定理

    1)中心极限定理的概念

      设从均值为μ,方差为σ²的任意一个总体中,抽取样本量为n的样本。当n充分大的时候,样本均值X拔近似服从均值为μ,方差为σ²/n的正态分布。
    在这里插入图片描述
    注意:中心极限定理要求n充分大,但是多大才叫充分大呢?一般在统计学中n>=30称之为大样本(统计学中的一种经验说法)。因此在实际生产中,不用多想,肯定都是大样本。

    2)中心极限定理的推导(手写推导)

      设X1,X1,…,Xn是从总体中抽取出来的样本容量为n的随机样本,假设总体均值为μ,方差为σ²。那么很显然这n个样本是独立同分布的,“独立”指的就是每个个体被抽到的概率是相同的,每个球被抽到也不会影响其它球被抽到,“同分布”指的是每一个个体都和总体分布一样,均值为μ,方差为σ²。
      基于上述叙述,下面我们来推导样本均值X拔的分布。
    在这里插入图片描述

    3)由中心极限定理得出的几个结论
    • 不管进行多少次抽样,每次抽样都会得到一个均值。当每次抽取的样本容量n足够大时,样本均值总会围绕总体均值附近,呈现正态分布。
    • 当样本容量n足够大时,样本均值构成正态分布,样本均值近似等于总体均值μ,而样本方差等于总体方差σ²除以n,即σ²/n。
    • 样本均值分布的标准差,我们称之为标准误差,简称“标准误”。
    4)python实现中心极限定理
    # 设置一个随机种子,保证每次产生的随机数都是一定的
    np.random.seed(3)
    # 产生均值为50,标准差为80,大小为100000的一个总体
    all_ = np.random.normal(loc=50,scale=80,size=100000)
    # 创建一个样本均值数组
    mean_array = np.zeros(10000)
    for i in range(len(mean_array)):
        mean_array[i] = np.random.choice(all_,size=64,replace=True).mean()
    
    display("样本的均值:",mean_array.mean())
    display("样本的标准差:",mean_array.std())
    display("偏度:",pd.Series(mean_array).skew())
    sns.distplot(mean_array)
    

    结果如下:
    在这里插入图片描述
    从图中可以看出:样本均值近似等于总体均值50,而样本方差等于总体方差80除以8,即10。

    5、参数估计中置信区间的推导

      我们要知道什么是α值,什么是置信度,什么是置信区间,以及怎么求置信区间。首先要了解以下几方面的知识,才能有一个比较透彻的了解。

    • 1)什么是小概率事件?
    • 2)随机变量的分布的概念。
    • 3)标准正态分布的概率密度函数和和分布函数
    • 4)随机变量的α分位数的概念。
    • 5)标准正态的分位数表怎么得到的呢?
    • 6)区间估计的概念。
    • 7)置信水平1-α的解释
    • 8)枢轴法求置信区间的步骤。
    1)什么是小概率事件?
    • “小概率事件”指的就是在一次随机试验中,几乎不可能发生。
    • 假定参数是射击靶上10环的位置,随机进行一次射击,打在靶心10环的位置上的可能性很小,但是打中靶子的可能性确很大。然后用打在靶上的这个点画出一个区间,这个区间包含靶心的可能性就很大,这就是区间估计的基本思想。
    2)随机变量的分布的概念

    在这里插入图片描述

    3)标准正态分布的概率密度函数和和分布函数

    在这里插入图片描述

    4)随机变量的α分位数的概念

    在这里插入图片描述

    5)标准正态的分位数表怎么得到的呢?
    ① 标准正态分位数表的公式推导

    在这里插入图片描述
    注意:红色方框中的公式,就是标准正态分布分位数表的由来。

    ② 标准正态分布分位数表

    在这里插入图片描述

    6)区间估计的定义

    在这里插入图片描述

    7)置信水平1-α的解释

      对总体样本进行反复抽样(每次抽取到的样本容量都为n),那么每个样本均值都会确定一个区间(a,b),每个这样的区间要么包含总体参数,要么不包含总体参数,不能说成“以多大的概率包含总体的参数”。其中包含总体参数的区间有1-α个,而只有α个区间不包含总体参数,如下图所示(红色表示该样本构成的区间估计不包含总体参数,白色表示该样本构成的区间估计包含总体参数)。
      用一个详细的案例说明:如果对总体返回抽样10000次,每次抽样的样本量都是n,每个样本都会得到一个区间估计,那么10000次抽样,就会得到10000个区间。当置信水平1-α=95%时,那么就表示10000个区间中包含总体参数的有9500个抽样样本,只有500个样本不包含总体参数,这个不包含总体参数的样本就相当于我们估计错误。这个概率只有5%。这个5%在统计学中,就叫做小概率事件,也就是说在一次随机试验中,这个小概率事件不可能发生。
      即:当我们随机抽取一个样本容量为n的抽样样本,并且利用这个样本构造总体参数的置信区间,当指定了置信水平1-α=95%时,那么这个样本,基本就可以认为是包含了总体参数,也就是说,总体参数就在这个置信区间内。
    在这里插入图片描述

    8)枢轴法求置信区间的步骤(手写推导)
    ① 什么是枢轴量?
    • 枢轴量指的就是包含待估计参数,而不包含其它未知参数,并且分布已知的一个量。
    • 枢轴量设计到三个重要点:1、包含估计参数。2、不包含其它未知参数。3、该枢轴量的分布已知。
    ②以总体μ的置信区间为例(方差σ²已知),讲述枢轴量求置信区间的步骤。

    在这里插入图片描述

    6、假设检验

    1)假设检验的概念

      假设检验,也称为显著性检验,指通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。我们事先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。
      在假设检验中,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1。然后根据样本信息进行分析判断,是选择接受原假设,还是拒绝原假设(接受备择假设)。假设检验基于“反证法”。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时我们选择去接受原假设。

    2)假设检验的理论依据(小概率事件)

      在假设检验中,违反逻辑与常规的结论,就是小概奉事件。我们认为,小概率事件在一次试验中是不会发生的。我们首先认为原假设为真,如果在此基础上,小概率事件发生,则我们就拒绝原假设,否则,我们就选择去接受原假设。
      假设检验遵循“疑罪从无”的原则,接受原假设,并不代表原假设一定是正确的,只是我们没有充分的证据,去证明原假设是错误的,因此只能维持原假设。那么,假设检验中的小概率事件是怎么得出的呢?想想之前讲到的置信区间,是不是一切都验然开朗了?
      “疑罪从无”很形象的说明的假设检验向我们传达的含义。也就是说,当我们没有充分的理由拒绝原假设,就必须接受原假设,即使原假设是错误的,但是你找不到证据证明原假设是错误的,你就只能认为原假设是对的。反之,经过一次随机试验,你如果找到了某个理由拒绝了原假设,那么原假设肯定就是错误的,这个是一定的。

    3)P-Value值与显著性水平

      假设检验,用来检验样本的统计量与总体参数,是否存在显著性差异。那么如何才算显著呢?我们就可以计算一个概率值(P-Value),该概率值可以认为就是支持原假设的概率,因为在假设检验中,通常原假设为等值假设,因此,P-Value也就表示样本统计量与总体参数无差异的概率。然后,我们再设定一个阈值,这个阈值叫做“显著性水平 ” (使用α表示),通常α的取值为0.05(1-α叫做置信度)。当P-Value的值大于α时,接受原假设。当P-Value的值小于α时,拒绝原假设。简单记为:p值越小越拒绝原假设。软件中一般都会展示这个p值,那里的p值,指的就是我们这里所叙述的p值。
      假设检验和参数估计是推断统计的两个组成部分,都是利用样本对总体进行某种推断,但是两者进行推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的一种方法,总体参数在估计前是未知的。而假设检验,则是对总体参数先提出一个假设,然后用样本信息去检验这个假设是否成立。

    4)假设检验的步骤
    • ① 根据实际问题的要求,提出原假设和备择假设。
    • ② 给出显著性水平α以及样本容量n。
    • ③ 确定检验统计量和拒绝域。
    • ④ 计算出检验统计量的值,并作出决策。
    5)单边检验和双边检验

    在这里插入图片描述

    6)常用的假设检验
    ① 单个正态总体均值的假设检验法(Z检验:方差已知)

      Z检验用来判断样本均值是否与总体均值具有显著性差异。Z检验是通过正态分布的理论来推断差异发生的概率,从而比较两个均值的差异是否显著。Z检验适用于:

    • 总体呈正态分布。
    • 总体方差已知。
    • 样本容量较大。
      在这里插入图片描述
    ② 案例如下

    在这里插入图片描述

    ③ 有个人说:鸢尾花的平均花瓣长度为3.5cm,这种说法可靠吗?假设经过长期大量验证,鸢尾花花瓣长度总体的标准差为1.8cm,我们就可以使用Z检验来验证了。
    from scipy import stats
    
    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    
    mean = df["petal length (cm)"].mean()
    n = len(df)
    sigma = 1.8
    
    z = (mean - 3.5) / (sigma / np.sqrt(n))
    display(z)
    

    结果如下:
    在这里插入图片描述

    ④ 单个正态总体均值的假设检验法(t检验:方差未知)

      t检验,与Z检验类似,用来判断样本均值是否与总体均值具有显替性差异。不过,t检验是基于t分布的。检验适用于:

    • 总体呈正态分布。
    • 总体方差未知。
    • 样本容量较小。
      在这里插入图片描述
    ⑤ 案例说明

    在这里插入图片描述

    ⑥ 代码演示
    # 方法一
    iris = load_iris()
    dt = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
    df = pd.DataFrame(dt,columns=iris.feature_names + ["types"])
    display(df.sample(5))
    
    mean = df["petal length (cm)"].mean()
    std = df["petal length (cm)"].std()
    n = len(df)
    display(mean,std)
    t = (mean - 3.5) / (std / np.sqrt(n))
    display(t)
    
    # 方法二
    from scipy import stats
    stats.ttest_1samp(df["petal length (cm)"],3.5)
    

    结果如下:
    在这里插入图片描述

    展开全文
  • 参数估计(点估计区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...

    “参数估计是以抽样分布为中介,用样本的参数特征对总体的参数进行数值估计的过程。”

    一、点估计
    1.点估计就是用样本统计量来估计总体参数。
    概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,然后用样本统计量的值来估计总体的情况。
    例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计。

    常用的点估计有:用样本均值估计总体均值,用样本方差估计总体方差,用样本的分位数估计总体分位数,用样本的中位数估计总体的中位数。

    2.点估计方法
    矩估计法、顺序统计量法、最大似然法、
    最小二乘法(对于点估计方法,放在另一篇文章中详细介绍)

    3.由于用样本推断总体的过程一定存在估计误差,而点估计的估计误差无法衡量,所以点估计主要用于为定性研究提供数据参考,或者在对于总体参数估计精度要求不高时使用。

    二、区间估计
    1.区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
    另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。

    2.关于置信水平(置信度)、置信区间和显著性水平:
    置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
    置信水平用百分数表示,表示成(1-a)100%a指的是显著性水平,表示总体参数不落在置信区间的可能性。

    3.关于置信区间的计算:
    通过部分样本来计算总体参数的一个置信区间有以下步骤:
    a.明确要解决的问题,要估计的指标或参数是什么,
    b.求抽样样本的平均值和标准误差,
    注意区分标准差和标准误差:标准差反映的是整个样本对样本平均数的离散程度,标准差等于方差开根号;标准误差反映的是样本平均数对总体平均数的变异程度,标准误差等于样本标准差除n的开根号。
    c.确定需要的置信水平,
    d.查询z表,得到z值,
    e. 计算置信区间,[a,b],a=样本均值-z标准误差,b=样本均值+z标准误差。

    区间估计分为一个总体参数的估计和两个总体参数的估计

    4.一个总体参数的区间估计:总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;

    4.1总体均值的区间估计:
    均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关;
    Z分布其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布,
    Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30;
    T分布:对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型;
    切比雪夫不等式:对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。
    在这里插入图片描述截图来自《人人都会数据分析:从生活实例学统计》

    4.2 总体方差的区间估计:
    总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。
    卡方统计量的计算公式:
    χ α 2 ( n − 1 ) = ( n − 1 ) s 2 σ z 2 \chi^2_\alpha(n-1)=\frac{(n-1)s ^2}{\sigma ^2_z} χα2(n1)=σz2(n1)s2
    总体方差的双侧置信区间估计公式为:
    ( n − 1 ) s 2 χ α 2 2 ( n − 1 ) ≤ σ z 2 ≤ ( n − 1 ) s 2 χ 1 2 − α 2 ( n − 1 ) \frac{(n-1)s^2}{\chi ^2_\frac{\alpha}{2}(n-1)} \leq \sigma ^2_z \leq \frac{(n-1)s ^2}{\chi ^2_1-\frac{\alpha}{2} (n-1)} χ2α2(n1)(n1)s2σz2χ122α(n1)(n1)s2
    其中带有a/2的为下标;
    如果是单侧置信区间的话,只需要取上面式子的前半部分或者后半部分,并将a/2改成a即可得到单侧置信区间。

    4.3 总体比例的区间估计:
    或者叫总体比率的区间估计,跟二项分布有关,二项分布的理论是:事件发生概率是p,进行n次实验,其中x次实验该事件发生,则发生次数的概率分布服从二项分布;均值、方差为np,npq。
    若将发生的次数转换成比率(x/n),则比率的概率分布也服从二项分布。
    二项分布的特性:当抽取的样本容量n很大,是大 样本,使得np和nq(q为事件不发生的概率,等于1-p)的值都大于 5, 此时二项分布将近似于正态分布。
    由于事件发生比率x/n服从二项分布,所以如果比率的二项分布近似于正态分布,就可以得到不利的区间估计。

    在事件发生概率p已知的情况下,总体比率 p z ˉ \bar{p_z} pzˉ在置信度为1-a时,总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    其中, p y ˉ \bar{p_y} pyˉ为样本比率, p z ˉ \bar{p_z} pzˉ为总体比率,
    当事件发生概率p未知,可用样本中事件发生的概率即样本比率代替。

    5. 两个总体参数的区间估计
    两个总体均值之差的估计,两个总体方差比的区间估计
    两个总体与多个总体参数的区间估计在实际生活中的应用不是很多,更常用的是两个总体和多个总体参数的假设检验。 区间估计虽不常用,但是其与假设检验的应用原理是想通的。

    5.1 两个总体均值之差的区间估计:
    可以将单个总体均值的抽样分布推广到两个总体均值差的抽样分布,然后利用两个总体均值差的抽样分布推导出两个总体均值差的置信区间公式。
    方差齐性/方差不齐:对于配对样本来说其方差可被认为是想等的,即方差齐性。
    在这里插入图片描述
    截图来自《人人都会数据分析:从生活实例学统计》

    独立样本和配对样本:
    独立样本:是指如果从一个总体中选取样本,抽样形式无论怎样改变都不会影响从另一个总体中抽取样本的概率,则这两个随机样本为独立样本;
    配对样本:是指如果从一个总体中抽取样本的行为以某种方式决定了从另一个总体中抽取样本的概率,则这两个样本为成对样本或配对样本。

    均值和方差的特点:
    两个总体合并(相加或相减),那么合并后的总体均值等于原来两个总体的均值之和或均值之差;而合并后的总体方差都等于两个总体方差之和。

    差值抽样分布可以看做单个总体的均值抽样分布,因此可套用“均值抽样分布适用条件表”,将公式修改一下即可:

    截图来自《人人都会数据分析:从生活实例学统计》

    5.2 两个总体方差比的区间估计
    F分布可用于求取两个正态分布总体方差比的置信区间。
    F统计量可被看做是两个卡方统计量的商,F分布也被称为方差比分布。因为卡方分布要求总体服从正态分布,所以F分布也要求F统计量的两个总体都服从正态分布。
    当给定置信水平时,可推出两个正态分布总体方差比的置信区间。

    三、样本量的确定

    1总体均值区间估计的样本量确定
    在总体标准差已知的情况下,如果数据总体服从正态分布,则样本均值的抽样分布适用Z分布,就可以利用总体均值的置信区间公式来计算样本容量,总体均值的置信区间为:
    x ˉ ± Z α 2 σ n \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} xˉ±Z2αn σ x ˉ ± Z α 2 σ n N − n N − 1 \bar{x}\pm Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N-n}{N-1}} xˉ±Z2αn σN1Nn

    则总体均值的区间估计误差为:
    Δ μ = Z α 2 σ n \Delta\mu=Z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} Δμ=Z2αn σ
    进而可以求得样本容量的公式:
    n = ( Z α 2 σ Δ μ ) 2 n=(\frac{Z_\frac{\alpha}{2} \sigma}{\Delta\mu})^2 n=(ΔμZ2ασ)2

    以上是总体标准差已知时,当总体标准差未知时,一是可以用样本标准差代替,但是前提条件是样本容量要大于等于30;二是可以用过去试点调查的样本标准差代替;三是,如果知道总体数据中的最大和最小值,可用四分之一的最大与最小值的差值来代替总体标准差。

    2.总体方差区间估计的样本量确定
    总体方差的区间估计适用的抽样分布为卡方分布。卡方统计量为:
    χ 2 = ( n − 1 ) s 2 σ 2 \chi^2=\frac{(n-1)s ^2}{\sigma ^2} χ2=σ2(n1)s2
    由卡方分布的性质可知,当样本量足够大时,卡方分布近似于正态分布。卡方分布的均值为自由度(n-1),卡方分布的方差为两倍的自由度2(n-1),那么在大样本的情况下,总体方差的置信区间为:
    s 2 = ± Z α 2 s 2 2 n s^2=\pm Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} s2=±Z2αs2n2
    则总体方差的估计精度为:
    Δ σ 2 = Z α 2 s 2 2 n \Delta \sigma^2=Z_\frac{\alpha}{2} s^2 \sqrt{\frac{2}{n}} Δσ2=Z2αs2n2
    由此可得到样本容量公式为:
    n = 2 Z α 2 s 2 Δ σ 2 n=\frac{\sqrt{2} Z_\frac{\alpha}{2} s^2}{\Delta \sigma^2} n=Δσ22 Z2αs2

    3.总体比率区间估计的样本量确定
    在确定总体比率的区间估计时,利用的是二项分布近似于正态分布的性质,即当抽取的样本量n很大时,是大样本,使得np>5且nq>5(p是事件发生的概率,q是事件不发生的概率,q=1-p)时,二项分布近似于正态分布。
    总体比率的置信区间为:
    p y ˉ ± Z α 2 p ( 1 − p ) n \bar{p_y} \pm Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} pyˉ±Z2αnp(1p)
    则总体比率的估计误差为:
    Δ p z ˉ = Z α 2 p ( 1 − p ) n \Delta \bar{p_z} =Z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{n}} Δpzˉ=Z2αnp(1p)
    由此可得到样本容量为:
    n = Z α 2 2 p ( 1 − p ) Δ p z ˉ 2 n=\frac{Z_\frac{\alpha}{2} ^2 p(1-p)}{\Delta \bar{p_z} ^2} n=Δpzˉ2Z2α2p(1p)

    注:本文主要参考《人人都会数据分析:从生活实例学统计》

    展开全文
  • 使用最小二乘法对采样后的信号进行参数估计。可以有效识别原始信号基波以及各次谐波的幅值相位。文件包括供Matlab使用的两个m文件,以及参考的两篇文献,帮助大家更深入地理解。
  • 参数估计与假设检验的区别联系

    万次阅读 2019-05-11 18:09:08
    统计学方法包括统计描述统计推断两种方法,其中,推断统计又包括参数估计和假设检验。 参数估计 参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计区间估计两种。 点估计就是直接以样本统计...

    参数估计与假设检验的区别和联系

    统计学方法包括统计描述和统计推断两种方法,其中,推断统计又包括参数估计和假设检验。

    参数估计

    参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计和区间估计两种。

    点估计就是直接以样本统计量直接作为相应总体参数的估计值。点估计的缺陷是没法给出估计的可靠性,也没法说出点估计值与总体参数真实值接近的程度。

    区间估计是在点估计的基础上给出总体参数估计的一个估计区间,该区间是由样本统计量加减允许误差(极限误差)得到的。在区间估计中,由样本统计量构造出的总体参数在一定置信水平下的估计区间称为置信区间。

    在其它条件相同的条件下,区间估计中置信度越高,置信区间越大。置信水平为1-a,  a(显著性水平)为小概率事件或者不可能事件,常用的置信水平值为99%,95%,90%,对应的a为0.01,   0.05,  0.1

    置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数。

    一个总体参数的区间估计需要考虑总体是否为正态分布,总体方差是否已知,用于估计的样本是大样本还是小样本等

    (1)来自正态分布的样本均值,总体方差已知,不论抽取的是大样本还是小样本,均服从正态分布。

    (2)总体不是正态分布,总体方差已知或未知,大样本的样本均值服从正态分布,小样本的不能进行参数估计。

    (3)来自正态分布的样本均值,如果总体方差未知,原则上都按t 分布来处理(但在大样本的情况下,可近似按正态分布处理)。

     

    假设检验

     假设检验假是根据样本统计量来检验对总体参数的先验假设是否成立,是推断统计的另一项重要内容,它与参数估计类似,但角度不同,参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。

    假设检验的基本思想:先提出假设,然后根据资料的特点,计算相应的统计量,来判断假设是否成立,如果成立的可能性是一个小概率的话,就拒绝该假设,因此称小概率的反证法。最重要的是看能否通过得到的概率去推翻原定的假设,而不是去证实它。

     

    参数估计与假设检验之间的相同点、联系与区别:

    (1)相同点:

      a.都是根据样本信息对总体的数量特征进行推断;

      b.都以抽样分布为理论依据,建立在概率论基础之上的统计推断,推断结果都有一定的可信程度或风险。

    (2)联系:  
    二者可相互转换,形成对偶性。对同一问题的参数进行推断,由于二者使用同一样本、同一统计量、同一分布,因而二者可以相互转换。区间估计问题可以转换成假设问题,假设问题也可以转换成区间估计问题。区间估计中的置信区间对应于假设检验中的接受区域,置信区间以外的区域就是假设检验中的拒绝域。

    (3)主要区别:

    a.参数估计是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立;

    b.参数估计中的区间估计是求以样本统计量为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;

    c.参数估计中的区间估计是以大概率为标准,通常以较大的把握程度(置信水平)1-α去保证总体参数的置信区间。而假设检验是以小概率原理为标准,通常是给定很小的显著性水平α去检验对总体参数的先验假设是否成立或对总体的分布的形式的假设进行判断。 

     

    https://blog.csdn.net/u013015687/article/details/45937027?utm_source=blogxgwz1

    展开全文
  • 参数估计

    千次阅读 2018-10-10 23:31:28
    一、参数估计内容 1.参数估计的requisites   我默认大家已经掌握了基本的概率论知识,例如了解概率空间、随机变量、概率的含义,会求随机变量的分布函数、数字特征,对基本的大数定理中心极限定理...
  • 参数估计与非参数估计

    千次阅读 2017-10-12 15:48:45
    参数估计要求明确参数服从什么分布,明确模型的具体形式,然后给出参数的估计值。根据从总体中抽取的样本估计总体分布中包含的未知参数。非参数估计对解释变量的分布状况与模型的具体形式不做具体规定 ,运用核密度...
  • 参数估计

    2018-09-06 09:38:05
    《现代非参数统计》是“All of ...《现代非参数统计》主要包括10章内容,主要讲述非参数delta方法自助法之类的经验CDF、覆盖基本的光滑方法正态均值、利用正交函数的非参数推断、小波其他的适应方法等。
  • 概率密度函数非参数估计matlab代码matLearn matLearn:Matlab中的机器学习算法实现 免责声明: 该软件包是2014年秋季我们在机器学习课程中集体努力的结果,CPSC 540由UBC的Mark Schmid博士教授。 那时,还没有任何...
  • 利用分数阶傅里叶变换对线性调频信号进行参数估计包括中心频率调频率,在阶次搜索的时候利用了粗搜索精细搜索的两级搜索方法
  • 关于参数估计(点估计和参数估计)的详细笔记。
  • 浅谈参数估计

    千次阅读 2019-09-03 09:38:34
    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数. 估计量 如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,...
  • 参数估计方法整理

    万次阅读 多人点赞 2018-08-06 10:33:27
    参数估计包括点估计区间估计。 常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计 区间估计:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论 一、点估计 1、矩估计 矩...
  • 参数估计:贝叶斯思想贝叶斯参数估计

    万次阅读 多人点赞 2016-05-23 10:54:29
    http://blog.csdn.net/pipisorry/article/details/51471222贝叶斯与频率派思想频率派思想 长久以来,人们对一件事情发生或不发生,只有固定的01,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多...
  • 最大似然参数估计

    2014-04-30 10:25:15
    这是模式分类中的课程代码, ...对不同维数下的高斯概率密度模型,用最大似然估计方法对其参数进行估计,学习掌握最 大似然估计方法。 (a) 编写程序,对表格2 中的类1 w 中的3 个特征i x ,分别求解最大似然估计μ
  • 此回购包含论文“基于机器学习方法的左心室心肌参数估计的替代模型”中用于运行基于机器学习(ML)的替代模型的代码 我们使用三种基于ML的代理模型,即K最近邻(KNN),XGBoost多层感知器。 可以将三个选择的ML...
  • 数理统计:参数估计

    2020-12-29 22:57:30
    learning why, thinking what, then forgetting how. 随着时间的流逝,知识总会被遗忘...统计推断主要分为参数估计和假设检验,参数估计又分为点估计区间估计。 2.1 参数的点估计 首先提出参数参数的估计量的.
  • 参数估计和假设检验

    2019-10-22 11:00:53
    统计学方法包括统计描述统计推断两种方法,其中,推断统计又包括参数估计和假设检验。 1.参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计区间估计两种。 点估计就是直接以样本统计量直接...
  • 回归分析之参数估计

    千次阅读 2019-10-11 16:06:59
    参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计区间估计两部分。 点估计:依据样本估计总体分布中所含的未知参数...
  • 参数估计ppt

    2014-04-09 16:33:27
    模式识别中非参数估计理论,包括窗估计、kNN,NN等
  • 跳频信号主要参数估计包括跳变周期,跳时刻,瞬时频率估计,以及误差分析。运用多种方法:短时傅里叶编码(STFT),SPWVD,GABOR,EMBD,SWWVD
  • 6 参数估计语言 实验R: 一实验目的; 1. 掌握矩法估计与极大似然估计的求法; R 软件完成一个两个正态总体的区间估计2. 学会利用; 软件完成非正态总体的区间估计3. 学会利用R 软件进行单侧置信区间估计4. 学会利用R ...
  • 针对包含多维微动参数的正弦调频项,提出改进的粒子滤波静态参数估计方法,通过设计自适应方差法变化粒子数提升了算法效率,通过设计累积残差作为观测概率密度函数,实现了对非线性模型中多维参数的同时估计。...
  • 统计推断中的参数估计和假设检验

    千次阅读 2020-03-07 15:25:29
    多看数据的分布图(直方图柱形图一般就可以了),或者列联表分析图,然后基于对业务的理解,能看出来这个数据大概是个什么情况 错误值的处理方法: 1、首选是改对了(成本很高) 2、用缺失值替换 3、删...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 189,124
精华内容 75,649
关键字:

参数估计包括什么和什么