精华内容
下载资源
问答
  • 本篇文章只做知识的搬运工。本文目录:点估计:极大...样本量确定:估计总体均值时样本量的确定,估计总体比例时样本量的确定参数估计包括点估计和区间估计两类。点估计点估计(point estimate)是用样本统计量的某...

    fdec60e3790446a09e6a819ab5b66fac.png
    本篇文章只做知识的搬运工。

    本文目录:

    点估计:极大似然估计,最小二乘估计,贝叶斯估计。
    区间估计:正态总体且方差已知,或非正态总体、大样本,方差未知;正态总体、方差未知、小样本;总体比例的区间估计; 大样本不重复抽样估计;总体方差的区间估计;
    样本量确定:估计总体均值时样本量的确定,估计总体比例时样本量的确定

    参数估计包括点估计和区间估计两类。

    点估计

    点估计(point estimate)是用样本统计量的某个取值直接作为总体参数的估计值。例如,用样本均值x直接作为总体均值μ的估计值,用样本方差s2直接作为总体方差σ2的估计值。点估计的方法有:矩估计法、顺序统计量法、最大似然法、最小二乘法、贝叶斯估计法。

    这篇文章主要介绍极大似然估计,最小二乘估计,贝叶斯估计。

    勒让德的最小二乘法

    最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。

    我们来理解最小二乘回归的本质:

    我们得到n组观测值,但真实值只有一个,该如何办?

    8599f351781396e1bc1e4bf19d11a5b2.png
    首先想到的是取n组观测值的平均值来当作“真实值”,这样靠谱吗?

    df756e92f892317ced571f5c50d3f6b9.png

    就有人(勒让德)提出最小二乘的思路:

    4c37c6bfe4b62f5fab73199e65730089.png

    于是,我们对y求导

    33c4f3a16539f9c3a25db1ac4b8f5813.png

    碰巧,算术平均数可以让误差最小!

    接下来,对最小二乘进行扩展:

    0027ad7f878aba5da4ed34e379ee6dd1.png

    c02e3726db3d41893a98791f516cd1c5.png

    可以假设这条直线的方程是:

    984e8b69864acffcf0f12137be765ff7.png

    然后用最小二乘回归的思路:

    c2352bc13557c1004752fcaec200560c.png

    然后对a,b求偏导数求误差平方和的最小值:

    e157460d2d53b18294e20c22cd522f5f.png

    8a8e6c5b79c425af4684a951771ce77d.png

    一次函数,二次函数都是线性函数!都可以通过解线性方程组来求解!

    以上这一套操作,都是假设啊,这时候勤学爱问高斯就站出来了:

    他用另一套思路来回答这个问题!

    勒让德用误差平方和最小来拟合直线:

    83d4c9927db140d3beb88b3ae7773ca1.png

    68cc8b7a067e4b9b3370aa7cc63f6fed.png

    现在可以来解这个微分方程了。最终得到:

    d1a2eefaea48525642fd8c3ca1837545.png

    这不就是我们的正态分布密度函数吗!

    并且这还是一个充要条件:

    441be784df34e337d24d78c18950f306.png

    也就是说,如果误差项服从正态分布,那么最小二乘估计就是完美的!

    那么误差项服从正态分布吗?

    如果误差项是随机产生的,那么根据中心极限定律,误差的分布就服从正态分布!

    由此,勒让德虽然提出了最小二乘的思路,但真正使它发扬光大的是高斯,高斯的努力,才真正奠定了最小二乘法的重要地位。

    学术上使用最小二乘估计一般遵循这样:

    求知鸟:关于统计学的思考(2)zhuanlan.zhihu.com
    f72b27c162e2229db8c280b710e7ed1d.png
    最小二乘估计的前提:随机误差项满足正态分布!最小二乘估计一般用在线性回归中,用来估计参数值!(最小二乘估计需要对参数求偏导数,所以要求误差函数连续可导!也就是要求误差函数是凸函数)。

    费歇尔的极大似然估计

    极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!

    在介绍极大似然估计之前,要先明白这样一组概念:

    对于这个函数:

    c8036a02df7b9a79d0905f668356752a.png

    输入有两个:x表示某一个具体的数据;θ表示模型的参数。

    如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。

    如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。(密度函数也叫似然函数)

    一句话总结:概率函数与似然函数是一个面团出来的两块馍。

    极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

    极大似然估计中采样需满足一个重要的假设,就是所有的采样都是独立同分布的。

    接下来,通过一个例子来理解极大似然估计的用途:

    假设我们要统计全国人民的年均收入,首先假设这个收入服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的收入。我们国家有10几亿人口呢?那么岂不是没有办法了?
    不不不,有了极大似然估计之后,我们可以采用嘛!我们比如选取一个城市,或者一个乡镇的人口收入,作为我们的观察样本结果。然后通过最大似然估计来获取上述假设中的正态分布的参数。

    总结:那么我们就知道了极大似然估计的核心关键就是对于一些情况,样本太多,无法得出分布的参数值,可以采样小样本后,利用极大似然估计获取假设中分布的参数值。

    极大似然估计在《统计学习方法》中的应用:

    logistic回归中求参数w前提:知道概率密度函数

    贝叶斯的贝叶斯估计法

    贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发表了。这一发表不要紧,结果这篇论文的思想直接影响了接下来两个多世纪的统计学,是科学史上著名的论文之一。

    贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章,**尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。**

    什么是“逆向概率”呢?

    所谓“逆向概率”是相对“正向概率”而言。正向概率的问题很容易理解,比如我们已经知道袋子里面有 N 个球,不是黑球就是白球,其中 M 个是黑球,那么把手伸进去摸一个球,就能知道摸出黑球的概率是多少。**但这种情况往往是上帝视角,即了解了事情的全貌再做判断。

    一个袋子里有10个球,其中6个黑球,4个白球;那么随机抓一个黑球的概率是0.6!

    在现实生活中,我们很难知道事情的全貌。贝叶斯则从实际场景出发,提了一个问题:**如果我们事先不知道袋子里面黑球和白球的比例,而是通过我们摸出来的球的颜色,能判断出袋子里面黑白球的比例么?

    正是这样的一个问题,影响了接下来近 200 年的统计学理论。

    这是因为,贝叶斯原理与其他统计学推断方法截然不同,它是建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。

    一个例子:

    假设有一种病叫做“贝叶死”,它的发病率是万分之一,现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%,那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?

    我们假设:A 表示事件 “测出为阳性”, 用 B1 表示“患有贝叶死”, B2 表示“没有患贝叶死”。

    > 患有贝叶死的情况下,测出为阳性的概率为 P(A|B1)=99.9%,没有患贝叶死,但测出为阳性的概率为 P(A|B2)=0.1%。
    > 对万分之一的解读:。患有贝叶死的概率为 P(B1)=0.01%,没有患贝叶死的概率 P(B2)=99.99%。

    92b53aeefd691e8a2fcd4a104ee69a0e.png

    贝叶斯估计在《统计学习方法》中的应用:

    朴素贝叶斯模型

    求知鸟:朴素贝叶斯分类:原理zhuanlan.zhihu.com
    a5d1b132bce8b8a3f677f84b619f9ac3.png

    极大似然估计与贝叶斯估计的不同

    a9df63fbe2ed6d7cac181855cdbc0282.png
    区别在于:参数
    ;如果未知参数
    是定值,那么就是极大似然估计;

    如果未知参数
    服从一定的概率分布,那么就是贝叶斯估计!

    贝叶斯估计前提:各样本独立!这是一个很强的假设!

    在先验概率能保证问题有解的情况下,最大似然估计和贝叶斯估计在训练样本趋近于无穷时得到的结果是一样的!但是实际的模式识别问题中,训练样本总是有限的,我们应如何选择使用哪种模型呢?下面简单分析分析:

    就实现的复杂度来说,肯定是有限选择最大似然估计,最大似然估计中只需要使用到简单的微分运算即可,而在贝叶斯估计中则需要用到非常复杂的多重积分,不仅如此,贝叶斯估计相对来说也更难理解;

    当采用的样本数据很有限时,贝叶斯估计误差更小,毕竟在理论上,贝叶斯估计有很强的理论和算法基础。

    区间估计

    正式讲解之前先来理解一组概念:置信度与置信区间---包含了样本估计总体思想!!!

    很容易把95%,置信区间理解成为在这个区间内有95%的概率包含真值。

    95%的置信度下,变动的是置信区间(置信区间是一个随机区间,会因样本不同而变化,并且不是所有的区间都包含总体。)

    实际上,95%是置信度,样本数目不变的情况下,做一百次试验,有95个置信区间包含了总体真值。置信度为95%;

    a7d6f2ff7d22ef4c168b115762e48887.png
    虚线是我们要估计的值,横向线段是我们的置信区间;

    正因为在100个置信区间里有95个置信区间包括了真实值,所以当我们只做了一次置信区间时,我们也认为这个区间是可信的,是包含了总体参数真实值的。

    置信区间与置信度的关系:当样本量给定时,置信区间的宽度随着置信水平的增大而增大;当置信水平固定时,置信区间的宽度随样本量的增大而减小,也就是说,较大的样本所提供的有关总体的信息要比较小的样本多。

    区间估计(interval estimate)是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。

    区间估计在点估计的基础上,给出总体参数估计的一个范围,并指出总体参数落在这一范围的概率是多少!
    比如,根据样本结果得出年级平均分在75-85之间,而且全年级平均分落在这一区间的概率是95%,这就是区间估计!
    我们想知道一个年级的成绩平均分数,把一个班级平均分80作为整个年级成绩平均值,这就是点估计!

    区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间(confidence interval),其中区间的最小值称为置信下限,最大值称为置信上限。

    如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平(confidence level),也称为置信度或置信系数(confidence coefficient)。

    总体均值的区间估计

    正态总体且方差已知,或非正态总体、大样本,方差未知

    723090223988b6db85134914588f4f41.png
    样本均值经过标准化后的随机变量则服从正态分布,即

    021d9db7a1e56b554c277a98dd3624d0.png
    抽样分布服从Z分布

    edb71eb46452a9d5ee67f27adf62e569.png
    总体均值的区间估计

    bcd7371d91678b2211c6076bc119a1e8.png
    重复抽样与不重复抽样处理方法略有不同

    d92d09fb2cb725f937de7d46aabd3678.png

    举例如下:

    e31faa4a46bf035f5b3e98f2eb28267b.png
    总体正态,方差已知

    02a89c2d72b72325d6666044cd8b02cc.png
    总体正态,方差已知,不重复抽样

    正态总体、方差未知、小样本

    在总体服从正态分布的情况下,如果总体方差σ2未知,且样本较小的情况下,需要用样本方差s2代替σ2。这时,样本均值经过标准化以后的随机变量服从自由度为(n-1)的t分布,即

    92a86efaf6b245a2d22d13a4f714e867.png

    8ea108111373abb783592fe95e0caebc.png

    举例如下:

    1f5c24b52844945c099a6b254af42ff7.png

    对总体均值区间估计的总结:

    d441e8e4db6838db38ddd9041363d19f.png

    总体比例的区间估计

    在大样本的前提下,样本比例p的抽样分布可用正态分布近似。p的数学期望为E§=π,p的方差为σ2p=π(1-π)/n。而样本比例经标准化后的随机变量则服从标准正态分布,即

    117d1caba7c84850a1dab7b4d3d85090.png

    即得总体比例π在1-α置信水平下的置信区间为:

    3e6b8c737dde2f7964af4a9f398c17cd.png

    当通过上式计算总体比例π的置信区间时,π值应该是已知的。但实际情况不然,π值恰好是要估计的,所以需要用样本比例p来代替π。这种情况下,总体比例的置信区间可表示为:

    510ed33c62ab13438dcf952e7f501e16.png

    举例如下:

    a282c0506335b12765404e4beaf7095d.png

    大样本不重复抽样估计

    3077007b414c90894f92eb335a3ba146.png

    举例如下:

    1327217cbf831e170aa75578982ce8e9.png

    总体方差的区间估计

    对于总体方差的估计,这里只讨论正态总体方差的估计。根据样本方差的抽样分布可知,样本方差服从自由度为n-1的χ2分布。因此用χ2分布构造总体方差的置信区间。

    eec84ba5ecd220c8e01ce506815cf0af.png
    卡方分布是由正态分布变量导出的分布

    总体方差σ2在1-α置信水平下的置信区间为:

    29306dba948320ccfbe2a9ab1d4221b7.png

    举例如下:

    380e3a851118ea4f183f071386d124a1.png

    a4beeae5d082beaddea99016ecbf1b85.png

    总结:一个总体参数均值与方差的区间估计

    39133aec4d854745fef5e2b994b1d02f.png

    估计总体均值时样本量的确定

    总体均值的置信区间是由样本均值x和估计误差两部分组成的。在重复抽样或无限总体抽样条件下,估计误差为:

    04e29179769a1a44412ea09df0c93d8d.png

    其中zα/2的值和样本n共同确定了估计误差的大小。当确定了置信水平1-α,zα/2的值就确定了。对于给定的zα/2的值和总体标准差σ,就可以确定任一希望的估计误差所需要的样本量。令E代表所希望达到的估计误差,即:

    34491fb979a2f57429fe1b822194a9bf.png

    通过上式可以推导出确定样本量的公式如下

    31ebfb41cd678953792d7ff5c25308fc.png

    举例如下:

    4d09d87bf4abe35b3edc3ee287351db6.png

    估计总体比例时样本量的确定

    与估计总体均值时样本量确定的方法类似,在重复抽样或无限总体抽样条件下,估计总体比例置信区间的估计误差为:

    929883bbdab2b0da13abcdd48a3ce717.png

    由上式可知,zα/2的值、总体比例π和样本量n共同确定了估计误差的大小。令E代表所希望达到的估计误差,即:

    3507e158ce0967e078765dbe02f47725.png

    据此可以推导出重复抽样或无限总体抽样条件下确定样本量的公式如下:

    c9d128373c5f13646fad5281dadb2102.png

    举例如下:

    0d3b2177b1382a89d59696249f5e5061.png

    相关代码如下:

    #描述性分析 
    import pandas as pd
    import numpy as np
    from scipy import stats
    path = 'C://Users//baihua//Desktop//1202.csv'
    data = pd.read_csv(path)
    data=pd.DataFrame(data)
    vv = data['真曝vv']
    vv.mean()
    vv_sam_std=vv.std() 
    print(vv_sam_std)
    print(vv.describe())
    

    numpy与pandas中的std有差别:

    c329e52231d950076987923aaf46b9e4.png
    vv_std=vv.std() #pandas中的std()是无偏估计,默认分母是n-1
    print(vv_sam_std)
    
    vv_std1=vv.std(ddof=1)
    print(vv_std1)
    
    vv1_std=vv.std(ddof=0) #ddof=0,等价于np.std,默认分母是n
    print(vv1_std)
    
    vv2_std=np.std(vv)#
    print(vv2_std)
    
    vv3_std=np.std(vv,ddof=1)#
    print(vv3_std)
    
    vv_std2=np.std(vv,ddof=0)
    print(vv_std2)
    
    #输出
    8909068.733281827
    8909068.733281827
    8906162.496462276
    8906162.496462276
    8909068.733281827
    8906162.496462276
    

    正态分布下的置信区间

    import pandas as pd
    import numpy as np
    from scipy import stats
    
    #正态分布下的置信区间¶
    
    def norm_conf (vv,confidence=0.95):
    # https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html
        sample_mean = np.mean(vv)
        sample_std = np.std(vv,ddof=1)
        sample_size = len(vv)
        conf_intveral = stats.norm.interval(confidence, loc=sample_mean, scale=sample_std)
        print(conf_intveral)
    
    norm_conf(vv)
    
    (-15802703.998490665, 19120203.707557853)
    

    T分布下的置信区间

    # T分布下的置信区间
    def ttest_conf (vv,confidence=0.95):
        sample_mean = np.mean(vv)
        sample_std = np.std(vv,ddof=1)
        sample_size = len(vv)
        conf_intveral = stats.t.interval(confidence,df = (sample_size-1) , loc=sample_mean, scale=sample_std)
        print(conf_intveral)
        
    ttest_conf(scale_means)
    
    
    (-122026.36005017324, 3413830.5184101732)

    用Python实现一个总体均值的置信区间

    #Python实现一个总体均值的置信区间
    def mean_interval(mean=None, std=None, sig=None, n=None, confidence=0.95):
        """
        mean:样本均值
        std:样本标准差
        sig: 总体方差
        n:   样本量
        confidence:置信水平
        功能:构建总体均值的置信区间
        """
        alpha = 1 - confidence
        z_score = stats.norm.isf(alpha / 2)  # z分布临界值
        t_score = stats.t.isf(alpha / 2, df = (n-1) )  # t分布临界值
       
        if n >= 30 and sig != None:
            me = z_score*sig / np.sqrt(n)  # 误差
            lower_limit = mean - me
            upper_limit = mean + me
            
        if n >= 30 and sig == None:
            me = z_score*std / np.sqrt(n)
            lower_limit = mean - me
            upper_limit = mean + me
            
        if n < 30 and sig == None:
            me = t_score*std / np.sqrt(n)
            lower_limit = mean - me
            upper_limit = mean + me
        
        return (round(lower_limit, 3), round(upper_limit, 3))
     
    print(mean_interval(mean=8900, std=None, sig=500, n=35, confidence=0.95))
    print(mean_interval(mean=8900, std=500, sig=None, n=35, confidence=0.90))
    print(mean_interval(mean=8900, std=500, sig=None, n=35, confidence=0.99))
    
    (8734.353, 9065.647)
    (8760.984, 9039.016)
    (8682.303, 9117.697)
    

    实现一个总体方差的置信区间

    def std_interval(mean=None, std=None, n=None, confidence=0.95, para="总体标准差"):
        """
        mean:样本均值
        std:样本标准差
        n:   样本量
        confidence:置信水平
        para:总体估计参数
        功能:构建总体方差&总体标准差的置信区间
        """
        variance = np.power(std,2)
        alpha = 1 - confidence
        
        chi_score0 = stats.chi2.isf(alpha / 2, df = (n-1))
        chi_score1 = stats.chi2.isf(1 - alpha / 2, df = (n-1))
       
        if para =="总体标准差":
            lower_limit = np.sqrt((n-1)*variance / chi_score0)
            upper_limit = np.sqrt((n-1)*variance / chi_score1)
        if para =="总体方差":
            lower_limit = (n-1)*variance / chi_score0
            upper_limit = (n-1)*variance / chi_score1
            
        return (round(lower_limit, 2), round(upper_limit, 2))
     
    print(std_interval(mean=21, std=2, n=50, confidence=0.90))
    print(std_interval(mean=1.3, std=0.02, n=15, confidence=0.90))
    print(std_interval(mean=167, std=31, n=22, confidence=0.90) )
    
    
    (1.72, 2.4)
    (0.02, 0.03)
    (24.85, 41.73)
    

    实现两个总体方差比的置信区间

    '''
    d1: 数据1
    d2: 数据2
    confidence:置信水平
    para:总体估计参数
    功能:构建两个总体方差比&总体标准差比的置信区间
    
    '''
    
    data1 = [3.45, 3.22, 3.90, 3.20, 2.98, 3.70, 3.22, 3.75, 3.28, 3.50, 3.38, 3.35, 2.95, 3.45, 3.20, 3.16, 3.48, 3.12, 3.20, 3.18, 3.25]
    data2 = [3.22, 3.28, 3.35, 3.38, 3.19, 3.30, 3.30, 3.20, 3.05, 3.30, 3.29, 3.33, 3.34, 3.35, 3.27, 3.28, 3.16, 3.28, 3.30, 3.34, 3.25]
    
    def two_std_interval(d1, d2, confidence=0.95, para="两个总体方差比"):
    
        n1 = len(d1)
        n2 = len(d2)
        var1 = np.var(d1, ddof=1) # ddof=1 样本方差
        var2 = np.var(d2, ddof=1) # ddof=1 样本方差
        alpha = 1 - confidence
    
        f_score0 = stats.f.isf(alpha / 2, dfn=n1-1, dfd=n2-1) # F分布临界值
        f_score1 = stats.f.isf(1-alpha / 2, dfn=n1-1, dfd=n2-1) # F分布临界值
    
        if para == "两个总体标准差比":
            lower_limit = np.sqrt((var1 / var2) / f_score0)
            upper_limit = np.sqrt((var1 / var2) / f_score01)
        if para == "两个总体方差比":
            lower_limit = (var1 / var2) / f_score0
            upper_limit = (var1 / var2) / f_score1
    
        return (round(lower_limit, 2), round(upper_limit, 2))
    
    two_std_interval(data1, data2, confidence=0.95, para="两个总体方差比")
    
    Out[87]:
    
    (4.05, 24.61)
    

    tips:

    两个总体参数区间估计以后有时间再写……

    参考文献:

    贾俊平《统计学原理》第五章(一个总体参数区间估计不含总体方差估计,含总体比例估计)

    韩明《概率论与数理统计》(一个/两个总体参数区间估计含总体方差估计,不含比例估计)

    https://blog.csdn.net/qq_43315928/article/details/103658733

    最小二乘法的本质是什么?

    忆臻:一文搞懂极大似然估计

    马同学高等数学

    展开全文
  • 本篇文章只做知识的搬运工。本文目录:点估计:极大...样本量确定:估计总体均值时样本量的确定,估计总体比例时样本量的确定参数估计包括点估计和区间估计两类。点估计点估计(point estimate)是用样本统计量的某...

    d22559e50061c44896ea11b0720ad596.png
    本篇文章只做知识的搬运工。

    本文目录:

    点估计:极大似然估计,最小二乘估计,贝叶斯估计。
    区间估计:正态总体且方差已知,或非正态总体、大样本,方差未知;正态总体、方差未知、小样本;总体比例的区间估计; 大样本不重复抽样估计;总体方差的区间估计;
    样本量确定:估计总体均值时样本量的确定,估计总体比例时样本量的确定

    参数估计包括点估计和区间估计两类。

    点估计

    点估计(point estimate)是用样本统计量的某个取值直接作为总体参数的估计值。例如,用样本均值x直接作为总体均值μ的估计值,用样本方差s2直接作为总体方差σ2的估计值。点估计的方法有:矩估计法、顺序统计量法、最大似然法、最小二乘法、贝叶斯估计法。

    这篇文章主要介绍极大似然估计,最小二乘估计,贝叶斯估计。

    勒让德的最小二乘法

    最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。

    我们来理解最小二乘回归的本质:

    我们得到n组观测值,但真实值只有一个,该如何办?

    ce4a7aa3ad88274e81bb253552371610.png
    首先想到的是取n组观测值的平均值来当作“真实值”,这样靠谱吗?

    0d21baa65cee46143a2e1d6f6afbb78d.png

    就有人(勒让德)提出最小二乘的思路:

    1a20dd8edc4948f5a9a3d18a5521fa9f.png

    于是,我们对y求导

    6b62b6973172b7381df36783345d5210.png

    碰巧,算术平均数可以让误差最小!

    接下来,对最小二乘进行扩展:

    c632f5a28b6d8902f606075e966c7806.png

    85d19a65edd3b6906002e89bce84a99c.png

    可以假设这条直线的方程是:

    a3c1c958202f26f32264cb47d19a7193.png

    然后用最小二乘回归的思路:

    f299f878475b7262d584b4253ab768a7.png

    然后对a,b求偏导数求误差平方和的最小值:

    e8ba9663d6a21fa74885f09bc64a1b95.png

    773e9a6cfb5c0387e785145d77631314.png

    一次函数,二次函数都是线性函数!都可以通过解线性方程组来求解!

    以上这一套操作,都是假设啊,这时候勤学爱问高斯就站出来了:

    他用另一套思路来回答这个问题!

    勒让德用误差平方和最小来拟合直线:

    9623c11948d1f4d7d01cc13439be4e5d.png

    30151be5bae1f28a5103c5925cd47938.png

    现在可以来解这个微分方程了。最终得到:

    a71f19a8cd523aef7620bde42b746428.png

    这不就是我们的正态分布密度函数吗!

    并且这还是一个充要条件:

    ca3592d16ddbe64a68edd6e0e83e74d9.png

    也就是说,如果误差项服从正态分布,那么最小二乘估计就是完美的!

    那么误差项服从正态分布吗?

    如果误差项是随机产生的,那么根据中心极限定律,误差的分布就服从正态分布!

    由此,勒让德虽然提出了最小二乘的思路,但真正使它发扬光大的是高斯,高斯的努力,才真正奠定了最小二乘法的重要地位。

    学术上使用最小二乘估计一般遵循这样:

    求知鸟:关于统计学的思考(2)zhuanlan.zhihu.com
    3ae78a0dff144f3d85d81e238b4dde7f.png
    最小二乘估计的前提:随机误差项满足正态分布!最小二乘估计一般用在线性回归中,用来估计参数值!(最小二乘估计需要对参数求偏导数,所以要求误差函数连续可导!也就是要求误差函数是凸函数)。

    费歇尔的极大似然估计

    极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!

    在介绍极大似然估计之前,要先明白这样一组概念:

    对于这个函数:

    bfa86c76f8de8de790b14e53bd1af8dc.png

    输入有两个:x表示某一个具体的数据;θ表示模型的参数。

    如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。

    如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。(密度函数也叫似然函数)

    一句话总结:概率函数与似然函数是一个面团出来的两块馍。

    极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

    极大似然估计中采样需满足一个重要的假设,就是所有的采样都是独立同分布的。

    接下来,通过一个例子来理解极大似然估计的用途:

    假设我们要统计全国人民的年均收入,首先假设这个收入服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的收入。我们国家有10几亿人口呢?那么岂不是没有办法了?
    不不不,有了极大似然估计之后,我们可以采用嘛!我们比如选取一个城市,或者一个乡镇的人口收入,作为我们的观察样本结果。然后通过最大似然估计来获取上述假设中的正态分布的参数。

    总结:那么我们就知道了极大似然估计的核心关键就是对于一些情况,样本太多,无法得出分布的参数值,可以采样小样本后,利用极大似然估计获取假设中分布的参数值。

    极大似然估计在《统计学习方法》中的应用:

    logistic回归中求参数w前提:知道概率密度函数

    贝叶斯的贝叶斯估计法

    贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发表了。这一发表不要紧,结果这篇论文的思想直接影响了接下来两个多世纪的统计学,是科学史上著名的论文之一。

    贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章,**尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。**

    什么是“逆向概率”呢?

    所谓“逆向概率”是相对“正向概率”而言。正向概率的问题很容易理解,比如我们已经知道袋子里面有 N 个球,不是黑球就是白球,其中 M 个是黑球,那么把手伸进去摸一个球,就能知道摸出黑球的概率是多少。**但这种情况往往是上帝视角,即了解了事情的全貌再做判断。

    一个袋子里有10个球,其中6个黑球,4个白球;那么随机抓一个黑球的概率是0.6!

    在现实生活中,我们很难知道事情的全貌。贝叶斯则从实际场景出发,提了一个问题:**如果我们事先不知道袋子里面黑球和白球的比例,而是通过我们摸出来的球的颜色,能判断出袋子里面黑白球的比例么?

    正是这样的一个问题,影响了接下来近 200 年的统计学理论。

    这是因为,贝叶斯原理与其他统计学推断方法截然不同,它是建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。

    一个例子:

    假设有一种病叫做“贝叶死”,它的发病率是万分之一,现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%,那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?

    我们假设:A 表示事件 “测出为阳性”, 用 B1 表示“患有贝叶死”, B2 表示“没有患贝叶死”。

    > 患有贝叶死的情况下,测出为阳性的概率为 P(A|B1)=99.9%,没有患贝叶死,但测出为阳性的概率为 P(A|B2)=0.1%。
    > 对万分之一的解读:。患有贝叶死的概率为 P(B1)=0.01%,没有患贝叶死的概率 P(B2)=99.99%。

    c97aac40cbaa2c4695d5d03ccddbd6f6.png

    贝叶斯估计在《统计学习方法》中的应用:

    朴素贝叶斯模型

    求知鸟:朴素贝叶斯分类:原理zhuanlan.zhihu.com
    1225d2fe89d22eafc34766a7133a81c3.png

    极大似然估计与贝叶斯估计的不同

    1fce4c5307249e566b20512ca1ff0074.png
    区别在于:参数
    ;如果未知参数
    是定值,那么就是极大似然估计;

    如果未知参数
    服从一定的概率分布,那么就是贝叶斯估计!

    贝叶斯估计前提:各样本独立!这是一个很强的假设!

    在先验概率能保证问题有解的情况下,最大似然估计和贝叶斯估计在训练样本趋近于无穷时得到的结果是一样的!但是实际的模式识别问题中,训练样本总是有限的,我们应如何选择使用哪种模型呢?下面简单分析分析:

    就实现的复杂度来说,肯定是有限选择最大似然估计,最大似然估计中只需要使用到简单的微分运算即可,而在贝叶斯估计中则需要用到非常复杂的多重积分,不仅如此,贝叶斯估计相对来说也更难理解;

    当采用的样本数据很有限时,贝叶斯估计误差更小,毕竟在理论上,贝叶斯估计有很强的理论和算法基础。

    区间估计

    正式讲解之前先来理解一组概念:置信度与置信区间---包含了样本估计总体思想!!!

    很容易把95%,置信区间理解成为在这个区间内有95%的概率包含真值。

    95%的置信度下,变动的是置信区间(置信区间是一个随机区间,会因样本不同而变化,并且不是所有的区间都包含总体。)

    实际上,95%是置信度,样本数目不变的情况下,做一百次试验,有95个置信区间包含了总体真值。置信度为95%;

    a26e53ba26c14b4fab1c9c8eb9cde1a7.png
    虚线是我们要估计的值,横向线段是我们的置信区间;

    正因为在100个置信区间里有95个置信区间包括了真实值,所以当我们只做了一次置信区间时,我们也认为这个区间是可信的,是包含了总体参数真实值的。

    置信区间与置信度的关系:当样本量给定时,置信区间的宽度随着置信水平的增大而增大;当置信水平固定时,置信区间的宽度随样本量的增大而减小,也就是说,较大的样本所提供的有关总体的信息要比较小的样本多。

    区间估计(interval estimate)是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。

    区间估计在点估计的基础上,给出总体参数估计的一个范围,并指出总体参数落在这一范围的概率是多少!
    比如,根据样本结果得出年级平均分在75-85之间,而且全年级平均分落在这一区间的概率是95%,这就是区间估计!
    我们想知道一个年级的成绩平均分数,把一个班级平均分80作为整个年级成绩平均值,这就是点估计!

    区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间(confidence interval),其中区间的最小值称为置信下限,最大值称为置信上限。

    如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平(confidence level),也称为置信度或置信系数(confidence coefficient)。

    总体均值的区间估计

    正态总体且方差已知,或非正态总体、大样本,方差未知

    019e4468be11b6b02229233301540610.png
    样本均值经过标准化后的随机变量则服从正态分布,即

    d2681e2fc3b11ca7c78d7b6af804c7ef.png
    抽样分布服从Z分布

    6a6c330c478e5f22af71bd0beef21725.png
    总体均值的区间估计

    0be0a725cf703ff0d3a44bcef21322df.png
    重复抽样与不重复抽样处理方法略有不同

    d35734e0b31f636cc2267b0a877550ed.png

    举例如下:

    bf5e9e45419c88af20c152ef1bc3a4af.png
    总体正态,方差已知

    a6ae360f9dc9f568310b39490873e406.png
    总体正态,方差已知,不重复抽样

    正态总体、方差未知、小样本

    在总体服从正态分布的情况下,如果总体方差σ2未知,且样本较小的情况下,需要用样本方差s2代替σ2。这时,样本均值经过标准化以后的随机变量服从自由度为(n-1)的t分布,即

    94b7b0ed2b6ca3a20c0e1a2a178cca7f.png

    5f2b8dfad9dc3413c63f1442fa7f3628.png

    举例如下:

    ad8fb94b87c1fd31e3614ca7d86fec34.png

    对总体均值区间估计的总结:

    0fb8e9beb27f9e8c5a50c9f370f3c666.png

    总体比例的区间估计

    在大样本的前提下,样本比例p的抽样分布可用正态分布近似。p的数学期望为E§=π,p的方差为σ2p=π(1-π)/n。而样本比例经标准化后的随机变量则服从标准正态分布,即

    19b889fb372b2aecc2de2faa4353cb1b.png

    即得总体比例π在1-α置信水平下的置信区间为:

    b74e7c0159c81ff23d15aae99c250fd6.png

    当通过上式计算总体比例π的置信区间时,π值应该是已知的。但实际情况不然,π值恰好是要估计的,所以需要用样本比例p来代替π。这种情况下,总体比例的置信区间可表示为:

    0e95625b33951fbdca09c809b883ca6d.png

    举例如下:

    d28f8379da13675f7920959b449daa43.png

    大样本不重复抽样估计

    d463c4a1498218d594c8b6660b1cd20e.png

    举例如下:

    1303f34e5eec94972e4f55ad3a98a260.png

    总体方差的区间估计

    对于总体方差的估计,这里只讨论正态总体方差的估计。根据样本方差的抽样分布可知,样本方差服从自由度为n-1的χ2分布。因此用χ2分布构造总体方差的置信区间。

    292cbb6a9b9df1997c120c80dc740ef8.png
    卡方分布是由正态分布变量导出的分布

    总体方差σ2在1-α置信水平下的置信区间为:

    33e198474f2ee18e6b188a1945c434c7.png

    举例如下:

    3a01315380a8c476a9153a86ef2375f4.png

    fd6198164569d46c19ab2cc393ec5082.png

    总结:一个总体参数均值与方差的区间估计

    f1d8317d6391e34d38687c0a4d1b05c2.png

    估计总体均值时样本量的确定

    总体均值的置信区间是由样本均值x和估计误差两部分组成的。在重复抽样或无限总体抽样条件下,估计误差为:

    9323de39f5ff227be69c9160a0b4254e.png

    其中zα/2的值和样本n共同确定了估计误差的大小。当确定了置信水平1-α,zα/2的值就确定了。对于给定的zα/2的值和总体标准差σ,就可以确定任一希望的估计误差所需要的样本量。令E代表所希望达到的估计误差,即:

    3f87f7050291e2033968684d6cc0d158.png

    通过上式可以推导出确定样本量的公式如下

    4ac7e0fe8feee0b93fe1d905200464d4.png

    举例如下:

    d51f824cd10007115c921a89b6445c22.png

    估计总体比例时样本量的确定

    与估计总体均值时样本量确定的方法类似,在重复抽样或无限总体抽样条件下,估计总体比例置信区间的估计误差为:

    354c54413de1beccc1aae9787dcd2a3a.png

    由上式可知,zα/2的值、总体比例π和样本量n共同确定了估计误差的大小。令E代表所希望达到的估计误差,即:

    f347ab385a182aff6b575d7b08c16d4b.png

    据此可以推导出重复抽样或无限总体抽样条件下确定样本量的公式如下:

    6825139b21dc7b913de14218ab0ef691.png

    举例如下:

    cf365a41c5fb9068f7bb9de059730558.png

    相关代码如下:

    #描述性分析 
    import pandas as pd
    import numpy as np
    from scipy import stats
    path = 'C://Users//baihua//Desktop//1202.csv'
    data = pd.read_csv(path)
    data=pd.DataFrame(data)
    vv = data['真曝vv']
    vv.mean()
    vv_sam_std=vv.std() 
    print(vv_sam_std)
    print(vv.describe())
    

    numpy与pandas中的std有差别:

    170f37c2ed83d4d170b3d33a5564884e.png
    vv_std=vv.std() #pandas中的std()是无偏估计,默认分母是n-1
    print(vv_sam_std)
    
    vv_std1=vv.std(ddof=1)
    print(vv_std1)
    
    vv1_std=vv.std(ddof=0) #ddof=0,等价于np.std,默认分母是n
    print(vv1_std)
    
    vv2_std=np.std(vv)#
    print(vv2_std)
    
    vv3_std=np.std(vv,ddof=1)#
    print(vv3_std)
    
    vv_std2=np.std(vv,ddof=0)
    print(vv_std2)
    
    #输出
    8909068.733281827
    8909068.733281827
    8906162.496462276
    8906162.496462276
    8909068.733281827
    8906162.496462276
    

    正态分布下的置信区间

    import pandas as pd
    import numpy as np
    from scipy import stats
    
    #正态分布下的置信区间¶
    
    def norm_conf (vv,confidence=0.95):
    # https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html
        sample_mean = np.mean(vv)
        sample_std = np.std(vv,ddof=1)
        sample_size = len(vv)
        conf_intveral = stats.norm.interval(confidence, loc=sample_mean, scale=sample_std)
        print(conf_intveral)
    
    norm_conf(vv)
    
    (-15802703.998490665, 19120203.707557853)
    

    T分布下的置信区间

    # T分布下的置信区间
    def ttest_conf (vv,confidence=0.95):
        sample_mean = np.mean(vv)
        sample_std = np.std(vv,ddof=1)
        sample_size = len(vv)
        conf_intveral = stats.t.interval(confidence,df = (sample_size-1) , loc=sample_mean, scale=sample_std)
        print(conf_intveral)
        
    ttest_conf(scale_means)
    
    
    (-122026.36005017324, 3413830.5184101732)

    用Python实现一个总体均值的置信区间

    #Python实现一个总体均值的置信区间
    def mean_interval(mean=None, std=None, sig=None, n=None, confidence=0.95):
        """
        mean:样本均值
        std:样本标准差
        sig: 总体方差
        n:   样本量
        confidence:置信水平
        功能:构建总体均值的置信区间
        """
        alpha = 1 - confidence
        z_score = stats.norm.isf(alpha / 2)  # z分布临界值
        t_score = stats.t.isf(alpha / 2, df = (n-1) )  # t分布临界值
       
        if n >= 30 and sig != None:
            me = z_score*sig / np.sqrt(n)  # 误差
            lower_limit = mean - me
            upper_limit = mean + me
            
        if n >= 30 and sig == None:
            me = z_score*std / np.sqrt(n)
            lower_limit = mean - me
            upper_limit = mean + me
            
        if n < 30 and sig == None:
            me = t_score*std / np.sqrt(n)
            lower_limit = mean - me
            upper_limit = mean + me
        
        return (round(lower_limit, 3), round(upper_limit, 3))
     
    print(mean_interval(mean=8900, std=None, sig=500, n=35, confidence=0.95))
    print(mean_interval(mean=8900, std=500, sig=None, n=35, confidence=0.90))
    print(mean_interval(mean=8900, std=500, sig=None, n=35, confidence=0.99))
    
    (8734.353, 9065.647)
    (8760.984, 9039.016)
    (8682.303, 9117.697)
    

    实现一个总体方差的置信区间

    def std_interval(mean=None, std=None, n=None, confidence=0.95, para="总体标准差"):
        """
        mean:样本均值
        std:样本标准差
        n:   样本量
        confidence:置信水平
        para:总体估计参数
        功能:构建总体方差&总体标准差的置信区间
        """
        variance = np.power(std,2)
        alpha = 1 - confidence
        
        chi_score0 = stats.chi2.isf(alpha / 2, df = (n-1))
        chi_score1 = stats.chi2.isf(1 - alpha / 2, df = (n-1))
       
        if para =="总体标准差":
            lower_limit = np.sqrt((n-1)*variance / chi_score0)
            upper_limit = np.sqrt((n-1)*variance / chi_score1)
        if para =="总体方差":
            lower_limit = (n-1)*variance / chi_score0
            upper_limit = (n-1)*variance / chi_score1
            
        return (round(lower_limit, 2), round(upper_limit, 2))
     
    print(std_interval(mean=21, std=2, n=50, confidence=0.90))
    print(std_interval(mean=1.3, std=0.02, n=15, confidence=0.90))
    print(std_interval(mean=167, std=31, n=22, confidence=0.90) )
    
    
    (1.72, 2.4)
    (0.02, 0.03)
    (24.85, 41.73)
    

    实现两个总体方差比的置信区间

    '''
    d1: 数据1
    d2: 数据2
    confidence:置信水平
    para:总体估计参数
    功能:构建两个总体方差比&总体标准差比的置信区间
    
    '''
    
    data1 = [3.45, 3.22, 3.90, 3.20, 2.98, 3.70, 3.22, 3.75, 3.28, 3.50, 3.38, 3.35, 2.95, 3.45, 3.20, 3.16, 3.48, 3.12, 3.20, 3.18, 3.25]
    data2 = [3.22, 3.28, 3.35, 3.38, 3.19, 3.30, 3.30, 3.20, 3.05, 3.30, 3.29, 3.33, 3.34, 3.35, 3.27, 3.28, 3.16, 3.28, 3.30, 3.34, 3.25]
    
    def two_std_interval(d1, d2, confidence=0.95, para="两个总体方差比"):
    
        n1 = len(d1)
        n2 = len(d2)
        var1 = np.var(d1, ddof=1) # ddof=1 样本方差
        var2 = np.var(d2, ddof=1) # ddof=1 样本方差
        alpha = 1 - confidence
    
        f_score0 = stats.f.isf(alpha / 2, dfn=n1-1, dfd=n2-1) # F分布临界值
        f_score1 = stats.f.isf(1-alpha / 2, dfn=n1-1, dfd=n2-1) # F分布临界值
    
        if para == "两个总体标准差比":
            lower_limit = np.sqrt((var1 / var2) / f_score0)
            upper_limit = np.sqrt((var1 / var2) / f_score01)
        if para == "两个总体方差比":
            lower_limit = (var1 / var2) / f_score0
            upper_limit = (var1 / var2) / f_score1
    
        return (round(lower_limit, 2), round(upper_limit, 2))
    
    two_std_interval(data1, data2, confidence=0.95, para="两个总体方差比")
    
    Out[87]:
    
    (4.05, 24.61)
    

    tips:

    两个总体参数区间估计以后有时间再写……

    参考文献:

    贾俊平《统计学原理》第五章(一个总体参数区间估计不含总体方差估计,含总体比例估计)

    韩明《概率论与数理统计》(一个/两个总体参数区间估计含总体方差估计,不含比例估计)

    https://blog.csdn.net/qq_43315928/article/details/103658733

    最小二乘法的本质是什么?

    忆臻:一文搞懂极大似然估计

    马同学高等数学

    展开全文
  • 参数估计

    千次阅读 2019-09-02 22:09:01
    参数估计包括点估计和区间估计两类。 点估计 点估计是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。 点估计(point estimate)是用样本统计量的某个...

    参数估计包括点估计和区间估计两类。

    点估计

    点估计是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。

    点估计(point estimate)是用样本统计量的某个取值直接作为总体参数的估计值。例如,用样本均值x直接作为总体均值μ的估计值,用样本方差s2直接作为总体方差σ2的估计值。点估计的方法有:矩估计法、顺序统计量法、最大似然法、最小二乘法。

    矩估计法:矩是指以期望为基础而定义的数字特征,一般分为原点矩和中心矩。设X为随机变量,对任意正整数k,称E(Xk)为随机变量X的k阶原点矩,记为:
    mk=E(Xk) m_k=E(X^k)
    当k=1时,m1=E(X)=μ,可见一阶原点矩为随机变量X的数学期望。

    把Ck=E[X-E(X)]k称为以E(X)为中心的k阶中心矩。显然,当k=2时,C2=E[X-E(x)]22,可见二阶中心矩为随机变量X的方差。

    顺序统计量法:用样本中位数估计总体的数学期望的方法称数学期望的顺序统计量估计法。顺序统计量估计法的优点是计算简便,且中位数不易受个别异常数据的影响.如果一组样本值某一数据异常(如过于小或过于大),则这个异常数据可能是总体的随机性造成的,也可能是受外来干扰造成的(如工作人员粗心,记录错误),当原因属于后者,用样本平均值\overline{x}估计E(x)显然受到影响,但用样本中位数估计总体期望时,由于一个(甚至几个)异常的数据不易改变中位数的取值,所以估计值不易受到影响。

    最大似然法(Maximum Likelihood):它用来求一个样本集的相关概率密度函数的参数。

    最小二乘法(generalized least squares):是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。 最小二乘法是用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小。 最小二乘法通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。

    区间估计

    区间估计(interval estimate)是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。

    区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间(confidence interval),其中区间的最小值称为置信下限,最大值称为置信上限。

    如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平(confidence level),也称为置信度或置信系数(confidence coefficient)。

    区间估计的正确理解方式:区间估计并不是总体参数落在某个区间的概率,而是抽取的多个样本中有多大的概率包含总体参数,由此通过概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。

    一个总体参数的区间估计

    研究一个总体时,所关心的参数主要有总体均值μ、总体比例π和总体方差σ2等。

    1. 总体均值的区间估计

      对总体均值进行区间估计时,需要考虑总体是否为正态分布,总体方差是否已知,用于构造估计量的样本是大样本(通常要求n≥30)还是小样本(n<30)等几种情况。下面分两种情况来分析:

      (1)正态总体、方差已知,或非正态总体、大样本

      当总体服从正态分布且方差已知,或总体非正态分布但样本为大样本时,样本均值x的抽样分布服从正态分布,其数学期望为总体均值μ,方差为σ2/n。样本均值经过标准化后的随机变量则服从正态分布,即
      z=xμσ/nN(0,1) z=\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}\thicksim N(0,1)
      根据式上式和正态分布的性质可以得出总体均值μ在1-α置信水平下的置信区间为:
      x±zα/2σn \overline{x}\pm{z_{\alpha/2}}\frac{\sigma}{\sqrt{n}}

      (2)正态总体、方差未知、小样本

      在总体服从正态分布的情况下,如果总体方差σ2未知,且样本较小的情况下,需要用样本方差s2代替σ2。这时,样本均值经过标准化以后的随机变量服从自由度为(n-1)的t分布,即
      t=xμs/nt(n1) t=\frac{\overline{x}-\mu}{s/\sqrt{n}}\thicksim{t(n-1)}
      因此需要采用t分布来建立总体均值μ的置信区间。根据t分布建立的总体均值μ在1-α置信水平下的置信区间为:
      x±tα/2sn \overline{x}\pm{t_{α/2}\frac{s}{\sqrt{n}}}

    2. 总体比例的区间估计

      在大样本的前提下,样本比例p的抽样分布可用正态分布近似。p的数学期望为E§=π,p的方差为σ2p=π(1-π)/n。而样本比例经标准化后的随机变量则服从标准正态分布,即
      z=pππ(1π)/nN(0,1) z=\frac{p-\pi}{\sqrt{\pi(1-\pi)/n}}\thicksim{N(0,1)}
      与总体均值的区间估计类似,在样本比例p的基础上加减估计误差zα/2σp,即得总体比例π在1-α置信水平下的置信区间为:
      p±zα/2π(1π)n p\pm{z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}}
      当通过上式计算总体比例π的置信区间时,π值应该是已知的。但实际情况不然,π值恰好是要估计的,所以需要用样本比例p来代替π。这种情况下,总体比例的置信区间可表示为:
      p±zα/2p(1p)n p\pm{z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}}}

    3. 总体方差的区间估计

      对于总体方差的估计,这里只讨论正态总体方差的估计。根据样本方差的抽样分布可知,样本方差服从自由度为n-1的χ2分布。因此用χ2分布构造总体方差的置信区间。

      总体方差σ2在1-α置信水平下的置信区间为:
      (n1)s2χα/22σ2(n1)s2χ1α/22 \frac{(n-1)s^2}{{\chi^2_{\alpha/2}}}\leq\sigma^2\leq\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}

    两个总体参数的区间估计后续讨论。

    样本量的确定

    通过区间估计可以了解到样本量的选择对于问题的求解至关重要,大样本(n≥30)和小样本(n<30)求解的方法不同。同样是大样本选择多大的样本来估计参数比较合适?

    通常,样本量的确定与可以容忍的置信区间的宽度以及对此区间设置的置信水平有一定关系。因此如何确定一个适当的样本量,也是抽样估计中需要考虑的问题。

    估计总体均值时样本量的确定

    总体均值的置信区间是由样本均值x和估计误差两部分组成的。在重复抽样或无限总体抽样条件下,估计误差为:
    zα/2σn z_{\alpha/2}\frac{\sigma}{\sqrt{n}}
    其中zα/2的值和样本n共同确定了估计误差的大小。当确定了置信水平1-α,zα/2的值就确定了。对于给定的zα/2的值和总体标准差σ,就可以确定任一希望的估计误差所需要的样本量。令E代表所希望达到的估计误差,即:
    E=zα/2σn E=z_{\alpha/2}\frac{\sigma}{\sqrt{n}}
    通过上式可以推导出确定样本量的公式如下:
    n=(zα/2)2σ2E2 n=\frac{(z_{\alpha/2})^2\sigma^2}{E^2}
    式中的E值是使用者在给定的置信水平下可以接受的估计误差,zα/2的值可直接由区间估计中所用到的置信水平确定。当σ未知时,可以用样本的标准差来代替;也可以用试验调查的办法,选择一个初始样本,以该样本的标准差作为σ的估计值。

    从上式可以看出,样本量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量也就越大;样本量与总体方差成正比,总体的差异越大,所要求的样本量也越大;样本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量就越小。

    估计总体比例时样本量的确定

    与估计总体均值时样本量确定的方法类似,在重复抽样或无限总体抽样条件下,估计总体比例置信区间的估计误差为:
    zα/2π(1π)n {z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}}
    由上式可知,zα/2的值、总体比例π和样本量n共同确定了估计误差的大小。令E代表所希望达到的估计误差,即:
    E=zα/2π(1π)n E=z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}
    据此可以推导出重复抽样或无限总体抽样条件下确定样本量的公式如下:
    n=(zα/2)2π(1π)E2 n=\frac{(z_{\alpha/2})^2\pi(1-\pi)}{E^2}
    式中的估计误差E必须是使用者事先确定的,大多数情况下,一般取E的值小0.10。zα/2的值可直接由区间估计中所用导的置信水平确定。如果π未知,可以用类似的样本比例来代替;也可以用试验调查的办法,选择一个初始样本,以该样本的比例作为π的估计值。当π的值无法知道时,通常取使π(1-π)最大时的0.5。

    参考文献

    点估计

    顺序量统计法

    最大似然估计

    最小二乘法

    《统计学(第六版)》:贾俊平

    展开全文
  • 考研数学重要考点:参数估计问题参数估计这章,数一和数三公共考点为点估计,包括矩估计和极大似然估计,另外数一还考查区间估计,包括单个正态总体的均值和方差的区间估计、两个正态总体的均值差和方差比的区间估计...

    124756dd238c628d133d5e3e208f8005.png

    考研数学重要考点:参数估计问题

    参数估计这章,数一和数三公共考点为点估计,包括矩估计和极大似然估计,另外数一还考查区间估计,包括单个正态总体的均值和方差的区间估计、两个正态总体的均值差和方差比的区间估计。本章考研主要题型为(1)参数的点估计:矩估计、极大似然估计、估计量的评选标准(数一考查)(2)参数的区间估计:正态总体的区间估计(数一考查)。矩估计的基本思想:由大数定律可知样本矩、样本矩的连续函数依概率收敛于相应的总体矩、总体矩的连续函数,由此可建立总体分布中未知参数满足的方程(组),解之可得总体未知参数的点估计。这种构造点估计量的方法称为矩估计法,求得的点估计称为矩估计量(值)。其方法步骤如下:1)构建未知参数的方程,通过总体的原点矩来构造2)解方程,解出未知参数3)用样本矩代替总体矩,得未知参数的矩估计量(值)。极大似然估计法的基本思想:样本发生的可能性最大原则——即对未知参数进行估计时,在未知参数的变化范围内选取使“样本取此观测值”的概率最大的参数值作为未知参数的点估计。这样得到的矩估计值为最大似然估计值,相应的量为最大似然估计量。其方法步骤为:“造似然”求导数,找驻点得估计。1)构造似然函数,注意,离散总体和连续总体的似然函数不同2)取对数3)求导数找驻点得估计。注意,若似然方程无解,则必有导数大于或小于零,此时只要在未知参数的变化范围内找其右边界点或左边界点即可。估计量的评选标准:无偏性、有效性、一致性,掌握其概念即可。无偏估计考查较多。参数的区间估计了解区间估计概念、掌握求置信区间的方法。求置信区间的一般方法步骤为:第一步,选枢轴量定分布;第二步,造大概率事件得不等式;第三步,解不等式得置信区间。以上是数一和数三对参数估计部分的全部考点,期望大家能熟练理解其思想和熟练掌握方法步骤,多练习,已达到熟练解题的要求。◆◆典型习题◆◆1c8e766c38c52c0cc8a9f26a377d8045.png1c8e766c38c52c0cc8a9f26a377d8045.png

    习题

    0bc692d9f784db67488d91b193abb6ef.png

    1c8e766c38c52c0cc8a9f26a377d8045.png1c8e766c38c52c0cc8a9f26a377d8045.png

    (点击图片查看大图)

    ◆◆答案解析◆◆7b6413bb2f3e6c4bcbbf2dc19cda6249.gif7b6413bb2f3e6c4bcbbf2dc19cda6249.gif7b6413bb2f3e6c4bcbbf2dc19cda6249.gif1c8e766c38c52c0cc8a9f26a377d8045.png1c8e766c38c52c0cc8a9f26a377d8045.png

    你做对了吗?

    答案解析

    d4146d391b97e751b0f024d3bb0a83ee.png

    1c8e766c38c52c0cc8a9f26a377d8045.png1c8e766c38c52c0cc8a9f26a377d8045.png

    (点击图片查看大图)

    8dad76824269eecc27ad2b3770ce3787.png

    1ae5ae83e445312441e7c02a1f003d8e.png

    展开全文
  • 正态总体数学期望的区间估计总结,包括单个正态总体和两个正态总体(相互独立)的双侧和单侧区间估计
  • 参数估计的性质不同,分成点估计:用样本统计量的某一具体数值直接推断未知的总体参数,常用方法包括极大似然估计、贝叶斯估计、矩估计、最小二乘法等; 区间估计:在点估计的基础上,由样本统计量所构造的总体...
  • 参数估计和假设检验

    2019-10-22 11:00:53
    统计学方法包括统计描述和统计推断两种方法,其中,推断统计又包括参数估计和假设检验。 1.参数估计就是用样本统计...区间估计是在点估计的基础上给出总体参数估计的一个估计区间,该区间是由样本统计量加减允许误...
  • 参数估计方法整理

    万次阅读 2018-08-06 10:33:27
    参数估计包括点估计和区间估计。 常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计 区间估计:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论 一、点估计 1、矩估计 矩...
  • 参数估计与假设检验的区别和联系

    万次阅读 2019-05-11 18:09:08
    参数估计与假设检验的区别和联系 统计学方法包括统计描述和统计推断两种方法,其中,推断统计又包括参数估计和假设检验。 参数估计 参数估计就是用样本统计量去...区间估计是在点估计的基础上给出总体参数估计...
  • 非正态总体区间估计

    2020-10-13 11:24:54
    之前已经写过关于正态总体下区间估计的计算方式,其中包括单正态总体和双正态总体两种,本篇文章主要围绕非正态总体下如何进行区间估计。 上期补充 单侧置信区间 定义 总体x的分布函数为F(x;θ),其中θ是未知参数...
  • 参数估计包括:点估计和区间估计。 常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计 最大似然估计 Maximum-Likelihood 前提(似然与概率) 似然函数: 给定输出x时,关于参数θ的似然函数L(θ|x)(在...
  • 统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。 一、参数估计基础-Z分布 在统计应用中,可以把任何一个均数为,标准差为的正态分布转变为,的标准正态分布,即将...
  • 该文档详细介绍了非参数估计的方法,即直接用已知类别样本去估计总体密度分布的方法,包括概率密度估计,Parzen窗估计,Kn-近邻估计,最近邻规则,并介绍了一些改进的近邻估计法,是十分有启发性的讲义。
  • 一, 内容导入 在企业生产过程中,我们要时刻监控产品的质量,而评估一批产品的好坏时,很多时候都需要计算产品的平均重量、平均寿命等,一种方法是测量出所有...参数估计就是对总体分布参数的估计,包括期望、方差、
  • 参数估计就是用样本统计量去估计总体的未知参数(或参数的函数),如估计总体均值、估计总体比率和总体方差等等。参数估计有两种最基本形式:点估计和区间估计。点估计是用一个数值作为未知参数θ的估计值,而区间...
  • 概率论2---参数估计

    2016-10-28 23:31:16
    总体分布未知,我要对它的分布做估计,这叫做非参数估计总体分布已知或者已经通过非参数估计求出来了,只需要对其中的未知参数做估计 你可能会说还有一个数字特征呢!数字特征主要是涉及到分布里面的参数,参数求...
  • 我们知道了总体的分布,但不知道分布的参数,因此我们就要对未知的参数做出估计。 两个类型的估计: 1.点估计 2.区间估计   1.点估计 包括估计和极大似然估计 1)矩估计: 用样本矩去估计总体矩 这里就...
  • 统计学方法包括统计描述和统计推断两种方法,其中,推断统计又包括参数估计和假设检验。 1.参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计和区间估计两种。 点估计就是直接以样本统计量...
  • 样式的自动识别与参数估计技术。所做的工作主要包括: 1、提出了利用小波变换结合谱分析技术估计数字通信信号码速率的方法;提出 了采用总体概率分布估计与支持矢量机分类器相结合对多进制数字基带信号自动分 类的...
  • “利用样本数据对总体方差进行区间估计的方法,以及相应的蒙特卡洛模拟”对于某个总体(数据集),我们感兴趣的特性包括总体均值和总体方差,总体均值均值刻画了数据集的中心趋势(总体比率也是一种均值),总体方差体现...
  • 参数估计包括点估计和区间估计。 点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计; 区间估计:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论。 关系:区间估计 = 点估计 ± 边际...
  • 参数检验之t检验

    千次阅读 2019-09-07 23:07:05
    参数检验:包括参数估计、假设检验。参数检验即,在已知随机变量总体分布类型的前提下,估计随机变量总体分布的参数,如总体分布的均值、方差等,并对估计值进行假设检验,已判断估计值是否可信。 所谓假设检验,即...
  • 统计推断的三大基本形式: 抽样分布 参数估计(点估计、区间估计) 假设检验(参数检验、非参数检验) 一、 置信区间 在实际中,我们通常得...参数估计包括:点估计与区间估计 点估计实际上就是利用样本算出一个值来
  • 软件工程之总体设计

    2020-06-26 19:09:32
    软件价格估计参数化算法:C=f(v) c是原件价格 v所选取的应i想软件价格的独立参数 代码行估算 源代码行,不包括注释行 软件需求的指导性原则: 1、在开始建立分析模型前,先理解问题 2、开发原型,使得用户将...
  •  基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。一般步骤包括: 写出似然函数 对似然函数取对数,并整理 求导数 解似然方程 对于思想...
  • 一、 区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。区间...
  • 概率与统计 笔记

    2018-11-15 10:17:00
    参数估计总体分布的概率密度函数的形式未知,由数据直接估计概率密度函数本身(包括形式及其参数)。 参考链接:https://blog.csdn.net/drrlalala/article/details/45533821 转载于:...
  • 统计学术语及关系——显著性检验

    千次阅读 2016-12-21 11:22:48
    包括参数估计与假设检验,指事先对总体的参数或者总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合理。即分为两个步骤:第一步需说明样本是否能代表总体,第二步用样本判定假设。   1.参数估计概念...

空空如也

空空如也

1 2 3 4 5
收藏数 87
精华内容 34
关键字:

总体参数估计包括