精华内容
下载资源
问答
  • 关于参数估计的两种途径的理解

    千次阅读 2018-08-08 14:18:15
    首先明白:参数估计的最终目标是为了得到随机变量x的密度函数,这是二者的共同目的。 然而在实现这一目的的过程中,由于对这个参数的理解不同,所以最后得到的x的密度函数的表达形式也不尽相同。 频率派认为这个...

    注:此文为本人记录所用,不保证正确无误,若有问题还望看到的人及时批评指正,多谢。


    首先明白:参数估计的最终目标是为了得到随机变量x的密度函数,这是二者的共同目的。
    然而在实现这一目的的过程中,由于对这个参数的理解不同,所以最后得到的x的密度函数的表达形式也不尽相同。
    频率派认为这个参数是个定值,求到了这个定值之后,就可以直接带入,得到x的密度函数,比如说x服从高斯分布,在已知其方差的情况下,我们只需要估计得x的期望(通过取对数,求导等方式获得),然后直接带入,就是一个完整且确定的密度函数;
    而贝叶斯派则认为这个参数并不是一个定值,而是服从某种分布的随机变量,也就是说,它也有自己的密度函数,还想如同极大似然估计那样直接带入?那是明显不行的,因为这个密度函数会随着θ的变化而变化,是个不确定的值。那么我们应该怎么表示这个最终的目标:x的密度函数?下面是我对老师给的教材的第6讲,第11页的算术推导的理解:
    式子1
    这第一个式子的左边表示:在已有训练集大X的前提下,θ与x的联合概率密度,右边第一个因子表示以训练集与未知数θ为条件下,x的密度函数,第二个因子表示以训练集为条件的θ的条件概率。这个θ似乎很多余,很讨厌,如果没有的话,就是个很简单的条件概率计算公式。如果真的这么写的话,那就很清爽,很美观了(就是我们平常见到的贝叶斯公式嘛);嗯……如果真的这么写的话,我们后来的内容也就无法继续了。θ参与其中是可以理解的,因为x的密度函数以θ作为参数。
    式子2
    这个式子是说x可以由参数θ来独立表示出来,它只跟θ有关,不用训练集,跟训练集没有关系,这是很好理解的。
    式子3
    由全概率公式得到具体的x的概率密度的计算方法,这个就是我们的最终目的了。注意右方的积分对象的第一个因式P(x|θ),这个是含有θ的x的概率密度函数,表达式里面既有θ,也必有x;第二个因式是关于θ的表达式。所以二者相乘,是关于x,θ的。最后我们将其关于θ积分,就抹去了θ,只剩下x了,也就是我们所需要的x的密度函数。


    在教材中的example部分,我觉得很有些问题很容易让人迷惑。1.尤其是第14页的那张图,好像表达的意思就是:测试集的样本空间越大,对μ的估计就越来越接近真实值,2.而且第13页的计算中也是用到了取对数然后求导的方法。这个好像就是频率派的所作所为嘛。很容易让人觉得困惑。
    例子是这样描述的:某随机变量x服从正态分布,已知标准差,不知道期望,我们想通过测试集的数据来估计一下这个期望。然后……
    其实到了第12页结束,目的就已经达到了。看式子3,右边第一个因式P(x|θ)为服从均值为θ,标准差为已知的标准差的正态分布的密度函数。第二个因式如下求出
    式子4
    结果将这两个相乘,对θ积分,就ok了。

    12页之后只是为了给我们表现:随着测试集的不断扩大,p(θ|X)的分布情况。从图中那个可以看到,测试集扩大,则p(θ|X)的分布越来越明确——1.它的均值越来越靠近真实的x的均值;2.而且方差越来越小。这透露出一个信息:θ很可能是靠近真实的x的均值(也有可能远离x的真实均值,只是概率比较小而已),这个是比较符合我们的直观认知的。而13页,14页之后的内容只是有助于我们理解它随着数据集的变大,逐渐趋近极大似然估计。
    图1

    总结:二者的不同仅仅在于:贝叶斯估计得到的是个θ是个不确定的值,所以没法直接带入x的密度函数,而是需要求积分。这是二者在实现上的主要区别。

    展开全文
  • 参数估计参数估计(parameter estimation) 统计推断。根据从总体中抽取随机样本来估计总体分布中未知参数过程。从估计形式看,区分为点估计与区间估计:从构造估计量方法讲,有矩法估计、最小二乘估计...

    8ec2449120e1c6c6468b3de5e7eb7c41.png

    参数估计

    参数估计(parameter estimation)
    统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:
    (1)求出未知参数的估计量;
    (2)在一定信度(可靠程度)下指出所求的估计量的精度。信度一般用概率表示,如可信程度为95%;精度用估计量与被估参数(或待估参数)之间的接近程度或误差来度量。

    导入数据对数据进行概览

    导入数据并数据做预览

    import pandas as pd
    import numpy as np
    #from scipy import stats
    import scipy as sc
    data1 = pd.read_csv(r'D:univ.csv',usecols= [2],encoding='gbk')
    data=data1.sample(80)
    data.describe()

    总分 count 80.000000 mean 68.870375 std 7.078940 min 63.290000 25% 64.485000 50% 65.835000 75% 71.692500 max 100.000000

    data.mean(),data.count()
    (总分    68.69075
     dtype: float64, 总分    80
     dtype: int64)

    由此可以看到,样本中共有100个数据,均值为68.5061

    对数据做抽样

    对样本中的100个数据抽取90个样本,可以进行多次测试,均值总在68.5061的上下一定范围内波动:

    # 抽取100个样本 
    data_sam = data.sample(10) 
    x1 = data_sam.mean() 
    data_sam.describe()

    总分 count 10.000000 mean 67.704000 std 6.024788 min 63.370000 25% 64.845000 50% 65.255000 75% 66.367500 max 82.430000

    计算计算置信区间

    关于pandas.std()与numpy.std()

    1. pandas.std() 默认是除以n-1 的,即是无偏的,如果想和numpy.std() 一样有偏,需要加上参数ddof=0 ,即pandas.std(ddof=0) ;DataFrame的describe()中就包含有std();
    2. numpy.std() 求标准差的时候默认是除以 n 的,即是有偏的,np.std无偏样本标准差方式为加入参数 ddof = 1;

    计算正态分布下的置信区间

    def norm_conf(data,confidence=0.95):
        sample_mean = np.mean(data)
        sample_std = np.std(data,ddof=1)
        sample_size = len(data)
        conf_intveral=np.array(sc.stats.norm.interval(confidence, loc=sample_mean,scale=sample_std))
        return(conf_intveral)
    norm_conf(data)
    array([[50.92509413],
           [90.9882392 ]])

    以上通过scipy.stats.norm_conf函数,通过输入置信度、均值、标准差来计算执行区间,并以制作了一个函数,后续可以调用。

    计算t分布下的置信区间

    def ttest_conf(data,confidence=0.95):
        sample_mean = np.mean(data)
        sample_std = np.std(data,ddof=1)
        sample_size = len(data)
        conf_intveral=np.array(sc.stats.t.interval(confidence, df = (sample_size-1),loc=sample_mean,scale=sample_std))
        return(conf_intveral)
    ttest_conf(data)
    array([[54.78009782],
           [82.96065218]])

    重复抽样

    scale_means = []
    for _ in range(1000):
       scale_sample = data.sample(100, replace=True)
       mean = scale_sample.mean()
       scale_means.append(mean)
    norm_conf(scale_means)
    array([67.4901937, 70.2341785])
    ttest_conf(scale_means)
    array([67.30511657, 70.04288823])
    data.describe()

    总分 count 80.000000 mean 68.870375 std 7.078940 min 63.290000 25% 64.485000 50% 65.835000 75% 71.692500 max 100.000000

    绘制数据的分布图

    import seaborn as sns 
    from matplotlib import pyplot as plt
    
    sns.set_palette("hls") #设置所有图的颜色,使用hls色彩空间
    sns.distplot(scale_means,color="r",bins=10,kde=True)
    plt.title('data')
    #plt.xlim(0,100)
    plt.grid(True)
    plt.show()

    3ffd10538749480ec318927b81ae580d.png

    通过手动计算和绘制图形,让我们对参数估计有一个更加深刻的了解。

    展开全文
  • 参数估计参数估计(parameter estimation)统计推断。根据从总体中抽取随机样本来估计总体分布中未知参数过程。从估计形式看,区分为点估计与区间估计:从构造估计量方法讲,有矩法估计、最小二乘估计、...

    参数估计

    参数估计(parameter estimation)

    统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:

    (1)求出未知参数的估计量;

    (2)在一定信度(可靠程度)下指出所求的估计量的精度。信度一般用概率表示,如可信程度为95%;精度用估计量与被估参数(或待估参数)之间的接近程度或误差来度量。

    导入数据对数据进行概览

    导入数据并数据做预览

    import pandas as pd

    import numpy as np

    #from scipy import stats

    import scipy as sc

    data1 = pd.read_csv(r'D:\univ.csv',usecols= [2],encoding='gbk')

    data=data1.sample(80)

    data.describe()

    总分 count 80.000000 mean 68.870375 std 7.078940 min 63.290000 25% 64.485000 50% 65.835000 75% 71.692500 max 100.000000

    data.mean(),data.count()

    (总分 68.69075

    dtype: float64, 总分 80

    dtype: int64)

    由此可以看到,样本中共有100个数据,均值为68.5061

    对数据做抽样

    对样本中的100个数据抽取90个样本,可以进行多次测试,均值总在68.5061的上下一定范围内波动:

    # 抽取100个样本

    data_sam = data.sample(10)

    x1 = data_sam.mean()

    data_sam.describe()

    总分 count 10.000000 mean 67.704000 std 6.024788 min 63.370000 25% 64.845000 50% 65.255000 75% 66.367500 max 82.430000

    计算计算置信区间

    关于pandas.std()与numpy.std()pandas.std() 默认是除以n-1 的,即是无偏的,如果想和numpy.std() 一样有偏,需要加上参数ddof=0 ,即pandas.std(ddof=0) ;DataFrame的describe()中就包含有std();

    numpy.std() 求标准差的时候默认是除以 n 的,即是有偏的,np.std无偏样本标准差方式为加入参数 ddof = 1;

    计算正态分布下的置信区间

    def norm_conf(data,confidence=0.95):

    sample_mean = np.mean(data)

    sample_std = np.std(data,ddof=1)

    sample_size = len(data)

    conf_intveral=np.array(sc.stats.norm.interval(confidence, loc=sample_mean,scale=sample_std))

    return(conf_intveral)

    norm_conf(data)

    array([[50.92509413],

    [90.9882392 ]])

    以上通过scipy.stats.norm_conf函数,通过输入置信度、均值、标准差来计算执行区间,并以制作了一个函数,后续可以调用。

    计算t分布下的置信区间

    def ttest_conf(data,confidence=0.95):

    sample_mean = np.mean(data)

    sample_std = np.std(data,ddof=1)

    sample_size = len(data)

    conf_intveral=np.array(sc.stats.t.interval(confidence, df = (sample_size-1),loc=sample_mean,scale=sample_std))

    return(conf_intveral)

    ttest_conf(data)

    array([[54.78009782],

    [82.96065218]])

    重复抽样

    scale_means = []

    for _ in range(1000):

    scale_sample = data.sample(100, replace=True)

    mean = scale_sample.mean()

    scale_means.append(mean)

    norm_conf(scale_means)

    array([67.4901937, 70.2341785])

    ttest_conf(scale_means)

    array([67.30511657, 70.04288823])

    data.describe()

    总分 count 80.000000 mean 68.870375 std 7.078940 min 63.290000 25% 64.485000 50% 65.835000 75% 71.692500 max 100.000000

    绘制数据的分布图

    import seaborn as sns

    from matplotlib import pyplot as plt

    sns.set_palette("hls") #设置所有图的颜色,使用hls色彩空间

    sns.distplot(scale_means,color="r",bins=10,kde=True)

    plt.title('data')

    #plt.xlim(0,100)

    plt.grid(True)

    plt.show()

    通过手动计算和绘制图形,让我们对参数估计有一个更加深刻的了解。

    展开全文
  • 一、前言参数估计(parameter estimation),统计推断。根据从总体中抽取随机样本来估计总体分布中未知参数过程。从估计形式看,区分为点估计与区间估计:从构造估计量方法讲,有矩法估计、最小二乘估计、...

    一、前言

    参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知参数的估计量;(2)在一定信度(可靠程度)下指出所求的估计量的精度。信度一般用概率表示,如可信程度为95%;精度用估计量与被估参数(或待估参数)之间的接近程度或误差来度量。

    本文主要是简单记录求置信区间所用到的python代码~

    二、代码

    1、导入数据

    import pandas as pd

    import numpy as np

    from scipy import stats

    path = 'D:\数据\data\data.xlsx'

    data = pd.read_excel(path)

    age = data['Age']

    age.mean()

    # 抽取100个样本

    age_sam = age.sample(100)

    x1 = age_sam.mean()

    age_sam.describe()

    2、计算置信区间

    ps:

    1)、pandas.std() 默认是除以n-1 的,即是无偏的,如果想和numpy.std() 一样有偏,需要加上参数ddof=0 ,即pandas.std(ddof=0) ;DataFrame的describe()中就包含有std();

    2)、 numpy.std() 求标准差的时候默认是除以 n 的,即是有偏的,np.std无偏样本标准差方式为加入参数 ddof = 1;

    # 正态分布下的置信区间

    def norm_conf (data,confidence=0.95):

    # https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html

    sample_mean = np.mean(data)

    sample_std = np.std(data,ddof=1)

    sample_size = len(data)

    conf_intveral = scipy.stats.norm.interval(confidence, loc=sample_mean, scale=sample_std)

    print(conf_intveral)

    正态分布官网

    # T分布下的置信区间

    def ttest_conf (data,confidence=0.95):

    sample_mean = np.mean(data)

    sample_std = np.std(data,ddof=1)

    sample_size = len(data)

    conf_intveral = scipy.stats.t.interval(confidence,df = (sample_size-1) , loc=sample_mean, scale=sample_std)

    print(conf_intveral)

    ttest_conf(scale_means)

    T分布官网

    3、重复抽取数据

    scale_means = []

    for _ in range(1000):

    scale_sample = age.sample(100, replace=True)

    mean = scale_sample.mean()

    scale_means.append(mean)

    norm_conf(scale_means)

    ttest_conf(scale_means)

    4、绘制数据

    import seaborn as sns

    from matplotlib import pyplot as plt

    sns.set_palette("hls") #设置所有图的颜色,使用hls色彩空间

    sns.distplot(scale_means,color="r",bins=10,kde=True)

    plt.title('Age')

    plt.xlim(25,35)

    plt.grid(True)

    plt.show()

    参考链接

    1、[python skill]利用python计算T分布下的置信区间

    展开全文
  • 参数估计

    2019-12-23 00:17:53
    0X00 前言 人们常常需要根据手中数据,分析...它是统计推断基本形式,是数理统计学一个重要分支,分为点估计和区间估计两部分。 0X01 标准特点 1.1 无偏性 无偏性是指估计量抽样分布数学期望等于总体参...
  • 前言参数估计,是统计推断。根据从总体中抽取随机样本来估计总体分布中未知参数过程。从估计形式看,区分为点估计和区间估计;从构造估计量方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。...
  • 它是统计推断基本形式,是数理统计学一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含未知参数或未知参数的函数。 区间估计(置信区间的估计):依据抽取样本,根据...
  • 参数估计(parameter estimation),统计推断。根据从总体中抽取随机样本来估计总体分布中未知参数过程。从估计形式看,区分为点估计与区间估计:从构造估计量方法讲,有矩法估计、最小二乘估计、似然...
  • 参数估计-矩估计和极大似然估计概述

    万次阅读 多人点赞 2016-09-10 22:38:42
    它是统计推断基本形式,是数理统计学一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含未知参数或未知参数的函数。 区间估计(置信区间的估计):依据抽取样本,...
  • 【R参数估计】点估计

    千次阅读 2020-01-20 11:31:11
    根据样本来估计总体分布包含未知参数,叫做参数估计(parametric estimation),它是统计推断一种重要形式,通常有两种方法:点估计与区间估计。 点估计(point estimation) 点估计就是用一个统计量来估计一个...
  • 它是统计推断基本形式,是数理统计学一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含未知参数或未知参数的函数。 区间估计(置信区间的估计):依据抽取样本,根据...
  • python实现参数估计

    千次阅读 2019-12-23 00:30:47
    参数估计(parameter estimation),统计推断。根据从总体中抽取随机样本来估计总体分布中未知参数过程。从估计形式看,区分为点估计与区间估计:从构造估计量方法讲,有矩法估计、最小二乘估计、似然...
  • 回归分析之参数估计

    2019-10-11 16:06:59
    它是统计推断基本形式,是数理统计学一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含未知参数或未知参数的函数。 区间估计(置信区间的估计):依据抽取样本,根据一定...
  • 它是统计推断基本形式,是数理统计学一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含未知参数或未知参数的函数。 区间估计(置信区间的估计):依据抽取样本,...
  • 参数估计(parameter estimation),统计推断。根据从总体中抽取随机样本来估计总体分布中未知参数过程。从估计形式看,区分为点估计与区间估计:从构造估计量方法讲,有矩法估计、最小二乘估计、似然...
  • 前言参数估计,是统计推断。根据从总体中抽取随机样本来估计总体分布中未知参数过程。从估计形式看,区分为点估计和区间估计;从构造估计量方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。...
  • 本实验目的是学习Parzen窗估计和k最近邻估计方法。在之前模式识别研究中,...在模式识别中有躲在令人感兴趣参数化方法,Parzen窗估计和k最近邻估计就是两种经典的估计法。这里使用Matlab实现这两种估计方法。
  • 【统计学习】参数估计

    千次阅读 2018-10-31 10:52:25
    概述: 总体是由总体分布来刻画的。在实际问题中我们根据问题...两种形式: ①点估计:用一个统计量爱估计一个未知参数,优点是:能够明确告诉人们“未知参数大概是多少”,缺点是:不能反映出估计的准确程度。 ...
  • 第六章 参数估计

    2017-05-20 16:32:24
     参数估计的形式有:点估计和区间估计。  点估计:构造合适的统计量θˆ=θˆ(X1,X2,...Xn)\widehat{\theta}=\widehat{\theta}(X_1,X_2,...X_n)用来估计未知参数θ\theta,θˆ\widehat{\theta}称为参数θ\theta...
  • 参数估计(parameter estimation),统计推断。根据从总体中抽取随机样本来估计总体分布中未知参数过程。 从估计形式看,区分为点估计与区间估计: 从构造估计量方法讲,有矩法估计、最小二乘估计、似然...
  • Parzen窗法进行无参数估计

    千次阅读 2018-10-14 21:49:37
    在上一篇文章中,我们介绍了两种参数估计的方法。我们知道,参数估计的假设是:类条件概率密度函数的形式是已知的,只是不知道该函数中的某些参数。   但是,在实际的工程应用中,大多数情况我们是不知道类的条件...
  • 参数估计两种最基本形式:点估计和区间估计。点估计是用一个数值作为未知参数θ估计值,而区间估计是给出具体上限和下限,把θ包括在这个区间内。点估计,主要有矩估计法和最大似然统计法。矩估计法是用样本矩...
  • 参数估计(笔记一)

    2015-06-11 12:27:47
    参数估计(笔记一)统计推断问题可以分为两类:1、估计...下面介绍两种常用构造估计量方法:矩估计和最大似然法。 矩估计 由上面定义可知,基于总体Xk阶矩是待估参数函数且一定存在。基于样本k阶矩数学
  • 参数估计(parameter estimation),统计推断。根据从总体中抽取随机样本来估计总体分布中未知参数过程。从估计形式看,区分为点估计与区间估计;从构造估计量方法讲,有矩法估计、最小二乘估计、似然...
  • 参数估计 (Parameter Estimation) 人们常常需要根据手中数据,分析或推断数据反映本质...它是统计推断基本形式,是数理统计学一个重要分支,分为点估计和区间估计部分。 参数估计(Parameter Est...
  • 浅谈几基本估计方法及实例

    千次阅读 2018-06-19 12:37:11
    参数估计两种形式:点估计与区间估计。本文选择几种常用点估计方法作一些讨论。 用于估计未知参数统计量称为点估计(量)。参数 θθ\theta 估计量常用 θ^=θ^(x1,x2,…,xn)θ^=θ^(x1,x2,…,xn)\hat{\...
  • 本实验目的是学习Parzen窗估计和k最近邻估计方法。...在模式识别中有躲在令人感兴趣参数化方法,Parzen窗估计和k最近邻估计就是两种经典的估计法。 参考书籍:《模式分类》  作者:RichardO.Duda,P

空空如也

空空如也

1 2 3 4 5 ... 12
收藏数 234
精华内容 93
关键字:

参数估计的两种形式