精华内容
下载资源
问答
  • 抽样估计的置信度
    万次阅读 多人点赞
    2020-07-08 17:59:25

    因为读论文时看到了这个概念,在很多实验中也算是一个评测指标了,但不是很理解。这是统计学中的概念,虽然我学过统计学,但是不记得这个概念了,重新来过吧,O(≧口≦)O
    百度百科的专业术语比较难理解,我整合了很多人的解释再加上自己的理解希望能用最通俗易懂的话语把这个概念描述清楚。
    虽然篇幅稍微有点长,但看完真的会彻底理解哦。
    首先,在统计学中,我们每个人都知道的是,可以通过抽样对整体水平进行评估,也可以说是用测量值估计总体的真实值。举一个例子,我一直很想知道我市市民平均每天玩手机的时间是多少,当然肯定不可能把全市的人问一遍,毕竟有362.09万人。那么我们就可以进行抽样,选取一部分人来做调查。假设在我的能力范围内,我只能调查100个人,通过询问等方式,这100个人平均每天玩手机8h,那么我可以说通过抽样调查我市市民平均每天玩手机8小时吗?当然不能,那如果我再随机抽取100个人他们平均每天玩手机的时间是7h或者5h呢?我可以直接下结论吗?显然数据是不靠谱的,这就有种以偏概全的感觉,要知道,如果真的对362.09万人进行调查,肯定有一个真实的期望值,但具体是多少,说不好,也不知道。假如再来一个指标,或者可以理解为约束,在这里,我把这个指标定义为:对我所调查结果的相信度,设为几个等级,即有点相信(30%)【注:试验100次,有30次包含真实期望值,而不是这30次调查结果的值就等于真实期望值,因为总会有误差,不可能完完全全等于最终的期望值,就认为这个期望值根本无法知道吧。而这30次是30个置信区间,后面会讲,所以是包含期望值,包含!】,勉强相信(50%),相信(70%),非常相信(95%)。然后,把自己测的结果和真实结果做差值,拿这个差值与所设定的概率比较,公式是如果这个差值小于所设定的概率,假设是上面的95%,那么就可以说,我有95%的把握(即我非常相信)认为我调查的这个结果(假设是8h)与真实期望值是非常接近的。
    所以,95%就是置信度。那么置信度是怎么来的?借用别人的一张图,我把我的例子套用在这张图上就好理解了。
    在这里插入图片描述
    首先理解置信区间:
    可以参考这个链接,对置信区间进行了详细推理
    https://www.zhihu.com/question/26419030
    然后再套用一下:
    大虚线是真实期望值8h,上面的短线是置信区间,假设我调查100次,这100次中有95次(即100个置信区间有95个置信区间)都包括真实值8h,那么置信度就是95%。

    然后一个网友的回答也可以帮助理解:置信区间是一个随机的区间。所谓随机,就是指端点为随机变量,这个随机变量通常是一个统计量,当抽取不同的样本时就对应不同的值,从而对应不同的区间。对于某些样本来说,对应的区间包含参数真值,另一些不包含。若在100次随机抽样中构造的100个区间如果95次包含了参数真值,那么置信度为95%.
    链接:https://www.zhihu.com/question/26419030/answer/81409702
    看完上面这些再来看下概念:
    **置信度:**以测量值为中心,在一定范围内,真值出现在该范围内的几率。一般设定95%,是通常情况下置信度(置信水平)的设定值。
    置信区间:在某一置信度下,以测量值为中心,真值出现的范围。一定概率下真值的取值范围(可靠范围)称为置信区间。其概率称为置信概率或置信度(置信水平)。

    看完这些,一定能够理解了,再去看看专业术语的概念,会豁然开朗!
    参考:
    https://www.zhihu.com/question/20183513/answer/15040378
    https://wenku.baidu.com/view/cf67d1da360cba1aa811da23.html

    更多相关内容
  • 抽样置信度计算

    万次阅读 2012-12-23 14:10:58
    在实际工作中,有大量抽样评估问题。直观上,我们都知道,抽样样本数量越大,则评估的可靠程度越高... interval)是对这个样本的某个总体参数的区间估计置信区间展现的是这个参数的真实值有一定概率落在测量结果的周

    在实际工作中,有大量抽样评估问题。直观上,我们都知道,抽样样本数量越大,则评估的可靠程度越高。但如何计算这两者之间的关系,很多人并不了解。

    概念介绍

    一般用置信区间来量化这个可靠程度,置信区间的定义为(来自维基百科)

    统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%,60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之2.5。

    下面,还需要引入两个概率分布,正态分布和t分布

    1)正态分布,相信大家都很熟悉,相关介绍请参考维基百科正态分布

    2)t分布介绍,也请参考维基百科链接t分布

    一般,样本量大于30时,使用正态分布来计算置信区间,小于30时,使用t分布来计算。

    大样本置信区间计算

    这里所谓的大样本,指样本量大于30的情况。

    首先,引入中心极限定理(仅是其中的一种表现形式)

    设随机变量相互独立,服从同一分布且有有限的数学期望μ方差σ2,则随机变量,在n无限增大时,服从参数为μ的正态分布

    由这个定理,我们可以得出,在抽样调查中,无论总体是什么分布,只要n足够大,样本均值趋于数学期望为μ,方差为σ2 / n的正态分布。这样,我们便可以计算出n与抽样置信度之间的关系。

    下面来看一个例子。新浪微博僵尸用户泛滥,我们要评估其中僵尸用户的比例。随机抽样100个用户评估,20个用户为僵尸用户,得出僵尸用户的比例为20%,这个数值的可靠程度有多高呢?

    这是个伯努利分布,定义随机变量X,如果用户是僵尸用户,则X=1,否则为0,则样本的期望为


    方差为


    下面,我们来计算样本均值的均值和方差。由于我们并不知道总体的均值和方差,所以只能用样本的均值和方差来代替。于是有



    于是,标准差约等于0.04。根据正态分布的概率密度分布,一个标准差范围内,覆盖概率分布的68.27%,两个为95.45%,三个为99.73%。也就是说

    1)我们有68.27%的把握,保证总体均值在0.2 – 0.04到0.2 + 0.04,也就是0.16到0.24之间

    2)95.45%的把握,保证总体均值在0.12到0.28之间

    3)99.73%的把握,保证总体均值在0.08到0.32之间

    由此可见,抽样100,可信程度并不高。如果换做抽样1000,则标准差变为0.013,抽样10000,则标准差变为0.004,相应的置信区间,也可以算出来。

    小样本置信区间计算

    样本量较小时,中心极限定理不再适用,于是,样本均值不再满足正态分布,t分布是更好的估计。

    t分布的置信区间,与自由度这个值相关,自由度等于样本数量减一。把维基百科的置信区间计算搬过来

    假设数量A 在当T 呈t-分布(T 的自由度n − 1)满足

    这与


     是相同的

    A是这个概率分布的第95个百分点

    那么

    等价于


    因此μ的90%置信区间为:


    A的值可以通过查表来获取,下面的自由度为10以内的表格。第一列即为自由度,根据自由度和置信度,即可取得A值。

    单侧

    75%

    80%

    85%

    90%

    95%

    97.5%

    99%

    99.5%

    99.75%

    99.9%

    99.95%

    双侧

    50%

    60%

    70%

    80%

    90%

    95%

    98%

    99%

    99.5%

    99.8%

    99.9%

    1

    1.000

    1.376

    1.963

    3.078

    6.314

    12.71

    31.82

    63.66

    127.3

    318.3

    636.6

    2

    0.816

    1.061

    1.386

    1.886

    2.920

    4.303

    6.965

    9.925

    14.09

    22.33

    31.60

    3

    0.765

    0.978

    1.250

    1.638

    2.353

    3.182

    4.541

    5.841

    7.453

    10.21

    12.92

    4

    0.741

    0.941

    1.190

    1.533

    2.132

    2.776

    3.747

    4.604

    5.598

    7.173

    8.610

    5

    0.727

    0.920

    1.156

    1.476

    2.015

    2.571

    3.365

    4.032

    4.773

    5.893

    6.869

    6

    0.718

    0.906

    1.134

    1.440

    1.943

    2.447

    3.143

    3.707

    4.317

    5.208

    5.959

    7

    0.711

    0.896

    1.119

    1.415

    1.895

    2.365

    2.998

    3.499

    4.029

    4.785

    5.408

    8

    0.706

    0.889

    1.108

    1.397

    1.860

    2.306

    2.896

    3.355

    3.833

    4.501

    5.041

    9

    0.703

    0.883

    1.100

    1.383

    1.833

    2.262

    2.821

    3.250

    3.690

    4.297

    4.781

    10

    0.700

    0.879

    1.093

    1.372

    1.812

    2.228

    2.764

    3.169

    3.581

    4.144

    4.587

     

    下面继续看例子。还是新浪微博的僵尸用户评估,这次只抽取了20个样本,僵尸用户为5个。

    自由度为4,如果我们要计算置信度为95%的区间,通过查表,可得A=2.776.

    样本均值和标准差分别为0.25和0.444

    代入公式,得95%的置信区间为

    )=(0.25-0.275,0.25+0.275)=(0,0.525)

    就是说,我们有95%的把握,使均值落在0到0.525之间。


    展开全文
  • 置信度,置信区间,区间估计

    万次阅读 2015-12-19 14:26:28
    置信度(置信水平)是也称为可靠度,或置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。是指正确的概率。(1-α 为置信度或置信水平其表明了区间估计的可靠性) 显著性水平是...

    参考:http://blog.sina.com.cn/s/blog_7dc56e6e0100r187.html

    置信区间(间距)是指,在某一置信度下,总体参数所在区域的长度。

    置信度(置信水平)是也称为可靠度,或置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。是指正确的概率。(1-α 为置信度置信水平其表明了区间估计的可靠性

    显著性水平是估计总体参数落在某一区间内,可能犯错误的概率为显著性水平,用α表示。

    (在正态分布表中,表中的数值是表示某点位置开始左侧的面积,例如x=0,面积为0.5表示小于0的概率。当显著性水平α为某一值时,表示希望正确的区间所围成的面积为1-α,此时可查α/2所对应的点,也可以差1-α/2所对应得点)

    参考:http://blog.sina.com.cn/s/blog_6b8f217e0100s366.html

    区间估计​​:通过抽样得到的抽样总体参数来估计实际总体参数所在的值域,并保证一定准确性。即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。区间估计既说清估计结果的准确程度,又同时表明这个估计结果的可靠程度,所以区间估计是比较科学的,它是本节阐述的重点。

    用样本指标来估计总体指标,要达到100%的准确而没有任何误差,几乎是不可能的,所以在估计总体指标时就必须同时考虑估计误差的大小。从人们的主观愿望上看,总是希望花较少的钱取得较好的效果,也就是说希望调查费用和调查误差越小越好。但是,在其他条件不变的情况下,缩小抽样误差就意味着增加调查费用,它们是一对矛盾。因此,在进行抽样调查时,应该根据研究目的和任务以及研究对象的标志变异程度,科学确定允许的误差范围。​

    区间估计三要素:估计值( 抽样得到的总体参数)、误差范围(抽样估计的总体参数有误差,与最后的置信区间密切相关)、和置信度。区间估计计算的要点是:样本与总体同分布,如果总体分布参数未知(如σ)就想办法把样本往已知的抽样分布上转变(如利用样本标准差,转换到t分布上。)区间估计说白了就围绕三个参数,两个总体的(u,σ),一个可靠度α.

    区间估计根据给定的条件不同,有两种估计方法:

    ①给定极限误差,要求对总体指标做出区间估计;

    ②给定概率保证程度,要求对总体指标做出区间估计。

    问题一中求解的是总体均值区间分布,可以用样本均值来估计总体均值(估计u而且σ已知),样本均值服从n(u,σ^2/n)的正态分布。

    (样本均值x'​-u)/(σ/根号n)服从正态分布N(u,σ^2/n)

    均值可依题得出,其他已知,就一个未知可解。​

    问题二中总体标准差未知,但是可以计算样本标准差,同时又抽样分布可知,样本标准差除根号n。。。。。服从t分布。可用样本标准差加t分布求解。

    展开全文
  • 区间估计——置信区间

    千次阅读 2020-06-09 19:28:43
    1.3 置信水平/置信度/置信系数 假定抽取100个样本,构造100个置信区间,这100个置信区间中有95%的区间包含了总体参数的真值,5%没包含,95%被称为置信水平。 如果将构造置信区间的步骤重复多次,置信区间中包含...

    可参考上一篇博文

     抽样与抽样分布——中心极限定理、点估计

    1. 区间估计

    1.1 区间估计

    总体参数估计的一个区间,确信该区间将参数值纳入其中。

    区间估计的形式:点估计±边际误差

    1.2 置信区间

    区间估计中,由样本估计量构造出的总体参数在一定置信水平下的估计区间。

    区间的最小值是置信下限,区间的最大值是置信上限。

    1.3 置信水平/置信度/置信系数

    假定抽取100个样本,构造100个置信区间,这100个置信区间中有95%的区间包含了总体参数的真值,5%没包含,95%被称为置信水平。

    如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占比例称为置信水平。


    2.总体均值的区间估计

    2.1总体均值的区间估计:σ已知

     

    对置信区间的理解,要注意:

    (1)总体参数的真值是固定的,样本构造的区间是不固定的,置信区间是一个随机区间,会因样本的不同而变化,而且不是所有的区间都包含总体参数。

    一个特定的区间总是“包含”和“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题。

    置信水平知识告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的。

    (2)使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确的区间,

    2.2总体均值的区间估计:σ未知

    2.3样本容量确定

    σ已知,直接用上面的式子计算。

    σ未知,可以根据以下任一方法确定:

    (1)根据以前研究中的数据计算总体标准差的估计值作为σ的计划值

    (2)利用实验研究,选取一个初始样本,以初始样本的标准差作为σ的计划值。

    2.4 总结

    在绝大部分应用中n≥30已经够大。如果总体服从或者近似服从正态分布,可以利用更小的样本容量。

    对于σ未知,如果总体的分布严重偏斜或者包含异常点,将样本容量增加到n≥50。


    3.总体比率的区间估计

    3.1总体比率的区间估计

    3.2样本容量的确定

    令E代表希望达到的边际误差

    得到下面的结论

    总体比率区间估计中的样本容量

    可选择如下方法确定计划值p*

    (1)用以前相同或类似样本的样本比率代替

    (2)利用实验性研究,选取一个初始样本,以该样本的样本比率作为计划值

    (3)使用判断或最优猜测作为计划值

    (4)如果上述方法均不适用,则去计划值p*=0.5

    参考

    统计学

    商务与经济统计

     

    展开全文
  • 置信度

    2020-09-29 17:46:56
    置信度一词来自统计学,而统计学的本质是,用抽样的数据去估计整体的真实分布。例如,样本均值估计整体均值; 还有,频率近似概率。而置信度的含义就是,你在用样本估计整体的时候,所得到的结论的“可信程度”,...
  • 置信度和置信区间

    千次阅读 2017-12-25 17:19:31
    置信度:也称为可靠度,或置信水平、置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许...
  • 置信度和置信区间的算法实现

    千次阅读 2019-12-12 11:21:27
    在讲置信度和置信区间之前先讲讲点估计,那什么是点估计呢?给你举两个例子你就知道了。 现在你想要知道一个学校学生的身高情况,你可以把所有的学生测量一遍,然后得到答案,这种方法可以,而且得到的数据肯定是最...
  • 尽力搞懂统计学概念——点估计、区间估计置信区间 在统计学的应用过程中,总有那么几个重要的基础概念似懂非懂,就像雾里看花,你对它有一个总体的印象,但说道具体细节又似是而非。我也深受其扰,现在就结合...
  • 置信度为95%的置信区间什么意思

    千次阅读 2021-02-06 11:19:09
    同时因为茄子本身有热毒,浸泡可以 2019-10-09阅读(87) 置信度也称为可靠度,或置信水平、置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是...
  • 三、抽样与参数估计

    千次阅读 2021-01-29 22:04:29
    抽样抽样分布 一、简单随机抽样 随机抽样:从含有N个元素的总体中,抽取n个元素作为样本,使得每一个客量为n的样本都有相同的机会被抽中。 重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二...
  • 参数估计是数理统计中重要的统计推断问题之一。
  • 聊聊置信度与置信区间

    万次阅读 多人点赞 2019-04-15 08:52:06
    总第143篇/张俊红今天这篇聊聊统计学里面的置信度和置信区间,好像没怎写过统计学的东西,这篇试着写一写。1.点估计在讲置信度和置信区间之前先讲讲点估计,那什么是点估计呢?...
  • 机器学习本质上是对条件概率或概率分布的估计,而这样的估计到底有多少是置信度?这里就涉及到统计学里面的置信区间与置信度,本文简要介绍了置信区间这一核心概念,它有助于我们从直观上理解评价估计优劣的度量方法...
  • 今天这篇聊聊统计学里面的置信度和置信区间,好像没怎写过统计学的东西,这篇试着写一写。1.点估计在讲置信度和置信区间之前先讲讲点估计,那什么是点估计呢?给你举两个例子你就知道了。现在你想要...
  • 机器学习本质上是对条件概率或概率分布的估计,而这样的估计到底有多少是置信度?这里就涉及到统计学里面的置信区间与置信度,本文简要介绍了置信区间这一核心概念,它有助于我们从直观上理解评价估计优劣的度量方法...
  • 我们使用一种新的IoU引导的NMS方法来解决分类置信度和定位精度之间的偏差,该方法将分类置信度和定位置信度(IoU的估计)分开。简而言之,我们使用预测的IoU而不是分类置信度作为边界框的排名关键字。与传统的NMS...
  • 比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。 比较分层抽样、系统抽样和整群抽样 直方图和条形图有何区别? 比较三种不同性质的分布 重复抽样和不重复抽样...
  • 置信度&置信区间,这篇讲解我给100分!

    万次阅读 多人点赞 2019-10-10 13:35:00
    今天这篇聊聊统计学里面的置信度和置信区间,好像没怎写过统计学的东西,这篇试着写一写。1.点估计在讲置信度和置信区间之前先讲讲点估计,那什么是点估计呢?给你举两个例子你就知...
  • 置信度与置信区间

    2018-12-02 12:42:00
    置信度又称置信系数,置信水平、可靠度等,表明了区间估计的可靠性。用符号1-α表示。 显著性水平:代表是在一次试验中小概率事物发生的可能性大小。用符号α表示。是指估计总体参数落在某一区间时,可能犯错误的...
  • 一、关于体温、性别、心率的临床数据对男性体温抽样计算下95%置信区间总体均值范围。转自:...
  • ab实验置信度by Aloïs Bissuel, Vincent Grosbois and Benjamin Heymann AloïsBissuel,Vincent Grosbois和Benjamin Heymann撰写 The recent media debate on COVID-19 drugs is a unique occasion to discuss ...
  • R语言区间估计置信区间

    千次阅读 2021-03-24 12:02:52
    固定样本量 n = 100 n = 100 n=100和 α = 0.05 \alpha = 0.05 α=0.05,观察重复次数100、200和400时置信区间包含真值 μ = 15 \mu = 15 μ=15的频率是否接近置信度 1 − α = 0.95 1- \alpha = 0.95 1−α=0.95 # k...
  • 本期AI TIME PhD直播间,我们邀请到斯坦福大学在读博士生——吴雨晨,为我们带来报告分享《动态图上的置信度传播算法》。 吴雨晨: 斯坦福大学在读博士生。本科毕业于清华大学数学科学系。她的研究方向包括高维统计...
  • lecture 6:认识参数估计置信区间

    千次阅读 2021-04-20 18:53:08
    数理统计的基本知识 1.首先看看四种典型的分布图 正态分布 T分布 卡方分布 F分布: 2.分布图的典型指标 ...· 点估计:买一张,这就相当于你猜测这一张会中奖(直接用样本统计量来估计总体参数值) · 区间估计
  • 机器学习本质上是对条件概率或概率分布的估计,而这样的估计到底有多少是置信度?这里就涉及到统计学里面的置信区间与置信度,本文简要介绍了置信区间这一核心概念,它有助于我们从直观上理解评价估计优劣的度量方法...
  • 置信度又称显著性水平,意义阶段,信任系数等,是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示 统计分析中一般规定:正确估计的概率,也即置信水平为0.95或0.99,那么显著性水平则为0.05或0.01,...
  • 估计量:在参数估计中,用来估计总体参数的统计量称为估计量。例如:样本均值,样本方差等都可以是一个估计量。 估计值:是估计量的具体数值。 4. 参数估计的方法 点估计 区间估计 (1)点估计 用样本统计
  • 置信度与置信空间

    千次阅读 2018-11-06 11:53:29
    样本估计总体平均值误差范围的区间,用中括号[a,b]表示。a、b的具体数值取决于你对于”该区间包含总体均值”这一结果的可信程度,因此[a,b]被称为置信区间。  举例说明:你打枪打10次,你可以得到一个平均值8,再...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,488
精华内容 1,395
关键字:

抽样估计的置信度