精华内容
下载资源
问答
  • 置信区间的概念是由原籍波兰的美国统计学家耶日·奈曼提出的。 简单理解,比如从北京到张家界旅游5天,你恐怕不能准确说出要花多少钱,但你可以给出一个范围,比如10000—13000,你会觉得比较可信。如果给的范围太大...

    CDA数据分析师 出品

    置信区间的概念是由原籍波兰的美国统计学家耶日·奈曼提出的。

    简单理解,比如从北京到张家界旅游5天,你恐怕不能准确说出要花多少钱,但你可以给出一个范围,比如10000—13000,你会觉得比较可信。如果给的范围太大,比如10000—30000,虽然可信度更高一些,但这么大的范围参考意义不大;如果给的范围很小,如10000—10500,虽然准确性提高了,但可信度就似乎不会很高。而找到一个合适的估值范围,这是置信区间要解决的问题。

    说到置信区间我们就要说到点估计和区间估计。

    那么什么是点估计?什么是区间估计呢?

    之前看到过这样一个例子,简直可以很完美的解释这个问题~

    以前很流行一种刮刮卡:

    游戏规则是(假设只有一个大奖):

    · 大奖事先就固定好了,一定印在某一张刮刮卡上

    · 买了刮刮卡之后,刮开就知道自己是否中奖

    那么我们起码有两种策略来刮奖:

    · 点估计:买一张,这就相当于你猜测这一张会中奖(直接用样本统计量来估计总体参数值)

    · 区间估计:买一盒,这就相当于你猜测这一盒里面会有某一张中奖(根据样本统计量,按一定的概率大小确定包含总体参数值)

    很显然区间估计的命中率会更高(当然费用会更高,因为风险降低了)。

    实际上:

    点估计量是用于估计总体参数的样本统计量。但我们不可能期望点估计量能给出总体参数的精确值,所以经常在点估计上加减估计误差来计算区间估计。

    即区间估计的一般形式为:点估计±边际误差。

    有一个零部件的长度θ未知,我们通过点估计推测θ为9 cm,这还不足够。如果我们能知道θ有95%的概率在(8.7cm,9.2cm),那么就理想多了。

    那么由此我们就引出了其他两个关键词:

    置信区间和置信水平

    其中(8.7cm,9.2cm)我们就可以理解成置信区间,那么95%就是置信水平。

    由样本统计量所构造的总体参数的估计区间为置信区间。由于统计学家在某种程度上确定这个区间会包含真正的总体参数,所以取名置信区间。在统计中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的被测量参数的测量值的可信程度,即前面所要求的"一定概率"。这个概率被称为置信水平。

    简单理解,我们抽取100个样本,当你不断改变样本的时候,由100个样本构造的总体参数的100个置信区间中,有95%的区间包含了总体参数的真正值,5%没包含,这个95%称为置信水平,即1-α。

    下面给大家总结一下常用置信水平

    那么怎么建立置信区间?

    置信区间的建立就与中心极限定理和抽样分布有关,在给定置信度的条件下,置信区间的宽度决定于抽样分布,会随着样本量的增大而减小,在样本量给定时,置信区间的宽度随着置信系数的增大而增大。

    例如:想了解全国成年男性平均身高,可用抽样的方法,用样本信息估计总体信息。从全国男性中抽取一个样本,这个样本平均值及对总体平均值的一个点估计,当有多个样本,即有多个点估计,但不知道哪个样本对总体的估计最正确,所以用区间估计来解决这个问题。假设全国成年男性平均身高在165-175cm之间,这个区间叫置信区间,及[165,175],这个区间的可信程度是有置信水平来表现,置信水平指置信区间包含总体平均值的概率多大,如置信水平为95%。

    当然在不同情况下求不同类型的区间估计时,所用的分布也不同,这里我们做简单了解,

    1.个总体样本参数时:

    2.两个总体样本参数时:

    我们以一个总体均值的区间估计为例来理解一下:

    【 例 】一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%。

    该食品平均重量的置信区间为101.44g~109.28g

    下面让我们通过一道练习题巩再固一下:

    从一批产品中随机抽取100盒进行质量检验,检验结果有72盒合格,试在95%的把握程度之下对该批产品的合格率进行区间估计,并指出样本的抽样平均误差和极限误差。

    及格率的区间估计:

    根据题目可知:n=100 p=72% 1-α=0.95

    因为p±Zα/2·{p(1-p)/n}½(总体比率置信区间)

    α=0.05 查表得Zα/2=1.96

    得p±Zα/2·{p(1-p)/n}½

    =0.72±1.96×{0.72(1-0.72)/100}½

    =0.72±1.96×(0.448/10)

    =0.72±0.088

    即区间为【0.632,0.808】

    疫情当下,昔日匆匆的步伐终于放慢了些,也是时候好好想想自己的职业计划和人生规划了。提前做好准备,未雨绸缪,为未来蓄能——蓄势待发!

    展开全文
  • python 计算数据中值的置信区间

    千次阅读 2020-12-08 14:25:03
    计算数据的中值95%的置信区间假设有一组数据如下:data = [-0.1, -2.4, -0.1, -0.7, -1.4, -0.9, -3.2, -0.2, -0.3, -0.6, -3.2, -5.5]求中值的置信区间与求数据的均值置信区间的方法是类似的,在这里我不会讨论详细...

    最近给导师报告处理WISE数据的进展时,对于处理WISE光变导师希望我对每一个观测区间的星等数值给中值的置信度。

    计算数据的中值95%的置信区间

    假设有一组数据如下:

    data = [-0.1, -2.4, -0.1, -0.7, -1.4, -0.9, -3.2, -0.2, -0.3, -0.6, -3.2, -5.5]

    求中值的置信区间与求数据的均值置信区间的方法是类似的,在这里我不会讨论详细的数学原理,而是直接给出置信度为95%时,对应的数据的上限值与下限值。(有关python实现的重点在于代码)

    下限:0.5n-0.98

    上限:1+0.5n+0.98

    上面公式给出的是理论值,具体应用到数据上时,要对得到的下限和上限值取整,下限值向上取整,上限值向下取整。

    一般情况:

    Lower lim =

    -

    *

    Upper lim = 1 +

    +

    *

    注:n是数据个数,一般要求数据点个数n>=6。当n<6时是没有中值的置信区间。

    计算上述data的中值95%置信区间

    首先要将原数据从小到大排列:

    sorted(data)

    data1 = [-5.5,-3.2,-3.2,-2.4,-1.4,-0.9,-0.7,-0.6,-0.3,-0.2,-0.1,0.1]

    下限值:0.5* 12 - 0.98*

    = 2.6

    上限值:1+0.5* 12 + 0.98*

    = 10.4

    则95%置信区间对应的数值是第3个数据和第10个数据,即(-3.2,-0.2)

    python实现

    #求中值median的置信区间(confidence interval),95%的CI

    #对于中值的置信区间CI,下限lower limit向上取整,upper limit向下取整

    #要注意python中是从0开始计数的,根据上述就很好理解return语句的含义了。

    #其实可以吧math.ceil() - 1 用math.floor()代替

    import math

    import numpy as np

    import matplotlib.pyplot as plt

    #自定义的median_ci函数是给出某一数据95%置信区间的上限和下限对应的值

    def median_ci(data,confidence=0.95):

    data1 = sorted(data)

    n = len(data1)

    ll = 0.5*n - 0.98*math.sqrt(n)

    ul = 1 + 0.5*n + 0.98*math.sqrt(n)

    l = data1[math.ceil(ll)-1]

    u = data1[math.floor(ul) - 1]

    return (l,u)

    #在自定义的函数里面已经将数据从小到大排序了,所以调用函数时用的是数据data

    l,u = median_ci(data)

    print(l,u)

    -3.2,-0.2

    展开全文
  • 威尔逊置信区间算法

    万次阅读 2020-03-23 17:26:52
    二项分布计算置信区间有多种计算公式,最常见的是“正太区间”(Normal approximation interval),但它只适用于样本较多的情况(np > 5 且 n(1 − p) > 5),对于小样本,它的准确性很差。Wilson算法正是解决...

    此算法的基础是以用户对某种抉择的二项性为基础,每条可记录的数据都是“0-1”的独立事件,符合泊松分布,于是该类数据很容易归类于二项分布里。二项分布计算置信区间有多种计算公式,最常见的是“正太区间”(Normal approximation interval),但它只适用于样本较多的情况(np > 5 且 n(1 − p) > 5),对于小样本,它的准确性很差。Wilson算法正是解决了小样本的准确性问题,Wilson算法的输入是置信度,输出是置信区间,如果要做数据排序对比,则可以选择置信区间的下限数据。

    S为威尔逊置信区间算法公式,其中n为样本总数,u为正例数,v为反例数,z表示对应某个置信水平的统计量,一般情况下,在95%的置信水平下,z统计量的值为1.96。举个简单例子,给某个人投票,80票赞成,20票反对,则n为100,u为80,v为20。

    正态分布的分位数表:

    算法性质:

    1. 性质:得分S的范围是[0,1),效果:已经归一化,适合排序
    2. 性质:当正例数u为0时,p为0,得分S为0;效果:没有好评,分数最低;
    3. 性质:当负例数v为0时,p为1,退化为1/(1 + z^2 / n),得分S永远小于1;效果:分数具有永久可比性;
    4. 性质:当p不变时,n越大,分子减少速度小于分母减少速度,得分S越多,反之亦然;效果:好评率p相同,实例总数n越多,得分S越多;
    5. 性质:当n趋于无穷大时,退化为p,得分S由p决定;效果:当评论总数n越多时,好评率p带给得分S的提升越明显;
    6. 性质:当分位数z越大时,总数n越重要,好评率p越不重要,反之亦然;效果:z越大,评论总数n越重要,区分度低;z越小,好评率p越重要;

    Python代码实现:

    def wilson_score(pos, total, p_z=0.8):
        """
        威尔逊得分计算函数
        :param pos: 正例数
        :param total: 总数
        :param p_z: 正太分布的分位数
        :return: 威尔逊得分
        """
        pos_rat = pos * 1. / total * 1.  # 正例比率
        score = (pos_rat + (np.square(p_z) / (2. * total))
                 - ((p_z / (2. * total)) * np.sqrt(4. * total * (1. - pos_rat) * pos_rat + np.square(p_z)))) / \
        (1. + np.square(p_z) / total)
        return score

    应用测试:

    展开全文
  • 作者:Jason Brownlee翻译:和中华校对:丁楠雅本文约4000字,建议阅读15分钟。本文介绍了置信区间的概念以及如何计算置信区间和bootstrap置信区间。机...

    640?wx_fmt=png

    作者:Jason Brownlee

    翻译:和中华

    校对:丁楠雅

    本文约4000字,建议阅读15分钟。

    本文介绍了置信区间的概念以及如何计算置信区间和bootstrap置信区间。


    机器学习很多时候需要估计某个算法在未知数据上的性能。

     

    置信区间是一种对估计不确定性的量化方法,它们可以用来在总体参数(例如平均值mean,就是从总体中的一个独立观测样本上估计而来)上添加一个界限或者可能性。

     

    在这篇教程中,你会了解置信区间以及如何在实践中计算置信区间。

     

    学完本教程后,你会明白:

     

    • 置信区间是总体参数估计的一个界限

    • 我们可以直接计算分类方法估计能力的置信区间

    • 任意总体统计的置信区间都可以用bootstrap以一种分布无关法(distribution-free)进行估计

     

    我们开始吧。


    教程概览

     

    本教程分为3个部分:


    • 什么是置信区间

    • 分类精度(accuracy)的置信区间

    • 非参数(Nonparametric)置信区间


    什么是置信区间


    置信区间是总体变量估计的界限,它是一个区间统计量,用于量化估计的不确定性。

    640?wx_fmt=png


    置信区间与容忍区间(tolerance interval)不同,后者描述从分布中采样的数据的边界。它也不同于描述单一观察值边界的预测区间(prediction interval)。相反,对于总体参数,如平均值,标准差等等,置信区间提供了一个界限。

     

    在应用机器学习中,我们可能想在展示一个预测模型的能力时使用置信区间。

     

    例如,置信区间可以用来呈现分类模型的性能,可以这样描述:给定样本,范围x到y覆盖真实模型精度的可能性为95%。或者,在95%的置信水平下,模型精度是x+/-y。

     

    置信区间也能在回归预测模型中用于呈现误差,例如:范围x到y覆盖模型真实误差的可能性有95%。或者,在95%的置信水平下,模型误差是x+/-y。

     

    选择95%的置信度在展现置信区间时很常见,但是其他不那么常见的值也会被使用,比如90%和99.7%。实践中,你可以使用任何喜欢的值。

     

    640?wx_fmt=png


    95%的置信区间(CI)是根据我们的数据计算出的值区间,很可能包括我们对总体估计的真实值。

    ---Page 4, Introduction to the New Statistics: Estimation, Open Science, and Beyond, 2016.


    置信区间的价值在于它能够量化估计的不确定性。它提供了一个下限和上限以及一个可能性。作为单独的半径测量,置信区间通常被称为误差范围,并可通过使用误差图来图形化地表示估计的不确定性。

     

    通常,得出估计的样本越大,估计就越精确,置信区间也越小(越好)。


    • 更小的置信区间:更精确的估计

    • 更大的置信区间:不太精确的估计


    640?wx_fmt=png


    也可以说,CI透露给我们估计的精确程度,而误差范围是精度的衡量标准。一个短的CI意味着小的误差范围,说明我们有一个相对精确的估计[…],一个长的CI意味着大的误差范围,说明我们精度较低

    ---page 4, Introduction to the New Statistics: Estimation, Open Science, and Beyond, 2016


    置信区间属于称为估计统计(estimation statistics)的统计学领域,估计统计用于表示和解释实验结果,可以替代或补充统计显著性检验。


    640?wx_fmt=png


    估计提供了一种信息量更大的方式来分析和解释结果。[…]了解和思考一个影响的大小和精度对于定量科学而言更有用,而不是先假设完全没有影响,再考虑观察到极值数据的概率。

    ---Estimation Statistics should replace Significance testing, 2016


    在实践中,比起统计显著性检验,置信区间可能更受偏爱。

     

    原因是它们更容易让从业人员和利益相关者直接与具体领域相关联。它们也可以被解释并用于比较机器学习模型。


    640?wx_fmt=png


    这些不确定性估计在两方面有帮助。首先,区间让模型的使用者了解模型的好坏。[…]这样一来,在比较不同模型时置信区间可以用于衡量证据的权重。置信区间的第二个好处是便于模型之间的权衡。如果两个模型的置信区间明显重叠,就表明两者之间存在(统计)等价性,并可能提供理由来支持更简洁或者更容易解释的模型。

    ---Page 416, Applied Predictive Modeling, 2013.


    现在我们已经知道了什么是置信区间,让我们看几种给预测模型计算置信区间的方法。


    分类精度的置信区间


    分类问题是指给定一些输入数据,预测它们的标签或者类别结果变量。

     

    通常用分类准确率(accuracy)或分类误差(Error,与准确率相反)来描述分类预测模型的性能。例如,如果一个模型在75%的情况中对类别结果做出了正确预测,则模型的分类准确率为75%,计算公式如下:


    accuracy = total correct predictions / total predictions made * 100


    该准确率可以用模型从未见过的数据集计算,例如验证集或测试集。

     

    分类准确率或分类误差是一个比例。它描述了模型所做的正确或错误预测的比例。每个预测都是一个二元决策,可能正确也可能错误。在技术上,这种方法被称为伯努利审判(Bernoulli trial),因Jacob Bernoulli命名。伯努利审判中的比例具有一种特定的分布,被称为二项分布。值得庆幸的是,对于大样本量(例如超过30),我们可以用高斯分布近似。


    640?wx_fmt=png


    在统计学中,一系列成功或失败的独立事件称为伯努利过程。 [...]对于大N,这个随机变量的分布接近正态分布。

    ---Page 148, Data Mining: Practical Machine Learning Tools and Techniques, Second Edition, 2005


    我们可以使用比例(即分类准确度或误差)的高斯分布假设来轻松地计算置信区间。

     

    在分类误差的情况下,区间半径可以这样计算:


    interval = z * sqrt( (error * (1 - error)) / n)


    在分类准确率的情况,这样计算:

    interval = z * sqrt( (accuracy * (1 - accuracy)) / n)


    公式中的interval是置信区间的半径,error和accuracy是分类误差和分类准确率,n是样本大小,sqrt是平方根函数,z是高斯分布的临界值。用术语表述,这就是二项式比例置信区间。

     

    高斯分布中常用的临界值及其相应的显着性水平如下:

     

    • 1.64(90%)

    • 1.96(95%)

    • 2.33(98%)

    • 2.58(99%)

     

    考虑在一个有50个样本的验证集上(n=50)误差为20%的模型(error=0.2),我们可以这样计算95%的置信区间(z=1.96):


    # binomial confidence interval

    from math import sqrt

    interval = 1.96 * sqrt( (0.2 * (1 - 0.2)) / 50)

    print('%.3f' % interval)


    运行该示例,我们看到计算和打印的置信区间半径。

    0.111

     

    然后我们可以做出如下的声明:


    • 该模型的分类误差为20%+/-11%

    • 模型的真实分类误差可能在9%到31%之间

     

    我们可以看到样本量对置信区间半径估计精度的影响。


    # binomial confidence interval

    interval = 1.96 * sqrt( (0.2 * (1 - 0.2)) / 100)

    print('%.3f' % interval)


    运行上述示例显示置信区间下降到了7%左右,从而提高了模型性能估计的精度。

    0.078


    请记住,置信区间是一个范围的可能性。 真正的模型性能可能在这个范围之外。

    640?wx_fmt=png

    事实上,如果我们一遍一遍地重复这个实验,每次采集一个包含新示例的新样本S,我们会发现对于这些实验的大约95%来说,计算的区间将覆盖真实误差。出于这个原因,我们把这个区间称为95%置信区间估计

     ---Page 131, Machine Learning, 1997

    Proportion_confint() statsmodels函数是二项比例置信区间的一个实现

     

    默认情况下,它对二项分布进行高斯假设,但是对其他更复杂的计算变种也支持。 该函数将成功次数(或失败次数)、试验总数以及显著性水平作为参数,并返回置信区间的上下界。

     

    下面的例子在假设的情况下演示了这个函数,其中一个模型从100个实例的数据集中做出88个正确的预测,并且我们对95%的置信区间(作为0.05的显著性供给函数)感兴趣。


    from statsmodels.stats.proportion import proportion_confint

    lower, upper = proportion_confint(88, 100, 0.05)

    print('lower=%.3f, upper=%.3f' % (lower, upper))


    运行示例输出模型分类准确率的上下界:


    lower=0.816, upper=0.944

    非参数置信区间


    通常我们不知道所选性能指标的分布情况。或者,我们可能不知道计算性能分数置信区间的分析方法。

    640?wx_fmt=png


    参数型置信区间的假设经常不成立。预测变量有时不是正态分布的,即使是,正态分布的方差在预测变量的所有等级上可能也不相同。 

    ---Page 326, Empirical Methods for Artificial Intelligence, 1995.


    在这些情况下,bootstrap重采样方法可以用作计算置信区间的非参数方法,名义上称为bootstrap置信区间。

     

    bootstrap是一种模拟蒙特卡罗方法,其中样本是从固定的有限数据集中有放回的抽取出来的,并且在每个样本上估计一个参数。该过程通过采样得到了对真实总体参数的一个健壮的(robust)估计。

     

    可以用下面的伪代码来证明这一点:


    statistics = []

    for i in bootstraps:

    sample = select_sample_with_replacement(data)

    stat = calculate_statistic(sample)

    statistics.append(stat)


    这个过程可用于估计预测模型的性能,通过在每个样本上拟合模型并估计模型在未包含于这些样本中的样本上的性能。然后可以将平均值或中位数性能视作该模型在未知数据上的性能估计。

     

    可以通过从特定百分位数的性能分数样本中选择观察值,将置信区间添加到此估计值中。

     

    回想一下,百分位数是从排序好的样本中抽取的观测值,其中有相应百分比的样本观测值比它小。例如,样本的70百分位表示70%的样本低于该值。50百分位数是分布的中位数。

     

    首先,我们必须选择置信水平的显著性水平,例如95%,表示为5.0%(例如100-95)。由于置信区间是围绕中位数对称的,我们必须选择2.5百分位和97.5百分位的观察值来给出整个范围。

     

    我们可以通过一个实例来计算bootstrap置信区间。

     

    假设我们有一个由均匀分布产生的数据集,其中包含1,000个观察值在0.5到1.0之间。


    # generate dataset

    dataset = 0.5 + rand(1000) * 0.5


    我们将执行100次bootstrap过程,并从数据集中有放回的抽取1000个观测样本。 我们将把在bootstrap样本上计算的统计量作为总体平均值的估计。这很容易成为一个模型的评估。


    # bootstrap

    scores = list()

    for _ in range(100):

    # bootstrap sample

    indices = randint(0, 1000, 1000)

    sample = dataset[indices]

    # calculate and store statistic

    statistic = mean(sample)

    scores.append(statistic)


    一旦我们获得了bootstrap统计的样本,我们就可以计算出中心趋势。因为不对分布做任何假设,我们将使用中位数或50百分位数。

     

    print('median=%.3f' % median(scores))


    然后我们可以计算置信区间作为以中位数为中心的观察统计值的中间95%。


    # calculate 95% confidence intervals (100 - alpha)

    alpha = 5.0


    首先,基于所选择的置信区间来计算较低的百分位数。然后从bootstrap统计的样本中提取出这个百分位的观察值。


    # calculate lower percentile (e.g. 2.5)

    lower_p = alpha / 2.0

    # retrieve observation at lower percentile

    lower = max(0.0, percentile(scores, lower_p))


    我们对置信区间的上界做同样的事情。

    # calculate upper percentile (e.g. 97.5)

    upper_p = (100 - alpha) + (alpha / 2.0)

    # retrieve observation at upper percentile

    upper = min(1.0, percentile(scores, upper_p))


    下面列出了完整的示例。


    # bootstrap confidence intervals

    from numpy.random import seed

    from numpy.random import rand

    from numpy.random import randint

    from numpy import mean

    from numpy import median

    from numpy import percentile

    # seed the random number generator

    seed(1)

    # generate dataset

    dataset = 0.5 + rand(1000) * 0.5

    # bootstrap

    scores = list()

    for _ in range(100):

    # bootstrap sample

    indices = randint(0, 1000, 1000)

    sample = dataset[indices]

    # calculate and store statistic

    statistic = mean(sample)

    scores.append(statistic)

    print('50th percentile (median) = %.3f' % median(scores))

    # calculate 95% confidence intervals (100 - alpha)

    alpha = 5.0

    # calculate lower percentile (e.g. 2.5)

    lower_p = alpha / 2.0

    # retrieve observation at lower percentile

    lower = max(0.0, percentile(scores, lower_p))

    print('%.1fth percentile = %.3f' % (lower_p, lower))

    # calculate upper percentile (e.g. 97.5)

    upper_p = (100 - alpha) + (alpha / 2.0)

    # retrieve observation at upper percentile

    upper = min(1.0, percentile(scores, upper_p))

    print('%.1fth percentile = %.3f' % (upper_p, upper))


    运行示例总结了bootstrap样本统计的分布,包括2.5,50(中位数)和97.5百分位数。

    50th percentile (median) = 0.750

    2.5th percentile = 0.741

    97.5th percentile = 0.757


    然后,我们可以使用这些观察结果对样本分布做出声明,例如:

     

    有95%的可能性以0.741至0.757的范围涵盖了真实的统计中位数。


    扩展


    本节列出了一些有帮助的想法,如果您希望对本教程内容扩展:


    • 在您自己的小型测试数据集上测试每个置信区间方法。

    • 查阅3篇论文,它们展示了置信区间的不同使用方法

    • 编写一个函数来计算给定的机器学习模型性能分数样本的bootstrap置信区间。

     

    进一步阅读


    如果您希望深入了解,本节提供了有关该主题的更多资源。


    Posts


    How to Report Classifier Performance with Confidence Intervals

    How to Calculate Bootstrap Confidence Intervals For Machine Learning Results in Python

    Understand Time Series Forecast Uncertainty Using Confidence Intervals with Python


    Books


    Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis, 2011.

    Introduction to the New Statistics: Estimation, Open Science, and Beyond, 2016.

    Statistical Intervals: A Guide for Practitioners and Researchers, 2017.

    Applied Predictive Modeling, 2013.

    Machine Learning, 1997.

    Data Mining: Practical Machine Learning Tools and Techniques, Second Edition, 2005.

    An Introduction to the Bootstrap, 1996.

    Empirical Methods for Artificial Intelligence, 1995.


    Papers


    Estimation statistics should replace significance testing, 2016.

    Bootstrap Confidence Intervals, Statistical Science, 1996.


    API


    statsmodels.stats.proportion.proportion_confint() API

    numpy.random.rand() API

    numpy.random.randint() API

    numpy.random.seed() API

    numpy.percentile() API

    numpy.median() API


    Articles


    Interval estimation on Wikipedia

    Confidence interval on Wikipedia

    Binomial proportion confidence interval on Wikipedia

    Confidence interval of RMSE on Cross Validated

    Bootstrapping on Wikipedia

     

    总结


    在本教程中,你探索了置信区间以及如何在实践中计算置信区间。

     

    具体来说,你学会了:

     

    • 置信区间是总体参数估计的界限。

    • 可以直接计算分类方法的估计性能的置信区间

    • 任何总体统计数据的置信区间都可以使用bootstrap以分布无关方式进行估算。

     

    你有任何问题吗?


    在下面的评论中提出问题,我会尽我所能来回答。

    原文标题:

    Confidence Intervals for Machine Learning

    原本链接:

    https://machinelearningmastery.com/confidence-intervals-for-machine-learning/

    译者简介

    640?wx_fmt=jpeg

    和中华,留德软件工程硕士。由于对机器学习感兴趣,硕士论文选择了利用遗传算法思想改进传统kmeans。目前在杭州进行大数据相关实践。加入数据派THU希望为IT同行们尽自己一份绵薄之力,也希望结交许多志趣相投的小伙伴。

    翻译组招募信息

    工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!

    你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。

    其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。

    点击文末“阅读原文”加入数据派团队~

    转载须知

    如需转载,请在开篇显著位置注明作者和出处(转自:数据派THU ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

    发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。


    640?wx_fmt=png

    640?wx_fmt=jpeg


    点击“阅读原文”拥抱组织

    展开全文
  • 一、正态分布 标准正态分布 标准正态分布就是均值为0,标准差为1的分布,如下图 一般正态分布 ...图中的面积就是标准正态分布的概率,而置信区间就是变量的区间估计,例如图中的-1到1就是一个置信...
  • 为了解决这个问题,文中通过引入威尔逊置信区间估计的概念, 提出了一种利用置信区间下限值来代替好评 的改进算法。该算法综合考虑了商品好评与评论数,能有效解决好评排名存在的小样本准确性问题。通过真实...
  • Bootstrap置信区间和GEV拟合pdf

    千次阅读 2020-03-19 00:16:49
    检测归因研究所用: GEV拟合pdf 和 Bootstrap置信区间 ...如果给定输入数据,预测它们的标签,通常用分类准确率(accuracy)或分类误差(Error,与准确率相反)来描述分类预测模型的性能,分类准确率或分类误差是...
  • 这两个项目的赞成票比例都是80%,但是B的置信区间(假定[75%, 85%])会比A的置信区间(假定[70%, 90%])窄得多,因此B的置信区间下限值(75%)会比A(70%)大,所以B应该排在A前面。 置信区间的实质,就是进行可信...
  • 关于置信度和置信区间的解释

    千次阅读 2009-02-19 15:25:00
    所谓置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度....而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。 置信度也称为可靠度,或置信
  • 在本文中,我们将解释贝叶斯长期短期记忆模型(LSTM)是如何工作的,然后通过一个Kaggle数据集进行股票置信区间的预测。贝叶斯LSTM层众所周知,LSTM结构旨在解决使用标准的循环神经网络(RNN)处理长序列数据时发生...
  • 在本文中,我们将解释贝叶斯长期短期记忆模型(LSTM)是如何工作的,然后通过一个Kaggle数据集进行股票置信区间的预测。 贝叶斯LSTM层 众所周知,LSTM结构旨在解决使用标准的循环神经网络(RNN)处理长序列数据时...
  • 威尔逊区间

    2021-03-23 18:53:18
    这两个项目的赞成票比例都是80%,但是B的置信区间(假定[75%, 85%])会比A的置信区间(假定[70%, 90%])窄得多,因此B的置信区间下限值(75%)会比A(70%)大,所以B应该排在A前面。 置信区间的实质,就是进行可信...
  • 我推荐一种之前在惠普做过一种排序方法:威尔逊区间法我们先做如下设定:(1)每个用户的打分都是独立事件。(2)用户只有两个选择,要么投喜欢'1',要么投不喜欢'0'。(3)如果总人数为n,其中喜欢的为k,那么喜欢的比例p...
  • 威尔逊区间迄今为止,这个系列都在讨论,如何给出"某个时段"的排名,比如"过去24小时最热门的文章但是,很多场合需要的是"所有时段"的排名,比如"最受用户好评的产品"。这时,时间因素就不需要考虑了。这个系列的...
  • 原标题:【第1482期】基于用户投票的排名算法:威尔逊区间前言昨天坐公交的时候看到一个名词:威尔逊区间,本着好奇去了解一下。这篇应该跟前端关系不大,有兴趣可以了解一下。今日早读文章由@阮一峰分享。正文从这...
  • 一种常见的错误算法是:[得分 = 赞成票 - 反对票假定有两个项目,项目A是60张赞成票,40张反对票,项目B是550张赞成票,450张反对票。...但是实际,B的好评只有55%(550 / 1000),而A为60%(60 / 100),所...
  • 注:区间估计是除点估计之外的另一类参数估计。相对于点估计只给出一个具体的数值,区间估计能够给出一个估计的范围。 0. 点估计 vs 区间估计 根据具体样本观察值,点估计提供了一个明确的数值。但是这种判断...
  • 很多医学生及医生经常会对诊断实验进行评价,评价诊断试验的常用指标及计算方法都比较容易掌握,但是少有人知道其相应的95%的置信区间的计算方法。我们简单的回顾一下,诊断试验评价的基本方法是用所谓的“金标准”...
  • 推荐系统 | 威尔逊区间

    千次阅读 2017-11-06 00:00:00
    我推荐一种之前在惠普做过一种排序方法:威尔逊区间法 我们先做如下设定: (1)每个用户的打分都是独立事件。 (2)用户只有两个选择,要么投喜欢'1',要么投不喜欢'0'。 (3)如果总人数为n...
  • 这边,我推荐用t检验来衡量小样本的数据,可以解决数据过少准确率不高的问题。 这样一来,排名算法就比较清晰了: 第一步,计算每个case的p(好评率)。 第二步,计算每个"好评率"的置信区间(参考z Test或者t ...
  • 依据专业知识,对疾病组和参照组测定结果进行分析,确定测定值的上下限、 组距 以及截断点(cut-off point),按选择的组距间隔列出累积 频数分布 表,分别计算出所有截断点的敏感性、 特异性 和假阳性(1-特异性...
  • 根据置信区间的不同表现,我们可以来判断试验结果显著与否:如果置信区间上下限同为正/负,则说明试验结果是统计显著的;如果置信区间为一正一负,则说明版本间差异不大。 值得注意的是,置信区间同为正或负时,...
  • 这两个项目的赞成票比例都是80%,但是B的置信区间(假定[75%, 85%])会比A的置信区间(假定[70%, 90%])窄得多,因此B的置信区间下限值(75%)会比A(70%)大,所以B应该排在A前面。 置信区间的实质,就是进行可信...
  • 7、spss做probit回归和非线性回归

    千次阅读 2015-04-15 15:32:58
    然后点开选项,勾选频率,信仰置信区间,继续,确定。 然后就可以看结果了。参数值和卡方检验这两个表会告诉你这个模型有没有意义,适不适合用 probit 回归(如果想和 logistic 回归作比较,就可以用这里的拟合...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 411
精华内容 164
关键字:

准确率100的置信区间上下限是100%吗