置信区间 订阅
置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。 [1] 展开全文
置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。 [1]
信息
别    称
估计区间
表达式
Pr(c1<=μ<=c2)=1-α
应用学科
数学、参数统计
中文名
置信区间
适用领域范围
统计学、参数统计
外文名
Confidence intervals
置信区间理论描述
置信区间是一种常用的区间估计方法,所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间 [2]  。对于一组给定的样本数据,其平均值为μ,标准偏差为σ,则其整体数据的平均值的100(1-α)%置信区间为(μ-Ζα/2σ , μ+Ζα/2σ) ,其中α为非置信水平在正态分布内的覆盖面积 ,Ζα/2即为对应的标准分数。 [1]  对于一组给定的数据,定义 为观测对象,W为所有可能的观测结果,X为实际上的观测值,那么X实际上是一个定义在 上,值域在W 上的随机变量。这时,置信区间的定义是一对函数u(.) 以及v(.) ,也就是说,对于某个观测值X= ,其置信区间为 。实际上,若真实值为w,那么置信水平就是概率c: 其中U=u(X)和 V=v(X)都是统计量(即可观测的随机变量),而置信区间因此也是一个随机区间:(U,V) [3]  。
收起全文
精华内容
下载资源
问答
  • 小白都能看懂的95%置信区间

    万次阅读 多人点赞 2018-09-14 22:56:35
    1.点估计与区间估计 首先我们看看点估计的含义: 是用样本统计量来估计总体参数,因为样本...给定置信水平,根据估计值确定真实值可能出现的区间范围,该区间通常以估计值为中心,该区间则为置信区间。 2.中心...

    项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
    经常有同学私信或留言询问相关问题,V号bitcarmanlee。github上star的同学,在我能力与时间允许范围内,尽可能帮大家解答相关问题,一起进步。

    1.点估计与区间估计

    首先我们看看点估计的含义:
    是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。点估计虽然给出了未知参数的估计值,但是未给出估计值的可靠程度,即估计值偏离未知参数真实值的程度。
    接下来看下区间估计:
    给定置信水平,根据估计值确定真实值可能出现的区间范围,该区间通常以估计值为中心,该区间则为置信区间。

    2.中心极限定理与大数定理

    中心极限定理:
    在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。例如我们要计算全中国人的平均身高。如果每次取10000个身高作为样本,对应有一个样本均值。如果再从总体中重复抽取n多次10000个样本,就对应有n个样本均值。随着n增大,把所有样本均值画出来,得到的就是一个接近正太分布的曲线。
    大数定理:
    取样数趋近无穷时,样品平均值按概率收敛于期望值。抛硬币的次数越多,越接近正反各一半。

    3.置信区间与置信水平

    一般我们用中括号[a,b]表示样本估计总体平均值误差范围的区间。a、b的具体数值取决于你对于"该区间包含总体均值"这一结果的可信程度,因此[a,b]被称为置信区间。
    一般来说,选定某一个置信区间,我们的目的是为了让"ab之间包含总体平均值"的结果有一特定的概率,这个概率就是所谓的置信水平。
    例如我们最常用的95%置信水平,就是说做100次抽样,有95次的置信区间包含了总体均值。

    4.标准差(standard deviation)与标准误差(standard error)

    标准差是描述观察值(个体值)之间的变异程度(例如一个人打十次靶子的成绩,这时有一个平均数8,有一个反映他成绩稳定与否的标准差);
    标准误是描述样本均数的抽样误差(例如十次抽样,每次他成绩平均数(7,8,6,9,5,6,7,7,8,9)的标准差,也就是抽样分布的标准差);
    样本的标准误差为:
    SE=s()nSE = \frac{s(样本标准差)} {\sqrt{n}}

    5.如何理解95%的置信区间

    以上面的统计身高为例,假设全国人民的身高服从正态分布:
    XN(μ,σ2)X \sim N(\mu, \sigma^2)

    不断进行采样,假设样本的大小为n,则样本的均值为:
    M=X1+X2++XnnM = \frac{X_1 + X_2 + \cdots + X_n}{n}

    由大数定理与中心极限定理:
    MN(μ,σ12)M \sim N(\mu, \sigma_1^2)
    注意σ1\sigma_1的计算方法为第4部分提到的标准误差!

    为什么常用95%的置信水平:

    这里写图片描述

    对照上图,用一句简单的话概括就是:
    有95%的样本均值会落在2个(比较精确的值是1.96)标准误差范围内。

    用数学公式描述就是:
    P(μ1.96σn<M<μ+1.96σn)=0.95P(\mu - 1.96 \frac{\sigma}{\sqrt{n}} < M < \mu + 1.96 \frac{\sigma}{\sqrt{n}} ) = 0.95

    6.计算置信区间的套路

    从上面的例子来看,计算置信区间的套路如下:
    1.首先明确要求解的问题。比如我们的例子,就是想通过样本来估计全国人民身高的平均值。
    2.求抽样样本的平均值与标准误差(standard error)。注意标准误差与标准差(standard deviation)不一样。
    3.确定需要的置信水平。比如常用的95%的置信水平,这样可以保证样本的均值会落在总体平均值2个标准差得范围内。
    4.查z表,求z值。
    5.计算置信区间
    a = 样本均值 - z标准误差
    b = 样本均值 + z
    标准误差

    用公式表示置信区间:
    x±zsn\overline x \pm z \frac{s}{\sqrt n}
    其中,x\overline x表示样本的均值,zz值表示有多少标准差,ss为样本的方差。

    展开全文
  • 置信区间

    2020-12-28 00:53:38
    目录1、置信区间&置信度(置信水平)&显著性水平2、如何计算置信区间大样本如何计算置信区间小样本如何计算置信区间 参考:https://zhuanlan.zhihu.com/p/53976870 1、置信区间&置信度(置信水平)&...

    参考:https://zhuanlan.zhihu.com/p/53976870

    1、置信区间&置信度(置信水平)&显著性水平

    • 置信区间(Confidence interval):在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计,展现的是这个参数的真实值有一定概率落在测量结果周围的程度。
    • 置信度或置信水平:置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”,这个概率即为置信度,亦称置信水平。
    • 显著性水平α:100%*(1-α)即为置信水平

    2、如何计算置信区间

    大样本如何计算置信区间

    大样本:抽样调查的样本数量大于30。 此时可近似认为样本抽样分布趋近于正态分布,符合中心极限定理,并利用样本的均值和标准差来估计总体。

    举例: 糖果公司用一个100粒糖球的样本得出口味持续时间均值的点估计量为62.7分钟,同时总体方差的点估计量为25分钟,设定置信水平为95%,求糖果总体均值的置信区间。

    1.求其抽样的分布(根据样本分布得到样本均值的分布):

    100粒糖球为一个抽样,求抽样均值的分布,我们知道当n足够大时,样本均值服从正态分布,即:
    在这里插入图片描述
    2.求置信区间(对样本均值分布进行标准化即Z所属分布,根据置信水平得到z值相应上下限 代入P(Za<Z<Zb)=1-α)

    2.1 根据置信水平,确定概率上下限:
    在这里插入图片描述
    2.2 对估计只进行标准化:
    在这里插入图片描述
    2.3 根据P(Z < Za) = 0.025, P(Z > Zb) = 0.025,分别算出Za和Zb分别为-1.96和1.96(查z table可得):

    在这里插入图片描述

    2.4 由于已有样本均值,因此可以得到总体均值的置信区间:
    在这里插入图片描述

    小样本如何计算置信区间

    • 小样本:抽样调查的样本数量小于30,此时可近似认为样本抽样分布趋近于t分布。
    • 自由度:指在不影响给定限制条件的情况下,可以自由变化信息的数量(自由度公式中n表示样本大小)。

    在这里插入图片描述

    举例:7名学生在使用了新研制的钙片3个月后,他们的血液中的钙含量分别上升了1.5, 2.9, 0.9, 3.9, 3.2, 2.1, 1.9。设定置信水平为95%,求所有使用新钙片的学生的钙含量增加平均值的置信区间。

    1.求其抽样的分布(根据样本的分布得到样本均值及标准误差):

    抽样样本的容量为7,自由度为(n-1)=6,均值为:2.34,无偏方差为1.04(根据样本方差及自由度求得)。因为样本的无偏方差可认为是总体方差,所以总体方差为1.04,则抽样样本均值的方差为1.04/7=0.149,故抽样样本均值的标准差(即标准误差)为0.385。

    (此处应注意区别:样本的无偏方差、抽样样本均值的方差)
    2.求置信区间(根据自由度及置信水平查表得t值,代入 样本均值±t*标准误差 求上下限):

    2.1 此时自由度为6,按双侧检验置信水平95%查t table可得t=2.447
    在这里插入图片描述2.2 求出置信区间上下限a,b及置信区间:

    a=样本平均值-t标准误差=2.34-2.4470.385

    b=样本平均值+t标准误差=2.34+2.4470.385

    即当我们选用置信水平为95%时,总体均值的置信区间为[ 1.39,3.28 ]。

    展开全文
  • 置信区间置信区间Gradient Boosting methods are a very powerful tool for performing accurate predictions quickly, on large datasets, for complex variables that depend non linearly on a lot of features...

    置信区间的置信区间

    Gradient Boosting methods are a very powerful tool for performing accurate predictions quickly, on large datasets, for complex variables that depend non linearly on a lot of features.

    梯度提升方法是一种非常强大的工具,可对大型数据集上的非线性快速依赖许多特征的复杂变量快速执行准确的预测。

    Moreover, it has been implemented in various ways: XGBoost, CatBoost, GradientBoostingRegressor, each having its own advantages, discussed here or here. Something these implementations all share is the ability to choose a given objective for training to minimize. And even more interesting is the fact that XGBoost and CatBoost offer easy support for a custom objective function.

    而且,它已经以各种方式实现: XGBoostCatBoostGradientBoostingRegressor ,每种方法都有其各自的优势,在此处此处进行讨论。 这些实现都具有的共同点是能够选择给定目标进行培训以使其最小化。 更有趣的是,XGBoost和CatBoost为自定义目标函数提供了轻松的支持。

    Why do I need a custom objective?

    为什么需要自定义目标?

    Most implementations provide standard objective functions, like Least Square, Least Deviation, Huber, RMSE, … But sometimes, the problem you’re working on requires a more specific solution to achieve the expected level of precision. Using a custom objective is usually my favourite option for tuning models.

    大多数实现都提供标准的目标函数,例如最小二乘,最小偏差,Huber,RMSE等。但是有时,您正在解决的问题需要更具体的解决方案才能达到预期的精度水平。 使用自定义目标通常是我最喜欢的用于调整模型的选项。

    Can you provide us with an example?

    您能提供一个例子吗?

    Sure! Recently, I’ve been looking for a way to associate the prediction of one of our models with confidence intervals. As a short reminder, confidence intervals are characterised by two elements:

    当然! 最近,我一直在寻找一种将我们模型之一的预测与置信区间相关联的方法。 简要提醒一下,置信区间的特征包括两个要素:

    1. An interval [x_l, x_u]

      间隔[x_l,x_u]
    2. The confidence level i.e. the probability that the predicted values lie in this interval.

      置信度, 预测值在此间隔内的概率。

    For instance, we can say that the 99% confidence interval of average temperature on earth is [-80, 60].

    例如,我们可以说地球上平均温度的99%置信区间为[-80,60]。

    Associating confidence intervals with predictions allows us to quantify the level of trust in a prediction.

    将置信区间与预测相关联可以使我们量化预测中的信任级别。

    How do you compute confidence intervals?

    您如何计算置信区间?

    You’ll need to train two models :

    您需要训练两个模型:

    • One for the upper bound of your interval

      一个为间隔的上限
    • One for the lower bound of your interval

      一个用于间隔的下限

    And guess what? You need specific metrics to achieve that: Quantile Regression objectives. Both the scikit-learn GradientBoostingRegressor and CatBoost implementations provide a way to compute these, using Quantile Regression objective functions, but both use the non-smooth standard definition of this regression :

    你猜怎么着? 您需要特定的指标才能实现以下目标:分位数回归目标。 scikit-learn GradientBoostingRegressorCatBoost实现都提供了一种使用分位数回归目标函数来计算它们的方法,但是都使用了这种回归的非平滑标准定义:

    Where t_i is the ith true value and a_i is the ith predicted value. w_i are optional weights used to ponderate the error. And alpha defines the quantile.

    其中t_i是第i个真实值,而a_i是第i个预测值。 w_i是用于考虑错误的可选权重。 alpha定义了分位数。

    For instance, using this objective function, if you set alpha to 0.95, 95% of the obervations are below the predicted value. Conversely, if you set alpha to 0.05, only 5% of the observations are below the prediction. And 90% of real values lie between these two predictions.

    例如,使用此目标函数,如果将alpha设置为0.95,则95%的观测值低于预测值。 相反,如果将alpha设置为0.05,则只有5%的观测值低于预测值。 90%的实际价值介于这两个预测之间。

    Let’s plot it using the following code, for the range [-10, 10] and various alphas:

    让我们使用以下代码为[-10,10]范围和各种alpha进行绘制:

    As you can see in the resulting plot below, this objective function is continuous but its derivative is not. There is a singularity in (0, 0), i.e. it’s a C_0 function, with respect to the error, but not a C_1 function. This is an issue, as gradient boosting methods require an objective function of class C_2, i.e. that can be differentiated twice to compute the gradient and hessian matrices.

    正如您在下面的结果图中看到的那样,该目标函数是连续的,但其导数不是。 (0,0)中有一个奇点, 。 关于错误,它是一个C_0函数,但不是C_1函数。 这是一个问题,因为梯度增强方法需要C_2类的目标函数,即可以将其微分两次以计算梯度和粗麻布矩阵。

    Quantile regression objective function for various alpha.

    If you are familiar with the MAE objective, you should have recognized that these quantile regression functions are simply the MAE, scaled and rotated. If you’re not, the screenshot below should convince you :

    如果您熟悉MAE目标,那么您应该已经认识到这些分位数回归函数就是简单的MAE,可以对其进行缩放和旋转。 如果不是这样,下面的屏幕截图应该可以说服您:

    Image for post

    The logcosh objective

    逻辑目标

    As a reminder, the formula for the MAE objective is simply

    提醒一下,MAE目标的公式很简单

    Image for post
    MAE objective formula
    MAE目标公式

    The figure above also shows a regularized version of the MAE, the logcosh objective. As you can see, this objective is very close to the MAE, but is smooth, i.e. its derivative is continuous and differentiable. Hence, it can be used as an objective in any gradient boosting method, and provides a reasonable rate of convergence compared to default, non-differentiable ones.

    上图还显示了MAE(logcosh目标)的正规化版本。 如您所见,该目标非常接近MAE,但很平滑,即其导数是连续且可微的。 因此,它可以用作任何梯度增强方法的目标,并且与默认的不可微方法相比,可以提供合理的收敛速度。

    And as it is a very close approximation of the MAE, if we manage to scale and rotate it, we’ll get a twice differentiable approximation of the quantile regression objective function.

    而且由于它是MAE的非常接近的近似值,因此,如果我们能够缩放和旋转它,我们将得到分位数回归目标函数的二次微分近似值。

    You might have noticed that there is a slight offset between the curve of the MAE and the log cosh. We will explain that in detail a little further below.

    您可能已经注意到,MAE的曲线和对数曲线之间存在一些偏移。 我们将在下面进一步详细解释。

    The formula for the logcosh is straightforward :

    Logcosh的公式很简单:

    Image for post
    Formula for the logcosh objective
    Logcosh目标的公式

    Rotation and scaling of the logcosh

    Logcosh的旋转和缩放

    All we need to do now is to find a way to rotate and scale this objective so that it becomes a good approximation of the quantile regression objective. Nothing complex here. As logcosh is similar to the MAE, we apply the same kind of change as for the Quantile Regression, i.e. we scale it using alpha :

    我们现在要做的就是找到一种旋转和缩放该目标的方法,以使其成为分位数回归目标的良好近似。 这里没什么复杂的。 由于logcosh与MAE相似,因此我们采用与分位数回归相同的更改,即我们使用alpha对其进行缩放:

    Image for post
    Smooth Quantile regression using log cosh
    使用log cosh平滑分位数回归

    That can be done with these twelve lines of code:

    这可以通过以下十二行代码来完成:

    And this works, as shown below :

    这可以正常工作,如下所示:

    Image for post

    But wait a minute!

    但是请稍等!

    You might be curious as to why combining two non-linear functions like log and cosh results in such a simple, near linear curve.

    您可能对为什么将两个非线性函数(例如log和cosh)组合在一起产生如此简单,接近线性的曲线感到好奇。

    The answer lies in the formula of cosh :

    答案在于cosh的公式:

    Image for post
    cosh formula
    科什公式

    When x is positive and large enough, cosh can be approximated by

    当x为正且足够大时, cosh可以近似为

    Image for post
    Approximation of cosh when x >> 0
    x >> 0时的cosh近似值

    Conversely, when x is negative enough, cosh can be approximated by

    相反,当x足够负时, cosh可以近似为

    Image for post
    Approximation of cosh when x << 0
    x << 0时的cosh近似值

    We begin to understand how combining these two formulae leads to such linear results. Indeed, as we apply the log to these approximations of cosh, we get :

    我们开始理解将这两个公式结合起来如何得出这样的线性结果。 实际上,将对数应用于这些近似的cosh时,我们得到:

    Image for post
    logcosh simplification for x >> 0
    x >> 0的logcosh简化

    for x >>0. The same stands for x << 0 :

    对于x >> 0。 x << 0的相同含义:

    Image for post

    It is now clear why these two functions closely approximate the MAE. We also get as a side benefit the explanation for the slight gap between the MAE and the logcosh. It’s log(2)!

    现在很清楚,为什么这两个函数非常接近MAE。 作为附带的好处,我们还可以解释MAE和Logcosh之间的微小差距。 是log(2)!

    Let’s try it on a real example

    让我们尝试一个真实的例子

    It is now time to ensure that all the theoretical maths we perform above works in real life. We won’t evaluate our method on a simple sinus, as proposed in scikit here ;) Instead, we are going to use real-world data, extracted from the TLC trip record dataset, that contains more than 1 billion taxi trips.

    现在是时候确保我们在现实生活中完成以上工作的所有理论数学。 我们不会在这里的 scikit中提出的那样对基于简单窦的方法进行评估;)相反,我们将使用从TLC行程记录数据集中提取的包含10亿次出租车行程的真实数据。

    The code snippet below implements the idea presented above. It defines the logcosh quantile regression objective log_cosh_quantile, that computes its gradient and the hessian. Those are required to minimize the objective.

    下面的代码片段实现了上面介绍的想法。 它定义了logcosh分位数回归目标log_cosh_quantile ,该目标计算其梯度和粗麻布。 需要这些以最小化目标。

    As stated at the beginning of this article, we need to train two models, one for the upper bound, and another one for the lower bound.

    如本文开头所述,我们需要训练两个模型,一个模型用于上限,另一个模型用于下限。

    The remaining part of the code simply loads data and performs minimal data cleaning, mainly removing outliers.

    该代码的其余部分仅加载数据并执行最少的数据清理,主要是消除异常值。

    In this code, we have chosen to compute the 90% confidence interval. Hence we use alpha=0.95 for the upper bound, and alpha=0.05 for the lower bound.

    在此代码中,我们选择了计算90%置信区间。 因此,我们将alpha = 0.95用作上限,将alpha = 0.05用作下限。

    Hyperparameter tuning has been done manually, using fairly standard values. It could certainly be improved, but the results are good enough to illustrate this paper.

    超参数调整已使用相当标准的值手动完成。 当然可以改进它,但是结果足以说明本文。

    The last lines of the script are dedicated to the plotting of the first 150 predictions of the randomly build test set with their confidence interval:

    脚本的最后几行专门用于绘制随机构建测试集的前150个预测及其置信区间:

    Image for post

    Note that we have also included at the end of the script a counter to evaluate the number of real values whose confidence interval is correct. On our test set, 22 238 over 24 889 (89.3%) of the real values were within the calculated confidence interval.

    注意,在脚本的末尾还包含一个计数器,用于评估置信区间正确的实数值的数量。 在我们的测试集中,超过24 889的实际值中的22 238(89.3%)在计算的置信区间内。

    The model has been trained on the first 100 000 lines of the January 2020 dataset of the TLC trip record dataset.

    该模型已在TLC旅行记录数据集的2020年1月数据集的前100000行上进行了训练。

    Conclusion

    结论

    With simple maths, we have been able to define a smooth quantile regression objective function, that can be plugged into any machine learning algorithm based on objective optimisation.

    通过简单的数学运算,我们已经能够定义一个平滑的分位数回归目标函数,该函数可以插入基于目标优化的任何机器学习算法中。

    Using these regularized functions, we have been able to predict reliable confidence intervals for our prediction.

    使用这些正则化函数,我们已经能够为我们的预测预测可靠的置信区间。

    This method has the advantage over the one presented here of being parameters-less. Hyperparameter tuning is already a demanding step in optimizing ML models, we don’t need to increase the size of the configuration space with another parameter ;)

    此处介绍的方法相比,此方法的优点在于无需参数。 在优化ML模型中,超参数调整已经是一个艰巨的步骤,我们不需要使用其他参数来增加配置空间的大小;)

    翻译自: https://towardsdatascience.com/confidence-intervals-for-xgboost-cac2955a8fde

    置信区间的置信区间

    展开全文
  • 置信区间置信区间 最近,我在Julia Evans的博客上遇到了一篇有趣的文章,展示了如何通过对我们实际上使用bootstrapping 的一小部分数据点进行采样来生成更大的数据点集 。 Julia的示例全部使用Python,因此我认为...

    置信区间的置信区间

    最近,我在Julia Evans的博客上遇到了一篇有趣的文章,展示了如何通过对我们实际上使用bootstrapping 的一小部分数据点进行采样生成更大的数据点集 Julia的示例全部使用Python,因此我认为将它们转换为R是一个有趣的练习。

    我们正在进行引导,以模拟一次航班的未出现次数,因此我们可以算出可以超额预定飞机的座位数。

    我们从一小部分未出现的航班开始,然后假设可以将某人从5%的航班中踢出去是可以的。 让我们算出最初样本中有多少人:

    > data = c(0, 1, 3, 2, 8, 2, 3, 4)
    > quantile(data, 0.05)
      5% 
    0.35

    0.35人! 这不是一个特别有用的结果,因此我们将对原始数据集重新采样10,000次,每次取5%的位数,以查看是否得出更好的结果:

    我们将使用带有替换功能的sample函数来生成我们的重采样:

    > sample(data, replace = TRUE)
    [1] 0 3 2 8 8 0 8 0
    > sample(data, replace = TRUE)
    [1] 2 2 4 3 4 4 2 2

    现在,让我们编写一个函数来多次执行此操作:

    library(ggplot)
     
    bootstrap_5th_percentile = function(data, n_bootstraps) {
      return(sapply(1:n_bootstraps, 
                    function(iteration) quantile(sample(data, replace = TRUE), 0.05)))
    }
     
    values = bootstrap_5th_percentile(data, 10000)
     
    ggplot(aes(x = value), data = data.frame(value = values)) + geom_histogram(binwidth=0.25)

    2015-07-19_18-05-48

    因此,该可视化告诉我们,我们可以以0-2人的价格超额销售,但我们不知道确切的数字。

    让我们尝试相同的练习,但是初始数据集包含更大的1,000个值而不是8个值。首先,我们将生成一个分布(平均值为5,标准差为2)并将其可视化:

    library(dplyr)
     
    df = data.frame(value = rnorm(1000,5, 2))
    df = df %>% filter(value >= 0) %>% mutate(value = as.integer(round(value)))
    ggplot(aes(x = value), data = df) + geom_histogram(binwidth=1)

    2015-07-19_18-09-15

    我们的发行版似乎具有更多的4和5值,而Python版本的发行版更扁平-我不确定为什么这样,如果您有任何想法让我知道。 无论如何,让我们检查此数据集的5%ile:

    > quantile(df$value, 0.05)
    5% 
     2

    凉! 现在至少我们有一个整数值,而不是我们之前获得的0.35。 最后,让我们对新发行版进行一些引导,看看我们得出的5%ile:

    resampled = bootstrap_5th_percentile(df$value, 10000)
    byValue = data.frame(value = resampled) %>% count(value)
     
    > byValue
    Source: local data frame [3 x 2]
     
      value    n
    1   1.0    3
    2   1.7    2
    3   2.0 9995
     
    ggplot(aes(x = value, y = n), data = byValue) + geom_bar(stat = "identity")

    2015-07-19_18-23-29

    “ 2”是迄今为止最受欢迎的5%ile,尽管它似乎比使用Julia的Python版本更重视该值,这是因为我们似乎是从略有不同的分布中取样的。

    翻译自: https://www.javacodegeeks.com/2015/07/r-bootstrap-confidence-intervals.html

    置信区间的置信区间

    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,920
精华内容 768
关键字:

置信区间