精华内容
下载资源
问答
  • 2021-10-04 09:55:06

    R语言构建回归模型并获取对于新数据预测的预测区间实战:95%或者99%预测区间而不是一个具体的预测值、置信区间与预测区间的异同

    目录

    更多相关内容
  • POLYPREDCI将实际(x,y)数据和多项式顺序作为参数,使用'polyfit'和'polyval'进行回归,然后计算并返回拟合曲线和拟合的单边预测置信区间。 它使用单尾 t 统计量来计算置信区间。 该计算完全包含在 POLYPREDCI 中...
  • 如何近似计算回归方程的预测区间

    万次阅读 多人点赞 2020-04-29 16:02:19
    1 预测区间与置信区间的差别 预测区间估计(prediction interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间。变量的估计叫预测区间预测区间反映了...

        1 预测区间与置信区间的差别

     

        预测区间估计(prediction interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间。变量的估计叫预测区间,预测区间反映了单个数值的不确定性;

     

        置信区间估计(confidence interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间。参数的估计叫置信区间,置信区间反映了预测均值的不确定性。

        例如,有回归方程:

        工作量=2*规模+3,

        当规模=10, 预测的y值的平均值为23,但是工作量的实际值可以有无数个,如(23.01,23.2,22.1,22.34,…..),这些实际值会在一个区间内浮动,该区间即为预测区间。如果随机抽多个样本,比如样本1(23.01,23.2,22.1),样本2(23.2,22.1,22.34),每个样本的均值会在一个区间内浮动,该区间即为置信区间。

     

        2 预测区间与置信区间谁窄谁宽?

     

        平均值的预测仅存在抽样误差。单个值的预测除了抽样误差外,还有其他干扰因素,所以预测区间PI总是要比对应的置信区间CI大。

        针对均值的置信区间肯定要窄一些,而具体想预测某一个体值,那区间肯定要宽,因为误差会很大。

        比如,让你预测一个公司中项目的平均生产率,与让你预测一个项目的生产率,你觉得哪个误差更大呢?对于一个公司的均值,即使你什么信息都不知道,估计预测的也差不到哪儿去,而让你预测某个项目的生产率,那你可能就不知所措了。

     

        3 如何近似计算预测区间?

        3.1 预测区间的简单计算公式

        如果准确计算预测区间,公式是比较复杂的,而且需要建立方程的所有样本的数据,在实践中并不推荐这么做。所以通常我们都是近似计算预测区间。

        预测区间的上限=预测值+1.96 残差的标准差;

        预测区间的下限=预测值-1.96 残差的标准差;

        上述公式是基于回归方程的理论假设推理出来的:

        线性回归中,我们假定,对于每一特定的x值,其对应的y值应该是来自一个服从某一均值和标准差的分布,y是服从正态分布的。

        在建立方程之前我们对此做了假设检验。

        1.96倍标准差对应的区间,就是置信度为95%的区间。

        残差的标准差在我们进行回归分析时,minitab的计算结果已经给出来了:

        3.2 当对Y做了变换时,预测区间如何计算

        在实际建模时,如果对y做了对数变换,比如:

        lny=ax+b

        则此时得到的残差标准差是lny的,不是y的,所以计算lny的预测区间为:

        lny预测区间上限=ax+b+1.96S

        则y的预测区间上限应该是:

        y=exp(ax+b+1.96S)

     

        y的预测区间下限应该是:

        y=exp(ax+b-1.96S)

     

        如果对y做了其他变化,道理类似。

     

    展开全文
  • 指定 interval 和 level 参数时, predict.lm 可以返回置信区间(CI)或预测区间(PI) . 此答案显示如何在不设置这些参数的情况下获取CI和PI . 有两种方法:使用 predict.lm 的中期结果;从头开始做一切 .了解如何使用这...

    指定 interval 和 level 参数时, predict.lm 可以返回置信区间(CI)或预测区间(PI) . 此答案显示如何在不设置这些参数的情况下获取CI和PI . 有两种方法:

    使用 predict.lm 的中期结果;

    从头开始做一切 .

    了解如何使用这两种方式可以让您全面了解预测过程 .

    请注意,我们只会涵盖 predict.lm 的 type = "response" (默认)大小写 . 讨论 type = "terms" 超出了这个答案的范围 .

    设置

    我在这里收集你的代码,以帮助其他读者复制,粘贴和运行 . 我还更改变量名称,以便它们具有更清晰的含义 . 另外,我扩展 newdat 以包含多行,以显示我们的计算是"vectorized" .

    dat

    4L, 32L, 144L, 156L, 93L, 36L, 72L, 100L, 105L, 131L, 127L, 57L,

    66L, 101L, 109L, 74L, 134L, 112L, 18L, 73L, 111L, 96L, 123L,

    90L, 20L, 28L, 3L, 57L, 86L, 132L, 112L, 27L, 131L, 34L, 27L,

    61L, 77L), V2 = c(2L, 4L, 3L, 2L, 1L, 10L, 5L, 5L, 1L, 2L, 9L,

    10L, 6L, 3L, 4L, 8L, 7L, 8L, 10L, 4L, 5L, 7L, 7L, 5L, 9L, 7L,

    2L, 5L, 7L, 6L, 8L, 5L, 2L, 2L, 1L, 4L, 5L, 9L, 7L, 1L, 9L, 2L,

    2L, 4L, 5L)), .Names = c("V1", "V2"),

    class = "data.frame", row.names = c(NA, -45L))

    lmObject

    newdat

    以下是 predict.lm 的输出,稍后将与我们的手动计算进行比较 .

    predict(lmObject, newdat, se.fit = TRUE, interval = "confidence", level = 0.90)

    #$fit

    # fit lwr upr

    #1 89.63133 87.28387 91.9788

    #2 104.66658 101.95686 107.3763

    #

    #$se.fit

    # 1 2

    #1.396411 1.611900

    #

    #$df

    #[1] 43

    #

    #$residual.scale

    #[1] 8.913508

    predict(lmObject, newdat, se.fit = TRUE, interval = "prediction", level = 0.90)

    #$fit

    # fit lwr upr

    #1 89.63133 74.46433 104.7983

    #2 104.66658 89.43930 119.8939

    #

    #$se.fit

    # 1 2

    #1.396411 1.611900

    #

    #$df

    #[1] 43

    #

    #$residual.scale

    #[1] 8.913508

    使用来自predict.lm的中间阶段结果

    ## use `se.fit = TRUE`

    z

    #$fit

    # 1 2

    # 89.63133 104.66658

    #

    #$se.fit

    # 1 2

    #1.396411 1.611900

    #

    #$df

    #[1] 43

    #

    #$residual.scale

    #[1] 8.913508

    se.fit是什么?

    z$se.fit 是预测平均值 z$fit 的标准误差,用于构造 z$fit 的CI . 我们还需要具有自由度的分布的分位数 z$df .

    alpha

    Qt

    #[1] -1.681071 1.681071

    ## 90% confidence interval

    CI

    colnames(CI)

    CI

    # lwr upr

    #1 87.28387 91.9788

    #2 101.95686 107.3763

    我们看到这与 predict.lm(, interval = "confidence") 一致 .

    PI的标准错误是什么?

    PI比CI更宽,因为它考虑了剩余方差:

    variance_of_PI = variance_of_CI + variance_of_residual

    请注意,这是逐点定义的 . 对于非加权线性回归(如在您的示例中),残差方差在任何地方都相等(称为同方差性),并且它是 z$residual.scale ^ 2 . 因此,PI的标准误差是

    se.PI

    # 1 2

    #9.022228 9.058082

    PI构建为

    PI

    colnames(PI)

    PI

    # lwr upr

    #1 74.46433 104.7983

    #2 89.43930 119.8939

    我们看到这与 predict.lm(, interval = "prediction") 一致 .

    remark

    如果你有一个权重线性回归,那么事情会更复杂,其中残差方差在任何地方都不相等,因此应该加权.756734_ . 为拟合值构造PI更容易(也就是说,在 predict.lm 中使用 type = "prediction" 时不设置 newdata ),因为权重是已知的(使用 lm 时必须通过 weight 参数提供) . 对于样本外预测(即,您将 newdata 传递给 predict.lm ), predict.lm 希望您告诉它应如何对残差方差进行加权 . 您需要在 predict.lm 中使用参数 pred.var 或 weights ,否则您会收到来自 predict.lm 的警告,抱怨构建PI的信息不足 . 以下引用自 ?predict.lm :

    预测间隔适用于每种情况下的单次观察

    在'newdata'(或默认情况下,用于拟合的数据)中有错误

    方差'pred.var' . 这可以是'res.var'的倍数

    sigma的估计值^ 2:默认是假设未来

    观察结果具有与用于的观察结果相同的误差方差

    配件 . 如果提供'权重',则将其反向用作

    比例因子 . 对于加权拟合,如果预测是针对

    原始数据框,'权重'默认为用于的权重

    模型适合,带有警告,因为它可能不是预期的

    结果 . 如果拟合是加权的并且给出了'newdata',那么

    默认是假设持续预测方差,并带有警告 .

    请注意,CI的构造不受回归类型的影响 .

    从头开始做一切

    基本上我们想知道如何在 z 中获得 fit , se.fit , df 和 residual.scale .

    预测平均值可以通过矩阵向量乘法 Xp %*% b 来计算,其中 Xp 是线性预测矩阵, b 是回归系数向量 .

    Xp

    b

    yh

    #[1] 89.63133 104.66658

    我们看到这与 z$fit 一致 . yh 的方差 - 协方差是 Xp %*% V %*% t(Xp) ,其中 V 是 b 的方差 - 协方差矩阵,可以通过

    V

    # (Intercept) V2

    # (Intercept) 7.862086 -1.1927966

    # V2 -1.192797 0.2333733

    不需要 yh 的完全方差 - 协方差矩阵来计算逐点CI或PI . 我们只需要它的主对角线 . 因此,我们可以通过提高效率来实现 diag(Xp %*% V %*% t(Xp))

    var.fit

    # 1 2

    #1.949963 2.598222

    sqrt(var.fit) ## this agrees with `z$se.fit`

    # 1 2

    #1.396411 1.611900

    在拟合模型中可以轻松获得剩余自由度:

    dof

    #[1] 43

    最后,要计算残差方差,请使用Pearson估算器:

    sig2

    # [1] 79.45063

    sqrt(sig2) ## this agrees with `z$residual.scale`

    #[1] 8.913508

    remark

    请注意,在加权回归的情况下, sig2 应计算为

    sig2

    附录:一个模仿predict.lm的自编函数

    展开全文
  • 置信区间估计 预测区间估计Estimation implies finding the optimal parameter using historical data whereas prediction uses the data to compute the random value of the unseen data. 估计意味着使用历史数据...

    置信区间估计 预测区间估计

    Estimation implies finding the optimal parameter using historical data whereas prediction uses the data to compute the random value of the unseen data.

    估计意味着使用历史数据找到最佳参数,而预测则使用该数据来计算未见数据的随机值

    The highlighted words in the above statement need some context setting before we proceed further:

    在继续进行之前,上述语句中突出显示的词需要进行一些上下文设置:

    We need lot of historical data to learn dependencies for machine learning and modelling. The data typically involves multiple observations, where each observation consists of multiple variables. This multivariate observation x belongs to random variable X whose distribution lies in the realm of a finite set of possible distributions called as ‘the states of nature’.

    我们需要大量的历史数据来学习机器学习和建模的依赖关系。 数据通常包含多个观察值,其中每个观察值都包含多个变量。 该多元观测值x属于随机变量X,其分布位于称为“自然状态”的有限分布的可能范围内。

    Estimation is the process of optimizing the true state of nature. Loosely speaking, estimation is related to model building i.e. finding the most appropriate parameter that best describes the multivariate distribution of historical data, for e.g. if we have five independent variables, X1, X2….X5 and Y as the target variable. Then, estimation involves the process of finding f(x) which is the closest approximation of the true state of nature denoted by g(θ).

    估计是优化自然真实状态的过程 。 宽松地说,估计与模型构建有关,即找到最能描述历史数据多元分布的最合适参数,例如,如果我们有五个独立变量X1,X2….X5和Y作为目标变量。 然后,估计涉及寻找f(x)的过程,f(x)是由g(θ)表示的真实自然状态的最近似值。

    Image for post
    Parameter estimation on training data
    训练数据的参数估计

    Whereas, prediction leverages the already built model to compute the out of sample values. It is a process of calculating the value of another random variable Z whose distribution is related to the true state of the nature (this property plays a pivotal role in any machine learning algorithm). Predictions are considered good when they agree over all the possible values of Z, on an average.

    而预测则利用已经建立的模型来计算样本外值。 这是计算另一个随机变量Z的值的过程,该变量的分布与自然的真实状态有关(此属性在任何机器学习算法中都起着关键作用)。 平均而言,当预测与Z的所有可能值一致时,这些预测就被认为是好的。

    Image for post
    Prediction on unseen data
    对看不见的数据进行预测

    There are multiple ways to interpret the difference between the two, let’s also explore the Bayesian intuition:

    解释两者之间差异的方法有多种,让我们还探讨贝叶斯直觉

    Estimation is after the occurrence of the event i.e. posterior probability. Prediction is a kind of estimation before the occurrence of the event i.e. apriori probability.

    估计是在事件发生之后,即后验概率。 预测是在事件发生之前进行的一种估计,即先验概率。

    Let’s summarize our understanding on estimation and prediction: To make predictions on unseen data, we fit a model on training dataset that learns an estimator f(x), which is used to make predictions on new data.

    让我们总结一下对估计和预测的理解:为了对看不见的数据进行预测,我们在训练数据集上拟合了一个模型,该模型学习了估计器f(x),该函数用于对新数据进行预测。

    Now, that we understand what the prediction is, let’s see how it is different from forecasting.

    现在,我们了解了预测是什么,让我们看看它与预测有何不同。

    Forecasting problems are a subset of prediction problems wherein both use the historical data and talk about the future events. The only difference between forecasting and prediction is the explicit addition of temporal dimension in forecasting.

    预测问题是预测问题的子集,其中既使用历史数据,又谈论未来事件。 预测与预测之间的唯一区别是在预测中显式增加了时间维度。

    Forecast is a time-based prediction i.e. it is more appropriate while dealing with time series data. Prediction, on the other hand, need not be time based only, it can be based on multiple causal factors that influence the target variable.

    预测是基于时间的预测,即在处理时间序列数据时更合适。 另一方面,预测不必仅基于时间,它可以基于影响目标变量的多个因果因素。

    I stumbled across a very fresh perspective of explaining the difference between the prediction and forecast using the analogy of the origin of the words themselves.

    我偶然发现了一个非常新颖的观点,即使用单词本身的起源来解释预测与预测之间的差异。

    I will brief on this innovative illustration in this post, but you can read more about it at the original post here.

    我将在这篇文章中简要介绍这个创新的插图,但是您可以在此处的原始文章中了解更多有关它的信息。

    Forecast is more process-oriented and follows a certain methodology of doing something. In a way, it assumes that the past behavior is a good enough indicator of what is going to happen in the future.

    预测更注重过程,并遵循某种方法进行工作。 在某种程度上,它假设过去的行为足以说明将来会发生什么。

    Prediction considers all historical processes, influencing variables and interactions to reveal the future.

    预测考虑了所有历史过程,影响变量和相互作用以揭示未来。

    In summary, all forecasts are predictions but not all predictions are forecasts.

    总之,所有预测都是预测,但并非所有预测都是预测。

    Hope you now have clarity on the difference between estimation and prediction. The post also highlights the distinction between prediction vs forecast.

    希望您现在对估计和预测之间的区别有所了解。 该帖子还强调了预测与预测之间的区别。

    Happy Reading!!!

    阅读愉快!

    References: https://stats.stackexchange.com/questions/17773/what-is-the-difference-between-estimation-and-prediction/17789#17789

    参考: https : //stats.stackexchange.com/questions/17773/what-is-the-difference-between-estimation-and-prediction/17789#17789

    翻译自: https://towardsdatascience.com/estimation-prediction-and-forecasting-40c56a5be0c9

    置信区间估计 预测区间估计

    展开全文
  • 但用python的库和origin拟合出来,是比预测区间 (蓝色)更窄的两条曲线。如图绿色的置信区间,在不调用库,和借助软件,这是怎么算出来的?理论公式是什么?![图片说明]...
  • 一些模型和结果类现在有一个get_prediction方法,该方法提供包括预测区间和/或预测平均值的置信区间在内的附加信息。旧答案:iv_l和iv_u给出了每个点的预测间隔的限制。预测区间是观测值的置信区间,包括误差估计。...
  • 什么是预测区间和置信区间

    万次阅读 多人点赞 2020-02-07 18:10:14
    什么是预测区间和置信区间 最近需要画带有置信区间的拟合图,其中在matlab的doc中搜索“Confidence and Prediction Bounds”,出现了两种置信区间。 原博客:https://www.cnblogs.com/100thMountain/p/5539024.html ...
  • 本文的目的是开发和验证构造预测区间的程序。 这些预测由具有外部确定性回归的Box-Jenkins过程产生,并且预测间隔基于Williams-Goodman在1971年提出的程序。具体而言,使用采样后的预测误差来确定各个提前期的预测...
  • 数据回归-自回归时间序列误差分位数的默示有效估计及预测区间有效估计及预测区间.pdf
  • 基于PSO-KELM的卫星参数区间预测代码 matlab版,使用粒子群算法(Particle Swarm Optimization,PSO)和核极限学习机(Kernel Extreme Learning Machine,KELM)算法相结合的卫星参数区间预测模型。
  • 见下文)的数据子集绘制一条功能上任意的非线性回归线(加上置信度和预测区间)。在为自变量x生成的x跨越20个不同的值:x=(20-np.arange(20))**2,并为每个条件复制{}。数据显示x之间的强非线性,如下所示:import ...
  • 已知多元回归方程,求一个点在置信度为97.5%的预测区间,Matlab代码如何实现?为了说明问题,特举例如下:已知x1,x2,y试验数据,求其数学模型。x1=[94 65 95 15 47 23 65 52];x2=[45 66 22 54 87 16 65 54];y=[1 2 3...
  • MATLAB 线性回归多项式拟合+预测区间、置信区间的绘制一、前言二、多项式拟合polyfit1、语法2、示例三、区间绘制四、整体源码五、思考六、参考博客 一、前言 现有一组数据:x、y x=[1 2 3 4 5 6 7 8 9 10]; y=[11 13...
  • 分布式高斯颗粒神经网络集成预测区间
  • 考虑序限制下随机变量的统计预测问题。利用密度函数中未知参数间的序限制及可得到的所有样本观测值,改进了位置分布族下常见的同变预测区间,给出一族改进的预测区间,并举例进行了说明。
  • [转] R 置信区间、预测区间差别

    万次阅读 2018-07-06 08:24:00
    原文地址: https://www.cnblogs.com/100thMountain/p/5539024.htmlAsk:什么是预测区间,置信区间和预测区间二者的异同是什么? Answer:置信区间估计(confidence interval estimate...预测区间估计(prediction in...
  • 我的置信区间为什么会这么宽呢? 绿色是真实值,红色是预测值,虚线是置信区间,蓝色是预测使用的数据。 的确是小白一只,所以好多都看不懂,求各位大神指教
  • 基于杂交粒子群算法的多元线性回归参数估计及预测区间研究.pdf
  • #资源达人分享计划#
  • 什么是预测区间,置信区间和预测区间二者的异同是什么? Answer: 置信区间估计(confidence interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间。预测...
  • 本文将主要讲述如何使用BLiTZ(PyTorch贝叶斯深度学习库)来建立贝叶斯LSTM模型,以及如何在其上使用序列数据进行训练与推理。 原创文章 54获赞 109访问量 18万+ 关注 私信 展开阅读全文 ...
  • 基于预测区间理论的新型城镇化与生态环境耦合协调度测算模型研究--以长江经济带为例,刘玲,智慧,新型城镇化与生态环境协调发展是实现长江经济带绿色可持续发展的关键。研究以2006-2015年长江经济带11省市新型城镇...
  • 粒化后的窗口内历史数据包含功率变化值的最小值、最大值和平均值,形成了新的训练集,进一步对训练集采用极端学习机算法进行训练与预测,实现了光伏发电功率的区间预测。以某地区的光伏发电功率历史数据为算例进行了...
  • 文章目录前言一、预测区间的评价指标1.PICP(PI coverage probability)2.PINAW(PI normalized averaged width)3.CWC(coverage width-based criterion)4.ACE(average coverage error)5.AIS(average interval score)6....
  • Abstract—Wind speed interval prediction plays an important role in wind power generation. In this article, a new interval construction model based on error prediction is proposed....
  • 针对行程时间点预测不能描述预测结果的可信度问题,以高速公路收费系统作为基础数据源,提出基于Bootstrap的高速公路行程时间区间预测模型,通过范围概率(PICP)、预测区间平均宽度(MPIW)以及综合指标(CWC)反映区间预测...
  • 预测区间可以用来预测时间序列的上界和下界。提供的数据集来自 Yahoo Finance API、gold.org、美国能源和信息管理局和 fred.stlouisfed.org。雅虎财经数据包括每日最高价、最低价、成交量和收盘价。处理后的数据集...
  • 该算法将回声状态网络的拟合能力与一致性预测区间的可靠性相结合,使得最终的预测区间包含被预测值的频率或概率可以被显著性水平参数所控制,即预测区间具有极高的可信度.同时,由于使用岭回归学习回声状态网络的输出...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 52,115
精华内容 20,846
关键字:

预测区间

友情链接: CCPPClearComments.zip