精华内容
下载资源
问答
  • 基于时间卷积神经网络的概率预测

    千次阅读 2019-07-20 09:18:46
    基于时间卷积神经网络的概率预测 题目: Probabilistic Forecasting with Temporal Convolutional Neural Network 作者: Yitian Chen, Yanfei Kang, Yixiong Chen, Zizhuo Wang ...

    https://www.toutiao.com/a6715386490647478797/

     

    基于时间卷积神经网络的概率预测

    题目:

    Probabilistic Forecasting with Temporal Convolutional Neural Network

    作者:

    Yitian Chen, Yanfei Kang, Yixiong Chen, Zizhuo Wang

    来源:

    Machine Learning (cs.LG)

    Submitted on 15 Jul 2019

    文档链接:

    arXiv:1906.04397

    代码链接:

    https://github.com/oneday88/kdd2019deepTCN

    摘要

    提出了一种基于卷积神经网络的多关联时间序列预测的概率预测框架。该框架可用于估计参数和非参数设置下的概率密度。更具体地说,构建了基于膨胀因果卷积网的叠加残差块来捕获序列的时间依赖性。与表示学习相结合,我们的方法能够学习复杂的模式,如季节性、系列内和跨系列的假日效应,并利用这些模式进行更准确的预测,特别是在历史数据稀少或不可用的情况下。对几个真实世界的数据集进行了广泛的实证研究,包括来自中国最大的在线零售商这个http URL的数据集。结果表明,该框架在精度和效率上均优于其他先进的方法。

    英文原文

    We present a probabilistic forecasting framework based on convolutional neural network for multiple related time series forecasting. The framework can be applied to estimate probability density under both parametric and non-parametric settings. More specifically, stacked residual blocks based on dilated causal convolutional nets are constructed to capture the temporal dependencies of the series. Combined with representation learning, our approach is able to learn complex patterns such as seasonality, holiday effects within and across series, and to leverage those patterns for more accurate forecasts, especially when historical data is sparse or unavailable. Extensive empirical studies are performed on several real-world datasets, including datasets from this http URL, China's largest online retailer. The results show that our framework outperforms other state-of-the-art methods in both accuracy and efficiency.

    要点

    文章的主要贡献如下所示:

    1.提出了一种基于卷积的预测框架,该框架同时提供了估计概率密度的参数和非参数方法。

    2.该框架能够学习序列间的潜在相关性,能够处理数据稀疏、冷启动等复杂的实际预测情况,具有较高的可扩展性和可扩展性。

    3.大量的实证研究表明,我们的框架优于其他最先进的方法,无论是点预测和概率预测。

    4.与递归结构相比,卷积模型的计算可以完全并行化,从而达到较高的训练效率。与此同时,优化要容易得多。在我们的案例中,训练时间是文献Flunkert等(2017)报道的复发模型的1/8。

    5.该模型非常灵活,可以包括外生协变量,如额外的促销计划或天气预报。

    基于时间卷积神经网络的概率预测

     

    图1:(a) DeepTCN的体系结构。编码器部分:构造叠加膨胀因果卷积,捕捉长期时间依赖关系;译码器部分:残差块的一个变体被设计用来配合历史的协变量和未来的协变量。(b)每一层编码器的组成部分,是基于膨胀因果卷积的剩余模块。(c)译码器模块:h t是编码器的输出(i), X (i)协变量t +ω是未来的发展趋势。R是非线性函数应用于X (i) t +ω。

    基于时间卷积神经网络的概率预测

     

    表1:实验数据集摘要。

    对比实验组

    1.SARIMA: Seasonal ARIMA (SARIMA)是一种应用广泛的时间序列预测模型,它通过加入额外的季节项扩展了ARIMA模型,能够对数据框中的季节行为进行建模(2015)。

    2.XGBoost:梯度增强树方法已被实践证明是一种高效的预测建模方法。XGBoost作为梯度增强树算法的一种高效实现,在Kaggle Competition Chen和Guestrir等众多机器学习竞赛中,都获得了优胜的好成绩(2016).

    3.JD-online: JD-online是目前生产中使用的模型,它将时间序列模型(如SARIMA)的结果与机器学习模型的点预测与地面真实之间的残差推断出来的结果结合起来,生成prob abilistic forecasts。

    基于时间卷积神经网络的概率预测

     

    图2:三种情况下SARIMA和tcn -分位数的概率预测(为说明起见,随机选择)。案例A和案例B给出了两种快速移动产品的预测结果;案例C显示了一个仓库每天的包裹投递量的预测结果。SARIMA和tcn -分位数的ground truth和[10%,90%]预测区间以不同的颜色显示。

    基于时间卷积神经网络的概率预测

     

    图3:DeepTCN、SARIMA和XGBoost对6种情况的点预测(出于说明目的,从JD-shipment中随机选择)。A-1、A-2为两年以上历史数据的实例;案例B-1和B-2显示的实例没有以前的shopping festival数据;案例C-1和C-2说明冷启动预测,即历史数据较少的时间序列预测,如少于三天。值得注意的是,11月11日是中国最大的促销日之一。

    基于时间卷积神经网络的概率预测

     

    表3:2018年11月JD-shipment不同亚组SMAPE和RMSLE的点预测精度对比all - data表示培训周期从0到4年的所有系列;第一组包括历史数据超过两年的仓库;第二组表示2018-01-01以后开始的系列,即没有历史购物节数据的系列。

    展开全文
  • 马尔科夫链—概率预测

    千次阅读 2020-08-29 10:07:07
    关于事件发生的概率预测方法。根据目前状态来预测其将来各个时刻或者时期的变动情况的一种预测方法。 一些概念 状态 :在马尔可夫预测中,“状态”是一个重要的术语。所谓状态,就是指某一事件在某个时刻(或时期)...
    1. 原理
      关于事件发生的概率预测方法。根据目前状态来预测其将来各个时刻或者时期的变动情况的一种预测方法。

    2. 一些概念
      状态 :在马尔可夫预测中,“状态”是一个重要的术语。所谓状态,就是指某一事件在某个时刻(或时期)出现的某种结果。一般而言,随着所研究的事件及其预测的目标不同,状态可以有不同的划分方式。譬如,在商品销售预测中,有“畅销”、“一般”、“滞销”等状态;在农业收成预测中,有“丰收”、“平收”、“欠收”等状态;在人口构成预测中,有“婴儿”、“儿童”、“少年”、“青年”、“中年”、“老年”等状态;等等。

    状态转移过程 : 在事件的发展过程中,从一种状态转变为另一种状态,就称为状态转移。事件的发展,随着时间的变化而变化所作的状态转移,或者说状态转移与时间的关系,就称为状态转移过程,简称过程。

    状态转移概率 在事件的发展变化过程中,从某一种状态出发,下一时刻转移到其它状态的可能性,称为状态转移概率。根据条件概率的定义,由状态Ei转为状态Ej的状态转移概率P(Ei→Ej)就是条件概率P(Ej/Ei),即:
    在这里插入图片描述
    状态转移概率矩阵 假定某一种被预测的事件有E1,E2,…,En,共n个可能的状态。记Pij为从状态Ei转为状态Ej的状态转移概率,作矩阵
    在这里插入图片描述
    如果被预测的某一事件目前处于状态Ei,那么在下一个时刻,它可能由状态Ei转向E1,E2,…Ei…En中的任一个状态。所以Pij满足条件:
    在这里插入图片描述一般地,我们将满足上面条件的任何矩阵都称为随机矩阵,或概率矩阵。不难证明,如果P为概率矩阵,则对任何数m>0,矩阵Pm都是概率矩阵。
    如果P为概率矩阵,而且存在整数m>0,使得概率矩阵Pm中诸元素皆非零,则称P为标准概率矩阵。可以证明,如果P为标准概率矩阵,则存在非零向量在这里插入图片描述
    而且满足在这里插入图片描述
    使得:ap=a ,这样的向量α称为平衡向量,或终极向量。

    状态转移概率矩阵的计算 计算状态转移概率矩阵P,就是要求每个状态转移到其它任何一个状态的转移概率Pij(i,j=1,2,…,n)。为了求出每一个Pij,我们***采用频率近似概率的思想***来加以计算。

    1. 关键
      ①被预测对象所经历的过程中各个阶段(或时点)的状态;
      ②状态之间的转移概率是最为关键的;
      ③马尔可夫预测法的基本要求是状态转移概率矩阵必须具有一定的稳定性。因此,必须具有足够多的统计数据,才能保证预测的精度与准确性。

    2. 例子
      考虑某地区农业收成变化的三个状态,即“丰收”、“平收”和“欠收”。记E1为“丰收”状态,E2为“平收”状态,E3为“欠收”状态。下表给出了该地区1950—1989年期间农业收成的情况以及状态变化:
      在这里插入图片描述
      以下,我们来计算该地区农业收成变化的状态转移概率矩阵。
      从表2-18中可知,在***15个从E1出发***(转移出去)的状态转移中,有3个是从E1转移到E1的(即1→2,24→25,34→35),有7个是从E1转移到E2的(即2→3,9→10,12→13,15→16,29→30,35→36,39→40),有5个是从E1转移到E3的(即6→7,17→18,20→21,25→26,31→32)。

      在这里插入图片描述
      按照上述同样的办法计算可以得到
      在这里插入图片描述
      所以,该地区农业收成变化的状态转移概率矩阵为
      在这里插入图片描述

    在这里插入图片描述
    如果某一事件在第0个时刻(或时期)的初始状态已知(即π(0)已知),则利用递推公式(4)式,就可以求得它经过k次状态转移后,在第k个时刻(时期)处于各种可能的状态的概率(即π(k)),从而得到该事件在第k个时刻(时期)的状态概率预测。

    在前例中,如果***将1989年的农业收成状态记为π(0)=[0,1,0]***(因为1989年处于“平收”状态),则将状态转移概率矩阵(1)式及π(0)代入递推公式(4)式,就可以求得1990—2000年可能出现的各种状态的概率(见下表)。
    在这里插入图片描述
    (二)终极状态概率预测

    经过无穷多次状态转移后所得到的状态概率称为终极状态概率,或称平衡状态概率。如果记终极状态概率向量为π=[π1,π2,…,πn],则
    在这里插入图片描述
    在这里插入图片描述
    以上条件(2)与(3)是状态概率的要求,其中,条件(2)表示,在无穷多次状态转移后,事件必处在n个状态中的任意一个;条件(1)就是用来计算终极状态概率的公式。终极状态概率是用来预测马尔可夫过程在遥远的未来会出现什么趋势的重要信息。

    在前例关于某地区农业收成状态概率的预测中,设***终极状态的概率为π=[π1,π2,π3]***,则
    在这里插入图片描述
    在这里插入图片描述
    求解方程组(7)式得:π1=0.3653,π2=0.3525,π3=0.2799。这说明,该地区农业收成的变化,在无穷多次状态转移后,“丰收”和“平收”状态出现的概率都将大于“欠收”状态出现的概率。

    展开全文
  • 概率预测的评估方法简介

    千次阅读 2020-03-18 19:17:32
    概率预测的目标是在满足 calibration 的前提下尽可能提高预测的 sharpness。所谓的 calibration 指的是预测分布和观测值在统计上的一致性,而 sharpness 则是指预测分布的集中程度。下面介绍一些常见的概率预测的...

    本文链接个人站 | 简书 | CSDN
    版权声明:除特别声明外,本博客文章均采用 BY-NC-SA 许可协议。转载请注明出处。

    概率预测的目标是在满足 calibration 的前提下尽可能提高预测的 sharpness。所谓的 calibration 指的是预测分布和观测值在统计上的一致性,而 sharpness 则是指预测分布的集中程度。下面介绍一些常见的概率预测的评估方法。

    1. 概率积分变换(Probability Integral Transform,PIT)

    对于观测值 ξ1,,ξn\xi_1, \cdots, \xi_n ,假设模型预测的累积分布函数分别为 F1,,FnF_1, \cdots, F_n。如果模型预测准确,则概率积分变换 {Fi(ξi)}i=1n\{F_i(\xi_i)\}_{i=1}^n 应当服从标准的均匀分布 U(0,1)U(0,1)

    PIT 的优势之一是便于可视化。最简单的做法是画直方图。\cup 形的直方图意味着预测的分布过于集中;\cap 形的直方图意味着预测的分布过于分散;明显不对称的直方图则意味着预测的分布整体偏离真实值。

    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    from scipy.stats import norm
    
    sns.set()
    
    obs = np.random.normal(loc=0, scale=1, size=1000)  # 观测值
    pit_1 = norm.cdf(x=obs, loc=0, scale=1)  # 准确的预测
    pit_2 = norm.cdf(x=obs, loc=0, scale=0.5)  # 预测过于集中
    pit_3 = norm.cdf(x=obs, loc=0, scale=2)  # 预测过于分散
    pit_4 = norm.cdf(x=obs, loc=1, scale=1)  # 均值偏离
    
    plt.figure(figsize=(10, 8))
    
    ax1 = plt.subplot(221)
    sns.distplot(pit_1, bins=20, kde=False, color='g')
    ax1.set_title('Histogram of PIT_1')
    
    ax2 = plt.subplot(222)
    sns.distplot(pit_2, bins=20, kde=False, color='g')
    ax2.set_title('Histogram of PIT_2')
    
    ax3 = plt.subplot(223)
    sns.distplot(pit_3, bins=20, kde=False, color='g')
    ax3.set_title('Histogram of PIT_3')
    
    ax4 = plt.subplot(224)
    sns.distplot(pit_4, bins=20, kde=False, color='g')
    ax4.set_title('Histogram of PIT_4')
    
    plt.tight_layout()
    plt.show()
    

    PIT 的直方图体现概率预测的效果

    PIT 还可以用 P-P 图来展示。简单地说,就是画出 PIT 的 CDF 与标准均匀分布的 CDF 的关系图。如果预测准确,得到的应该是一条直线。反 sigmoid 曲线意味着预测的分布过于集中;sigmoid 曲线意味着预测的分布过于分散;其它曲线则意味着预测的分布可能已经整体偏离真实值了。

    from scipy.stats import uniform
    
    def get_pp(pit, bins):
        hist, edges = np.histogram(pit, bins, range=(0,1))
        cdf = np.cumsum(hist) / np.sum(hist)
        cdf_u = uniform.cdf(x=edges[1:])
        return cdf_u, cdf
    
    plt.figure(figsize=(10, 8))
    
    ax1 = plt.subplot(221)
    plt.plot(*get_pp(pit_1, 20), '-o')
    ax1.set_title('PP plot of PIT_1')
    
    ax2= plt.subplot(222)
    plt.plot(*get_pp(pit_2, 20), '-o')
    ax2.set_title('PP plot of PIT_2')
    
    ax3 = plt.subplot(223)
    plt.plot(*get_pp(pit_3, 20), '-o')
    ax3.set_title('PP plot of PIT_3')
    
    ax4 = plt.subplot(224)
    plt.plot(*get_pp(pit_4, 20), '-o')
    ax4.set_title('PP plot of PIT_4')
    
    plt.tight_layout()
    plt.show()
    

    P-P 图体现概率预测的效果

    2. 数值评分规则

    2.1 连续概率排位分数(Continuous Ranked Probability Score,CRPS)

    CRPS 是在概率预测领域使用最广泛的准确度指标之一。它的定义如下:
    CRPS(Ff,Fo)=+[Ff(x)Fo(x)]2dx(1) CRPS(F^f, F^o) = \int_{-\infty}^{+\infty}\left[F^f(x)-F^o(x)\right]^2\mathrm dx \tag 1
    其中 FfF^f 是预测分布的 CDF,FoF^o 是观测值的 CDF。注意是平方的积分,千万不要误解为等于下图两条曲线之间的面积!!!
    真实分布已知的情况下

    由定义可知,CRPS 衡量的是预测分布和真实分布的差异,当预测分布与真实分布完全一致时,CRPS 为零。预测分布过于集中、过于分散,亦或是偏离观测值太远都会导致 CRPS 增大。

    多数情况下,真实分布是未知的。如果对一系列的观测值 ξ1,,ξn\xi_1, \cdots, \xi_n 有各自对应的概率预测 F1,,FnF_1, \cdots, F_n,则可以用下式来估计 CRPS:
    KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ CRPS(F, \xi) &…
    其中
    ε(t)={0,t<01,t0(3) \varepsilon(t)= \begin{cases} 0, \qquad t<0\\ 1, \qquad t\geq0 \end{cases} \tag 3
    为单位阶跃函数,如下图所示。
    真实分布未知的情况下

    2.2 交叉熵(Cross Entropy)和对数分数(Logarithmic Score)

    如前所述,CRPS 衡量的是预测分布与真实分布之间的差异。我们知道,机器学习分类问题中常用的损失函数交叉熵也是用来比较两个概率分布之间的差异的。

    概率分布 ppqq 的交叉熵定义为
    H(p,q)=Ep[log2q](4) H(p, q) = \mathbb E_p[-\log_2q] \tag 4
    其中 pp 为真实分布,qq 为预测分布。

    ppqq 是离散的,则
    H(p,q)=xp(x)log2q(x)(5) H(p, q) = -\sum_xp(x)\log_2q(x) \tag 5
    在真实分布未知的情况下,可以用下式来估计交叉熵:
    H=1ni=1nlog2q(ξi)(6) H = -\frac1n\sum_{i=1}^n\log_2q(\xi_i) \tag 6
    其中 {ξi}i=1n\{\xi_i\}_{i=1}^n 为观测值。

    如果对一系列的观测值 ξ1,,ξn\xi_1, \cdots, \xi_n 有各自对应的概率预测 F1,,FnF_1, \cdots, F_n,则对数分数(Logarithmic Score)定义为
    LogS(F,ξ)=1ni=1nlog2fi(ξi)(7) LogS(F, \xi) = -\frac1n\sum_{i=1}^n\log_2f_i(\xi_i) \tag 7
    其中 ffFF 对应的 PDF。可以看到对数分数与交叉熵的估计式(6)形式上是相近的。

    2.3 Brier Score

    Brier Score 通常用于分类问题中,其定义为
    BS=1nt=1ni=1r(ftioti)2(8) BS = \frac1n\sum_{t=1}^n\sum_{i=1}^r(f_{ti}-o_{ti})^2 \tag 8
    其中 n 是样本数量,r 是类目数量,ftif_{ti} 是模型预测第 t 个样本的类目为 i 的概率,otio_{ti} 是第 t 个样本的真实状态(类目为 i 则取 1,否则取 0)。

    3. 需要注意的问题

    如前所述,真实分布已知的情况下,CRPS 可以直接计算。根据定义(1),预测准确(即预测分布与真实分布完全一致)时 CRPS 为零。但真实分布未知的情况下,CRPS 只能通过(2)估算。此时就算预测准确,CRPS 也不为零。且不同的真实分布,在同样预测准确的时候,对应的 CRPS 也不一样。下面给出一个简单的例子:

    >>> import numpy as np
    >>> import properscoring as ps
    >>> obs1 = np.random.normal(loc=0, scale=1, size=1000) # 从均值为0,方差为1的正态分布中采样作为观测值
    >>> crps1 = np.mean(ps.crps_gaussian(x=obs1, mu=0, sig=1)) # 预测分布同样是均值为0,方差为1的正态分布,估算 CRPS 值
    >>> crps1
    0.5795829266550281
    >>> obs2 = np.random.normal(loc=0, scale=10, size=1000) # 从均值为0,方差为10的正态分布中采样作为观测值
    >>> crps2 = np.mean(ps.crps_gaussian(x=obs2, mu=0, sig=10)) # 预测分布同样是均值为0,方差为10的正态分布,估算 CRPS 值
    >>> crps2
    5.326040950564251
    >>>
    

    不能因为 crps1crps2 小,就认为前者的预测更好,事实上它们都是对各自观测值真实分布的准确预测,因此是一样好的。在真实分布未知的情况下,CRPS 只适合用来衡量对同一个分布的不同预测之间的相对好坏,而不能衡量绝对的好坏。不难验证交叉熵也是如此。这与点估计中用到的各种准确率指标是不一样的。

    怎样才能评估绝对的好坏呢?前面说过,预测准确的情况下,PIT 服从标准的均匀分布。如果计算 PIT 与标准均匀分布之间的 CRPS 或交叉熵,无论真实分布是怎样的,只要预测准确,结果都应该是接近的。

    但 PIT 本身就没有问题了吗?如下图所示。左边两图中的红色实线表示真实值,绿色阴影表示预测的分布(采用均匀分布)。右边两图是对应的 PIT。从 PIT 得出的结论应该是上面的预测好,但上面这个真的是你需要的预测吗?

    参考文献

    [1] Gneiting, T., & Raftery, A. E. (2007). Strictly proper scoring rules, prediction, and estimation. Journal of the American Statistical Association, 102(477), 359–378. https://doi.org/10.1198/016214506000001437
    [2] Friederichs, P., & Thorarinsdottir, T. L. (2012). Forecast verification for extreme value distributions with an application to probabilistic peak wind prediction. Environmetrics, 23(7), 579–594. https://doi.org/10.1002/env.2176
    [3] Benedetti, R. (2010). Scoring Rules for Forecast Verification. Monthly Weather Review, 138(1), 203–211. https://doi.org/10.1175/2009MWR2945.1
    [4] Cross entropy - Wikipedia https://en.wikipedia.org/wiki/Cross_entropy
    [5] Barier score - Wikipedia https://en.wikipedia.org/wiki/Brier_score

    展开全文
  • 第一部分:光伏发电量和用电量的概率预测研究综述(1) 目录 3. Forecasting techniques 3.1. Statistical approach 3.1.1. Parametric 3.1.2. Nonparametric 3.2. Physical approach 3.2.1. Parametric 3.2.2. ...

    前言

      由于本篇综述实在太长,故分为三部分,此乃第二部分。第一部分:光伏发电量和用电量的概率预测研究综述(1)

    3. Forecasting techniques

    在这里插入图片描述
    在这里插入图片描述
      由于本文主要涉及概率预测,本节专门介绍这些特定的预测方法。
    在这里插入图片描述
      虽然在SPF中,时间序列方法(如ARIMA)和基于人工智能(AI)的方法(如人工神经网络)都被认为是统计方法,但在负荷预测中,通常会对统计方法和基于人工智能的方法进行区分。
    在这里插入图片描述
      最后,本文只是列举了概率预测的一些常用方法。

    3.1. Statistical approach

    在这里插入图片描述
      下面分别介绍参数化和非参数化方法。

    3.1.1. Parametric

    3.1.1讲述参数化方法。
    在这里插入图片描述
      参数方法依赖于将已知密度函数拟合到预测误差,通过围绕确定性预测假设密度函数。对于统计方法,这些确定性预测通过诸如ANN或ARIMA的众所周知的方法来实施。然而,这些方法超出了本文的范围,感兴趣的读者可以参考[15],[16],[26]获得更多信息。由于参数方法依赖于确定性模型,因此本节非常简短。然而,为了说明这种方法是如何工作的,David等人[70]提供了一个合适的例子。他们的模型基于广义自回归条件异方差(GARCH)模型,该模型估计非常数方差。假设该模型的误差是正态的,然后,相应地建模以构建预测间隔。
      总结:对于统计方法,参数化的体现是ANN或者ARIMA等,但不在本文讨论范围之内。

    表一:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    3.1.2. Nonparametric

      3.1.2讲述非参数方法。
    在这里插入图片描述
    分位数回归。
      从表1中可以看出,构建非参数PDF的最常用方法是QR。这种方法是由Koenker&&Bassett[71]在1978年引入的,他们认为假设正态性或任何其他分布是很不现实的,因为一些错误可能导致偏离这些分布,为了建立非参数方法,Koenker和Bassett意识到中位数可以定义为由于中位数的对称定义而导致绝对残差最小化的解决方案,这就得来第0.5个分位数。实际上,QR是基于调查中的每个τ\tau分位数定义回归模型并将它们组合以创建概率预测。
    在这里插入图片描述
      令X~\tilde{X}为一个随机响应变量,XX为预测变量,令x~\tilde{x}xx为随机变量的实现,令F(x~X=x)=P(X~x~X=x)F(\tilde{x}|X=x)=P(\tilde{X} \leq \tilde{x}|X=x)为累积分布函数,则阶数τ,qτ(x)\tau,q_{\tau}(x)的条件分位数可以定义为:
    在这里插入图片描述
    qτ(x)=F1(x~X=x)=inf{x~R,F(x~X=x)τ} q_{\tau}(x)=F^{-1}(\tilde{x}|X=x)=inf \{\tilde{x} \in R,F(\tilde{x}|X=x)\geq \tau \}
      其中τ[0,1]\tau \in[0, 1]。如前所述,中值可以定义为绝对残差的最小化,它可以通过求解以下最小化问题来推广以获得其他分位数[67]:在这里插入图片描述
    在这里插入图片描述
    qτ(x)=argmin E{Lτ(X~τ,x)X=x} q_{\tau}(x)=argmin\ E\{L{\tau}(\tilde{X}_{\tau}, x)|X=x\}
      其中Lτ(X~τ,x)L{\tau}(\tilde{X}_{\tau}, x)是式(2.45)中定义的弹球损失函数。值得注意的是,QR也可以用作后处理技术,从点预测技术中获取密度函数。另一个重要的注意事项是,由于每个分位数是独立预测的,因此可能发生分位数交叉,这违反了单调性[72]。
    q~τi(x)q~τi+1(x) i,...,τ quantiles,so that τiτi+1 \tilde{q}_{\tau_{i}}(x)\leq\tilde{q}_{\tau_{i+1}}(x)\forall\ i,...,\tau\ quantiles,so\ that\ \tau_{i}\leq\tau_{i+1}
      已经提出了许多方法来规避这种情况,例如单调重新排列或联合估计[72]。感兴趣的读者可参考[71],[73],[67]以获取更多信息。
    在这里插入图片描述
    分位数回归森林。
      另一种用于构建非参数密度函数的方法是分位数回归森林(QRFs),它建立在随机森林(RFs)上,这是Breiman在2001年开发的一种回归集成学习方法[74]。QRFs最初由Meinshausen于2006年提出[67],旨在存储有关观测的所有信息,并能够基于该信息构建条件分布,与RF相反,其中只有某个节点中观测值的均值被储存了。
      随机森林参考:决策树与随机森林(从入门到精通)
    在这里插入图片描述
      QRF的工作原理如下[67]:首先,与RF类似,生长k个树T(θt)T(\theta_{t}),其中θt\theta_{t}是随机参数向量,它控制着树T和t=1,…,k,的分支的每个分裂点处的变量,与RF的不同之处在于所有信息(而不仅仅是平均值)都存储起来。
    在这里插入图片描述
      对于预测器X的某个实现x来说,下一步是分别为i∈{1,…,n}的每个树和每个观察计算观测值权重wi(x,θt)w_{i}(x,\theta_{t})wi(x)w_{i}(x)。这些权重定义如下:
    在这里插入图片描述
    wi(x,θt)=1{XiRζ(x,θ)}#{j:XjRζx,θ}wi(x)=k1t=1kwi(x,θt) w_{i}(x, \theta_{t})=\frac{1\{X_{i}\in R_{\zeta_{(x,\theta)}}\}}{\#\{j:X_{j}\in R_{\zeta_{x,\theta}}\}}\\ w_{i}(x)=k^{-1}\sum_{t=1}^{k}w_{i}(x, \theta_{t})
      其中Rℓ(x,θ)是空间S的矩形子集,其中X对于每个叶子ℓ=1,…,L.此外,每个只有一个叶子ℓ因此也是x∈Rℓ,然后可以将其定义为树T(θ)的ℓ(x,θ)。
    在这里插入图片描述
      之后F~(x~X=x)\tilde{F}(\tilde{x}|X=x)可以插入式(3.1)代替F(x~X=x)F(\tilde{x}|X=x)来获得分位数q~τ(x)\tilde{q}_{\tau}(x)。一旦构建和训练了随机森林,就可以从树上得到来自测试数据集的观察结果,之后将在每个分裂点处对其进行比较并指向最相似分支的方向,随后可以估计输出。从某种意义上说,这可以与最近邻居方法进行比较,本节稍后将对此进行说明。
    在这里插入图片描述
    高斯过程。
      在第4节中相对较少的方法是使用高斯过程(GP),在Rasmussen和Williams[75]的书中广泛讨论。这种非参数和概率方法基于贝叶斯定理,其定义如下:
    在这里插入图片描述
    p(θy)=p(θ,y)p(y)=p(yθ)p(θ)p(y) p(\theta|y)=\frac{p(\theta,y)}{p(y)}=\frac{p(y|\theta)p(\theta)}{p(y)}
      这里θ\theta是一组未知参数,y={y1,…,yn},p(y|θ)表示给定模型参数θ在数据y上的PDF,p(θ)是先验,表示对模型参数的先验信念参数和p(θ|y)后验分布,是我们观察y后p(θ)的更新版本。换句话说,目的是在观察新数据时更新我们对先验的信念。以这种方式,可以以概率方式学习参数θ,其中PDF表示伴随这些参数的不确定性。
    在这里插入图片描述
    在这里插入图片描述
      GP的定义表明它是随机变量的集合,并且这些随机变量的任何子集都具有联合多元高斯分布,其具有均值μ和协方差矩阵K[75]。更直观地,可以想象GP是某个函数f的表示,例如,观察x1和x2,生成输出f(x1)和f(x2),然后假设它们是根据N(μ,K)的联合高斯分布。然而,这不必限于两个观察,因此我们可以将该概念扩展到任意数量的输入x={x1,…,xn},使得协方差矩阵K可以定义为[76]:
    在这里插入图片描述
      其中k(xi,xj)k(x_{i},x_{j})是协方差函数或内核,表示任何输入x之间的相关性。有关内核的更多信息,请参阅[75]。另外,我们可以将平均函数定义为μ(x),以便多元高斯分布相当于:
    在这里插入图片描述
      在进行新观察的情况下,例如x*,可以首先通过定义新的联合分布来计算后验分布。
    在这里插入图片描述
    随后,我们可以根据计算后验分布
    在这里插入图片描述
    在这里插入图片描述
      有关使用GP进行多步预测的更多信息,感兴趣的读者可参考Girard等人[77]的文章。同样,感兴趣的读者可以参考Roberts等人[76]有关时间序列建模情况下GP的更多信息。
    在这里插入图片描述
    自举法。
      自举法由Efron[78]在1979年提出,作为一种从随机样本X=(X1,X2,,Xn)X=(X_{1},X_{2},…,X_{n})中估计随机变量R(X,F)的概率分布的方法,这些随机样本来自一个未知的父分布F。由于其简单性,自举方法在许多研究领域得到广泛应用,它包括三个步骤。第一,一个样本的概率密度函数F~\tilde{F}是由XiX_{i}的n个实现构成,即x1,x2,,xnx_{1},x_{2},…,x_{n}。第二,通过从F~\tilde{F}替换绘制,创建大小为n的随机样本,即自举样本Xi=(X1,x2,...,xn)X_{i}^{*}=(X_{1}^{*},x_{2}^{*},...,x_{n}^{*}),其中Xi=xiX_{i}^{*}=x_{i}^{*}。最后,R(X,F)的分布可以通过自举分布来近似,其中经常使用MC,因为它允许以有效的方式良好地近似父分布,虽然自举的缺点是所需数据的数量和随之而来的计算负担。
      自举法参考:机器学习之Ensemble(Bagging、AdaBoost、GBDT、Stacking)
    在这里插入图片描述
    限上限估算(LUBE)方法。
      Khosravi等人[79]在2011年介绍了下限上限估算(LUBE)方法,因为他们认为,用于构建预测区间的普遍方法是值得怀疑的。作者认为这些方法主要基于最小化预测误差,而非改进预测区间的质量,即,如式(2.38),(2.40),(2.41)所定义的PICP,PINAW和CWC。这是预测区间的关键特征。
    在这里插入图片描述
    在这里插入图片描述
      LUBE方法从构建具有两个输出而不是一个输出的几个神经网络(NN)开始,一个是预测区间的上限,另一个是下限。可以利用传统的学习方法在训练数据集上训练神经网络并获得初始参数和权重,或者也可以随机分配这些参数和权重。选择具有最低PINAW的,同时满足PICP的候选者,作为最佳结构,之后初始化NN权重和优化算法,例如粒子群优化(PSO)[64]。随后,该最佳结构用于构建训练数据集的预测区间,计算CWC。如果在几次迭代之后CWC不再改进,则利用NN的最佳参数集来测试测试数据集,并且可以创建相应的预测区间。在这里插入图片描述
    梯度提升。
      梯度提升(GB)由弗里德曼[80]于2001年提出,其目的是将弱学习器(即具有有限预测信息的自变量)线性组合到单个预测模型中。与其他提升方法类似,预测模型在初始猜测函数(通常是数据集的均值)和适合后续残差的函数的情况下迭代地建立,称为提升。这意味着模型通过学习先前模型的误差来改进自身,前者模型是难以拟合的实例,之后所有模型都被赋予权重并组合成一组预测变量。然后可以将最终模型表述如下[80]:
    在这里插入图片描述
    F^(x)=f^0(x)+m=1Mf^m(x) \hat{F}(x)=\hat{f}_{0}(x)+\sum_{m=1}^{M}\hat{f}_{m}(x)
      其中f^0(x)\hat{f}_{0}(x)是初始猜测,f^m(x)\hat{f}_{m}(x)是提升m处的残差模型,M是提升的总数。在训练阶段,目的是根据可微分损失函数L(x^,F(x))L(\hat{x},F(x))找到描述误差的函数,例如,在式(2.45)中的分位数损失函数。根据[80],每次提升根据最陡下降的梯度:
    在这里插入图片描述
    f^m(x)=ρmgm(x) \hat{f}_{m}(x)=-\rho_{m}g_{m}(x)
    其中:
    在这里插入图片描述
    在这里插入图片描述
      GB的一个有趣的特征是执行内在变量选择,以及为每个分位数训练τ个不同模型以获得密度函数的可能性。值得注意的是,存在这种方法的扩展,例如Bühlmann提出的扩展,其中只选择了d-预测变量中的一个预测变量,感兴趣的读者可参考[80],[81]。
      GB参考:机器学习之Ensemble(Bagging、AdaBoost、GBDT、Stacking)
    在这里插入图片描述
    核密度估计。
      核密度估计(KDE) 是一种非参数方法,用于估算从未知密度F中抽取的随机变量的密度F^\hat{F},由Rosenblatt[82]和Parzen[83]独立提出。想象一下,从前面提到的密度F中绘制一个样本(x1,x2,…,xn),然后将它们组织到直方图中的箱子(区域)中。根据样本之间的距离,直方图具有多个比其他区域更高的箱子(区域),例如,如果图形的值彼此接近并且分辨率是粗略的,则这些图形将被添加到相同的箱子(区域)中。这意味着直方图是非平滑的,并且核密度估计器旨在通过在每个点上施加具有特定宽度的核函数,来平滑每个样本点xi的贡献,其中i∈{1,…,n}。核密度估计器的公式如下:
    在这里插入图片描述
    在这里插入图片描述
      其中K(⋅)是核函数,h>0是带宽,这是一个平滑参数。核K(⋅)必须是积分为零且具有零均值的函数,例如均匀,三角形或正态的。选择h时需要特别注意,因为将参数设置得太低导致了欠平滑的KDE,其中基础分布的噪声使F^\hat{F}变形。另一方面,将h设置得太高意味着来自基础分布F的信息将丢失。确定最佳带宽hopt的常用方法是通过最小化渐近平均积分平方误差(AMISE)。AMISE可以表示如下[82]。
    在这里插入图片描述
    AMISE=12hN+h436Fn(x)2dx AMISE=\frac{1}{2hN}+\frac{h^4}{36}\int_{-\infty}^{\infty}|F^{n}(x)|^2dx
      值得注意的是,AMISE(h)取决于基础分布F的二阶导数,这是人们想要确定的分布,因此是未知的。然而,可以证明,可以使用更高的导数来表达类似的表达,并且在F可以被假定为正态之前,这仅需要进行两次或三次。然而,这不属于本文的范围,感兴趣的读者可参考[82-84]。
    在这里插入图片描述
    k-最近邻(k-NN)。
      k-最近邻(k-NN)是一种相对简单的机器学习方法,它依赖于将观察结果与训练样本中k个类似的过去观察结果进行比较,以创建概率分布[85]。该算法计算观测和过去观测之间的超空间中的距离,例如欧氏距离,以确定最接近当前观测的k个邻居。例如,如果k=1,算法将简单地选择最近的邻居。
    在这里插入图片描述
      k的值需要相对较高,以便降低总噪声,并且可以通过交叉验证选择或凭经验选择。此外,通常将更多权重分配给更接近当前观察的过去观察,例如,通过给每个邻居赋予1/d的权重,其中d是观察与邻居之间的距离。
    在这里插入图片描述
      k-NN需要考虑的一个关键方面是,由于维数灾难,维度需要保持相对较小。这意味着搜索空间随着维度的增加呈指数增长并产生显著的稀疏性,直到观察的簇变得太远并且统计显著性明显降低。
      KNN参考:最简单的分类算法之一:KNN(原理解析+代码实现)
    在这里插入图片描述
    模拟集成法。
      模拟集成(AnEn)由Delle Monache等人[86]在2013年提出,它可以看作是一种混合方法,因为它结合了NWP预测,NWP过去预测和光伏发电量测量。在假设过去预测的误差可能与当前NWP预测的误差相似的情况下,该算法搜索了与当前预测相似的气象变量的预测,从而显示了与k-NN的许多相似之处。然后,使用与当前NWP预测相似的过去预测相关的测量功率产生来构建密度函数。相似性或距离的表述如下[86]:
    在这里插入图片描述
    在这里插入图片描述
      其中F^t\hat{F}_{t}和At分别是确定性NWP模型t时间的当前和模拟过去预测;N是物理变量的个数,wi是它们的权重,σFi^\sigma_{\hat{F_{i}}}是它们各自时间序列的标准差,t~\tilde{t}代表了计算距离时时间窗口的一半的宽度。所以,j是计算距离时时间窗口的宽度,权重wi可以在训练集上最小化CRPS计算得到(定义如式2.43)。算完距离后,就可以构建一个排序,包含n个来构建密度函数。在这里插入图片描述
      Delle Monache等[86]指出AnEn与基于NWP的集成相比的优势在于,AnEn仅需要物理模型运行一次,而NWP集成需要多次运行并具有扰动以构建密度函数。潜在的缺点是没有对NWP预测进行后处理,这些预测倾向于存在偏差。

    3.2. Physical approach

    3.2节讲述物理方法。
    在这里插入图片描述
      通过物理方法,通常的做法是假设描述错误的密度函数。其原因在于物理方法允许在非参数方法方面的变化较小,因为在那种情况下需要应用统计方法形式的后处理。这通常被称为混合方法,并在第3.3节中详细说明。

    3.2.1. Parametric

    参数化方法。
    在这里插入图片描述
      参数方法依赖于将预测方法的误差建模,在这种情况下是物理模型,作为特定密度函数,例如,法线,β或伽马。这可以通过几种方式实现。例如,Lorenz等人[8]将预测误差建模为正态分布,随后评估误差是否依赖于晴空指数和太阳天顶角。然后将该依赖性建模为四阶多项式,之后可以估计未来的误差。
    在这里插入图片描述
      另一种方法是由Fonseca Jr.等人[87]提出,其中假设正态分布和拉普拉斯分布,之后计算预测区间限制,其中可以以某个预定概率找到预测。

    3.2.2. Nonparametric

    非参数化方法。
    在这里插入图片描述
      如前所述,非参数方法的可能方法几乎没有变化。实际上,目前正在使用一种方法,称为集成预测。该方法依赖于NWP模型的多次运行,但在初始和边界条件下的微小扰动,被设计为在统计上相同。通过这种方式,产生了若干确定性预测,之后可以从这些预测中构建密度预测。这种方法的缺点是运行NWP模型在计算上要求很高,尤其是几次带有扰动的运行。

    3.3. Hybrid approach

    3.3节讲述混合方法。
    在这里插入图片描述
      如前所述,NWP模型构建概率预测的密度函数的能力有限。同样,基于天空图像的预测也缺乏生成PDF的能力。因此,存在混合方法,其中物理方法的后处理通过统计方法完成,以便消除偏差并构建密度函数。
    在这里插入图片描述
      楚等人[88]提出了一种基于天空图像和五种统计模型的混合方法,即四个ANN和一个支持向量机(SVM),分别用于预测平均DNI和相关标准偏差并对变异周期进行分类。在假设这些是正态分布的情况下,利用方差来构建预测区间。
      在这里插入图片描述
      另一个例子是Sperati等人[89]的工作,他们利用欧洲中期天气预报中心(ECMWF)集合预报系统(EPS)对NWP模型进行集成预测,之后使用NN来减少偏差并创建PDF,以及其他两种后处理技术,将在下一节中详细说明。

    总结:
    在这里插入图片描述

    4. Review sorted on temporal horizon

    在这里插入图片描述
      本节回顾了有关PSPF和PLF的最新研究,并结合其他几项对预测领域至关重要的研究。该部分根据预测范围进行组织,因为时间范围是模型的突出特征。此外,这种划分允许我们以比例如基于参数或非参数划分的更高分辨率来辨别彼此的研究。此外,表1提供了本文正在综述的研究的概述,并按照其发表年份的时间顺序排序。

    4.1. Intra-hour

    小时内的。
    在这里插入图片描述
      小时预测通常基于统计方法,尽管在PSPF的情况下,它也可以通过天空图像来实现,如图1所示。关于负荷预测,小时内预测相当罕见,即消费数据的分辨率比较粗狂。然而,智能表计的最新发展允许以更高的时间分辨率进行测量,这就允许降低时间范围。
    在这里插入图片描述
      太阳能。迄今为止,最短预测提前期的研究是Torregrossa等人[90]所做的工作。他们认为,由于太阳辐照度在亚秒级时间范围内变化极大,因此有必要找到太阳辐照度的边界,这可能有助于智能电网的实时控制。他们所提出的方法,称为动态区间预测器(DIP),其工作前提是可以在太阳辐照度的导数和确定性预测误差之间找到显著的相关性,并且可以基于上述相关性估计预测区间。该方法的一个优点是它不依赖于确定性预测模型。然而,对Torregrossa等人的评估不佳,这是因为他们声称“在PV预测领域呈现的所有工作都假设了高斯创新”,而他们指的是Bacher等人[91],其中QR已用于构建非参数预测区间。然而,作者提出了一种创新方法,其工作时间分辨率为250和750毫秒,提前期为2-6秒,在覆盖概率方面表现出良好的性能。根据分辨率和范围,PICP介于97.94%和99.92%之间。利用一种度量来量化预测区间的宽度,但不幸的是,没有如式(2.40)所定义的PINAW。作者没有考虑所有观测结果,而是排除了超出预测区间的预测。
    在这里插入图片描述
      作为上述工作的延续,斯科拉里等人[92]通过应用两项主要改进提高DIP模型的性能。首先,作者发现将误差定义为预测和测量之间的绝对误差产生了比相对误差更真实的结果,因为后者在低测量交流电(AC)功率时可能会产生误导。其次,它们将测量的交流功率的导数与确定性预测误差之间的相关性聚类为交流功率本身的函数。作者继续表明,绝对误差确实比相对误差表现得更好,前一种方法使PICP始终高于标称置信水平。最后,他们展示了聚类的包含导致更好的性能,最显著的是导致提前时间分别为100毫秒到500毫秒的PINAW(0.0055-0.24%)和CWC(0.055-0.24%)
    在这里插入图片描述
    在这里插入图片描述
      上述研究的作者继续研究[93]中的(非常)短时间范围。类似地,通过k均值算法进行聚类,以根据解释变量的值将晴空指数的观测分组到特定聚类中。然而,与之前的研究相反,本文没有考虑导数。对原始和差异化的晴空指数时间序列进行聚类,其中后者用于进一步对原始时间序列进行固定。在聚类之后,可以为每个聚类计算预测区间。为了保证计算性能,上述计算,即预测间隔的聚类和计算,都可以离线完成。在运行模型时,将解释变量的观察结果与聚类进行比较,并返回对应于最近聚类的预测区间。结果显示模型的有效性:对于500ms的预测范围和分辨率,所提出的模型实现了96.1%和98.2%之间的PICP,0.047%和0.27%之间的PINAW以及0.047%和0.27%之间的CWC,具体取决于季节。当预测范围增加并且时间分辨率降低至1分钟时,该模型实现了PICP在96.9%和97.8%之间,PINAW在3.26%和10.5%之间,CWC在0.3.26%和10.5%之间,也取决于季节。最后,对于5分钟的预测范围和时间分辨率,发现PICP介于96.1%和96.7%之间,PINAW介于6.70%和17.9%之间,CWC介于6.70%和17.9%之间。值得注意的是,这里的PICP结果是在95%的标称置信水平下实现的,因此可以认为是有效的。
    在这里插入图片描述
      Wan等人[94]提出了一种预测丹麦10千瓦光伏系统发电的方法,预测范围为5分钟,时间分辨率相同。所使用的方法基于QR和极端学习机(ELM),它是前馈NN的一种形式。ELM的优点是随机选择输入权重,并且在一个步骤中学习隐藏节点和输出之间的权重。因此,它有效地类似于线性系统,这显著减少了训练时间。在覆盖率方面取得了良好的结果,得分为-0.0222,同时优于所有基准模型,即持久性,基于引导程序的NN(BNN)和颗粒计算(GC)。
    在这里插入图片描述
      Chu等人[88]使用混合方法预测直接正常辐照度(DNI),其预测前置时间为5-20分钟,时间分辨率为1分钟。该方法基于天空图像,SVM和ANN子模型,旨在产生实时预测间隔。首先,基于红色强度和蓝色强度的比率分析天空图像,因为云像素倾向于具有比晴空像素更高的红色强度。然后,利用SVM将天空图像和DNI时间序列分为两类:具有高和低可变性的天。最后,针对两个类别训练了两个人工神经网络:一个预测辐照度,另一个预测标准偏差,假设正态分布。结果显示,与基准模型相比,在所有前沿的CWC方面表现出色,即持久性和BNN,最显着的是在具有高变异性的日子,其中CWC在0.554和8.733之间
    在这里插入图片描述
      Chai等人[95]通过将时间序列分割成具有下限和上限的统一时间窗口,并利用所有获取的粒度时间序列作为随机向量前向链路(RVFL)网络的输入,来解决构建高度可变时间序列的预测间隔的问题。预测提前期为10分钟,分辨率为1分钟。与LUBE方法类似,作者认识到可以通过增加预测间隔宽度来实现更高的覆盖概率,即高可靠性。因此,他们通过PSO最小化平均覆盖误差和得分来解决这个问题。结果显示,PICP和PINAW分别为91.20%和16.94%,并且与作者早先提出的模型相比,显示出在高变异性期间可靠性显着提高。
    在这里插入图片描述
      为了预测太阳辐照度,David等人[70]提出在正态假设下,结合参数的递归估计使用ARMA和GARCH模型以参数方式构建预测区间。预测范围为10分钟,与分辨率相似。由于时间序列应该是平稳的,作者使用晴空指数而不是GHI。参数的递归估计基于递归最小二乘(RLS)并且用于结合诸如飓风的短期模式,其对辐照度具有深远影响。结果表明,与持久性集合相比,CRPS的改善率为7.8%至25.1%。然而,作者指出,尽管假设了正态分布,但这不是一个有效的假设,这反过来又导致它在某些条件下过于自信。
    在这里插入图片描述
    在这里插入图片描述
      Golestaneh等人[44]采用另一种与QR结合的ELM。对于PSPF,提前时间长达一小时。作者选择ELM是因为它具有极快的学习机制,并利用PSO确定输出节点相对于技能分数的最佳权重。此外,每天的预测窗口限于特定时间,其数量在全年保持不变。作为基准,应用了持久性,气候学,混合智能算法(HIA)和自举ELM(BELM),其中HIA源于PWPF的改进以发现非参数预测密度。作为案例研究,两个独立的站点进行了调查,分析时间为10分钟和1小时。此外,利用k折交叉验证来确定参与的滞后数的最佳值。结果表明,基准分子BELM和持久性在分位数分数方面表现良好但缺乏可靠性,在BELM的情况下偏差高达20%。此外,气候学和HIA在锐度和可靠性方面表现不佳,而所提出的方法在具有可接受的锐度的同时实现了高可靠性。定量地,所提出的方法在分位数得分方面提高了4%到14%的性能而不是持久性。
    在这里插入图片描述
      Boland[96]应用耦合自回归和动力系统(CARDS)来预测法属西印度群岛三个地点的太阳辐射,利用这些地点之间的部分相关性来改善预测,评估为10分钟和每小时。然而,发现最高分辨率的相关性不显著,而小时但是在每小时时间尺度上显著。该方法的工作原理如下:首先,通过使用傅里叶级数对功率谱进行建模,之后从数据中减去模型的贡献,留下随后用CARDS方法建模的残差序列。由于相关性,作者在每小时的时间尺度上考虑了单个站点的滞后测量,以及其他两个站点的测量。然后,在假设误差是正态分布的情况下,采用类似的方法用自回归条件异方差(ARCH)模型对方差进行建模。遗憾的是,没有使用概率性能指标来评估所提出方法的性能。
    在这里插入图片描述
      为了构建光伏发电预测的概率预测,Wang和Jia[97]提出了一种基于径向基函数(RBF)的非参数模型用于确定性预测,LUBE方法用于预测区间。预测范围是一小时,时间分辨率为15分钟。为了改进模型的训练,作者根据类似的日期方法组织了历史数据,其中样本是基于季节类型,日间类型和大气温度构建的。后者的相似性基于欧氏距离计算。选择RBF网络是因为它是前馈网络,因此不需要反向传播方法来训练它,这提高了学习速度。尽管本文中使用的方法很有前景,但没有使用概率性能指标。
    在这里插入图片描述
      Chu和Coimbra[98]旨在利用k-NN预测DNI,预测范围为5-20分钟,分辨率为1分钟。在这种情况下,k被设置为30,并且基于预测与观测之间的距离对邻居进行加权。如第3.1.2节所述,k-NN的一个关键方面是尽可能地降低维数,因此作者使用滞后DNI观测作为内生输入,并将滞后DHI和天空图像特征作为外生输入。结果表明,k-NN集成优于持续集合和具有高斯分布假设的k-NN。作者报告,标称置信水平为90%,PICP介于0.93和0.96之间,PINAW介于0.22和0.57之间,持续5分钟,PICP介于0.91和0.93之间,PINAW介于0.31和0.70之间,持续20分钟。该模型在CRPS方面也优于基准,据报道,在5分钟的时间范围内达到0.031-0.098,在20分钟的时间内达到0.049-0.137。不幸的是,目前尚不清楚上述结果的单位是W/m2还是kW/m2,因为前者会产生非常令人印象深刻的结果,尽管这些不符合报告的RMSE。
    在这里插入图片描述
    在这里插入图片描述
      负荷。如前所述,用一小时甚至一天的时间来预测电力需求是相当不寻常的。因此,本节仅综述在此范围内进行的两项研究。第一个是Bracale等人[99]的研究中,结合贝叶斯推理(BI)方法的随机时间序列被用来创建15分钟和24-48小时的范围的概率预测。此外,根据时间序列是否差异(正态分布)(Weibull或Log-Normal分布),利用若干密度函数来构建单个国内负载的预测间隔和五个国内负载的总和。所提出的模型使用测量和参数的先前PDF以及ARIMA对平均值的预测来通过BI导出先前PDF的共轭分布,以便建立国内负荷的预测后验分布。结果显示,与概率持续性相比,改善了27-31%。此外,结果表明,假设正态分布的方法提供了最好的可靠性,与理想可靠性的最大偏差小于3%。
    在这里插入图片描述
      第二个是Guan等人[100]的研究,以时间分辨率5分钟预测每小时范围的负荷,即随后的一小时内每5分钟有12个预测。为了实现这一点,作者将负荷数据分解为不同频率的三个分量,用于三个小波NN(WNN)。另外,使用日历变量作为WNN的输入,以帮助它们识别负载数据的周期性模式。然后通过混合卡尔曼滤波器训练WN-N,其具有可用于导出预测间隔的创新协方差作为输出之一。根据协方差,在正态分布的假设下,方差估计可以通过频率的正交性获得并加在一起,以确定总体方差。虽然没有使用概率性能指标来评估预测区间,但作者表明,正态性假设仅在去除尾部后才有效,因为它们比高斯分布更重。

    4.2. Intra-day

    在这里插入图片描述
      在日内范围内预测太阳能和电力需求是常见的,因为通常存在能源交易的两个市场:日内和日前。因此,这两个方面的日内预测对于平衡生产和消费很重要。正如我们将要揭示的那样,本节中将要讨论的大多数方法都依赖于统计方法,因为物理模型在时间分辨率方面往往过于粗糙。
    在这里插入图片描述
      太阳能。Bracale等人[101]提出了一种与AR线性模型相结合的BI方法,其中上述研究[99]是一个延续,以预测1-3小时范围和1小时的时间分辨率的光伏发电功率。然而,在这项研究中,作者利用改进的Gamma分布来模拟清晰度指数分布,其中唯一未知的是下一时间步的平均清晰度指数,这是由AR模型估计的。然而,没有使用概率度量来评估预测区间。
    在这里插入图片描述
      本综述中分析的少数研究中使用卫星观测的研究之一是Bilionis等人[102]的研究。其中他们采用递归高斯过程(rGP)。作为第一步,为了降低卫星图像的维数,他们采用因子分析(FA),即概率主成分分析(PCA)的泛化方法。减少维数的一般想法是构造两个地图:缩小和重建地图,其中前者具有不会丢失太多信息的情况下尽可能小的尺寸。随后,作者应用rGP来学习减少输入空间的动态,以执行迭代预测,提前期为8小时,分辨率为30分钟。尽管由于减小的动力学的非线性,预测密度不再是高斯分布,但是仍然可以应用数值方法来产生预测密度。结果表明,所提出的基于卫星的方法在提前一步预测方面的表现略差于基于地面的模型,但在更大的时间范围内表现优于它,平均CRPS为0.18,尽管尚不清楚哪个单位CRPS在这种情况下。
    在这里插入图片描述
    在这里插入图片描述
      Grantham等人[103]提出了一种统计方法,用于预测范围和分辨率为一小时的太阳辐照度全密度。该方法基于CARDS模型结合自举和太阳位置图,旨在展示如何将确定性预测转化为非参数概率预测。作者指出,辐照度取决于周期性,自回归和误差分量,后者被认为是由太阳位置引起的。因此,通过绘制样本内预测的残差与太阳小时角和太阳高度的关系,作者组织了方差的系统变化。应该注意的是,Lorenz等人[8]采用了类似的方法,尽管Lorenz等人。假设正态分布,而Grantham等人采取非参数方法。为了评估性能,作者使用了CRPS,其显示出比基准集合提高了10%。此外,所提出的方法产生比基准模型更窄的预测间隔,结合更高的覆盖率。
    在这里插入图片描述
      为了对PV具有高渗透率的配电网络进行风险评估,Tao等人[104]提出了一个框架,其中利用动态贝叶斯网络(DBN)进行概率预测。但是,由于该论文的主要重点是进行风险评估,因此没有注意以任何方式评估概率预测。
    在这里插入图片描述
      AlHakeem等人[105]提出了广义回归NN(GRNN),其权重和偏差由PSO优化以执行确定性预测,而bootstrap用于构建预测区间。然而,首先通过小波变换(WT)对测量输出功率的时间序列进行预处理以降低噪声并使时间序列稳定。预测范围是每小时分辨率为1-6小时。有趣的是,不是使用大量数据训练GRNN,而是使用预测前15天的每小时数据。除了分解的时间序列之外,还向GRNN提供辐照度和温度。在GRNN产生每个频率的预测之后,重建小波并且可以应用自举。不幸的是,只有确定性的评价指标用于评估预测,尽管显示预测间隔的图显示这些指标相当宽。
    在这里插入图片描述
      Bessa等人[106]进行的一项有趣的研究,作者提出了一种方法,将矢量自回归(VAR)和VAR与外因投入(VARX)框架的分布式PV生产测量相结合,以时间范围为6小时,分辨率为一小时的水平进行预测。两个聚集水平用于测量数据:家庭水平,即低电压(LV)和二级水平,即中压(MV)/LV(MV/LV)。该方法首先通过利用晴空生成来对测量的太阳能进行归一化,以便稳定时间序列。然后,建立模型,使得它们结合特定站点的太阳能测量结合相邻站点的滞后测量,因此它们使用时间和空间信息。但是,没有给出关于所使用的站点之间的相关性的细节。此外,RLS用于估计模型的参数,随后减少所需的数据量。最后,部署GB以选择预测变量并构建预测密度。结果显示,在CRPS方面,VAR模型的二级水平相对于AR基准的改善在1.4%至5.9%之间,而VARX模型在基准水平上的改善率高达16.4%。然而,VAR模型在家庭层面上的CRPS改善范围在-2.8%和4.6%之间,这是因为一些分位数表现不佳,正如作者所解释的那样,他们表示在某些情况下来自分布式传感器的信息减少了预测技巧。作者认为这是一个有趣的结果,因为“点预报技术的改进并未转化为某些分位数预测的改进”,这与[107]的作者在风电预测案例中的评论形成鲜明对比。
    在这里插入图片描述
    在这里插入图片描述
      由Liu等人[108]完成的研究是利用NWP集合在日内范围上生成非参数概率预测,是少数研究之一,尽管也进行了提前一天和提前两天的预测。在该论文中,使用了天气研究和预测(WRF)模型,因为它能够以高分辨率进行模拟,这是时间分辨率为30分钟的原因。为了创建集成预报,作者采用滞后平均预测(LAF)方法,该模型产生三个单独的预测:日内,日前和2日前。第二天,WRF生成相同提前期的预测,并将当天的日内预测与前一天的提前预测相结合,以创建一个整体。在这项研究中,共有三个成员用于创建整体,尽管作者指出,包含更多成员可能会改善结果。此外,LAF方法计算具有不同初始条件和不同初始时间的每个成员。结果表明,经验覆盖率通常比名义覆盖率低20%~30%,这可能是由于WRF模型对GHI的过高估计(如作者所指出的那样)。但是,应该注意的是,预测区间的覆盖概率应该高于标称置信水平,因为否则它们是无效的并且应该被丢弃[65]。
    在这里插入图片描述
      根据2014年全球能源预测竞赛(GEFCom2014),Nagy等[109]提出了一种基于四种集成技术的方法,即投票,装袋,增强和堆叠,因为之前的研究表明,使用多个预测器往往会产生更好的结果。比赛的组织者提供了大量的数据,如表1所示。建立了两个模型,以每小时分辨率构建一个日内范围的完整预测密度:一个QRF和一个堆叠的投票RF-GB决策树(GBDT)。结果表明,在比赛过程中弹球损失的表现逐渐提高,最终结果为0.006-0.009,在比赛中排名第二。最后,作者指出,堆叠RF-GB导致太阳能和风能预测的最佳结果,但该模型训练非常耗时,但没有提到具体细节。
    在这里插入图片描述
      与之前的研究相似,Juban等[110]发表的论文也参与了GEFCom2014。然而,Juban等人的目标是为概率预测创建一个通用框架,并应用于风能,太阳能和价格预测。他们提出的框架按以下步骤解决问题:首先,建立了多QR(MQR)框架。其次,通过前向逐步程序选择最相关的预测因子。然后,通过径向基函数(RBF)生成特征,以便映射上述输入数据中的非线性关系。最后,作者提出了一种基于ADMM算法的优化方法,以最小化分位数损失函数,结合所有分位数和所有输入和输出上的ℓ2正则化,以便拟合可用于预测每个分位数的一组参数。虽然拟议的框架并未在PSPF竞赛中取得高分,但其弹球损失为0.0086,排名第五,真正的价值在于框架的一般性,导致风能,太阳能和价格预测的前五名排名。
    在这里插入图片描述
      张等人[111]应用高斯条件随机场(GCRF)以小时分辨率预测一步太阳能发电。使用GCRF是因为它们允许对空间和时间相关性进行建模,并将此特性应用于加利福尼亚州的一个城市。此外,作者还研究了GCRF在丢失数据时(例如在设备故障或通信问题的情况下)仍能表现得相对较好。结果表明,就RMSE和MAE而言,当缺少中等或大量数据时,所提出的模型显着优于ARX基准。由于GCRF能够提供预测密度,在不存在缺失数据的情况下,作者提出了不同季节的几个标准差的PICP。在冬季,GCRF没有设法达到足够高的PICP以被认为是有效的,但在今年余下时间就是这种情况,可能是由于天气变化增加。不幸的是,没有采用其他概率度量。
    在这里插入图片描述
    在这里插入图片描述
      Aryaputera等人[112]采取了不同的方法,在他们的研究中,作者旨在比较贝叶斯模型平均(BMA)和集合模型输出统计(EMOS)在预测新加坡日内累积太阳辐照度时的表现。由于这些是后处理技术,因此从ECMWF,日本气象厅(JMA)和韩国气象厅(KMA)检索了预报。作为第一步,作者发现偏斜正常的PDF最适合这两种方法。接下来,线性回归用于BMA和EMOS以消除偏差,并且使用穷举搜索(ES)方法确定最佳训练天数。为了评估预测的质量,作者研究了可靠性图和CRPS。在可靠性方面,具有偏斜正常PDF的BMA表现最佳,因为它显示出相对较窄的预测间隔和低误差。此外,该方法也达到了最低的CRPS,值为292Wh/m2。
    在这里插入图片描述
      Takeda[113]采用了一种有趣的方法来预测日本大面积的太阳能发电。在确定自下而上策略(即分别预测光伏发电机并随后汇总)之后,与直接策略相比,可以MAE将降低3%,其中人们立即预测整个总量[52]。然而,作者还发现智能电表不够普及,因此公用事业公司无法准确跟踪每小时的光伏发电量。因此,通过天气观测和预报以及每月购买的光伏发电量来估算当地的光伏发电。此外,月度装机容量也被视为外因输入。为了能够预测和分析,使用了与状态空间模型(SSM)组合的集合卡尔曼滤波器(EnKF)。作者认为,将SSM与EnKF结合使用的原因是人工神经网络或MLR等统计方法无法提供有关电力消费结构变化的任何深刻的理解。此外,EnKF能够估计非线性SSM。得到的CRPS为24.06GWh,比MAE低5.6GWh,表明与确定性预测相比,集成的结果是合适的。
    在这里插入图片描述
      负荷。Almeida和Gama[114]提出了一种基于NN构建预测区间的方法,其提前期为0-24小时且具有每小时分辨率。作者使用了45个不同类型消费者所连接的变电站的总负荷需求。他们认为,由于存在许多不同的负荷配置文件,因此需要对这些配置文件进行聚类以提高预测性能。聚类是通过Kulback-Leibler距离进行的,因为欧几里德距离在处理较不稳定的数据(如住宅负荷)时会造成困难。为了创建非参数预测区间,采用了两种不同的方法。第一种是双扰动和组合方法(DPC),其中使用轻微扰动的数据进行预测。第二种方法是共形预测(CP),它假设数据是相同且独立分布的(i.i.d.),查看过去的数据以确定未来预测的置信水平。多层感知器(MLP)的输入是压延变量和负载曲线的过去值,属于某个簇。从结果看来,DPC方法在所有簇上显示出比CP更一致的PINAW性能,平均为20%。此外,可靠性图表明,在负载需求变化很大的集群的情况下,覆盖概率显着降低。不幸的是,在没有提到PICP达到63%和96%的信心水平的情况下,给出了一个说明PICP的情节。

    未完待续!!

    展开全文
  • 在此论文中,来自斯坦福的研究者们提出了 NGBoost 梯度提升方法以解决现有梯度提升方法难以处理的通用概率预测中的技术难题。 概率预测(一种模型在整个结果空间中输出完整概率分布的方法)是量化那些不确定性的...
  •   总结:概率预测和确定性预测的绩效指标相同,而概率预测表现较差,所以主要研究了确定性预测。   提供具有PDF(概率密度函数)或预测区间的实用程序,即预测随机变量以特定概率测量的未来生产和需求的间隔...
  • 光伏发电量和用电量的概率预测研究综述(1) 光伏发电量和用电量的概率预测研究综述(2) 目录 4.3. Day-ahead 4.4. Comparison between PSPF and PLF 5. Discussion 6. Conclusion Acknowledgments 4.3. Day-ahead...
  • 功率预测发展趋势之概率预测

    千次阅读 2020-07-12 16:47:46
    电力行业存在一种声音:认为新能源是“垃圾电”,并引起了广泛的讨论。之所以有这种说法,其中...为了解决新能源的并网问题,很重要的工作就是对新能源进行预测,才能提前进行合理的计划调度。 这时又出现了一个新问题
  • 一、流失概率预测需求 二、算法选择-朴素贝叶斯分类算法 三、特征工程-选择特征 四、特征工程-特征数据源 五、特征工程-特征值离散化 六、特征工程-向量规范化 七、机器学习-模型训练 八、机器学习-流失率预测 一、...
  • 泰坦尼克生存概率预测

    千次阅读 2018-04-10 14:34:36
    1.提出问题:找出最优模型来预测titanic乘客生存结果项目概况:Titanic号的沉没是历史上最惨痛的沉船事故之一。在1912年4月15号,Titanic首次航行便因撞击冰山而沉没。在2224名乘客和船员中,有...
  • Keras之ML~P:基于Keras中建立的简单的二分类问题的神经网络模型(根据200个数据样本预测新的5个样本)——概率预测 目录 输出结果 核心代码 输出结果 核心代码 # -*- coding: utf-8 -*- #...
  • 本文通过预测某人在未来两年内遭遇财务困境的可能性,来提高自己在信用评分方面的水平。目标是建立一个借款人可以用来帮助做出最佳财务决策的模型。 本文主要从分析框架、数据处理和建立预测模型等几个方面进行分析...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 174,691
精华内容 69,876
关键字:

概率预测