精华内容
下载资源
问答
  • 13.影响预测准确度的因素
    千次阅读
    2018-04-08 19:00:09

    首先,预测想达到完全准确是不可能的。

    然后,和随机猜测相比预测的效果也不容否认,只是预测越准参考价值越大。

    重点在于预测误差可以不断减小。对于分类问题用准确率衡量,对于回归问题用误差衡量。

    我研究的轨迹预测问题应该属于回归问题,衡量的标准就是预测出的位置和实际位置的距离。


    这篇主要谈谈影响预测准确度的因素。对于机器学习来说主要是自变量和因变量如何选取。

    自变量应该是我能得到的全部数据,因变量是我想得到的预测结果。。。这是最简单的选取

    如果改进一下,把自变量和因变量归一化。。。效果会好很多

    再改进,选择有效的自变量。

    对自变量和因变量做预处理,使两者的关系更直观。

    尽量只保留几个无法计算的参数留给模型学习,其他的处理的越好预测效果越好。



    这次研究把重心放在整体架构和数据预处理上,训练使用现成的模块。以后如果继续研究可以深入建立一个专门的机器学习模型,针对具体问题定制的模型效果应该会更好。

    更多相关内容
  • 气象因素对电力系统短期负荷预测精度影响.pdf
  • 目前,实现提高预测精度这个目标的关键是如何更加合理地考虑气象因素对负荷的影响,因为气象敏感负荷在总负荷中所所占的比重越来越大。长期以来,鉴于气象部门无法提供实时温度等气象预测结果,电力系统所建立的预测模型...
  • 研究最终建立了2个煤层瓦斯渗透率预测模型,模型1不做影响因素优选,模型2基于影响因素优选,对模型进行试算和误差分析,结果表明:模型2具有更好的预测稳定性和精度,能很好地反映煤层瓦斯渗透率与其影响因素间隐含的映射...
  • 为了消除其他因素和离群点对EGT预测精度影响,研究了实际测量数据的预处理方法。由于观测数据中的噪声和混沌相空间重构参数对EGT预测精度有较大影响,提出利用搜索算法寻找使EGT预测精度较优的非线性去噪参数和...
  • 传统光伏发电功率预测存在因气象因素特征提取不综合不精确而导致预测精度不高的问题. 为了充分挖掘气象因素对光伏出力的影响, 并有效利用深度学习技术在非线性拟合方面的优势, 本文提出了一种基于气象因素充分挖掘的...
  • 采用SSA技术将光伏出力时间序列分解为低频序列、高频序列和噪声序列,通过Pearson相关系数法确定温度和辐照为影响光伏出力的主要气象因素,再对光伏出力与气象因素之间的灵敏度进行分析。根据灵敏度分析的结果和基准...
  • 文章对前人总结的一些方法进行了深入研究,从薄层理论出发,编写应用程序并采用钻井约束频域谱矩法定量预测煤厚,同时分析影响煤厚预测的各种因素。实例表明,该方法具有简单、快速、预测精度高的特点,并在山东兴隆庄...
  • 论文研究-我国不良贷款回收率的影响因素预测模型.pdf, 利用中国资产管理公司的不良贷款数据库,对影响我国不良贷款回收率的因素:风险暴露规模、地区、行业、担保方式、...
  • 在能提供大量实时负荷数据和气象数据的智能电网大数据环境下,挖掘合适的气象因素处理方法对提高短期负荷预测精度尤为重要。针对一个或多个气象变量,解决一维或多维费歇信息计算问题。在此基础上,提出基于费歇信息...
  • 为了提高深部煤层瓦斯含量的预测精度,提出了采用灰熵分析法对瓦斯含量影响因素进行研究,以潘三矿深部11-2煤层为例,根据灰熵关联度的大小选取不同的影响因素分别建立了GM(1,3)、GM(1,4)和GM(1,5)预测模型,依据精度...
  • 为了控制激光熔覆成形薄壁金属制件的精度,...实验和仿真结果表明,训练样本和检验样本的最大相对误差分别为1.93%和1.19%,预测精度高。该网络模型可用于优化激光熔覆成形工艺参数和成形金属制件精度的在线实时控制。
  • 高速电主轴轴承在运转过程中产生大量的摩擦热,而轴承温度是影响主轴系统刚度和精度主要因素。通过高速电主轴空载运转实验,测试了在不同转速下主轴轴承的温度,获得了151组温度值;基于BP神经网络,对每个测试点...
  • 针对黄陵2#煤矿二盘区煤层瓦斯含量的影响因素进行灰色关联度分析,得出影响因素的主次。然后运用灰色系统理论,建立煤层瓦斯含量的灰色预测模型,经过检验,该模型精度能够满足工程要求,有一定的实用性,可以作为瓦斯防治...
  • 利用灰色系统理论的灰色关联度分析法,...同时建立了大气NO2浓度的灰色GM(1,1)预测模型,短期预测精度很高,未来五年禅城区大气NO2浓度呈平稳下降趋势。为今后佛山市禅城区制定大气环境规划、防治大气污染提供了科学依据。
  • 实证研究以微信众筹项目为研究对象,包括腾讯慈善基金会,青松町等,实证研究采用方差多元分析,逻辑回归和数据挖掘等方法,分析了最终筹资和结果(成功或失败)的影响... 基于数据挖掘的预测模型具有良好的预测精度
  • 多维灰色预测算法,一列特征因素和四列相关因素
  • 由于地表下沉受各种不确定因素影响,可以看作灰色系统。基于灰色系统GM(1,1)模型,根据山东某矿区地表移动观测站实测资料,分别采用3次样条插值法、线性插值法、拉格朗日插值法,得到插值数据并进行GM(1,1)模型的预测,...
  • 将偏回归平方和理论运用到影响某矿瓦斯涌出量预测指标的选取中,确定了影响该矿瓦斯涌出量的主要影响因素,根据这些主要影响因素建立了预测瓦斯涌出量的多元回归模型。在进行指标选取之前,对各数据按照极差标准化原理...
  • 主要影响因素作为BP神经网络模型的输入参数,并根据最小预测误差选择输入层和中间层的维数,确定了BP模型结构。利用多组实验数据进行模型训练,建立了BP神经网络模型。模型预测与实验测量的对比结果表明,模型的...
  • 随着城市化进程的推进,部分大城市的负荷增长开始缓和,波动性逐渐凸显,加大了中长期负荷预测工作的难度。...算例分析表明,相较于时序外推以及弹性系数等常规预测方法,所提方法具有较好的预测精度
  • 利用PVSYSTEM系统产生的数据分析了光伏发电系统输出功率的主要影响因素,并且建立了基于泄露积分型回声状态网(Leaky-ESN)对光伏发电系统输出功率的预测模型。Leaky-ESN比起其他的神经网络具有训练方法简单,预测...
  • 先对数据进行预处理,用关联分析法找到影响话务量预测的主要因素。但此模型对波动较大的数据预测精度较低,用支持向量机的模型来改善预测结果,选取拥有较强的敛散性和全局寻优能力的复高斯小波核函数优化向量机。从...
  • 一般系统的状态受多个因素影响,而基于动态贝叶斯网的状态预测模型就能够较准确地描述系统状态和影响因素之间的关系。针对此模型,提出推理宽度的概念以减少推理过程中的数据量,并利用时间片扩充办法来对状态进行...
  • 对农田土壤N2O排放的主要影响因素(包括土壤含水量、土壤pH值、土壤温度、土壤质地和肥料施用等)、已有农田土壤N2O排放减排措施及估算模型的研究进展进行了总结分析,并指出了今后研究的重点和方向:(a)探究农田...
  • 数据挖掘实战—财政收入影响因素分析及预测

    千次阅读 多人点赞 2021-04-03 14:09:50
    文章目录引言一、数据探索1.数据质量分析1.1 缺失值分析1.2 异常点分析—箱型图分析1.3 重复数据分析2.数据特征分析2.1 描述性统计分析2.2 分布分析2.3 相关性分析二、数据预处理 ...本文数据挖掘主要包括以下步骤


    传送门:


    引言

      本文运用数据挖掘技术对市财政收入进行分析,挖掘其中的隐藏的运行模式,并对未来两年的财政收入进行预测,希望能够帮助政府合理地控制财政收支,优化财政建设,为制定相关决策提供依据。定义数据挖掘目标如下:

    • 分析、识别影响地方财政收入的关键属性
    • 预测2014年和2015年的财政收入

    本文数据挖掘主要包括以下步骤:

    1. 对原始数据进行探索性分析,了解原始属性之间的相关性
    2. 利用Lasso特征选择模型提取关键属性
    3. 建立单个属性的灰色预测模型以及支持向量模回归预测模型
    4. 使用支持向量回归预测模型得出2014年至2015年财政收入的预测值
    5. 模型评价
      在这里插入图片描述

    一、数据探索

    data.csv数据,提取码:1234
    表中各属性名称及属性说明:
    在这里插入图片描述
    在这里插入图片描述

    1.数据质量分析

    %matplotlib inline
    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    

    在这里插入图片描述

    1.1 缺失值分析

    在这里插入图片描述
    在这里插入图片描述

    1.2 异常点分析—箱型图分析

    for column in data.columns:
        fig,ax = plt.subplots(figsize=(4,4))
        sns.boxplot(data.loc[:,column],orient='v')
        ax.set_xlabel(column)
    

    在这里插入图片描述
    会展示出每一个变量的箱型图,可直观看到有无异常点

    1.3 重复数据分析

    在这里插入图片描述

    2.数据特征分析

    2.1 描述性统计分析

    在这里插入图片描述
    可通过均值、方差、最大值、最小值看出有些数据存在较大变化。

    2.2 分布分析

      表格里面都是连续型数据,可以通过distplot来展示连续变量的直方图与连续概率密度估计

    # 画直方图与连续概率密度估计
    for column in data.columns:
        fig,ax = plt.subplots(figsize=(6,6))
        sns.distplot(data.loc[:,column],norm_hist=True,bins=20)
    

    在这里插入图片描述

    2.3 相关性分析

    在这里插入图片描述
    可以发现上述变量除了x11外均与y有强相关性,并且这些属性间存在多重共线性,考虑使用Lasso特征选择模型进行特征选择
      绘制相关性热力图,直观显示相关性

    # 绘制热力图
    plt.style.use('ggplot')
    sns.set_style('whitegrid')
    plt.subplots(figsize=(10,10))
    sns.heatmap(data.corr(method='pearson'),
                cmap='Reds',
                annot=True,   # 诸如数据
                square=True,  # 正方形网格
               fmt='.2f',   # 字符串格式代码
               yticklabels=corr.columns,  # 列标签
                xticklabels=corr.columns   # 行标签
               )
    

    在这里插入图片描述
    很明显可以看出除了x11外均与y有强相关性,并且这些属性间存在多重共线性。

    二、数据预处理

      通过上面分析,我们知道数据中没有缺失值、重复值、异常值(数据来源可靠),发现有多重共线性,我们能做的是:利用Lasso特征选择,去除特征间的多重共线性

    import pandas as pd
    import numpy as np
    from sklearn.linear_model import Lasso
    
    data = pd.read_csv('data/data.csv', header=0)
    x, y = data.iloc[:, :-1], data.iloc[:, -1]
    
    # 取alpha=1000进行特征提取
    lasso = Lasso(alpha=1000, random_state=1)  
    lasso.fit(x, y)
    # 相关系数
    print('相关系数为', np.round(lasso.coef_, 5))
    coef = pd.DataFrame(lasso.coef_, index=x.columns)
    print('相关系数数组为\n', coef)
    # 返回相关系数是否为0的布尔数组
    mask = lasso.coef_ != 0.0
    # 对特征进行选择
    x = x.loc[:, mask]
    new_reg_data = pd.concat([x, y], axis=1)
    new_reg_data.to_csv('new_reg_data.csv')
    

    三、模型构建

    1.灰色预测模型

      灰色预测算法是一种对含有不确定因素的系统进行预测的方法。在建立灰色预测模型之前,需先对原始时间序列进行数据处理,经过数据处理后的时间序列即成为生成列。灰色系统常用的数据处理方式有累加和累减两种。灰色预测以灰色模型为基础,在众多灰色模型中,GM(1,1)模型最为常用。下面展示灰色预测算法的过程及代码实现
      设特征 X ( 0 ) = { X ( 0 ) ( i ) , i = 1 , 2... , n } X^{(0)}=\{X^{(0)}(i),i=1,2...,n\} X(0)={X(0)(i),i=1,2...,n}为一非负单调原始数据序列,建立灰色预测模型如下:

    1. 首先对 X ( 0 ) X^{(0)} X(0)进行一次累加,得到一次累加序列 X ( 1 ) = { X ( 1 ) ( k ) , k = 0 , 1 , 2... , n } X^{(1)}=\{X^{(1)}(k),k=0,1,2...,n\} X(1)={X(1)(k),k=0,1,2...,n}
    2. X ( 1 ) X^{(1)} X(1)可建立下述一阶线性微分方程,即 G M ( 1 , 1 ) GM(1,1) GM1,1模型
      在这里插入图片描述
    3. 求解微分方程,即可得到预测模型
      在这里插入图片描述
    4. 由于 G M ( 1 , 1 ) GM(1,1) GM1,1模型得到的是一次累加量,将 G M ( 1 , 1 ) GM(1,1) GM1,1模型所得的数据 X ^ ( 1 ) ( k + 1 ) \hat{X}^{(1)}(k+1) X^(1)(k+1)经过累减还原 X ^ ( 0 ) ( k + 1 ) \hat{X}^{(0)}(k+1) X^(0)(k+1),即 X ( 0 ) X^{(0)} X(0)的灰色预测模型
      在这里插入图片描述
    5. 后验差检验模型精度
      在这里插入图片描述

      灰色预测法的通用性强,一般的时间序列场合都适用,尤其适合那些规律性差且不清楚数据产生机理的情况。灰色预测模型的优点是预测精度高,模型可检验、参数估计方法简单、对小数据集有很好的的预测效果;缺点是对原始数据序列的光滑度要求很高,在原始数据列光滑性较差的情况下灰色预测模型的预测精度不高,甚至通不过检验,结果只能放弃使用灰色模型进行预测。
      利用GM(1,1)灰色预测方法得到关键影响因素在2014和2015年的预测值

    # 自定义灰色预测函数
    def GM11(x0):
        # 数据处理
        x1 = x0.cumsum()  # 1-AGO序列
        z1 = (x1[:len(x1) - 1] + x1[1:]) / 2.0  # 紧邻均值(MEAN)生成序列
        z1 = z1.reshape((len(z1), 1))
        # 计算参数
        B = np.append(-z1, np.ones_like(z1), axis=1)
        Yn = x0[1:].reshape((len(x0) - 1, 1))
        [[a], [b]] = np.dot(np.dot(np.linalg.inv(np.dot(B.T, B)), B.T), Yn)
        # 还原值
        f = lambda k: (x0[0] - b / a) * np.exp(-a * (k - 1)) - (x0[0] - b / a) * np.exp(-a * (k - 2))
        # 后验差检验
        delta = np.abs(x0 - np.array([f(i) for i in range(1, len(x0) + 1)]))
        C = delta.std() / x0.std()
        P = 1.0 * (np.abs(delta - delta.mean()) < 0.6745 * x0.std()).sum() / len(x0)
        return f, a, b, x0[0], C, P  # 返回灰色预测函数、a、b、首项、方差比、小残差概率
    
    
    new_reg_data = pd.read_csv('new_reg_data.csv', header=0, index_col=0)  # 读取经过特征选择后的数据
    data = pd.read_csv('data/data.csv', header=0)  # 读取总的数据
    new_reg_data.index = range(1994, 2014)
    new_reg_data.loc[2014] = None
    new_reg_data.loc[2015] = None
    cols = ['x1', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x13']
    for i in cols:
        f = GM11(new_reg_data.loc[range(1994, 2014), i].values)[0]
        new_reg_data.loc[2014, i] = f(len(new_reg_data) - 1)  # 2014年预测结果
        new_reg_data.loc[2015, i] = f(len(new_reg_data))  # 2015年预测结果
        new_reg_data[i] = new_reg_data[i].round(2)  # 保留两位小数
    
    y = list(data['y'].values)  # 提取财政收入列,合并至新数据框中
    y.extend([np.nan, np.nan])
    new_reg_data['y'] = y
    new_reg_data.to_excel('new_reg_data_GM11.xls')  # 结果输出
    print('预测结果为:\n', new_reg_data.loc[2014:2015, :])  # 预测结果展示
    

    预测完后利用GM11函数中的C、P值进行检验,衡量灰色预测模型的精度

    2.构建支持向量机回归模型

      使用支持向量回归模型对财政收入进行预测,由于数据量小,就没有设置测试集

    from sklearn.svm import LinearSVR
    import matplotlib.pyplot as plt
    
    data = pd.read_excel('new_reg_data_GM11.xls',index_col=0,header=0)  # 读取数据
    feature = ['x1', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x13']  # 属性所在列
    data_train = data.loc[range(1994, 2014)].copy()  # 取2014年前的数据建模
    # 数据标准化
    data_mean = data_train.mean()
    data_std = data_train.std()
    data_train = (data_train - data_mean) / data_std  
    x_train = data_train[feature].values  # 属性数据
    y_train = data_train['y'].values  # 标签数据
    
    # 调用LinearSVR()函数
    linearsvr = LinearSVR()  
    linearsvr.fit(x_train, y_train)
    x = ((data[feature] - data_mean[feature]) / data_std[feature]).values  # 预测,并还原结果。
    data[u'y_pred'] = linearsvr.predict(x) * data_std['y'] + data_mean['y']
    # SVR预测后保存的结果
    data.to_excel('new_reg_data_GM11_revenue.xls')
    
    print('真实值与预测值分别为:\n', data[['y', 'y_pred']])
    
    fig = data[['y', 'y_pred']].plot(subplots=True, style=['b-o', 'r-*'])  # 画出预测结果图
    plt.show()
    
    
    真实值与预测值分别为:
                 y       y_pred
    1994    64.87    39.178714
    1995    99.75    85.572845
    1996    88.11    96.280182
    1997   106.07   107.925220
    1998   137.32   152.320388
    1999   188.14   189.199850
    2000   219.91   220.381728
    2001   271.91   231.055736
    2002   269.10   220.501519
    2003   300.55   301.152180
    2004   338.45   383.844627
    2005   408.86   463.423139
    2006   476.72   554.914429
    2007   838.99   691.053569
    2008   843.14   842.424578
    2009  1107.67  1086.676160
    2010  1399.16  1377.737429
    2011  1535.14  1535.140000
    2012  1579.68  1737.264098
    2013  2088.14  2083.231695
    2014      NaN  2185.297088
    2015      NaN  2535.939620
    

    在这里插入图片描述


    如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信!
    在这里插入图片描述


    展开全文
  • 在地质模型一定的条件下,利用油藏数值模拟进行开发指标预测主要受油藏以含水率划分的开发阶段、预测周期等因素影响,开发阶段越早、预测周期越长,不确定因素多,预测误差大。因此在实际应用中,为保证其预测精度,正确...
  • 经后期煤层气探井实测数据验证,其预测精度达到85%以上。预测结果分析表明,远离断层的井预测精度高,而靠近断层的井预测误差大,其误差值在-1.86~4.32m3/t之间。认为研究区煤层含气性总体受煤层底板标高(构造)控制,但...
  • 概率积分法预计的基本参数...针对目前无实测资料或特殊地质采矿条件下的矿区沉陷预计参数选取缺乏理论依据的现状,详细分析了地质采矿因素对概率积分法参数的影响机理,并结合大量文献,总结了概率积分法参数的影响因素
  • 所提出方法对任何预测器都适用,以一个基于人工神经网络的煤与瓦斯突出预测器为例,结合两个煤矿的煤与瓦斯突出影响因素的实测样本,采用所建议的方法对进行了输入因素遴选,结果表明:采用得到的主因素作为预测器的输入...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 22,800
精华内容 9,120
关键字:

影响预测精度的主要因素