精华内容
下载资源
问答
  • 之前是从DNN CNN RNN LSTM这样看下来的,当知道时间序列有另外的ARIMA处理模型时,刚看时有点转不过来,相当的疑惑;时间趋势可分解为: 内在趋势/季节性趋势/周期性趋势/噪音 ...自相关拖尾 偏相关截尾 则用AR算法...

    之前是从DNN CNN RNN LSTM这样看下来的,当知道时间序列有另外的ARIMA处理模型时,刚看时有点转不过来,相当的疑惑;时间趋势可分解为: 内在趋势/季节性趋势/周期性趋势/噪音 这个还好理解;对ARIMA模型中 判断拖尾截尾来决定用AR还是MA模型,那真是相当地不明白啥情况。搜了很多,好像了解一点,又好像没明白。实际就是没明白。

    当时做的笔记有:
    自相关拖尾 偏相关截尾 则用AR算法
    自相关截尾 偏相关拖尾 则用MA算法
    自相关和偏相关 都拖尾 则用ARMA算法

    自相关缓慢衰减 偏相关快速衰减 则用AR算法
    自相关快速衰减 偏相关缓慢衰减 则用MA算法
    自相关和偏相关 都缓慢衰减 则用ARMA算法

    自相关包括了全部的分布 偏相关未包括全部的分布 则用AR算法
    自相关未包括全部的分布 偏相关包括了全部的分布 则用MA算法

    暂不考虑其他要素影响时 未包括全部的分布 偏相关截尾
    暂不考虑其他要素影响时 包括了全部的分布 偏相关拖尾

    拖尾: 长期记忆 缓慢衰减 包括了全部的分布
    截尾: 短期记忆 快速衰减 未包括全部的分布

    拖着长长的尾巴, 就是拖尾,慢慢减少的
    突然收敛到临界值水平范围内的,这就是截尾

    这么多说的都是同一个事,但是我仍不明白/就是不明白,为什么 自相关拖尾 偏相关截尾 就用AR?

    还有,为什么不平稳的时间序列,一阶差分或二阶差分就能平稳?

    本文适合有类似疑问的同学。完整的教程 请参考其他大咖的分享。

     

    AR / MA公式定义如下:

    y_{t} = \alpha _{1}y_{t-1} + \alpha _{2}y_{t-2} + ... + \alpha _{p}y_{t-p} + \varepsilon_{t}

    y_{t} = \varepsilon_{t} + \beta _{1}\varepsilon _{t-1} + \beta _{2}\varepsilon _{t-2} + ... + \beta _{q}\varepsilon _{t-q}

    再大白话了解下AR/MA是什么
    其实AR的公式中已经很明显了:一组数据中,前后数据中, 前面的数据在影响后面的数据。
    举个粟子:
    AR模型: 本月消费 根据前一个月或前几个月的消费决定。 例如一阶AR模型中, 某个家庭上个月消费得太多,本月消费就少点。消费额是自相关的,且是负的;
    MA模型:MA模型的作用是: 比如上个月消费中,有一个意外支出是摔了一跤产生了一笔不小的医药费,MA模型可以平滑这种意外,而不是让这种意外消费直接影响到本月消费的预测

    那为什么 自相关拖尾 偏相关截尾 就用AR呢?

    举个粟子:现在是7月
    假设在三阶AR模型中,自相关表示的是4月消费跟现在7月消费之间的相关性。 而实际7月的消费,除了受4月消费的影响外还受5月 6月消费的影响(4月影响5月,5月影响6月),那偏相关表示的就是 剔除5月 6月消费的影响后,纯4月消费与7月消费的相关性

    如果 偏相关 快速衰减,可以这么理解:相当于(前面的数据)95%在置信区间内,即可以接受为真的,也就是偏相关是真正存在的,真正是有内在联系的。4月的消费确实是能直接影响 7月的消费的;而自相关缓慢衰减 可理解/假设为 50%在置信区间内,即不知道是真是假,可能是也可能不是。有可能正相关刚好被负噪声掩盖了。而使用AR模型 就可以表现出其自相关。
    反过来,偏相关缓慢衰减,相当于偏相关50%在置信区间内,即不知道是真存在还是假存在,但自相关快速衰减,相当于自相关(前面的数据)95%在置信区间内,即可以接受为真的,自相关肯定是存在的,4月的消费表面上看是影响了7月的消费(这次为什么说是表面,是因为不能肯定 偏相关存在,但表象上看自相关存在),所以要用MA去平滑 处理噪声

    (注意95%不是一个绝对值,可能是96%或92%等,只要是一个相对较高的在置信区间的数字,而衰减后的数字肯定相对比较低了)


    所以,使用AR还是MA, 关键应该 先看偏相关是否存在,其次 再看自相关是否存在。 个人觉得最合适的语言应该是:
    偏相关确定存在,自相关不确定是否存在, 用AR算法
    偏相关不确定是否存在,自相关确定存在, 用MA算法
    偏相关和自相关 都不确定是否存在,用ARIMA算法

    拖尾 截尾  缓慢衰减 快速衰减 这些是对PACF ACF图的描述, 其实也可以有别的描述方法,其本质是上面说的偏相关 自相关是否存在。而对初学者来说,这样的描述有点绕,有点晕。。


    差分在经济意义上是增量分析。旁边的小哥说他理解的一阶差分是速度 ,二阶差分是加速度 ,我觉得这种理解也挺好的。有一个联系:差分是微分的离散版。或者说"其准确的数学用语是差分 和微分比,一个是有限量,一个是极限量"

    随机性趋势 可通过差分的方法消除,
    但确定性趋势 无法通过差分的方法消除,而只能通过除去趋势项消除

    所以我对 "不平稳的时间序列,可以通过一阶差分或二阶差分得到平稳" 仍然存疑。 含确定性趋势的序列差分后,"则会得到含单位根的移动平均过程" ---应该还是一个不平稳的过程?

    ARIMA 主要用于建立线性的模型,实际中应该用RNN LSTM更多。

     

    -----------

    202106更新:

    好久没有看过这篇文章了,再看时 想吐血 好混乱啊  差点都不想更新了(真有想删除此文而非修改的冲动)  还有40份收藏, 对不住这些信任, 我写的会把别人搞晕吧? 当时不知道怎么想的,还沾沾自喜地放到独门秘籍里..  还好可以修正。抱歉 谢谢!

    展开全文
  • 包括所有可以出现的表、意义和模型好坏的判断标准。 回归模型的参数设置 1,在回归模型前设置类型,角色分配:1个目标,多个输入,无关的数据角色选择“无”; 2,在【字段】中选择使用预定角色; 3,在【模型】中按...

    SPSS Modeler的回归模块
    包括所有可以出现的表、意义和模型好坏的判断标准。

    回归模型的参数设置

    1,在回归模型前设置类型,角色分配:1个目标,多个输入,无关的数据角色选择“无”;
    2,在【字段】中选择使用预定角色;
    3,在【模型】中按需求选择建模方法;可参考SPSS回归节点四种建模方法的原理
    注:当模型不再将新字段纳入模型,也不再将已有字段移出模型时,完成回归模型的建立。建模时,纳入F概率<移除F概率,纳入F值>移除F值。
    在这里插入图片描述
    4,在【专家】中,一般不调整异常值容差,为解释完整,在【输出…】中勾选全部选项,实际项目中可以按需勾选
    回归【专家】【输出...】选项
    其他模块中的内容易懂,本文主要解释【高级】中的输出含义。
    输出目录概览如下:
    输出目录

    Descriptive Statistics 描述性统计

    对所有输入和目标等字段的描述性统计,包括Mean(均值),Std.Deviation(标准差),N(建模使用到的记录数)。

    Correlations 相关性

    1【 Pearson Correlation 】皮尔逊相关
    表示变量之间的两两相关性。在输出——Statistics统计量节点中也可以输出Pearson相关矩阵。
    2【 Sig.(1-tailed) 】单脱尾显著性
    显著性往往与0.05作比较
    因为 α = 1-置信水平,而置信水平往往取>0.9或0.95
    3【 N 】
    数据数量。

    Variables Entered/Removed 变量的移入/移出

    实质上为建模的过程。根据模型设置中建模方法(进入法、步进法、后退法、前进法)的选择不同,变量的移入移出(是否参与构建回归模型)过程也不同。其他输出结果也会有差异,但模型总体差距不大。

    Model Summary 模型总览

    【R²】 R Square值越接近1,模型拟合效果越好。
    【A~R】Adjusted R Square修正的R²值,考虑了对模型复杂度的 ”惩罚“ 。每有一个新的变量加入构建模型,R²会上升,但模型复杂度也同时变高,拟合度评分上升,但复杂度评分下降,因此A~R²可以看成同时考虑了拟合度和复杂度的模型质量评分。
    【Std. Error of the Estimate】预估的标准误。
    【Change Statistics】
    【Selection Criteria】选择标准。信息论中的信息准则。其中AIC中有K、L两个变量,k越小,AIC越小,模型简洁度越好;L越大,AIC越小,模型精确度越好。因此AIC值越小越好。类似的其他值也有相应的公式计算方法,可自行搜索了解。
    【Durbin-Waston】DW值通常在[0,4]范围内,若在2左右,表示输入变量之间的相关性较弱,模型效果较好。

    ANOVA 方差分析

    方差和Sum of Squares,自由度df,均方差Mean Squares,F值和显著性Sig.
    自由度df:可以任意取值的变量个数。n各估计参数,自由度为n-1。
    《自由度-F值表》中有df与其对应F值的标准,若F值<标准F值,则差异不明显,若F>标准F值,则差异度很大。具体可查找F检验和T检验的资料。

    Coefficients 回归系数

    【Unstandardized Coefficients】 非标化回归系数
    【Standardized Coefficients】 标化回归系数,做了标准化后的回归系数。
    【Collinearity Statistics】共线性统计。
    Tolerance容忍度 = (1-R²) = 1/VIF。
    VIF值即方差膨胀系数,VIF<10是可接受的,说明变量间的独立性较高,没有共线性问题存在。
    【95.0% Confidence Interval for B】置信度95%的置信区间。

    Coefficient Correlations 系数相关性

    【Correlations】相关性。除对角线外的值应小于0.7,否则模型是需要调整的。
    【Covariances】协方差

    Collinearity Diagnostics 共线性描述

    【Condition Index】条件数<10,不存在多重共线性

    Residuals Statistics 残差统计

    最小值、最大值、均值、标准差、数据量。在这里插入图片描述

    展开全文
  • 找出贡献最大的变量,与贡献最小的变量,再进一步与F检验的Fin,Fout两个临界值比较,判断是否能被选入,是否被剔除 再选出一个变量之后,该变量变为主元,对相关系数矩阵进行变化 在进行下一轮判断,直到所有的...

    统计回归模型

    (一)逐步回归
    前提:当自变量x1,x2,x3…xn过多时,希望进行简化,找到对因变量贡献相对较大的自变量

    需要计算出相关系数矩阵
    在这里插入图片描述

    然后根据自变量的贡献系数
    在这里插入图片描述

    找出贡献最大的自变量,与贡献最小的自变量,再进一步与F检验Fin,Fout两个临界值比较,

    判断是否能被选入,是否被剔除

    再选出一个自变量之后,该自变量变为主元,对相关系数矩阵进行变化

    在进行下一轮判断,直到所有的自变量都被确定

    (二)关于方差
    一般假设残差要满足正态分布,需要进行残差检验,

    最直观的就是起码残差要有正有负,不能全为正值或负值,且分布不能与自变量之间存在关系

    (三)相关系数R和F检验的F值越大越好

    (四)Logit回归

    适用于二分类问题

    引入π(x)=p(y=1|x),与logit变换log(π(x)/(1-π(x)),一些注意的问题

    1.如果自变量xi有三种情况及以上,即比如尺码有小中大,此时需要引入亚变量,

    例如xi变为[xi0,xi1].即[0,0]表示小,[0,1]表示中,[1,0]表示大

    2.log(π(x)/(1-π(x))=A(x),A(x)的次数依情况和数据而定

    是否引入高次项要根据似然比检验统计量

    3.回归系数在logit模型中有可解释的意义

    Odd(x)=π(x)/(1-π(x),odd(x)为发生比,当A(x)=ax+b时.odd(x)=exp(ax+b)

    Odd(x+1)/odd(x)=exp(a),即自变量变化1各单位,发生比的变化情况

    (五)自相关.同一变量顺序观测值之间存在相关性,这时候用基本的回归模型就已经不行了.

    比如体重,就是一个自相关的自变量,t时刻的体重与t-1时刻的体重是相关的

    先有DW检验判断是否存在自相关,根据值进行判断落在不相干,正自相关,负自相关

    在这里插入图片描述

    然后对原有的线性回归进行修订

    (六)考虑交互项,如果模型存在很大的可以改进的空间,可以引入类似于x1x2,x2x3,考虑他们的交互作用,重新进行拟合

    展开全文
  • 回归模型的一些判断方法

    万次阅读 2017-04-05 23:04:42
    在回归模型中,我们需要判断模型是否很好地拟合实际数据,一般来讲会有以下方法:   R平方:表示Y变量中的方差有百分之多少是可以预测的,R平方越高,Y中的方差就预测得越准确,模型的拟合程度也就越高。 举个...

    在回归模型中,我们需要判断模型是否很好地拟合实际数据,一般来讲会有以下方法:

     

    R平方:表示Y变量中的方差有百分之多少是可以预测的,R平方越高,Y中的方差就预测得越准确,模型的拟合程度也就越高。

    举个例子,R平方=10%,表示Y中有10%的方差是可以通过X预测出来的。

     

    F检验(F - test):主要用以判断两个总体(Population)的平均值是否存在显著差异(Significantly different),因此我们可以判断预测值跟实际值两组“总体”数据的平均值是否存在显著差异,如果存在,则可以认为回归模型拟合得不够好。如果F - value大于F值的统计量,我们认为拒绝原假设(两组数据不相关),则x和y(预测值和实际值)是线性(或者非线性)相关的,反正就是两组数有关。

     

    T检验(T - test):T检验相对F检验来说,更关注回归方程中每个变量的显著程度,可以说F检验是评价模型整体的拟合程度,而T检验是评价回归方程中每个特征x变量的系数的显著程度。在这里,系数是跟0比较的,如果T - value大于T值的统计量,我们认为该特征的系数显著大于0,因此不可以忽略,需要考虑该特征,回归方程中也要保留该特征,如果小于T值统计量,则接收原假设,认为该特征系数跟0没有显著区别,我们可以忽略该特征。

     

    AIC(Akaike Information Criterion):AIC是一种信息准则,它提供的是一个参考标准,也就是说,仅仅通过一个AIC值我们并不能得出回归模型的拟合程度,它更多的是通过多个AIC值对比不同回归模型。AIC的公式如下:

        AIC=-2ln(L)+2K

    其中L是似然函数,K是参数数量,而如果总体数据(Population)的误差服从独立正态分布的时候,AIC公式变成:

       AIC=N\cdot ln(\frac{SSE}{N})+2K

    其中N是数据的数量(观察数),K是参数数量,SSE(Sum of Squared Error)是误差的平方和。

    AIC综合考虑了模型的拟合程度以及复杂程度,参考上述正态的公式,当SSE越大的时候,也就是拟合越不好,AIC值也会随着增大;同理,如果参数数量增多,也就是模型复杂度越大,AIC也会增大。单个AIC值参考的意义不大,但如果有两个或者多个AIC值在一起的时候,我们比较两者的AIC值,越小越好。因为考虑了模型复杂度,因此AIC减少了过拟合的可能性。

     

    BIC(Bayesian Information Criterion):BIC跟AIC类似,同样提供拟合模型的信息准则,相对AIC,其对模型复杂度的惩罚更大,它的公式如下:

      BIC=K\cdot ln(N)-2\cdot ln(L)

    其中L是似然函数,K是参数数量,当误差服从正态分布时候,BIC公式变成:

      BIC=K\cdot ln(N)+N\cdot ln(\frac{SSE}{N})

    可以看出,当训练样本较小的时候,而模型过于复杂的时候(参数K过多),惩罚较大,BIC会增大,可以避免维度过多的情况。

    展开全文
  • 回归模型

    万次阅读 多人点赞 2018-08-17 22:39:28
    回归模型(Autoregressive Model,简称 AR 模型)是最常见的平稳时间序列模型之一。接下将介绍 AR 模型的定义、统计性质、建模过程、预测及应用。 一、AR 模型的引入 考虑如图所示的单摆系统。设 xt 为第 t ...
  • Python实现向量回归(VAR)模型——完整步骤

    万次阅读 多人点赞 2019-02-01 15:20:14
    废话不多说,先开始分享: 1. 首先啥是VAR模型,我这里简略通俗的说一下,...但是VAR模型除了分析自身滞后项的影响外,还分析其他相关因素的滞后项对未来值产生的影响,模型的形式为: 其中就是其他因子的滞后项...
  • 2020-05-28 关于自相关结果的判断

    千次阅读 2020-05-28 20:52:28
    关于自相关结果的判断 存的时间序列笔记之n 原假设H0: 自相关系数为0,即不存在自相关 1. 序列存在自相关的判别 ✔️Q统计量大 ✔️ACF与PACF值大且有阶数在二倍标准差之外 最后第X阶在二倍标准差外,X+1阶后在二...
  • 训练集:用于训练模型的集合 测试集:用于测试训练模型的集合。 常见的数据集拆分方法: 1. 留出法 留出法(hold-out)直接将数据集D拆分成两个互斥的集合,其中一个作为训练集S,另一个作为测试集T。即D=S∪T,S∩...
  • 回归AR(p)模型(R:模型的名称 P:模型的参数)(自己影响自己,但可能存在误差,误差即没有考虑到的因素)(1)模型形式(εt越小越好,但不能为0:ε为0表示只受以前Y的历史的影响不受其他因素影响)
  • 将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型:将高概率同时访 问的数据放一起,将低概率同时访问的数据分开存储。 l核心模型与扩展模型分离 建立核心模型与扩展模型体系,核心模型包括的宇段...
  • 回归分析模型优劣判断

    千次阅读 2017-01-10 17:28:00
    拟合系数评分,因为存在这样的情况,当变量越多,模型越准确,所以在变量个数上存在一个取舍,不能有过多的变量,所以有这个指标 参考: 【教程】教你如何读懂线性回归lm的结果summary(判断显著性) 但是...
  • 车牌判断模块是EasyPR中的基于机器学习模型的一个模块,这个模型就是SVM(支持向量机)。  我们已经知道,车牌定位模块的输出是一些候选车牌的图片。但如何从这些候选车牌图片中甄选出真正的车牌,就是通过SVM模型...
  • VAR(向量回归)模型

    万次阅读 多人点赞 2020-06-14 10:03:34
    VAR(向量回归)模型是基于数据统计性质建立起来的模型,它把系统中的每个内生变量作为系统里所有其它内生变量滞后值的函数进行构建模型,从而把单变量的回归模型推广到了多元时间序列组成的向量回归模型。...
  • 第一章 访问控制的概念  访问控制分类  网络访问控制  主机/操作系统访问控制  应用程序访问控制 ... BELL-LAPADULA保密性模型  LATTICE安全模型  BIBA完整性模型  CLARK WILSON完整
  • 机器学习模型评价指标总结 1. 混淆矩阵(Confusion Matrix) (以下先考虑二分类问题) 其中: TP(实际为正预测为正),FP(实际为负但预测为正) TN(实际为负预测为负),FN(实际为正但预测为负) 2. ...
  • 如何理解自相关和偏自相关图(最全面的讲解)

    万次阅读 多人点赞 2019-07-10 11:25:26
    前几篇的时间序列预测的文章中,都用到了自相关(ACF)和偏自相关(PACF)图,但是理解起来还是存在一些问题。今天就针对这2个概念,重点进行了解和学习。 数据集:澳大利亚墨尔本10年最低气温 链接: ...
  • 时间序列ARIMA模型相关

    千次阅读 2013-08-20 13:11:23
    什么是时间序列? 时间序列:将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。 ...宽:如果一个序列的均值...平稳性检验:直观的可以看序列图或者自相关图,不严格。运用统计量来
  • laravel 模型删除及软删除相关实现

    万次阅读 2016-07-22 09:20:55
    1、删除模型 1.1 使用delete删除模型 删除模型很简单,先获取要删除的模型实例,然后调用delete方法即可: $post = Post::find(5); if($post->delete()){ echo '删除文章成功!'; }else{ echo '删除文章...
  • 2018-03-31更新:生成模型与判别模型参数模型:根据预先设计的规则,例如方差损失最小,进行学习,参数模型例子:回归(线性回归、逻辑回归)模型;最好可以看一下或者直接进行一下相关的推导;根据规则,拥有少部分...
  • 线性模型

    千次阅读 2018-07-28 16:23:04
    如果不存在序关系(不太相关的值),则可以将其转化为k维向量,k为属性的取值个数。   性能度量:均方误差最小化,对应的方法称为“最小二乘法”。   如果xTx是一个满秩矩阵的话,那么w能够得...
  • 如何使用 RNN 模型实现文本自动生成

    万次阅读 2017-12-13 18:10:14
    判断两个语句是否满足模板变换的流程图,如图2中右边虚线框所标记的流程所示:(1)首先判断分词后,两个句子的词是不是完全一样,而只是位置不同,如果是则满足模板变换的条件。(2)如果词不完全相同,就看看对...
  • 假设检验: 两类错误:弃真存伪;阿尔法表示犯第一类错误(弃真)概率 P值:如果原假设为真,则这...曲线相关:只存在数据挖掘;统计学只研究直线相关 相关系数大于0.8:高度相关 相关系数大于等于0.5,小于0.8...
  • ARIMA模型

    万次阅读 2019-06-12 17:25:14
    1.模型介绍 ARIMA,差分回归滑动平均模型,又称求回归滑动平均模型,是时间序列预测分析方法之一。 ARIMA(p,d,q)中,AR是“回归”,p为...- (平稳性检验)根据时间序列的散点图、自相关系数和偏自相关系数...
  • 最大熵模型The Maximum Entropy:模型

    千次阅读 2016-10-11 17:09:52
    最大熵模型相关的基础知识 [概率论:基本概念CDF、PDF ] 熵定义为: [信息论:熵与互信息 ] [最优化方法:拉格朗日乘数法 ] [参数估计:贝叶斯思想和贝叶斯参数估计 ] [参数估计:最大似然估计MLE ] 皮皮blog ...
  • &#13; &#13; &#13; &#13; &#13; &#13; &#13; 在Linux文件系统中,我们可以使用下面的Shell脚本判断某个文件是否存在:# 这里的-f参数判断...
  • 模型融合

    千次阅读 2018-08-27 18:27:22
    研究模型学习曲线,判断模型是否过拟合或者欠拟合,并做出相应的调整; 对于模型权重参数进行分析,对于权重绝对值高/低的特征,可以对特征进行更细化的工作,也可以进行特征组合; 进行bad-c...
  • 机器学习模型优化之模型融合

    万次阅读 多人点赞 2018-01-07 15:37:24
    研究模型学习曲线,判断模型是否过拟合或者欠拟合,并做出相应的调整; 对于模型权重参数进行分析,对于权重绝对值高/低的特征,可以对特征进行更细化的工作,也可以进行特征组合; 进行bad-case分析,对错误的例子...
  • 格兰杰检验 协整检验 误差修正模型相关

    万次阅读 多人点赞 2012-02-24 15:22:44
    格兰杰检验 协整检验 误差修正模型相关博客 http://blog.sina.com.cn/s/blog_3fa1d4300100mroy.html 个人觉得正确的顺序是:先对单变量进行单位根的DF或ADF检验,后者更佳; 然后根据各变量...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 210,717
精华内容 84,286
关键字:

如何判断模型是否存在自相关