精华内容
下载资源
问答
  • 如果合理假设具有不同自由度的不同边际方差的基础双变量t分布是合理的,则新模型可能适合于平方列联表。 随着自由度变大,建议的模型接近扩展的线性对角线参数对称模型,如果合理假设基本的二元正态分布,则该模型...
  • R语言与虚拟变量模型

    千次阅读 2020-04-16 10:05:19
    虚拟变量模型 许多变量是可以定量度量的,如需求量、价格等,但也有一些因素无法定量度量,如职业、性别。为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将它们’量化’,这种’量化’通常是通过引入...

    学习笔记
    参考书籍:《计量经济学》-李子奈;《统计学:从数据到结论》-吴喜之;


    虚拟变量模型

    许多变量是可以定量度量的,如需求量、价格等,但也有一些因素无法定量度量,如职业、性别。为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将它们’量化’,这种’量化’通常是通过引入虚拟变量来完成的。根据这些因素的属性类型,构造取’0’或’1’的人工变量。通常称为虚拟变量,记为D。

    例如:反映性别的虚拟变量可取为:
    D = { 1 , m a n 0 , w o m a n D=\begin{cases}1, man \\0, woman\end{cases} D={1,man0,woman
    一般地,在虚拟变量的设置中,基础类型和肯定类型取值为1; 比较类型和否定类型取值为0。同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型


    • 加法模型

    若我们以员工薪金 Y Y Y作为因变量,工龄 X X X作为一般解释变量,性别 D D D作为虚拟变量构造虚拟变量模型,则在模型中可以将虚拟变量 D D D以相加的形式引入模型,则该加法模型为:
    Y i = β 0 + β 1 X i + β 2 D + μ i Y_i=\beta_0+\beta_1 X_i + \beta_2D +\mu_i Yi=β0+β1Xi+β2D+μi

    • 乘法模型

    若在模型中将虚拟变量 D D D以相乘的形式引入模型,则该乘法模型为:
    Y i = β 0 + β 1 X i + β 2 D X i + μ i Y_i=\beta_0+\beta_1 X_i + \beta_2D X_i +\mu_i Yi=β0+β1Xi+β2DXi+μi


    • 混合模型(自己起的名字)

    我们也可以将虚拟变量 D D D同时以相加和相乘的形式引入模型:

    Y i = β 0 + β 1 X i + β 2 D + β 3 D X i + μ i Y_i=\beta_0 + \beta_1 X_i + \beta_2 D + \beta_3 D X_i +\mu_i Yi=β0+β1Xi+β2D+β3DXi+μi

    R语言实现

    在个例子中,我们模拟一系列数据,再用虚拟变量模型去拟合。


    模拟数据:

    set.seed(1234)
    x <- c(-19:20)
    y1 <- 2*x + rnorm(40, 0, 2)
    y2 <- -x +rnorm(40, 3, 2)
    
    df1 <- data.frame(x = x, y = y1, c = rep('A', 40))
    df2 <- data.frame(x = x, y = y2, c = rep('B', 40))
    df <- rbind(df1, df2)
    
    plot(df$x, df$y, col = df$c, main = "散点图", xlab = 'x', ylab = 'y')
    

    图像:

    回归:

    lm01 <- lm(y ~ x*c, data = df)
    summary(lm01)
    

    控制台输出:

    Call:
    lm(formula = y ~ x * c, data = df)
    
    Residuals:
        Min      1Q  Median      3Q     Max 
    -4.3410 -1.2588 -0.3353  0.8964  5.6449 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept) -0.81327    0.31223  -2.605   0.0111 *  
    x            1.97107    0.02702  72.941  < 2e-16 ***
    cB           3.63159    0.44156   8.225 4.09e-12 ***
    x:cB        -2.92208    0.03822 -76.462  < 2e-16 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 1.973 on 76 degrees of freedom
    Multiple R-squared:  0.9886,	Adjusted R-squared:  0.9881 
    F-statistic:  2194 on 3 and 76 DF,  p-value: < 2.2e-16
    

    此时,各个回归系数均通过显著性检验,则被估计的虚拟变量模型为:
    Y i ^ = − 0.81 + 1.97 X i + 3.63 D − 2.92 D X i \hat{Y_i}=-0.81 + 1.97 X_i + 3.63 D -2.92 D X_i Yi^=0.81+1.97Xi+3.63D2.92DXi
    注意!此时的虚拟变量 D D D取为:
    D = { 1 , B 0 , A D=\begin{cases}1, B \\0, A\end{cases} D={1,B0,A

    展开全文
  • 机器学习中的隐变量和隐变量模型

    万次阅读 多人点赞 2018-05-05 16:33:55
    这篇博客算我自己给自己挖的一个坑,主要想讲讲机器学习中的隐变量,今天在推导EM算法,李航在统计学习方法中的EM引入中提到了隐变量的概念(latent variable),他提到了如果我们的概率模型变量都是观测到的变量...

    开篇

    这篇博客算我自己给自己挖的一个坑,主要想讲讲机器学习中的隐变量,今天在推导EM算法,李航在统计学习方法中的EM引入中提到了隐变量的概念(latent variable),他提到了如果我们的概率模型的变量都是观测到的变量,那么给定数据,我们就可以使用极大似然估计法,或者其他估计法去估计参数,但是当模型有隐变量的时候,就该我们的EM算法闪亮登场了。这边我先介绍一下什么是隐变量。后续关于隐变量模型我将逐一续上。

    隐变量

    什么是隐变量呢,让我们先简单的说一下,我们估计算法在做的一些事情,我们要做的其实就是估算出概率模型的参数,概率模型是什么呢?你可以简单把它理解成一个分布,甚至说可以把它理解成一个函数,我们的估计算法就是为了求解出这些函数的参数而存在的。这边借用知乎上的一个例子,希望能够解释清楚隐变量是什么?
    如果你站在这个人旁边,你目睹了整个过程:这个人选了哪个袋子、抓出来的球是什么颜色的。然后你把每次选择的袋子和抓出来的球的颜色都记录下来(样本观察值),那个人不停地抓,你不停地记。最终你就可以通过你的记录,推测出每个袋子里每种球颜色的大致比例。并且你记录的越多,推测的就越准(中心极限定理)。然而,抓球的人觉得这样很不爽,于是决定不告诉你他从哪个袋子里抓的球,只告诉你抓出来的球的颜色是什么。这时候,“选袋子”的过程由于你看不见,其实就相当于是一个隐变量。隐变量在很多地方都是能够出现的。现在我们经常说的隐变量主要强调它的“latent”。所以广义上的隐变量主要就是指“不能被直接观察到,但是对系统的状态和能观察到的输出存在影响的一种东西”。所以说,很多人在研究隐变量。以及设计出各种更优(比如如可解释、可计算距离、可定义运算等性质)的隐变量的表示。原始答案

    这边扯一下主题模型(LDA),它就是典型的隐变量模型,我这边稍微讲一下LDA文本建模的过程,以上帝掷骰子为例,上帝会通过掷骰子去选择一个主题,选择完主题后,上帝又会选择这个主题的一个骰子,去选择一个单词,那么摇来摇去,我们的文本就生成了。但是我们看到只是文本,而不知道上帝操作的过程。但是文本就是这样神奇的生成了,我们要怎么去猜测上帝的骰子呢。

    如果到这里你还是没有对隐变量有个感性的认识,那我这边再贴一篇博客,主要是关于EM算法的,EM算法其实就是加了隐变量的参数估计算法,如何感性地理解EM算法,这博客里面没有大批的公式,有的是对算法的感性认识,感性认识是一切算法理论的基础,希望大家能够有所收获,有问题欢迎留言。

    隐变量模型

    (未完,待我慢慢整理)

    HMM模型

    概率图模型中的一种模型,主要应用在序列标注的一些NLP任务。典型带有隐变量的模型,隐变量顾名思义就是我们观测不到的一类变量。HMM要解决的主要任务序列标注就是找出隐变量。

    更多的理论请看概率图模型

    展开全文
  • 一个简单的用于预测的BP神经网络模型

    万次阅读 多人点赞 2019-09-11 15:03:26
    这是一个简单的bp神经网络模型,其中的数据是铣削实验的数据,数量较少,但作为神经网络的例子正好。读者可以根据自己的需要将自己的数据换进去,其中,传递函数和学习函数都可以代换。隐层根据自己的需要进行调整,...

    一个简单的用于预测的BP神经网络模型

    这是一个简单的bp神经网络模型,其中的数据是铣削实验的数据,数量较少,但作为神经网络的例子正好。读者可以根据自己的需要将自己的数据换进去,其中,传递函数和学习函数都可以代换。隐层根据自己的需要进行调整,该模型可直接进行运行,对于学习BP神经网络非常好。

    %构建训练样本中的输入向量
    P1= [3.67 2.32 3.67 2.32 3.67 2.32 3.67 2.32 3.67 2.32 3.67 2.32 3.67 2.32 3.67;
    0.178 0.28 0.28 0.178 0.178 0.28 0.28 0.178 0.178 0.28 0.28 0.178 0.178 0.28 0.28;
    1 1 1 2.25 2.25 2.25 2.25 1 1 1 1 2.25 2.25 2.25 2.25;
    0.12 0.12 0.12 0.12 0.12 0.12 0.12 0.28 0.28 0.28 0.28 0.28 0.28 0.28 0.28];
    P2=[1.83 4.65 2.95 2.95 2.95 2.95 2.95 2.95;0.223 0.223 0.142 0.351 0.223 0.223 0.223 0.223;
    1.5 1.5 1.5 1.5 0.67 3.37 1.5 1.5;0.18 0.18 0.18 0.18 0.18 0.18 0.08 0.4];
    P3=[2.95 2.95 2.95 2.95 2.95 2.95;0.223 0.223 0.223 0.223 0.223 0.223;
    1.5 1.5 1.5 1.5 1.5 1.5;0.18 0.18 0.18 0.18 0.18 0.18];
    P=[P1 P2 P3];
    %构建训练样本中的输出向量
    T=[1.45 2 1.3 2.1 1.4 2 1.45 3.05 2.2 3.1 2.7 3.5 2.45 2.4 1.75 3.3 1.05 2.1 2.5 2 2.2 1.45 2.6 1.6 1.6 2.2 1.85 2.3 2.7];
    %数据归一化处理,使用mapminmax归一化函数
    [Pn,PS]=mapminmax§;
    [Tn,PS]=mapminmax(T);
    %创建一个BP神经网络,隐含层含有8个神经元,传递函数为tansig
    %中间层一个神经元,传递函数为tansig,训练函数为traingdx
    net=newff(minmax(Pn),[100,150,1],{‘tansig’,‘tansig’,‘tansig’},‘traingdx’);
    net.trainParam.epochs=5000;%训练步数为5000
    net.trainParam.goal=0.001;%目标误差为0.001
    net.trainParam.lr=0.001;%学习速率为0.001
    net.trainParam.mc=0.9;%动量为0.9
    %训练一个BP神经网络
    net=train(net,Pn,Tn);
    %输入测试数据,并将其归一化处理
    P_test=[2.32;0.178;1;0.12];
    Pt=mapminmax(‘apply’,P_test,PS);
    Y=sim(net,Pt)
    %将预测输出做反归一化处理
    Yn=mapminmax(‘reverse’,Y,PS)

    展开全文
  • SPSS(十九)SPSS之时间序列模型(图文+数据集)

    万次阅读 多人点赞 2019-06-17 22:32:38
    SPSS(十九)SPSS之时间序列模型(图文+数据集) 时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。正如人们常说,人生的出场顺序很重要,时间序列中隐藏着一些过去与未来的关系。时间序列...

    SPSS(十九)SPSS之时间序列模型(图文+数据集)

    时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。正如人们常说,人生的出场顺序很重要,时间序列中隐藏着一些过去与未来的关系。时间序列分析试图通过研究过去来预测未来。

    时间序列分析在工程、金融、科技等众多领域有着广泛的应用。在大数据时代,时间序列分析已经成为 AI 技术的一个分支,通过将时间序列分析与分类模型相结合,更好的应用于数据检测、预测等场景。

    时间序列模型简介

    • 依时间顺序排列起来的一系列观测值(观测值之间不独立)
    • 它考虑的不是变量间的因果关系,而是重点考察变量在时间方面的发展变化规律,并为之建立数学模型
    • 使用时间序列模型的前提:有足够长的数据序列;数据序列的变动是稳定而规律的

    另外一种理解方式:假如我们对一件事情研究其背后规律很久的话,可以收集到很多的自变量/影响因素去研究与因变量之间的关系,但是由于各种原因我们做不到,我们只能用一个t(时间)来替代所有的影响因素来研究自变量是如何变化的

     

    时间序列分析面临的问题

    时序应该在现实生活中应用的很广,但是为什么不常用这个模型呢?

    • 基础统计数据原因(数据收集)

    报表系统——质量问题
    统计口径——不统一
    范围变化、区域划分——变化

    • 理论和技术培训原因 

    之前没有好的工具来实现时间序列模型

     

    时间序列的方法分类

    • Time domain(最为常见的方法):将时间序列看成是过去一些点的函数,或者认为序列具有随时间系统变化的趋势,它可以用不多的参数来加以描述,或者说可以通过差分、周期等还原成随机序列。
    • Frequency domain:认为时间序列是由数个正弦波成份叠加而成,当序列的确来自一些周期函数集合时,该方法特别有用。 比如心电图
       

    时间序列的构成

    并不是每个序列都包含所有4种成分。比如以年为时间单位的序列就不会有季节变化;
    一些较短的序列也看不出循环变化。所以在分析的时候得具体情况具体分析。 

    • 长期趋势

    指一种长期的变化趋势。它采取一种全局的视角,不考虑序列局部的波动

    下图,整体呈下降趋势

    • 季节变化(Season)

    反映一种周期性的变化一般在一年中完成
    虽然称作“季节”,但是周期并不一定是季度,也可以是月、周等其它能在一年内完成的周期。因为,大多数的周期都以季节的形式出现,所以称作季节变化

    比较典型的季节变化例子:圣诞节效应;冷饮的销售情况

    • 循环变化(Cyclic)

    循环跨度超年

    指一种较长时间的周期变化。一般来说循环时间为2-15年。循环变化一般会出现波峰和波谷,呈现一种循环往复的现象。 
    比如:经济危机 

    • 不规则变化(error) 

    指时间序列中无法预计的部分,也可以理解为误差
    序列的随机波动 
    突发事件引起的 
    它是无法预测的 
    在分析中往往又将其称为白噪声

    它是时间序列中除去趋势、季节变化和自相关性之后的剩余随机扰动。由于时间序列存在不确定性,随机噪声总是夹杂在时间序列中,致使时间序列表现出某种震荡式的无规律运动。
    比如:911事件

     

    时间序列分析对长度的要求

    • 不同的序列分析方法对时间序列分析对长度不一样,建模过程一般都会做差分,差分会损失信息,差分得越多,相应要求的时间序列越长
    • 如果是稳定序列的话,历史数据越多,对预测的帮助越大
    • 如果存在周期,一般需要4个周期以上数理上认为应当在20个周期以上

           假如只有两三个周期,那周期性的分析就没有太大作用了

     

    对于时间序列问题有哪些基本分析思路

    看到数据其实不一定要上最复杂的方法

    • 平滑与季节分解(遇到比较简单的序列)

    用移动平均的方式消除波动,反映出主要的趋势

    • 回归模型

    如果在序列分析中我们考虑到自变量的话,根据历史数据建立相应的回归模型用于预测。甚至来说可以直接把时间当做自变量用于预测,当然我们知道回归时候要求残差是独立的,假如检验出来是非独立的话,我们可以去建一个自回归模型

    • ARIMA

    如果时间序列变化太复杂,我们可以采用ARIMA建模,现在最强大的时序建模方法。真正的时间序列模型建模分析方法
     

    平滑与季节分解

    • 是利用时间序列资料进行短期预测的一种方法。它的基本思想是:除去一些不规则变化后,时间序列将剩下一些基本的变化模式,而这种变化模式将延续到将来。
    • 描述时间序列数据的变化规律和行为,不去试图解释和理解这种变化的原因。例如:您可能发现在过去的一年里,三月和九月都会出现销售的高峰,您可能希望继续保持这样,尽管您不知道为什么。
    • 平滑的主要目的就是除去时间序列的不规则变化,把时间序列的基本变化模式突现出来,作为短期预测的基础。因此也有人把平滑称作“修匀”。
    • 平滑的方法很多。广义上说,可以认为回归也是一种平滑。因为拟合回归曲线可以把杂乱的观测数据修匀得到连续而光滑的曲线。
    • 移动平均和移动中位数等这些不同的平滑技术又被称为平滑器。平滑处理后,可以得到一些新的序列。不同的平滑器得到的新序列是不同的。选择合适的平滑器,寻求最佳的预测效果是平滑处理的关键。

     

    案例:NRC数据的建模预测

    美国1947年1月到1969年12月住宅建筑的数据,分析目的是希望能过通过历史数据来预测1970年全年的情况。

    数据集

    nrc是我们准备用于分析的变量

    nrc2又新增了12个月的数据,可以用来评价我们的预测效果

    556	556
    528	528
    545	545
    607	607
    701	701
    785	785
    874	874
    950	950
    1006	1006
    1093	1093
    1135	1135
    1070	1070
    891	891
    757	757
    874	874
    1028	1028
    1168	1168
    1257	1257
    1294	1294
    1305	1305
    1273	1273
    1203	1203
    1100	1100
    978	978
    846	846
    731	731
    763	763
    844	844
    981	981
    1086	1086
    1147	1147
    1171	1171
    1207	1207
    1238	1238
    1241	1241
    1171	1171
    1077	1077
    1031	1031
    1089	1089
    1276	1276
    1499	1499
    1703	1703
    1827	1827
    1898	1898
    1900	1900
    1785	1785
    1614	1614
    1427	1427
    1289	1289
    1188	1188
    1229	1229
    1288	1288
    1324	1324
    1399	1399
    1428	1428
    1409	1409
    1400	1400
    1397	1397
    1330	1330
    1200	1200
    1015	1015
    963	963
    1149	1149
    1234	1234
    1346	1346
    1437	1437
    1472	1472
    1486	1486
    1473	1473
    1481	1481
    1438	1438
    1309	1309
    1131	1131
    1057	1057
    1206	1206
    1363	1363
    1431	1431
    1570	1570
    1577	1577
    1550	1550
    1514	1514
    1481	1481
    1420	1420
    1294	1294
    1104	1104
    1029	1029
    1167	1167
    1347	1347
    1517	1517
    1627	1627
    1717	1717
    1770	1770
    1783	1783
    1759	1759
    1717	1717
    1650	1650
    1473	1473
    1379	1379
    1562	1562
    1753	1753
    1925	1925
    2064	2064
    2098	2098
    2082	2082
    2051	2051
    1983	1983
    1851	1851
    1656	1656
    1392	1392
    1305	1305
    1457	1457
    1618	1618
    1753	1753
    1884	1884
    1908	1908
    1895	1895
    1860	1860
    1798	1798
    1741	1741
    1567	1567
    1324	1324
    1206	1206
    1350	1350
    1486	1486
    1604	1604
    1718	1718
    1767	1767
    1796	1796
    1787	1787
    1761	1761
    1694	1694
    1513	1513
    1292	1292
    1192	1192
    1302	1302
    1421	1421
    1550	1550
    1702	1702
    1804	1804
    1876	1876
    1907	1907
    1954	1954
    1957	1957
    1832	1832
    1606	1606
    1493	1493
    1676	1676
    1907	1907
    2091	2091
    2253	2253
    2350	2350
    2358	2358
    2310	2310
    2232	2232
    2092	2092
    1883	1883
    1588	1588
    1408	1408
    1613	1613
    1804	1804
    1935	1935
    2112	2112
    2039	2039
    1982	1982
    1931	1931
    1860	1860
    1790	1790
    1644	1644
    1378	1378
    1221	1221
    1459	1459
    1720	1720
    1860	1860
    2059	2059
    2053	2053
    2053	2053
    2055	2055
    2041	2041
    1974	1974
    1807	1807
    1543	1543
    1368	1368
    1605	1605
    1906	1906
    2141	2141
    2377	2377
    2357	2357
    2377	2377
    2330	2330
    2210	2210
    2113	2113
    1965	1965
    1686	1686
    1492	1492
    1666	1666
    1950	1950
    2206	2206
    2421	2421
    2517	2517
    2553	2553
    2516	2516
    2500	2500
    2450	2450
    2230	2230
    1867	1867
    1678	1678
    1866	1866
    2068	2068
    2191	2191
    2385	2385
    2518	2518
    2541	2541
    2439	2439
    2327	2327
    2260	2260
    2118	2118
    1834	1834
    1639	1639
    1782	1782
    2000	2000
    2203	2203
    2429	2429
    2550	2550
    2561	2561
    2473	2473
    2377	2377
    2284	2284
    2136	2136
    1848	1848
    1644	1644
    1781	1781
    1979	1979
    2124	2124
    2287	2287
    2387	2387
    2351	2351
    2202	2202
    1978	1978
    1785	1785
    1614	1614
    1368	1368
    1248	1248
    1405	1405
    1613	1613
    1836	1836
    2107	2107
    2336	2336
    2471	2471
    2446	2446
    2375	2375
    2310	2310
    2191	2191
    1859	1859
    1655	1655
    1885	1885
    2262	2262
    2518	2518
    2628	2628
    2721	2721
    2790	2790
    2780	2780
    2678	2678
    2593	2593
    2454	2454
    2133	2133
    1940	1940
    2195	2195
    2540	2540
    2810	2810
    2962	2962
    2974	2974
    2880	2880
    2763	2763
    2648	2648
    2482	2482
    2288	2288
    	1961
    	1765
    	1986
    	2297
    	2485
    	2592
    	2650
    	2707
    	2721
    	2747
    	2735
    	2627


    时间序列操作的基本步骤

    • 预处理过程

    缺失值的填补 

    一般这两种方法我们比较常用


    时间变量的定义(spss对数据集进行了特殊标记,让spss知道其为序列数据,并非新增三个变量那么简单,必须是刚才进行下面的操作)


    时间序列的平稳化

    观测原始序列是什么分布,时间刻度这一块随便选一个时间自变量

    发现其有长期趋势及季节变化(大概一年)


    一次差分(假如序列匀速上升的话,一次差分序列后应该是平的)

    继续查看其变化(一次差分作为变量)

    确实序列变平了,但是随着时间增加季节变换还是存在的


    季节差分(把周期性也干掉),一阶:相邻的两个季节做相减

    看季节差分分布分布状况

    看到下面的序列,无长期趋势、无季节变换,可认为是一个比较平稳的序列了

    但是刚才上面在做一次差分后的序列,可以看出其序列随着时间增长离散程度会慢慢变大,后续分析可以考虑这一点,可以做变量变换。

    其实刚才上面的步骤不用那么麻烦,在序列图中即可观察

    当前周期:12在哪里设置呢?(在我们刚才定义日期选取的)

     

    关于数据平稳化问题:(非常详细的理论基础)

    大家可以参考

    https://zhuanlan.zhihu.com/p/60023855

    https://zhuanlan.zhihu.com/p/60648709

     

    时间序列趋势的图形化观察

    • Sequence Chart:序列图

    实际上就是一种特殊的线图

    • Autocorrelation Chart:做单个序列,任意滞后(包括负的滞后,也就是超前)的自相关和偏相关图

    对序列图的初步观察结果作进一步确认(检验其是不是白噪声序列)
    重点关心主要的相关趋势,然后再对模型进一步修正

    刚才我们认为做了一次差分和季节差分真的为平稳序列了吗?

    滞后n阶:隔了n个数据的自相关性

    Sig.<0.05,证明存在自相关的,不都是白噪声

    为了方便查看,给出了图,1到5阶都是存在统计学意义的

    自相关系数是有传递性的问题在里面的,spss就会计算偏自相关系数,屏蔽传递的效应后,看剩余的关联是否还存在

    自相关拖尾,偏自相关也拖尾,这两个是为了知道我们进行建模的

    自相关图:自回归系数的变化
    偏相关图:偏回归系数的变化

    假如他是以下模型,应满足下面的特征

    实际用起来,spss会提供一个自动分析的方法

    模型拟合
    几乎均可包含在ARIMA模型族中
    寻找适当的参数是一个反复尝试的过程

    生成 ARIMA 模型的基本步骤:

    1. 对序列绘图,进行 ADF 检验,观察序列是否平稳;对于非平稳时间序列要先进行 d 阶差分,转化为平稳时间序列;
    2. 经过第一步处理,已经得到平稳时间序列。要对平稳时间序列分别求得其自相关系数(ACF)和偏自相关系数(PACF),通过对自相关图和偏自相关图的分析,得到最佳的阶数p、q;
    3. 由以上得到的d、q、p ,得到 ARIMA 模型。然后开始对得到的模型进行模型检验。

    专家建模器:会在指数平滑模型和ARIMA模型里面选取

     

    R方相对于平稳的R方来说,是比较过于乐观的,假如数据是有波动趋势的,我们将趋势解释掉之后,占相当大的变异解释度进去了,平稳的R方比较客观

    RMSE(残差均方)

    MAPE(相对误差)

    MAXAPE(最大值相对误差)

    MAE(绝对误差)

    MAXAE(最大值绝对误差)

    正态化BIC(比较专业化的指标)

     

    当前模型剩下来的这块能否当成白噪声?

    H0:白噪声序列

    Sig.>0.05,剩下来的确实是白噪声序列

     

     

    如何让其做预测?怎么用时间序列?

    由于SPSS的一个小BUG,变量名前缀要修改一下,不能是中文

    对比一下原始序列和预测值效果

    我们想预测到久一点呢?

    假如我们有1970年的真实数据了,对比一下模型预测及真实数据差别

    展开全文
  • MPC模型预测控制

    万次阅读 多人点赞 2018-12-17 17:02:00
    这篇主要讲一下模型预测控制,如果对PID控制了解的同学,那效果更好。如果不了解PID控制,还是熟悉下比较好。 模型预测控制,顾名思义,基于模型,预测未来,进行控制。这个控制是基于模型的,也就是model-based。 ...
  • 六、变量消除 原文:Variable elimination 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 接下来,我们将注意力转向图模型中的推断问题。 给定概率模型(如贝叶斯网络或 MRF),我们有兴趣...
  • 研究了有中介的调节效应模型和有调节的中介效应模型, 两种模型都...最后, 作为示范例子, 用混合模型分析儿童行为对同伴关系的影响, 结果发现, 如果混合模型中的调节都设定是线性的, 那么调节变量对因果关系是二次调节。
  • Java基础知识面试题(2020最新版)

    万次阅读 多人点赞 2020-02-19 12:11:27
    静态变量和实例变量区别 静态变量与普通变量区别 静态方法和实例方法有何不同? 在一个静态方法内调用一个非静态成员为什么是非法的? 什么是方法的返回值?返回值的作用是什么? 内部类 什么是内部类? 内部类的...
  • 回归模型变量筛选与预测

    千次阅读 2019-06-21 10:27:35
    变量筛选是回归建模过程关键的一步,由于变量间的相关性,必然会导致不同的筛选方法得到不同的模型。 在所有变量筛选方法中,向前法、向后法以及逐步回归法的使用频率较高,因为这类方法操作简单、运算速度快,...
  • SPSS(五)SPSS之相关分析与线性回归模型(图文+数据集) ... 任意测量尺度的变量都可以测量相关强度,不单单仅可以测连续与连续变量的相关性,连续变量和有序分类变量,连续变量和无序分类变量都可以测量相关性...
  • 模型中各变量模型的解释程度

    万次阅读 2018-12-02 22:00:46
    在建立一个模型后,我们会关心这个模型对于因变量的解释程度,甚至想知道各个自变量分别对模型的贡献有多少。对于非线性模型,如 Random Forest 和 XGBoost 等由于其建模过程就是筛选变量的过程,可以计算变量的重要...
  • 回归模型中的哑变量

    千次阅读 2018-06-06 17:27:24
    在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(1=是,0=否),则回归系数...
  • 数学建模——灰色预测模型及matlab代码实现

    万次阅读 多人点赞 2019-09-02 20:52:58
    灰色预测的主要特点是模型使用的不是原始数据序列,而是生成的数据序列。其核心体系是灰色模型(Grey Model,简称GM),即对原始数据作...GM(1,1)预测模型1阶微分方程,只含1个变量 GM(1,1)模型预测步骤 1.数据的检...
  • 建模方法(四)-因子分析定义和应用

    万次阅读 多人点赞 2018-08-20 20:58:05
    它通过研究众多变量之间的内部依赖关系,使用少数几个“抽象”的变量来表示其基本的 数据结构。这几个抽象的变量被称作“因子”,能反映原来 众多变量的主要信息。原始的变量是可观测的显在变量,而 因子一般是不可...
  • R语言的一般线性模型 R语言的一般线性模型用函数:lm(),即可轻松实现。 例子 建立一般线性模型 ...这里解释一下变量(我直接copy我项目里面的两行代码),因变量y就是fmri.SFG_R_CerebellumGM_L,...
  • 风险模型 - 变量筛选

    千次阅读 2019-08-18 20:36:50
    风险模型 - 变量筛选模型搭建的一般步骤变量探索覆盖率PSIIVWOE 写在前面的话,我们建模,希望建模型做细,尤其风险类模型,切记不要以为将特征库的变量筛选出来直接扔到模型里,训练出来一版模型,发现KS0.5,AUC...
  •    记录 Tensorflow object detection API 物体识别 训练自己的模型   1、搭建环境  本例子,基于win10 64位 + Anaconda环境 安装和验证(自带例子)过程中会遇到缺失包及各种版本匹配问题(公司网络有些限制)...
  • 在这篇博客中,我们将会讲到单变量回归模型的扩展模型——多变量回归模型。 在上一篇博客中,我们讲到了一个房价预测的例子,在该例子中我们用到了一个特征“房屋面积”x1,如下图: 在上图中,我们构建了一单...
  • 《机器学习实战》学习笔记(一):机器学习基础

    万次阅读 多人点赞 2019-08-19 17:01:32
    机器学习正是这样的一门学科,人的“经验”对应计算机中的“数据”,让计算机来学习这些经验数据,生成一个算法模型,在面对新的情况中,计算机便能作出有效的判断,这便是机器学习。】 【深度学习】一篇文章看懂...
  • 标准系数给出的自变量系数与非标准化系数中的明显不同,这是因为考虑到不同自变量之间的量纲和取值范围不同(比如在其他例子里面,第一个自变量是年龄(0~120),第二个自变量是收入(0~10万),显然年龄18岁与收入...
  • 本文主要是基于LSTM(Long Short-Term Memory)长短期记忆神经网络来实践多变量序列预测,并完成对未来指定步长时刻数据的预测、分析和可视化,,手把手教你去搭建属于自己的预测分析模型。 本文主要分为:LSTM...
  • 因子分析在SPSS中的操作过程及结果解读

    万次阅读 多人点赞 2019-01-14 16:28:27
    因子分析在SPSS中的操作...因子分析模型中,假定每个原始变量由两部分组成:共同因子和唯一因子。共同因子是各个原始变量所共有的因子,解释变量之间的相关关系。唯一因子顾名思义是每个原始变量所特有的因子,表...
  • 利用Netica训练简易贝叶斯网络模型【教程】

    千次阅读 多人点赞 2020-01-11 15:17:15
    赶人工智能相关的选修课期末论文的时候,想简单搭个静态贝叶斯网络模型尝试进行数据分析,但并没有在网上找到特别好的容易上手的教程。找参考论文的时候发现Netica是个比较方便的贝叶斯网络工具(相比Matlab的贝叶斯...
  • Stanford机器学习课程笔记——多变量线性回归模型   1. 多变量线性回归模型引入  前面一篇中学习了单变量的线性回归模型,那么自然就会...同样是前面的房屋价格的例子,吴恩达大叔给出了多变量例子,如下:
  • 线性规划模型详解及实际应用反思

    万次阅读 多人点赞 2018-09-02 18:49:45
    一、线性规划的定义 ...但随着计算机技术的发展,特别是在计算机能处理成千上万个约束条件和决策变量的线性规划问题之后,线性规划的适用领域更为广泛了,已成为现代管理中经常采用的基本方法之一。  ...
  • SPSS篇—回归分析

    万次阅读 多人点赞 2019-08-20 09:29:06
    到这里,我们本次SPSS Statistics的回归分析就全部做完了,今天也是给大家举了一个比较简单的例子,主要是让大家看看如果使用SPSS Statistics。在工作中我们需要的回归模型可能会比这个复杂,但是其实原理都是一样的...
  • 变量或虚拟变量介绍(dummyvar)

    万次阅读 2016-10-13 08:38:29
    虚拟变量介绍虚拟变量是指回归分析中使用的一个数值变量来代表你的研究中的样本的子组。在研究设计中,一个虚拟变量...这意味着我们不需要为每个亚组写独立的方程模型。虚拟变量像“开关”,在一个方程中打开和关闭的各
  • 主成分分析

    万次阅读 多人点赞 2014-03-12 10:07:24
    主成分分析 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了...第一节 主成分分析的原理及模型 一、

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 263,656
精华内容 105,462
关键字:

双变量模型例子