精华内容
下载资源
问答
  • 马尔柯夫预测法

    千次阅读 2014-12-23 10:25:54
     马尔柯夫预测法:马尔柯夫预测以俄国数学家A.A.Markov名字命名,是利用状态之间转移概率矩阵预测事件发生的状态及其发展变化趋势,也是一种随时间序列分析法。它基于马尔柯夫链,根据事件的目前状况预测其将来各个...

    PS:这是我看到的一篇比较通俗易懂的马尔科夫预测详解!内容比较多,但是抓住主线(下一刻的状态只与当前有关,与当前以前即过去无关!)


    马尔柯夫预测法

      马尔柯夫预测法:马尔柯夫预测以俄国数学家A.A.Markov名字命名,是利用状态之间转移概率矩阵预测事件发生的状态及其发展变化趋势,也是一种随时间序列分析法。它基于马尔柯夫链,根据事件的目前状况预测其将来各个时刻(或时期)的变动状况。   1. 马尔柯夫链。状态是指某一事件在某个时刻(或时期)出现的某种结果。事件的发展,从一种状态转变为另一种状态,称为状态转移。在事件的发展过程中,若每次状态的转移都仅与前一时刻的状态有关,而与过去的状态无关,或者说状态转移过程是无后效性的,则这样的状态转移过程就称为马尔柯夫过程。马尔柯夫链是参数t只取离散值的马尔柯夫过程。   2. 状态转移概率矩阵。在事件发展变化的过程中,从某一种状态出发,下以时刻转移到其他状态的可能性,称为状态转移概率,只用统计特性描述随机过程的状态转移概率。   若事物有n中状态,则从一种状态开始相应就有n个状态转移概率,即。   将事物n个状态的转移概率一次排列,可以得到一个n行n列的矩阵:   3. 马尔柯夫预测模型。一次转移概率的预测方程为:   式中:K——第K个时刻;   S(K)——第K个时刻的状态预测;   S(0)——对象的初始状态;   P——一步转移概率矩阵。   应用马尔柯夫预测法的基本要求是状态转移概率矩阵必须具有一定的稳定性。
     
     

    马尔可夫矩阵

    一类随机过程。它的原始模型马尔可夫链,由俄国数学家A.A.马尔可夫于1907年提出。该过程具有如下特性:在已知目前状态 (现在)的条件下,它未来的演变 (将来)不依赖于它以往的演变 ( 过去 ) 。例如森林中动物头数的变化构成——马尔可夫过程。在现实世界中,有很多过程都是马尔可夫过程,如液体中微粒所作的布朗运动、传染病受感染的人数、车站的候车人数等,都可视为马尔可夫过程。关于该过程的研究,1931年A.H.柯尔莫哥洛夫在《概率论的解析方法》一文中首先将微分方程等分析的方法用于这类过程,奠定了马尔可夫过程的理论基础。1951年前后,伊藤清建立的随机微分方程的理论,为马尔可夫过程的研究开辟了新的道路。1954年前后,W.费勒将半群方法引入马尔可夫过程的研究。流形上的马尔可夫过程、马尔可夫向量场等都是正待深入研究的领域。
    类重要的随机过程,它的原始模型马尔可夫链,由俄国数学家Α.Α.马尔可夫于1907年提出。人们在实际中常遇到具有下述特性的随机过程:在已知它目前的状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变(过去)。这种已知“现在”的条件下,“将来”与“过去”独立的特性称为马尔可夫性,具有这种性质的随机过程叫做马尔可夫过程。荷花池中一只青蛙的跳跃是马尔可夫过程的一个形象化的例子。青蛙依照它瞬间或起的念头从一片荷叶上跳到另一片荷叶上,因为青蛙是没有记忆的,当现在所处的位置已知时,它下一步跳往何处和它以往走过的路径无关。如果将荷叶编号并用X0,X1,X2,…分别表示青蛙最初处的荷叶号码及第一次、第二次、……跳跃后所处的荷叶号码,那么{Xn,n≥0} 就是马尔可夫过程。液体中微粒所作的布朗运动,传染病受感染的人数,原子核中一自由电子在电子层中的跳跃,人口增长过程等等都可视为马尔可夫过程。还有些过程(例如某些遗传过程)在一定条件下可以用马尔可夫过程来近似。
    关于马尔可夫过程的理论研究,1931年Α.Η.柯尔莫哥洛夫发表了《概率论的解析方法》,首先将微分方程等分析方法用于这类过程,奠定了它的理论基础。1951年前后,伊藤清在P.莱维和C.H.伯恩斯坦等人工作的基础上,建立了随机微分方程的理论,为研究马尔可夫过程开辟了新的道路。1954年前后,W.弗勒将泛函分析中的半群方法引入马尔可夫过程的研究中,Ε.Б.登金(又译邓肯)等并赋予它概率意义(如特征算子等)。50年代初,角谷静夫和J.L.杜布等发现了布朗运动与偏微分方程论中狄利克雷问题的关系,后来G.A.亨特研究了相当一般的马尔可夫过程(亨特过程)与位势的关系。目前,流形上的马尔可夫过程、马尔可夫场等都是正待深入研究的领域。
    离散时间马尔可夫链以上述荷花池中的青蛙跳跃过程为例,荷叶号码的集合E叫做状态空间,马尔可夫性表示为:对任意的0≤n1<n2<…<nl<m, n>0,i1,i2,…,il,i,j∈E,有


    只要其中条件概率(见概率)有意义。一般地,设E={0,1,…,M}(M为正整数)或E={0,1,2,…},Xn,n≥0为取值于E的随机变量序列,如果(1)式成立,则称{X,n≥0}为马尔可夫链。如果(1)式右方与m无关,则称为齐次马尔可夫链。这时(1)式右方是马尔可夫链从i出发经n步转移到j的概率,称为转移概率,记为。对于马尔可夫链,人们最关心的是它的转移的概率规律,而n步转移矩阵正好描述了链的n步转移规律。由于从i出发经n+m步转移到j必然是从i出发先经n步转移到某个k,然后再从k出发(与过去无关地)经m步再转移到j,因此有


    这就是柯尔莫哥洛夫-查普曼方程。根据这一方程,任意步转移矩阵都可以通过一步转移矩阵计算出来。因此,每个齐次马尔可夫链的转移规律可以由它的一步转移矩阵P来刻画。P的每一元素非负且每行之和为1,具有这样性质的矩阵称为随机矩阵。例如,设0<p<1,q=1-p,则M阶方阵


    为随机矩阵,它刻画的马尔可夫链是一个具有反射壁的随机游动。设想一质点的可能位置是直线上的整数点 0,1,…,M,0和M称为壁,它每隔单位时间转移一次,每次向右或左移动一个单位。如果它处在0或M,单位时间后质点必相应地移动到1或M-1,如果它处于0和M之间的i,则它以概率p转移到i+1,以概率q转移到i-1。又如果把P的第一行换成(1,0,…,0),则此时表示0是吸收壁,质点一旦达到0,它将被吸收而永远处于0。如果不设置壁,质点在直线上的一切整数点上游动,称为自由随机游动,特别当时,称为对称随机游动。
    为了进一步研究马尔可夫链的运动进程,需要对状态进行分类。若pij>0,则称i可以直达j,记作i→j,如还有pji>0,则记作i凮j,采用这样的记号,可以用图形表示运动的进程。例如图形


    表示一个马尔可夫链的运动情况,当链处于b1,b2,b3状态时,将永远在{b1,b2,b3}中运动,当链处于α1,α2,α3,α4状态时,将永远在{α1,α2,α3,α4}中运动,而{d1,d2,…}不具有这种性质,因为从d1可一步转移到b1或d2,自d3可到α1或d4,等等。对一般的马尔可夫链,若C是由一些状态组成的集合,如果链一旦转移到C中的状态,它将永远在C 中转移,C 就称为这个链的闭集。对闭集C,如果从C 中任一状态出发经有限步转移到另一状态的概率都大于0,则称C为不可约闭集,例如上例中的{b1,b2,b3}。至于{b1,b2,b3,с1,c2}虽然也是闭集,但却是可约的。如果从状态i出发经有限次转移后回到i的概率为1,则称i为常返状态。状态空间 E可以分解为由一切非常返状态组成的集 E0(如上例中的{d1,d2,…})和一些由常返状态组成的不可约闭集Eα(如上例中的 {b1,b2, b3},{α1,α2,α3,α4},{с1,c2})的并。这样,在链的转移中,它或者总是在E0中转移,或者转移到某个常返类Eα中,一旦转移到Eα,它将永远在Eα中转移, 而且不时回到其中的每一个状态。特别,当 E本身是不可约常返闭集时,极限存在,其中0≤r<t,t是0)的最大公约数,即链的周期,与j无关。近20年建立起来的马丁边界理论,更细致地刻画了链在E0中转移的情况。它的主要思想是在链的状态空间E 中引进距离并将E 完备化,使得在这个距离下,Xn 以概率1收敛(见概率论中的收敛)。
    连续时间马尔可夫链 设E是{0,1,…,M}或{0,1,2,…},{X,t≥0}是一族取值于E的随机变量,如果在(1)式中, 将n1,n2,…,m,n理解为实数,(1)式仍成立,则称{Xt,t≥0}为连续时间马尔可夫链。若还与s≥0无关,记为pij(t),则称链为齐次的。连续时间齐次马尔可夫链也由它的转移矩阵P(t)=(pij(t))(i,j∈E,t>0)所刻画。P(t)满足下述条件:①pij(t)≥0,;②柯尔莫哥洛夫-查普曼方程;通常假定:③标准性这里δii=1,δij=0(i≠j)。有时直接称满足①、②、③的一族矩阵P(t)=(pij(t)),t≥0为转移矩阵或马尔可夫链。当①中条件放宽为时,称为广转移矩阵,它有很好的解析性质。例如,每个pij(t)在t>0时具有连续的有穷导数 P拞(t);在t=0,右导数P拞(0)存在,i≠j时P拞(0)非负有穷,但P拞(0)可能为无穷。矩阵Q =(qij)呏(P拞(0))称为链的密度矩阵,又称Q矩阵。对于每个齐次马尔可夫链{X,t≥0},钟开莱找到一个具有较好轨道性质(右下半连续)的修正{X怂, t≥0}(即对一切t≥0,P(X怂≠Xt)=0, 且对每个轨道对一切t≥0有),而且以概率1,对任意t≥0, s从大于t的一侧趋于t时,X最多只有一个有穷的极限点。
    以Q为密度矩阵的广转移矩阵称为Q广转移矩阵或 Q过程。在一定条件下,Q广转移矩阵P(t),t≥0满足向后微分方程组


    或者向前微分方程组


    上面两个方程组的更普遍形式由柯尔莫哥洛夫于1931年引入。他并提出求解上述方程组的问题,这就是Q矩阵问题或构造问题:给定一个矩阵Q =(qij),满足0qij<+∞(i≠j),,是否存在Q广转移矩阵?如果存在,何时惟一?如果不惟一,如何求出全部的Q广转移矩阵?对于qii都有限的情形,W.费勒于1940年构造了一个最小解p(t),证明了Q 广转移矩阵总是存在的;中国学者侯振挺于1974年对于qii都有限的情形找到了Q 广转移矩阵的惟一性准则;至于求出全部Q 广转移矩阵的问题,仅仅对一些特殊的情形获得解决。对于Q 的对角线元素全为无穷的情形,D.威廉斯曾获得了完满的结果。
    生灭过程 考察一个群体成员的数目, 在时间的进程中可增可减,假定在时刻t群体有i个成员,在很短的时间间隔(t,t+Δt)中,群体数目增加或减少两个或两个以上几乎是不可能的,它只可能增加一个或减少(当i>0时)一个或保持不变。而增加一个的概率为,减少一个的概率为,保持不变的概率为。(pij(t))的密度矩阵是


    式中α0≥0,b0>0,对一切i>0,αi>0,bi>0。具有上述形状的密度矩阵的齐次马尔可夫链称为生灭过程。
    物理、化学、生物、医学等的许多实际模型都可以用生灭过程来描述,因此生灭过程有着广泛的实际应用。不仅如此,生灭过程还有重要的理论研究意义。关于生灭过程的结果已经十分丰富。当α0=0,b0>0时,只有一个生灭过程的充分必要条件是


    对上述条件不成立的情形,中国学者王梓坤于1958年建立了“极限过渡法”,构造了全部生灭过程。这个方法的基本思想是用较简单的杜布过程的轨道来逼近一般过程的轨道。此外,甚至对α0≥0,b0>0的情形,或更一般的双边生灭Q矩阵(即为一切整数)的情形,全部Q广转移矩阵也都已构造出来。
    一般马尔可夫过程 设(E,B)为可测空间,X={X,t≥0}为一族取值于E的随机变量,如果对任意的B,以概率1有
    (2)

    则称X为马尔可夫过程。
    马尔可夫过程的定义还可以进一步扩充。第一,所谓"过去"可以作更广泛的理解,即(2)中由, Xs所产生的σ域(见概率)可以扩大为一般的σ域Fs,只要Fs包含由{X,u≤s}产生的σ域,而当 s<t时,。如果对任意s≥0,t>0,A∈B,以概率1有
    (3)

    则称随机过程X={X,t≥0}为马尔可夫过程。第二,可以允许过程有寿命ζ,其中ζ是停时(见随机过程)。这时过程为X={X,t<ζ}。上述定义仍保留,但应作相应的修改,如{X∈As∈A,s<ζ),(3)应理解为在{s<ζ}上几乎处处成立。
    马尔可夫过程的许多性质可以通过转移函数来表达。转移函数P(s,x,t,A)(0≤s≤t,x∈E,A∈B)是满足某些条件的四元函数,它可以理解为过程在时刻s时处在x,在时刻t 时转移到A中的条件概率。如果P(s,x,t, A)=P(t-s,x,A)只依赖于t-s,x及A,则称转移函数及相应的马尔可夫过程为齐次的。设E是d维欧几里得空间Rd,B为Rd中的波莱尔域(见概率分布)Bd,而且齐次转移函数满足下面的登金-金尼条件:对任意 ε>0,·。式中Vε(x)={y:|y-x|≥ε},那么可以选取轨道连续的齐次马尔可夫过程X,以p(t,x,A)为转移函数。一类重要的轨道连续马尔可夫过程是 d维布朗运动。
    强马尔可夫过程在马尔可夫性的定义中,"现在"是指固定的时刻,但实际问题中常需把马尔可夫性中的“现在”这个时刻概念推广为停时(见随机过程)。例如考察从圆心出发的平面上的布朗运动,如果要研究首次到达圆周的时刻 τ以前的事件和以后的事件的条件独立性,这里τ为停时,并且认为τ是“现在”。如果把“现在”推广为停时情形的“现在”,在已知“现在”的条件下,“将来”与“过去”无关,这种特性就叫强马尔可夫性。具有这种性质的马尔可夫过程叫强马尔可夫过程。在相当一段时间内,不少人认为马尔可夫过程必然是强马尔可夫过程。首次提出对强马尔可夫性需要严格证明的是J.L.杜布。直到1956年,才有人找到马尔可夫过程不是强马尔可夫过程的例子。马尔可夫过程理论的进一步发展表明,强马尔可夫过程才是马尔可夫过程真正研究的对象。
    扩散过程历史上,扩散过程起源于对物理学中扩散现象的研究。虽然现在扩散过程的最一般的定义是轨道连续的马尔可夫过程,但在1931年柯尔莫哥洛夫对于扩散过程的奠基性研究中,却是按照转移函数来定义扩散过程的。直线上的马尔可夫过程,它有转移函数P(s,x,t,A),如果对任意ε>0,

     

    马尔可夫过程(Markov Process)

    什么是马尔可夫过程

      1、马尔可夫性(无后效性)

      过程或(系统)在时刻t0所处的状态为已知的条件下,过程在时刻t > t0所处状态的条件分布,与过程在时刻t0之前年处的状态无关的特性称为马尔可夫性或无后效性。

      即:过程“将来”的情况与“过去”的情况是无关的。

      2、马尔可夫过程的定义

      具有马尔可夫性的随机过程称为马尔可夫过程。

      用分布函数表述马尔可夫过程:

      设I:随机过程{X(t),t\in T}的状态空间,如果对时间t的任意n个数值:

      P{X(t_n)\le x_n|X(t_1)=x_1,X(t_2)=x_2,\cdots ,X(t_{n-1})=x_{n-1}}(注:X(tn)在条件X(ti) = xi下的条件分布函数)

      =P{X(t_n\le x_n|X(t_{n-1})=x_{n-1}},x_n\in R(注:X(tn))在条件X(tn − 1) = xn − 1下的条件分布函数)

      或写成:

      F_{t_n|t_1\cdots t_{n-1}}(x_n,t_n|x_1,x_2,\cdots,x_{n-1};t_1,t_2,\cdots,t_{n-1})

      F_{t_n|t_{n-1}}(x_n,t_n|x_{n-1},t_{n-1})

      这时称过程X(t),t\in T具马尔可夫性或无后性,并称此过程为马尔可夫过程。

      3、马尔可夫链的定义

      时间和状态都是离散的马尔可夫过程称为马尔可夫链, 简记为{X_n=X(n),n=0,1,2,\cdots}

    马尔可夫过程的概率分布

      研究时间和状态都是离散的随机序列:{X_n=X(n),n=0,1,2,\cdots},状态空间为I={a_1,a_2,\cdots},a_i\in R

      1、用分布律描述马尔可夫性

      对任意的正整数n,r和0\le t_1<t_2<\cdots <t_r<m;t_i,m,n+m\in T_i,有:

      P{X_{m+n}=a_j|X_{t_1}=a_{i_1},X_{t_2}=a_{i_2},\cdots,X_{t_r}=a_{i_r},X_m=a_i}

      PXm + n = aj | Xm = ai,其中a_i\in I

      2、转移概率

      称条件概率Pij(m,m + n) = PXm + n = aj | Xm = ai为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj转移概率

      说明:转移概率具胡特点:

      \sum_{j=1}^\infty P_{ij}(m,m+n)=1,i=1,2,\cdots

      由转移概率组成的矩阵马尔可夫过程称为马氏链的转移概率矩阵。它是随机矩阵。

      3、平稳性

      当转移概率Pij(m,m + n)只与i,j及时间间距n有关时,称转移概率具有平稳性。同时也称些链是齐次的或时齐的。

      此时,记Pij(m,m + n) = Pij(n),Pij(n) = PXm + n = aj | Xm = ai(注:称为马氏链的n步转移概率)

      P(n) = (Pij(n))为n步转移概率矩阵

      特别的, 当 k=1 时,

      一步转移概率:Pij = Pij(1) = PXm + 1 = aj | Xm = ai

      一步转移概率矩阵:P(1)

    马尔可夫过程

    马尔可夫过程的应用举例

      设任意相继的两天中,雨天转晴天的概率为1/3,晴天转雨天的概率为1/2,任一天晴或雨是互为逆事件。以0表示晴天状态,以1表示雨天状态,Xn表示第n天状态(0或1)。试定出马氏链X_n,n\ge 1的一步转移概率矩阵。又已知5月1日为晴天,问5月3日为晴天,5月5日为雨天的概率各等于多少?

      解:由于任一天晴或雨是互为逆事件且雨天转晴天的概率为1/3,晴天转雨天的概率为1/2,故一步转移概率和一步转移概率矩阵分别为:

      P{X_n=j|X_{n-1}=i}=\begin{cases}\frac{1}{3},i=1,j=0\\\frac{2}{3},i=1,j=1\\\frac{1}{2},i=0,j=0\\\frac{1}{2},i=0,j=1\end{cases}

    马尔可夫过程

      故5月1日为晴天,5月3日为晴天的概率为:

      P_{00}(2)=\frac{5}{12}=0.4167

      又由于:马尔可夫过程

      故5月1日为晴天,5月5日为雨天的概率为:P01(4) = 0.5995

     

     

     

    马尔可夫过程

    百科名片

    一类随机过程。它的原始模型马尔可夫链,由俄国数学家A.A.马尔可夫于1907年提出。该过程具有如下特性:在已知目前状态 (现在)的条件下,它未来的演变 (将来)不依赖于它以往的演变 ( 过去 ) 。例如森林中动物头数的变化构成——马尔可夫过程。在现实世界中,有很多过程都是马尔可夫过程,如液体中微粒所作的布朗运动、传染病受感染的人数、车站的候车人数等,都可视为马尔可夫过程。关于该过程的研究,1931年A.H.柯尔莫哥洛夫在《概率论的解析方法》一文中首先将微分方程等分析的方法用于这类过程,奠定了马尔可夫过程的理论基础。

    马尔可夫过程Markov process

      1951年前后,伊藤清建立的随机微分方程的理论,为马尔可夫过程的研究开辟了新的道路。1954年前后,W.费勒将半群方法引入马尔可夫过程的研究。流形上的马尔可夫过程、马尔可夫向量场等都是正待深入研究的领域。   类重要的随机过程,它的原始模型马尔可夫链,由俄国数学家Α.Α.马尔可夫于1907年提出。人们在实际中常遇到具有下述特性的随机过程:在已知它目前的状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变(过去)。这种已知“现在”的条件下,“将来”与“过去”独立的特性称为马尔可夫性,具有这种性质的随机过程叫做马尔可夫过程。荷花池中一只青蛙的跳跃是马尔可夫过程的一个形象化的例子。青蛙依照它瞬间或起的念头从一片荷叶上跳到另一片荷叶上,因为青蛙是没有记忆的,当现在所处的位置已知时,它下一步跳往何处和它以往走过的路径无关。如果将荷叶编号并用X0,X1,X2,…分别表示青蛙最初处的荷叶号码及第一次、第二次、……跳跃后所处的荷叶号码,那么{Xn,n≥0} 就是马尔可夫过程。液体中微粒所作的布朗运动,传染病受感染的人数,原子核中一自由电子在电子层中的跳跃,人口增长过程等等都可视为马尔可夫过程。还有些过程(例如某些遗传过程)在一定条件下可以用马尔可夫过程来近似。   关于马尔可夫过程的理论研究,1931年Α.Η.柯尔莫哥洛夫发表了《概率论的解析方法》,首先将微分方程等分析方法用于这类过程,奠定了它的理论基础。1951年前后,伊藤清在P.莱维和C.H.伯恩斯坦等人工作的基础上,建立了随机微分方程的理论,为研究马尔可夫过程开辟了新的道路。1954年前后,W.弗勒将泛函分析中的半群方法引入马尔可夫过程的研究中,Ε.Б.登金(又译邓肯)等并赋予它概率意义(如特征算子等)。50年代初,角谷静夫和J.L.杜布等发现了布朗运动与偏微分方程论中狄利克雷问题的关系,后来G.A.亨特研究了相当一般的马尔可夫过程(亨特过程)与位势的关系。目前,流形上的马尔可夫过程、马尔可夫场等都是正待深入研究的领域。

    离散时间马尔可夫链

      以上述荷花池中的青蛙跳跃过程为例,荷叶号码的集合E叫做状态空间,马尔可夫性表示为:对任意的0≤n1<n2<…<nl<m, n>0,i0,i1,i2,…,i(n-1),i,j∈E,有   (1)P[x(n)=in|x(0)=i0,x(1)=i1,...,x(n-1)=i(n-1)]=P[x(n)=in|x(n-1)=i(n-1)]   (以下n与m的区别请注意!)   只要其中条件概率(见概率)有意义。一般地,设E={0,1,…,M}(M为正整数)或E={0,1,2,…},Xn,n≥0为取值于E的随机变量序列,如果(1)式成立,则称{X,n≥0}为马尔可夫链。如果(1)式右方与m无关,则称为齐次马尔可夫链。这时(1)式右方是马尔可夫链从i出发经n步转移到j的概率,称为转移概率,记为。对于马尔可夫链,人们最关心的是它的转移的概率规律,而n步转移矩阵正好描述了链的n步转移规律。由于从i出发经n+m步转移到j必然是从i出发先经n步转移到某个k,然后再从k出发(与过去无关地)经m步再转移到j,因此有   这就是柯尔莫哥洛夫-查普曼方程。根据这一方程,任意步转移矩阵都可以通过一步转移矩阵计算出来。因此,每个齐次马尔可夫链的转移规律可以由它的一步转移矩阵P来刻画。P的每一元素非负且每行之和为1,具有这样性质的矩阵称为随机矩阵。例如,设0<p<1,q=1-p,则M阶方阵   为随机矩阵,它刻画的马尔可夫链是一个具有反射壁的随机游动。设想一质点的可能位置是直线上的整数点 0,1,…,M,0和M称为壁,它每隔单位时间转移一次,每次向右或左移动一个单位。如果它处在0或M,单位时间后质点必相应地移动到1或M-1,如果它处于0和M之间的i,则它以概率p转移到i+1,以概率q转移到i-1。又如果把P的第一行换成(1,0,…,0),则此时表示0是吸收壁,质点一旦达到0,它将被吸收而永远处于0。如果不设置壁,质点在直线上的一切整数点上游动,称为自由随机游动,特别当时,称为对称随机游动。   为了进一步研究马尔可夫链的运动进程,需要对状态进行分类。若pij>0,则称i可以直达j,记作i→j,如还有pji>0,则记作i凮j,采用这样的记号,可以用图形表示运动的进程。例如图形   表示一个马尔可夫链的运动情况,当链处于b1,b2,b3状态时,将永远在{b1,b2,b3}中运动,当链处于α1,α2,α3,α4状态时,将永远在{α1,α2,α3,α4}中运动,而{d1,d2,…}不具有这种性质,因为从d1可一步转移到b1或d2,自d3可到α1或d4,等等。对一般的马尔可夫链,若C是由一些状态组成的集合,如果链一旦转移到C中的状态,它将永远在C 中转移,C 就称为这个链的闭集。对闭集C,如果从C 中任一状态出发经有限步转移到另一状态的概率都大于0,则称C为不可约闭集,例如上例中的{b1,b2,b3}。至于{b1,b2,b3,с1,c2}虽然也是闭集,但却是可约的。如果从状态i出发经有限次转移后回到i的概率为1,则称i为常返状态。状态空间 E可以分解为由一切非常返状态组成的集 E0(如上例中的{d1,d2,…})和一些由常返状态组成的不可约闭集Eα(如上例中的 {b1,b2, b3},{α1,α2,α3,α4},{с1,c2})的并。这样,在链的转移中,它或者总是在E0中转移,或者转移到某个常返类Eα中,一旦转移到Eα,它将永远在Eα中转移, 而且不时回到其中的每一个状态。特别,当 E本身是不可约常返闭集时,极限存在,其中0≤r<t,t是0)的最大公约数,即链的周期,与j无关。近20年建立起来的马丁边界理论,更细致地刻画了链在E0中转移的情况。它的主要思想是在链的状态空间E 中引进距离并将E 完备化,使得在这个距离下,Xn 以概率1收敛(见概率论中的收敛)。

    连续时间马尔可夫链

      设E是{0,1,…,M}或{0,1,2,…},{X,t≥0}是一族取值于E的随机变量,如果在(1)式中, 将n1,n2,…,m,n理解为实数,(1)式仍成立,则称{Xt,t≥0}为连续时间马尔可夫链。若还与s≥0无关,记为pij(t),则称链为齐次的。连续时间齐次马尔可夫链也由它的转移矩阵P(t)=(pij(t))(i,j∈E,t>0)所刻画。P(t)满足下述条件:①pij(t)≥0,;②柯尔莫哥洛夫-查普曼方程;通常假定:③标准性这里δii=1,δij=0(i≠j)。有时直接称满足①、②、③的一族矩阵P(t)=(pij(t)),t≥0为转移矩阵或马尔可夫链。当①中条件放宽为时,称为广转移矩阵,它有很好的解析性质。例如,每个pij(t)在t>0时具有连续的有穷导数 P拞(t);在t=0,右导数P拞(0)存在,i≠j时P拞(0)非负有穷,但P拞(0)可能为无穷。矩阵Q =(qij)呏(P拞(0))称为链的密度矩阵,又称Q矩阵。对于每个齐次马尔可夫链{X,t≥0},钟开莱找到一个具有较好轨道性质(右下半连续)的修正{X怂, t≥0}(即对一切t≥0,P(X怂≠Xt)=0, 且对每个轨道对一切t≥0有),而且以概率1,对任意t≥0, s从大于t的一侧趋于t时,X最多只有一个有穷的极限点。   以Q为密度矩阵的广转移矩阵称为Q广转移矩阵或 Q过程。在一定条件下,Q广转移矩阵P(t),t≥0满足向后微分方程组或者向前微分方程组   上面两个方程组的更普遍形式由柯尔莫哥洛夫于1931年引入。他并提出求解上述方程组的问题,这就是Q矩阵问题或构造问题:给定一个矩阵Q =(qij),满足0qij<+∞(i≠j),,是否存在Q广转移矩阵?如果存在,何时唯一?如果不唯一,如何求出全部的Q广转移矩阵?对于qii都有限的情形,W.费勒于1940年构造了一个最小解p(t),证明了Q 广转移矩阵总是存在的;中国学者侯振挺于1974年对于qii都有限的情形找到了Q 广转移矩阵的唯一性准则;至于求出全部Q 广转移矩阵的问题,仅仅对一些特殊的情形获得解决。对于Q 的对角线元素全为无穷的情形,D.威廉斯曾获得了完满的结果。

    生灭过程

      考察一个群体成员的数目, 在时间的进程中可增可减,假定在时刻t群体有i个成员,在很短的时间间隔(t,t+Δt)中,群体数目增加或减少两个或两个以上几乎是不可能的,它只可能增加一个或减少(当i>0时)一个或保持不变。而增加一个的概率为,减少一个的概率为,保持不变的概率为。(pij(t))的密度矩阵是   式中α0≥0,b0>0,对一切i>0,αi>0,bi>0。具有上述形状的密度矩阵的齐次马尔可夫链称为生灭过程。   物理、化学、生物、医学等的许多实际模型都可以用生灭过程来描述,因此生灭过程有着广泛的实际应用。不仅如此,生灭过程还有重要的理论研究意义。关于生灭过程的结果已经十分丰富。当α0=0,b0>0时,只有一个生灭过程的充分必要条件是。  对上述条件不成立的情形,中国学者王梓坤于1958年建立了“极限过渡法”,构造了全部生灭过程。这个方法的基本思想是用较简单的杜布过程的轨道来逼近一般过程的轨道。此外,甚至对α0≥0,b0>0的情形,或更一般的双边生灭Q矩阵(即为一切整数)的情形,全部Q广转移矩阵也都已构造出来。

    一般马尔可夫过程

      设(E,B)为可测空间,X={X,t≥0}为一族取值于E的随机变量,如果对任意的B,以概率1有   (2)   则称X为马尔可夫过程。   马尔可夫过程的定义还可以进一步扩充。第一,所谓"过去"可以作更广泛的理解,即(2)中由, Xs所产生的σ域(见概率)可以扩大为一般的σ域Fs,只要Fs包含由{X,u≤s}产生的σ域,而当 s<t时,。如果对任意s≥0,t>0,A∈B,以概率1有   (3)   则称随机过程X={X,t≥0}为马尔可夫过程。第二,可以允许过程有寿命ζ,其中ζ是停时(见随机过程)。这时过程为X={X,t<ζ}。上述定义仍保留,但应作相应的修改,如{X∈As∈A,s<ζ),(3)应理解为在{s<ζ}上几乎处处成立。   马尔可夫过程的许多性质可以通过转移函数来表达。转移函数P(s,x,t,A)(0≤s≤t,x∈E,A∈B)是满足某些条件的四元函数,它可以理解为过程在时刻s时处在x,在时刻t 时转移到A中的条件概率。如果P(s,x,t, A)=P(t-s,x,A)只依赖于t-s,x及A,则称转移函数及相应的马尔可夫过程为齐次的。设E是d维欧几里得空间Rd,B为Rd中的波莱尔域(见概率分布)Bd,而且齐次转移函数满足下面的登金-金尼条件:对任意 ε>0,·。式中Vε(x)={y:|y-x|≥ε},那么可以选取轨道连续的齐次马尔可夫过程X,以p(t,x,A)为转移函数。一类重要的轨道连续马尔可夫过程是 d维布朗运动。

    强马尔可夫过程

      在马尔可夫性的定义中,"现在"是指固定的时刻,但实际问题中常需把马尔可夫性中的“现在”这个时刻概念推广为停时(见随机过程)。例如考察从圆心出发的平面上的布朗运动,如果要研究首次到达圆周的时刻 τ以前的事件和以后的事件的条件独立性,这里τ为停时,并且认为τ是“现在”。如果把“现在”推广为停时情形的“现在”,在已知“现在”的条件下,“将来”与“过去”无关,这种特性就叫强马尔可夫性。具有这种性质的马尔可夫过程叫强马尔可夫过程。在相当一段时间内,不少人认为马尔可夫过程必然是强马尔可夫过程。首次提出对强马尔可夫性需要严格证明的是J.L.杜布。直到1956年,才有人找到马尔可夫过程不是强马尔可夫过程的例子。马尔可夫过程理论的进一步发展表明,强马尔可夫过程才是马尔可夫过程真正研究的对象。

    扩散过程

      历史上,扩散过程起源于对物理学中扩散现象的研究。虽然现在扩散过程的最一般的定义是轨道连续的马尔可夫过程,但在1931年柯尔莫哥洛夫对于扩散过程的奠基性研究中,却是按照转移函数来定义扩散过程的。直线上的马尔可夫过程,它有转移函数P(s,x,t,A),如果对任意ε>0,   (4)   (5)   (6)   而且上述极限关于x是一致的,则称此过程为一维扩散过程。粗略地说,这些条件刻画了:在很短时间Δt内,位移也是很小的,对指定的正数ε>0,位移超过ε的概率和时间Δt相比可以忽略不计;在偏离不超过 ε的范围内看,平均偏离与Δt成正比,平均方差也与 Δt成正比。称(5)中的α(t,x)为偏移系数,它反映偏离的大小;称(6)中的b(t,x)为扩散系数,它反映扩散的程度。   设转移函数具有密度函数p(s,x,t,y),则在适当的附加条件下,p(s,x,t,y)满足方程   (7)   (8)   (7)和(8)分别称为柯尔莫哥洛夫向前方程和向后方程,也称为福克尔-普朗克方程。如果转移函数是齐次的,则α(s,x)=α(x),b(s,x)=b(x)与s无关,且p(t,x,y)满足   (9)   (10)   α和b的某些假定下,可以求上述方程的转移密度解p,从而可以决定一个马尔可夫过程。然而,方程的转移密度解即使存在也未必唯一,因此还要对方程的解附加某些边界条件,以保持解的唯一性。例如,当α(t,x)=0,b(t,x)=2D (常数D>0)时的向前方程,附加边界条件=0的解是   这是称之为维纳-爱因斯坦过程的扩散过程的转移密度函数。又例如,当α(t,x)=-βx(β >0),b(t,x)=2D >0时的向前方程附加与上例同样的边界条件的解,是称之为奥恩斯坦-乌伦贝克过程的扩散过程的转移密度函数。   50年代,费勒引进了推广的二阶微分算子,用半群方法解析地研究了状态空间E =【r1,r2】的扩散过程,解决了在r1和r2 处应附加哪些边界条件,才能使向后方程(10)有一个且只有一个转移密度函数解的问题,而且找出了全部这样的边界条件。对于 E是开区间或半开半闭区间的情形也作了研究。登金、H.P.麦基恩及伊藤清等人对于扩散过程轨道的研究,阐明了费勒的结果的概率意义,从而使一维扩散过程有了较完整的理论。   多维扩散过程是和一个椭圆型偏微分算子联系在一起的,它还有许多未解决的问题,但核心问题之一是多维扩散过程的存在性和唯一性问题;借助于偏微分方程和概率论方法已经得到一些结果。有趣的是,概率论得到的结果反过来也可以解决微分方程的求解问题,例如,可以把方程的解用一个马尔可夫过程表现出来。   近年来,人们重视从轨道变化的角度来研究扩散过程。常用的方法是随机微分方程和鞅问题的求解。流形上的扩散过程理论是近十年来日益受人们重视的新领域,它是用随机微分方程研究扩散过程的必然延伸。   马尔可夫过程与位势理论在空间中给定一个向量场,如果存在一个函数u使得它的负梯度就是给定的向量场,这个函数就是位势。高斯在研究电荷分布时提出了古典位势理论。例如,在空间R3的某物体S 中给定了一个电荷分布μ,那么空间点x处的电位势为   (11)   一般地,对于空间R3中的测度μ(通常假定具有支撑S ),   (12)   称为测度μ的牛顿位势。如果不计常数因子的差别,则u可以用三维布朗运动的转移密度函数p(t,x,y)表现出来:   (13)   如果假定μ关于勒贝格测度有密度函数?,则u还可以通过三维布朗运动{X,t≥0}表现出来:   (14)   式中Ex表示对从x出发的布朗运动取数学期望。再以和位势理论紧密联系的狄利克雷问题为例,它的解也可以用布朗运动来表述。由此可见,布朗运动与古典位势之间存在着自然的对应关系。这种对应关系也存在于亨特过程和近代位势理论之间。亨特过程就是轨道右连续且拟左连续的强马尔可夫过程。所谓拟左连续,即对任何停时序列τn↑τ,在(τ<+∞)上,以概率1有   (15)   马尔可夫过程的位势理论主要有三个问题:狄利克雷问题、扫问题和平衡问题。对于布朗运动,这三个问题都得到了很好的解决。
     
     
      马尔科夫预测法

        马尔科夫是俄国伟大的数学家。马尔科夫链是人类历史上第一个从理论上提出并加以研究的随机过程模型。马尔科夫预测法是应用马尔科夫链的基本原理和基本方法研究分析时间序列的变化规律,并预测其未来变化趋势的一种方法。这种方法在经济预测与经济经营决策等方面有着广泛的应用。

    一 随机过程

        在自然界和人类社会中,事物的变化过程可分为两类:一类是确定性变化过程;另一类是不确定性变化过程。确定性变化过程是指事物的变化是由时间唯一确定的,或者说,对给定的时间,人们事先能够确切地知道事物变化的结果。因此,变化过程可用时间的函数来描述。不确定性变化过程是指对给定的时间,事物变化的结果不止一个,事先人们不能肯定哪个结果一定发生,即事物的变化具有随机性。这样的变化过程称为随机过程。

       由于随机变量与时间参数都有连续与离散之分,所以随机过程又可分为4类:

       1、连续型随机过程:随机变量与时间都是连续的。

       2、离散型随机过程:随机变量是离散的,时间是连续的。

        (过程中时间是连续的-------随机过程,连续与离散针对随机变量)

       3、连续随机序列------随机变量是连续的,时间是离散的。

       4、离散随机序列------随机变量与时间都是离散的。

        (过程中时间是离散的-------随机序列,连续与离散针对随机变量)

      彩票各项(参数)数据统计,都属于离散随机序列。

    二 马尔科夫链

        离散随机序列也称时间序列。即随机变量与时间都是离散的。随机变量(状态空间)个数n是有限的,一般地,2≤n<10,不妨设定其为一个集合。时间的离散,如第一天,第二天……或第一期,第二期…. 一般地,时间是整数,或说是序数。

        马尔科夫链是指具有无后效性的时间序列。所谓无后效性是指序列将来处于什么状态只与它现在所处的状态有关,而与它过去处于什么状态无关。简单说,现在影响将来。时间序列中t时刻的状态i影响到t+1时刻出现的状态j,确切地说,t时刻的状态,在t+1时刻可以转移到状态空间中其中某一状态,包括自身,(i=j或i≠j),因此,就必须考虑t时刻的状态,向状态空间中各个状态转移的可能性,即状态转移概率问题。与t时刻之前所处的状态无关。

    三 一步转移概率矩阵

        t时刻到t+1时刻,是t的下一个时刻,状态变化表现为状态一步转移,之前之后时间的形式是离散的。且随机变量(状态空间)也是离散的。

        从概率论,随机变量(随机事件)n个是有限。t+1时刻这事件组有一个且只有一个能够出现。即事件组的概率向量p11 p12…p1n;p21 p22… p2n;…… pn1 pn2… pnn每个事件概率向量之和等于1。用pij表示t时刻zt处于状态i的条件下,t+1时刻zt+1处于状态j条件概率。事件组的概率向量所构成n阶方阵,为一步转移概率矩阵,P=(pij)n×n。有限事件的马尔科夫链。马尔科夫链,描述了t时刻i状态,向t+1时刻系统内各个状态转移的可能性。

                         p11 p12… p1n

           P=(pijn×n=  p21 p22… p2n

                         pn1 pn2… pnn

         P=(pij)n×n是随机矩阵,是非负矩阵中的一类。一步转移概率矩阵P=(pij)n×n描述了t时刻系统内各个状态,到t+1时刻系统内各个状态的变化规律性。

    四、K步转移矩阵

       由全概率公式及矩阵的乘法,可以得到转移矩阵P和K步转移矩阵P(K)的关系:

                P(K)=P    K=1,2,,3……

       一般地,运用二步转移矩阵P2=P×P,在时间序列中可以得到状态转移矩阵(一步转移矩阵P)。

    五、模糊综合评定模型

       在状态时间序列中,一定量的样本,所得到其状态转移矩阵。统计量(样本数)与状态的个数有关,一般地,状态有n个,样本数为2n。比如状态有5个,样本数为10 。得到一步转移矩阵P,运用二步转移矩阵P2=P×P,得到t时刻的状态转移向量(t时刻的状态向其他状态转移的概率)。考虑到受不确定性因素的影响,特别是统计量的因素,造成偏差。因此采用多级统计就有n级统计量量的方法去消除。有n个状态,就有n级统计量,级统计量为(n+1)n。

      比如状态有5个,就有5级统计量。样本数分别为10,15,20,25,30。得到一步转移矩阵P,运用二步转移矩阵P2=P×P,取X状态一列(向量)。因此分别得到t时刻的状态X转移向量A1,A2,A3,A4,A5。则5个向量构成的矩阵PX,就是状态X转移模糊综合模型。

        在状态研究时,已知各个状态的比例关系,也就是各个状态的权重,构成权重向量W。模糊综合评定模型A=W×PX。为此,得出X状态向其他状态转移的概率,确定转移的状态是概率值最大(max)的状态。基于极端情况也需考虑概率最小(min)的状态。

     

     

    马尔可夫链模型概述

      马尔可夫链安德烈·马尔可夫Andrey Markov,1856-1922)得名,是数学中具有马尔可夫性质的离散时间随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状态)是无关的。

      时间和状态都是离散的马尔可夫过程称为马尔可夫链, 简记为{X_n=X(n),n=0,1,2,\cdots}

      马尔可夫链是随机变量X_1,X_2,X_3\cdots的一个数列。这些变量的范围,即他们所有可能取值的集合,被称为“状态空间”,而Xn的值则是在时间n的状态。如果Xn + 1对于过去状态的条件概率分布仅是Xn的一个函数,则

      P(X_{n+1}=x|X_0,X_1,X_2,\cdots,X_n)=P(X_{n+1}=x|X_n)

      这里x为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫性质。

      马尔可夫在1906年首先做出了这类过程。而将此一般化到可数无限状态空间是由柯尔莫果洛夫在1936年给出的。

      马尔可夫链与布朗运动以及遍历假说这两个二十世纪初期物理学重要课题是相联系的,但马尔可夫寻求的似乎不仅于数学动机,名义上是对于纵属事件大数法则的扩张。

      马尔可夫链是满足下面两个假设的一种随机过程:

      1、t+l时刻系统状态的概率分布只与t时刻的状态有关,与t时刻以前的状态无关;

      2、从t时刻到t+l时刻的状态转移与t的值无关。一个马尔可夫链模型可表示为=(S,P,Q),其中各元的含义如下:

      1)S是系统所有可能的状态所组成的非空的状态集,有时也称之为系统的状态空间,它可以是有限的、可列的集合或任意非空集。本文中假定S是可数集(即有限或可列)。用小写字母i,j(或Si,Sj)等来表示状态。

      2)P=[P_{ij}]_{n\times n}是系统的状态转移概率矩阵,其中Pij表示系统在时刻t处于状态i,在下一时刻t+l处于状态i的概率,N是系统所有可能的状态的个数。对于任意i∈s,有\sum_{j=1}^NP_{ij}=l

      3)Q=[q_1,q_2\cdots q_n]是系统的初始概率分布,qi是系统在初始时刻处于状态i的概率,满足\sum_{i=1}^Nq_i=1

    马尔可夫链模型的性质

      马尔可夫链是由一个条件分布来表示的

      P(Xn + 1 | Xn)

      这被称为是随机过程中的“转移概率”。这有时也被称作是“一步转移概率”。二、三,以及更多步的转移概率可以导自一步转移概率和马尔可夫性质:

      P(X_{n+2}|X_n) = \int P(X_{n+2},X_{n+1}|X_n)dX_{n+1} = \int P(X_{n+2}|X_{n+1})P(X_{n+1}|X_n)dX_{n+1}

      同样:

      P(X_{n+3}|X_n) = \int P(X_{n+3}|X_{n+2}) \int P(X_{n+2}|X_{n+1})P(X_{n+1}|X_n)dX_{n+1}dX_{n+2}

      这些式子可以通过乘以转移概率并求k−1次积分来一般化到任意的将来时间n+k。

      边际分布P(Xn)是在时间为n时的状态的分布。初始分布为P(X0)。该过程的变化可以用以下的一个时间步幅来描述:

      P(X_{n+1}) = \int P(X_{n+1}|X_n)P(X_n)dX_n

      这是Frobenius-Perron equation的一个版本。这时可能存在一个或多个状态分布π满足:

      \pi(X) = \int P(X|Y)\pi(Y)dY

      其中Y只是为了便于对变量积分的一个名义。这样的分布π被称作是“平稳分布”(Stationary Distribution)或者“稳态分布”(Steady-state Distribution)。一个平稳分布是一个对应于特征根为1的条件分布函数的特征方程。

      平稳分布是否存在,以及如果存在是否唯一,这是由过程的特定性质决定的。“不可约”是指每一个状态都可来自任意的其它状态。当存在至少一个状态经过一个固定的时间段后连续返回,则这个过程被称为是“周期的”。

    离散状态空间中的马尔可夫链模型

      如果状态空间是有限的,则转移概率分布可以表示为一个具有(i,j)元素的矩阵,称之为“转移矩阵”:

      Pij = P(Xn + 1 = i | Xn = j)

      对于一个离散状态空间,k步转移概率的积分即为求和,可以对转移矩阵求k次幂来求得。就是说,如果\mathbf{P}是一步转移矩阵,\mathbf{P}^k就是k步转移后的转移矩阵。

      平稳分布是一个满足以下方程的向量:

      \mathbf{P}\pi^* = \pi^*

      在此情况下,稳态分布π * 是一个对应于特征根为1的、该转移矩阵的特征向量。

      如果转移矩阵\mathbf{P}不可约,并且是非周期的,则\mathbf{P}^k收敛到一个每一列都是不同的平稳分布π *,并且,

      \lim_{k\rightarrow\infty}\mathbf{P}^k\pi=\pi^*

      独立于初始分布π。这是由Perron-Frobenius theorem所指出的。

      正的转移矩阵(即矩阵的每一个元素都是正的)是不可约和非周期的。矩阵被称为是一个随机矩阵,当且仅当这是某个马尔可夫链中转移概率的矩阵。

      注意:在上面的定式化中,元素(i,j)是由j转移到i的概率。有时候一个由元素(i,j)给出的等价的定式化等于由i转移到j的概率。在此情况下,转移矩阵仅是这里所给出的转移矩阵的转置。另外,一个系统的平稳分布是由该转移矩阵的左特征向量给出的,而不是右特征向量。

      转移概率独立于过去的特殊况为熟知的Bernoulli scheme。仅有两个可能状态的Bernoulli scheme被熟知为贝努利过程

    马尔可夫链模型的应用

    科学中的应用

      马尔可夫链通常用来建模排队理论统计学中的建模,还可作为信号模型用于熵编码技术,如算法编码。马尔可夫链也有众多的生物学应用,特别是人口过程,可以帮助模拟生物人口过程的建模。隐蔽马尔可夫模型还被用于生物信息学,用以编码区域或基因预测。

      马尔可夫链最近的应用是在地理统计学(geostatistics)中。其中,马尔可夫链用在基于观察数据的二到三维离散变量的随机模拟。这一应用类似于“克里金”地理统计学(Kriging geostatistics),被称为是“马尔可夫链地理统计学”。这一马尔可夫链地理统计学方法仍在发展过程中。

    人力资源中的应用

      马尔可夫链模型主要是分析一个人在某一阶段内由一个职位调到另一个职位的可能性,即调动的概率。该模型的一个基本假设就是,过去的内部人事变动的模式和概率与未来的趋势大体相一致。实际上,这种方法是要分析企业内部人力资源的流动趋势和概率,如升迁、转职、调配或离职等方面的情况,以便为内部的人力资源的调配提供依据。

      它的基本思想是:通过发现过去组织人事变动的规律,以推测组织在未来人员的供给情况。马尔可夫链模型通常是分几个时期收集数据,然后再得出平均值,用这些数据代表每一种职位中人员变动的频率,就可以推测出人员变动情况。

      具体做法是:将计划初期每一种工作的人数量与每一种工作的人员变动概率相乘,然后纵向相加,即得到组织内部未来劳动力的净供给量。其基本表达式为:

      N_i(t)=\sum_{j=1}^k*P_{ij}+V_i(t)

    Ni(t):t时间内I类人员数量;
    Pji:人员从j类向I类转移的转移率;
    Vi(t):在时间(t-1,t)I类所补充的人员数。

      企业人员的变动有调出、调入、平调晋升与降级五种。表3 假设一家零售公司在1999至2000年间各类人员的变动情况。年初商店经理有12人,在当年期间平均90%的商店经理仍在商店内,10%的商店经理离职,期初36位经理助理有 11%晋升到经理,83%留在原来的职务,6%离职;如果人员的变动频率是相对稳定的,那么在2000年留在经理职位上有11人(12×90%),另外,经理助理中有4人(36×83%)晋升到经理职位,最后经理的总数是15人(11+4)。可以根据这一矩阵得到其他人员的供给情况,也可以计算出其后各个时期的预测结果。假设的零售公司的马尔可夫分析,见下表:

    1999~2000 商店经理 经理助理 区域经理 部门经理 销售员 离职
    商店经理
    (n=12)
    90%
    11
            10%
    1
    经理助理
    (n=36)
    11%
    4
    83%
    30
          6%
    2
    区域经理
    (n=96)
      11%
    11
    66%
    63
    8%
    8
      15%
    14
    部门经理
    (=288)
        10%
    29
    72%
    207
    2%
    6
    16%
    46
    销售员
    (=1440)
          6%
    86
    74%
    1066
    25%
    228
    供给预测 15 41 92 301 1072 351

    马尔可夫模型案例分析[1]

      案例:在信用卡账户行为变化预测中的应用

      信用卡业务是商业银行的零售业务,信用卡的消费金额是银行的应收账款.在此,我们可以借鉴零售行业应收账款状态变化的预测方法对信用卡账户的行为变化进行描述和预测。

      对信用卡账户的马尔可夫过程进行研究,主要解决新增贷款发生周期性变化的情况下利用马尔可夫过程预测不同时刻的信用卡账户各状态下的金额、已偿付态和坏帐态的金额、全部应收款的现值及它们的方差计算等内容,以为商业银行信用卡账户的行为风险管理提供方法依据。

    马尔可夫模型的建立

      马尔可夫状态转移模型是在满足“马氏性”和“平稳性”的基础上建立的.假定银行的信用卡账户中每期处于不同期限的逾期贷款数量只与上期逾期贷款的数量与结构有关,而与前期的状态无关,这就满足了“马氏性”。同时,在外部经济环境稳定、人口特征比较稳定、银行的信用卡管理技术和方法没有发生重大变化的情况下,可以认为逾期贷款由一种状态转移到另一种状态的概率在各期是保持不变的,即每年的转移概率矩阵基本保持稳定,满足了马氏链的“平稳性”要求.这样,银行就可以通过往年的数据资料模拟出比较精确的转移概率矩阵,对信用卡账户的行为状态做出预测和评估,下面给出具体分析。

      假设某一银行在时间i有一定的信用卡应收账款,当前或者随后的时间内这些余额都可以划分为n个时间段(即状态。对于这批在时间i的应收账款而言,有:

      B0=逾期为0期的应收账款余额(也就是当前期);

      B1 = 逾期为1期的应收账款余额;

      …

      Bj = 逾期为j期的应收账款余额;

      …

      Bn − 1 = 逾期为n-1期的应收账款余额;

      Bn = 逾期为n期的应收账款余额。

      实践中,时间段的数目将视情况而定,最后一个时间段主要依赖于银行应收账款的“冲销”原则,美国的信用卡贷款一般拖欠180天以上即成为呆账予以“冲销”.虽然拖欠账款最终也可能得到偿还,但是将超过规定还款期限的应收账款归入坏帐种类中是很自然的会计程序

      一般而言,我们可以让Bjk表示从i时刻处于j状态转移到i+1时刻处于k状态的账户的金额.用这种方法,我们可以对处于i时刻的所有应收账款做出在i+1时刻的一步转移账户.需要注意的是,还应该有一个“时间”状态应该加入到先前所描述的分类中,这一状态就是已付款状态,用\overline{0}表示.在i时刻任何一种分类状态从0到n的账户在i+1时刻都可以转移到状态\overline{0}.这样,i时刻的应收账款账户可以用一个n+2维矩阵来表示,矩阵中的每一项Bjk表示i时刻j状态转移为i+1时刻k状态的金额,如下所示:

      B=\begin{bmatrix}B_{\overline{00}}&\cdots & B_{\overline{0}k}& \cdots & B_{\overline{0}n} \\ \bullet& &\bullet& &\bullet \\B_{j\overline{0}} &\cdots & B_{jk} & \cdots & B_{jn} \\ \bullet & &\bullet & &\bullet \\ B_{n\overline{0}} &\cdots & B_{nk} &\cdots & B_{nn}\end{bmatrix}

      对信用卡账户而言,需要注意的是,当状态Bjk中的j<i时,应理解为i时刻处于状态j的账户,在随后的i+1时刻(一般为30天后)偿还了部分的利息,使得应收账款(贷款)又转变为k状态。

      从n+2维应收账款矩阵B可以导出n+2维转移概率矩阵P.转移概率矩阵P中的每一项目表示在特定时间内某一账户由一种状态转移到另一状态的可能性.这样的话,一个隐含假设是,转移概率矩阵的考察周期和应收账款分类的考察周期是相同的.一般情况下,转移概率Pjk表示的是i时刻j状态的账款转移到i+1时刻k状态账款的可能性.根据应收账款矩阵B及Bjk,转移概率Pjk可被定义为:

      P_{jk}=\frac{B_{jk}}{{\sum^n_{\overline{0}}B_{jk}}'}  (k=\overline{0},0,1,\cdots,n)  (1)

      在应用转移概率矩阵时需要注意两点。一是\overline{0}状态的账款不可能转移到其它的状态,它只能停留在已付款状态,\overline{0}状态账户的转移概率依次为:p_{\overline{00}}=1.00,p_{\overline{0}0}=0,p_{\overline{0}1}=0,…,p_{\overline{0}k}=0,…,p_{\overline{0}n}=0。二是呆账类账户的状态,虽然有时候坏呆账类账款仍能收回现金,但在我们的模型里边假设呆账类账款只能停留在呆账类的状态,即:p_{n\overline{0}}=0,pn0 = 0,pn1 = 0,…,pnn = 1.00

      上面描述的模型可以被看作一个有n+2个状态的马尔可夫链过程,其转移概率矩阵为P.而且,它有两个吸收态(偿付态0和呆账态n),从其他任何一个暂态(非吸收态)都可以到达这两个吸收态,因此它是一个具有两个吸收态的马尔可夫链.我们将在充分利用马尔可夫理论和已有研究的基础上,研究如何利用马尔可夫链方法预测和估计信用卡账户行为的变化。

    马尔可夫模型的应用

      在此,采用Kemeny和Snell的部分研究成果.为便于计算,将n+2维转移概率方阵重新排列,将吸收态的偿付态和呆账态放在一起,将另外的暂态0,1,2,…,n-1放在一起.这样矩阵P就可以被分割为:

      P=\begin{bmatrix} I & O \\ R & Q \end{bmatrix}

      其中I是一个2×2阶单位矩阵,O是一个2×n阶0矩阵,R是一个n×2阶矩阵,Q是一个n×n阶矩阵.其中,我们定义矩阵:

      N=(1-Q)^{-1}=I+Q+Q^2+Q^3+\cdots +Q^k+\cdots

      一定存在,并将其称为吸收态马尔可夫链的基本矩阵

      对于n×2阶矩阵的所有分项,N R给出了每一状态转移到吸收态\overline{0}和n的吸收概率.NR中的第一列给出了每一个状态转移到已偿付状态的概率,第二列给出了每一个状态下转移到呆账的概率。

      1.无新增贷款的情况

      假设在时刻i,具有n个分项向量的B_i=(B_{i0},B_{i1},\cdots,B_{in-1})给出来每一状态下应收账款的余额.让b等于所有这些余额之和,则向量\pi=(\frac{1}{b})B是一个没有非负分量且全部之和为1的概率向量,向量的分量代表了每一状态下应收账款的比例.如果我们假设上述状态中的余额的移动是独立的,那么我们就可以认定向量π为马尔可夫链的初始向量.另外,还假定:如果A是任一矩阵,那么我们让Asq表示A中每一项平方后的结果;让Art表示A中每一项取平方根后的结果.则有如下结论:

      结论1

      二维向量BNR中的分量可以给出来自应收账款向量B的期望还款和坏帐金额;分量给出来偿还态和呆帐态的方差,Art给出了这两种状态的标准差。

      A=b\begin{bmatrix}\pi N R-(\pi N R)_{sq}\end{bmatrix}(2)

      证明 如上所述,矩阵NR中第一列的分量给出来应收账款从每一暂态转移到吸收态(偿付态)的概率.向量\pi=(\frac{1}{b})B的分量给出了每次过程开始时账款转移到每一暂态的初始概率.因此,账款在最终时偿付态的概率可以由向量πNR的第一列分量给出.如果这一过程开始了b次,那么在最终时偿付态的平均数就是向量bπNR = BNR的第一列分量.向量πNR的第一分量是函数f的平均值,其中f表示在最终结束时偿付态的价值为全部价值,其它状态的价值为零.这一函数的方差可以由下式的第一分量给出:

      V(f)=M(f^2)-\begin{bmatrix} M(f)\end{bmatrix}^2

      因为f2 = f,所以M(f2) = M(f),因此f的方差可以由πNR − (πNR)sq的第一分量给出.如果过程开始了b次,那么偿付态的全部金额的方差可以由A=b\begin{bmatrix}\pi N R-(\pi N R)_{sq}\end{bmatrix}的第一分量给出.有关呆帐态的分析与偿付态的分析类似。

      此外,还可以对应收账款现值的计算进行了研究. 如果 r是利率,则\beta=\frac{1}{(1+r)}就表示了贴现率,应收账款现值的计算就可以由下面的计算给出。

      假定B是应收账款向量,R1是矩阵R的第一列分量,则BR1表示当前时期的收现额;从下一期的BQR1的价值就只有BBQR1;依此类推,在(k+1)周期时BQkR1的价值就只有ΒkBQkR1.将这些折现价值加在一起就可以得到应收账款的当前现值:

      B R_1+\beta B Q R_1+\cdots+\beta^k B Q^k R_1+\cdots =B\begin{bmatrix} I+\beta Q+\cdots+\beta^k Q^k+\cdots\end{bmatrix}R_1=B N_\beta R_1,其中的Nβ表示I+\beta Q+\cdots+\beta^k Q^k+\cdots

      在实践当中,银行一般都要对信用卡客户收取一定的年费,假定银行对客户收取b的费率,则β = 1 + b,那么完全可以利用上述公式来计算应收账款的现值.当然,如果考虑利率和年费率两种因素的话,将会有一个净折扣率或者一个费用率。

      2.新增贷款固定不变的情况

      假设每期又发生了金额为c的新应收款,这些新应收款被分不在不同的状态下,构成了向量C的各分量组成,即:C=(C_0,C_1,\cdots,C_{n-1}).定义向量\eta=(\frac{1}{c})C,则η为概率向量并且被认为是马尔可夫链的初始向量.假设,马尔可夫过程每期以初始概率η开始了c次.那么应收账款的稳定态分布会怎么样,这些账户的方差又是多少?每期期望付款和呆账的数量以及它们的期望方差又怎么样?

      结论2

      如果马尔可夫过程每期以初始概率η开始了c次,则向量CN的分量给出来所有时刻下稳定的应收账款金额,数值CNξ给出了稳定态的全部应收账款金额,其中ξ是各项为1的n维列向量.二维向量CNR给出来每期偿付款和呆账的稳定态的金额。

      证明 如果上述马尔可夫过程进行了许多个周期,则各状态的金额由当前η一个月前的ηQ、二个月前的ηQ2,等等组成.那么这些数量之和为:

      \eta+\eta Q^2+\eta Q^3+\cdots=\eta(I+Q+Q^2+Q^3+\cdots)=\eta N

      如果这个过程每周期开始了c次,每一状态下的应收账款可以由向量cηN = CN表示.如果ξ是一个各项为1的列向量,则CNξ是向量CN的分量之和,代表了应收账款的全部账户余额.

      如果上述过程进行了很多周期,将会有ηR的账款从第一期的新收款中转移到吸收态,将有ηQR的账款从接下来的一期的新收款中转移到吸收态,将有ηQ2R的账款从过期两个月的新收款中转移到吸收态,依此类推,那么所有这些之和为:

      \eta R+\eta Q^2R+\eta Q^3 R+\cdots=\eta(I+Q+Q^2+Q^3+\cdots)R=\eta NR

      如果这一过程开始了c次,每期稳定态的偿付款和呆账将有cηNR = CNR给出。证明完毕。

      综合定理1和定理2,我们能够得出一下推论.让t = CNξ,\pi=(\frac{1}{t})CN;那么CN2Rt\begin{bmatrix}\pi NR-(\pi NR)_{sq}\end{bmatrix}是偿付款和呆账的预测均值和方差.而且,可以根据对应收款的利率和费率来计算应收账款的现值。

      3.新增贷款发生周期性变化的情况

      上述讨论都没有考虑应收账款发生变化的情况,然而,在现实情况下,银行的信用卡消费呈现出一定的周期性,例如在春节、国庆节和秋季开学的时候消费比较高. 除此之外,商业银行每年的消费贷款也可能因为经济增长或萧条等原因而扩张或收缩. 因此,我们需要考虑这些因素对模型的一些影响.

      具体来讲,让Ci是给定月份i的新应收款的向量; ci是全部应收款的金额; η = (1 / ci)Ci是第 i时刻的初始向量,假设:

      ηi − T = (ηi)   (3)

      Ci − T = αCi   (4)

      其中α是增长系数的倒数,例如某一贷款机构的信用卡业务以2%的年增长率扩张则α = 1 / (1 + 0.02) = 1 / 1.02T 为循环周期的长度,一般情况下周期T = 12. 从上面的两个式子里边我们可以推出ci − T = αci

      结论3

      让Nα = (I − αQT− 1,那么下列式子:

      A_i= \left[\sum^{r-1}_{k=0}C_{i-k}Q^k\right]N_{\alpha}  (5)

      \alpha_ii=\left[\sum^{t-1}_{k=0}C_{i-k}Q^k\right]N_{\alpha} \xi  (6)

      D_i=\left[\sum^{t-1}_{k=0}C_{i-k}Q^k\right]N_{\alpha}R  (7)

      给出了 i时刻不同状态下的金额、全部应收账款、以及吸收态的金额.

      证明 让C_i,C_{i-1},\cdots,C_{i-T+1}是第i月份及其之前T-1月的真实新收款. 在知道增长率的情况下,根据(4)式能够推出以前月份的所有应收款,其中第i月份不同状态的应收款是

      Ci;第(i-1)月份的是Ci − 1Q;第(i-2) 月份的是Ci − 2Q2,等等; 第(i-T+1) 月份的是

      Ci − T + 1QT − 1;第(i-T )月份的是CiQT(Ci − T = αCi),等等. 将这些向量加总后如下:

      A_i= C_i+ C_{i-1}Q+C_{i-2}Q^2+\cdots+C_{i-T+1}Q^{T-1}+\alpha C_iQ^T+\alpha C_{i-1}Q^{T+1}+\cdots+\alpha C_{i-T+1}Q^{2T-1}+\alpha^{2}C_iQ^{2T}+\alpha C_{i-1}Q^{2T+1}+\cdots + \alpha C_{i-T+1}Q^{3T-1}+\cdots

      =C_i(I+\alpha Q^T+\alpha^2Q^{2T}+\cdots) + C_{i-1}Q(I+\alpha Q^T+\alpha^2Q^{2T}+\cdots)+\cdots + C_{i-T+1}Q^{T+1}(I+\alpha Q^T+\alpha^2Q^{2T}+\cdots)

      = [C_i+C_{i-1}Q+C_{i-2}Q^2+\cdots + C_{i-T+1}Q^{T-1}]N_{\alpha}

      这就是AiiDi的证明与Ai类似.

      当然,对于 i时刻的这些估计依赖于第 i月及其前T - 1月的新增应收款,上面给出的估计结果比结论2给出的结果更准确一些. 当然,如果Qn快速趋于0,则用过去几个月的应收账款来估计一个合理的结果也是可以的.

      根据结论1和结论3的结论,我们可以用AiNR\alpha_i\left[\tau_iN R- (\tau_iN R)_{sq}\right],其中αi = Aiξτi= (1 / alphai)Ai来估计 i时刻偿付款和呆帐的均值和方差,而且也可以用AiNβR1用来估计 i时刻应收账款的现值.

    参考文献

    1.  任金政陈宝峰庄传礼.马尔可夫链模型在信用卡账户行为变化预测中的应用.数学的实践与认识.2008年5月第9期第38卷

     

     

     

    马尔科夫预测

      1.1.基本概念   1.1.1 随机变量 、 随机函数与随机过程   一变量x,能随机地取数据(但不能准确地预言它取何值),而对于每一个数值或某一个范围内的值有一定的概率,那么称x为随机变量。   假定随机变量的可能值xi发生概率为Pi,即P(x = xi) = Pi,对于xi的所有n个可能值,有离散型随机变量分布列: ∑Pi = 1 对于连续型随机变量,有 ∫P(x)dx = 1   在试验过程中,随机变量可能随某一参数(不一定是时间)的变化而变化.   如测量大气中空气温度变化x = x(h),随高度变化。这种随参变量而变化的随机变量称为随机函数。而以时间t作参变量的随机函数称为随机过程。也就是说:随机过程是这样一个函数,在每次试验结果中,它以一定的概率取某一个确定的,但预先未知的时间函数。   1.1.2 马尔科夫过程   随机过程中,有一类具有“无后效性性质”,即当随机过程在某一时刻to所处的状态已知的条件下,过程在时刻t>to时所处的状态只和to时刻有关,而与to以前的状态无关,则这种随机过程称为马尔科夫过程。即是:ito为确知,it(t>to)只与ito有关,这种性质为无后效性,又叫马尔科夫假设。   简例:设x(t)为大米在粮仓中t月末的库存量,则   x(t) = x(t―1)—y(t) +G(t)   x(t)可看作一个马尔科夫过程。   1.1.3 马尔科夫链   时间和状态都是离散的马尔科夫过程称为马尔科夫链。例:蛙跳问题   假定池中有N张荷叶,编号为1,2,3,……,N,即蛙跳可能有N个状态(状态确知且离散)。青蛙所属荷叶,为它目前所处的状态;因此它未来的状态,只与现在所处状态有关,而与以前的状态无关(无后效性成立)   写成数学表达式为:   P( xt+1 = j | xt = it , xt-1 = it―1,……x1 = i1)   =P( xt+1 = j | xt = it )   定义:Pij = P( xt+1 = j | xt = i)   即在xt = i的条件下,使 xt+1 = j的条件概率,是从 i状态一步转移到j状态的概率,因此它又称一步状态转移概率。由状态转移图,由于共有N个状态,所以有   1.2 状态转移矩阵   1.2. 1 一步状态转移矩阵   系统有N个状态,描述各种状态下向其他状态转移的概率矩阵   P11 P12 …… P1N   定义为 P = P21 P22 …… P2N   : : :   PN1 PN2 …… PNN   这是一个N阶方阵,满足概率矩阵性质   1) Pij ≥ 0,i,j = 1,2, ……, N 非负性性质   2) ∑ Pij = 1 行元素和为1 ,i=1,2,…N   如: W1 = [1/4, 1/4, 1/2, 0] 概率向量  W2 = [1/3, 0, 2/3]   W3 = [1/4, 1/4, 1/4, 1/2] 非概率向量   W4 = [1/3, 1/3, -1/3,0, 2/3]   3)若A和B分别为概率矩阵时,则AB为概率矩阵。   1.2.2 稳定性假设   若系统的一步状态转移概率不随时间变化,即转移矩阵在各个时刻都相同,称该系统是稳定的。这个假设称为稳定性假设。蛙跳问题属于此类,后面的讨论均假定满足稳定性条件。   1.2.3 k步状态转移矩阵   经过k步转移由状态i转移到状态j的概率记为   P(xt+k =j | xt = i) = Pij(k)   i,j = 1,2, ……, N   定义:k步状态转移矩阵为:   P11(k) P12(k) …… P1N(k)   P [k] = : : :   PN1(k) PN2(k) …… PNN (k)   当系统满足稳定性假设时   P[k] = Pk = P• P• …… P   其中P为一步状态转移矩阵。   即当系统满足稳定性假设时,k步状态转移矩阵为一步状态转移矩阵的k次方.   例:设系统状态为N = 3,求从状态1转移到状态2的   二步状态转移概率.   解:作状态转移图   解法一:由状态转移图:   1—— 1—— 2: P11 • P12   1—— 2—— 2: P12 • P22   1—— 3—— 2: P13 • P32   P12 = P11 • P12 + P12 • P22 +P13 • P32   =∑ P1i • Pi2   解法二: k = 2, N = 3   P11(2) P12 (2) P13(2)   P = P21(2) P22 (2) P23(2)   P31(2) P32(2) P33(2)   P11 P12 P13 P11 P12 P13   = P•P = P21 P22 P23 P21 P22 P23   P31 P32 P33 P31 P32 P33   得: P12(2) = P11 • P12 + P12 • P22 +P13 • P32   =∑ P1i • Pi2   1.3 稳态概率:用于解决长期趋势预测问题   即:当转移步数的不断增加时,转移概率矩阵 P 的变化趋势。  1.3. 1 正规概率矩阵。   定义:若一个概率矩阵P,存在着某一个正整数m,使P 的所有元素均为正数(Pij >o),则该矩阵称为正规概率矩阵   例: 1/2 1/4 1/4   P = 1/3 1/3 1/3 为正规概率矩阵   2/5 1/5 2/5   0 1 P11 = 0   P=   1/2 1/2 1/2 1/2   但当 m = 2, 有 P2= 1/4 1/4 有Pij >0   它也是正规概率矩阵。(P2 每个元素均为正数)   1 0   但 P= 就找不到一个正数m,使P 的每一个元素均大于0,所以它   0 1 不是正规概率矩阵。   1.3.2 固定概率向量(特征概率向量)   设 P为NN概率矩阵,若U = [U1, U2,…, UN]为概率向量,且满足UP = U,称U为P的固定概率向量   例 0 1   P=   1/2 1/2 为概率矩阵  P的固定概率向量 U = [ 1/3 , 2/3]   检验 UP = [1/3 2/3] 0 1   1/2 1/2   =[1/3 2/3]   1.3.3 正规概率矩阵的性质   (1)设P为NXN正规概率矩阵,则   A .P有且只有一个固定概率向量   U = [U1,U2, …… UN]   且U的所有元素均为正数 Ui > 0   B.NXN方阵P的各次方组成序列 P, P, P, …… ,P 趋于方阵T,且T的每一个行向量都是固定概率向量U。   即 U1 U2 …… UN U   lim Pk= T = : : : = :   U1 U2 …… UN U   这个方阵T称稳态概率矩阵。   这个定理说明:无论系统现在处于何种状态,在经过足够多的状态转移之后,均达到一个稳态。因此,欲求长期转移概率矩阵,即进行长期状态预测,只要求出稳态概率矩阵T;而T的每个行向量都是固定概率向量,所以只须求出固定概率向量U就行了 !   (2)设X为任意概率向量,则XT = U   即任意概率向量与稳态概率矩阵之点积为固定概率向量。   事实上: U1 U2 …… UN   XT = X• : : : = [U1∑Xi U1∑Xi …… U1∑Xi ]   U1 U2 …… UN   = [U1 U2 …… UN ]   = U   例:若 0.4 0.3 0.3   P = 0.6 0.3 0.1 求T   0.6 0.1 0.3   解:设 U = [U1 U2 U3] = [U1 U2 1-U1-U2]   由 UP = U 有   0.4 0.3 0.3   [U1 U2 1-U1-U2] 0.6 0.3 0.1 = [U1 U2 U3]   0.6 0.1 0.3   即 -0.2U1 + 0.6 = U1 → U1 = 0.5   0.2U1 + 0.2U2 + 0.1 =U2 → U2 = 0.25   -0.2U2 + 0.3 = U3 → U3 = 0.25   ∴ U = [0.5 0.25 0.25]   0.5 0.25 0.25   则 T = 0.5 0.25 0.25   0.5 0.25 0.25   说明:   不管系统的初始状态如何,当系统运行时间较长时,转移到各个状态的概率都相等。(列向量各元素相等)   即各状态转移到1状态都为0.5;   2状态都为0.25 ;  3状态都为0.25   1.2市场占有率预测   1.2.1短期市场占有率预测   商品在市场上参与竞争,都拥有顾客,并由此而产生销售,事实上,同一商品在某一地区所有的N个商家(或不同品牌的N个同类产品)都拥有各自的顾客,产生各自销售额,于是产生了市场占有率定义:   设某一确定市场某商品有N个不同品牌(或N个商家)投入销售,第i个商家在第j期的市场占有率   Si(j) = xi(j)/x i =1,2, …… N   其中 xi(j)为第i个商家在第j期的销售额(或拥有顾客数)   x为同类产品在市场上总销售额(或顾客数)   市场占有率所需数据可通过顾客抽样调查得到。   一般地,首先考虑初始条件,设当前状态(即j = 0 )   为 S(0) = [S1(0) S2(0) …… SN(0)]   第i个商家 Si(0) = xi(0)/x → xi(0) = Si(0) x   即当前第i个商家市场占有率与初始市场占有率及市场总量有关.   同时假定满足无后效性及稳定性假设.   由于销售商品的流通性质,有第i个商家第j期销售状况为   xi(k) = x1(0)P1i(k) + x2(0)P2i(k)+ ……+ xN(0)PNi(k)   = xS1(0)P1i(k) +xS2(0)P2i(k) + ……+ xSN(0)PNi(k)   P1i(k)   = x[S1(0) S2(0) ……SN(0)] P2i(k)   :   PNi(k)   有:Si(k) = xi(k)/x P1i(k)   = [S1(0) S2(0) ……SN(0)] P2i(k)   :   PNi(k)   故可用矩阵式表达所有状态:   [S1(k),S2(k), …… ,SN(k)]= [S1(0),S2(0), …… ,SN(0)] P   即 S(k) = S(0) P   当满足稳定性假设时,有   S(k) = S(0) P   这个公式称为已知初始状态条件下的市场占有率k步预测模型.   例:东南亚各国味精市场占有率预测,   初期工作:   a)行销上海,日本,香港味精,确定状态1,2,3.   b)市场调查,求得目前状况,即初始分布   c)调查流动状况;上月转本月情况,求出一步状态转移概率.   1)初始向量:   设上海味精状况为1;   日本味精状况为2;   香港味精状况为3;   有 S(0) = [S1(0) S2(0) S3(0)] = [0.4 0.3 0.3]   2)确定一步状态转移矩阵   P11 P12 P13 0.4 0.3 0.3   P = P21 P22 P23 = 0.6 0.3 0.1   P31 P32 P33 0.6 0.1 0.3   3)3 步状态转移矩阵(假定要预测3个月后)   P11(3) P12(3) P13(3) 0.496 0.252 0.252   P 3= P21(3) P22(3) P23(3) = P 3= 0.504 0.252 0.244   P31(3) P32(3) P33(3) 0.504 0.244 0.252   4)预测三个月后市场   0.496 0.252 0.252   S(3) = S(0)P3 =[0.4 0.3 0.3] 0.504 0.252 0.244   0.504 0.244 0.252   S1(3) = 0.4×0.496 +0.3×0.504 + 0.3×0.504 = 0.5008   S2(3) = 0.2496 S3(3) = 0.2496   1.2.2 长期市场占有率预测   这是求当 k →∞ 时 S(k) → ?   我们知道: S(k) = S(0) P[k]   lim S(k) = S(0) lim P[k] = S(0)•T = U   因此,在已知初始条件下求长期市场占有率就是求稳态概率矩阵,也是求固定概率向量.   求固定概率向量的方法,我们在前一节已有例子,只不过说明了长期市场占有率也是只与稳态矩阵有关,与初始条件无关.
     
     
    马尔可夫过程 - 正文人们在实际中常遇到具有下述特性的随机过程:在已知它目前的状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变(过去)。这种已知“现在”的条件下,“将来”与“过去”独立的特性称为马尔可夫性,具有这种性质的随机过程叫做马尔可夫过程。荷花池中一只青蛙的跳跃是马尔可夫过程的一个形象化的例子。青蛙依照它瞬间或起的念头从一片荷叶上跳到另一片荷叶上,因为青蛙是没有记忆的,当现在所处的位置已知时,它下一步跳往何处和它以往走过的路径无关。如果将荷叶编号并用X0,X1,X2,…分别表示青蛙最初处的荷叶号码及第一次、第二次、……跳跃后所处的荷叶号码,那么{Xnn≥0} 就是马尔可夫过程。液体中微粒所作的布朗运动,传染病受感染的人数,原子核中一自由电子在电子层中的跳跃,人口增长过程等等都可视为马尔可夫过程。还有些过程(例如某些遗传过程)在一定条件下可以用马尔可夫过程来近似。
    关于马尔可夫过程的理论研究,1931年
    Α.Η.柯尔莫哥洛夫发表了《概率论的解析方法》,首先将微分方程等分析方法用于这类过程,奠定了它的理论基础。1951年前后,伊藤清在P.莱维和C.H.伯恩斯坦等人工作的基础上,建立了随机微分方程的理论,为研究马尔可夫过程开辟了新的道路。1954年前后,W.弗勒将泛函分析中的半群方法引入马尔可夫过程的研究中,Ε.Б.登金(又译邓肯)等并赋予它概率意义(如特征算子等)。50年代初,角谷静夫和J.L.杜布等发现了布朗运动与偏微分方程论中狄利克雷问题的关系,后来G.A.亨特研究了相当一般的马尔可夫过程(亨特过程)与位势的关系。目前,流形上的马尔可夫过程、马尔可夫场等都是正待深入研究的领域。
    离散时间马尔可夫链  以上述荷花池中的青蛙跳跃过程为例,荷叶号码的集合E叫做状态空间,马尔可夫性表示为:对任意的0≤n1<n2<…<nl<m, n>0,i1,i2,…,ili,jE,有

    马尔可夫过程

    只要其中条件概率(见概率)有意义。一般地,设E={0,1,…,M}(M为正整数)或E={0,1,2,…},Xnn≥0为取值于E的随机变量序列,如果(1)式成立,则称{X,n≥0}为马尔可夫链。如果(1)式右方与m无关,则称为齐次马尔可夫链。这时(1)式右方是马尔可夫链从i出发经n步转移到j的概率,称为转移概率。对于马尔可夫链,人们最关心的是它的转移的概率规律,而n步转移矩阵马尔可夫过程正好描述了链的n步转移规律。由于从i出发经n+m步转移到j必然是从i出发先经n步转移到某个k,然后再从k出发(与过去无关地)经m步再转移到j,因此有

    马尔可夫过程

    这就是柯尔莫哥洛夫-查普曼方程。根据这一方程,任意步转移矩阵都可以通过一步转移矩阵计算出来。因此,每个齐次马尔可夫链的转移规律可以由它的一步转移矩阵P来刻画。P的每一元素非负且每行之和为1,具有这样性质的矩阵称为随机矩阵。例如,设0<p<1,q=1-p,则M阶方阵

    马尔可夫过程

    为随机矩阵,它刻画的马尔可夫链是一个具有反射壁的随机游动。设想一质点的可能位置是直线上的整数点 0,1,…,M,0和M称为壁,它每隔单位时间转移一次,每次向右或左移动一个单位。如果它处在0或M,单位时间后质点必相应地移动到1或M-1,如果它处于0和M之间的i,则它以概率p转移到i+1,以概率q转移到i-1。又如果把P的第一行换成(1,0,…,0),则此时表示0是吸收壁,质点一旦达到0,它将被吸收而永远处于0。如果不设置壁,质点在直线上的一切整数点上游动,称为自由随机游动,特别当马尔可夫过程时,称为对称随机游动。
    为了进一步研究马尔可夫链的运动进程,需要对状态进行分类。若pij>0,则称i可以直达j,记作ij,如还有pji>0,则记作ij,采用这样的记号,可以用图形表示运动的进程。例如图形

    马尔可夫过程

    表示一个马尔可夫链的运动情况,当链处于b1,b2,b3状态时,将永远在{b1,b2,b3}中运动,当链处于α1,α2,α3,α4状态时,将永远在{α1,α2,α3,α4}中运动,而{d1,d2,…}不具有这种性质,因为从d1可一步转移到b1d2,自d3可到α1d4,等等。对一般的马尔可夫链,若C是由一些状态组成的集合,如果链一旦转移到C中的状态,它将永远在C 中转移,C 就称为这个链的闭集。对闭集C,如果从C 中任一状态出发经有限步转移到另一状态的概率都大于0,则称C为不可约闭集,例如上例中的{b1,b2b3}。至于{b1,b2,b31,c2}虽然也是闭集,但却是可约的。如果从状态i出发经有限次转移后回到i的概率为1,则称i为常返状态。状态空间 E可以分解为由一切非常返状态组成的集E0(如上例中的{d1,d2,…})和一些由常返状态组成的不可约闭集Eα(如上例中的 {b1,b2b3},{α1α2,α3,α4},{с1,c2})的并。这样,在链的转移中,它或者总是在E0中转移,或者转移到某个常返类Eα中,一旦转移到Eα,它将永远在Eα中转移, 而且不时回到其中的每一个状态。特别,当 E本身是不可约常返闭集时,极限马尔可夫过程存在,其中0≤r<tt马尔可夫过程0)的最大公约数,即链的周期,与j无关。近20年建立起来的马丁边界理论,更细致地刻画了链在E0中转移的情况。它的主要思想是在链的状态空间E 中引进距离并将E 完备化,使得在这个距离下,Xn 以概率1收敛(见概率论中的收敛)。
      连续时间马尔可夫链  设E是{0,1,…,M}或{0,1,2,…},{X,t≥0}是一族取值于E的随机变量,如果在(1)式中, 将n1,n2,…,m,n理解为实数,(1)式仍成立,则称{Xtt≥0}为连续时间马尔可夫链。若马尔可夫过程还与s≥0无关,记为pij(t),则称链为齐次的。连续时间齐次马尔可夫链也由它的转移矩阵P(t)=(pij(t))(i,jE,t>0)所刻画。P(t)满足下述条件:①pij(t)≥0,马尔可夫过程;②柯尔莫哥洛夫-查普曼方程马尔可夫过程马尔可夫过程;通常假定:③标准性马尔可夫过程马尔可夫过程 这里δii=1,δij=0(ij)。有时直接称满足①、②、③的一族矩阵P(t)=(pij(t)),t≥0为转移矩阵或马尔可夫链。当①中条件放宽为马尔可夫过程时,称为广转移矩阵,它有很好的解析性质。例如,每个pij(t)在t>0时具有连续的有穷导数 P拞(t);在t=0,右导数P拞(0)存在,ijP拞(0)非负有穷,但P拞(0)可能为无穷。矩阵Q =(qij)呏(P拞(0))称为链的密度矩阵,又称Q矩阵。对于每个齐次马尔可夫链{X,t≥0},钟开莱找到一个具有较好轨道性质(右下半连续)的修正{X慫, t≥0}(即对一切t≥0,P(X慫≠Xt)=0, 且对每个轨道对一切t≥0有马尔可夫过程),而且以概率1,对任意t≥0, s从大于t的一侧趋于t时,X马尔可夫过程最多只有一个有穷的极限点。
    Q为密度矩阵的广转移矩阵称为Q广转移矩阵或 Q过程。在一定条件下,Q广转移矩阵P(t),t≥0满足向后微分方程组

    马尔可夫过程

    或者向前微分方程组

    马尔可夫过程

    上面两个方程组的更普遍形式由柯尔莫哥洛夫于1931年引入。他并提出求解上述方程组的问题,这就是Q矩阵问题或构造问题:给定一个矩阵Q =(qij),满足0马尔可夫过程qij<+∞(ij),马尔可夫过程,是否存在Q广转移矩阵?如果存在,何时惟一?如果不惟一,如何求出全部的Q广转移矩阵?对于qii都有限的情形,W.费勒于1940年构造了一个最小解p马尔可夫过程(t),证明了Q 广转移矩阵总是存在的;中国学者侯振挺于1974年对于qii都有限的情形找到了Q 广转移矩阵的惟一性准则;至于求出全部Q 广转移矩阵的问题,仅仅对一些特殊的情形获得解决。对于Q 的对角线元素全为无穷的情形,D.威廉斯曾获得了完满的结果。
    生灭过程  考察一个群体成员的数目, 在时间的进程中可增可减,假定在时刻t群体有i个成员,在很短的时间间隔(ttt)中,群体数目增加或减少两个或两个以上几乎是不可能的,它只可能增加一个或减少(当i>0时)一个或保持不变。而增加一个的概率为马尔可夫过程马尔可夫过程 马尔可夫过程 ,减少一个的概率为马尔可夫过程,保持不变的概率为马尔可夫过程。(pij(t))的密度矩阵是

    马尔可夫过程

    式中α0≥0,b0>0,对一切i>0,αi>0,bi>0。具有上述形状的密度矩阵的齐次马尔可夫链称为生灭过程。
    物理、化学、生物、医学等的许多实际模型都可以用生灭过程来描述,因此生灭过程有着广泛的实际应用。不仅如此,生灭过程还有重要的理论研究意义。关于生灭过程的结果已经十分丰富。当α0=0,b0>0时,只有一个生灭过程的充分必要条件是马尔可夫过程。对上述条件不成立的情形,中国学者王梓坤于1958年建立了“极限过渡法”,构造了全部生灭过程。这个方法的基本思想是用较简单的杜布过程的轨道来逼近一般过程的轨道。此外,甚至对α0≥0,b0>0的情形,或更一般的双边生灭Q矩阵(即马尔可夫过程马尔可夫过程为一切整数)的情形,全部Q广转移矩阵也都已构造出来。
      一般马尔可夫过程  设(E,B)为可测空间,X={Xt≥0}为一族取值于E的随机变量,如果对任意的马尔可夫过程马尔可夫过程B,以概率1有马尔可夫过程   
    (2)则称X为马尔可夫过程。
    马尔可夫过程的定义还可以进一步扩充。第一,所谓"过去"可以作更广泛的理解,即(2)中由马尔可夫过程Xs所产生的σ域(见
    概率)可以扩大为一般的σ域Fs,只要Fs包含由{X,us}产生的σ域,而当 s<t时,马尔可夫过程。如果对任意s≥0,t>0,A∈B,以概率1有

    马尔可夫过程  (3)

    则称随机过程X={X,t≥0}为马尔可夫过程。第二,可以允许过程有寿命ζ,其中ζ是停时(见随机过程)。这时过程为X={X,t<ζ}。上述定义仍保留,但应作相应的修改,如{XAsA,s<ζ),(3)应理解为在{s<ζ}上几乎处处成立。
    马尔可夫过程的许多性质可以通过转移函数来表达。转移函数P(s,x,t,A)(0≤stxE,A∈B)是满足某些条件的四元函数,它可以理解为过程在时刻s时处在x,在时刻t 时转移到A中的条件概率。如果P(s,x,tA)=P(t-s,x,A)只依赖于t-s,xA,则称转移函数及相应的马尔可夫过程为齐次的。设Ed维欧几里得空间Rd,B为Rd中的波莱尔域(见
    概率分布)Bd,而且齐次转移函数满足下面的登金-金尼条件:对任意 ε>0,马尔可夫过程·马尔可夫过程。式中Vε(x)={y:|y-x|≥ε},那么可以选取轨道连续的齐次马尔可夫过程X,以p(txA)为转移函数。一类重要的轨道连续马尔可夫过程是 d维布朗运动。
    强马尔可夫过程  在马尔可夫性的定义中,"现在"是指固定的时刻,但实际问题中常需把马尔可夫性中的“现在”这个时刻概念推广为停时(见
    随机过程)。例如考察从圆心出发的平面上的布朗运动,如果要研究首次到达圆周的时刻 τ以前的事件和以后的事件的条件独立性,这里τ为停时,并且认为τ是“现在”。如果把“现在”推广为停时情形的“现在”,在已知“现在”的条件下,“将来”与“过去”无关,这种特性就叫强马尔可夫性。具有这种性质的马尔可夫过程叫强马尔可夫过程。在相当一段时间内,不少人认为马尔可夫过程必然是强马尔可夫过程。首次提出对强马尔可夫性需要严格证明的是J.L.杜布。直到1956年,才有人找到马尔可夫过程不是强马尔可夫过程的例子。马尔可夫过程理论的进一步发展表明,强马尔可夫过程才是马尔可夫过程真正研究的对象。
    扩散过程  历史上,扩散过程起源于对物理学中扩散现象的研究。虽然现在扩散过程的最一般的定义是轨道连续的马尔可夫过程,但在1931年柯尔莫哥洛夫对于扩散过程的奠基性研究中,却是按照转移函数来定义扩散过程的。直线上的马尔可夫过程,它有转移函数P(sx,t,A),如果对任意ε>0,

    马尔可夫过程   (4)

    马尔可夫过程 (5)

    马尔可夫过程 (6)

    而且上述极限关于x是一致的,则称此过程为一维扩散过程。粗略地说,这些条件刻画了:在很短时间Δt内,位移也是很小的,对指定的正数ε>0,位移超过ε的概率和时间Δt相比可以忽略不计;在偏离不超过 ε的范围内看,平均偏离与Δt成正比,平均方差也与 Δt成正比。称(5)中的α(t,x)为偏移系数,它反映偏离的大小;称(6)中的b(t,x)为扩散系数,它反映扩散的程度。
    设转移函数具有密度函数p(s,x,t,y),则在适当的附加条件下,p(s,x,t,y)满足方程

    马尔可夫过程   (7)

    马尔可夫过程  (8)

    (7)和(8)分别称为柯尔莫哥洛夫向前方程和向后方程,也称为福克尔-普朗克方程。如果转移函数是齐次的,则α(s,x)=α(x),b(s,x)=b(x)与s无关,且p(t,x,y)满足

    马尔可夫过程 (9)

    马尔可夫过程  (10)αb的某些假定下,可以求上述方程的转移密度解p,从而可以决定一个马尔可夫过程。然而,方程的转移密度解即使存在也未必惟一,因此还要对方程的解附加某些边界条件,以保持解的惟一性。例如,当α(tx)=0,b(tx)=2D (常数D>0)时的向前方程马尔可夫过程马尔可夫过程,附加边界条件马尔可夫过程=0的解是

    马尔可夫过程

    这是称之为维纳-爱因斯坦过程的扩散过程的转移密度函数。又例如,当α(t,x)=-βx(β>0),b(t,x)=2D >0时的向前方程马尔可夫过程附加与上例同样的边界条件的解,是称之为奥恩斯坦-乌伦贝克过程的扩散过程的转移密度函数。
    50年代,费勒引进了推广的二阶微分算子,用半群方法解析地研究了状态空间E =【r1,r2】的扩散过程,解决了在r1r2 处应附加哪些边界条件,才能使向后方程(10)有一个且只有一个转移密度函数解的问题,而且找出了全部这样的边界条件。对于 E是开区间或半开半闭区间的情形也作了研究。登金、H.P.麦基恩及伊藤清等人对于扩散过程轨道的研究,阐明了费勒的结果的概率意义,从而使一维扩散过程有了较完整的理论。
    多维扩散过程是和一个椭圆型偏微分算子联系在一起的,它还有许多未解决的问题,但核心问题之一是多维扩散过程的存在性和惟一性问题;借助于偏微分方程和概率论方法已经得到一些结果。有趣的是,概率论得到的结果反过来也可以解决微分方程的求解问题,例如,可以把方程的解用一个马尔可夫过程表现出来。
    近年来,人们重视从轨道变化的角度来研究扩散过程。常用的方法是随机微分方程和鞅问题的求解。流形上的扩散过程理论是近十年来日益受人们重视的新领域,它是用随机微分方程研究扩散过程的必然延伸。
    马尔可夫过程与位势理论  在空间中给定一个向量场,如果存在一个函数u使得它的负梯度就是给定的向量场,这个函数就是位势。高斯在研究电荷分布时提出了古典位势理论。例如,在空间R3的某物体S 中给定了一个电荷分布μ,那么空间点x处的电位势为

    马尔可夫过程

    一般地,对于空间R3中的测度μ(通常假定具有支撑S ),

    马尔可夫过程

    称为测度μ的牛顿位势。如果不计常数因子的差别,则u可以用三维布朗运动的转移密度函数p(t,x,y)表现出来:

    马尔可夫过程

    如果假定μ关于勒贝格测度有密度函数ƒ,则u还可以通过三维布朗运动{X,t≥0}表现出来:

    马尔可夫过程

    式中Ex表示对从x出发的布朗运动取数学期望。再以和位势理论紧密联系的狄利克雷问题为例,它的解也可以用布朗运动来表述。由此可见,布朗运动与古典位势之间存在着自然的对应关系。这种对应关系也存在于亨特过程和近代位势理论之间。亨特过程就是轨道右连续且拟左连续的强马尔可夫过程。所谓拟左连续,即对任何停时序列τn↑τ,在(τ<+∞)上,以概率1有马尔可夫过程
    马尔可夫过程的位势理论主要有三个问题:狄利克雷问题、扫问题和平衡问题。对于布朗运动,这三个问题都得到了很好的解决
    展开全文
  • 时间序列预测法

    千次阅读 2019-04-28 11:19:09
    转 时间序列预测法 一种历史资料延伸预测,也称历史引伸预测法。是以时间数列所能反映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法。 时间序列,也叫时间数列、历史复数或动态数列。它...

    转 时间序列预测法

    一种历史资料延伸预测,也称历史引伸预测法。是以时间数列所能反映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法。

    时间序列,也叫时间数列、历史复数或动态数列。它是将某种统计指标的数值,按时间先后顺序排到所形成的数列。时间序列预测法就是通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。

    时间序列预测法的步骤

    第一步 收集历史资料,加以整理,编成时间序列,并根据时间序列绘成统计图。时间序列分析通常是把各种可能发生作用的因素进行分类,传统的分类方法是按各种因素的特点或影响效果分为四大类:(1)长期趋势;(2)季节变动;(3)循环变动;(4)不规则变动。

    第二步 分析时间序列。时间序列中的每一时期的数值都是由许许多多不同的因素同时发生作用后的综合结果。

    第三步 求时间序列的长期趋势(T)季节变动(s)和不规则变动(I)的值,并选定近似的数学模式来代表它们。对于数学模式中的诸未知参数,使用合适的技术方法求出其值。

    第四步 利用时间序列资料求出长期趋势、季节变动和不规则变动的数学模型后,就可以利用它来预测未来的长期趋势值T和季节变动值s,在可能的情况下预测不规则变动值I。然后用以下模式计算出未来的时间序列的预测值Y:

    加法模式T+S+I=Y

    乘法模式T×S×I=Y

    如果不规则变动的预测值难以求得,就只求长期趋势和季节变动的预测值,以两者相乘之积或相加之和为时间序列的预测值。如果经济现象本身没有季节变动或不需预测分季分月的资料,则长期趋势的预测值就是时间序列的预测值,即T=Y。但要注意这个预测值只反映现象未来的发展趋势,即使很准确的趋势线在按时间顺序的观察方面所起的作用,本质上也只是一个平均数的作用,实际值将围绕着它上下波动。

    时间序列分析基本特征

    1.时间序列分析法是根据过去的变化趋势预测未来的发展,它的前提是假定事物的过去延续到未来。

    时间序列分析,正是根据客观事物发展的连续规律性,运用过去的历史数据,通过统计分析,进一步推测未来的发展趋势。事物的过去会延续到未来这个假设前提包含两层含义:一是不会发生突然的跳跃变化,是以相对小的步伐前进;二是过去和当前的现象可能表明现在和将来活动的发展变化趋向。这就决定了在一般情况下,时间序列分析法对于短、近期预测比较显著,但如延伸到更远的将来,就会出现很大的局限性,导致预测值偏离实际较大而使决策失误。

    2.时间序列数据变动存在着规律性与不规律性

    时间序列中的每个观察值大小,是影响变化的各种不同因素在同一时刻发生作用的综合结果。从这些影响因素发生作用的大小和方向变化的时间特性来看,这些因素造成的时间序列数据的变动分为四种类型。

    (1)趋势性:某个变量随着时间进展或自变量变化,呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋向,但变动幅度可能不相等。

    (2)周期性:某因素由于外部影响随着自然季节的交替出现高峰与低谷的规律。

    (3)随机性:个别为随机变动,整体呈统计规律。

    (4)综合性:实际变化情况是几种变动的叠加或组合。预测时设法过滤除去不规则变动,突出反映趋势性和周期性变动。

    时间序列预测法的分类

    时间序列预测法可用于短期预测、中期预测和长期预测。根据对资料分析方法的不同,又可分为:简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、趋势预测法、指数平滑法、季节性趋势预测法、市场寿命周期预测法等。

    简单序时平均数法 也称算术平均法。即把若干历史时期的统计数值作为观察值,求出算术平均数作为下期预测值。这种方法基于下列假设:“过去这样,今后也将这样”,把近期和远期数据等同化和平均化,因此只能适用于事物变化不大的趋势预测。如果事物呈现某种上升或下降的趋势,就不宜采用此法。

    加权序时平均数法 就是把各个时期的历史数据按近期和远期影响程度进行加权,求出平均值,作为下期预测值。

    简单移动平均法 就是相继移动计算若干时期的算术平均数作为下期预测值。

    加权移动平均法 即将简单移动平均数进行加权计算。在确定权数时,近期观察值的权数应该大些,远期观察值的权数应该小些。

    上述几种方法虽然简便,能迅速求出预测值,但由于没有考虑整个社会经济发展的新动向和其他因素的影响,所以准确性较差。应根据新的情况,对预测结果作必要的修正。

    指数平滑法 即根据历史资料的上期实际数和预测值,用指数加权的办法进行预测。此法实质是由内加权移动平均法演变而来的一种方法,优点是只要有上期实际数和上期预测值,就可计算下期的预测值,这样可以节省很多数据和处理数据的时间,减少数据的存储量,方法简便。是国外广泛使用的一种短期预测方法。

    季节趋势预测法 根据经济事物每年重复出现的周期性季节变动指数,预测其季节性变动趋势。推算季节性指数可采用不同的方法,常用的方法有季(月)别平均法和移动平均法两种:a.季(月)别平均法。就是把各年度的数值分季(或月)加以平均,除以各年季(或月)的总平均数,得出各季(月)指数。这种方法可以用来分析生产、销售、原材料储备、预计资金周转需要量等方面的经济事物的季节性变动;b.移动平均法。即应用移动平均数计算比例求典型季节指数。

    市场寿命周期预测法 就是对产品市场寿命周期的分析研究。例如对处于成长期的产品预测其销售量,最常用的一种方法就是根据统计资料,按时间序列画成曲线图,再将曲线外延,即得到未来销售发展趋势。最简单的外延方法是直线外延法,适用于对耐用消费品的预测。这种方法简单、直观、易于掌握。

    时间序列预测法案例分析

    案例一:可提费用的时间序列预测

    一、可提费用概述

    可提费用是人寿保险保费收人中重要的组成部分,是目前国内人寿保险公司运营的基本保证。它的变化规律,对于保险公司的资金计划、预算管理、以及发展规划等行为起到至关重要的作用.因此合理、相对准确地预测可提费用对于保险公司在管理决策和发展规划方面起到重要的作用。

    可提费用与诸多因素有关,且这些因素多属于不确定性因素,如:市场的成长性、客户的持续缴费(选择期缴方式的客户)、季节性因素、新产品的开发与投放、央行的利率政策等,而且由于不同产品类型的收入规律和不同国家的经济、社会水平不同,规律也不同,又因为人寿保险的产品保障类型组合非常复杂,统一的预测模式几乎不可能实现.但研究结果表明,可提费用的逐月累计余额构成的时间序列是一个有规则的周期波动,具有明显的趋势性和季节性,月度数据周期为12,这是由中国会计财年决定的(也有一些业务收入的月发生具有明显的季节因素),利用季节模型还可有效刻画年内的波动规律。

    二、时间序列预测法

    1.逐步自回归(StepAR)模型:StepAR模型是有趋势、季节因素数据的模型类。

    2.Winters Method—Additive模型:它是将时势和乘法季节因素相结合,考虑序列中有规律节波动。

    3.ARlMA模型:它是处理带有趋势、季节因平稳随机项数据的模型类。

    4.Winters Method—Muhiplicative模型:该方将时同趋势和乘法季节因素相结合,考虑序列规律的季节波动。时间趋势模型可根据该序列律的季节波动对该趋势进行修正。为了能捕捉到季节性,趋势模型包含每个季节的一个季节参季节因子采用乘法季节因子。

    案例二:时间序列预测法的运用例子

    某一城市从1984年到1994年中,每年参加体育锻炼的入口数,排列起来,共有10个数据构成一个时间序列。我们希望用某个数学模型,根据这10个历史数据,来预测1995年或以后若干年中每年的体育锻炼人数是多少,以便于该城市领导人制订一个有关体育健身的发展战略或整个工作计划。不同的时间序列有不同的特征,例如一个人在一年中每天消耗的粮食基本上是相同的,把这365个数字排列起来。发现它所构成的时间序列总保持在一定水平,上下相差不太大,我们称它是"平稳"时间序列。它的取值和具体是哪个时期无关,只和时期的长短有关。一般来说.只有属于平稳过程的时间序列.才是可以被预测的。

    来源:网络


    推荐阅读:

    1.算法交易策略的成功回测之一https://www.myquant.cn/community/topic/721

    2.股票中的情侣——配对交易https://www.myquant.cn/community/topic/735

    3.分享一个python均线策略https://www.myquant.cn/community/topic/78/2

    4.一个量化交易策略师的自白https://www.myquant.cn/community/topic/652/2

    5.史上最全的量化交易资源合集https://www.myquant.cn/community/topic/624/2


    《算法导论 第三版英文版》_高清中文版

    《深度学习入门:基于Python的理论与实现》_高清中文版

    《深入浅出数据分析》_高清中文版

    《Python编程:从入门到实践》_高清中文版

    《Python科学计算》_高清中文版

    《深度学习入门:基于Python的理论与实现》_高清中文版

    《深入浅出数据分析》_高清中文版

    《Python编程:从入门到实践》_高清中文版


    展开全文
  • 指数平滑法是在移动平均法基础上发展起来的一种时间序列分析预测法,它是通过计算指数平滑值,配合一定的时间序列预测模型对现象的未来进行预测。其原理是任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的...

    概述

    指数平滑法是在移动平均法基础上发展起来的一种时间序列分析预测法,它是通过计算指数平滑值,配合一定的时间序列预测模型对现象的未来进行预测。其原理是任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。它是生产预测中常用的一种方法,也用于中短期经济发展趋势预测,所有的预测方法中,它是用得最多的一种。简单的全期平均法是对时间数列的过去数据一个不漏地全部加以同等利用;移动平均法则不考虑较远期的数据,而给予近期数据更大的权重;指数平滑法则兼容了全期平均和移动平均所长,不舍弃过去的数据,但是仅给予逐渐减弱的影响程度,即随着数据的远离,赋予逐渐收敛为零的权数。

    指数平滑法的基本思路

    预测值是以前观测值的加权和,且对不同的数据给予不同的权,新数据给较大的权,旧数据给较小的权。

    指数平滑法的特点

    指数平滑法对于不同时间的观察值所赋予的权数不同,加大了近期观察值的权数,使预测值能够迅速反映市场实际的变化。权数之间按等比级数减少,此基数之首项为平滑常数\alpha,公比为\left ( 1-\alpha \right )

    指数平滑法对于观测值所赋予的权数有伸缩性,可以取不同的\alpha值以改变权重的变化速率,如\alpha取小值,则权数变化较迅速,观察值的新近变化趋势能迅速反映于指数移动平均值中。因此,运用指数平滑法,可以选择不同的\alpha值来调节时间序列观察值的均匀程度(即趋势变化的平稳程度)。

    平滑常数的选择

    在指数平滑法中,预测成功的关键是\alpha值的选择,但\alpha的取值又容易受主观影响,因此合理确定\alpha的取值方法十分重要。一般来说,\alpha值愈大,新数据所占的比重就越大,原预测值所占比重就愈小,反之亦然。理论界一般人为有以下几种方法可供选择。

    经验判断法

    这种方法主要依赖于时间序列的发展趋势和预测者的经验做出判断。当时间序列呈稳定的水平趋势时,\alpha应取较小值,如0.1~0.3;当时间序列波动较大,长期趋势变化的幅度较大时,\alpha应取中间值,如0.3~0.5;当时间序列具有明显的上升或下降趋势时,\alpha应取较大值,如0.6~0.8,以使预测模型灵敏度高些,能迅速跟上数据的变化;当时间序列呈上升或下降的发展趋势时,\alpha应取较大值,如0.6~1之间。

    试算法

    根据具体时间序列的情况,参照经验判断法,大致确定额定的取值范围,然后取几个\alpha值进行试算,比较不同\alpha值下的预测标准误差,选取预测标准误差较小的\alpha值。在实际应用中,预测者应结合对预测对象的变化规律做出定性判断且计算预测误差,要考虑到预测灵敏度和预测精度是相互矛盾的,须采用折中的\alpha值。

    指数平滑法的分类

    根据平滑次数不同,指数平滑法分为一次指数平滑法、二次指数平滑法和三次指数平滑法等。

    一次指数平滑法

    当时间数列无明显的趋势变化,可用一次指数平滑法预测。

    其计算公式为:S _{t+1}^{\left ( 1 \right )}=\alpha X_{t}+\left ( 1-\alpha \right )S _{t}^{\left ( 1 \right )}

    式中S _{t+1}^{\left ( 1 \right )}t+1期的预测值;X_{t}t期的实际值;S _{t}^{\left ( 1 \right )}t期的预测值。

    二次指数平滑法

    二次指数平滑法是对一次指数平滑的再平滑,它适用于具线性趋势的时间数列。

    其计算公式为:

    S _{t}^{\left ( 1 \right )}=\alpha X_{t}+\left ( 1-\alpha \right )S _{t-1}^{\left ( 1 \right )}

    S _{t}^{\left ( 2 \right )}=\alpha S _{t}^{\left ( 1 \right )}+\left ( 1-\alpha \right )S _{t-1}^{\left ( 2 \right )}

    预测未来T期的预测值公式为:

    y_{t+T}=A_{t}+B_{t}T

    其中,

    A_{t}=2S_{t}^{\left ( 1 \right )}-S_{t}^{\left ( 2 \right )}

    B_{t}=\left ( \frac{a}{1-a} \right )\left ( S_{t}^{\left ( 1 \right ) }-S_{t}^{\left ( 2 \right )} \right )

    三次指数平滑法

    二次指数平滑法是二次指数平滑基础上的再平滑。

    其计算公式是:

    S _{t}^{\left ( 1 \right )}=\alpha X_{t}+\left ( 1-\alpha \right )S _{t-1}^{\left ( 1 \right )}

    S _{t}^{\left ( 2 \right )}=\alpha S _{t}^{\left ( 1 \right )}+\left ( 1-\alpha \right )S _{t-1}^{\left ( 2 \right )}

    S _{t}^{\left ( 3 \right )}=\alpha S _{t}^{\left ( 2 \right )}+\left ( 1-\alpha \right )S _{t-1}^{\left ( 3 \right )}

    预测未来T期的预测值公式为:

    y_{t+T}=A_{t}+B_{t}T+C_{t}T^{2}

    其中,

    A_{t}=3S_{t}^{\left ( 1 \right )}-3S_{t}^{\left ( 2 \right )}+S_{t}^{\left ( 3 \right )}

    B_{t}=\left ( \frac{\alpha }{2\left ( 1-\alpha \right )^{2}} \right )\left ( \left ( 6-5\alpha \right ) S_{t}^{\left ( 1 \right )}-2\left ( 5-4\alpha \right )S_{t}^{\left ( 2 \right )}+\left ( 4-3\alpha \right )S_{t}^{\left ( 3 \right )} \right )

    C_{t}=\left ( \frac{\alpha ^{2}}{2\left ( 1-\alpha \right )^{2}} \right )\left ( S_{t}^{\left ( 1 \right )}-2S_{t}^{\left ( 2 \right )}+S_{t}^{\left ( 3 \right )} \right )

    实例分析

    表中是我国1978-2002年全社会客运量的资料,用二次指数平滑法进行预测。具体步骤如下: 

    我国1978-2002年全社会客运量及预测值
    年份 时间t 全社会客运量y 各期的一次指数平滑值S _{t}^{\left ( 1 \right )} 各期的二次指数平滑值S _{t}^{\left ( 2 \right )} a_{t} b_{t} \hat{y}_{t+1}=a_{t}+b_{t}
          253993.0 253993.0      
    1978 1 253993 253993.0 253993.0 253993.0 0.0  
    1979 2 289665 275396.2 266834.9 283957.5 12841.9 253993.0
    1980 3 341785 315229.5 295871.7 334587.3 29036.7 296799.4
    1981 4 384763 356949.6 332518.4 381380.8 36646.8 363624.0
    1982 5 428964 400158.2 373102.3 427214.2 40583.9 418027.5
    1983 6 470614 442431.7 414699.9 470163.4 41597.6 467798.1
    1984 7 530217 495102.9 462941.7 527264.1 48241.8 511761.1
    1985 8 620206 570164.8 527275.5 613054.0 64333.8 575505.8
    1986 9 688212 640993.1 595506.1 686480.1 68230.5 677387.8
    1987 10 746422 704250.4 660752.7 747748.2 65246.6 754710.7
    1988 11 809592 767455.4 724774.3 810136.4 64021.6 812994.8
    1989 12 791376 781807.8 758994.4 804621.1 34220.1 874158.1
    1990 13 772682 776332.3 769397.1 783267.5 10402.8 838841.2
    1991 14 806048 794161.7 784255.9 804067.6 14858.8 793670.2
    1992 15 860855 834177.7 814209.0 854146.4 29953.1 818926.3
    1993 16 996630 931651.5 884674.5 978628.5 70465.5 884099.5
    1994 17 1092883 1028390.4 970904.0 1085876.8 86229.6 1049094.0
    1995 18 1172596 1114913.8 1057309.9 1172517.6 86405.8 1172106.3
    1996 19 1245356 1193179.1 1138831.4 1247526.8 81521.5 1258923.5
    1997 20 1326094 1272928.0 1219289.4 1326566.7 80458.0 1329048.3
    1998 21 1378717 1336401.4 1289556.6 1383246.2 70267.2 1407024.7
    1999 22 1394413 1371208.4 1338547.7 1403869.1 48991.1 1453513.4
    2000 23 1478573 1435627.1 1396795.4 1474458.9 58247.7 1452860.1
    2001 24 1534122 1494724.1 1455552.6 1533895.5 58757.2 1532706.6
    2002 25 1608150 1562779.6 1519888.8 1605670.4 64336.2 1592652.8
    2003 26           1670006.7
    2004 27           1734342.9

    第一步,计算一次指数平滑值。取\alpha =0.6S_{0}^{(2)}=S_{0}^{(1)}=y_{1}=253993,根据一次指数平滑公式S _{t}^{\left ( 1 \right )}=\alpha y_{t}+\left ( 1-\alpha \right )S _{t-1}^{\left ( 1 \right )},可计算各期的一次指数平滑预测值:

    1978年:S _{1}^{(1)}=0.6y_{1}+0.4S _{0}^{(1)}=0.6\times 253993+0.4\times253993=253993 

    1979年:S _{2}^{(1)}=0.6y_{2}+0.4S _{1}^{(1)}=0.6\times 289665+0.4\times253993=275396.2

    第二步,计算二次指数平滑值。根据二次平滑公式S _{t}^{\left ( 2 \right )}=\alpha S _{t}^{\left ( 1 \right )}+\left ( 1-\alpha \right )S _{t-1}^{\left ( 2 \right )}和一次平滑预测值,可计算各期的二次指数平滑预测值:

    1978年:S _{1}^{(2)}=0.6S_{1}^{(1)}+0.4S _{0}^{(2)}=0.6\times 253993+0.4\times253993=253993 

    1979年:S _{2}^{(2)}=0.6S_{2}^{(1)}+0.4S _{1}^{(2)}=0.6\times 275396+0.4\times253993=266834.9

    第三步,计算参数变量值ab。根据公式

    A_{t}=2S_{t}^{\left ( 1 \right )}-S_{t}^{\left ( 2 \right )}

    B_{t}=\left ( \frac{a}{1-a} \right )\left ( S_{t}^{\left ( 1 \right ) }-S_{t}^{\left ( 2 \right )} \right )

    可计算各期的ab

    1979年:

    a_{2}=2S_{2}^{\left ( 1 \right )}-S_{2}^{\left ( 2 \right )}=2\times275396.2-266834.9=283957.5

    b_{2}=\left ( \frac{a}{1-a} \right )\left ( S_{2}^{\left ( 1 \right ) }-S_{2}^{\left ( 2 \right )} \right )=\frac{0.6}{0.4}(275396.2-266834.9)=12841.9

    第四步,求各期的预测值,根据公式

    y_{t+T}=A_{t}+B_{t}T

    求各期的预测值。

    2000年预测值:\hat{y}_{23}=\hat{y}_{22+1}=a_{22}+b_{22}\times1=1403869.1+148991.1=1452860

    进行外推预测则,

    2003年预测值:\hat{y}_{26}=\hat{y}_{25+1}=a_{25}+b_{25}\times1=1605670.4+64336.2=1670006.7

    2004年预测值:\hat{y}_{27}=\hat{y}_{25+2}=a_{25}+b_{25}\times2=1605670.4+64336.2\times2=1734342.9

    其它

    根据算法原理进行编程,可输入时间序列,平滑次数和\alpha值等参数。根据实际数据,取若干各\alpha值进行试算,比较结果准确率,确定参数。

    初始值的确定,即第一期预测值的确定。一般原数列的项数较多(大于15项)时,可以选用第一期的预测值或第一期的前一期预测值作为初始值。如果原数列的项数较少(小于15项)时,可以选取最初几期(一般为前三期)的平均预测值作为初始值。指数平滑法的选用,一般可根据原数列散点图呈现的趋势来确定。如呈现直线趋势,选用二次指数平滑法,如呈现抛物线趋势,选用三次指数平滑法,或者,当时间序列的数据经二次指数平滑法处理后,仍有曲率时,应选用三次指数平滑法。

    一段时间内收集到的数据所呈现的上升或下降趋势将导致指数预测滞后于实际需求。通过趋势调整,添加趋势修正值,可以在一定程度尚改进指数平滑法的预测结果。调整后的指数平滑法的公式为:包含趋势预测=新预测+趋势矫正

    进行趋势调整的指数平滑法有3个步骤:

    1. 计算第t期的简单指数平滑预测y_{t}
    2. 计算趋势,其计算公式为:T_{t}=(1-b)T_{t-1}+b(y_{t}-y_{t-1}),其中,T_{t}是第t期经过平滑的趋势;T_{t-1}是第t期前一期经过平滑的趋势;b是选择的趋势平滑系数;y_{t}是第t期的简单指数平滑预测;y_{t-1}是第t期前一期的简单指数平滑预测。
    3. 计算趋势调整后的指数平滑预测值,其计算公式为:y_{t}T_{t}=y_{t}+T_{t}
    展开全文
  • 机器学习之时序预测问题简单原理及实战。

    时间序列分析预测法

    简介

    在之前,写了不少关于分类的算法,其中有传统机器学习算法如KNN、SVM,也有深度学习领域的算法如多层感知机,但是可以发现这里的算法核心思路都没有变化,利用一部分已有标签的数据训练模型,让模型去处理没有标签的数据。其实这里的分类只是分类的一种叫做有监督分类(有给定的标准,就是训练集),还有一种分类叫做无监督分类(没有标准),只是将特征接近的归为一类,又称为聚类问题。聚类的问题稍有复杂会在后面提到,这里会提及数据挖掘领域另一个大的问题方向—预测

    时序预测

    预测是人们根据事物的发展规律、历史和现状,分析影响其变化的因素,对其发展前景和趋势的一种推测。预测的方法和形式多种多样,根据方法本身的性质特点将预测方法分为定性预测方法、时间序列分析、因果关系预测。

    时间序列分析预测法是一种定性分析方法,它是在时间序列变量分析的基础上,运用一定的数学方法建立预测模型,使时间趋势向外延伸,从而预测市场的发展变化趋势,确定变量预测值,也称为时间序列分析法、历史延伸法和外推法。

    • 确定性时间序列分析预测法
      • 这种预测方法使用的数学模型是不考虑随机项的非统计模型,是利用反映事物具有确定性的时间序列进行预测的方法,包括平均法、指数平滑法、趋势外推法、季节指数预测法等。
    • 随机性时间序列分析预测法
      • 这种方法是利用反映事物具有随机性的时间序列进行预测的方法。它的基本思想是假定预测对象是一个随机时间序列,然后利用统计数据估计该随机过程的模型,根据最终的模型做出最佳的预测。由于这种方法考虑的因素比较多,计算过程复杂,计算量大,因此发展缓慢。一般市场预测使用的是确定性分析预测法

    原理

    一般,时间序列分析通常将各种可能发生作用的因素进行分类,传统的分类方法是按各种因素的特点或影响效果分为四大类:长期趋势(T),季节变动(S),循环变动(C)和不规则变动(I)。

    时间序列是指同一变量按时间发生的先后顺序排列起来的一组观察值或者记录值。时间序列分析预测法依据的是惯性原理,所以它建立在某经济变量过去的发展变化趋势的基础上,也就是该经济变量未来的发展变化趋势是假设的。然而从事物发展变化的规律来看,同一经济变量的发展趋势在不同时期是不可能完全相同的。这样只有将定性预测和时间序列分析预测结合在一起,才能收到最佳效果。即首先通过定性预测,在保证惯性原理成立的前提下,再运用时间序列分析预测法进行定量预测。

    步骤

    1. 收集历史资料,加以整理,编成时间序列,并根据时间序列绘成统计图。
    2. 分析时间序列。时间序列中的每一时期的数值都是由许许多多不同的因素同时发生作用后的综合结果。
    3. 求时间序列的长期趋势、季节变动和不规则变动的值,并选定近似的数学模式来代表它们。对于数学模式中的未知参数,使用合适的技术方法求出其值。
    4. 利用时间序列资料求出长期趋势、季节变动和不规则变动的数学模型后,就可以利用它来预测未来的长期趋势值T和季节变动值S,在可能的情况下预测不规则变动值I。然后使用以下模式计算出未来的时间序列预测值Y:
      • 加法模式:T+S+I=Y
      • 乘法模式:T*S*I=Y
    5. 如果不规则变动的预测值难以求解,就只求出长期趋势和季节变动的预测值,以两者的和或者积作为时间序列预测值。如果经济现象本身没有季节变动或者不需要预测分季节,分月度的情况,则长期趋势的值就是时间序列的预测值,即T=Y。但是注意这个预测值只反映未来的发展趋势,即使很准确的趋势线也只是一个平均作用,实际值将围绕其上下波动。

    特点

    • 撇开了事物发展的因果关系去分析事物过去和未来的联系。
    • 假设过去的趋势会延伸到未来。
    • 时间序列数据变动存在规律性和不规律性。

    常用预测法

    • 指数平滑法
    • 季节性趋势预测法
    • 市场寿命周期预测法

    实战

    根据一年的历史数据预测后10年数据趋势,使用ARIMA(p,d,q)模型。

    读取数据,对数据绘图,观察是否为平稳序列

    对非平稳序列进行n阶差分,可以看到,一阶差分已经平稳,二阶变动不大,可以选择d=1。

    选择合适的p,q

    如何根据相关图选取ARIMA模型,这里不多提及了。最终确定模型为选定AIC、BIC、HQIC均值最小的ARMA(8,0)

    使用模型进行预测。

    预测结果还是比较合理的,相关代码如下。

    # -*-coding:utf-8-*-
    import pandas as pd
    import numpy as np
    from scipy import stats
    import matplotlib.pyplot as plt
    import statsmodels.api as sm
    from statsmodels.graphics.api import qqplot
    
    
    def get_data():
        """
        读取数据,处理为pandas.Series类型
        :return:
        """
        with open('./data/data.txt') as f:
            data = f.readline()
        data = list(map(int, data.split(",")))
        data = np.array(data, dtype=np.float)
        data = pd.Series(data)
        return data
    
    
    def draw_plot(data):
        """
        对数据进行绘图,观测是否是平稳时间序列
        :param data:
        :return:
        """
        data.index = pd.Index(sm.tsa.datetools.dates_from_range('1927', '2016'))
        data.plot(figsize=(12, 8))
        plt.show()
    
    
    def diff_data(data):
        """
        选择合适的p,q,以求使用ARIMA(p,d,q)模型
        :param data:
        :return:
        """
        # 一阶差分
        fig = plt.figure(figsize=(12, 8))
        ax1 = fig.add_subplot(211)
        diff1 = data.diff(1)
        diff1.plot(ax=ax1)
        # 二阶差分
        ax2 = fig.add_subplot(212)
        diff2 = data.diff(2)
        diff2.plot(ax=ax2)
        plt.show()
    
    
    def choose_pq(data):
        """
        选择合适的p和q
        :param data:
        :return:
        """
        # 检查平稳时间序列的自相关图和偏自相关图
        diff1 = data.diff(1)
        fig = plt.figure(figsize=(12, 8))
        ax1 = fig.add_subplot(211)
        fig = sm.graphics.tsa.plot_acf(data, lags=40, ax=ax1)
        ax2 = fig.add_subplot(212)
        fig = sm.graphics.tsa.plot_pacf(data, lags=40, ax=ax2)
        plt.show()
    
    
    def choose_model(data):
        """
        获取最佳模型
        :param data:
        :return:
        """
        arma_mod70 = sm.tsa.ARMA(data, (7, 0)).fit()
        print(arma_mod70.aic, arma_mod70.bic, arma_mod70.hqic)
        arma_mod30 = sm.tsa.ARMA(data, (0, 1)).fit()
        print(arma_mod30.aic, arma_mod30.bic, arma_mod30.hqic)
        arma_mod71 = sm.tsa.ARMA(data, (7, 1)).fit()
        print(arma_mod71.aic, arma_mod71.bic, arma_mod71.hqic)
        arma_mod80 = sm.tsa.ARMA(data, (8, 0)).fit()
        print(arma_mod80.aic, arma_mod80.bic, arma_mod80.hqic)
    
    
    def valid_model(data):
        """
        模型检验
        :param data:
        :return:
        """
    
        arma_mod80 = sm.tsa.ARMA(data, (8, 0)).fit()
        resid = arma_mod80.resid
        fig = plt.figure(figsize=(12, 8))
        ax1 = fig.add_subplot(211)
        fig = sm.graphics.tsa.plot_acf(data, lags=40, ax=ax1)
        ax2 = fig.add_subplot(212)
        fig = sm.graphics.tsa.plot_pacf(data, lags=40, ax=ax2)
        plt.show()
    
        print(sm.stats.durbin_watson(arma_mod80.resid.values))
    
        fig = plt.figure(figsize=(12, 8))
        ax = fig.add_subplot(111)
        fig = qqplot(resid, line='q', ax=ax, fit=True)
        plt.show()
    
        r, q, p = sm.tsa.acf(resid.values.squeeze(), qstat=True)
        data = np.c_[range(1, 41), r[1:], q, p]
        table = pd.DataFrame(data, columns=['lag', 'AC', 'Q', 'Prob(>Q)'])
        print(table.set_index('lag'))
    
    
    def predict(data):
        """
        模型预测
        :param data:
        :return:
        """
        data.index = pd.Index(sm.tsa.datetools.dates_from_range('1927', '2016'))
        arma_mod80 = sm.tsa.ARMA(data, (8, 0)).fit()
        predict_sunspots = arma_mod80.predict('2016', '2026', dynamic=True)
        print(predict_sunspots)
        fig, ax = plt.subplots(figsize=(12, 8))
        ax = data.ix['1927':].plot(ax=ax)
        fig = arma_mod80.plot_predict('2016', '2026', dynamic=True, ax=ax, plot_insample=False)
        plt.show()
    
    
    if __name__ == '__main__':
        data = get_data()
        # draw_plot(data)
        # diff_data(data)
        # choose_pq(data)
        # choose_model(data)
        # valid_model(data)
        predict(data)
    
    

    补充说明

    参考了《Python3数据分析与机器学习实战》,具体数据集和代码可以查看我的GitHub,欢迎star或者fork。

    展开全文
  • 多元线性回归分析预测法概述

    万次阅读 2017-11-21 16:27:23
    在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的...这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。  多元回归分析预测法,是指通过对两个或两个以
  • 什么是移动平均法? 移动平均法是用一组最近的实际数据值来预测...移动平均法根据预测时使用的各元素的权重不同 移动平均法是一种简单平滑预测技术,它的基本思想是:根据时间序列资料、逐项推移,依次计算包含一定项
  • 什么是时间序列预测法

    千次阅读 2010-06-06 14:02:00
    什么是时间序列预测法?  一种历史资料延伸预测,也称历史引伸预测法。是以时间数列 所能反映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法。  时间序列,也叫时间数列、...
  • 预测算法——指数平滑

    万次阅读 多人点赞 2016-07-21 12:59:03
    指数平滑是移动平均法中的一种,其特点在于给过去的观测值不一样的权重,即较近期观测值的权数比较远期观测值的权数要大。根据平滑次数不同,指数平滑分为一次指数平滑、二次指数平滑和三次指数平滑等。但...
  • 常见预测方法及其特点

    万次阅读 2015-05-07 14:06:26
    常见预测方法及其特点   方法名 适用时间 方法说明 需要数据 定性方法 专家会议 长期预测 组织专家以会议的形式进行预测,综合专家意见得出结论 市场历史发展资料信息 德尔菲 ...
  • 德尔菲——意见可靠预测方法

    千次阅读 2019-07-09 08:59:14
    德尔菲/得尔飞(Delphi Method) 目录 1德尔菲的简介 1.1德尔菲的起源演变 1.2德尔菲的典型特征 2德尔菲的特征 3德尔菲的具体实施步骤 3....
  • [Spark中移动平均法的实现]

    万次阅读 2018-06-24 21:28:19
    一、 基本概念 移动平均法是一种简单平滑预测技术,它的基本思想是:根据时间序列资料、逐项推移,依次计算包含一定项数的序时平均值,以反映短期趋势的方法。因此,当时间序列的数值由于受周期变动和随机波动的...
  • 生产经营中常用的预测算法

    千次阅读 2017-04-20 13:35:50
    1.简易平均法,包括几何平均法、算术平均法及加权平均法; 2.移动平均法,包括简单移动平均法和加权移动平均法; 3,指数平滑,包括 一次指数平滑和二次指数平滑,三次指数平滑; 4,线性回归,包括一元线性...
  • 目录 1. 基础知识 2. 简单滑动平均(rolling mean) 3. 指数平均(EXPMA) ...全期平均法:简单的全期平均法是对时间数列的过去数据一个不漏地全部加以同等利用; 移动平均法:移动平均法则不考虑较远期...
  • 预测与规划

    千次阅读 2007-06-04 17:05:00
    平均预测法有多种具体计算模型,如算术平均预测法、几何平均预测法、移动平均预测法、指数平滑预测法 2在应用算术平均预测法时,要特别注意数据的变化规律,如果数据有明显的上升和下降趋势,则不能采用算术平均...
  • java二次指数平滑法预测未来的值

    千次阅读 2019-01-10 18:07:36
    指数平滑是一种特殊的加权平均法,加权的特点是对离预测值较近的历史数据给予较大的权数,对离预测期较远的历史数据给予较小的权数,权数由近到远按指数规律递减,所以,这种预测方法被称为指数平滑。...
  • 指数平滑之收入预测

    千次阅读 2020-10-28 14:57:23
    时间序列平滑包括:简单平均法、移动平均法(简单移动平均法和加权移动平均法)、一次指数平滑(Single Exponential Smoothing)、布朗(Brown)单一参数线性指数平滑、霍特(Holt)双参数指数平滑、布朗三...
  • 1、什么是指数平滑 指数平滑是生产预测中常用的一种方法。也用于中短期经济发展趋势预测,所有预测方法中,指数平滑是用得最多的一种。简单的全期平均法是对时间数列的过去数据一个不漏地全部加以同等利用;...
  • 了解ARIMA模型就要先了解数据的平稳性,样本数据获得的时间序列,在未来一段时间沿着一个“趋势”发展下去,只有具有平稳性的数据才可以做预测 平稳性的数据均值和方差不发生明显变化 方差越大数据的波动越大 ...
  • 数据预测
  • 加权平均和移动平均

    千次阅读 2015-10-22 09:58:00
    移动平均法是用一组最近的实际数据值来预测未来一期或几期内的预测数一种常用方法。移动平均法适用于即期预测。当产品需求既不快速增长也不快速下降,且不存在季节性因素时,移动平均法能有效地消除预测中的随机波动...
  • 时间序列预测

    千次阅读 2014-07-15 20:53:36
    时间序列预测法 时间序列预测法(Time Series Forecasting Method) 目录 [隐藏] 1 什么是时间序列预测法?2 时间序列预测法的步骤3 时间序列分析基本特征[1]4 时间序列预测法的分类5 时间...
  • 时间序列分析和预测(含实例及代码)

    万次阅读 多人点赞 2018-09-17 21:37:34
    时间序列预测法的基本特点 假设事物发展趋势会延伸到未来 预测所依据的数据具有不规则性 不考虑事物发展之间的因果关系 时间序列数据用于描述现象随时间发展变化的特征。 时间序列分析就其发展...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 17,385
精华内容 6,954
关键字:

平均预测法特点