精华内容
下载资源
问答
  • 贝叶斯法则:预测未来

    千次阅读 2018-07-12 20:55:32
    本文节选自《算法之美:指导工作与生活的算法》中信出版集团,2018年05月出版人类获得的所有知识都是确定的、准确的和全面的。——伯特兰·罗素明天太阳会照常升起。你...

    640?wx_fmt=png

    本文节选自《算法之美:指导工作与生活的算法》

    中信出版集团,2018年05月出版


    人类获得的所有知识都是不确定的、不准确的和不全面的。

    ——伯特兰·罗素

    明天太阳会照常升起。你可以用你的一切来打赌太阳会出来。

    ——安妮


    1969年,J. 理查德·戈特三世在普林斯顿攻读天体物理博士学位之前,他去欧洲旅行了一趟。他看见了柏林墙,那是8年前建成的。站在墙的影子下,这仿佛是冷战的一个鲜明象征,他开始思索这墙会将东德和西德地区继续分割多久。


    从表面上看,试图做出这种预测有些荒谬。即使撇开地缘政治的不可预测性不说,这个问题仅在数学上似乎就很可笑:因为它试图从一个单一数据点进行预测。


    但是,尽管这看起来很可笑,但我们总是会根据需要做出这样的预测。你到了一个外国城市的公共车站,也许其他游客已经站在那里等了7分钟。下一班车什么时候到?继续等待是否值得?如果是这样的话,在放弃之前你应该再那等多久?


    或者你的一个朋友已经和某人约会了一个月,希望得到你的建议:邀请他们一起参加即将到来的人的婚礼是否太早?这种关系已经有了一个良好的开端,但是什么时候开始制订计划比较合适呢?


    谷歌的研究部主任彼得·诺维德曾进行过一次题为“数据的不合理有效性”的著名演讲,该演讲深究了“数十亿琐碎的数据点最终如何能被理解”。媒体不断告诉我们,我们生活在一个“大数据时代”,计算机可以筛选这数十亿的数据点并发现一些肉眼看不到的细节。但跟日常生活联系最密切的问题往往是另一种极端。我们的生活充满“小数据”,我们就像看到柏林墙的戈特一样,也就是通过一个单一的观察,做一个推论。


    那么我们一般怎么做呢?我们又应该怎样做?

    故事发生在18 世纪的英国,那时,有一个研究领域对伟大的数学思想家来说是不可抗拒的(对那些神职人员也是如此),那就是赌博。


    贝叶斯牧师的倒推理

    因此,如果我们相信过去的经验,并把它作为我们判断未来的标准,那这些标准就一定不是确定的。

    ——大卫•休谟


    250 年前 ,贝叶斯牧师就很重视小数据预测问题,他来自英国迷人的温泉城镇坦布里奇韦尔斯,是一位长老会的牧师。


    贝叶斯设想,如果我们买10 张新的、不熟悉的抽奖彩票,其中有5 张中奖,那么要估计中奖概率就似乎相对容易:5/10,或50%。但是,如果我们只买了一张彩票,并赢得奖品呢?我们真的认为中奖的概率就是1/1,或是100%的?这似乎过于乐观,不是吗?如果是这样的话,那中奖概率应该是多少?我们应该猜多少呢?


    对于那些曾在不确定性推理历史上产生如此重大影响的人来说,贝叶斯自己的故事也具有讽刺的不确定性。他出生于1701年或者1702年,出生地是英国的赫特福德郡,或是伦敦。在1746年,或1748年,或1747年,抑或是1749年,他写了一篇在数学界最具影响力的论文,他却未将它发表,并继续做其他事情。


    在这两个事件之间我们有了更多的把握。作为牧师的儿子,贝叶斯去爱丁堡大学学习神学,并像他父亲一样被任命为牧师。他对数学和神学感兴趣,并在1736年为牛顿全新的 “微积分”理论写了一篇慷慨激昂的辩护书,以回应乔治伯克利主教对牛顿的攻击。这使他在1742年当选为皇家学会的成员,并被赞誉为“擅长几何、数学和哲学学习的绅士”。


    1761年贝叶斯去世后,他的朋友理查德·普莱斯被要求整理他的数学论文,看是否有可发布的内容。一篇文章引起了他的兴趣,并令他特别兴奋——他说这篇文章“极为出色,值得保存”。这篇论文就论述了本文所讨论的彩票问题:


    让我们想象一个人在抽奖的时候,对会不会中奖完全不知道,也不知道中奖和无奖的比例如何。让我们进一步假设,他要从他之前了解到的无奖的数量来推测相对的中奖数量,并询问他在这些情况下能做出什么合理的结论。


    贝叶斯的关键见解是,试图使用我们看到的中奖和未中奖彩票来分析彩票来源于整体彩票池的方法,本质上是在倒推。他说,要做到这一点,我们需要先用假设向前推理。换句话说,我们首先需要确定,如果各种可能场景都成真的情况下,我们中奖的可能性有多少。这个被现代统计学家称为“可能性”的概率给了我们解决问题所需要的信息。


    例如,假设我们买了三张彩票,三张都中奖了。现在,如果这种彩票中奖率特别高,所有彩票都能中奖,那我们的买三中三的中奖率就肯定会一直发生,在这种情况下就是100% 的概率。但如果只有一半的彩票能中奖,那我们三张彩票的中奖率就是1/2×1/2×1/2, 也就是1/8。如果1 000 张彩票只有一张能中奖,那么我们的中奖率将是1/1 000×1/1 000×1/1 000,也就是1×10–9。


    贝叶斯认为,因此我们应该判断如何能让所有彩票都尽可能中奖而不是一半能中奖,或者尽可能使一半的彩票中奖而不是1/1 000。也许我们生来便拥有这种直觉,但贝叶斯的逻辑思维却给我们提供了为这种直觉定量的方法。在同等条件下,我们应该想象成所有彩票都中奖的概率比一半中奖的概率要高8 倍,因为我们在这种情况下买的彩票正好是8 倍多的中奖概率(100% 与1/8)。同样的,一半的彩票中奖的概率正好是1 000 张中一张中奖的1.25 亿倍,我们已经通过比较1/8 和1×10–9 而得知其中的原因。


    这是贝叶斯论证的关键所在。从假设的过去向前推理,并奠定了理论基础,让我们可以向后找到最大的可能性。


    这是一个巧妙和创新的方法,但它对抽奖问题没能提供一个完整的答案。普莱斯在向皇家学会提交贝叶斯的研究结果时,他能够确定,如果你买了一张彩票并中奖了,那么至少有一半的彩票都能中奖的概率是75%。但是,考虑概率的概率问题会让人有点儿头晕。更重要的是,如果有人在催促我们:“好吧,但是你认为彩票的中奖率到底是多少?”我们仍然不知道该说什么。


    如何将所有可能的假设提取到单一的期望值,这一问题将在短短几年后由法国数学家皮埃尔·西蒙·拉普拉斯解答。


    拉普拉斯定理

    1749年,拉普拉斯生于诺曼底,他父亲送他到一所天主教学校,并希望他成为神职人员。拉普拉斯继续在卡昂大学学习神学,他不像贝叶斯那样一生都能平衡对神学和科学的奉献,因此他最终放弃了做牧师,而专攻数学。


    1774年,在完全不知道贝叶斯以前做的工作的情况下,拉普拉斯发表了一篇雄心勃勃的论文,名为“事件原因的概率论”。在这篇论文中,拉普拉斯终于解决了如何从观察到的效果向后推理并找出可能的原因这一问题。


    如我们所见,贝叶斯找到了一种比较两种假设的相对可能性的方法。但是在彩票这一问题上,这里的假设几乎就是无穷的——每一个中奖彩票可能的比例。利用微积分这一曾备受争议却受到贝叶斯坚决拥护的数学学科,拉普拉斯能够证明这个巨大范围的可能性,这可以提取成一个单一的预估值和一个非常简洁的数字。他表示,如果我们提前真的不知道彩票的情况,然后当我们第一次买的三张彩票中的一张彩票中奖了,我们可以推测奖池里彩票的总中奖比例为2 / 3。如果我们买三张彩票,都中奖了,那我们可以推测总中奖比例正好是4/5。事实上,如果买n 张彩票共w 张中奖,那么中奖率就是中奖数加1,除以所购买的数目加2,即w+1/n+2。


    这种令人难以置信的简单的方法估计概率的简单方法被称为拉普拉斯定律,它很容易就能适用于任何你需要通过历史事件来评估概率的情况。如果你做了10 次尝试,其中有5 次成功,拉普拉斯定律估计你的整体成功概率是6/12 或50%,这符合我们的直觉。如果你只试一次便取得成功,拉普拉斯给的估计是2/3,这比假设你每次都赢更合理,也比普莱斯的观点更具可操作性(它告诉我们,50% 或更大的成功概率有75% 的元概率)。


    拉普拉斯继续将他的统计方法应用到广泛的时间问题上,包括评估男孩和女孩的出生率是否真正平均。(他发现,男婴其实比女婴的出生率稍高。)他还写了关于概率的哲学论文,可以说这是给大众读者的第一本关于概率的书,也是最好的概率书之一,此书奠定了他的理论基础并讲述了这些理论在法律、科学与日常生活上的应用。


    拉普拉斯定律为我们在现实世界中面对小数据时提供了第一种简单的经验法则。即使我们只进行了一些或一次观察,它也都能给予我们实际指导。想知道你的车晚点的概率吗?你的垒球队会赢吗?数一数过去已经发生的数量再加一,然后除以可能的机会数再加2。拉普拉斯定律的精髓就在于无论我们有一个单独的数据点或数以百万计的数据,它都同样适用。小安妮相信太阳明天会升起是有道理的,这句话告诉我们:地球已经连续看到太阳上升约1.6 万亿天,在下一次的“尝试”中看见太阳不升起来的机会,几乎没有可能。


    贝叶斯法则与先验信念

    可以想象,所有这些假设都是一致并可以想象的。为什么我们要偏向其中一种,而这一种并不比其余的更一致或可以想象?

    ——大卫•休谟


    拉普拉斯也考虑了另一种修饰贝叶斯理论的方法,这将被证明是至关重要的:那就是如何处理那些比其他假设可能性更大的假设。例如,买彩票时,99%的中奖率是有可能的,但我们可以假设中奖率更有可能只有1%。这一假设应该体现在我们的估算过程中。


    说得更具体点儿,例如有一个朋友给你看两个不同的硬币。一个是正常的“公平”硬币,正反两面都具有50–50的概率,另一种是两面都是头像的硬币。他把它们扔到一个袋子里,然后随意地拿出一个,他将硬币旋转一次:是头像。你认为你的朋友旋转的是哪个硬币?


    贝叶斯的反向工作方案使这个问题变得简单。那个公平硬币转到头像的概率是50%,另一个双头硬币转到头像的概率是100%。因此,我们可以自信地断言,转到这个硬币的概率是100%除以50%,或朋友掏出双头硬币的概率是它的两倍。


    现在考虑下面一次的旋转。这一次,朋友给你看9个公平硬币和一个双头像硬币,把所有10枚硬币都装进袋子,随机抽取一个,并翻转它:还是头像。现在你怎么想?这次是公平硬币还是双头像硬币?


    拉普拉斯预料到了这一点,而且答案又一次简单得令人印象深刻。如果和以前一样,一枚公平硬币转到头像的概率正好是一枚双头像硬币的一半。但现在,首先公平的硬币被抽到的概率就是双头像硬币的9 倍。事实证明,我们可以把这两个不同的概率都考虑进去,并把它们相乘:这就是说,你朋友持有一个公平的硬币的概率是双头像硬币的4.5 倍。


    描述这种关系的数学公式,将我们先前持有的观念和我们眼前的证据结合起来,就形成了后来的贝叶斯法则。有点儿讽刺的是,真正重要的工作却是由拉普拉斯完成的。它提供了一个非常简单的解决方案来如何处理现有的信念与观察到的证据:将它们的概率相乘。


    值得注意的是,有一些预先存在的信念,在计算这个公式时至关重要。如果你的朋友只是走近你说:“我从这个袋子里翻出了一枚硬币,最后转出头像那面。你认为这是一枚公平硬币的概率有多大?”除非你最开始就对袋子里是什么硬币有一定了解,否则你完全无法回答这个问题。(当你对任何一个概率都无从得知的时候,你便无法将两个概率相乘),在硬币翻转之前,你对“袋子里”是什么的感觉,或是说在你看到任何数据之前,每个假设的概率都是真实可能的,这就是所谓的先验概率,或者简称为“先验”。贝叶斯法则总是需要一些先验,即使它只是一个猜测。有多少枚双头像硬币?抽到他们的概率有多大?那么,你的朋友有多大可能是一个骗子呢?


    贝叶斯法则依赖于先验概率,这一点在历史上的某些时刻被认为是有争议的、有偏见的,甚至是不科学的。但在现实中,我们的头脑实际上很少会进入一个完全空白甚至停滞的状况。


    当你对先验概率有一定的预估时,贝叶斯法则也适用于各种各样的预测问题,无论它们是大数据类型还是更常见的小数据排序。计算彩票获奖概率或扔硬币的概率仅仅是开始。由贝叶斯和拉普拉斯研究出的方法可以在任何时候帮助我们,尤其是当我们遇到不确定性或数据不足的问题和工作时。这正是我们试图预测未来时所面对的情况。


    哥白尼原则

    预测本就是一件难事,预测未来尤其如此。

    ——谚语


    当理查德·戈特看到柏林墙时,他问了自己一个非常简单的问题:我在哪?也就是说,在这一人工建筑存在的全过程中,我是否恰好已经到达了呢?简而言之,他是在从时间角度问一个空间问题,而这一问题正是在400年前深深吸引着天文学家尼古拉·哥白尼的问题:我们在哪?地球在宇宙的什么位置?与前人不同,哥白尼激进地以为地球不是宇宙的中心,也就是说地球没有什么特别的。戈特决定采取同样的关于时间的分析步骤。


    他设想,他到达柏林墙的那一刻并不特别,因为这只是柏林墙整个历史中的一瞬。如果有任何一个时刻都有同样的可能性,那么平均来说,他的到来应该是在一个精确的中间点(因为他有50%概率是在此之前到来,或50%的概率是在此之后)。更普遍的是,除非我们确定我们在某个特定时间现象中出现的特定中间点。a如果我们假设我们到达的中间点有精确的时间,那么对于它在未来还可以持续多久的最佳猜测就变得很明显:确切地说就是它已经存在的时间。戈特看到柏林墙时已经建成8 年了,所以他最好的猜测是,它将再存在8 年。(最终,这个数字是20 年。)


    这个简单的推理,被戈特称为哥白尼原则,它可以得出一个简单的算法,能为各类事件做出预测判断。在没有任何先入为主的预测时,我们不仅可以用它来获得对柏林墙终结时间的预测,同时也可以预测任何其他短期和长期现象。哥白尼原则预测道,美利坚合众国作为一个国家将一直持续到2255 年左右,谷歌将持续到大约2032 年,你与你的朋友一个月前开始的一段关系将可能再持续约一个月(也许你该告诉他不要参加刚收到的婚礼邀请呢)。同样,它告诉我们要持怀疑态度,例如,《纽约客》杂志封面是一个人拿着一个6 英寸的智能手机,上面有大家熟悉的网格正方形应用程序图标,标题为“2525”。但这是令人怀疑的。据我们所知,智能手机刚诞生10 年,哥白尼原则告诉我们,它不可能出现在2025 年,更别说5 世纪后了。到2525年,即使还有一个纽约市存在,也会让人感到吃惊。


    更实际地说,如果我们正在考虑一份建筑工地的工作,他们的标牌表明“上一次工程事故发生在7 天前”,我们可能会想离开,除非这是一份我们计划做得特别短的工作。如果一个城市的公交系统承担不起可以告诉乘客下一班车什么时候会到来这一非常有用却很昂贵的实时提醒系统的话,哥白尼原则表明,可能有一个更简单也更便宜的替代品。那就是简单地显示前一辆公交车到达此处的时间距离现在有多久,这可以为判断下一辆公交车到来的时间提供一个实质性的提示。


    但是哥白尼原则就一定正确吗?当戈特在《自然》杂志上发表了他的猜想之后,该杂志收到了很多重要信件。当我们尝试将规则应用到一些比较熟悉的例子时,很容易理解这是为什么。如果你遇到一个90岁的男子,哥白尼原则预测他会活到180岁。同时,每个6岁的男孩都会被预测将在12岁时早逝。


    要理解为什么哥白尼原则是合理的,以及为什么它有时不合理,我们需要回归到贝叶斯法则。因为,哥白尼原则尽管具有明显的简单性,但其的确是贝叶斯法则的一个实例。


    贝叶斯与哥白尼

    在预测未来时,如柏林墙的寿命这类问题,我们需要评估的假设是所有手头上掌握的现象的持续时间:它会持续一个星期,一个月,一年,还是十年?正如我们已经看到的,要应用贝叶斯法则,我们首先需要给每个现象的持续时间分配一个先验概率。事实证明,哥白尼原则正是应用贝叶斯法则并使用了所谓的无信息先验的结果。


    起初,这似乎是一个矛盾。如果贝叶斯法则总是要求我们明确事先的预测和想法,我们又怎么能告诉它,我们没有任何预测结果呢?在彩票抽奖的情况下,为无知进行辩护的一个方法就是被称为“统一先验”的方法,这就是认为每个中奖彩票的比例都是相同的。在柏林墙这一例子中,无信息先验意味着:我们对将要预测的时间范畴一无所知:墙可能会在接下来的5 分钟或5 年后倒塌。


    除了这些无信息先验,如我们所见,我们供应给贝叶斯法则的唯一一部分数据,事实上就是我们到达柏林墙的时候,它已经存在了8 年。任何预测它小于8 年寿命的假设都可以被排除,因为这些假设不能解释我们这里的情况。(同样的,一枚双头像硬币就可以排除字那面的可能性。)任何超过8 年的预测都是有可能的,但是如果柏林墙要存在100 万年,那它将是一个很大的巧合,表明我们几乎是接近它存在的最初起点。因此,即使特别长的寿命不能排除,但它也不大可能出现。


    当贝叶斯法则与所有这些概率结合——更有可能的短时限就拉低了平均预测,可能性更小但也有一定可能性的长时限又将其拉高,哥白尼原则便出现了:如果我们要预测某个事物还将持续存在多久(在对它没有其他任何了解时),我们可以做出的最好的猜测就是,它将再持续已经存在的时间。


    事实上,戈特并不是第一个提出类似哥白尼原则的人。20 世纪20 年代中期,贝叶斯统计学家哈罗德·杰佛利曾考虑仅仅通过一辆城市有轨电车的序号来确定一个城市有轨电车的数量,并得出了相同的答案:该数字的双倍。一个类似的问题出现得更早,在第二次世界大战期间,同盟国试图估计由德国制造的坦克数量。他们通过所捕获的坦克的序列号,在纯数学估计的基础上进行预测,得出的结果是德国每月生产246 辆坦克,而通过广泛的(高度危险的)空中侦察所获得的估计表明,这个数字更接近于1 400。而战后,德国记录显示的真实数字是:245。


    在认识到哥白尼原则是无信息先验基础上的贝叶斯法则之后,就可以回答很多关于其有效性的问题。哥白尼原则在我们什么都不知道的情况下似乎是合理的、准确的,如在1969年看到的柏林墙,我们不确定什么时间范畴是合适的。同时,在我们对某一对象的确有所了解时,就会感觉这是完全错误的。预测一个90岁的人能活到180岁是不合理的,这恰恰是因为我们关于人类寿命已经了解了很多——在这种情况下,我们就可以预测得更好。我们给贝叶斯法则带来的先验信息越丰富,我们便能从中得到越有用的预测。


    真实世界的先验……

    从广义上讲,世界上有两种类型的事物:倾向于(或围绕)某种“自然”价值的事物,以及与之相反的事物。


    人类的生命跨度显然是属于前一类。它大体遵循所谓的“正态”的分布,也被称为“高斯”分布(这是以德国数学家卡尔·弗里德里希·高斯命名的),同时因其分布的形状特征也被形象地称为“钟形曲线”。这种形状能很好地表现人类的寿命,例如,美国男性的平均寿命集中在76岁左右,曲线顶端的两边呈现急剧下降的趋势。正态分布往往都有一个适当的比例:一位数的寿命往往会被认为是悲惨的,三位数的寿命是非凡的。自然世界的许多其他事情也都呈现正态分布的趋势,从人的身高、体重、血压,到城市正午的温度,或是果园的果实直径。


    世界上有许多事物看起来似乎并不呈现正态分布,但这只是因为你没有长远地看。例如,美国一个城镇的平均人口是8 226 人。但是如果你要按人口统计该城镇数量图表,你就不会看到像钟形曲线那样长远才能实现的东西。还有很多小镇的人口远不足8 226 人,同时,某些重要城镇的人口会比平均人口要大得多。这种模式就是所谓的“幂律分布”,也被称为“无标度分布”,因为他们可以在多个尺度的范围表达数量:一个城市能有几十,数百,数千,数万,数十万,甚至数百万名的居民,所以我们不能以一个单一的数值来定义一个“正常”的城镇有多大。


    幂律分布可以描述在日常生活中一系列与城镇人口分布类似的现象:大多数都低于平均值,少数是超过的。电影的票房收入,其范围可以是从4~10 位的数字,这是另一个例子。有些电影根本挣不了那么多钱,但偶尔也有像《泰坦尼克号》这样的高票房电影。


    事实上,一般来说,货币是一个充满权力法则的领域。幂律分布可以描述人民的财富和人民的收入。例如,美国的人均收入是55 68美元,但由于收入大致是呈幂律分布的,这样我们便会得知,平均值以下的人会比平均值以上的要多,而平均值以上的人的收入可能高得几乎偏离了图表。事实也的确如此:美国2/3 的人口收入低于平均收入,但前1% 的人的收入几乎是平均水平的10 倍。这1% 中的前1%的人的收入又是其余99% 的10 倍。


    人们常常感叹“富人会变得更富有”,实际上“偏好依附”的过程是产生幂律分布的最可靠的方法之一。我们使用最多的网站往往就是最有可能获得导入链接的网站,拥有最多人追随的网络红人就是最有可能获得新支持者的人,最有声望的公司就是最有可能吸引新客户的公司,最大的城市就是最有可能吸引新居民的城市。在这每一种情况下,幂律分布都会得出这个结果。


    贝叶斯法则告诉我们,在基于有限的证据进行预测时,很少有事情是和好的先验一样重要的,也就是说,我们期望证据可以从分布结果中得出。因此,良好的预测最开始要有良好的直觉,要能感觉到我们何时在处理一个正态分布,何时在处理一个幂律分布。事实证明,贝叶斯法则为我们处理这些情况各提供了一个简单但显著不同的预测经验法则。


    他们的预测规则

    你是指“这会一直”朝好的方向发展吗?

    ——本•勒纳

    为了验证哥白尼原则,我们看到,当给贝叶斯法则一个无信息先验时,它会一直预测事物的总寿命为目前寿命的两倍。事实上,无信息先验的可能性有很宽泛的尺度,柏林墙可能继续存在几个月或几千年,这个尺度就是幂律分布。对于任何幂律分布,贝叶斯法则表明,一个合适的预测策略就是相乘法则:将迄今观察到的数量乘以一些常数。对于无信息先验,这个常数一般是2,哥白尼预测的方法由此得来;在其他幂律的情况下,所乘的数将取决于你工作的精确分布。例如,对于电影票房,它正好是1.4。所以,如果你听到一部电影到目前为止已经赚了600万美元,那么你可以猜测,它总共将赚840万美元。如果它现在赚了9 000万美元,那么可以预计的最高票房将是1.26亿美元。


    幂律分布不能表明它们所描述的现象的自然范畴,这就直接导致了相乘法则的出现。因此,唯一能给我们的预测提供一些关于范畴的想法的就是我们所拥有的单一数据点,比如柏林墙已经存在8 年了。单一数据点的值越大,我们可能要处理的范畴也就越大,反之亦然。当然这种情况也是有可能的:这部电影的票房现在是600 万美元,而实际上它只是在第一个小时票房惊人,它更可能是一个只有几百万美元票房的电影。


    另一方面,当我们将正态分布作为贝叶斯法则的先验时,我们会得到一个非常不同的指导。我们会得到一个“平均”规则,而不是相乘法则:使用分布的“自然”平均数作为指导。例如,如果有人还没达到平均寿命,那么就直接将其年龄预测为平均值。随着他们的年龄增长并超过平均水平,就预测他们还会再活几年。遵循这一规律为90岁和6 岁的两个人给出的合理预测年龄分别为94 岁和77 岁。(6 岁的孩子的预测寿命比76 岁的平均寿命略高是因为他已经顺利度过了婴儿期:这样我们就知道他不处于分布的尾端。)


    电影的时长就像人类的寿命,也遵循正态分布:大多数电影都在100 分钟左右,某些特殊的电影时长处于分布的两端。但并不是所有的人类活动都是这样的。诗人迪安·杨曾经说过,每当他听一首带编号的诗时,如果读者开始念第四节,他的心就会一沉:如果有三个以上的部分,杨就会重新开始,静坐细听。事实证明,杨的沮丧完美体现了贝叶斯法则。通过对诗的分析可发现,它不同于电影的时长,诗歌更接近于幂率分布而不是正态分布:因为大部分诗是短的,除了某些史诗。所以说到诗歌,首先你要确保有一个舒适的座位。正态分布的东西似乎太长了,最后必然会很快结束。但幂律分布的东西存在的时间越长,你可以预测它继续下去的时间就越长。


    在这两个极端之间,生活中实际上还有第三种事物:那些不具有更大或更小可能性结束的事物,只因为他们已经持续存在了一段时间。有时候事情是简单的、不变的。丹麦数学家瓦格纳·厄兰研究了这种现象,他将独立事件之间的间隔形式化并推导出带有他名字的函数:厄兰分布。这条曲线的形状不同于正态分布或幂律分布:它有一个类似翅膀的形状,峰值上升较缓,尾部下降的趋势比幂律分布得快,但比正态分布得缓。在20世纪初,他为哥本哈根电信公司工作,用这种分布曲线来模拟在电话网络中连续通话的时间。自那以后,厄兰分布也被用于城市规划以及汽车和行人交通的建设模型中,并被网络工程师在设计互联网的基础设施时使用。自然世界中存在多个维度,其中发生的事件彼此也是完全独立的,它们之间的间隔从而就落在了厄兰曲线上。放射性衰变就是一个例子,这意味着厄兰分布完美地预测了盖革计数器的下一次提示声何时会发出。其在描述例如政客在众议院的任职时间这类的人类活动时也表现不俗。


    厄兰分布给出了第三种预测法则——相加法则:总是预测事物只会再持续一个常量。我们经常听到的“只需5分钟!……(5分钟后)再给我5分钟!”这往往表现了人们的某种特征,比如说,当一个人准备离开房子或办公室,或完成一些任务的最后时间,这似乎预示着在对现实做出估计时可能出现的一些慢性故障。不过,在一个人不符合厄兰分布的情况下,无论如何,这种话都可能是正确的。


    例如,如果一个赌场纸牌爱好者告诉他不耐烦的配偶,他会在赢得一次21 点后就停手(赢的概率约为20∶1),他会很高兴地预测:“我再买20 次就会赢了!”20 次后她又回来,问他要让她再等多久,那么,他的答案将是不变的:“我再买大约20 次就会赢!”这听起来像是我们这位不懈的赌鬼已经进入短期记忆丧失模式了,但事实上,他的预测是完全正确的。事实上,无论他们过去或目前的状态是怎样的,分布结果会产生相同的预测,这一结果被统计学家称为“无记忆性”。


    这三个非常不同的最佳预测模式——相乘法则、平均法则和相加法则都是通过将贝叶斯法则应用到幂律、正态和厄兰分布上得出结果的。因为这些预测的出现,这三种分布也给我们提供了不同的指导,让我们知道对某些事件应该有多惊讶。


    在幂律分布中,某个事物已经存在的时间越长,我们可以预测它继续存在的时间也就越长。因此,幂律事件让我们等待的时间越长,就会让我们更加惊奇,尤其在它发生前的一刻。一个国家、一个公司或一个机构,年复一年地变得更加强大,所以当它崩溃时总是令人震惊。


    在正态分布中,如果事件提前发生就会令人惊讶,因为我们期望它们达到平均水平,但当它们推迟发生时不会如此。的确,到了这一点,它们似乎推迟发生了,所以我们等待的时间越长,我们就会越期待。


    在厄兰分布中,通过定义的事件无论何时发生都不会给我们带来更多或更少的意外。任何事情的状态都有可能结束,不管它已经持续了多久。毫无疑问,政治家总是会对他们下一次的选举进行准备。


    赌博的特点类似于稳态预期。例如,如果你所等待的轮盘赌注的胜利是呈正态分布的,那么平均法则将适用于此:在一个坏运气后,它会告诉你,你的号码应该会随时中奖,在输了更多次之后会更快出现。(在这种情况下,它的影响会持续到下一次胜利,然后停止。)相反,如果你等待的胜利呈现幂律分布,那么相乘法则会告诉你胜出盘会一次接着一次出现。(在这种情况下,如果你这局胜出了就应该继续下注,如果长时间没有胜出就该停手。)然而,当面对无记忆分布时,你就进退两难了。相加法则告诉你,现在赢的机会和一小时前一样,一小时后也如此。一切都没有什么变化。你没有因为长时间的等待而得到大奖,也没有一个转折点会告诉你何时应该停止你的损失。在电影《赌棍》中,肯尼·罗杰斯提出了一个著名的建议,他说,你必须“知道什么时候走开,或知道什么时候继续”,但对于无记忆分布而言,没有一个绝对正确的退出时间。这可能就是为什么这些游戏会让人上瘾的部分原因。


    知道你所面对的是什么样的分布十分重要。当哈佛大学的生物学家和作家斯蒂芬·杰伊·古尔德发现自己得了癌症后,他的第一个念头就是去阅读相关的医学文献。然后他发现为什么他的医生会劝阻他这样做:患他这种癌症的病人有一半在确诊8 个月内死亡。


    但是这一个统计数字(8 个月)并没有告诉他任何关于幸存者的分布。如果这是一个正态分布,那么平均法则将给出一个相当明确的预测,告诉他还可以活多久:约8 个月。但是,如果它是幂律分布,尾部延伸到右侧,那么情况就会大不相同:相乘法则会告诉他,他活得越久,就会有越多的证据证明他能活得更长。进一步阅读后,古尔德发现:“分布确实是强烈右偏,长(但比较小的)尾巴延长数年以上,都超过8个月的中位数。我看不出我为什么不应该待在那条小尾巴上,我长长地松了一口气。”古尔德在确诊后又活了20年。


    小数据与思维

    三个预测法则——相乘、平均和相加适用于日常生活的各个方面。在这种情况下,人们一般都非常善于使用正确的预测法则。汤姆在读研究生时,和麻省理工学院的乔希·特南鲍姆一起进行了一个实验,实验要求人们对生活中的各种常量进行预测,如人类的寿命、电影的票房以及众议院议员任职时间等,每个问题只提供一条信息:现年龄、现票房或现任职时间。然后,他们比较了人们所预测的结果和应用贝叶斯法则的结果。


    事实证明,人们所做的预测与贝叶斯法则所得出的预测非常接近。直觉上,人们做出不同类型的预测也是遵循在现实世界中的不同分布——幂律、正态和厄兰分布。换句话说,虽然你可能不知道或不清楚某种情况是需要用相乘法则、平均法则,还是相加法则,但你每天做的预测往往隐含在这些分布中,它反映了日常生活中出现的不同情况,以及不同的行为方式。


    根据我们对贝叶斯法则的了解,这一出色的人类表现显示了可以帮助我们进行预测的重要因素。小数据是大数据的变相。往往,我们能从少量的或一个单一的观察结果得出正确预测结果的原因是,我们在这方面的先验如此丰富。不管我们是否知道,我们似乎已经在头脑中储存下惊人准确的先验,例如关于电影的票房和时长、诗的长度,以及任职时间,更不用说人类的寿命。我们不需要特意收集这些先验,因为我们从这个世界中不停地吸收着它们。


    事实上,就整体而言,人们的直觉似乎接近于贝叶斯法则的预测,也可以将各种先验分布逆向转换,即使这很难得到权威的真实数据。例如,对客户服务保持不变是人类经验中一个相当常见的一面,但没有公开的数据集表明好莱坞票房收入的保持时间。但是,如果人们是通过他们的经验进行预测,我们就可以使用贝叶斯法则,通过挖掘人们的期望对世界进行间接探测。当汤姆和乔希要求人们从一个单一的数据点来预测保持时间时,结果表明受试者使用的是相乘法则:人们预计的总等待时间是他们等待时间的一倍多。这与将幂律分布作为先验相一致,其中广泛的尺度也是可能的。只希望你不要因为等待时间而终结在“泰坦尼克号”上。在过去的10 年中,这样的方法使认知科学家能够从视觉、语言等各个领域识别人类的先验分布。

    然而这里有一个关键的警示。在我们没有良好先验的情况下,我们就无法很好地预测。例如,在汤姆和乔希的研究中有一个主题,人们的预测在这个主题上全都系统地偏离了贝叶斯法则,那就是预言埃及法老统治的长度。(恰巧,法老王的统治遵循厄兰分布。)在这个问题中,人们只是没有足够的日常接触以产生一个直观的感觉范围的价值观,所以他们的预测肯定也十分困难。准确的预测需要充足的先验知识。


    这具有许多重要的含义。我们的判断背叛了我们的预期,我们的期望又背叛了我们的经验。我们对未来的计划揭示了我们生活的世界以及我们自己经历过的方方面面。

    我们的预测体现出我们自己


    20世纪70年代初期,沃尔特·米歇尔在其著名的“棉花糖实验”中曾试图分析延迟满足的能力是如何随着年龄的增长而发展的。在斯坦福大学的一所幼儿园里,研究者对一组3~5岁的孩子进行了意志力测试。每一个孩子面前都会出现一种美食,如棉花糖,并被告知参与实验的成人马上要离开一会儿。如果他们想吃那些糖,可以马上吃。但是,如果他们忍着不吃等到实验者回来,便会得到多一颗糖。


    有些孩子由于抵制不了美食的诱惑,就立即吃了。有些孩子坚持了整整15分钟,直到实验者返回,并得到了两颗糖。但也许最有趣的就是那些等待了一会儿但后来还是没忍住吃掉糖的孩子。


    在这种情况下,这些孩子在努力抗争,抵制诱惑,但最终还是败下阵来,失去了额外的棉花糖,这被解释为体现出一种非理性。如果你要屈服,为什么不立即屈服并免受折磨?但这完全取决于孩子认为自己处于什么样的状况。正如宾夕法尼亚大学的乔·麦奎尔和乔·凯布尔所指出的,如果需要大人回来的时间呈幂律分布(逾期缺席意味着比预想的等待时间更长),那么在某个时候减少损失就是完美决定。


    换句话说,抵制诱惑的能力至少部分取决于预期而不是意志力。如果你预测大人会在很短的时间后回来(有点类似正态分布),那么你就应该能够坚持下去。平均法则表明,经过痛苦的等待,要做的事情还是在那里:实验者应该随时会返回。但是,如果你不知道消失的时间会有多长(与幂律分布一致),那么这就是一场艰苦的战斗。相乘法则表明,现在漫长的等待还只是未来漫长等待的开头。


    这次棉花糖实验后的几十年,沃尔特·米歇尔和他的同事们又重新观察当时的参与者在后来的生活中表现如何。令人惊讶的是,当时等到两颗糖的孩子长大后比其他人更成功,甚至他们的学术能力评估测试成绩也更高。如果棉花糖实验测试的是意志力,那么这就是一个强有力的证据,证明了学习自我控制可以对一个人的生活有多大的影响。但是,如果测试是关于意愿,而不是预期,那么这就体现了一个完全不同的,也许更凄美的故事。


    罗切斯特大学的一组研究者最近研究了先验经验在棉花糖实验中是如何影响人们的行为的。在提到棉花糖之前,实验中的孩子们先进行了一个艺术项目。实验者给了他们一些平常的艺术品,并承诺很快会有更好的东西给他们。但是,他们并不知道,孩子们被分为两组。其中一组的实验者很诚信,返回时履行承诺,带来了更好的艺术品。而另一组的实验者并未信守承诺,回来时只给孩子们一个道歉,什么都没带回来。


    艺术项目完成后,孩子们接下来就去参加标准棉花糖实验。在这个实验中,之前认为实验者是不可靠的孩子更可能在大人回来之前就吃掉棉花糖,失去获得第二颗糖的机会。


    在棉花糖实验中失败,并在以后的生活也没那么成功的人可能跟缺乏毅力没什么关系。可能是因为当时那些孩子认为大人是不可靠的:他们说的话不能相信,他们离开的时间长度也是随意的。学习自我控制是一个重要的问题,但在一个成年人始终能信赖的环境中成长也是同样重要的。


    机械复制时代的先验

    这就好像有人要买好几份同样的晨报来确保报纸上说的是真的。

    ——路德维希•维特根斯坦

    他仔细看他所读的内容,因为那是他要写的东西。他很认真学习他所学的内容,因为那是他将会懂得的东西。

    ——安妮•迪拉德


    正如贝叶斯法则告诉我们的,做出准确预测的最好方法就是准确地了解你所预测的事情。这就是为什么我们能很好地预测人类的寿命,但是当被问及预测法老的统治时间时却不尽如人意。


    作为贝叶斯法则的一种好方法,它以正确的比例表现世界——具有充分合理的先验,并适当校准。总的来说,对于人类和其他动物来说,这种情况是自然发生的。通常,当有什么东西使我们感到惊奇时,它应该让我们吃惊,而当它不应该让我们吃惊的时候,它就不会。即使我们所积累的偏见不是客观正确的,这些偏见通常还是会合理地反映我们所生活的世界的特定部分。例如,生活在沙漠气候中的人可能高估了世界上的沙量,而生活在极地的人可能高估了雪的总量。但他们都能很好地适应自己的生态环境。


    然而,当一个物种学会使用语言时,一切就开始瓦解。我们所谈论的并不是我们所经历的事情——我们主要谈论的是有趣的事情,而这些事往往也是不寻常的。根据其定义,事件总是或多或少地在其适当的频率发生,但语言并不完全是这样。任何经历过蛇咬伤或雷击的人,都会在他们余下的生命中复述那些奇异的故事。这些故事是如此不寻常,因此会被人不断谈起。


    之后,在与他人沟通和保持准确的先验世界之间有一种奇怪的压力。当人们谈论感兴趣的事或说一些他们认为听众也会感兴趣的故事时,就偏离了我们的经验统计。这使得经验统计很难保持适当的先验分布。而随着印刷术、新闻和社交媒体的发展,这种挑战会不断增加,并使我们人类这个物种能够机械地传播语言。


    想想你见过多少次失事的飞机或汽车。你完全可能看过以下某个场景——失事的汽车可能就在你旁边的道路上,而飞机坠毁可能发生在另一个大陆,这些消息都是通过互联网或电视传输给你的。例如,在美国,从2000 年起到现在,在商业飞机上失去生命的总人数不足以填满卡耐基音乐厅,甚至一半都没有。相比之下,美国在同一时间段死于车祸的人数就超过了怀俄明州的全部人口。


    简单地说,媒体对事件的报道并不与其在世界上发生的频率相符。社会学家巴里·格拉斯纳指出,在20 世纪90 年代美国的谋杀率下降了20%,然而在那段时间里,美国新闻中所报道的枪支暴力事件却增加了600%。


    如果你想成为一个具有准确直觉的贝叶斯主义者——如果你想自然地做出准确的预测,而不必考虑什么样的预测规则是适当的,你就需要保护你的先验。相反,这可能意味着要关闭消息来源渠道。

    ∑编辑 | Gemini

    640?wx_fmt=gif

    粉丝福利

    送书!

    640?wx_fmt=jpeg

    想获得此书,

    文章底部留言,

    留言点赞前四名的粉丝(24小时计),

    免费获得此书!

    640?wx_fmt=gif


    展开全文
  • 预测未来的神技---马尔科夫模型

    千次阅读 2019-11-11 15:14:43
    我们希望为隐士设计一种算法,在能够直接观察天气的情况下,通过水藻和马尔科夫假设来预测天气。  一个更实际的问题是语音识别,我们听到的声音是来自于声带、喉咙大小、舌头位置以及其他一些东西的组合结果。...
    转载自: https://blog.csdn.net/pipisorry/article/details/46618991

    生成模式(Generating Patterns)

    1、确定性模式(Deterministic Patterns):确定性系统

      考虑一套交通信号灯,灯的颜色变化序列依次是红色-红色/黄色-绿色-黄色-红色。这个序列可以作为一个状态机器,交通信号灯的不同状态都紧跟着上一个状态。
        hmm1
      注意每一个状态都是唯一的依赖于前一个状态,所以,如果交通灯为绿色,那么下一个颜色状态将始终是黄色——也就是说,该系统是确定性的。确定性系统相对比较容易理解和分析,因为状态间的转移是完全已知的。

    2、非确定性模式(Non-deterministic patterns):马尔科夫

      为了使天气那个例子更符合实际,加入第三个状态——多云。与交通信号灯例子不同,我们并不期望这三个天气状态之间的变化是确定性的,但是我们依然希望对这个系统建模以便生成一个天气变化模式(规律)。
      一种做法是假设模型的当前状态仅仅依赖于前面的几个状态,这被称为马尔科夫假设,它极大地简化了问题。显然,这可能是一种粗糙的假设,并且因此可能将一些非常重要的信息丢失。
      当考虑天气问题时,马尔科夫假设假定今天的天气只能通过过去几天已知的天气情况进行预测——而对于其他因素,譬如风力、气压等则没有考虑。在这个例子以及其他相似的例子中,这样的假设显然是不现实的。然而,由于这样经过简化的系统可以用来分析,我们常常接受这样的知识假设,虽然它产生的某些信息不完全准确。
              hmm2a hmm2 hmm2c
      一个马尔科夫过程是状态间的转移仅依赖于前n个状态的过程。这个过程被称之为n阶马尔科夫模型,其中n是影响下一个状态选择的(前)n个状态。最简单的马尔科夫过程是一阶模型,它的状态选择仅与前一个状态有关。这里要注意它与确定性系统并不相同,因为下一个状态的选择由相应的概率决定,并不是确定性的。
      下图是天气例子中状态间所有可能的一阶状态转移情况:
        hmm3
      对于有M个状态的一阶马尔科夫模型,共有M^2个状态转移,因为任何一个状态都有可能是所有状态的下一个转移状态。每一个状态转移都有一个概率值,称为状态转移概率——这是从一个状态转移到另一个状态的概率。所有的M^2个概率可以用一个状态转移矩阵表示。注意这些概率并不随时间变化而不同——这是一个非常重要(但常常不符合实际)的假设。
      下面的状态转移矩阵显示的是天气例子中可能的状态转移概率:
        hmm4
      -也就是说,如果昨天是晴天,那么今天是晴天的概率为0.5,是多云的概率为0.375。注意,每一行的概率之和为1。
      要初始化这样一个系统,我们需要确定起始日天气的(或可能的)情况,定义其为一个初始概率向量,称为pi向量。
              hmm5
      -也就是说,第一天为晴天的概率为1。
    我们定义一个一阶马尔科夫过程如下:
       状态:三个状态——晴天,多云,雨天。
       pi向量:定义系统初始化时每一个状态的概率。
       状态转移矩阵:给定前一天天气情况下的当前天气概率。

    任何一个可以用这种方式描述的系统都是一个马尔科夫过程。

    [马尔科夫模型 Markov model ]

     

    3、隐藏模式(Hidden Patterns):隐马尔科夫

    1、马尔科夫过程的局限性
      在某些情况下,我们希望找到的模式用马尔科夫过程描述还显得不充分。回顾一下天气那个例子,一个隐士也许不能够直接获取到天气的观察情况,但是他有一些水藻。民间传说告诉我们水藻的状态与天气状态有一定的概率关系——天气和水藻的状态是紧密相关的。在这个例子中我们有两组状态,观察的状态(水藻的状态)和隐藏的状态(天气的状态)。我们希望为隐士设计一种算法,在不能够直接观察天气的情况下,通过水藻和马尔科夫假设来预测天气。
      一个更实际的问题是语音识别,我们听到的声音是来自于声带、喉咙大小、舌头位置以及其他一些东西的组合结果。所有这些因素相互作用产生一个单词的声音,一套语音识别系统检测的声音就是来自于个人发音时身体内部物理变化所引起的不断改变的声音。
      一些语音识别装置工作的原理是将内部的语音产出看作是隐藏的状态,而将声音结果作为一系列观察的状态,这些由语音过程生成并且最好的近似了实际(隐藏)的状态。在这两个例子中,需要着重指出的是,隐藏状态的数目与观察状态的数目可以是不同的。一个包含三个状态的天气系统(晴天、多云、雨天)中,可以观察到4个等级的海藻湿润情况(干、稍干、潮湿、湿润);纯粹的语音可以由80个音素描述,而身体的发音系统会产生出不同数目的声音,或者比80多,或者比80少。
      在这种情况下,观察到的状态序列与隐藏过程有一定的概率关系。我们使用隐马尔科夫模型对这样的过程建模,这个模型包含了一个底层隐藏的随时间改变的马尔科夫过程,以及一个与隐藏状态某种程度相关的可观察到的状态集合。

    [隐马尔可夫模型HMM]

    皮皮blog

     

     

     

    马尔科夫模型

            马尔科夫链的节点是状态,边是转移概率,是template CPD(条件概率分布)的一种有向状态转移表达。马尔科夫过程可以看做是一个自动机,以一定的概率在各个状态之间跳转。

            考虑一个系统,在每个时刻都可能处于N个状态中的一个,N个状态集合是 {S1,S2,S3,...SN}。我们现在用q1,q2,q3,…qn来表示系统在t=1,2,3,…n时刻下的状态。Note: 每个状态都是一个向量分布,即在N个状态集合是 {S1,S2,S3,...SN}上的概率分布。

    马尔科夫链

    独立同分布建模

            处理顺序数据的最简单的方式是忽略顺序的性质,将观测看做独立同分布,对应于图13.2所示的图。然而,这种方法无法利用数据中的顺序模式,例如序列中距离较近的观测之间的相关性。

    马尔科夫模型( Markov model )

            为了在概率模型中表示这种效果,我们需要放松独立同分布的假设。完成这件事的一种最简单的方式是考虑马尔科夫模型( Markov model )。

            马尔科夫模型( Markov model )表示观测序列的联合概率分布

    一阶马尔科夫链( first-order Markov chain )

            一阶马尔科夫链( first-order Markov chain )模型中, N 次观测的序列的联合概率分布为

            根据 d -划分的性质,给定时刻 n 之前的所有观测,我们看到观测 x n 的条件概率分布为

    同质马尔科夫链( homogeneous Markov chain )

            在这种模型的大部分应用中,条件概率分布 p(x n | x n−1 ) 被限制为相等的,对应于静止时间序列(数据会随着时间发生变化,但是生成数据的概率分布保持不变)的假设。这样,这个模型被称为同质马尔科夫链( homogeneous Markov chain )。例如,如果条件概率分布依赖于可调节的参数(参数的值可以从训练数据中确定),那么链中所有的条件概率分布会共享相同的参数值。

    高阶马尔科夫链

    二阶马尔科夫链

    马尔科夫链的参数个数分析

            假设观测是具有 K 个状态的离散变量,那么一阶马尔科夫链中的条件概率分布 p(x n | x n−1 ) 由 K − 1 个参数指定,每个参数都对应于 x n−1 的 K 个状态,因此参数的总数为 K(K − 1) 。

            现在假设我们将模型推广到 M 阶马尔科夫链,从而联合概率分布由条件概率分布 p(x n | x n−M , . . . , x n−1 ) 构建。如果变量是离散变量,且条件概率分布使用一般的条件概率表的形式表示,那么这种模型中参数的数量为 K^M * (K − 1) 。

    连续变量的马尔科夫链

            对于连续变量来说,我们可以使用线性高斯条件概率分布,其中每个结点都是一个高斯概率分布,均值是父结点的一个线性函数。这被称为自回归( autoregressive )模型或者 AR 模型( Box et al., 1994; Thiesson et al., 2004 )。另一种方法是为 p(x n | x n−M , . . . , x n−1 ) 使用参数化的模型,例如神经网络。这种方法有时被称为抽头延迟线( tapped delay line ),因为它对应于存储(延迟)观测变量的前面 M 个值来预测下一个值。这样,参数的数量远远小于一个一般的模型(例如此时参数的数量可能随着 M 线性增长),虽然这样做会使得条件概率分布被限制在一个特定的类别中。

    [PRML]

    某小皮

     

     

    马尔科夫过程收敛性分析与采样

    这里只讨论一阶同质的马尔科夫过程。

    (一阶同质)马尔科夫模型有两个假设:

            1.      系统在时刻t的状态只与时刻t-1处的状态相关;(也称为无后效性)

            2.      状态转移概率与时间无关;(也称为齐次性或时齐性)

    第一条具体可以用如下公式表示:

                    P(qt=Sj|qt-1=Si,qt-2=Sk,…)= P(qt=Sj|qt-1=Si)

    其中,t为大于1的任意数值,Sk为任意状态

    第二个假设则可以用如下公式表示:

                    P(qt=Sj|qt-1=Si)= P(qk=Sj|qk-1=Si)

    其中,k为任意时刻。即任意时刻两个状态之间的转移概率是一样的,整个转移概率矩阵在所有时间步之间是共享参数的。

    Note: For you language folks, this is precisely the same idea as modeling word sequences using a bigram model, where here we have states z instead of having words w.一阶马氏链思想同词序列的bigram模型,只是将词w换成了状态z。

    马氏链及其平稳分布

            马氏链的数学定义很简单                P(Xt+1=x|Xt,Xt−1,⋯)=P(Xt+1=x|Xt)

            也就是状态转移的概率只依赖于前一个状态,Markov Chain 体现的是状态空间的转换关系,下一个状态只决定与当前的状态(可以联想网页爬虫原理,根据当前页面的超链接访问下一个网页)。

    马氏链的一个具体的例子

            社会学家经常把人按其经济状况分成3类:下层(lower-class)、中层(middle-class)、上层(upper-class),我们用1,2,3 分别代表这三个阶层。社会学家们发现决定一个人的收入阶层的最重要的因素就是其父母的收入阶层。如果一个人的收入属于下层类别,那么他的孩子属于下层收入的概率是 0.65, 属于中层收入的概率是 0.28, 属于上层收入的概率是 0.07。事实上,从父代到子代,收入阶层的变化的转移概率如下

    table-1    markov-transition

    使用矩阵的表示方式,转移概率矩阵记为

    P=⎡⎣0.650.150.120.280.670.360.070.180.52⎤⎦

            假设当前这一代人处在下层、中层、上层的人的比例是概率分布向量 π0=[π0(1),π0(2),π0(3)],那么他们的子女的分布比例将是π1=π0P, 他们的孙子代的分布比例将是 π2=π1P=π0P2, ……, 第n代子孙的收入分布比例将是πn=πn−1P=π0Pn

            假设初始概率分布为π0=[0.21,0.68,0.11],    则我们可以计算前n代人的分布状况如下。我们发现从第7代人开始,这个分布就稳定不变了,这个是偶然的吗?我们换一个初始概率分布π0=[0.75,0.15,0.1]       试试看,继续计算前n代人的分布状况如下

    table-2table-3

            我们发现,到第9代人的时候, 分布又收敛了,事实上,在这个问题中,从任意初始概率分布开始都会收敛到这个上面这个稳定的结果。最为奇特的是,两次给定不同的初始概率分布,最终都收敛到概率分布π=[0.286,0.489,0.225],       也就是说收敛的行为和初始概率分布π0 无关。这说明这个收敛行为主要是由概率转移矩阵P决定的。我们计算一下Pn

     

    P20=P21=⋯=P100=⋯=⎡⎣0.2860.2860.2860.4890.4890.4890.2250.2250.225⎤⎦

            我们发现,当 n 足够大的时候,这个Pn矩阵的每一行都是稳定地收敛到π=[0.286,0.489,0.225]           这个概率分布。自然的,这个收敛现象并非是我们这个马氏链独有的,而是绝大多数马氏链的共同行为。

     

    关于马氏链的收敛我们有如下漂亮的定理:

    马氏链收敛定理

            马氏链定理: 如果一个非周期马氏链具有转移概率矩阵P,且它的任何两个状态是连通的,那么limn→∞Pnij 存在且与i无关,记limn→∞Pnij=π(j), 我们有

    1. limn→∞Pn=⎡⎣⎢⎢⎢⎢⎢π(1)π(1)⋯π(1)⋯π(2)π(2)⋯π(2)⋯⋯⋯⋯⋯⋯π(j)π(j)⋯π(j)⋯⋯⋯⋯⋯⋯⎤⎦⎥⎥⎥⎥⎥
    1.  π(j)=∑i=0∞π(i)Pij
    2.  π 是方程 πP=π 的唯一非负解

    其中,π=[π(1),π(2),⋯,π(j),⋯],∑i=0∞πi=1 π称为马氏链的平稳分布。

            所有的 MCMC(Markov Chain Monte Carlo) 方法都是以这个定理作为理论基础的。 定理的证明相对复杂。

    定理内容的一些解释说明

    1. 该定理中马氏链的状态不要求有限,可以是有无穷多个的;
    2. 定理中的“非周期“这个概念不解释,因为我们遇到的绝大多数马氏链都是非周期的;
    3. 两个状态i,j是连通并非指i 可以直接一步转移到j(Pij>0),而是指i 可以通过有限的n步转移到达j(Pnij>0)。马氏链的任何两个状态是连通的含义是指存在一个n, 使得矩阵Pn 中的任何一个元素的数值都大于零。
    4. 我们用 Xi 表示在马氏链上跳转第i步后所处的状态,如果limn→∞Pnij=π(j) 存在,很容易证明以上定理的第二个结论。由于

      P(Xn+1=j)=∑i=0∞P(Xn=i)P(Xn+1=j|Xn=i)=∑i=0∞P(Xn=i)Pij

      上式两边取极限就得到 π(j)=∑i=0∞π(i)Pij`

    某小皮

     

     

    马尔科夫模型的应用

    采样算法中的应用

    从初始概率分布 π0 出发,我们在马氏链上做状态转移,记Xi的概率分布为πi, 则有

    X0Xiπ0(x)∼πi(x),

    πi(x)=πi−1(x)P=π0(x)Pn``
    由马氏链收敛的定理, 概率分布πi(x)将收敛到平稳分布π(x)。假设到第n步的时候马氏链收敛,则有

    X0X1XnXn+1Xn+2∼π0(x)∼π1(x)⋯∼πn(x)=π(x)∼π(x)∼π(x)⋯

    所以 Xn,Xn+1,Xn+2,⋯∼π(x) 都是同分布的随机变量,当然他们并不独立。如果我们从一个具体的初始状态 x0 开始,沿着马氏链按照概率转移矩阵做跳转,那么我们得到一个转移序列x0,x1,x2,⋯xn,xn+1⋯, 由于马氏链的收敛行为,xn,xn+1,⋯ 都将是平稳分布π(x) 的样本。

    顺序数据建模

    [顺序数据:状态空间模型 ]

    from:http://blog.csdn.net/pipisorry/article/details/46618991

    ref:

     

    展开全文
  • 能否通过历史股价预测未来股价?

    千次阅读 2019-01-09 11:30:26
    BigQuant 人工智能量化投资平台 是一站式的Python+机器学习+量化投资平台,曾给出过《基于LSTM的股票价格预测模型》样例,读完下文对人工智能量化投资感兴趣的朋友可以直接前往原文进一步学习研究。 LSTM 的闹剧 ...

    BigQuant 人工智能量化投资平台 是一站式的Python+机器学习+量化投资平台,曾给出过《基于LSTM的股票价格预测模型》样例,读完下文对人工智能量化投资感兴趣的朋友可以直接前往原文进一步学习研究。

    LSTM 的闹剧

    随着深度网络的越来越普及,软件开发人员越来越容易对其进行实现,毫无疑问,很多开发人员会用他们熟悉的基于股票价格的预测来训练长短期记忆网络。我见过好几篇论文,展示了如何通过把历史资产价格用于LSTMs训练然后得出“完美地符合”现实的结果。

    我相信你也曾怀疑过这些说法都只是一场闹剧。我们都知道,即使你做得再好,也无法准确地预测到市场的90%-100%,即便你进行相当精确地定义。股票市场正如它反映的社会经济一样不断变化,我们暂时还不能做到完美预测。

    我所看到的的是,这些作者采用了一些以前的资产价格,有时会对那些价格进行“准确的转换”(即记录日志、规范逻辑、换算价格、或者将价格转换为百分比回报值),再把这些序列注入长短期记忆网络,要求LSTMs预测下一个价格,然后再将他们的窗口前移一天以进行重复使用。

    当他们做完这一切后,再想出一个漂亮的情节来表明他们几乎能够完全预测资产的价格变动。然而他们没有讲的是:他们用的LSTMs基本上仅仅是很好地利用了前一天的价格(或者是前一天的组合以及最近的股票历史价格)来作为第二天股价的标准而已。

    明天的股票价格并不明确,但如果你以这种方式预测股价并把他们绘制出来,在用肉眼去观察的时候就会觉得这些价格几乎就是对现实的预测。

    在现实中,你并不能依赖这些以天为单位的价格来进行交易,因为这些每日价格还没有准确到能够赚钱的地步。也正因为这些,LSTMs通常不能进行超过一天的预测,你不能够相信记忆网络能够预测股票的长期价格走势。

    当然,这一切并不让人惊讶。如果你有兴趣了解更多关于LSTMs的过程是如何进行的。这篇文章值得一读:《Don’t be fooled — Deceptive Cryptocurrency Price Predictions Using Deep Learning

    有效市场

    当然,对于那些长期研究股票市场的人来说,这当然是完全可以预测的。“有效市场”的概念已经变得非常流行,尽管我不认为整个股票市场是完全有效的,但我确实认为之前的价格完全不能预测出未来的结果,我相信我有足够的证据支持这一观点。

    事实上,我上面提到的文章中有一段很好的引用,突出了我对于“利用股价预测股价”的感受:

    普林斯顿大学经济学家Burton Malkiel在他1973年发表的书《漫步华尔街》中写到:“如果市场是真正有效的,影响股价的因素一被公开就立马反应到股价上,那么让一个猴子蒙着眼睛往贴有股票列表的报纸上扔飞镖来选股应该和任何做投资的专家选得一样准。”

    我强烈建议每一位致力于学习金融的人士,要了解强式、半强式、弱式有效市场的假说。请注意,我并不是说我相信其中任何一个都是真的,但是我的很多经历足够让我相信弱式和半强式有效市场是有一定的可信度的。

    从本质上看,这些理论认为,你不可能很快地通过利用之前的股价来预测未来的股价从而赚钱,注意这在高频交易中可能不成立,这是一个我还未深入研究的领域,但如果有一天这些理论同样适用在这一领域,我也不会感到惊讶。

    正确地投资

    所以如果你不能用之前的价格来预测未来价格,那么还有什么其他的投资方法呢?如果你没有任何的想法或者你打算在长期内让你的投资稳健地慢慢增值,你可以也应该投资于被动指数从而让你的投资以复利(红利再投资)形式随经济增长而增长。如果你相信主动投资管理有潜力比被动投资表现得更好,你也有一些其他选择:

    一个广泛的共识就是做一个基本面投资者,方法是做尽可能多的尽职调查并且深入研究一个公司,从而理解它的商业本质,基于你的研究,把资金重仓于拥有着最好的未来前景的公司。

    基本面投资和价值投资相通,都是一种你可以用来确定一个公司股票的内在价值或者投资于被低估的股票的方法,这意味着股票价格足够低,有很大的可能性能获得一个好的回报,不管这个价格对你个人意味着什么。

    其他的方法包括基于量化的方法,例如统计套利,以及更有效的机器学习方法。

    在Apteo,我们把机器学习与基本面投资相结合,致力于帮助我们客观地找到较大概率获得回报的投资,并在可预见的未来,我们计划使用机器学习来管理这些高概率回报投资的资产组合。猜猜怎么着,我们会使用LSTM。

    LSTMs——但不是你想的那种方式

    你说什么?

    在这篇文章的前面,我声称LSTMs不能被用来通过历史数据预测股票价格,我保持这个看法。但如果是那样的话,我们怎么应用LSTMs呢?

    我之前提到,我们专注于使用机器学习,用于可伸缩地、自动地分析公司业务的核心指标。我们关注于在公司报告和更大的市场中获得的各种各样的量化指标,同时我们也关注于其他人的客观分析和意见。

    有很多聪明的人在对公司进行分析并对各种公司进行尽职调查。这些人可以做出很好的报告(有时候报告里并没有他们的想法)。一般来说,很难读完并理解全部的报告。

    所以我们要做的就是使用LSTMs来帮助我们分析这些报告的内容。从本质上讲,我们分析和量化那些可能在深度网络出现之前很难在规模上或至少在一个非常准确的水平上积累的主观分析,我们将进一步分析和量化这些主观分析的方法。我们相信,这些报告量化地、恰当地分析了公司的历史动向,再与其他重要财务指标相结合,从而可以在一定规模上产生深刻的见解。我们最初的结果是积极的,我们利用这些结果来创建样本组合,并且随着时间的推移进行跟踪,同时也回测这些投资组合查看结果。

    注意,在所有这些中,我们并没有用到历史股票价格信息,并不是说我们不需要用,或者在将来我们也不会更多地去依赖这种信息。确切地说,我们相信,从长远看,股价随市场的波动而变化,而市场,从长远来看,依赖于一些诸如公司财务状况、经济基本面的度量标准以及合理的推理,我们致力于将利用这些信息的过程自动化,从而更有效地进行投资。

    原文链接:《能否通过历史股价预测未来股价?

    作者:Shanif Dhanani (Apteo的联合创始人兼首席执行官)
    编译:caoxiyang


    本文由BigQuant《量化研究每周精选》原创推出,版权归BigQuant所有,转载请注明出处。

    展开全文
  • 用于未来预测的对偶生成对抗网络 在自动驾驶领域,准确的预测下一个行驶场景对于安全行驶非常的关键,到目前为止已经有各种方法进行了尝试。用于监督学习的深度学习框架取的了很大的成果,但是用于通用、扩展的...

                                      用于未来帧预测的对偶生成对抗网络

    在自动驾驶领域,准确的预测下一个行驶场景对于安全行驶非常的关键,到目前为止已经有各种方法进行了尝试。用于监督学习的深度学习框架取的了很大的成果,但是用于通用、可扩展的视觉任务的无监督视频表征学习仍然没有得到解决。

    而因为自然场景复杂的外观和运动动态,视频的未来帧预测成为一个重要的挑战。视频的未来帧预测也就是要求模型能够理解像素层面的外观和运动动态,这样才能够让之前帧的像素值流入到新的帧中。但是现有的生成对抗网络预测未来帧的方法都是直接合成未来帧的RGB像素值,无法建模固有的像素方面的运动轨迹,导致预测结果的模糊。也有通过直接复制之前帧的像素场景来缓解这一问题,但因为中间流不准确,存在一些明显的人工痕迹。


    在这篇论文中提出了一种对偶运动生成对抗网络的框架,运用对偶对抗学习机制来学习明确的将未来帧的合成像素值和像素的运动轨迹保持连贯。具体来说,就是通过一个共享的概率运动编码器来同时解决原始的未来帧预测和未来流预测问题,受GAN思想的启发,在未来帧和未来流生成器以及帧和流判别器之间建立了一种对偶对抗学习机制,使得结果难以区分,通过彼此的互相审查,这种机制将对未来帧像素的想象和流预测结合在了一起。


     这种框架主要由3个可微的结构组成:概率运动编码器——捕获像素不同位置的运动不确定性以及产生隐含表征z;未来帧生成器GI预测未来帧,帧判别器D评估未来帧的逼真度,流判别器D会根据之前帧和预测的未来帧之间的估计的流而评估流的逼真度;未来流生成器GF预测未来流,流判别器D评估流的逼真度,帧判别器D评估根据预测的未来流对之前的帧变形得到的变形帧的逼真度。


    对偶运动GAN结构如图1:

    1、视频序列I_1...I_t输入概率运动编码器E,得到隐含表征z,作为两个生成器的输入;

    2、两个生成器分别对z进行解码,合成未来帧和未来流;

    3、帧和流判别器分别区分真实的和合成的帧或流;

    4、流估计器Q_{t\to F}根据之前的帧I_t和合成的未来帧来估计流F_{t+1},在流判别器中判别;流变性层Q_{F\to I}根据合成的未来流对之前的帧I_t进行变性得到变性帧I_{t+1},在帧判别器中判别。


    对偶运动生成器和判别器的网络结构图如图2和图3,为了简介,图中略去了池化层、批规范化层、ReLU层。在图2中每个视频序列中的每一帧都会被循环的送入E。注意z从一个高斯分布中进行抽样,高斯分布的均值和方差分别来自Conv-LSTM。


                                                                                     图1


                                                                              图2 生成器


    图3 判别器


    损失函数:

    对抗对偶目标函数:

    其中λ用来平衡VAE损失和两个对偶GAN损失。

    KL散度用来惩罚来自先验分布pz=Ν(z|0,I)隐藏code的分布的偏差。


     

     


    实验结果包括视频预测任务(下一帧、多帧预测)、ablation studies,通过在流预测、流估计和无监督表征学习上的扩展实验验证了模型的泛化能力。

    1、表 1:经过 KITTI 数据集的训练之后,在 Caltech 和 YouTube 剪辑上的视频帧预测表现(MSE 和 SSIM)

    2、表 2:在 UCF-101 和 THUMOS-15 上的视频帧预测表现(PSNR 和 SSIM)

    3、图 4:在 YouTube 剪辑上的定性结果。为了更好地比较,我们用红色框和蓝色框突出展示了两辆以相反方向前进的车辆的预测区域

    4、图 5:在来自 Caltech 数据集的车载摄像头视频上,与 Prednet [18] 的下一帧预测结果的定性比较

    5、图 6:在 Caltech 数据集上的多帧预测表现的比较

    6、 图 7:我们的模型在 Caltech 序列上的 5 个时间步骤的多帧预测结果

    7、图 8:我们的模型在来自 KITTI 数据集的两个序列上得到的一些未来帧预测和未来流预测示例(流预测和流估计)

    8、表 3:在 KITTI 数据集上的流估计和预测的终点误差。这里值更低表示表现更好。

    9、表 4:在 UCF-101 上的动作识别的分类准确度(无监督表征学习)

    总结:本篇论文提出了一种对偶运动GAN,它运用对偶对抗机制同时解决了原始的未来帧预测问题和未来流预测问题。概率运动编码器捕获运动不确定性,对偶对抗生成器和判别器互相反馈信号,,隐式地互相连贯。未来工作:计划隐式地建模多代理依赖关系,以便能够处理具有复杂运动交互的真实世界的视频。

    参考文献:https://arXiv:1708.00284v2 [cs.CV] 3 Aug 2017  Dual Motion GAN for Future-Flow Embedded Video Prediction

    展开全文
  • 摘要: 采用爬虫爬取了北京这个城市的空气质量指数日历史数据(爬取时间段为2018年1月1日至今天的前一天2020年4月19日),采用两年的历史... 输出结果已经打印出来,大家可以自行去查阅未来几天的AQI值进行比对。...
  • 文 / Nal Kalchbrenner 和 Casper Sønderby,Google Research准确预测未来数分钟到数周内的天气情况是一项基础科学挑战,会对社会的众多领域...
  • java二次指数平滑法预测未来的值

    千次阅读 2019-01-10 18:07:36
    指数平滑法是一种特殊的加权平均法,加权的特点是对离预测值较近的...一次指数平滑的局限性:像一次移动平均法一样,一次指数平滑法 只适用于 水平型历史数据 的 预测,而适用 于 斜坡型线性 趋势 历史数据的...
  • 这个比赛的目标是提供一些路段流量的历史信息, 以此来预测未来一段时间的交通流量, 提供的数据一共有3个表: link_info, link_tops 和travel_time. 分别如下所示: travel_time表里存着这132条路从2017.4-2017.6以及...
  • 预测科技未来发展趋势的10个定律

    千次阅读 2017-04-30 21:11:34
    预测科技未来发展趋势的10个定律 编者按:本文是新浪科技报道的关于预测科技未来发展趋势的10个定律,其中第九条是人工智能学家AIE实验室的研究成果。这些规律对判断科技未来发展趋势从不同角度发挥着作用。 ...
  • BabyMaker是一款非常有意思的预测宝宝未来长相的软件,采用了先进的面部识别功能,为此你只需要将要作为爸爸和妈妈双方的照片添加到软件中,随后BabyMaker即可根据双方的面部特征生成可爱的宝宝照片。对于面部识别...
  • 我们的世界充斥着大量的确定性和无法预知的事件,黑天鹅现象告知我们通过观察或经验获得的知识具有严重的局限性和脆弱性,仅仅一次的完全不同的发现就足以颠覆根深于人们思想深处的结论。
  • 尤其是在美国,我们预测会在非常近期的未来,基于远程信息技术的自动驾驶汽车将会出现在我们的日常生活中。 为什么需要了解这些大趋势? 不管你是处于创业模式,还是在大企业里面工作,都需要了解: 未来人们如何...
  • GABP,遗传算法优化神经网络(BP)进行预测 ,优化前后对比,套用在其它模型。
  • 德尔菲法——意见可靠预测方法

    千次阅读 2019-07-09 08:59:14
    专家人数的多少,根据预测课题的大小和涉及面的宽窄而定,一般超过20人。 向所有专家提出所要预测的问题及有关要求,并附上有关这个问题的所有背景材料,同时请专家提出还需要什么材料。然后,由专家做书面...
  • 概率编程——未来也可以这样预测

    千次阅读 2017-06-08 21:10:06
    想想看,第一种推理模式描述了前向推理,根据对当前情况的了解预测未来的事件,而第二种推理模式描述了后向推理,根据当前结果推断过去的条件。在构建概率模型时,模型本身通常遵循自然的时间顺序。一名球员踢角球,...
  • 不可预见也是预测的一部分) 2、无人驾驶 A.5G的网络速率快、低延时将解决无人驾驶中汽车反应速度和安全性方面的问题,但无人驾驶依托于诸多政策、硬件设备、AI算法等方面因素,LV5在中国五年内难以全面推广,市场...
  • 基于matlab曲线拟合的数据预测分析

    千次阅读 2021-05-05 04:04:42
    能直接用一般的方程去描述它们,这样给数据的分析和预测带来了极大的麻烦,本文针对股票数据的变化,使用matlab的多项式拟合,求导,以及预测功能,对股票的实时变化及其变化快慢做出分析,并用得出的拟合方程对...
  • 近日,在中国北京举办 CIKM 2019 AnalytiCup 中,由来自浙江大学、中央财经大学、阿里巴巴等机构组成的团队 WWG 摘得「用户行为预测」赛道的桂冠。 CIKM 是中国计算机学会(CCF)推荐的数据库/数据挖掘/内容检索...
  • 在前面两个神经网络的运用例子中,我们主要使用神经网络对输入数据预测出一个离散性结果,也就是预测的结果都是0,1,要不就是1到46中任意一个数,这些结果都是离散化,相互间兼容。我们这节要用神经网络对输入...
  • 京东预测系统核心介绍

    千次阅读 2018-08-23 16:11:50
    1. 京东预测系统 1.1 预测系统介绍 预测系统在整个供应链体系中处在最底层并且起到一个支撑的作用,支持上层的多个决策优化系统,而这些决策优化系统利用精准的预测数据结合运筹学技术得出最优的决策,并将结果...
  • 人口分析与预测

    千次阅读 2019-09-09 21:41:49
    一、数据处理 ...处理每个属性数据,单独拿出进行变化,格式变为预测所需要格式。 1.变化“时间”属性 2.因为时间中有中文格式,现在把其去掉中文字转换为单纯数字 3.将数据放入array数组中 4.变...
  • 指数平滑法——趋势平滑预测方法

    万次阅读 2019-07-09 09:08:09
    原文地址:... 指数平滑法(Exponential Smoothing,ES) 目录 1什么是指数平滑法 2指数平滑法的基本公式 3指数平滑的预测公式 3.1(一) 一次指数平滑预测 ...
  • 自然中存在的随机过程非常广泛,利用随机过程的理论建模,就总也逃开马尔科夫链,比如我们熟知的液体中颗粒所做的布朗运动、商业活动中索要研究的每天销售情况、在数字通信中的语音信号、视频信号等等。
  • 考虑人口出生和死亡率,以及城市人口迁移率; 考虑气候对传播的影响。 模型结构 根据 5分室传播模型结构可知,新型冠状病毒的传播结构为: 02 冠状病毒传播流程图 其中,方框内为状态变量: S=...
  • 2021 音视频技术趋势完全预测

    千次阅读 2021-01-26 08:00:00
    因此,GPU 和FPGA 在特定场景下依旧保持着不可或缺的优势与地位。 伴随多媒体技术的日新月异,内容形式与需求也在不断变化与增长,抖音、快手、B站等视频平台的崛起,极大满足了人们的精神需求,然而内容生产往往...
  • 灰度预测模型

    千次阅读 2018-02-09 13:30:25
    灰色系统:一部分信息是已知的,另一部分信息是未知的,系统内各因素之间具有确定关系。其特点是‘少数据建模’,着重研究‘外延明确,内涵明确’的对象。灰色系统具有相对性与广泛性。指系统对于不同对象的灰度...
  • 无人驾驶汽车系统入门(十)——基于运动学模型的模型预测控制 在前面的第五篇博客中,我们介绍了两种常见的车辆模型——...被广泛应用,但是它并一定能够以最“节约”的方式进行控制,即所谓的 优化控制, 而MP
  • 时间序列预测14:CNN 实现用电量/发电量预测

    千次阅读 多人点赞 2020-04-10 11:39:39
    与其他机器学习算法不同,卷积神经网络能够从序列数据中自动学习特征,支持多变量数据,并直接输出用于多步预测的向量。一维CNN已被证明可以很好地执行,甚至在具有挑战性的序列预测问题上也能达到最新的结果。...
  • 物联网、大数据和人工智能是今年来备受关注的三大趋势,究竟是什么原因促使其备受我们的期待呢?  现在,就让我们来看看:  大数据   ... 麦肯锡全球研究所给出... 大数据的价值可以用于预测分析、用户行为分析,
  • 预测系统

    千次阅读 2019-07-08 12:19:31
    预测系统在整个供应链体系中处在最底层并且起到一个支撑的作用,支持上层的多个决策优化系统,而这些决策优化系统利用精准的预测数据结合运筹学技术得出最优的决策,并将结果提供给更上层的业务执行系统...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 135,997
精华内容 54,398
关键字:

不可预测的未来