-
2020-07-18 13:18:02
一、贝叶斯模型
- 思想
贝叶斯理论的思想,简单点讲就是要在已知条件的前提下,先设定一个假设,然后通过先验实验来更新这个概率。 - 工作流程
- 优点
1. 基于古典数学理论,分类效率稳定
2. 对缺失数据不敏感
3. 准确度高,速度快
4. 小规模数据表现好
5. 能处理多分类
6. 增量训练,分批训练 - 缺点
1. 依赖训练数据
2. 属性不能相关
3. 需要基于先验概率,假设出来的先验概率可能出错
二、判别模型和生成模型
-
意义
生成模型 判别模型 据山羊的特征,首先学习出一个山羊模型;然后根据绵羊的特征学习到绵羊模型。然后从某一直羊中提取特征,分别放到山羊模型和绵羊模型中,判断哪个模型输出的概率大,哪个概率大就是哪个类 先从历史数据中学习到模型,然后通过提取这只羊的特征来预测这只羊是山羊的概率和绵羊的概率(即条件概率P(y
三、基于最小风险贝叶斯决策理论
- 基于最小错误率
四、高斯判别分析模型
https://blog.csdn.net/qq_24729325/article/details/91040183
更多相关内容 - 思想
-
应用随机过程概率模型导论 第11版
2018-05-02 17:54:18应用随机过程概率模型导论 第11版 应用随机过程概率模型导论 第11版 应用随机过程概率模型导论 第11版 -
应用随机过程概率模型导论 第11版 (美)罗斯 著;龚光鲁译
2018-10-27 18:42:08作者: [美] Sheldon M. Ross 出版社: 人民邮电出版社 副标题: 概率模型导论(第11版) 译者: 龚光鲁 出版年: 2016-4 页数: 652 定价: 99.00元 装帧: 平装 丛书: 图灵数学·统计学丛书 ISBN: 9787115404305 -
《应用随机过程概率模型导论》第九版答案
2017-09-30 10:41:42经典的概率教程 应用随机过程概率模型导论 SheldonM.Ross 著 目前没有第十版的答案,但是第九版的习题和第十版差不多,可以参考使用 -
应用随机过程概率模型导论 第11版 [(美)SHELDON M
2018-03-02 18:32:17应用随机过程概率模型导论 第11版 [(美)SHELDON M 应用随机过程概率模型导论 第11版 [(美)SHELDON M 应用随机过程概率模型导论 第11版 [(美)SHELDON M -
深度学习中的结构化概率模型
2020-11-04 11:37:50MIT版深度学习第16章,结构化概率模型, 非结构化概率模型用条件概率公式/贝叶斯公式来描述概率分布中随机变量之间的相互关系,结构化概率模型使用图来表示随机 变量之间的相互作用。主要介绍了结构化模型的优势、有... -
应用随机过程概率模型导论(第10版)_中文版
2016-02-16 12:41:33本版还增加了不带左跳的随机徘徊和生灭排队模型等内容。本书约有700道习题,其中带星号的习题还提供了解答。本书可作为概率论与数理统计、计算机科学、保险学、物理学、社会科学、生命科学、管理科学与工程学等专业... -
《应用随机过程 概率模型导论》第11版 英文文字版 非扫描版 带标签 超清晰
2017-10-20 17:08:24《应用随机过程 概率模型导论》第11版 英文文字版 非扫描版 带标签 超清晰,《Introduction to Probability Models》 -
【机器学习】判别模型vs生成模型、概率模型vs非概率模型
2020-07-26 17:31:05判别模型和生成模型的区别,主要在于概率分布。对于一堆样本数据,第i个样本的特征为Xi(特征维度可以是j),对应的分类标记为Yi,则: 判别模型:学习到条件概率分布P(Y|X),即在特征X出现的情况下标记Y出现的概率...参考:生成模型 VS 判别模型 (含义、区别、对应经典算法)
判别模型与生成模型,概率模型与非概率模型、参数模型与非参数模型总结
将判别模型vs生成模型、概率模型vs非概率模型放在一起讲解,是因为两者具有一定的联系,放在一起更有助于理解。
注意一下所有内容都是基于监督学习的!!!!
监督学习的任务就是学习一个模型,对于给定的输入预测相应的输出,这个模型的一般形式为决策函数:
或者条件概率分布:
这里称
为条件概率,是指在给定样本特征X得条件下,去求样本得类别Y。更准确的说是后验概率,具体将在后面阐述。
判别模型vs生成模型
-
生成模型
学习到联合概率分布P(X,Y),即特征x和标记y共同出现的概率,然后求条件概率分布P(Y|X),之后P(Y|X)最大的类别就是最终预测的类别。生成模型能够学习到数据生成的机制。公式如下:
生成式模型对于一个样本的特征X,要求出X与不同标记Y之间的联合概率分布P(Y,X),然后大的获胜,如下图右边所示,没有什么边界存在。对于未见示例(红三角),求两个联合概率分布(有两个类),比较一下,取那个大的作为最终类别。
机器学习中朴素贝叶斯模型、隐马尔可夫模型HMM、混合高斯模型等都是生成式模型,熟悉Naive Bayes的都知道,对于输入X,需要求出好几个联合概率,然后较大的那个就是预测结果~(根本原因个人认为是对于某示例X_1,对正例和反例的标记的联合概率不等于1,即P(Y_1,X_1)+P(Y_2,X_1)<1,要遍历所有的X和Y的联合概率求和,即sum(P(X,Y))=1,
-
判别模型
直接学习到决策函数f(x),即对输入空间到输出空间的映射进行建模;或者直接对分布P(Y|X)建模,即在特征X出现的情况下标记Y出现的概率,是后验概率。公式为:
决策函数:
后验概率:
这里需要特别阐述一下
为什么是后验概率?
后验概率的定义是执果索因,就是已知结果去求为什么。而对于上式子,很多人认为这是执因索果:因为我们我们已知样本的特征X,然后根据这些特征来求得样本的类别Y,认为样本的类别是果。
这样理解实际上是搞错了X,Y的因果关系。因为样本是客观存在的,它不会因为我们的观测方式(特征提取的方法)而改变,各类算法提取出的特征只是样本本质Y的体现。
因此实际上,Y是样本的类别,是本质,是因,正因为有了这样的因,我们通过不同的观测(特征提取算法)才会得到不同的特征,即特征X只是样本Y的在不同维度下体现,是果。判别法关心的是对于给定输入特征X,应该预测什么样的输出Y,即直接判别出来样本的类别,如下图的左边所示,实际是就是直接得到了判别边界。
所以传统的、耳熟能详的机器学习算法如:线性回归模型、逻辑回归、支持向量机、感知机、K近邻、决策树等都是判别式模型,这些模型的特点都是输入属性(特征)X可以直接得到Y(对于二分类任务来说,实际得到一个score,当score大于threshold时则为正类,否则为反类)
从本质上来说,判别模型之所以称为“判别”模型,是因为其根据X“判别”Y;
而生成模型之所以称为“生成”模型,是因为其预测的根据是联合概率P(X,Y),而联合概率可以理解为“生成”(X,Y)样本的概率分布(或称为 依据);具体来说,机器学习已知X,从Y的候选集合中选出一个来,可能的样本有(X,Y_1), (X,Y_2), (X,Y_3),……,(X,Y_n),实际数据是如何“生成”的依赖于P(X,Y),那么最后的预测结果选哪一个Y呢?那就选“生成”概率最大的那个吧~
-
总结
通过上面的阐述,可以看到无论是判别模型还是生成模型,都是求
这个后验概率,但是前者是采用的是极大似然的方法,而后者通过贝叶斯定理将其转化为求联合概率分布P(X,Y)。
判别模型的优点就是生成模型的缺点,反之亦然
生成模型 判别模型 优点 ① 可以还原出联合概率分布P(X,Y);
② 收敛速度更快,当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;
③可以训练包含隐变量的模型
①直接学习决策函数和条件概率来预测类别,准确率更高;
②由于直接学习Y=f(X)或P(Y|X),可对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习过程。
缺点 ① 需要更多的样本,计算量较大
② 更多情况下分类性能不如判别模型
①不能还原联合概率分布P(X,Y)
② 收敛速度较慢
③ 不能训练包含隐变量的模型
概率模型vs非概率模型
-
概率模型
先假定模型<X,Y>具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。追根究底就是计算出在特征X出现的情况下标记Y出现的后验概率P(Y|X),之后P(Y|X)最大的类别就是最终预测的类别,公式如下。
计算P(Y|X)有两种方式:
(1)直接对P(Y|X)建模。逻辑回归就是采用的就是这样的方式;
(2)对联合概率分布P(X,Y)进行建模,公式如下。对比一下就会发现,这种方法与生成模型一样,都是学习联合概率分布P(X,Y)。
由于一般情况下P(X,Y)无法直接获得,会通过贝叶斯公式将其拆解为类先验概率P(Y)和类条件概率P(X|Y)来计算:
-
非概率模型
非概率模型指的是直接学习输入空间到输出空间的映射h,学习的过程中基本不涉及概率密度的估计,概率密度的积分等操作,问题的关键在于最优化问题的求解。通常,为了学习假设h(x),我们会先根据一些先验知识(prior knowledge) 来选择一个特定的假设空间H(函数空间),例如一个由所有线性函数构成的空间,然后在这个空间中找出泛化误差最小的假设出来,
其中l(h(x),y)是我们选取的损失函数,选择不同的损失函数,得到假设的泛化误差就会不一样。由于我们并不知道P(x,y),所以即使我们选好了损失函数,也无法计算出假设的泛化误差,更别提找到那个给出最小泛化误差的假设。于是,我们转而去找那个使得经验误差最小的假设,
这种学习的策略叫经验误差最小化(ERM),理论依据是大数定律:当训练样例无穷多的时候,假设的经验误差会依概率收敛到假设的泛化误差。要想成功地学习一个问题,必须在学习的过程中注入先验知识[3]。前面,我们根据先验知识来选择假设空间,其实,在选定了假设空间后,先验知识还可以继续发挥作用,这一点体现在为我们的优化问题(IV)加上正则化项上,例如常用的L1正则化,L2正则化等。
正则化项一般是对模型的复杂度进行惩罚,例如我们的先验知识告诉我们模型应当是稀疏的,这时我们会选择L1范数。当然,加正则化项的另一种解释是为了防止对有限样例的过拟合,但这种解释本质上还是根据先验知识认为模型本身不会太复杂。在经验误差的基础上加上正则化项,同时最小化这两者,这种学习的策略叫做结构风险最小化(SRM)。最后,学习算法A根据训练数据集D,从假设空间中挑出一个假设g,作为我们将来做预测的时候可以用。具体来说,学习算法A其实是一个映射,对于每一个给定的数据集D,对于选定的学习策略(ERM or SRM),都有确定的假设与D对应
感知机、支持向量机、神经网络、k近邻都属于非概率模型。线性支持向量机可以显式地写出损失函数——hinge损失。神经网络也可以显式地写出损失函数——平方损失。
时下流行的迁移学习,其中有一种迁移方式是基于样本的迁移。这种方式最后要解决的问题就是求解一个加权的经验误差最小化问题,而权重就是目标域与源域的边际密度之比。所以,线性支持向量机在迁移学习的环境下可以进行直接的推广。
总结
判别模型
① 学习到决策函数y = f(x)
② 直接对P(Y|X)建模,即计算后验概率。
就是最终预测类别。
SVM(学习决策函数)
感知机(学习决策函数)
逻辑回归(对P(Y|X)建模)
生成模型
对P(X,Y)建模获得X,Y的联合概率分布,之后计算
,
就是最终预测类别。
贝叶斯分类器
非概率模型
直接学习输入空间到输出空间的映射,学习的过程中基本不涉及概率密度的估计,概率密度的积分等操作,问题的关键在于最优化问题的求解:
①经验风险最小化
②结构风险最小化
SVM
感知机
神经网络
概率模型
追根究底就是计算P(Y|X),有两种方法:
① 直接对P(Y|X)建模,即计算后验概率;(部分判别模型)
②对P(X,Y)建模之后通过
计算。(生成模型)
计算P(Y|X)后,
就是最终预测类别。
逻辑回归(直接对P(Y|X)建模)
(朴素)贝叶斯分类器(通过贝叶斯公式计算)
-
-
应用随机过程:概率模型导论(第11版)(英文版)
2015-08-27 17:42:02清晰的电子版 应用随机过程:概率模型导论(第11版)(英文版) -
常见概率模型在市场中的应用
2020-04-15 14:09:11通常概率模型会把常规金融模型中的某些参数看作是一个未知的概率分布,这个未知的分布通常会预先给定一个基本假设,即先验概率,然后再根据具体的观测数据去推断或者逐步修正这些假设。一种比较常见的概率模型就是...编者按:本文是华泰期货研究院量化策略组研究员陈维嘉于2017年9月撰写的一系列量化策略报告之一。
1、概率模型简介
概率模型是一大类模型的统称,是常规金融模型的概率化表达。通常概率模型会把常规金融模型中的某些参数看作是一个未知的概率分布,这个未知的分布通常会预先给定一个基本假设,即先验概率,然后再根据具体的观测数据去推断或者逐步修正这些假设。一种比较常见的概率模型就是贝叶斯线性回归模型,这类模型把线性回归中的系数 和截距等参数作为未知的概率分布。另外一类是最近二十年兴起的状态空间模型(State- Space Model, SSM)和隐含马尔科夫模型(Hidden Markov Model, HMM),这类模型假设在可 观测数据背后包含了某种隐含模式,并且可以利用条件概率分布来发掘这些隐含模式来 总结数据规律以及预测未来数据。SSM 通常用于描述连续的隐含状态而 HMM 通常指有 限的隐含状态。这类模型首先在物理学中得到应用,随后在自然语言处理中被发现取得 良好效果。目前这类模型也常出现在金融、经济等学术论文中用于检验经济指标有效性 或者用作预测。这类模型在国外一些对冲基金公司也有所应用。
概率模型可以比灵活地从较少量数据中调校出来,但是在传统机器学习问题上,比 如分类,非线性回归等,这类模型效果在精确性和扩展性方面表现不会特别好。而另一 方面,深度学习在图像识别、语音识别方面取得较大突破,其原因之一是大数据为较复 杂的模型架构提供了支持。如果把这两者的优势结合,则有可能在少量数据的基础上构 造出较为复杂的模型,例如贝叶斯神经网络。
本报告将简单介绍概率模型的构造流程,常见概率模型的类型,最后给出贝叶斯线 性回归模型和贝叶斯神经网络在期货预测中的应用例子。
2、概率模型构建流程
概率模型的构造通常要求对待预测的问题有一个直观的认识,比如从可观测数据库存,现货价格,利率,工厂开工率,产品优良率,成交量和持仓量等信息中推断出期货价格可能由基本面,宏观,流动性等不可观测的因子在背后驱动期货价格涨跌。由此构造出有一定经济学含义的模型,并且加入一定的主观预期,即模型参数的先验分布。再由可观测数据去推断出这些隐含因子对期货价格的影响作用,也就是说利用特定的推断算法 计算后验分布。最后使用后验分布来测试模型,找出其优点和缺点,如果能满足则该概率 模型在此问题上有一定的解决能里,否则则重新修改。这就是Box循环,如下图所示。
Box循环清晰地把以下几个步骤区分开了:把主观认识加进模型,根据数据进行推断,在现实环境中进行模型评价以及根据结果修改模型假设。第一个步骤概率模型构造由于需要加入对期货价格行程的主观认识,这个步骤更像是一个艺术过程。研究员甚至可以把商品产业链的相关信息编进概率模型中,例如一个简单的豆粕和豆油的部分产业链可以如下图表示。从大豆种植面积开始经过贸易,加工等环节生产出豆粕和豆油,这里面的各种因素都会对其最终价格产生影响,而其下游产物也可能由于供需关系的变动对原材料产生影响,这一系列过程可以都用一类称作贝叶斯网络的概率模型来表示,模型参数就是各个流程之间的条件概率分布。随着研究员的认识深入,这个网络可以不断扩展。甚至添加一些变量,例如贸易利润和加工成本可能同时受制于某些不可观测的宏观因素。
期货研究员如果对某一商品品种有一定认识都可以构建出类似的概率模型,然后把可观测数据交给模型利用特定的推断算法计算出模型参数的后验分布。对大多数概率模型来说,根据可观测数据进行调校都不是简单的步骤,两种常用的方法是马氏链蒙特卡罗和变分推断。调校后的模型是否有效则受制于更多因素,例如数据质量,数据样本是否足够多,概率模型的推断方法选取是否适当等等。最后可以用后验预测检验(Posterior Predictive Checks, PPC)来评价模型对数据的拟合程度以及交叉验证来评价模型的预测能力。
3、概率模型类型
概率模型包含了一大类模型,在金融建模中经常会用到,但是他们的名称常常不统一,例如常用的regime-switch 模型通常包含2-3个regime,他们其实就是一类特殊的隐含马尔科夫模型。David M. Blei 在 Build, Compute, Critique, Repeat: Data Analysis with Latent Variable Models(2014)中总结了几类常用的概率模型,其架构如下图所示。图中深蓝色 圆圈为可观测变量,白色圆圈代表不可观测变量,深蓝色方框代表固定的模型超参数。灰色的箭头表示各个变量之间的依存关系。其中的混合会员模型(mixed mrship)常用于无监督的聚类分析,矩阵因子分解模型(matrix factorization)则用于特征分解,如用户行为分析等,这两类概率模型在金融上的应用较为少见,所以在这里不作讨论,下面主要介绍其他几种在金融中较为常见的概率模型
1.贝叶斯线性回归(Bayesian Linear Regression, BLR)
这类模型比较基础,主要就是把通常线性回归模型中的系数看作是未知分布,可以用如下式子表示
其中ft1为自变量因子。A 和b为贝叶斯模型的系数和截距,其先验分布均通常取为标 准正态分布,但也可根据具体情况采用其他与现实情况更为接近的分布。rt的预测误差服从 正态分布(0, 2),其方差2可取标准对数正态分布。这里的参数= , b, 2的后验分布 都是通过历史数据进行马尔科夫链蒙特卡诺或者变分推断。在推断出后验分布后就可以计 算rt的后验分布了,也就是给定了当前因子下的条件概率分布(rt, )。
2.隐含马尔科夫模型(Hidden Markov Model, HMM)
隐含马尔科夫模型在线性模型的基础上可以用公式表示为
其中St1为当前的区域变量(regime),其取值是离散的St1 = 1,2,3, …。通常在金融应用中只取2-3个区域,例如当St1=1时,市场处于上升状态,当St1= 2时,市场处于调整状态,当St1=3时,市场处于下跌状态。而有的模型会忽略掉市场的调整状态,只取剩下两种。同时模型通常也会假设各个状态之间的存在一个转移概率矩阵,这个转移概率和在各个状态下的系数A都是不可观测的,他们可以是固定的参数也可以是贝叶斯化的概率分布。模型 的使用者并不知道当前市场处于哪个区域,需要从可观测数据中使用特定算法进行推断出当前市场所处区域的概率,将来市场所处的概率,以及市场出现转换的概率。
在实际使用当中HMM的具体形式可能会稍作变化,例如Andrew Ang在How do Regimes Affect Asset Allocation?(2002)中使用了如下形式的HMM来研究在牛市和熊市中如何调节资产配置方案。在其论文中,股票超过政府债券的额外收益t表示为
Min Dai 等人在 Optimal Trend Following Trading Rules (2011)中把 HMM 加入到随机过程模型中。例如用ft表示在t时刻的股票价格,满足如下随机过程
其中()为预期收益率,其值取决于所处的两个牛市或熊市区域,为常数波动率,与所处regime无关,是标准布朗运动。下表中列出了利用 S&P500 校正该 HMM 模型的参 数值,其中1和2分别是牛市和熊市的期望收益,1和2是从牛市转移到熊市和熊市转移 到牛市的转换强度。从表中可以看出这些参数在 2008 年以前都比较稳定,2009年达到峰值,之后开始回落,这跟 2008-2009年间美股出现的大幅下滑表现一致,尤其是1达到最大值,说明市场有强趋势向熊市转换。由此可见该HMM模型对市场有一定的描述能力。
3.状态空间模型(State Space Model, SSM)
状态空间模型是隐含马尔科夫模型的进一步扩展,其线性形式可以表示为其中公式(5)被称为观测方程,At是一个不可观测的隐含状态向量。该向量序列At由被称为过渡方程的公式(6)定义,Bt是一个过渡矩阵。(0, 2)和(0, 2)相当于白噪声。与之前的 HMM 相比,SSM中的At的取值变成了可变的时间序列,而且其分布不再是独立相同的了。这类模型首先被用在航空学上,观测方程所描绘的变量rt为雷达可观测结果并带有白噪声干扰,状态At表示飞行器在空间位置、速度等状态,该模型目标就是为了通过雷达观测,求解出飞行器的状态。这类模型在金融上的应用也有很多,较为经典的是随机波动率模型。例如 Heston,
经过一阶离散线性化后就可以写成状态空间的形式,其中为可观测的股票价格,随机波动率作为不可观测的隐含状态。把Heston模型写成状态空间的形式就可以使用时间序列,而非通常的期权价格进行校正了。
在图 3:e中David M. Blei提到的卡曼滤波(Kalman filter)通常是作为一种实现SSM的推断方法,其最初的设计目地就是用于雷达跟踪,与HMM的发展是相互独立的而且起源于不同的研究群体,但他们都是概率模型的一种实现形式。
4.贝叶斯神经网络(Bayesian Neural Network, BNN)
前面所提到的几类概率模型都是线性的,虽然也可以做成非线性的形式,但是要求模型构造者对建模问题需要有一定的认识前提。而利用期货产业链构建贝叶斯网络更要求研究者对整个产业有较为深刻的认识。上述模型都要求研究员对数据进行不同程度的加工,这也使得概率模型的构建更像一门艺术。目前正在兴起的深度学习其成功的原因之一是能 够利用算法自动发掘数据内部特征,从而减少研究人员对数据人工预处理的依赖。由于深度学习用有一套相对比较科学的特征提取和筛选方法,从而使得模型构造过程更加理性与客观。如果把概率模型和深度学习相结合,则有可能实现优势互补。其中贝叶斯神经网络 就是两者结合的一种形式,这类模型其实是把神经网络中的权重看成是一个未知的先验分布,然后根据观测数据利用贝叶斯统计推断的方法去求解权重的后验分布。有概率模型开 源软件的研究人员认为贝叶神经网络具备的优势包括:
1.预测结果的不确定性
贝叶斯模型能够体现预测结果的不确定性,而这点通常是深度学习中被忽略掉的。比如预测结果的不确定性可以帮助研究者找到预测不太好的样本,从而加强对这些样本的训练。
2.模型参数的不确定性
考察模型参数的不确定性也能帮助研究人员评价模型是否稳定。
3.通过先验分布实现正则化
普通深度神经网络通常使用权重惩罚来使得模型某个参数不至于过大或过小,从而防止过度拟合,而贝叶斯模型则由于有先验分布的约束从而使后验分布不至于产生过大的偏离。
4.通过先验分布进行迁移学习
如果需要对某个新问题进行建模,那么可以把在就问题中训练好的模型参数作为研究新问题的先验分布。这在期货上可能也会有所应用,比如对国内即将上市的原油期货,在上市初期,相关研究员可以用外盘布伦特原油期货的大量相关数据进行模型训练然后再把其作为先验分布,结合国内原油期货上市初期的少量数据进行训练。
4、概率模型应用实例
在这一节里尝试对比贝叶斯线性回归模型(BLR)和贝叶斯神经网络(BNN)在预测沪铜主力期货的收益。这里选择 BNN 而非其他介绍的模型,原因是他是概率模型的一个较高形 态而且不太依赖人工对数据的预处理。这里的输入参数以周频基本面数据为基础,包括铜库存、期货持仓量、成交量、相关利率、汇率等20多个可观测因素。由于因子数目较多, 直接导入上述贝叶斯模型进行计算运算量较为庞大,所以这里使用了主成份分析(Princinple Component Analysis, PCA)的方法以减少变量个数。贝叶斯线性回归模型采用留一交叉验证 法(Leave One Out Corss Validation)进行超参数筛选,详情可参阅2017年8月华泰期货量化专题报告:贝叶斯线性回归在期货交易中的应用。
目前贝叶斯神经网络是采取了较为简单的全连层结构如下图所示,层神经元使用的激活函数为tanh,输出层激活函数为 sigmoid,权重的先验分布为标准正态分布,超参数包括层数目和其包含的神经元数量等。为方便比较两个模型,贝叶斯神经网络的输入与线性回归模型一致,都是使用PCA后相同的主成份。与线性回归模型不同的是,由于训练贝叶斯模型的计算量较大,只采用时间序列上前350个周频数据样本作为训练集,约60个的样本作为验证集筛选超参数,约60个样本作为测试集,所以BNN只训练了一次,而BLR则是固定时间窗口每周滚动拟合。这里使用的模型统计推断方法为开源软提供的自微 分变分推断(Automatic Differentiation Variational Inference, ADVI)。
回测时这两个模型都是先预测出沪铜主力合约下一周的上涨和下跌概率,如果上涨概率大于0.5就做多,下跌概率大于0.5就做空。每周最后一个交易日进行预测和调仓,为方便计算假设能以收盘价交易。这两个模型的收益曲线如下图,由于贝叶斯线性回归模型采用了较小的时间窗口进行滚动拟合,所以验证集数据较多。但由图中可以看出这两个模型的交易曲线差异并不是十分大,在2015年这段时间收益都比较平缓,而之后贝叶斯神经网络的收益增长的趋势则比较明显。
这两个模型在沪铜期货上的收益如下图所示,由于这两个模型的验证集和测试集数据样本的时间跨度不一致,所以对其分别做了调整,使他们使用相同的样本,从而BLR的验证集能与BNN的验证集比较,BNN的测试集能与BLR的测试集比较。在相同的验证集区间BNN的收益为10.13%而BLR只有1.97%。在相同的测试集合上BNN的收益为20.91%略高于 BLR的18.84%。但考虑到BNN并没有使用滚动训练的方法,BNN的效果提升还是比较明显的。
结果讨论
本报告首先对概率模型进行了基本介绍,包括其框架,构建流程,同时简述了几类重要模型在金融建模上的应用,包括熊市和牛市的转换判别,随机波动率的推算和混频数据的预测等。最后本报告尝试基于沪铜期货基本面因子,比较了贝叶斯线性回归模型和贝叶斯神经网络对交易沪铜期货的收益。虽然贝叶斯神经网络没有使用滚动训练的方法,运算量大大降低,但是在相同的数据样本上却取得比贝叶斯线性回归模型更好的效果,是值得深入研究的一类模型。
------------------------------------------------------------------------------------
推荐阅读:
-
机器学习——概率模型
2019-06-23 15:23:23概述——用一类图来表达变量相关关系的概率模型(概率模型将学习任务归结于计算变量的概率分布) P(A|B)=P(A,B)/P(B)——根据联合概率 P(A,B)推断 P(A|B)的过程 具体说:假定所关心的变量集合为 Y,可观测变量集合...概述——用一类图来表达变量相关关系的概率模型(概率模型将学习任务归结于计算变量的概率分布)
P(A|B)=P(A,B)/P(B)——根据联合概率 P(A,B)推断 P(A|B)的过程
具体说:假定所关心的变量集合为 Y,可观测变量集合为 O,其他变量的集合为 R
“生成式”模型:考虑联合分布 P(Y,R,O)
”判别式“模型:考虑联合分布 P(Y,R|O)
“推断”——利用已知变量推测未知变量的分布——核心是:如何基于可观察变量推测出未知变量的条件分布;
——给定一组观测变量值,由 P(Y,R,O) 或 P(Y,R|O) 得到条件概率 P(Y|O)
已知图模型 有向图模型——贝叶斯网 无向图模型——马尔科夫随机场 未知图模型 “评分搜索”——根据训练数据集找出结构最恰当的贝叶斯网 1.贝叶斯网/信念网——借助有向无环图图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布
1.1贝叶斯网三种典型依赖关系
V型结构也成冲撞结构 同父结构 顺序结构 V型结构也成冲撞结构:给定c的取值,a,b必不独立,但是当c的取值不知道时,a,b反而独立
同父结构:当c已知时,a和b独立
顺序结构:如果已知C,那么a和b条件独立
1.2“有向分离”——分析有向图中变量间的条件独立性
步骤 1)把有向图转变一个无向图
找出有向图中所有V型结构,在V型结构的两个父结点之间加上一条无向边;
将所有有向边改为无向边,由此产生的无向图称为“道德图”
2)基于道德图找到变量间的条件独立性
假定道德图中有变量x,y和变量集合z={Zi},若变量x和y能在图上被z分开,即从道德图中将变量集合z去除掉后,x和y分属于两个联通分支,则称变量x和y被z有向分离;
1.3结构
以结构表达了属性之间的条件独立性,给定父节点集,假设每个属性与它的非后裔属性独立,于是有联合概率分布定义为
1.4典型图结构
1.4.1 朴素贝叶斯分类器
联合概率的求解:
朴素贝叶斯分类器的表达式:
1.4.2 隐马尔可夫模型
联合概率的求解:
确定一个隐马尔可夫模型,还需要三组参数
1)状态转移概率:模型在各个状态间转换的概率,通常用矩阵表示
2)输出观测概率:根据当前状态获得各个观测值的概率,通常用矩阵表示
3)初始状态概率:模型在初始时各个状态出现的概率,通常记为:
表示模型初始状态为
的概率
通过制定状态空间Y,观测空间X和以上三个参数,就确定一个隐马尔可夫模型
2.马尔可夫随机场——典型的马尔可夫网,这是一种著名的无向图模型(由无向图表示的联合概率分布)
随机变量间三种典型关系:
1)全局马尔可夫性——给定随机变量组Yc条件下,随机变量组Ya,Yb是条件独立
2)局部马尔可夫性——在给定与一个节点连接的邻接变量 w 的情况下,该节点 v 与其他变量 o 条件独立
3)成对马尔可夫性——描述两个节点条件独立
概率无向图模型的因子分解——将概率无向图模型的联合概率分布表示为其最大团上随机变量的函数的乘积形式
势函数——定量刻画变量间的相互关系;为了满足非负性,指数函数常被用于定义势函数
条件随机场——主要讨论定义在线性链上的条件随机场
-
游戏抽卡概率模型
2020-11-22 13:36:29游戏抽卡概率模型 目前的中国游戏市场,最热门的莫过于免费抽卡手游。游戏厂商为了盈利,设计出有不同规则的卡池,让玩家抽卡获取稀有的人物和武器。这一机制吸引了很多玩家,首先因为手游是免费的,入手门槛较低,... -
概率模型检验的CBTC系统通信协议的形式化验证 (2009年)
2021-05-24 14:08:09分析了概率模型检验的语义及语法,建立了通信协议的概率模型,用概率模型检验工具PRISM验证了典型的概率规范。结果证明,当信道正常概率为99%,系统无延时概率为99%时,通信协议失效率小于1.5X10-10。。说明了用概率... -
游戏抽奖概率模型
2019-04-02 23:34:35本文主要想罗列出游戏中常见的一些抽奖概率模型,并对其做简要的分析和讨论。 游戏的设计经常会有一些含有随机性质的抽奖设计。比如说卡牌抽奖、购买随机物品等等。它们都可以分为下面这两大类: 1、纯随机概率... -
概率模型-随机供需作用下的道路阻塞概率模型分析
2013-06-08 13:50:14概率模型-随机供需作用下的道路阻塞概率模型分析 -
结构化概率模型
2018-12-09 21:00:41机器学习的算法经常会涉及到在非常多的随机变量上的概率分布。通常,这些概率分布涉及到的直接相互作用都是介于非常少的变量之间的。使用单个函数来描述整个联合概率分布是非常低效的 (无论是计算上还是统计上)。 ... -
机器学习常见概率模型
2019-08-12 07:27:27机器学习常见概率模型概率模型Bernoulli 分布Multinoulli 分布高斯分布指数分布和Laplace 分布分布的混合 概率模型 Bernoulli 分布 Bernoulli 分布(Bernoulli distribution)是单个二值随机变量的分布。它由单个... -
机器学习中的数学——结构化概率模型/图模型
2021-10-05 14:11:42机器学习的算法经常会涉及到在非常多的随机变量上的概率分布。通常,这些概率分布涉及到的直接相互作用都是介于非常少的变量之间的。使用单个函数来描述整个联合概率分布是非常低效的。 我们可以把概率分布分解成... -
西湖大学自然语言处理(五)—— 概率模型
2022-03-19 10:34:28西湖大学自然语言处理(五)—— 概率模型模型模型的定义概率模型的定义概率语言模型举例极大似然估计建模过程推导过程专业术语从概率模型到概率语言模型概率分布专业术语概率分布 模型 模型的定义 从数学意义上而言... -
【机器学习】监督学习的分类:判别/生成模型,概率/非概率模型、参数/非参数模型
2018-08-16 16:35:26这不仅是由于在监督学习框架下面有各种各样的学习模型,如逻辑斯特回归、朴素贝叶斯、支持向量机等,更是因为这个框架有着坚实的理论支撑,机器学习中的计算学习理论就是主要为监督学习服务的:这套理论以概率的方式... -
数学建模——第八章概率模型
2019-06-07 17:56:48一、Matlab相关的概率命令: ...二、概率公式:全概率模型、贝叶斯公式 分布:1、正态分布——如果决定实验结果X是大量随机因素的总和,假设各个因素之间近似独立,并且每个... -
概率论中经典概率模型
2018-11-16 22:20:47温故知新 1.抽样模型 2.放回抽样模型 3.盒子模型 4.生日问题 5.会面问题 7. 蒲丰投针 8.配对问题 9.摸彩问题 -
第3章-线性概率模型(1)-logistics/probit模型
2015-11-19 21:55:29二值因变量模型 在统计学中,有一种离散变量为二值变量(又称虚拟变量、哑变量)...探讨Logistic模型之前,我们先从线性概率模型(Linear Probability Model,LPM)谈起,然后逐步介绍Logistics模型以及其他非线性模型. -
关于高斯概率模型的一些理解
2018-09-10 19:41:17高斯分布,也就是所谓的正态分布,在1维的情况下,参数是均值和方差,比较好理解的。在高维的情况下,输入x变成了一个n维的向量,相应高维高斯分布的参数也就变成了...而对于由K个单高斯分布组成的高斯混合模型,由... -
语言概率模型和Word2Vec简述
2018-03-15 16:41:141、 概率语言模型一句话的概率公式:根据一句话中的前文预测下一个词:根据链式概率法则:根据马尔科夫假设,当前词只和前n个词有关系:2. 大名鼎鼎的 n-gram模型为模型想要预测的下一个词,为句子中的历史词语。... -
概率论 基本概率模型、分布、期望和方差
2019-05-05 11:08:07也就是说以n,p为参数的二项分布的概率值可以由参数为λ=npλ=np的泊松分布的概率值近似。 连续型随机变量 均匀分布 若连续型随机变量X具有概率密度 f(x)={1b−a,0,a其他f(x)={1b−a,a,其他 ... -
概率图模型(05): 揭示局部概率模型, 稀疏化网络表示(Structured-CPDs)
2016-08-22 10:58:38本文讨论局部概率模(Structured-CPDs)。探索网络的局部结构(CPDs),理清条件概率分布中父节点变量间的关系,会发现更多好的独立性质,以此稀疏化网络的表示。同时对于连续变量,也避免了全概率分布表难以表达... -
概率模型(二):高斯混合模型GMM
2018-08-24 13:04:45本文介绍GMM算法,也就是高斯混合模型,或则更准确的说,应该称为高斯线性混合模型。 高斯分布 又称为正太分布,常态分布,是自然界大量存在的、最为常见的分布。例如人类和动物的身高,体重,测量误差... -
朴素贝叶斯分类器常用的三种条件概率模型:伯努利、多项式、高斯模型
2020-07-15 17:18:34一、条件概率和贝叶斯定理 条件概率: 贝叶斯定理: 贝叶斯分类器:若样本x有...多项式模型在计算先验概率和条件概率时,会做一些平滑处理,其公式为: 是类别为的样本个数,n是特征的维数,是类别为的样本中,第...