1、nextBoolean():
随机返回true或false
2、nextInt(int bound):
随机返回0到bound之间的整数(不包括bound)
如:nextInt(10)返回0-9之间的随机数,nextInt(100)返回0-99之间的随机数
3、nextDouble():
返回(0, 1)开区间内的小数,精度为16位
4、nextFloat():
返回(0, 1)开区间内的小数,精度为8位
5、应用:
【CH1.范围】
本系列文章旨在归纳、总结在高级数理经济学(不是高级计量经济学)中使用频率最高的主流数学工具(注意并非全部数学工具)。
包括以下几个方面:
1.不确定性经济学
常用的随机差分方程和随机微分方程、哥萨诺夫定理。
2.动态系统
流形与切丛的概念、动态系统的概念、证明流形上动态系统均衡的存在性、稳定性、唯一性的数学工具
3.最优化理论
函数方程分析基础、动态规划的使用方法、本维尼斯特-沙因克曼定理的证明、随机控制与卡尔曼滤波
【CH2.不确定性】
这篇文章主要介绍处理不确定性经济学的数学工具。
面对随机差分方程,经常需要处理随机变量构成的无穷级数。实变函数中的单调收敛定理和控制收敛定理是我们求取随机变量无穷级数期望值的重要工具,现示范如下:
一个简单的MA过程:
由于
我们只要证明上式不等号右边的式子是控制函数(即它的无条件期望值是有限的),我们就可以运用DCT(控制收敛定理),从而可以把期望算子放到无穷求和号里面。
如是,则可得:
所以我们只需要证明:
即可。注意到这是一串递增型非负随机变量和,利用单调收敛定理易证上式成立。
现定义随机序列
是一个相应于信息集
条件同方差+鞅差分序列。所谓信息集,是包含了所有的
的可测函数生成的。
是一个
维状态变量。迭代得到线性随机差分方程:
预测,就是基于随机差分方程来计算均衡。令
表示基于
时刻信息的条件期望,则最优线性预测为:
同时基于
的条件协方差矩阵为
我们还可以将该VAR过程转变为VMA过程:
从而通解为
移动平均的形式显式地表达l了脉冲响应函数。
【Wold分解】指的是一个弱平稳随机过程都可以写成MA(∞)形式,即:
称为脉冲响应函数。
考虑矩阵的Jordan分解
令
则方程变为
由于Jordan矩阵
解耦。根据Jordan矩阵的性质,设是一个分块矩阵,我们实现了系统的
为
的特征值,只要
小于1,则随机差分方程是稳定的。
下面是渐进分析中经常使用的结论:
使用方法:在宏观经济学/金融学研究中,我们列出随机动态规划问题的Bellman方程,导出相应的Euler方程。我们经常能够据此得到某个序列(如消费序列)是一个非负上鞅。根据鞅收敛定理,我们知道该消费序列几乎必然收敛,则根据渐进分析中的连续性定理,我们可以得到任何关于该序列的连续函数都是几乎必然收敛的!从而为分析系统的极限行为提供了数理依据。我们知道了系统收敛的必要条件,也可以反过来使用这些结论得出避免使得随机系统发散的条件。
以下两个随机过程的极限定理在宏观经济分析中也经常用到:
分析连续型随机系统主要依靠三个工具:
考虑随机微分方程:
一种常见的随机微分方程是Ornstein-Uhlenbeck过程,可以证明(详见《期权、期货及其他衍生产品》第21章),GARCH(1,1)模型可以与该过程等价。
变形得
即
两边积分得
此外,平方根过程也是数理经济学、金融数学中经常用到的一种随机微分方程。其形式为:
其中
均为正的常数。
由于在经济学研究中经常遇到这一类方程,我们不妨单独拎出来研究下它。
首先根据观察可知,它同Ornstein-Uhlenbeck过程一样具有均值回复特征。这是显然的。这篇短文的主要目的就是要得到该随机过程的条件期望与条件方差。
首先,我们介绍一个有用的引理:
引理:设
是一个Ito过程,则
我们对(2)两边取期望:
从而
边界条件为
令
则通过对前式简单变形,我们可以得到:
简单化简,我们就得到了第一个结果
结合边界条件,知:
接下来,运用Ito公式,可以得到:
所以再由引理,知:
将
的结果代入上式,就可以得到一个关于
的常微分方程,不难,解出即可得
得到一个随机微分方程的期望和方差是非常难得的,并且往往需要借助一些奇技淫巧。所以平方根过程是如此友善,以至于我们应该珍惜这一类方程!想要得到基于t时刻信息集
的关于未来时刻
的条件期望和条件方差,只需将公式中的
换成
最后举一个债券定价的 例子:
在风险中性概率测度Q下:
从而SDE变为
假定Girsanov定理条件成立。
1.Math.random(); 结果为0-1间的一个随机数(包括0,不包括1)
2.Math.floor(num); 向下取整,参数num为一个数值,函数结果为num的整数部分。
3.Math.round(num); 参数num为一个数值,函数结果为num四舍五入后的整数。
4.Math.ceil(n);向上取整
Math:数学对象,提供对数据的数学计算。
Math.random(); 返回0和1间(包括0,不包括1)的一个随机数。
Math.ceil(n); 返回大于等于n的最小整数。
用Math.ceil(Math.random()*10);时,主要获取0到10的随机整数,取0的几率极小。Math.ceil(0)=0
Math.round(n); 返回n四舍五入后整数的值。
用Math.round(Math.random());可均衡获取0到1的随机整数。
用Math.round(Math.random()*10);时,可基本均衡获取0到10的随机整数,其中获取最小值0和最大值10的几率少一半。
Math.floor(n); 返回小于等于n的最大整数。
用Math.floor(Math.random()*10);时,可均衡获取0到9的随机整数。
学习笔记吗,仅供参考,有错必纠
决策树与随机森林
决策树(decision tree)是常用的机器学习与数据挖掘方法,它代表的是对象属性与对象
值之间的一种映射关系,可以用于分析数据和预测,其主流算法包括ID3算法、C4.5算法、CART算法。基本流程
决策树定义及结构
决策树又称为判定树,是一种基于实例的基本分类与回归方法,从一组无次序、无规则的事例中推理出以树为表示形式的分类规则,形成分类器和预测模型。
决策树由结点和有向边构成。结点包括根节点、内部结点和叶结点。
一般地,一棵决策树包含一个根结点,数个内部结点与叶结点。
根结点代表样本全集;
内部结点代表一个属性或特征;
叶结点为决策结果,即已被分类的数据集合。它们包含的样本集合根据属性测试结果被划分到子结点中。
一条有向边为一个路径,代表一条分类规则。各路径互斥且完备。一棵决策树如下图所示:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DYm5SMXJ-1605662809975)(F:\MyStudio\markdownStudio\image-20201117224518263.png)]
顶部椭圆代表根结点,其余椭圆代表内部结点,矩形为叶结点。
决策树学习步骤
决策树学习的算法通常是自顶向下进行递归,选择一个最优划分属性,根据该属性对训练数据进行分割,使得对各个子数据集有一个最好的分类过程。决策树学习基于树结构进行决策,一般分为三个步骤:
训练集:
属性集:
从输入属性集中选择最优划分属性是决策树学习的关键,选择一个最优划分属性,随着划分过程不断进行,希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的"纯度"越来越高。
ID3决策树算法引入信息论中的信息熵作为最优划分属性的选择标准;
C4.5算法采用基于信息增益率的方法选择最优划分属性;
CART算法则是基于基尼指数。
信息熵是度量样本集合纯度最常用的一种指标。假定当前样本集合D中的第类样本所占的比例为,则D的信息嫡定义式为:
式中,的值越小,则D的纯度越高。
假定离散属性有个可能的取值,使用对样本集进行划分,则会产生个分支节点,其中第各分支节点包含了中所有在属性上取值为,记为。根据信息熵的定义,计算出的信息熵。再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重,即样本数越多,分支结点的影响越大。于是,可计算出用属性对样本集进行划分所获得的"信息增益",如下式所示:
信息增益越大,则意味着使用属性进行划分所获得的纯度提升越大.
信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,C4. 5决策树算法使用"增益率"(Vain Ratio)选择最优划分属性,增益率定义如下式所示:
式中:
称为属性的"固有值",属性的可能取值越多(即越大),的值通常会越大。增益率准则对可取值数目较少的属性有所偏爱,因此C4. 5算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的结果.
数据集D的纯度可用基尼值式来度量:
反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,越小,数据集D的纯度越高。
属性的基尼指数式定义为:
在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性。
剪枝(pruning)是决策树学习算法中解决过拟合问题的最重要也是最常用的方法。
为了提高训练样本分类的正确性,结点划分不断重复,有时会造成决策树分支过多,以致于把训练集自身独有的一些特点当作所有数据都具有的一般性质而导致过拟合。剪掉一些分支后,可达到简化决策树的目的,降低过拟合发生的概率。
决策树剪枝的基本策略有"预剪枝"和"后剪枝":
随机森林(Random Forest)是一种统计学习理论,它是利用bootsrap重采样方法从原始样本中采样多个样本,对每个bootsrap样本进行决策树建模,然后组合多棵决策树的预测结果,通过投票得出最终预测结果。
随机森林包含多个相互无关联的决策树,“森林”之意由此而来。随机森林属于组合分类器,预测精度高于传统的分类模型,泛化误差更小,学习速度更快,抗噪声效果强,能够处理更高维度的数据。流程图如下图所示:
随机森林算法利用泛化误差衡量分类器的性能。
泛化误差是指模型经过训练之后在同种分布的验证集或者测试集合上的表现,即预测未参与训练的样本的能力。泛化误差越小,表示分类器性能越好,相反,则表明分类器性能较差。
强度表征决策森林总体分类能力,森林中单棵决策树的分类强度越高,随机森林整体的分类效果越好;
相关性表征随机森林总体相关程度的指标,森林中树和树之间的相关程度越大,那么随机森林的分类效果越差。
随机森林泛化误差的上限为下式所示:
式中,代表随机森林中树模型的平均相关度,代表随机森林的总体分类强度.
这个界限虽然比较宽泛,但是提供了一个对随机森林性能度量的参考依据。这个界限揭示了相关性和强度之间的关系。为了更好地理解随机森林的性能,可以参考下面的一个定义:
随机森林的比例如下式所示:
式中,值越小,随机森林的分类效果越好。
在随机森林中,分类决策树的强度与多样性对于整体森林的决策效果特别重要。
当分类树模型对新样本具有比随机猜测更好的精度时,则认为这个成员树是准确的。
当集合中的多样性程度不够时,即使增加再多的树模型也不能整体上改善模型的效果。考虑这样一种极端状况,假设所有分类树模型都产生同样的输出,此时树模型的再集成也是不能改善整体模型的分类效果,即随机森林的性能不能得到很好的提升。
要提高随机森林的性能,就必须设法降低值。在做随机森林的不平衡数据分类研究时,需要综合考量这个比率因素。一方面,研究如何生成对不平衡特征数据有较好分类效果的树模型,另外一方面,探讨如何做树模型的集成,使整体模型的分类效果更好。
1、nextBoolean():
随机返回true或false
2、nextInt(int bound):
随机返回0到bound之间的整数(不包括bound)
如:nextInt(10)返回0-9之间的随机数,nextInt(100)返回0-99之间的随机数
3、nextDouble():
返回(0, 1)开区间内的小数,精度为16位
4、nextFloat():
返回(0, 1)开区间内的小数,精度为8位
5、应用:
转载于:https://www.cnblogs.com/javafucker/p/8582044.html