精华内容
下载资源
问答
  • 基于博弈论的金融市场微观结构模型的复杂性分析毕业论文.doc
  • 论文研究-寡占市场中动态古诺模型的建立及稳定性分析.pdf, 建立了不同市场反需求函数及厂商不同生产成本下的一种简单的动态古诺模型 ,并在对该模型进行稳定性分析的基础...
  • 论文研究-计及输电线路和投标变量界约束的电力市场动态投标模型分析.pdf,
  • 几种常见的数据分析模型

    千次阅读 2019-08-15 09:31:23
    在数据分析领域,同样也需要建立数据分析模型。根据模型进行分析,这样在数据分析时,明确数据分析思路,运用适当的分析方法将最终的数据分析结果得出来。下面我将介绍几种常见的数据分析模型。 常见的数据分析模型...

    建立一座高楼大厦时,除了需要坚实的地基之外,也需要有一个基本的模型框架,按照模型进行风险预测,做到万无一失。在数据分析领域,同样也需要建立数据分析模型。根据模型进行分析,这样在数据分析时,明确数据分析思路,运用适当的分析方法将最终的数据分析结果得出来。下面我将介绍几种常见的数据分析模型。

    常见的数据分析模型

    1.用户模型

    数据分析时,我们首先要明确我们的用户是谁,针对用户需求,进行相关的服务。以达到用户满意的效果。同时要对已有用户进行分析,时刻了解用户的服务范围,从最终全面的角度了解用户问题。

    2.事件模型

    事件是组成数据分析的结构框架,在针对不同的事件时,要了解事件模型背后的数据结构、采集时机以及对事件的管理。只有对事件模型有着充分的了解,才可以对最终数据分析框架有全面的了解。

    3.漏斗模型

    所谓漏斗模型,就是将数据分析的步骤流程化,一步步的运营,达到最终的分析结果,同时漏斗模型便于对数据分析的每一个流程进行观察,从而及时解决问题。

    4.留存模型

    留存模型是针对使用数据的用户,将用户对于数据分析的场景进行留存。自定义的进行留存,实现最终的目标客户选取,相当于整个模型框架的引流功能。

    5.粘性模型

    粘性模型,顾名思义,就是了解产品或某个功能粘住用户的能力,从用户偏爱出发,了解用户如何使用产品,用户对于产品功能的满意程度,帮助平台科学的评估产品和功能,高效的制定相关的策略。

    6.路径模型

    通过对不同用户分群,将具有相同特征偏好的用户聚集,而行为路径分析是对用户产生的行为进行数据的可视化分析,从而帮助平台快速观测出群体的行为特征。常用的行为路径分析模型有漏斗分析模型和全行为路径分析模型。

    7.总结模型

    在完成数据分析后,需要对数据分析过程,最终结果进行分析,得到最终的结论,将整个分析的大框架做一个全面的维护。

    数据经过一层层的分析,挖掘,最终变成用户所需的数据,对于企业而言,数据分析的利用对于企业决策的制定至关重要。在商业智能领域,数据分析的使用非常频繁,对于软件的数据分析能力的要求也是十分高,目前国内BI的提供商,比较有代表性的有帆软,旗下的Finebi对于中国企业的数据应用十分的便捷,自主灵活的功能使得Finebi在国内市场独树一帜。

    阅读更多,请点击原文 https://www.finebi.com/2019/jizhongchangjian

    展开全文
  • 论文研究-MG模型模拟我国金融市场格式化特征的研究.pdf, 利用正态概率作图、R/S分析和自相关函数分析等方法,发现在高频数据下(时间长度为15分钟),以上证指数和深成指数...
  • 论文研究-基于模糊回归分析的投资组合选择模型.pdf, 近年来, 在存在模糊性的金融市场中如何进行有效的投资组合管理吸引了学者们的关注, 本文利用模糊线性回归对不同市场...
  • 论文研究-非线性动态市场价格的突变分析.pdf, 针对动态市场的价格波动问题 ,运用突变理论与方法 ,在修正传统动态市场模型的基础上 ,建立了非线性动态市场价格的三个突变...
  • 深度学习网络模型分析对比 [Paper - An Analysis of Deep Neural Network Models for Practiacal Applications] 从准确率Accuracy、内存占用Memory Footprint、参数量Parameters、计算量(运算次数)Operations ...

    深度学习网络模型分析对比

    [Paper - An Analysis of Deep Neural Network Models for Practiacal Applications]

    从准确率Accuracy、内存占用Memory Footprint、参数量Parameters、计算量(运算次数)Operations Count、推断时间Inference Time 和 功耗Power Consumption 几个方面对比 2016年前的模型表现.

    一些结论:

    • 功耗与 BatchSize 和 网络结构无关 - power consumption is independent of batchsize and architecture.
    • 准确率和推断时间存在双曲线关系 hyperbolic relationship - accuracy and inference
      time are in a hyperbolic relationship.
    • 能量约束是最大可达准确率和模型复杂度的上界 - energy constraint is an upper bound on
      the maximum achievable accuracy and model complexity.
    • 计算量(运算次数)是推断时间的可靠估计 - the number of operations is a reliable estimate of the inference time.

    平台与评价标准:

    • Top-1 准确率,single central-crop sampling technique
    • 推断时间和内存占用,Torch7,cuDNN-v5,CUDA-v8.
    • 基于 JetPack-2.3 NVIDIA Jetson TX1 board (nVIDIA):64-bit ARM R A57 CPU, a 1 T-Flop/s 256-core NVIDIA Maxwell GPU and 4 GB LPDDR4 of shared RAM.
    • 运算次数基于开源平台 - torch-opcounter
    • 功耗,

    实现结果:
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述

    展开全文
  • 第一章 绪论 1.1研究的背景 1.2 研究的目的和意义 1.3论文的主要工作 1.4论文的技术方法 1.5数据的选择 1.6理论基础 第二章 模型的建立 2.1 模型的假设与说明 2.2 ARIMA 模型的建立 ...2.3.2 GARCH 模型的拟合分析

    文章主要是总结一学期所学,完成的基于 ARIMA-GARCH 模型人名币汇率分析与预测。为了防止抄袭搬运,文章中不附带代码、摘要、数据。
    如有需要完整论文及代码数据便于参考学习可评论、私信
    时间序列应用广泛,不能仅仅局限于理论学习,代码实践更为重要。

    主要流程如下
    在这里插入图片描述

    第一章 绪论

    1.1研究的背景

           人民币汇率,尤其是中美汇率,一直是国际经济环境和国内民生环境的焦点。2014年以后,中美汇率较十年前的整体态势发生了变化。人民币不再保持单方面升值的趋势,而是出现长期大幅度双向波动的情况,并且呈现整体贬值的态势。2015年人名币汇率进入两边波动的新常态。在这种情况下,持续关注和重视中美汇率的发展形势对于国家经济发展和人民日常生活就显得尤为重要。
            汇率是国际金融与经济关系重要的连接手段,是国与国、国与地区以及地区与地区之间的经济杠杆,对小到百姓生活、大到国家发展都起着重要的作用。中国作为世界经济体系下的一员,对世界经济发展可谓举足轻重,同时也要遵循整个国际金融环境的规律。1973年,牙买加体系取代崩溃的布雷顿森林体系成为国际货币新体系。新的阶段,世界经济环境下的汇率以浮动为主,汇率波动性主要表现为频率增加、幅度增大。这种波动性为世界经济发展带来巨大的风险,国家、地区、跨国金融机构甚至民众都受到巨大的考验。在大环境下,我们国家经济的发展需要经受多重考验,特别是在加入WTO之后。随着我国金融环境与国际金融环境的交流不断增加,就需要我国的金融环境更加开放,我国汇率制度就必须进行不断改革。
            为了能够在考验之中保持竞争性,就需要我们能够找到合理而行之有效的方法。时间序列分析方法是己经证明其在汇率问题研究上是一种可靠的方法。能够为汇率研究提供理论基础的支持,在研究汇率的历史数据时发现内含的规律,然后建立恰当的模型对汇率进行模拟和预测,为经济发展提供巨大的帮助。

    1.2 研究的目的和意义

           在解决汇率问题上,因为人为原因和环境原因,影响汇率的因素太多,我们不可能一一考虑到,所以我们只能得到一组数量有限的样本数据。而时间序列分析方法恰恰能够在这有限的样本上模拟出准确恰当的数学模型,再通过这个模型获得一定精度的统计特征。尽管这些由模型得出的统计特征并不完全准确,但是十分接近真实结果,同时又能够比得到真实结果节省到大量时间,提供可操作性。时间序列分析的目的主要体现在两个方面,第一个就是获得观测样本序列产生的随机机制,也就是建立数学模型;第二个就是在历史数据的基础上,对观测样本序列未来的可能取值给出预测[1]。
           新冠疫情下国际金融环境风云变换。时间序列分析方法一直是汇率问题研究的有效方法,本文将会分别使用ARIMA模型和ARIMA-GARCH组合模型对2019年9月与2020年11月一整年的中美汇率进行实例分析,希望能够为汇率研究提供理论基础的支持,同时能够在恰当的模型中对汇率进行模拟和预测,从而能够为国家的经济发展、金融公司的财富积累和个人的金钱行为起到引导与建议的作用。

    1.3论文的主要工作

           本文主要工作是研究时间序列分析方法,并将这一方法应用到疫情前后中
    美汇率的预测问题上来。本文的数据是选取以天为单位 2020 年 9 月 1 日到 2020年 11 月 14 日全年共 441 个样本,然后应用时间序列分析方法,主要是 ARIMA模型和 GARCH 模型。在实证分析时,需要用到借助统计工具,包括 R 软件、SPSS软件、Pycharm、Excel。借助软件进行分析、模拟以及最后的预测,为关于中美汇率相关的工作提供帮助。

    1.4论文的技术方法

    在这里插入图片描述

    1.5数据的选择

           选取2020年9月1日到2020年11月14日的每100美元兑人民币数量

    1.6理论基础

    1. 波动聚集性:金融资产价格的变化往往是大的波动后跟随大的波动,小的波动后跟随小的波动,也就是它的波动具有正相关性高波动率和低波动率往往会各自聚集在某一时间段,而且高波动率和低波动率聚集的时期会交替出现。此外,金融的波动性还呈现非对称性特征,即收益率的正负对未来波动率的影响并不对称。

    2. ARIMA 模型:叫做差分整合移动平均自回归模型,又称整合移动平 均自回归模型(移动也可称作滑动),是时间序列预测分析方法之一。ARIMA(p, d,q)中,AR 是“自回归”,p 为自回归项数;MA 为“滑动平均”,q 为滑动平 均项数,d 为使之成为平稳序列所做的差分次数(阶数)。

    3. ARCH 模型:ARCH 模型全称“自回归条件异方差模型”,解决了传统的计量经济学对时间序列变量的第二个假设(方差恒定)所引起的问题。GARCH 模型称为广义 ARCH 模型,是 ARCH 模型的拓展,。传统的计量经济学对时间序列变量的第二个假设:假定时间序列变量的波动幅度(方差)是固定的,不符合实际,比如,人们早就发现股票收益的波动幅度是随时间而变化的,并非常数。这使得传统的时间序列分析对实际问题并不有效。

    4. 白噪声序列:白噪声序列,是指白噪声过程的样本实称,简称白噪声。白噪声序列的特点表现在任何两个时点的随机变量都不相关,序列中没有任何可以利用的动态规律,因此不能用历史数据对未来进行预测和推断。

    5. 平稳序列:平稳序列(stationary series)是基本上不存在趋势的序列。这类序列中的各观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律,其波动可以看成是随机的。

    第二章 模型的建立

    2.1 模型的假设与说明

    为了方便问题的研究,不妨忽略一些对问题影响较小的因素,做出如下的假设:

    • 不同的渠道收集到的数据存在差异,确定我们收集的数据为准确的,有价值
    • 文中所有用到的显著性水平α = 0.05,p 值大于显著性水平接受原假设否则接受
      备择假设
    • 数据为完整数据,无需进行数据处理。模型的训练集数据为为 2019 年 9 月 1日至 2020 年 11 月 13 日,测试集数据为 2020 年 11 月 14 日 2020 年 11 月
      18 日
    • 数据指的是每 100 美元兑人民币的数量

    2.2 ARIMA 模型的建立

    2.2.1 数据的初步分析

           首先根据选择的 441 个数据画出时间序列的折线图。使用数据分析软件,使
    用折线图对 441 个数据进行了模拟。
           首先对图 1 进行观察,能够得出,时序图局部波动明显,整体上表现出下降、上升、下降的趋势,并不存在季节性和奇异点,能够初步判断该时间序列是一个非平稳序列。为了保证判断的正确性,我们接下来会用到相关系数进行进一步的探究
    图 1 时序图
           再利用Rstudio进行Adf检验 p-value = 0.9459>α=0.05,确认该序列为非平稳序列。面对这种情况,通常是对时间序列进行差分处理,然后再进行平稳性判断。若是差分后的时间序列仍然不是平稳序列,我们需要接着进行差分处理,直到找到平稳序列。但是差分的次数d并不是可以无限大的,通常差分的次数是1到2次。所幸,本次研究的时间序列经过1次差分后便变现出平稳性了。
           图2是时间序列的一次差分图,图像均匀地分布在0值两边,趋势性己经几乎没有影响,一次差分序列基本平稳。为了进一步进行确定,我们还对一阶差分序列进行了平稳性检验。通过ADF检验得到的结果是P-value < 0.01,也就是小于显著水平 0.05,所以我们可以认为一阶差分序列通过了平稳性检验。
    在这里插入图片描述

    2.2.2 ARIMA 模型的定阶问题

           时间序列经过一阶差分后,已经转换成一个平稳序列,所以我们需要确定p和q的值。为此,我们查看一阶差分序列的图3(ACF图)F与图4(PACF图)。
    图3 acf
    在这里插入图片描述
           ACF图和PACF图都没有明显的截尾和拖尾特征,不好判断阶数。所以我们需要其他方法进行辅助。首先我们考虑逐个建模比较AIC准则进行判断。详细情况如下:
    在这里插入图片描述
    同时R提供了简洁的方法,使用auto.arima函数自动寻找最优模型。最终择优选择了初步模型为ARIMA(1,1,0)。

    2.2.3 ARIMA 模型的显著性检验

           模型建立后要求对其显著性进行检验,也就是确定模型对原始数据的拟合程度。检验的原则是拟合模型是否基本提取到了原始数据的所有相关信息,残差序列是否为高斯序列。如果残差序列为白噪声序列的话,说明拟合效果良好;反之,模型拟合失败,我们则需要尝试其他模型。对残差序列的平稳性检验通过函数实现,LB检验如表如下p值都大于0.05如上表,该序列白噪声序列。
    在这里插入图片描述
    同时也对参数进行显著性检验,结果如下表,参数显著非零。
    在这里插入图片描述
    最后,我们还做出模型的拟合图5:
    在这里插入图片描述
           可以看出拟合线与原始数据线十分接近,拟合效果良好。最终确认模型ARIMA(1,1,0)。

    2.2.4 ARIMA 模型的预测

           我们会根据中美汇率在2019年9月1日到2020年11月11日期间的数据利用模型ARIMA(1,1,0)对中美汇率未来的个统计日的数据进行预测。利用ARIMA(1,1,0)模型,我们预测的结果呈现在表4中。 同时我们还得到了汇率的图6预测图:
    在这里插入图片描述
    在这里插入图片描述

    红线表示真实数据走向,蓝线表示ARIMA(1,1,0)模拟出来的走势。走势基本符合实际情况,人民币一直在升值,可取之处是该模型能够预测短期内的变化趋势,缺点则是它不能给出精准的数值以及反映数值间的波动性。

    2.3 ARIMA-GARCH 模型的建立

    2.3.1 GARCH 模型的条件检验

           在之前的模型建立中我们对序列进行差分,通过了平稳白噪声检验。然而对残差序列进行白噪声检验是发现改残差序列为非白噪声序列。从图6也可知残差为偏态分布。为了进一步确认,在R软件我们通过JB检验函数显示p值远小于0.05,说明改残差序列没有正态性。给出了图7残差序列分布图以及图8 QQ图[7]。通过观察,初步判断该时间序列的残差序列为非正态分布。
    在这里插入图片描述
    在这里插入图片描述
    对残差序列的进一步分析:残残似乎还蕴含了更多的信息,考虑进行ARCH效应
    在这里插入图片描述
    检验表5中p值小于显著性水平0.05 ,接受备择假设,即改模型存在arch效应。

    2.3.2 GARCH 模型的拟合分析

    对残差建立Garch(1,1)模型并画出条件方差图9进行分析:
    在这里插入图片描述
    条件方差在100-120 190-210 400~420天出现峰值
    符合匹配
    阶段一:(19.12-20.01)国内新冠疫情升温叠加美伊冲突升级,全球风险偏好阶段性回落;套息交易逆转带动避险情绪升温,美元指数回升的同时人民币汇率表现趋弱。

    阶段二:(20.3.1-4)海外疫情持续发酵叠加油价暴跌,波动率抬升引发美元流动性条件持续收紧,基本面和流动性双重影响下全球进入第二轮风险资产抛售阶段,美元升值,人民币兑美元被动贬值。这一时段人民币对非美货币仍相对强势。

    三阶段:(20.9-20.11)疫情防控有效,贸易发展,人民币快速升值。

    结论:残差的方差确实会随着时间变化,符合历史发展,这对我们观察汇率波动有很多的帮助。

    2.3.3 ARIMA-GARCH 组合模型

    通过R软件ugarchspec以及ugarchfit函数获得ARIMA-GARCH组合模型如下:
    在这里插入图片描述

    2.3.4 ARIMA-GARCH 的预测

           图10中黑线表示真实数据走向,蓝线表示ARIMA(1,1,0)-GARCH(1,1)模拟出来的走势。走势基本符合实际情况,人民币一直在升值,可取之处是该模型能够预测短期内的变化趋势,缺点是在长期预测时就会失去准确性,预测出现较大的偏差。我们将预测的结果反映在表6:
    在这里插入图片描述
    在这里插入图片描述

    第三章 结论分析与模型改进方案

    3.1 结果分析和改进

           本文主要的研究目的就是利用时间序列分析方法对中美汇率进行模拟与预测,主要使用的是ARIMA模型与ARIMA-GARCH模型。两个模型各有特点,各有优势。在两个模型中,模型都是基于中美汇率在2019年9月1日到2020年11月13年共441个工作日数据建立的,并且都进行了7个工作日的预测。在ARIMA模型中,预测值的走势基本符合汇率的真实走势,就是人民币整体地表现出升值的趋势。但ARIMA模型对汇率因为突发事件造成的影响没有反应。而相对于ARIMA模型,ARIMA-GARCH组合模型在精确度上和实际值更接近,说明该模型在短期预测上具有很好的特性。在长期方面,由于突发事件出现,ARIMA-GARCH模型预测的准确度降低,但仍然要优于ARIMA模型。两个模型都对汇率的整体走势有着比较良好的预测,就是人民币短期内会有些许升值,但在长期走势上是趋于稳定的。总而言之,两个模型在预测上的效果并不是非常好,不能够对中美汇率走势进行准确的预测。但是两个模型同样具有应用价值,就是能够为中美汇率短期变化趋势给出方向性的判断。
           美国作为一个超级大国,同时是最大的经济体。而中国国民生产总值也己经跃居世界第二,仅次于美国。两个国家无论在国家发展战略上,还是在民生交流生活上都有着密不可分的联系。所以,中美汇率在两国之间,甚至在全球都备受关注。两个模型在中美汇率的预测上都给出了短期内整体趋势的判断,能为关心中美汇率者就变化方向提供帮助。
           本文的研究虽然取得了一定的进展,但还有很多不足与缺陷。由于时间的限制以及个人的学识限制,并没有透彻地解析时间序列分析方法比较深远的内涵。从文中的预测结论就能看出,模型的建立并不完美,有着许多需要改进的地方。由于数据的原因,并不能够完美的适用到ARIMA模型与ARIMA-GARCH模型,所以产生的结果并不是最理想。应该尝试时间序列分析方法中的其他的知识与方法。

    致谢

           时光茬蒋,不知不觉间,一学期的学习己经接近尾声。“诚以待人,毅以处世”。的集大精神也已经铭刻于心。
            在这里,我要特别感谢我的指导老师靳珊,在这篇论文中给了我很多指导。靳珊老师学识渊博、学术水平精湛,同时为人和善幽默又不失严禁的态度。
           在我看来这门时间序列课其实很有意义,最主要的是理论加实践的学习模式,真正地做到了学以致用。
           论文的完成过程是艰辛的,但是收获确实丰富的。尽管因为掌握的知识有限,最后模型的拟合存在缺陷,但是我相信后期的学习一定可以把这部分完善起来。
           最后的最后再次诚挚地感谢靳珊老师一学期的辛苦付出。

    参考文献

    [1]JONATHAN D, CRYRR, CHAN K S.Time series analysis with applications in R [M].潘红宇等译,机械工程出版社,20I1.

    [2]波动聚集性:皮天雷. 我国沪市波动聚集性GARCH效应的实证研究[J]. 管理科学, 2003, 16(006):31-35.
    [3]ARIMA模型:许立平, 罗明志. 基于ARIMA模型的黄金价格短期分析预测[J]. 财经科学, 2011, 2011(001):26-34.
    [4]GARCH模型:吴雄伟, 谢赤. 银行间债券市场回购利率的ARCH/GARCH模型及其波动性分析[J]. 系统工程, 2002, 20(005):88-91.
    [5]白噪声序列:吴玉霞, 温欣. 基于ARIMA模型的短期股票价格预测[J]. 统计与决策, 2016, 000(023):83-86.
    [6]平稳序列:吴玉霞, 温欣. 基于ARIMA模型的短期股票价格预测[J]. 统计与决策, 2016, 000(023):83-86.
    [7]https://www.zhihu.com/search?type=content&q=Q-Q%E5%9B%BE

    附录

    使用数据

    代码与程序

    文章总结

    时间序列应用广泛,但我们不能仅仅局限于理论学习。代码实践是更为重要的部分,不要一味地照搬抄袭。论文的框架流程、思想、使用技术才是值得关注的方向。
    最后希望给文章点个赞,整理不易!!!
    最后希望给文章点个赞,整理不易!!!
    最后希望给文章点个赞,整理不易!!!

    在这里插入图片描述

    展开全文
  • 1 罐子模型简介 1.1 基本模型 基本罐子模型中,罐子包含x个白色和y个黑色的球,它们混合在一起。从中中随机抽取一个球,观察其颜色;然后将其放回缸中(或不放回缸中),并重复选择过程。 在此模型中可以回答的...

    1  罐子模型简介

     1.1 基本模型

      基本罐子模型中,罐子包含x个白色和y个黑色的球,它们混合在一起。从中中随机抽取一个球,观察其颜色;然后将其放回缸中(或不放回缸中),并重复选择过程。

    在此模型中可以回答的可能问题是:

    • 我可以从n次抽取中中推断出白色和黑色的所抽取到次数占n的比例吗?有多大比例?
    • 知道xy,抽取特定序列(例如,一个白色然后是一个黑色)的概率是多少?
    • 如果我只观察n个球,我如何确定没有黑球?(第一个问题的变体)

    1.2  不同问题的分布

    • 二项式分布:罐子初始有两种颜色的球,放回抽取。在n次抽取中某种颜色被抽到的次数,它的分布列属于二项分布。其表达式如下(其直观含义就是n次抽取中有k次抽到某种球的概率)

     

     

    • β-二项分布:如上所述,除了每次观察到一个球,都会向罐子中添加一个相同颜色的附加球。因此,罐子中的大理石总数增加了。参见Pólya缸模型
    • 超几何分布:罐子初始有两种颜色的球,每次提取后球不返回罐子。那么在n次抽取中抽取某种颜色球k次,它的分布是超几何分布。(它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。)
    • 多元超几何分布:如上所述,但球具有两种以上的颜色。
    • 几何分布:在n次抽取中,抽取k次才第一次成功抽取某种颜色球的概率。直观就是在n次伯努利试验中,试验k次才得到第一次成功的机率。详细地说,是:前k-1次皆失败,第k次成功的概率。几何分布是帕斯卡分布当r=1时的特例。
    • 负二项式分布:罐子初始只有两种颜色球,n次抽取中,到k次都没有抽取某种颜色球的概率。它表示,已知一个事件在伯努利试验中每次的出现概率是p,在一连串伯努利试验中,一件事件刚好在第r + k次试验出现第r次的概率。
    • 统计物理学:能量和速度分布的推导。
    • 埃尔斯伯格悖论
    • Pólyaurn each:每次绘制特定颜色的球时,都会将其替换为另外一个相同颜色的球。
    • 霍普瓮:波利亚瓮额外的球叫突变。绘制增幅器后,它会与其他全新颜色的球一起被替换。
    • 占用问题:将k个球随机分配给n个骨灰盒后,占用骨灰盒的数量分布。
    • 非中心超几何分布:指的是n次抽取不放回中,某种球被抽取的概率较大。有偏向性

     

    2  波利亚罐子模型

      2.1 模型简介

        基本的Pólya罐子模型中,罐子包含x白色和y黑色的球;从中随机抽出一个球,观察其颜色;然后将其返回到骨灰盒中,并将相同颜色的另一个球添加到骨灰盒中,并重复选择过程。感兴趣的问题是抽取某种颜色球数量的演变以及抽取的球的颜色顺序

    2.2  不同问题的分布

    • beta-binomial分布(贝塔二项式分布):初始罐中只有两种颜色球,比如在n次抽取中某种颜色球被抽取的次数概率分布列。是一个贝塔二项式分布列。因为每次抽取某种球的成功概率未知或者随机时,而是从β分布中随机得到。那么如果每次该种颜色球所占罐子球比例知道,那么就是普通二项式分布。不知道就认为该抽取次数随机变量符合贝塔分布,是一个随机变量。

             而贝塔分布是指一组定义在(0,1) 区间的连续概率分布,由两个参数控制。也就是贝塔分布是作为一个概率的概率分布而来的。因此,对于一个我们不知道概率是什么,而又有一些合理的猜测时,beta分布能很好的作为一个表示概率的概率分布。

     

         比如初始波利亚罐子中有3种颜色球,那么初始的贝塔分布参数为(a=1/3-2,b=3-1/3-2),所以可得a=1,b=2。但是我们只关心某一个颜色球被抽次数所占比例分布,a/(a+b)=1/3,自然也就可以和度为3的规则树的情况对应起来了,贝塔分布就是作为某次伯努利实验中某种颜色球所占比例。推广的看就是先验概率为1/3,根据每次抽的情况,来更新(a,b)。

    那么贝塔分布其表达式长什么样子呢?

     

     2.2.1 一个例子

    在上图中,将最普通的二项分布的参数p作为一个贝塔分布的随机变量,那么用贝塔分布(a,B)去刻画这个p

    那么这个联合起来的分布就是上图所示,那么如果计算呢?其计算公式如下

    在董文祥的论文中,不完全的贝塔公式计算就是替换积分上限为1/2即可。

    如果想要计算,只需要按照如上方法计算贝塔分布的概率值即可。

    • Dirichlet多项式分布也称为多元Pólya分布):初始罐子有多种颜色球,每种颜色的球数上的分布,在n次抽取中,某种颜色球所占比例收敛到狄利克雷分布。

                   Dirichlet分布是Beta分布的多元推广。Beta分布是二项式分布的共轭分布,Dirichlet分布是多项式分布的共轭分布。

    参考:https://www.zhihu.com/question/26751755

    3    我所关注的波利亚罐子模型部分

       

     

     

    这里的向量X的联合分布,就是在q次抽取中,各种颜色球被抽取过得次数的联合分布。而当抽取次数趋于无穷时,每种颜色球被抽取次数占全部抽取次数的比例收敛到狄利克雷分布。还可以得到在n次抽取中某种颜色球抽取次数的边缘分布(等价于整个分支节点数目的边缘分布)。

        那么只考虑n次抽取中一种球被抽取次数占比的分布的话,它收敛于贝塔分布。( Dirichlet分布是Beta分布的多元推广。Beta分布是二项式分布的共轭分布,Dirichlet分布是多项式分布的共轭分布。),我们仅仅对n次抽取中某个颜色球被抽取次数占比对应贝塔分布感兴趣。

    思考:

         别人需要某个理论的时候的流程是:研究某个问题,利用数学建模过程,发现在某些假设下等价于某个数学上已知模型,学习该数学模型,看与这个问题内在规律是否对应。可根据问题的研究的不同,对该数学模型做取舍。比如这里仅仅只对n次抽球中某个颜色球抽取次数占比感兴趣。那么问题如下

       1  如何衡量谁的模型好或者不好?在指标上表现

      2   考虑某一种方法,性能一般,但也可以数学建模,然后验证其性质?有发论文的价值吗?

     

    3.1   波利亚罐子模型和SI模型传播的等价构造(重点)

            而等价构造的过程,是锻炼我们寻找理论支持的能力。在这个等价构造的过程中,大牛也是通过阅读专业书籍《分支过程》,发现分支过程与SI模型(指数分布,参数为1的假设下)是可以等价构造的,进而使用,我现在能做的就是模仿,将该方向所有的基础书籍通过阅读论文的方式找齐,打基础。

            

    将上述语句简单一点阐述就是: 

        规则树中SI模型参数为1的指数分布传播波利亚罐子模型抽球过程等价构造。

         1  罐子中:

    •  初始化:初始有bi  =1个颜色为ci的球,
    • 抽取过程 :每次从罐子均匀抽取一个球后,将这个球和额外的个相同颜色球放入罐子,
    • 终止:重复q=n-1次抽取过程,颜色为ci的球被抽取的次数用随机变量Xi表示。

        2   规则树中:

    •  初始化:初始源点s有有bi  =1个颜色为ci的邻居节点为谣言边界。
    • 感染过程 :每次从谣言边界中(罐子中球)均匀抽取一个点感染后,引入个节点加入到谣言边界(罐子中球)中。
    • 终止:重复q=n-1次感染过程,颜色为ci的分支树节点数目(以s为源,bi为根的子树节点数目)用随机变量Xi表示。

    上述的谣言边界总结点数目就是当时罐子中所有节点的数目,所以就是罐子中每次抽取到的概率都是和规则树中一致的。

     

     

     利用它就可以得到规则树中每个分支树的节点数目的联合分布

    上述简单化一下,就是我们仅仅对规则树中某个分支节点数目所占总感染节点的比例边缘分布感兴趣,它符合参数为的贝塔分布。

     




    3.2 附录(个人研究笔记,可略看讨论)

      3.2.1   分支占比分布的利用

          上述我们对于分支占比分布已经有了了解,对我来说,我的目的是为了了解论文[1]做了什么工作,怎么做的。

         利用上述分支占比分布,该论文[1]提出一种局部谣言中心概念,该局部谣言中心的定义表明其具有一个性质。谣言中心在某个树型传播网络最多有两个,对一个局部谣言中心性来说。其每个分支树所占比例都会小于等于n/2,n为总感染结点数目。

    所以可得 

     

    上述就是说这种局部谣言中心在规则树(SI模型指数分布传播参数为1)上的正确检测概率,利用占比分布的贝塔分布我们有

    上述,利用分支占比分布直接得到对于度为2,度为3的规则树时候,局部谣言中心的正确检测概率与n的函数关系。

     

            在这里为止,这篇论文将论文[2]的谣言中心一般化了,然后一般化之后,在有限域中得到其正确检测概率。整个的一个流程就是研究网络模型和传播过程,加上某些假设等价于波利亚罐子模型,对于问题提出一个算法找谣言中心点,发现其具有某种性质,这种性质又可以和波利亚罐子模型的占比分布联系一起。自然就可以得到这种算法的准确率了。

      3.2.2   研究该正确率函数性质(数学分析

        那么很自然的,我们得到了一个关于度和感染总结点和正确检测概率的函数关系式,那么研究其函数的性质也是自然地,比如什么时候取极值或者收敛等等。论文[1]有

    但是对于

    这种类型的函数,推导Pc(n)和自变量(度数和n)之间的变化关系不好推,因为它不符合正常的函数。我们可以使用递推式的方法,

      3.2.3   渐进域正确检测概率 

    虽然之前都在说这个函数单调增,单调减,但是其收敛值我们不知道,我们可以研究下

     

    上述,告诉我们当n趋于无穷大的时候,局部谣言中心所点源点的正确检测概率近似值为0.307。

    这个地方他的表达式推导是可以考虑的,考虑beta公式,我们做定积分运算。

     

     

      3.2.3   能更改的东西有

      

     

    3.2.4    有先验知识的信息源检测

    【1】论文作者在这里研究了有先验知识下的信息源检测,在标准理论下的不同情况中,可以套理论。

    上述就是在说:

       论文【1】第6章,会分析在已经有嫌疑节点的先验知识下,观察到某些被感染点情况。如何构造源估计从而使得检测概率最大化?这是一个MAP问题,作者通过构造问题形式化定义,利用波利亚关系模型等价构造。得到了三种情形下的局部谣言中心的正确检测概率的性能变化。

    1     问题从新定义

     

    2   正确概率分析

    2.1 当嫌疑节点构成连通子图时

    上述就是说:

       在嫌疑节点构成连通子图情况下,我们有先验知识了,并且每个嫌疑节点为源点概率是平均的,那么所有的嫌疑节点先验乘以其条件概率,再统一求和就是正确检测概率。相当于对n个节点做了一个精简化。正确检测概率Pc(n)就为6.6式。

    利用公式6.6,再结合只关注嫌疑节点,那么每个嫌疑节点的条件概率为

    综合可得

    这个过程就是说,现在有波利亚标准理论了,可不可以做一些情况下的直接套标准理论的分析呢?比如有先验情况的?

    关注其检测性能

      

     

    2.2两个嫌疑节点的情况

    1 正确检测概率分析

     

    上述的意思是说:

        错误检测概率事件为以s*为源,距离为d的s2的子树数目满足6.42的式子,所以才定源错误,想要知道这种情况发生的可能性。

          隐隐感觉这里用到了论文【3】中检测到感染第k个点为源的可能性。因为zh表示的是具有n个节点的Gn中以s*为源,以距离它d远的节点为根的子树Tn的节点数目。

     

             隐隐感觉这里用到了论文【3】中检测到感染第k个点为源的可能性。似乎可以和论文[4]中样本路径关联在一起,比如你有一个算法,该算法找到一个点,是的该点任意一个分支长度小于等于该树中最长路径的1/2,那不就可以套了吗? 套马尔科夫级联。那么每个分支的长度不就是一条马尔科夫链吗?在度为2的时候的线形图中,这种算法找到点和局部谣言中心是等价的,所以检测概率相同,但是在度大于等于3的规则树中就不一定了,我们可以根据其分支数目确定其长度?分支在m到n区间内(这是有贝塔分布的),是这个长度,那么这种算法达到这种长度的话,其检测概率为多少呢?直觉上比谣言中心性高,因为其包含的事件更多一些。

     

     

     

    上述在说:

       定源错误,那么其实就是s2的RC>s*的RC,进而得到z1满足的关系式子。那为什么只考虑z1的分布呢?因为第度为2,所以只需要考虑边缘分布就可以了,参考5.12公式。

     

     

     

     

    5  另一篇论文的改进方案

    2020Root Estimation in Galton-Watson Trees 

    它直接用孩子分布D作为估计源点的一个参数,这样做的好处就是针对任何生成树,你的溯源算法都有准确率分析。但是缺点就是准确率不高,或者说可能还有别的溯源算法能够更高的准确率定位源点。

     

     

     

    4 参考

    【1】董文祥. 网络中信息传播:信息源选择与检测的若干关键问题研究[D]. 中国科学技术大学, 2014.

    【2】2011Rumors in a Network Who's the Culprit

    【3】   2011Finding Rumor Sources on Random Graphs

    【4】 Zhu K, Ying L. Information source detection in the SIR model: a sample path based approach. IEEE/ACM Transactions on Networking, 2016,  24(1): 408-421.

    【5】  2020Root Estimation in Galton-Watson Trees

    展开全文
  • 图像情感分析模型是基于卷积神经网络建立的,卷积神经网络的构建用了keras库,具体代码实现以及代码运行在下一篇贴出。 模型包括3个卷积层、2个池化层、4个激活函数层、2个Dropout层、2个全连接层、1个Flatten层和...
  • 今天老李就给罗列了6个常用的数据分析模型,并附上实际的案例讲解以及分析模板,希望能让大家快速掌握这些模型和方法! 话不多说,上干货! 1、RFM模型 RFM 分析是美国数据库营销研究所提出的一种简单实用的客户...
  • 因子分析 factor analysis (二 ) : 因子分析模型 因子分析 factor analysis (三) : 因子载荷矩阵的估计方法 因子分析 factor analysis (四) : 因子旋转(正交变换) 因子分析 factor analysis (五) : 因子...
  • 产品经理分析模型大全

    千次阅读 2016-03-29 11:50:13
    SWOT 模型是一种常用的战略规划分析方法,代表分析企业的优势(strengths)、劣势(weakness)、机会(opportunity)和威胁(threats)。 适用场景:竞品分析,评估产品机会 PESTEL PESTEL 模型是用来分析...
  • 两个基于神经网络的情感分析模型

    万次阅读 2017-09-17 20:58:25
    情感分析,也称倾向性分析,即对一个主观的文本分析判断说话者的...本周阅读的两篇论文都是基于神经网络对文本进行情感分析,一篇是针对句子级别的文本,另一篇是针对篇章级别的文本。下面进行简单介绍。Deep Convoluti
  • LOAM 论文及原理分析

    万次阅读 多人点赞 2018-09-15 22:18:40
    由于对三维激光SLAM比较感兴趣,并且最近也在找无人驾驶激光SLAM算法的岗位,所以花了一个多月把LOAM的论文和源码好好看了一遍。发现论文还是比较容易明白,但一看代码全是坑。看论文懂了,看代码似懂非懂。为了...
  • 神经网络模型量化论文小结

    万次阅读 多人点赞 2018-07-22 13:25:54
    现在“边缘计算”越来越重要,真正能落地的算法才是有竞争力的算法。随着卷积神经网络模型堆叠的层数越来越多,网络模型的权重参数数量也随之增长,专用...陆陆续续阅读了关于模型量化的论文,通过这篇博客做一个...
  • 起因于同学向我求助调节中介模型的绘制,以此为契机,撰文描述理论(或概念)模型图、假设模型图和数据分析模型图的区别,并给出论文案例供参考。(PS论文模型图可以直接使用ppt进行绘制,简单方便又与word兼容) ...
  • 今天给大家介绍几个数据分析模型吧 一、用户价值模型 1、RFM模型 RFM分析是客户关系分析中一种简单实用客户分析方法,他将最近一次消费、消费频率、消费金额这三个要素构成了数据分析最好的指标,衡量客户价值和...
  • 继续来看基于Aspect的情感分析模型总结第三部分,回顾一下之前:【情感分析】ABSA模型总结(PART I)【情感分析】ABSA模型总结(PART II)Attentional En...
  • http://burningcloud.cn/article/76/index.html
  • 多元回归分析模型主要针对数学建模问题中的一些小的子问题进行求解,如果想直接使用请跳转至——四、五 视频回顾 一、算法介绍 回归分析定义:  回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个...
  • 这个题是这学期数学建模的课题,不过鉴于本人数学比较渣而且时间精力有限,实现的思路比较传统和简单,用到了多元线性回归和主成分分析来求解模型,这也是统计学习方法里面比较常见的一种,正好在上个学期学习了R...
  • 按类型分类的数学建模获奖论文,非常有用,可以系统的参考。
  • 论文题目:Neural Machine Translation by Jointly Learning to Align and Translate 论文地址:http://pdfs.semanticscholar.org/071b/16f25117fb6133480c6259227d54fc2a5ea0.pdf GIF来源:...
  • 基础准备上一篇文章我们介绍了验证性因子分析的概念和分析逻辑,以及通过验证性因子分析可以直接或间接的得到哪些问卷数据的信度与效度...直交与斜交模型草堂君在上篇文章中介绍过,分析者根据实际分析背景可以假设潜在
  • 本文基于几篇经典的论文,对 Attention 模型的不同结构进行分析、拆解。先简单谈一谈 attention 模型的引入。以基于 seq2seq 模型的机器翻译为例,如...
  • 经济管理学中常用的模型分析

    万次阅读 2018-03-28 09:24:04
    经济管理学中常用的模型分析法常用的分析模型有:波特五力模型、波士顿矩阵、鱼骨分析法、5W1H分析法、麦肯锡7S模型、杜邦分析法、营销漏斗模型、可行性分析、绩效分析;SMART原则、SWOT分析、PEST分析法、GROW模型...
  • 好久没有写论文笔记了,这里开始一个新任务,即图像的steganalysis任务的深度网络模型。现在是论文阅读阶段,会陆续分享一些相关论文,以及基础知识,以及传统方法的思路,以资借鉴。 这一篇是Media Watermarking, ...
  • 1.建立影子长度变化的数学模型分析影子长度关于各个参数的变化规律,并应用你们建立的模型画出2015年10月22日北京时间9:00-15:00之间天安门广场(北纬39度54分26秒,东经116度23分29秒)3米高的直杆的太阳影子长度...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 170,362
精华内容 68,144
关键字:

市场分析模型论文