精华内容
下载资源
问答
  • FOF常用的七投资策略全解析

    万次阅读 2017-06-29 17:32:41
    从当前市场上的投资策略种类来看,大致有七,包括核心*卫星投资策略、「杠铃」投资策略、反向投资策略、成本平均策略和时间分散化策略、买入并持有策略、美林投资时钟策略、Alpha/Beta投资策略。 投资...

    从当前市场上的投资策略种类来看,大致有七种,包括核心*卫星投资策略、「杠铃」投资策略、反向投资策略、成本平均策略和时间分散化策略、买入并持有策略、美林投资时钟策略、Alpha/Beta投资策略。


    投资策略一:美林投资时钟策略

    美林投资时钟投资策略相信大家都有所耳闻,作为资产配置最为著名的模型,它具体的概念主要指,以经济周期为框架,把「资产」、「行业轮动」、「经济周期四个阶段」以及「债券收益率曲线」四个因素联动起来,作为投资周期综合参照工具。

    美林投资时钟把经济周期分为四个大的阶段,分别是衰退、复苏、过热和滞胀四个阶段,并且,每一个阶段都对应资产配置的特定资产类别:债券、股票、大宗商品和现金。


    市场以四个阶段作为一个周期,不断轮回。每个阶段都有其最为适合的资产配置品种,如果在特定的市场阶段,资产配置于相对立的品种,收益则会低于市场的平均值。

    经济衰退阶段GDP增长乏力——产能过剩——通货膨胀走低——央行降低利率——债券收益相对保值;经济复苏阶段央行宽松政策发挥效力——经济增长——股票市场进入黄金期;经济过热阶段通货膨胀上升——央行提高利率——股票估值重估——大宗商品表现出众;经济滞胀阶段生产要素价格上升——供给失衡——通货膨胀加剧——央行货币紧缩——股市进入空头——现金为王。


    在具体操作方面,美林投资时钟的FOF运用基本规则是:

    1.大类资产的中性原则:如果以均衡配置为基准,债券基金、股票基金、商品基金、货币市场基金各25%,当市场处于投资时钟周期内的某个品种时,则加大对该品种的配置,比如,当市场处于衰退期,则提高债券基金的配置比例,大约为70%,其他三类各占10%。配置的比例并非千篇一律,而是需要根据市场、宏观经济等具体情况,动态地调整投资策略。

    2.大类资产的调整原则:根据投资时钟在四类资产之间做较大幅度的配置调整。

    FOF核心竞争力就是资产配置,特别是大类资产配置,美林投资时钟对行业资产配置以及种类配置具有很高的借鉴意义。从整体来看,美林投资时钟对于中长期资产配置,具有较好的指导意义。

    要想把美林投资时钟投资策略运用得好,要求基金管理人对经济的每个周期拐点都有一个准确的判断。从美国市场来看,相对应的指标则更加容易判断,主要以经济发展周期作为主要的衡量标准,但在A股市场,由于影响市场的因素并不是以经济的基本面为主导,因此,在对FOF进行大类资产配置时,要综合考虑市场估值、经济基本面、市场风格等常规指标外,同时,要关注监管政策的走向。

    投资策略二:Alpha/Beta投资策略

    投资者都明白,投资除了选择好的标的外,择时的重要性也不必赘述。

    在投资策略中,对择时没有要求的策略,基金收益将会受到影响,而对择时有要求的策略,虽然能提高收益,但这对一般投资者而言,不仅难以把握入场时间,也难以把握出场时机。

    在这种情况下,充分利用α/β收益率的转换,辅助投资者进行择时,是在选择良好标的同时,更好地选择入场时机借鉴的工具。

    基金投资组合收益可以分为两大类,一类是无风险收益;另一类是风险收益。风险收益往下还可以分为两种,一种是市场给投资组合系统性风险「补偿」,即所谓的beta收益,也就是偏离价值波动的收益,这种收益属于高风险高回报收益;另外一种投资组合收益来自价值被市场低估的品种,以此获取「额外」收益,也就是Alpha收益。

    风险收益中的α/β收益,随着市场变动,呈现周期性波动,而其中Alpha收益波动要大于Beta波动幅度。

    在FOF投资策略中,我们可以通过α/β的辅助,捕捉市场阶段性的热点,提高基金择时能力,以此达到放大收益的效果。

    基金经理在借鉴Alpha和Beta指标的强弱来调整投资策略时,从市场表现看,通常高Alpha基金组合业绩,整个期间业绩都领先;而高Beta基金投资组合是市场波动关联性强,是一把双刃剑,即市场上涨时,高β组合业绩领先;但在下跌的市场环境中,高Beta相比高Alpha投资组合业绩,下跌也快。

    这要求FOF基金在对市场进行资产配置时,应当根据Alpha和Beta收益,综合两者强弱程度,对市场做出宏观判断,以此作出策略的调整。

    α/β投资策略的流程是:

    1.寻找高Alpha基金,并把其中的高Beta和低Beta分为两组;

    2.持续观察两组基金Alpha收益率和Beta收益率,当两者出现交叉强弱易手时调仓:前者低于后者时调仓到低Beta基金组,后者高于前者时调仓到高Beta基金组。

    总之,这个策略是细类资产投资策略,需要配合相应的大类资产配置策略来操作。

    投资策略三:动量配置策略和反转配置策略

    动量配置策略,也称之为相对强度交易策略,此策略的主要逻辑是:投资者在一定持有期内,如果某只股票或者某个股票组合在前一段时期表现较好,那么,下一段时期该股票或者股票投资组合仍将会有良好表现。而在这段时间内,表现不好的股票,在下一段时间还将会持续其不好的走势。

    这个概念是美国学者Jegadeesh与Titman在1993年对股票组合中期收益研究过程中发现的。他们发现,以3至12个月月尾间隔所构造的股票组合,其中间收益呈现连续性,即中间价格具有向某一方向连续的动量效应。

    动量交易策略的理论依据是,证券价格时常对与公司有关的消息反应迟钝,并且投资者心理上呈现保守状态,因此,即使消息公布后,股价也无法立即得到反应。


    如果市场有效,当利好消息公布之后,市场将会立即反应,相应个股将会从60%直接反应至100%;但通常情况下,市场反应是不够充分的,往往会出现图中斜线部分,这样就留出了缓冲时间。当市场出现斜线部分区域时,如果运用动态策略,则可以从中获利。

    但在1992年,Ritter等学者发现,在一段较长的时间内,价格涨幅较大的证券,将会有强烈的趋势大逆转的走势,而在给定的一段时间内,那些走势较差的股票,则会倾向于回升趋势,这就是反转效应。

    动量会使证券价格沿着某个方向前进,当到达临界点之后,就会出现反转,研究动量和反转都可以从中获利,这就是动量配置策略和反转配置策略。

    想说的是,世界上没有两片一模一样的叶子,由于不同的市场有不同的特点,在策略的具体应用上,是采用动量策略还是反转策略,也自然有着差异。

    上述理论研究成果,主要是基于美国近几十年来股市走向所呈现的特点,虽然美国股市走向在全球具有引领性,但对于成熟度较低的市场,适用性则可能要打折扣。就拿中国的基金市场来说,由于我国市场上以趋势投资者为主,且散户居多,当趋势来的时候,投资者的簇拥会强化趋势,也就是在多头市场中,散户的不成熟容易忽略市场的估值,往往会涨过头。而在空头市场中,散户的恐慌也会加剧市场的波动,市场往往会跌过头,只有待空头消耗殆尽之时,个股才能企稳回升。

    如果在中国市场应用反转策略,那么,就不能仅以企业估值作为FOF配置策略的唯一依据,否则,投资者到最后就会发现,在择时上,会出现过早进场的问题。

    投资策略四:成本平均策略和时间分散化策略

    所谓的成本平均策略,主要是指投资者在投资股票时,按照预定的计划,根据股票不同的价格,分批买进,以备个股出现无法预测的风险时,可以摊薄成本,从而规避一次性投入,可能带来较大风险的策略。

    成本平均策略使得投资者在股票价格较高时投资的股数少,而股票价格低时投资的股数多,即可以减少投资成本。

    1994年,Warther的实证研究发现,基金公司的现金流入和流出存在着强烈的联系,采用成本平均策略的投资者,在经过股价下跌一段时间以后更有可能买进股票。


    FOF核心在于资产的配置,其本身就不提倡集中投资,FOF本身就具有分散化的特征,与成本平均策略本质上有相似之处。因此,在策略运用上,投资者能更灵活地进行策略的运用。


    与成本平均策略相应的是时间分散化策略。时间分散化策略主要指的是,投资市场的风险,会随着投资期限的延长而降低。

    1998年,Ibbotson,Associate研究股票不同时间范围内的收益,时间跨度从1年到20年。研究结果发现,时间成了影响资产组合收益的主要矛盾,长时间地持有资产可以降低损失的风险。如果持有期限在15年或者以上,基本上都能够取得正收益。

    举一个例子,说明时间分散化策略的价值。假如有1000美元,打算投资退休基金,有两个选择,一个是无风险投资,预期收益率为4%,标准差(风险)为0;其二是风险投资,预期收益率12%,标准差16%。


    通过表格我们发现,风险投资价值相比无风险投资,所获得的回报要高很多,显然,利用时间分散策略来提高收益,是有效的。

    对时间分散化策略做得最为出色的投资人——沃伦·巴菲特,是其中的代表人物。其持股时间长达几十年。通过时间的分散,不仅帮助投资降低了风险,而且还获得了巨额的收益。这也是普通投资者与专业投资者相比,战略眼光以及胸怀格局之间的差异。

    关于时间分散化策略,Fisher和Statman在1999年对这种策略进行了系统解释,此策略有两个方面的含义,一方面认为投资者投资股市会随着投资期限的增加而降低;另一方面,建议投资者在年轻的时候,在资产配置之时,加大比例投入到股市中,因为股票具有高风险性,而随着年龄增长,则应不断减少资产组合中股票的占比。

    成本平均策略以及时间分散化策略,从形式上而言,与定投基金有些类似。对于FOF基金来说,其配置重点是大类资产的配置,在时间上更是强调长期持有。因此,分散投资以及长期持有是FOF基金本身固有的属性,过往的市场也证明了这个规律的有效性,人们对FOF基金应该报有更大的信心。

    投资策略五:核心·卫星投资策略

    核心·卫星投资策略最早出现于上世纪九十年代嘉信投资的一项研究。顾名思义,所谓「核心·卫星」投资策略,就是把投资的资产分为「核心」和「卫星」两大类资产,以此进行不同资产类别的配置。

    此策略的关键是在「核心」资产的配置,一般情况下,核心资产配置的是被动型、费用低廉、流动性较好的基金,比如指数基金,在风险可控的前提下,可通过长期持有的方式获取稳健的收益。

    另外,把少部分资金配置在「卫星」资产上,卫星资产与核心资产相比,灵活性、风险性也更为突出。「卫星」资产主要是在「核心」资产有文件收益的前提下,把少部分资金配置与高风险品种之中,以此提高市场组合的收益预期。因此,其配置品种则更多偏向于小盘、另类等波动率较大的基金。


    从基金组合比例来看,核心·卫星策略的精髓在于风控,因为占比超过80%的「核心」资产配置到了相对稳健的品种中,意味着已经大大降低了投资组合的整体风险系数。占比不到20%的「卫星」资产,即使出现亏损较大的情况,相对基金整体而言,投资组合总值跌幅也有限,这样对基金管理人而言,就能把握主动权。

    核心·卫星投资策略在兼顾基金组合灵活性的同时,降低了风险,并且在组合中「卫星」资产配置突出了收益性,同时给基金组合的收益打开了空间。

    从此策略在国外的实践情况来看,其在降低风险方面成效明显,不过,该策略也有着缺点:不管「卫星」资产配置如何灵活,由于其配置占整个基金组合较低,基金收益性并不突出。虽然如此,但对于核心是大类资产配置的FOF基金而言,此策略本质更符合FOF基金追求稳健收益的初衷,基金管理人对此策略的运用也比较普遍。

    投资策略之六:「杠铃」投资策略

    杠铃投资策略最早应用于债券投资领域,下面我们就用债券投资作为举例说明。

    杠铃投资策略,在投资债券时,只投资于短期债券和长期债券,而不投资于中期债券。打个比方,比如把50%的资金用于购买短期债券,50%的资金用于购买长期债券。从比例上看,由于两者都各占50%,形态上看起来如杠铃一般,我们称其为杠铃投资。

    这两种投资各有侧重,短期债券为资产组合提供流动性,长期债券则为资产组合提供更高的收益,从而更好地兼顾组合的流动和收益能力。杠铃策略选取的是资产两端进行配置,能较好地平衡收益与风险,特别是应对各种极端市场环境,都能表现出有较好的适应性。因此,在基金投资策略中,同样被广泛采用。

    在投资模型中,杠铃投资策略可以划分为:价值-成长、大盘-小盘、主动-被动、股票-债券等,来作为FOF基金筛选的标准。


    杠铃投资策略的核心在于,所选择的两类资产之间的相关性较低,甚至是负相关的。

    比如,资产投资于政府债券和股票市场,两者的市场机会更多时候是相反的。因此,无论市场走向哪个极端,资产都有表现的机会。而当市场整体向好之时,资产组合还能有超额的表现。另外一点就是,两者之间的配比关系要适当,如果配置比例大小过于悬殊,就称不上是杠铃了。

    投资策略之七:买入并持有策略

    买入并持有策略看似是一种最笨拙的方式,却获得了大量研究人员的推崇。买入并持有策略,也是股神巴菲特最为支持的策略。

    采取该策略的投资者,通常忽略市场短期波动,放弃从市场环境变动中获利的可能,而更多着眼于长期投资。长期持有策略相比高频交易策略,由于其在很长一段时间内不在市场中买卖,交易成本和管理费用的节省也就成了其优势。

    值得一提的是,投资者投资于风险资产的比例与其风险承受能力正相关,而一般大众风险承受能力随市场变化而变化,其投资组合也会随市场变化而变化。因此,想获得超额收益,这就要求采取长期持有投资策略的投资者,还要具备不因市场短期风险变化而坚持资产配置的能力。

    其实,这个策略看似简单,但并不意味着随时随地都可以买入,也并非适合每个人。每个市场都有其不同的特点,如果不考虑时间节点以及投资者的素质,市场走势会让买入的投资者最终丧失信心。比如在暴涨暴跌的A股市场,如果择时不当,在高位买入股票持有,则可能导致基金出现长时间亏损套牢的局面。如果基金经理专业素质不够,无法正确判断市场估值,很有可能在忍无可忍的底部区域卖出基金,这会给投资者带来巨大的损失。因此,买入持有策略看似简单,但对基金管理人其实是一个非常严峻的考验。

    对FOF投资而言,很重要一点就是对宏观经济的把握,因为FOF投资的核心在于大类资产的配置,也就是说,宏观市场环境是FOF投资的第一因素,其次,才是具体品种的选择。

    在美国市场中,投资者更多地是从宏观环境以及企业估值的角度制定买卖策略,而在中国市场则不同,相比经济基本面,更为重要的是政策的变化,后者常常是影响市场走向的主要因素。因此,买入并持有策略中,买入时机把握的考量因素,需要根据各个市场特点而有所区别。

    至此,我们通过FOF投资策略上、中、下三篇,详细介绍了FOF基金的七大投资策略。作为立足FOF基金的一站式精准资管平台,未来玄甲金融还会继续推出其它类似专题,让投资者更深入地了解FOF基金。

    来源:玄甲金融

    【私募工场平台介绍】

    私募工场是目前国内最具有凝聚力的投顾培养平台,坚持以资产配置为核心投资理念,开展覆盖量化投资及对冲基金领域的权威培训、FOF/MOM业务,目前已吸引上万家优秀私募及数百家金融孵化机构入驻。

     

    【“阿基米德”:投顾入驻计划】

    私募工场联合各大期货公司、证券公司、FOF专业管理机构,为优秀私募优先提供充足资金(优先或管理型),为有潜力私募提供产品孵化、场地支持、股权融资等服务,如果您是一家私募公司,不论是股票型还是期货型,不论是量化型还是主观型,不论是套利型还是对冲型......,请点击公众号底部菜单:私募平台/投顾入驻或者直接联系微信150****1448加入私募工场投顾库。

     

    【“阿基米德”:资方入驻计划】

    如果您是劣后投资方、自带劣后投顾、企业资金方,或者是能提供优先资金的银行、FOF、信托、期货公司及券商……,请点击公众号底部菜单:私募平台/资金方入驻或者直接联系微信150****1448加入私募工场资方库。

     

    【“阿基米德”:保壳借壳】

    不论您是急需保壳,还是期望借出已有的私募壳,均可以点击公众号底部菜单:私募平台/壳资源交换或者直接联系微信150****1448咨询。

     

    【Quant求职】

    私募工场立足对冲基金、量化投资专业领域,已有上万家顶级优秀私募入驻,更有数百家专注量化研究的私募加盟,如果您在量化投研方面有自己的特色和优势,请点击公众号底部菜单:私募平台/Quant求职或者按照“姓名+专业+期望的职位”直接发给150****1448(微信),同时将个人简历发至邮箱50674****6***@qq.com。

    展开全文
  • 强化学习系列之:策略梯度

    千次阅读 2018-01-16 10:35:16
    文章目录 [隐藏] 1. 策略参数化 2. 策略梯度算法 2.1 MC Policy Gradient 2.2 Actor-Critic ...3. 为什么要有策略梯度 ...这篇文章我们介绍梯度策略,用模型直接拟合策略。   1. 策略参数化
    
    

          上一篇文章介绍价值函数近似,用模型拟合价值函数。这篇文章我们介绍梯度策略,用模型直接拟合策略。

    reinforcement learning

          

    1. 策略参数化

          强化学习有两种场景。一种是离散的强化学习场景。在这种场景下,我们从状态抽取状态特征向量 \hat{s}。和价值函数近似,我们让 \pmb{f(\hat{s},a)} 特征向量一共有 |A| 部分,分别对应不同的动作。在 \pmb{f(\hat{s},a)} 特征向量, a 动作对应位置放 \hat{s} 特征,其他动作对应位置为 0。设定参数 \pmb{w}

    (1) \begin{eqnarray*} \pi_{\pmb{w}}(\hat{s},a) = \frac{exp(\pmb{f(\hat{s},a)}^{T} \pmb{w})}{\sum_{a' \in A}exp(\pmb{f(\hat{s},a')}^{T} \pmb{w})} \nonumber \end{eqnarray*}

    其中 \pi_{\pmb{w}}(\hat{s},a) 表示遇到状态特征 \hat{s} 采取动作 a 的概率。策略用了著名的 Softmax 函数,因此也被称为 softmax 策略。容易求得 Softmax 函数对数的梯度。

    (2) \begin{eqnarray*} \bigtriangledown_{\pmb{w}}log\pi_{\pmb{w}}(\hat{s},a) = \pmb{f(\hat{s},a)} - \sum_{a' \in A}\pi_{\pmb{w}}(\hat{s},a')\pmb{f(\hat{s},a')} \nonumber  \end{eqnarray*}

          另一种是连续的强化学习场景。在连续强化学习场景下,我们也是从状态抽取状态特征向量 \hat{s},然后设定一个参数向量 \pmb{w},然后用特征和参数计算不同动作的概率。

    (3) \begin{eqnarray*} \pi_{\pmb{w}}(\hat{s},a) = \frac{1}{\sqrt{2\pi}}exp(-\frac{(a-\pmb{\hat{s}}^{T} \pmb{w})^2}{2}) \nonumber \end{eqnarray*}

    其中动作 a 是一个实数值。策略用了标准差为 1 的高斯分布,因此该策略被称为高斯策略。容易求得高斯策略的对数梯度。

    (4) \begin{eqnarray*} \bigtriangledown_{\pmb{w}}log\pi_{\pmb{w}}(\hat{s},a) = (a -  \pmb{\hat{s}}^{T} \pmb{w}) \pmb{\hat{s}}\nonumber  \end{eqnarray*}

          强化学习就是学习参数 \pmb{w} 的值。那么我们按什么样的目标学习参数 \pmb{w} 呢? 我们有如下三种目标。其中第一个目标适用于每次从一个开始状态出发的强化学习,另外两种目标适用于其他场景。

    (5) \begin{eqnarray*} J_1(\pmb{w}) &=& V^{\pi_{\pmb{w}}}(s1) = E_{\pi_{\pmb{w}}}[v1] \nonumber \\ J_{avV}(\pmb{w}) &=& \sum_{s} d^{\pi_{\pmb{w}}}(s) V^{\pi_{\pmb{w}}}(s) \nonumber \\ J_{avR}(\pmb{w}) &=& \sum_{s} d^{\pi_{\pmb{w}}}(s) \sum_{a} \pi_{\pmb{w}}(s,a) R_{s,a} \nonumber  \end{eqnarray*}

    其中 d^{\pi_{\pmb{w}}} 是策略 \pi_{\pmb{w}} 稳定概率。虽然我们有三种目标函数,但是下面的策略梯度定理揭示这些目标函数的梯度是一致。只要我们求得梯度,就可以应用梯度下降相关算法了。

    policy gradient theorem

          

    根据策略梯度定理,我们只要计算出 \bigtriangledown_{\pmb{w}}log\pi_{\pmb{w}}(\hat{s},a) 和价值 q(\hat{s},a),就可以求解策略梯度优化问题了。Softmax 和高斯策略的 \bigtriangledown_{\pmb{w}}log\pi_{\pmb{w}}(\hat{s},a) 计算公式在上面已经介绍了。Softmax 策略的更新代码。

    //policy 待更新的策略
    //f      状态特征
    //a      动作
    //qvalue q值
    //alpha  学习率
    def update_softmaxpolicy(policy, f, a, qvalue, alpha):
    
        fea  = policy.get_fea_vec(f,a);
        prob = policy.pi(f);
        
        delte_logJ = fea;
        for i in xrange(len(policy.actions)):
            a1          = policy.actions[i];
            fea1        = policy.get_fea_vec(f,a1);
            delta_logJ -= fea1 * prob[i];
    
        policy.theta -= alpha * delta_logJ * qvalue; 

    2. 策略梯度算法

          为了求解策略梯度优化问题,我们需要计算 \bigtriangledown_{\pmb{w}}log\pi_{\pmb{w}}(\hat{s},a) 和价值 q(\hat{s},a)。按照上述内容,我们能够求得 \bigtriangledown_{\pmb{w}}log\pi_{\pmb{w}}(\hat{s},a),那怎么求解价值 q(\hat{s},a) 呢?

    2.1 MC Policy Gradient

          蒙特卡罗策略梯度适用于插曲式的强化学习场景。插曲式强化学习场景中,系统会从一个固定或者随机起始状态出发,经过一定的过程之后,进入一个终止状态。比如,机器人找金币例子就是插曲式强化学习场景。蒙特卡罗策略梯度让系统探索环境,生成一个从起始状态到终止状态的状态-动作-奖励序列。

    (6) \begin{eqnarray*} s_1,a_1,r_1,.....,s_T,a_T,r_T \end{eqnarray*}

    在第 t 时刻,我们让 g_t = r_t+\gamma r_{t+1}+... 等于 q(s_t,a),从而求解策略梯度优化问题。蒙特卡罗策略梯度代码如下。

    def mc(grid, policy, num_iter1, alpha):
        actions = grid.actions;
        gamma   = grid.gamma;
        for i in xrange(len(policy.theta)):
            policy.theta[i] = 0.1
    
        for iter1 in xrange(num_iter1):
    
            f_sample = []
            a_sample = []
            r_sample = []   
            
            f = grid.start()
            t = False
            count = 0
            while False == t and count < 100:
                a = policy.take_action(f)
                t, f1, r  = grid.receive(a)
                f_sample.append(f)
                r_sample.append(r)
                a_sample.append(a)
                f = f1            
                count += 1
    
    
            g = 0.0
            for i in xrange(len(f_sample)-1, -1, -1):
                g *= gamma
                g += r_sample[i];
            
            for i in xrange(len(f_sample)):
                update(policy, f_sample[i], a_sample[i], g, alpha)
    
                g -= r_sample[i];
                g /= gamma;
            
    
        return policy
    

    2.2 Actor-Critic

          价值函数近似的强化学习算法用于估计状态-动作价值 q(s,a)。策略梯度算法引入价值函数近似提供价值是一个很好的思路。这时候,算法分为两个部分:Actor 和 Critic。Actor 更新策略, Critic 更新价值。Critic 就可以用之前介绍的 SARSA 或者 QLearning 算法。下面是 SARSA 算法代码示例。

    def sarsa(grid, policy, value, num_iter1, alpha):
        actions = grid.actions;
        gamma   = grid.gamma;
        for i in xrange(len(policy.theta)):
            value.theta[i]  = 0.1
            policy.theta[i] = 0.0;
    
        for iter1 in xrange(num_iter1):
            f = grid.start();
            a = actions[int(random.random() * len(actions))]
            t = False
            count = 0
    
            while False == t and count < 100:
                t,f1,r      = grid.receive(a)
                a1          = policy.take_action(f1)
                update_value(value, f, a, \
                             r + gamma * value.qfunc(f1, a1), alpha);
                update_policy(policy, f, a, value.qfunc(f,a), alpha);
    
                f           = f1
                a           = a1
                count      += 1
    
        return policy;
    
    

    3. 为什么要有策略梯度

          策略梯度的第一个优势是其能够处理连续场景。价值函数近似就不适用了连续的强化学习场景。因为 A 是一个无限集合的情况下,我们无法计算 argmax_{a \in A}q(s,a) 了。但如果我们使用的是策略梯度,\pi(s) 输出实数值。当然这一部分可以通过改进价值函数形式的方式解决。

          策略梯度的另一好处是概率化输出。在预测时,价值函数近似应用了贪婪策略或者\epsilon-贪婪策略,选择价值最大的方向。有时候这可能会导致问题。还是拿机器人找金币做例子(如下图所示),状态特征是北(东,南,西)方向是否面对墙。状态 2 和 状态 4 的状态特征一样,贪婪策略或者 \epsilon- 贪婪策略采取相同动作。如果动作是向右,则状态 4 之后会陷入 4 和 5 之间的循环。如果动作是向左,则状态 2 之后会陷入 1 和 2 之间的循环。但是如果我们采用策略梯度,在状态 2 和状态 4,学习到的策略输出向右和向左动作的概率都是 0.5,从而不会陷入循环。

    not random 1

    4. 总结

          本文介绍了梯度策略相关知识。本文代码可以在 Github 上找到,欢迎有兴趣的同学帮我挑挑毛病。

          最后欢迎关注我的公众号 AlgorithmDog,每周日的更新就会有提醒哦~

    展开全文
  • win10家庭版无法进入本地组策略编辑器 现象:运行中框中输入“gpedit.msc”,提示“Windows找不到文件gpedit.msc”。 解决办法: 一、桌面新建一个文本文档,输入一下代码后保存文档 @echo off pushd “%~dp0” dir ...

    win10家庭版无法进入本地组策略编辑器
    现象:运行框中输入“gpedit.msc”,提示“Windows找不到文件gpedit.msc”。
    解决办法:

    一、桌面新建一个文本文档,输入以下代码后保存文档

       @echo off
       pushd "%~dp0"
       dir /b C:\Windows\servicing\Packages\Microsoft-Windows-GroupPolicy- 
       ClientExtensions-Package~3*.mum >List.txt
       dir /b C:\Windows\servicing\Packages\Microsoft-Windows-GroupPolicy-
       ClientTools-Package~3*.mum >>List.txt
       for /f %%i in ('findstr /i . List.txt 2^>nul') do dism /online /norestart /add-
       package:"C:\Windows\servicing\Packages\%%i"
       pause
    

    二、修改这个文档的扩展名为“.cmd”
    在这里插入图片描述
    三、以管理员身份运行这个文件,如下图完成操作

    在这里插入图片描述
    四、运行框中输入“gpedit.msc”
    在这里插入图片描述
    五、可以看到专业版才有的组策略编辑器菜单项了。
    在这里插入图片描述
    六、这时仅仅才有了组策略,并没有CredSSP加密Oracle修正策略
    最后一步:
    在运行中输入regedit打开注册表,定位到:
    [HKEY_LOCAL_MACHINE\Software\Microsoft\Windows\CurrentVersion\Policies
    System
    然后,右键 点击 System->新建->项,此时新建了一项命名为CredSSP,右键 点击 CredSSP执行同上操作再新建一项,命名为Parameters,最后,选中Parameters,在右侧空白处点击右键->新建->DWORD(32位)值,名称命名为AllowEncryptionOracle,选中AllowEncryptionOracle,点击右键->修改,打开如下对话框,在数值项,输入2即可。
    在这里插入图片描述

    展开全文
  • 强化学习进阶 第策略梯度方法

    万次阅读 2017-04-20 19:27:40
    说明:从这讲开始,我们进入强化学习的进阶课程学习。进阶课程以强化学习入门第一讲到第五讲为基础,所以请读者先读前面的课程讲义。该进阶课程也有五讲,主要讲解直接策略搜索方法。内容涉及到近十几年比较主流的...

    转载自知乎专栏 天津包子馅儿 的知乎

    说明:从这讲开始,我们进入强化学习的进阶课程学习。进阶课程以强化学习入门第一讲到第五讲为基础,所以请读者先读前面的课程讲义。该进阶课程也有五讲,主要讲解直接策略搜索方法。内容涉及到近十几年比较主流的直接策略搜索方法。本课程参考资料是Pieter Abbeel 在NIPS2016给的tutorial,视频网址为:

    Deep Reinforcement Learning Through Policy Optimization


    图6.1 强化学习分类

    如图6.1所示为强化学习的分类示意图,我们这一节讲解策略搜索方法。

    我们首先要弄清楚,什么是策略搜索?

    回忆第一讲到第五讲的内容,前面讲的是值函数的方法。广义值函数的方法包括两个步骤:策略评估+策略改善。当值函数最优时,策略是最优的。此时最优策略是贪婪策略。我们回忆下什么是贪婪策略。贪婪策略是指\[arg\\max_a\ Q_{\theta}\left(s,a\right)\] ,即在状态s,对应最大行为值函数的动作,是一个状态空间向动作空间的映射,该映射就是最有策略。利用这种方法得到的策略往往是状态空间向有限集动作空间的映射。

    策略搜索是将策略进行参数化即\[\pi_{\theta}\left(s\right)\] ,利用线性或非线性(如神经网络)对策略进行表示,寻找最优的参数\theta使得强化学习的目标:累积回报的期望\[E\left[\sum_{t=0}^H{R\left(s_t\right)|\pi_{\theta}}\right]\]最大。

    在值函数的方法中,我们迭代计算的是值函数,然后根据值函数对策略进行改进;而在策略搜索方法中,我们直接对策略进行迭代计算,也就是迭代更新参数值,直到累积回报的期望最大,此时的参数所对应的策略为最优策略。

    在正式讲解策略搜索方法之前,我们先比较一下值函数方法和直接策略搜索方法的优缺点。其实正因为直接策略搜索方法比值函数方法拥有更多的优点,我们才有理由或才有动机去研究和学习及改进直接策略搜索方法:

    (1) 直接策略搜索方法是对策略\pi进行参数化表示,与值函数方中对值函数进行参数化表示相比,策略参数化更简单,有更好的收敛性。

    (2) 利用值函数方法求解最优策略时,策略改进需要求解\[arg\\max_a\ Q_{\theta}\left(s,a\right)\],当要解决的问题动作空间很大或者动作为连续集时,该式无法有效求解。

    (3) 直接策略搜索方法经常采用的随机策略,能够学习随机策略。可以将探索直接集成到策略之中。

    当然与值函数方法相比,策略搜索方法也普遍存在一些缺点,比如:

    (1) 策略搜索的方法容易收敛到局部最小值。

    (2) 评估单个策略时并不充分,方差较大。

    对于这些缺点,最近十几年,学者们正在探索各种直接策略搜索的方法进行改进。

    策略搜索方法已经成功应用的案例如图6.2所示

    图6.2 直接策略搜索方法成功案例

    从图6.2我们看出,直接策略搜索的方法主要应用在机器人领域。本节主要讲解策略梯度的方法,第七节会讲TRPO的方法,第八节会讲确定性策略搜索方法,第九节会讲GPS方法,第十节会讲逆向强化学习方法。这些方法之间的关系可用图6.3表示。


    图6.3 策略搜索方法分类

    策略搜索方法按照是否利用模型可以分为无模型的策略搜索方法和基于模型的策略搜索方法。其中无模型的策略搜索方法根据策略是采用随机策略还是确定性策略分为随机策略搜索方法和确定性策略搜索方法。随机策略搜索方法最先发展起来的是策略梯度方法;然而策略梯度方法存在着学习速率难以确定等问题,为了解决这个问题学者们提出了基于统计学习的方法,基于路径积分的方法,回避学习速率问题。而TRPO并没有回避这个问题,而是找到了替代损失函数,利用优化方法局部找到使得损失函数单调的步长,我会在下一讲重点讲解。

    基于似然率来推导策略梯度

    \tau表示一组状态-行为序列\[s_0,u_0,\cdots ,s_H,u_H\], 符号\[R\left(\tau\right)=\sum_{t=0}^H{R\left(s_t,u_t\right)}\],表示轨迹\tau 的回报,P\left(\tau ;\theta\right) 表示轨迹\tau 出现的概率;则强化学习的目标函数可表示为:

    \[U\left(\theta\right)=E\left(\sum_{t=0}^H{R\left(s_t,u_t\right);\pi_{\theta}}\right)=\sum_{\tau}{P\left(\tau ;\theta\right)R\left(\tau\right)}\]

    强化学习的目标是找到最优参数\theta 使得:\[\max_{\theta}U\left(\theta\right)=\max_{\theta}\sum_{\tau}{P\left(\tau ;\theta\right)R\left(\tau\right)}\]

    这时,策略搜索方法,实际上变成了一个优化问题。解决优化问题有很多种方法,比如:最速下降法,牛顿法,内点法等等。

    其中最简单,也是最常用的是最速下降法,此处称为策略梯度的方法。

    \[\theta_{new}=\theta_{old}+\alpha\nabla_{\theta}U\left(\theta\right)\] 。

    问题的关键是如何计算策略梯度\[\nabla_{\theta}U\left(\theta\right)\]

    我们对目标函数进行求导:

    \[\nabla_{\theta}U\left(\theta\right)=\nabla_{\theta}\sum_{\tau}{P\left(\tau ;\theta\right)R\left(\tau\right)}\]\[=\sum_{\tau}{\nabla_{\theta}P\left(\tau ;\theta\right)R\left(\tau\right)}\]\[=\sum_{\tau}{\frac{P\left(\tau ;\theta\right)}{P\left(\tau ;\theta\right)}\nabla_{\theta}P\left(\tau ;\theta\right)R\left(\tau\right)}\]\[=\sum_{\tau}{P\left(\tau ;\theta\right)\frac{\nabla_{\theta}P\left(\tau ;\theta\right)R\left(\tau\right)}{P\left(\tau ;\theta\right)}}\]\[=\sum_{\tau}{P\left(\tau ;\theta\right)\nabla_{\theta}\log P\left(\tau ;\theta\right)R\left(\tau\right)}\] (6.1)

    最终策略梯度变成了求\[\nabla_{\theta}\log P\left(\tau ;\theta\right)R\left(\tau\right)\] 的期望,我们可以利用经验平均来进行估算。因此,当利用当前策略\[\pi_{\theta}\] 采样m条轨迹后,可以利用这m条轨迹的经验平均对策略梯度进行逼近:

    \[\nabla_{\theta}U\left(\theta\right)\approx\hat{g}=\frac{1}{m}\sum_{i=1}^m{\nabla_{\theta}\log P\left(\tau ;\theta\right)R\left(\tau\right)}\] (6.2)

    从重要性采样的角度推导策略梯度:

    目标函数为:\[U\left(\theta\right)=E\left(\sum_{t=0}^H{R\left(s_t,u_t\right);\pi_{\theta}}\right)=\sum_{\tau}{P\left(\tau ;\theta\right)R\left(\tau\right)}\]

    利用参数\theta_{old}产生的数据去评估参数\theta的回报期望,由重要性采样得到:\[U\left(\theta\right)=\sum_{\tau}{P\left(\tau |\theta_{old}\right)\frac{P\left(\tau ;\theta\right)}{P\left(\tau |\theta_{old}\right)}R\left(\tau\right)}\]\[=E_{\tau ~\theta_{old}}\left[\frac{P\left(\tau |\theta\right)}{P\left(\tau |\theta_{old}\right)}R\left(\tau\right)\right]\] (6.3)

    导数为:

    \[\nabla_{\theta}U\left(\theta\right)=E_{\tau ~\theta_{old}}\left[\frac{\nabla_{\theta}P\left(\tau |\theta\right)}{P\left(\tau |\theta_{old}\right)}R\left(\tau\right)\right]\] (6.4)

    \[\theta =\theta_{old}\] ,我们可以得到当前策略的导数:

    \[\nabla_{\theta}U\left(\theta\right)|_{\theta =\theta_{old}}\]\[=E_{\tau ~\theta_{old}}\left[\frac{\nabla_{\theta}P\left(\tau |\theta\right)|_{\theta_{old}}}{P\left(\tau |\theta_{old}\right)}R\left(\tau\right)\right]\]\[=E_{\tau ~\theta_{old}}\left[\nabla_{\theta}\log P\left(\tau |\theta\right)|_{\theta_{old}}R\left(\tau\right)\right]\] (6.5)

    从重要性采样的视角推导策略梯度,不仅得到了与似然率相同的结果,更重要的是得到了原来目标函数新的损失函数:\[U\left(\theta\right)=E_{\tau ~\theta_{old}}\left[\frac{P\left(\tau |\theta\right)}{P\left(\tau |\theta_{old}\right)}R\left(\tau\right)\right]\]

    似然率策略梯度的直观理解

    前面我们已经利用似然率的方法推导得到了策略梯度公式为:\[\nabla_{\theta}U\left(\theta\right)\approx\hat{g}=\frac{1}{m}\sum_{i=1}^m{\nabla_{\theta}\log P\left(\tau ;\theta\right)R\left(\tau\right)}\]

    对这个公式中的两项,我们分别进行理解。


    图6.4 策略梯度的直观理解示意图

    其中第一项\[\nabla_{\theta}\log P\left(\tau ;\theta\right)\] 是轨迹\tau 的概率随参数\theta 变化最陡的方向,参数在该方向进行更新时,若沿着正方向,则该轨迹\tau 的概率会变大,而沿着负方向进行更新时,该轨迹\tau的概率会变大。再看第二项\[R\left(\tau\right)\] ,该项控制了参数更新的方向和步长。\[R\left(\tau\right)\]为正且越大则参数更新后该轨迹的概率越大;\[R\left(\tau\right)\]为负,则降低该轨迹的概率,抑制该轨迹的发生。

    因此,策略梯度从直观上进行理解时,我们发现策略梯度会增加高回报路径的概率,减小低回报路径的概率。

    前面我们已经推导出策略梯度的求解公式为:\[\nabla_{\theta}U\left(\theta\right)\approx\hat{g}=\frac{1}{m}\sum_{i=1}^m{\nabla_{\theta}\log P\left(\tau ;\theta\right)R\left(\tau\right)}\]

    现在,我们解决如何求似然率的梯度:\[\nabla_{\theta}\log P\left(\tau ;\theta\right)\textrm{?}\]

    已知\[\tau =s_0,u_0,\cdots ,s_H,u_H\] ,则轨迹的似然率可写为:

    \[P\left(\tau^{\left(i\right)};\theta\right)=\prod_{t=0}^H{P\left(s_{t+1}^{\left(i\right)}|s_{t}^{\left(i\right)},u_{t}^{\left(i\right)}\right)}\cdot\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)\] (6.6)

    式中,\[P\left(s_{t+1}^{\left(i\right)}|s_{t}^{\left(i\right)},u_{t}^{\left(i\right)}\right)\]表示动力学,式中无参数\theta,因此可在求导过程中消掉。具体推导,如式(6.7)

    \[\nabla_{\theta}\log P\left(\tau^{\left(i\right)};\theta\right)=\nabla_{\theta}\log\left[\prod_{t=0}^H{P\left(s_{t+1}^{\left(i\right)}|s_{t}^{\left(i\right)},u_{t}^{\left(i\right)}\right)}\cdot\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)\right]\]\[=\nabla_{\theta}\left[\sum_{t=0}^H{\log P\left(s_{t+1}^{\left(i\right)}|s_{t}^{\left(i\right)},u_{t}^{\left(i\right)}\right)}+\sum_{t=0}^H{\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)}\right]\]\[=\nabla_{\theta}\left[\sum_{t=0}^H{\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)}\right]\]\[=\sum_{t=0}^H{\nabla_{\theta}\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)}\] (6.7)

    从(6.7)的结果来看,似然率梯度转化为动作策略的梯度,与动力学无关。那么,如何求解策略的梯度呢?

    下面,我们看一下常见的策略表示方法

    一般,随机策略可以写为确定性策略加随机部分,即:

    \[\pi_{\theta}=\mu_{\theta}+\varepsilon \]

    对于高斯策略:\[\varepsilon \sim N\left(0,\sigma^2\right)\] ,是均值为零,标准差为\sigma的高斯分布。像值函数逼近一样,确定性部分常见的表示为:

    线性策略:\[\mu\left(s\right)=\phi\left(s\right)^T\theta \]

    径向基策略:\[\mu_{\theta}\left(s\right)=\omega^T\phi\left(s\right),\ \]其中:

    \[\phi_i\left(s\right)=\exp\left(-\frac{1}{2}\left(s-\mu_i\right)^TD_i\left(s-\mu_i\right)\right)\]

    参数为\[\theta =\left\{\omega ,\mu_i,d_i\right\}\]

    我们以确定性部分策略为线性策略为例来说明\[\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)\] 如何计算。

    首先\[\pi\left(u|s\right)~\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{\left(u-\phi\left(s\right)^T\theta\right)^2}{2\sigma^2}\right)\] ,利用该分布进行采样,得到\[u_{t}^{\left(i\right)}\] ,然后将\[\left(s_{t}^{\left(i\right)},u_{t}^{\left(i\right)}\right)\]带入,得到:\[\nabla_{\theta}\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)=\frac{\left(u_{t}^{\left(i\right)}-\phi\left(s_{t}^{\left(i\right)}\right)^T\theta\right)\phi\left(s_{t}^{\left(i\right)}\right)}{\sigma^2}\]

    其中方差参数\[\sigma^2\] 用来控制策略的探索性。

    由此,我们已经推导除了策略梯度的计算公式:\[\nabla_{\theta}U\left(\theta\right)\approx\hat{g}=\frac{1}{m}\sum_{i=1}^m{\left(\sum_{t=0}^H{\nabla_{\theta}\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)}R\left(\tau^{\left(i\right)}\right)\right)}\] (6.8)

    (6.8)式给出的策略梯度是无偏的,但是方差很大。我们在回报中引入常数基线b来减小方差。

    首先,证明当回报中引入常数b时,策略梯度不变即:

    \[\nabla_{\theta}U\left(\theta\right)\approx\hat{g}=\frac{1}{m}\sum_{i=1}^m{\nabla_{\theta}\log P\left(\tau^{\left(i\right)};\theta\right)R\left(\tau^{\left(i\right)}\right)}\]\[=\frac{1}{m}\sum_{i=1}^m{\nabla_{\theta}\log P\left(\tau^{\left(i\right)};\theta\right)\left(R\left(\tau^{\left(i\right)}\right)-b\right)}\]

    证明:

    \[E\left[\nabla_{\theta}\log P\left(\tau ;\theta\right)b\right]\]\[=\sum_{\tau}{P\left(\tau ;\theta\right)}\nabla_{\theta}\log P\left(\tau ;\theta\right)b\]\[=\sum_{\tau}{P\left(\tau ;\theta\right)}\frac{\nabla_{\theta}P\left(\tau ;\theta\right)b}{P\left(\tau ;\theta\right)}\]\[=\sum_{\tau}{\nabla_{\theta}P\left(\tau ;\theta\right)b}\]\[=\nabla_{\theta}\left(\sum_{\tau}{P\left(\tau ;\theta\right)}b\right)\]\[=\nabla_{\theta}b\]\[=0\]

    其次,我们求使得策略梯度的方差最小时的基线b

    \[X=\nabla_{\theta}\log P\left(\tau^{\left(i\right)};\theta\right)\left(R\left(\tau^{\left(i\right)}\right)-b\right)\] ,则方差为:\[Var\left(X\right)=E\left(X-\bar{X}\right)^2=EX^2-E\bar{X}^2\]

    方差最小处,方差对b的导数为零,即:

    \[\frac{\partial Var\left(X\right)}{\partial b}=E\left(X\frac{\partial X}{\partial b}\right)=0\]

    其中\[\bar{X}=EX\]与b无关。

    将X带入,得到:

    \[b=\frac{\sum_{i=1}^m{\left[\left(\sum_{t=0}^H{\nabla_{\theta}\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)}\right)^2R\left(\tau\right)\right]}}{\sum_{i=1}^m{\left[\left(\sum_{t=0}^H{\nabla_{\theta}\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)}\right)^2\right]}}\] (6.9)

    进一步减小方差的方法:修改回报函数:

    引入基线后,策略梯度公式变为:

    \[\nabla_{\theta}U\left(\theta\right)\approx\frac{1}{m}\sum_{i=1}^m{\left(\sum_{t=0}^H{\nabla_{\theta}\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)}\left(R\left(\tau^{\left(i\right)}\right)-b\right)\right)}\] (6.10)

    其中,b取(6.9)式。我们对公式(6.10)进行进一步分析。在(6.10)中,每个动作\[u_{t}^{\left(i\right)}\]所对应的\[\nabla_{\theta}\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)\]都乘以相同的该轨迹的总回报\[\left(R\left(\tau^{\left(i\right)}\right)-b\right)\] ,如图6.5所示。

    图6.5 REINFORCE方法

    然而,当前的动作与过去的回报实际上是没有关系的,即\[E_p\left[\partial_{\theta}\log\pi_{\theta}\left(u_t|x_t,t\right)r_j\right]=0\\ for\\ j<t\]

    因此,我们可以修改(6.10)中的回报函数。存在两种修改方法:

    第一种称为(G(PO)MDP):

    \[\nabla_{\theta}U\left(\theta\right)\approx\frac{1}{m}\sum_{i=1}^m{\sum_{j=0}^{H-1}{\left(\sum_{t=0}^j{\nabla_{\theta}\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)\left(r_j-b_j\right)}\right)}}\]

    图6.6 G(PO)MDP方法

    第二种称为策略梯度理论:

    \[\nabla_{\theta}U\left(\theta\right)\approx\frac{1}{m}\sum_{i=1}^m{\sum_{t=0}^{H-1}{\nabla_{\theta}\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_{t}^{\left(i\right)}\right)}\left(\sum_{k=t}^{H-1}{\left(R\left(s_{k}^{\left(i\right)}\right)-b\right)}\right)}\]

    图6.7 策略梯度理论

    为了使得方差最小,可以利用前面的方法求解相应的基线b。


    展开全文
  • 设计模式学习笔记()之策略模式(Strategy)      (一):策略模式的定义:  它定义了算法家族,分别封装起来,让他们之间可以相互替换,这个模式让算法的变化,不会影响到使用的用户。    (二):策略模式体现...
  • 高并发下写的处理策略

    千次阅读 2017-02-27 09:52:23
    假定存在这样一情况多个用户对数据库进行写,我们的业务逻辑规定,每个用户只能写一次,大部分用户也只发一次请求。public void write(Uers u){ // do something }但是有一情况(1%的情况下吧)的就是有的用户会发两...
  • . Kafka负载均衡策略 6.1 分区器 分区器是生产者层面的负载均衡。Kafka 生产者生产消息时,根据分区器将消息投递到指定的分区中,所以 Kafka 的负载均衡很大程度上依赖于分区器。 Kafka 默认的分区器是 Kafka 提供...
  • 15创新融资策略

    千次阅读 2005-06-15 13:39:00
    一、无形资产资本化策略 企业进行资本运营,不仅要重视有形资产,而且妥善于对企业的无形资产进行价值化、资本化运作。一般来说,名牌优势企业利用无形资产进行资本化运作的主要方式是,以名牌为龙头发展企业集团,...
  • 初步认识Ehcache清空缓存的3种策略

    万次阅读 2017-09-20 10:40:35
    Ehcache是一广泛使用的开源Java分布式缓存。主要面向通用缓存,Java EE和轻量级容器。它具有内存和磁盘存储,缓存加载器,缓存扩展,缓存异常处理程序,一个gzip缓存servlet过滤器,支持REST和SOAP api等特点。 在一些...
  • Learning算法是一使用时序差分求解强化学习控制问题的方法,回顾下此时我们的控制问题可以表示为:给定强化学习的5个要素:状态集S, 动作集A, 即时奖励R,衰减因子γ, 探索率ϵ, 求解最优的动作价值函数q∗和最优...
  • 无法打开组策略的五解决方法

    千次阅读 2008-05-13 21:02:00
    【原文链接】:http://hi.baidu.com/ywgnom/blog/item/58d02e33b8652bf81a4cffb6.html无法打开组策略的解决方法有五方法一、1、点击”开始”菜单 2、点击“运行” 3、键入"regedit"(不包括感叹号) 4、在...
  • 风险平价策略简介 1. 引言 2. 风险平价策略简介 所谓风险平价策略,即将风险平均分散入各资产,使得每一类资产贡献的风险相等。 所以首先要解决的问题,就是如何去衡量各类资产所贡献的风险大小。 首先,我们知道...
  • 无法打开组策略的解决方法有五 方法一、 1、点击”开始”菜单 2、点击“运行” 3、键入"regedit"(不包括感叹号) 4、在注册表键值 HKEY_CURRENT_USER/Software/Policies/Microsoft/Mmc/{8FC0B734-A0E1-11D1-A7D3-...
  • Java设计模式之策略模式

    千次阅读 2014-03-12 11:46:09
    摘要:本篇笔记主要是对策略模式(Strategy Pattern)学习过程、心得的记录。主要是通过模仿JDK中关于类的比较的方式来实现可以使用指定的方法、指定的策略来比较两个类的大小。
  • 最常用的组策略

    千次阅读 2012-12-05 23:26:02
     有两方法可以访问组策略:一是通过gpedit.msc命令直接进入策略窗口;二是打开控制台,将组策略添加进去。  1. 输入gpedit.msc命令访问  选择“开始”→“运行”,在弹出窗口中输入“gpedit.msc”,...
  • 一、搭建webmagic项目...二、网络爬虫模拟登陆[策略二:通过Selenium模拟表单提交] 三、搭建Selenium自动化环境 1、首先需要下载好对应自己chrome对应的chromedriver 我们在地址栏中输入chrome://version可以查看...
  • 常见的六种必用攻击手段

    千次阅读 2018-04-07 07:55:51
    东方联盟创始人,知名网络安全专家郭盛华曾表示:互联网正在改变人们的生活、休闲与工作,改变人类社会的方方面面,世界已经进入互联网时代,未来黑客安全会成为世界性话题,黑客攻防术也是进军IT行业必掌握的其中...
  • 策略设置大全

    千次阅读 2009-10-20 17:13:00
    如何打开组策略编辑器? 运行里输入gpedit.msc 系统里提示没有打开组策略这条命令? 1:看是不是注册表中锁住了组策略“HKEY_CURRENT_USER/Software/Microsoft/Windows/CurrentVersion/Policies/Explorer”,把...
  • 很多公司在度量规模的时候,不重视度量策略阶段的活动,但是在后续的度量过程中往往就会遇到疑问,在遇到问题时,才发现原来没有做到度量策略的定义,没有确定好度量的前提,因此度量策略阶段虽然可能很简单,很快速...
  • 路由策略策略路由配置与管理-1

    万次阅读 多人点赞 2017-02-24 12:43:14
    “路由策略”与“策略路由”之间的区别就在于它们的主体(或者说“作用对象”)不同,前者的主体是“路由”,是对符合条件的路由(主要)通过修改路由属性来执行相应的策略动作(如允许通过、拒绝通过、接收、引入等...
  • 1.1 政策:全球销量进入爆发拐点 随着电池成本下降性价比提升、消费终端认可、配套设施完善,全球新能源乘用车市场 销量快速爆发。 2018年全球新能源乘用车市场销量约184万辆,占全球汽车渗透率约2%, 市场以中国、...
  • 操作系统之调度算法的六种实现

    千次阅读 2018-12-29 18:22:19
    优先级算法又可以分为下面两。 非剥夺的优先级调度算法。 一旦占用就一直运行下次,知道自身推出。 可剥夺的优先级调度算法。 任何时候都是最高优先级进程运行 , 一旦出现比当前优先级高的进程优先运行该...
  • 2016年之前,大宗商品市场一直低迷,南华商品指数年涨跌幅在...股市开始调整进入震荡行情,此时2016年初,大宗商品出现了超预期的反弹行情,大家开始关注到这种与股票类债券类基金相关性极低、却能屡屡创出高收益低...
  •  当线程池的任务缓存队列已满并且线程池中的线程数目达到maximumPoolSize,如果还有任务到来就会采取任务拒绝策略,通常有以下四种策略: 1.ThreadPoolExecutor.AbortPolicy:丢弃任务并抛出...
  • 深入理解java虚拟机():java垃圾收集分析实战(内存分配与回收策略) 深入理解java虚拟机(七):java垃圾收集分析总结   深入理解java虚拟机(八):java内存分析工具-MAT和OQL   试验环境...
  • 深入理解Java虚拟机-垃圾回收器与内存分配策略

    万次阅读 多人点赞 2020-01-04 13:08:32
    因此就出现了一标记-整理算法(Mark-Compact)算法,与标记-整理算法不同的是,在标记可回收的对象后将所有存活的对象压缩到内存的一端,使他们紧凑的排列在一起,然后对端边界以外的内存进行回收。回收后,已用和...
  • Erlang supervisor重启策略

    千次阅读 2015-11-21 22:58:34
    最近阅读了一下erlang的supervisor模块,自己写了一些简单的代码来区分不同重启策略的区别,这里记录一下。 首先为了能够直观的观察,我把代码写成了一个application方便用工具观察。 接着实现一个supervisor模块...
  • 策略疑难解答

    千次阅读 2020-01-24 08:38:09
    使用组策略并不总是那么容易。当然,当您可以从上到下设置GPO和策略设置并将它们反映在用户的桌面上时,这是一件令人愉快的事情。但是,当您希望组策略时,在实现该愿望之前会进行特定的过程。确实,上一章讨论了...
  • 七大配置策略详解

    千次阅读 2018-02-26 20:37:11
    从当前市场上的投资策略种类来看,大致有七: 投资策略一:美林投资时钟策略 美林投资时钟投资策略相信大家都有所耳闻,作为资产配置最为著名的模型,它具体的概念主要指,以经济周期为框架,把「资产」、「行业...
  • 如果一个策略组合中没有一方可以单独改变其策略以提高回报,则称为Nash均衡.一个游戏可能没有也可能有多个Nash均衡。 囚徒困境在双方都是自私的的时候会出现,通常其均衡点不是最大化总体回报的。 序列化博弈:双方...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 85,539
精华内容 34,215
关键字:

六种进入策略