精华内容
下载资源
问答
  • MDP-DP-RL 该项目的目标是从头开始开发所有动态编程和强化学习算法(即,除了基本的numpy和scipy工具之外,不使用标准库)。 “从头开始开发”目标是出于教育目的-学习此主题的学生只有在他们开发和使用从头开始...
  • matlab中存档算法代码适用于Python的Markov决策过程(MDP)工具箱 MDP工具箱提供用于解决离散时间马尔可夫决策过程的类和功能。 已实现的算法列表包括向后归纳,线性编程,策略迭代,q学习和值迭代以及若干变体。 ...
  • 该存储库运行3种强化算法:策略迭代,值迭代和Q学习,以解决2个MDP问题:悬崖行走和20X20冻湖网格,并比较它们的性能。 运行步骤 需要Python 3.6 使用pip从Requirements.txt安装需求 使用python 3运行以下命令以...
  • NASA MDP数据集

    2018-10-09 17:06:02
    软件缺陷预测数据集,内含cleaned和original两个完整的13个数据资源。需要自取,只是看不惯一些明明是公共资源还要挂5个积分的人,风气太差。希望大家共同创造一个良好的学习环境。免费下载链接GitHub:...
  • mdp-迷宫 Python 中的马尔可夫决策过程实现。
  • PEGASUS:大型MDP和POMDP的策略搜索方法.pdf 英文版
  • 2009年写的matlab mdp源码,里面有全部的英文document介绍说明 2009年写的matlab mdp源码,里面有全部的英文document介绍说明
  • 马尔科夫决策过程matlab工具包非常全面
  • 1、NASA MDP 数据集是软件缺陷预测使用的数据集; 2、该数据集是向官方索取的,包含13个数据集文件,用于实验研究; 3、数据集文件格式是arff格式。
  • MDP4VRP 工具包提供了用于求解时间相关分段多项式函数和构建 MDP 模型的功能。 注意:这个工具包还没有完全完成,但是大部分功能已经可以使用了。 您可以将其用作相关计算工作的包 最近我只是使用 Git 作为传输集...
  • MDP算法通过构造一种扩展的前缀树MDP-tree,将数据仓库中的有效信息压缩存储,再使用基于MDP-tree的MDP-mining方法快速发现有趣的关联规则。MDP算法仅需要扫描一次数据仓库,就可以构造出MDP-tree,进而得到所有的...
  • POMDPs.jl:Julia中的MDP和POMDP-用于在离散和连续空间上定义,求解和模拟完全可部分观察的马尔可夫决策过程的接口
  • 利用连续时间的MDP模型研究单台设备的维护策略,综合考虑转移概率的动态性和方案选择的随机性,利用MATLAB软件实现优化,获得最佳维护周期。将其应用于混联结构,与基于离散空间的MDP维护策略进行比较。结果显示,...
  • MDP

    千次阅读 2018-08-23 16:41:57
    马尔科夫决策过程(MDP)  近期在接触强化学习的项目,在这里对学习的知识进行记录,希望可以持续下去介绍强化学习的相关知识。本人也是刚开始接触强化学习,所以有什么不对的地方,欢迎大家指正。   概念  ...

    马尔科夫决策过程(MDP)

      近期在接触强化学习的项目,在这里对学习的知识进行记录,希望可以持续下去介绍强化学习的相关知识。本人也是刚开始接触强化学习,所以有什么不对的地方,欢迎大家指正。

     

    概念

      马尔科夫决策过程是基于马尔科夫论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性的动态规划相结合的产物,故又称马尔科夫型随机动态规划,属于运筹学中数学规划的一个分支。

      马尔科夫决策过程具有马尔可夫性(无后效性,及系统的下个状态只与当前状态信息有关,与更早的状态无关),但不同的是MDP考虑了动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。

    马尔科夫决策要求:

    1. 能够检测到理想的状态。

    2. 可以多次尝试(死了重来、输了重来等)。

    3. 系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。在决策过程中还和当前采取的动作有关。

    定义

    马尔科夫决策过程可以用一个五元组(S, A, P(:,:), R(:,:), γ)来描述,其中:

    •  S是一组有限的状态集(state);
    •  A是一组有限的动作集(action);
    •  Pa(s,s')=Pr(St+1=s'|St=s,at=a)表示在时间 t 状态 s 采取动作 a 可以在时间 t+1 转换到状态 s' 的概率;
    •  Ra(s,s')表示通过动作 a ,状态 s 转换到 s' 所带来的及时收益或回报(reword);
    •  γ 是折扣因子,表示未来收益和当前收益之前的差别,意味着当下的 reward 比未来反馈的 reward 更重要。

        马尔可夫决策过程并不要求 S 或者 A 是有限的,但基础的算法中假设它们是有限的。

     

        通俗的来讲:

         明天是打游戏还是学习?如果打游戏会挨打,学习会奖励小红花。挨了打会难受,得了小红花会高兴。

        在这个过程中,你相当于一个agent,你的action有两个,打游戏或学习,每个action的及时回报(reword)分别是挨打和小红花,选择打游戏之后你的状态改变为难受,选择学习后你的状态改变为高兴。那么长期的奖励就是选择学习则能考上大学,打游戏就考不上大学(这其实是一个持续的过程,暂时这么理解),你要做的就是让自己获得的奖励最大化(为了考上大学,所以就得少打游戏多学习~)。

         MDP的动态过程如下:智能体(agent)初始状态S0,然后从A中挑选一个动作a0执行,agent按照概率Pa 随机转移到下一个状态S1,然后再执行动作a1,就转移到了S2,以此类推,可以用下图表示状态转移过程:

     

     

    描述

        那么,如何让自己的奖励最大化呢?在这个问题中就是如何让自己尽可能考上大学,就需要做一个决策(policy),这个决策的目的就是能够让agent尽可能的得到最大化奖励。

        这就引出来,MDP的关键目的就在于寻找一个最好的策略(一般用π表示):对每个状态s,选择一个动作a,组成π中的一个<s,a>。这个策略可以累积化最大收益R(T),这里T代表了整个过程持续的时间。

      

    你可能会想这不是按照时间序列一步步来的吗?怎么就选择最优的策略呢?

         其实马尔科夫决策过程就是一个与时间序列有关的过程,除非到达最终状态停止(比如考上大学,或赢了一盘棋),不然每一次动作的执行,都会作为一个新的样本加入到训练数据中,为当前状态选择最优策略,且每一次动作的执行不能更改(落子无悔)。到达终止状态后,就再重新开始呗,不管输赢,就当积累经验了。 

    一般情况下都会根据一定数量的数据集先进行训练,而不是直接拿过来就开始选择的。比如AlphaGo,都是提前和大师以及和自己训练很多次下棋之后,摸清了规律,发现赢下一盘棋的最优的策略,才能在与世界围棋冠军下的时候不害怕,每一步都根据当前状态找最好的落子。

     

    总结

    马尔科夫决策过程就是一个状态-动作的选择的过程。

    这一篇文章主要讲了马尔科夫决策过程具体的内容,并没有给出怎么计算,下一次我们将讨论策略到底是什么、如何确定策略的好与坏以及如何确定最优策略,我们将会涉及到折扣因子γ

     

    以上就是本篇内容,第一次写篇幅较小,望各位道友多多指教。

    展开全文
  • 应用值迭代来学习马尔可夫决策过程 (MDP) 的策略——网格世界中的机器人。 世界是自由空间 (0) 或障碍 (1)。 机器人每转一圈都可以向 8 个方向移动,或保持原地不动。 奖励函数给一个自由空间、目标位置、高奖励。 ...
  • MDP决策函数

    2019-02-19 10:12:14
    马尔科夫决策过程中可以采用策略迭代方式得到最优策略,本算法程序用matlab语言编程实现,可以调用该程序得到最优策略
  • 低排名MDP 该目录包含Hao Yi Ong题为“通过低秩模型的值函数逼近”的论文的补充代码。 看到的论文。 在这里,您将找到以下的实现: 经典山地车和倒立摆MDP以及通过值迭代获得的解决方案 使用外部MATLAB库对鲁棒...
  • mdp(马尔科夫过程)的MATLAB代码,马尔可夫决策过程(Markov decision processes)matlab程序,m文件,从工具箱中调用,有英文说明。本人亲测,程序可用,结果正确。
  • 在类似界面的健身房中实现的简单MDP可以访问过渡动态。 跳转至主题:| | | | 安装 cd进入此目录,然后运行: pip install -e . 用法 emdp可以模拟具有或不具有吸收状态的任意MDP。 连锁世界 这些可以在emdp....
  • MDPtoolbox(MDP工具箱)

    2021-02-03 11:01:44
    MATLAB的MDP工具箱(马尔可夫决策过程工具箱),内含MATLAB代码以及代码说明。(注:本资源是截止至2021年2月的最新工具箱)。其中代码说明在documentation文件夹下,文件夹内为网页链接,双击打开网页链接后即为...
  • 分解式MDP的高效近似线性编程
  • cron_mdp:cron像MDP的作业调度程序(ZeroMQ Majordomo协议)
  • MDP-回收视图:WalmartStore
  • 内存:mdp内存-源码

    2021-02-15 09:21:07
    记忆 mdp内存
  • CZ3004-edit-v1
  • 使用MDP模型进行和改进兴趣预测
  • 基于MDP自适应决策的库存控制_刘虹.pdf 有需要的可以下载看看
  • MATLAB工具箱大全- 马尔可夫决策过程 (MDP) 工具箱MDPtoolbox

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,919
精华内容 3,967
关键字:

mdp