精华内容
下载资源
问答
  • 动作价值函数
    千次阅读
    2019-04-15 10:38:08

    在价值函数的基础之上,动作价值函数是在状态S下选择动作a然后遵循这个策略的值,下图左边的定义是价值函数,右边是动作价值函数。
    在这里插入图片描述
    在动作价值函数的基础上,原来每个格子的值需要考虑动作的行为(上下左右),这样格子的值被分为4块
    在这里插入图片描述

    下图是计算动作价值函数的过程,从第一列第二行格子方开始沿着红色路线采取动作最终达到终点,可得到在这个格子下采取向上动作的value为1

    更多相关内容
  • 3.2 动作价值函数

    千次阅读 2021-12-29 10:10:02
    除此之外我们还可以定义动作价值函数Q(s,a)Q(s, a)Q(s,a),即在状态s执行动作a所获得的总奖励,Q(s,a)Q(s, a)Q(s,a)可以通过V(s)V(s)V(s)来定义,同时也是Q-learning的基础。我们的主要目标是获得每对state和action...

    之前介绍的Bellman方程实际上是状态价值函数, V ( s ) V(s) V(s)。除此之外我们还可以定义动作价值函数 Q ( s , a ) Q(s, a) Q(s,a),即在状态s执行动作a所获得的总奖励, Q ( s , a ) Q(s, a) Q(s,a)可以通过 V ( s ) V(s) V(s)来定义,同时也是Q-learning的基础。我们的主要目标是获得每对state和action的Q值。
    Q ( s , a ) = E s ′ ∼ S [ r ( s , a ) + γ V ( s ′ ) ] = ∑ s ′ ∈ S p a , s → s ′ ( r ( s , a ) + γ V ( s ′ ) ) Q\left( s,a \right) =\mathbb{E}_{s'\sim S}\left[ r\left( s,a \right) +\gamma V\left( s' \right) \right] =\sum_{s'\in S}{p_{a,s\rightarrow s'}\left( r\left( s,a \right) +\gamma V\left( s' \right) \right)} Q(s,a)=EsS[r(s,a)+γV(s)]=sSpa,ss(r(s,a)+γV(s))
    根据状态价值函数的定义我们可以用 Q ( s , a ) Q(s, a) Q(s,a)表示 V ( s ) V(s) V(s)
    V ( s ) = max ⁡ a ∈ A Q ( s , a ) V(s)=\max_{a\in A}Q(s,a) V(s)=aAmaxQ(s,a)
    同时我们也可得到 Q ( s , a ) Q(s, a) Q(s,a)的递推式,在DQN中有用
    Q ( s , a ) = r ( s , a ) + γ max ⁡ a ′ ∈ A Q ( s ′ , a ′ ) Q(s,a)=r(s,a)+\gamma\max_{a'\in A}Q(s',a') Q(s,a)=r(s,a)+γaAmaxQ(s,a)
    ( s , a ) (s,a) (s,a) ( s ′ , a ′ ) (s',a') (s,a)从形式上来看是一样的,但表达的含义不同,前者表示的是已经发生的事情,即在状态 s s s采取动作 a a a,而后者表示的是还未发生的事情,即,为了到状态 s ′ s' s而采取动作 a ′ a' a,二者在具体实现上也有较大区别。

    下面举一个类似于FrozenLake的网格地图例子。初始状态 s 0 s_0 s0,上下左右分别为四个目标状态 s 1 , s 2 , s 3 , s 4 s_1,s_2,s_3,s_4 s1,s2,s3,s4,并带有不同的奖励。
    在这里插入图片描述
    这个环境是非确定性环境,即作出一个动作后有33%的概率动作成功执行,33%的概率向指定动作左边的动作移动,33%的概率向指定动作右边的动作移动。为了简单起见,取折扣因子为 γ = 1 \gamma=1 γ=1
    在这里插入图片描述
    先计算动作价值。假设末状态 s 1 , s 2 , s 3 , s 4 s_1,s_2,s_3,s_4 s1,s2,s3,s4没有后续状态,所以这些状态的Q值都是0。因此 V 1 = 1 , V 2 = 2 , V 3 = 3 , V 4 = 4 V_1 = 1, V_2 = 2, V_3 = 3, V_4 = 4 V1=1,V2=2,V3=3,V4=4
    Q ( s 0 , 向 上 ) = 0.33 ⋅ V 1 + 0.33 ⋅ V 2 + 0.33 ⋅ V 4 = 0.33 ⋅ 1 + 0.33 ⋅ 2 + 0.33 ⋅ 4 = 2.31 Q(s_0,向上)=0.33\cdot V_1+0.33\cdot V_2+0.33 \cdot V_4 = 0.33\cdot 1+0.33 \cdot 2 + 0.33 \cdot 4=2.31 Q(s0,)=0.33V1+0.33V2+0.33V4=0.331+0.332+0.334=2.31
    Q ( s 0 , 向 左 ) = 0.33 ⋅ V 1 + 0.33 ⋅ V 2 + 0.33 ⋅ V 3 = 0.33 ⋅ 1 + 0.33 ⋅ 2 + 0.33 ⋅ 3 = 1.98 Q(s_0,向左)=0.33\cdot V_1+0.33\cdot V_2+0.33 \cdot V_3 = 0.33\cdot 1+0.33 \cdot 2 + 0.33 \cdot 3=1.98 Q(s0,)=0.33V1+0.33V2+0.33V3=0.331+0.332+0.333=1.98
    Q ( s 0 , 向 右 ) = 0.33 ⋅ V 4 + 0.33 ⋅ V 1 + 0.33 ⋅ V 3 = 0.33 ⋅ 4 + 0.33 ⋅ 1 + 0.33 ⋅ 3 = 2.64 Q(s_0,向右)=0.33\cdot V_4+0.33\cdot V_1+0.33 \cdot V_3 = 0.33\cdot 4+0.33 \cdot 1 + 0.33 \cdot 3=2.64 Q(s0,)=0.33V4+0.33V1+0.33V3=0.334+0.331+0.333=2.64
    Q ( s 0 , 向 下 ) = 0.33 ⋅ V 3 + 0.33 ⋅ V 2 + 0.33 ⋅ V 4 = 0.33 ⋅ 3 + 0.33 ⋅ 2 + 0.33 ⋅ 4 = 2.97 Q(s_0,向下)=0.33\cdot V_3+0.33\cdot V_2+0.33 \cdot V_4 = 0.33\cdot 3+0.33 \cdot 2 + 0.33 \cdot 4=2.97 Q(s0,)=0.33V3+0.33V2+0.33V4=0.333+0.332+0.334=2.97
    状态 s 0 s_0 s0的价值是这些动作价值的最大值,即 2.97 2.97 2.97

    Q值非常实用,对于agent来说,基于Q做出行动决定要比基于V简单得多。在Q的情况下,根据状态选择行动,agent只需要计算当前状态下所有可用动作的Q值,并选择Q值最大的动作。如果使用V值做同样的操作,agent不仅需要知道价值,还需要知道转移的概率,而我们很少有这方面的先验知识,agent需要估计每个动作和状态对的转移概率。说是说的简单,我们仍然缺少一个重要的东西:计算V和Q的一般方法。

    展开全文
  • 一个小例子理解强化学习中价值函数和动作价值函数两个重要概念

    考虑这样的一个选路径问题

     从s点出发,有0.6的概率到a点,0.4的概率到b点,sa路径的回报是1,sb路径的回报是2,后面同理,箭头下面的选择这条路的概率,上面的数字是这条路的回报。目的地是g点。

    从s到g一共有3中方式,这三种方式,即在策略\pi下(策略指的就是不同动作的概率,强化学习过程就是让能获得更大奖励的动作的概率增大)的三个轨迹,这三个轨迹的回报分别是6、10、6。

    轨迹的回报期望即0.6*6+0.4*0.3*10+0.4*0.7*6=6.48(图片里漏了个6),即为状态s的价值函数v(s)。

    同理v(a)=5、v(b)=5.2

    状态价值函数的表达式为

    状态s可以采取两个动作,动作a1往a走,动作a2往b走,

    动作价值函数Q(s, a1) = 选择该动作得到的回报 + 该动作到达的下一个状态的状态价值函数

    即Q(s, a1)=1+v(a)=6    Q(s, a2)=2+v(b)=7.2

    s的价值函数与a1、a2两个动作的动作价值函数的关系如下:
    状态价值函数 = 动作1概率 * 动作1的动作价值函数 + 动作2概率 * 动作2的动作价值函数 + 动作i概率 * 动作i的动作价值函数

    v(s) = 0.6 * 6 + 0.4 * 7.2 = 6.48

    展开全文
  • @[TOC](Q-learning (off-policy): 用来训练最优动作价值函数) 本笔记整理自 (作者: Shusen Wang): https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333....

    @[TOC](Q-learning (off-policy): 用来训练最优动作价值函数)

    本笔记整理自 (作者: Shusen Wang):
    https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0

    在这里插入图片描述

    • 价值网络 Q π ( s , a ; θ ) Q_{\pi}(s, a; \theta) Qπ(s,a;θ)是动作价值函数 Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a)的近似,我们用Saras更新价值网络。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    • TD target 部分基于真实观测,比左边纯粹猜测更加靠谱,因此我们鼓励猜测向TD target 靠近

    在这里插入图片描述
    在这里插入图片描述

    Q-learning: DQN version

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 强化学习基础概念03——价值函数

    千次阅读 2022-01-28 19:40:47
    action value function,动作价值函数Qπ。 问题一: 问题二: 问题三: 问题四:(optimal action value function最优动作价值函数Q*) 问题五: Statevaluefunction状态价值函数,Vπ。 问题六: 问题七:...
  • 价值函数的引入,贝尔曼期望方程的推导
  • [梳理]两种价值函数

    千次阅读 2021-04-10 15:22:52
    利用状态价值函数和(状态-动作)价值函数之间的关系,可以得到最优价值函数的公式 v ∗ ( s ) = m a x a q ∗ ( s , a ) q ∗ ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a v ∗ ( s ′ ) v_*(s)=\mathop{max}\...
  • 强化学习的状态值函数与状态动作函数

    万次阅读 多人点赞 2019-08-23 20:16:22
    在本文中,我们将学习贝尔曼方程和价值函数。 回报和返还(return) 正如前面所讨论的,强化学习agent如何最大化累积未来的回报。用于描述累积未来回报的词是返还,通常用R表示。我们还使用一个下标t来表示某个时间...
  • 目录策略Police价值方程Value Functions状态价值函数State-Value Function行为价值函数Action-Value Function 策略Police 策略是将给定state映射为从该state中选择每个可能action的概率的函数,用π\piπ表示。如果...
  • 最优价值函数 最优状态价值函数v∗(s)v_*(s)v∗​(s) optimal state-value function是所有状态价值函数中的最大值 最优行动价值函数q∗(s,a)q_*(s,a)q∗​(s,a) optimal action-value function是所有行动价值函数...
  • 【RL系列】马尔可夫决策过程中状态价值函数的一般形式 【RL系列】马尔可夫决策过程与动态编程 状态价值函数,顾名思义,就是用于状态价值评价(SVE)的。典型的问题有“格子世界(GridWorld)”游戏(什么是...
  • 当智能体采用某策略时,无论何时,输入固定的状态state都会得到接下来需要执行的固定动作a,经过一段时间的执行与和环境的交互后,智能体在该策略下形成的累积奖励期望被称为价值v。策略可以分为确定性策略与随机性...
  • 1State-action Value Function(Q-function) ...状态-动作价值函数【State-action Value Function】的输入是一个状态、动作对。它的意思是说,在某一个状态采取某一个动作,假设我们都使用演员 π,得到的累积奖...
  • RL(三)MDP与贝尔曼方程

    千次阅读 2019-08-18 19:01:54
    即s是前一个状态,s’是后一个状态,前一个状态的动作价值函数包含下一个状态的状态价值函数。 (2)状态价值函数:即在状态s时采取所有的动作 a i a_i a i ​ 后带来的价值之和。函数表示为: 也就是说,状态...
  • 强化学习基础06——小结

    千次阅读 2022-01-28 19:55:35
    目录 1.术语总结 2.强化学习的目的 ...可以认为State就是当前屏幕上显示的画面,游戏玩家会根据这个画面进行操作,如果状态、动作、奖励等变量被观测到,就用小写字母表示,如果没观测到他们就是.
  • 贝尔曼方程推导

    2021-04-10 10:02:43
    动作价值函数与状态价值函数的关系: 动作价值函数与马尔可夫的动态特性的关系: 因此贝尔曼方程推导为: 或(原理一样,只不过我当时没看明白书上的推导,所以按照自己的理解根据回溯图手写了一下,其实手写和书上...
  • 深度强化学习-Dueling DQN算法原理与代码

    千次阅读 多人点赞 2021-12-11 22:26:50
    最优动作价值函数(Optimal action-value function): 动作价值函数依赖于策略,对关于求最大值,消除掉,得到,只依赖于状态和动作,不依赖于策略。用于评价在状态下做动作的好坏。 最优状态价值函数(Optimal state_...
  • 其中Actor使用策略函数,负责生成动作(Action)并和环境交互,而Critic使用价值函数,负责评估Actor的表现,并指导Actor下一阶段的动作。在Policy-Gradient中,策略函数就是Actor,但是那里没有Critic,当时使用了...
  • (1)智能体(agent):获得观察O_t,获得奖励R_t,执行动作A_t; (2)环境:获得行动A_t,给出观察O_{t+1},给出奖励R_{t+1}; 以上这种交互的一个完整的过程,我们可以称之为历史(History),这是 ...
  • 强化学习基础理论

    2020-12-07 14:20:04
    知识结构 定义 强化学习(Reinforcement learning),...与有监督学习不同,强化学习的动作并没有明确的标注信息,只有来自环境的反馈的奖励信息,它通常具有一定的滞后性,用于反映动作的“好与坏”。 参考资料: ...
  • 强化学习 6 ——价值函数逼近 (VFA)

    千次阅读 2020-08-10 14:09:39
    但是在状态和可选动作非常多的问题中,这张Q表格就变得异常巨大,甚至超出内存,而且查找效率极其低下,从而限制了时序差分的应用场景。近些年来,随着神经网络的兴起,基于深度学习的强化学习称为了主流,也就是...
  • 文章目录强化学习——概述组成策略:行为函数价值函数:状态和行为的得分模型:整个世界的表达 强化学习——概述 组成 策略:行为函数 ​ 分为两种: ​ 概率型策略:从策略π\piπ中,按照概率π(a∣s)=P(at=a∣st...
  • 这一篇关注于价值函数的近似表示和Deep Q-Learning算法。  DeepQ-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲。 1. 为何需要价值函数的近似表示  在之前讲到了强化学习求解方法,无论是...
  • 【引言】上一篇文章利用马尔可夫决策过程这一数学工具对强化学习进行了形式化... 价值函数1.1 状态价值函数1.2 动作价值和函数2. 贝尔曼方程2.1 基于状态价值函数的贝尔曼方程2.2 用vπ(s)v_\pi(s)vπ​(s)表示qπ(s.
  • 这一篇关注于价值函数的近似表示和Deep Q-Learning算法。 Deep Q-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲。 文章目录1. 为何需要价值函数的近似表示2. 价值函数的近似表示方法3. Deep Q-...
  • 0.强化学习概述+policy based+value based

    千次阅读 多人点赞 2020-07-11 15:03:57
    Gt=∑T=t∞rtG_t=\sum_{T=t}^{\infty}{r_t}Gt​=T=t∑∞​rt​ Qπ(s,a)Q_\pi (s,a)Qπ​(s,a):状态-动作函数(state-action value function),有时也简称动作函数。即在t时刻,状态s下,采取动作a,使用策略...
  • CMU 10703 |Lecture 2 Markov Decision Processes

    千次阅读 2017-02-08 14:54:14
    本笔记转载自微信公众号 机器人学家 ,根据其...价值函数(Value function) 最优价值函数(Optimal value function) 马尔可夫决策过程MDPMDP的特征 能够检测成功 允许多次尝试并失败 MDP详解定义 MDP是一个五元组,A,P,R,
  • 策略评估(Policy Evaluation),简单来说,就是针对某个既定的策略求其状态值函数动作函数。求得了状态值函数动作函数,事实上就很容易进行不同候补策略之间的性能对比并进而求得最优策略。假定MDP的动力学...
  • 经典的基于价值的强化学习方法尝试使用期望值对累积回报进行建模,表示为价值函数 V(x) 或动作价值函数 Q(x,a)。而在这个建模过程中,完整的分布信息很大程度上被丢失了,值分布强化学习就是想要解决这个问题,对...
  • 本次课程主要内容: ...什么叫MDP已知:Agent 已知奖励函数 R 和状态转移矩阵 P,这也是我们进行策略迭代policy iteration和值迭代value iteration寻找最佳策略的基本要求 策略迭代包含:policy evaluation + poli

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 33,755
精华内容 13,502
关键字:

动作价值函数

友情链接: VCFEncoding.rar