精华内容
下载资源
问答
  • 多智能体强化学习

    2020-11-18 21:15:03
    多智能体强化学习 学习链接 内容摘要 在即将来临的物联网时代,群体决策智能将称为一个研究重点。 传统上,博弈论研究的多个智能体的理性决策问题。它定义了动作、收益等博弈基本概念,侧重分析理性智能体的博弈结果...

    多智能体强化学习

    学习链接

    内容摘要

    在即将来临的物联网时代,群体决策智能将称为一个研究重点。
    传统上,博弈论研究的多个智能体的理性决策问题。它定义了动作、收益等博弈基本概念,侧重分析理性智能体的博弈结果,即均衡。然而,在很多现实问题中,博弈的状态空间和动作空间都很大,智能体的绝对理性是很难实现的,智能体往往处在不断的策略学习过程中。因此,近年来兴起的多智能体强化学习主要研究智能体策略的同步学习和演化问题,它在无人机群控制、智能交通系统、智能工业机器人等场景中具有很大的应用前景。

    人工智能的发展趋势

    智能感知----->智能决策------>智能群体决策
    群体智能决策问题场景:游戏、工业场景(无人机群、交通系统、物流配送)、社会场景(区域经济预测)

    博弈论

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    多智能体强化学习

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    开放性问题

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    研究展望

    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 多智能体强化学习背景知识为什么提出多智能体DDPG(MADDPG)?学习MADDPG算法的先验知识?Q-LearningDQNSPGDPGDDPG由DDPG算法到MADDPG算法?MADDPG算法的巧妙之处? 为什么提出多智能体DDPG(MADDPG)? 多智能体...

    在这里插入图片描述
    我,菜拐拐,今天又来了!废话少说,上重点。准备好课堂笔记┗|`O′|┛ 嗷~~

    为什么提出多智能体DDPG(MADDPG)

    多智能体环境下传统算法的短板

    1. 传统的Q学习算法不适用:随着训练的进行,每个智能体的策略都在发生变化。从任何一个单独的智能体的角度来看,环境都变得不稳定(其他智能体的动作带来环境变化),这带来了学习稳定性方面的挑战。由此,不适用于传统的Q学习算法。
    2. 经典的DQN不大适用:如果不知道其他智能体的状态,那么不同情况下自身的状态转移也会不同,这阻止了以往经验重放的直接使用。还有一个原因,请等后文分解。
    3. 策略梯度(PG)算法不适用:PG算法会由于智能体数量变多使固有的方差大的问题加剧。

    学习MADDPG算法的先验知识

    SPG与DPG简述

    • SPG
      基于策略的SPG (Stochastic Policy Gradient):(其更加适合在连续的或者较大的动作下运行,这不同于基于值的Q学习或DQN方法)该算法是直接优化累积回报来获得使回报最大的策略。目标公式如下:

      • 参数化的策略被假定为:πθ(as){\pi _\theta }(a|s)
      • 累积回报为:J(θ)=Esρπ,aπθ[t=0γtrt]J(\theta ) = {E_{s \sim {\rho ^\pi },a \sim {\pi _\theta }}}\left[ {\sum\limits_{t = 0}^\infty {{\gamma ^t}{r_t}} } \right]
      • 为使累积回报最大,可以使用梯度上升方法来寻找局部最大值。Then,对策略参数求导得到策略更新梯度:θJ(θ)=Esρπ,aπθ[θlogπθ(as)Qπ(s,a)]{\nabla _\theta }J(\theta ) = {E_{s \sim {\rho ^\pi },a \sim {\pi _\theta }}}\left[ {{\nabla _\theta }\log {\pi _\theta }(a|s){Q^\pi }(s,a)} \right],可见SPG需要同时考虑状态概率分布以及动作概率分布。如果要进行学习训练,就需要大量的样本来覆盖整个二维的状态动作空间。
      • PG的思想就是沿着目标函数变大的方向调整策略的参数。
      • More importantly,所提的策略是从state到action概率分布的映射。
    • DPG

      • DPG是SPG的概率分布方差趋近于0的极限状态。也就是说,DPG的策略是从state到action的一个映射S->A。
      • 累积回报为:J(μθ)=Esρμ[r(s,μθ(s))]J({\mu _\theta }) = {E_{s \sim {\rho ^\mu }}}\left[ {r(s,{\mu _\theta }(s))} \right],所提到的μθ\mu _\theta用于对Qπ(s,a){Q^\pi }(s,a)取全局最优。
      • 利用链式法则对其求梯度,可得到θJ(μθ)=Esρπ[θμθ(s)aQμ(s,a)a=μθ(s)]{\nabla _\theta }J({\mu _\theta }) = {E_{s\sim{\rho ^\pi }}}\left[ {{\nabla _\theta }{\mu _\theta }(s){\nabla _a}{Q^\mu }(s,a){|_{a = {\mu _\theta }(s)}}} \right]。由此可见,DPG仅需要考虑状态概率分布。
      • 综上所述,同SPG相比,DPG的优点是所需的样本较少,得出的策略更加明确。
      • 拐拐在这里只是进行了简要的描述。更详细的可以点击博文中的链接来了解。

    Q-Learning简述

    在这里插入图片描述

    • 如图所示,算法的伪代码被给定。
    • Q-Learning是强化学习算法中基于值的算法,Q 即为 Q(s,a),就是在某一时刻的 s 状态下,采取动作 a 能够获得收益的期望。环境会根据agent的动作反馈相应的回报 r。因此所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。
    • Q-table
    Q-Table a1 a2
    s1 q(s1,a1) q(s1,a2)
    s2 q(s2,a1) q(s2,a2)
    s3 q(s3,a1) q(s3,a2)
    • 由此可见,表格容纳的状态及动作的数量是有限的。由此,该算法仅限应用于有限离散状态,有限离散动作的场景。

    由Q-Learning到DQN

    在这里插入图片描述

    • 如图所示为DQN算法伪代码(截图来自深入浅出)。

    • 神奇之处表现在这里:由于Q-Table不能适用于高维状态。由此,在Q-Learning算法的基础上,DQN算法被提出。DQN把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作。又因为,深度神经网络可以自动提取复杂特征。So,面对高维且连续的状态使用深度神经网络最合适不过了。如图所示:在这里插入图片描述

    • 技巧:基于Q-Learning构造Loss函数;通过经验池解决相关性及非静态分布问题;使用TargetNet解决稳定性问题。但是,还是无法解决连续动作的问题。详细可见DQN算法详述。

    由DQN到DDPG

    在这里插入图片描述

    • 如图所示,DDPG的伪代码被展示。DDPG(deep deterministic policy gradient)是解决连续控制型问题的一个算法。该算法很好的解决了DQN算法未解决连续空间的问题,接下来将详细解释下基于DQN算法的DDPG算法。在此感谢大佬

    • 首先,看下DQN不能解决连续动作的根源:伪代码[12]取最大值处(max函数只能处理离散型的)。

    • 上面说过,DQN算法用神经网络解决了Q-Learning不能解决的连续状态空间问题。同理,DDPG算法可以理解为用神经网络解决DQN不能解决的连续(动作)控制型问题就好了。就是说,用神经网络来代替max找action的功能。换句话说,期待神经网络的输入是状态,返回值为动作action,该取值可以让Q最大。由此,非常明显了,这就是DDPG中Actor的功能。

    • 接下来,借用大佬的图进行描述。在这里插入图片描述

    • 如图所示,DQN的深度网络,可以描述为用一张布去覆盖Q-Learning中的Q-table。Then,这也是DDPG中Critic的功能。在这里插入图片描述

    • 如图所示,把某个state输入到DDPG的Actor中的时候,相当于在这块布上做沿着state所在的位置剪开,这个时候大家会看到这个边缘是一条曲线。图中的红线是在某个状态下,选择某个动作值的时候,能获得的Q值。Actor的任务就是在寻找这个曲线的最高点,然后返回能获得这个最高点,也是最大Q值的动作。在这里插入图片描述

    • 下面给出Actor的功能:输出一个动作A,这个动作A输入到Crititc后,能够获得最大的Q值。注意:更新方式为梯度上升。

    • 下面给出critic的功能:预估Q。

    • 需要4个网络。Actor, Critic, Actor_target, Cirtic_target。

    由DDPG算法到MADDPG算法

    在这里插入图片描述

    • 整体如图所示。由DDPG到MADDPG,会容易一下,来瞅瞅。
    • 每个智能体的训练同单个DDPG的训练过程类似,不同的地方体现在训练的时候 Critic 的输入上。在单个智能体的DDPG算法中, Critic 的输入是一个 state-action 对信息。但是在 MADDPG 上,每个智能体的 Critic 输入除了自身 state-action 信息外,还有额外的信息,比如其他智能体的动作和状态。
    • 详细见下一个博文。

    MADDPG算法的巧妙之处

    • 采用集中式培训和分散式执行的框架:在训练时,使用额外的信息来输入各个 Critic ,在应用时只利用局部信息就能给出最优动作。注意,这里给出了Q学习不适用的另一个原因:Q函数通常在训练和测试时不能包含不同的信息。
    • 不仅适用于合作,而且适用于竞争性或合作竞争混合。
    • 不需要知道环境的动力学模型以及特殊的通信需求。

    在座的各位,未完待续啊。最近太放肆了,坚持更啊啊啊啊!这篇博文简单总结了RL算法的演进,来简单引出MADDPG算法!
    拐拐🐖愿大家天天顺利。Happy!!!
    在这里插入图片描述

    展开全文
  • 本篇美文将把单智能体、多智能体强化学习基本概念做个初步介绍。主要围绕:什么是单智能体强化学习?单智能体强化学习中基本算法分类?为啥提出多智能体强化学习多智能体强化学习基本概念?来进行介绍,大佬请自动...

    自拍
    如图所示,瞧这美美的发际线,是本人,错不了。本人,打酱油的栋栋拐,立个flag,坚持更随笔。在座的各位,Hello啊。

    什么是单智能体强化学习?

    在这里插入图片描述

    1、如图所示,单智能体强化学习的设置由两部分组成:一个智能体和环境。
    2、模型描述:马尔可夫决策过程,即<状态集S、动作集A、奖励R、状态转移概率P、奖励衰减因子、探索率、策略>,最大的特性为下一时刻的状态和奖励,只与前一时刻的状态与动作有关,与更早之前的状态与行为无关,详细分析见基于马尔可夫过程的强化学习入门。
    3、强化学习的原理:强化学习是让智能体以试错的方式来进行学习。智能体某个行为策略导致了好的奖赏,智能体产生这个行为策略的形式就会加强。智能体需要学习的就是:在一个环境中如何选择动作来获得最大奖励。其中,奖励值与智能体在环境中的任务息息相关。另外,智能体需要的主要学习任务是行为策略。其中,行为策略的学习目标是最优策略,也就是使用这样的策略,让智能体在特定环境中获得最大奖励值,从而实现任务目标。
    4、强化学习的目标:在每个状态下发现最优策略来使期望的折扣奖励最大化。
    5、强化学习可以解决的问题:可以描述为智能体在于环境交互过程中通过学习策略来达到回报最大化或实现特定目标的问题。目前,被广泛应用在各个领域。
    6、所述的动作可以简单描述为:连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、DDPG、A3C、PPO算法做决策)和离散动作(围棋、贪吃蛇游戏,Alpha Go,可通过算法Q-Learning、DQN、A3C及PPO算法做决策)。

    单智能体强化学习中基本算法分类?

    强化学习中有很多算法来寻找最优策略。另外,算法有很多分类。
    1、按照有无模型分:有模型(事先知道转移概率P,并且作为输入,算法为动态规划)、无模型(试错,事先不知道转移概率P,算法为:蒙特卡罗算法、Q-Learning、Sarsa、Policy Gradients);
    2、基于策略(输出下一步所采取的各种动作的概率,根据概率来采取动作:Policy Gradients)和基于价值(输出所有动作的价值,根据最高价值来选动作,不适用于连续动作:Q-Learning,Sarsa等)(由于基于策略和价值的算法都各有优缺点,由此集合在一起就有了Actor-Critic算法,其中Actor可以基于概率做出动作,而Critic会对做出的动作做出动作的价值,这就在前述的policy gradients上加速了学习过程);
    3、单步更新(游戏中每一步都在更新,可以边玩边学习:QLearning、Sarsa、升级版的policy
    gradients)和回合更新(游戏开始后,等游戏结束,再总结所有转折点,在更新行为准则:基础版的policy gradients、Monte-carlo learning);
    4、在线学习(必须我本人在场,边玩边学:一般只有一个策略,最常见的是e-贪婪,即SARSA算法)、离线学习(从过往的经验里,但是过往的经验没必要是自己的:一般有两个策略,常见的是e-贪婪来选择新的动作,另一个贪婪法更新价值函数,即,常见的Q-Learning)。
    5、千万注意,一定要明确不同的强化学习算法的优缺点以便于求解不同类型的问题。比如:Q-Learning适合解决低纬度且离散动作及状态空间,DQN适合解决低纬度动作和高纬度状态空间、DDPG适合求解高纬度(连续)动作空间及状态空间。
    6、详细分类,见后文附带的链接。

    为啥提出多智能体强化学习?

    *自然是传统的集中式单智能体强化学习某些场景下不适用奥。废话不多说,讲道理! *
    在这里插入图片描述
    1–传统的多智能体RL算法中,每个智能体走势在不断学习且改进其策略。由此,从每个智能体的角度来看,环境是不稳定的,不利于收敛。而传统的单智能体强化学习,需要稳定的环境
    2–由于环境的不稳定,无法通过仅改变智能体本身的策略来适应动态不稳定的环境。
    3–由于环境的不稳定,无法直接使用经验回放等DQN技巧。
    4–因为大量智能体的交互会导致不可避免的反馈开销。更重要的是,生成的马尔可夫过程通常很难处理。用于MDP的数值求解技术遭受所谓的“维数诅咒”,这使它们在计算上不可行。
    所以,多智能体强化学习被提出。

    多智能体强化学习基本概念?

    在这里插入图片描述
    1-如图所示,多智能体系统中至少有两个智能体。另外,智能体之间存在着一定的关系,如合作关系,竞争关系,或者同时存在竞争与合作的关系。每个智能体最终所获得的回报不仅仅与自身的动作有关系,还跟对方的动作有关系。
    2-多智能体强化学习的描述:马尔可夫博弈。也就是说,状态转换符合马尔可夫过程,关系符合博弈。可以表示为<N,S,A,Ri,T>,其中,N表示的是智能体的集合,S表示的是环境的状态空间、Ai表示的是智能体i的动作空间,A=A1A2…An表示为联合动作,R表示智能体i的奖励,T为状态转换函数。
    3-一般来说,在马尔可夫博弈中,每个智能体的目标为找到最优策略来使它在任意状态下获得最大的长期累积奖励。

    多智能体强化学习基本现状?

    1-多智能体强化学习研究成果较少,并且多智能体强化学习没有系统的网络课程。另外,多智能体强化学习算法缺少系统的开源代码。再就是多智能体强化学习所涉及到的理论知识更多,如马尔科夫决策过程,博弈论等。
    2-本人学习代码会参考Open AI提供的开源代码。强化学习对于代码能力要求好高,拐拐灰常菜,呜呜呜呜呜呜呜,再不学就失业啦。
    3-UCL的汪军老师结合MFG与MARL,提出了MFMARL对于解决部分超密集问题有效。在这里有详细证明嗷。拐拐好笨丫。

    参考

    多智能体现状、基本定义
    强化学习算法详细分类
    在座的各位,未完待续啊。拐拐🐖愿大家开学愉快。Happy!!!
    在这里插入图片描述

    展开全文
  • 多智能体强化学习(三)单智能体强化学习1. 问题制定:马尔可夫决策过程2. 奖励最大化的理由3. 解决马尔可夫决策过程3.1 基于价值的方法3.2 基于策略的方法 通过试验和错误,一个RL智能体试图找到最佳的策略,以最大...

    通过试验和错误,一个RL智能体试图找到最佳的策略,以最大化其长期回报。该过程由马尔可夫决策过程表示。

    1. 问题制定:马尔可夫决策过程

    定义1(马尔可夫决策过程)一个MDP可以用一个由关键元素<SAPRγ><\mathbb{S}、\mathbb{A}、P、R、γ>组成的元组来描述。

    • S:\mathbb{S}: 一组环境状态。
    • A:\mathbb{A}: 智能体可能执行的操作的集合。
    • PS×A(S):\mathbb{P}:\mathbb{S}× \mathbb{A}→∆(\mathbb{S}):对于每个时间步骤t∈N,给定代理的动作为∈A,从状态sSs_∈\mathbb{S}到状态在下一个时间步骤sSs'∈\mathbb{S}中的转换概率。
    • RS×A×SRR:\mathbb{S}×\mathbb{A}×\mathbb{S}→\mathbb{R}:奖励函数,返回从s到s’的标量值。奖励的绝对值一致受RmaxR_{max}为界。
    • γ[0,1]γ ∈ [0, 1] 是表示时间值的折扣系数。

    在每个时间步长t中,环境都有一个状态sts_t。智能体观察此状态,并在上执行操作。该操作使环境转换到下一个状态st+1P(stat)s_{t+1}∼P(·|s_t,a_t),新环境立即返回奖励R(statst+1)R(s_t,a_t,s_{t+1})。奖励功能也可以写成RS×ARR:\mathbb{S}×\mathbb{A}→\mathbb{R},可与RS×A×SRR:\mathbb{S}×\mathbb{A}×\mathbb{S}→\mathbb{R}互换(参见VanOtterlo和Wiering(2012),第10页)。智能体的目标是解决MDP:找到使奖励随时间最大化的最优政策。数学上,一个共同的目标是让智能体找到一个马尔可夫变量(即,输入只取决于当前状态)和平稳的(即,函数形式是与时间无关的)策略函数πS(A)π:\mathbb{S}→∆(\mathbb{A}),使用∆(·)表示概率单形,它可引导其采取顺序行动,从而使折扣的累计奖励最大化:
    在这里插入图片描述
    MDP的另一个常见的数学目标是最大化时间平均奖励:
    在这里插入图片描述我们在这项工作中没有考虑到这些,并参考马哈德万(1996)来全面分析时间平均回报的目标。

    基于等式的目标函数(1),在给定的策略π下,我们可以将状态动作函数(即q函数,它决定执行状态a的预期返回)和值函数(它确定与状态策略相关的返回)定义为:
    在这里插入图片描述
    其中Eπ\mathbb{E}^π是无限长状态动作轨迹τ=(s0,a0,s1,a1,)τ=(s_0, a_0, s_1, a_1,…)的概率测度Pπ\mathbb{P}^π下的期望,其中Pπ\mathbb{P}^π由状态转换概率P、策略π、初始状态s和初始动作a(在q函数的情况下)诱导。Q-函数与值函数之间的连接是
    在这里插入图片描述

    2. 奖励最大化的理由

    由等式(1)给出的RL的当前模型认为,单个奖励函数的期望值足以解决我们希望“智能代理”能够解决的任何问题。这一想法的理由深根于冯诺伊曼-摩根斯坦(VNM)实用理论(冯诺伊曼和摩根斯坦,2007)。这个理论本质上证明了一个智能体是VNM有理的,当且仅当存在一个实值效用(或,奖励)函数,这样代理的每一个偏好都是通过最大化单一的期望奖励来描述的。VNM效用定理是著名的预期效用理论的基础(舒梅克,2013年),该理论本质上指出,理性可以被建模为最大化一个期望值。具体地说,VNM效用定理提供了预期效用假设成立的充要条件。换句话说,理性相当于VNM-理性,可以肯定的假设在任何复杂的场景中,智能实体将始终选择具有最高预期效用的动作。

    诚然,在真正的决策者在实践中违反关于理性的一些假设之前,人们就被接受了(吉格伦泽和塞尔滕,2002年)。事实上,这些条件更多地被认为是理性决策的“公理”。在多目标MDP的情况下,我们仍然能够通过两个时间尺度过程通过标度函数将多个目标转换为单目标MDP;我们参考Roijers等人。(2013)以了解更多细节。

    3. 解决马尔可夫决策过程

    MDPs中常用的一个概念是(折扣-正常化)占用度量µπ(sa)µ^π(s,a),它唯一对应于给定的策略ππ,反之亦然(Syed等人,2008,定理2),定义为
    在这里插入图片描述
    其中,1\mathbb{1}是一个指示器功能。请注意,在等式中(5),P是状态转移概率,Pπ\mathbb{P}^π是遵循平稳策略π时特定状态-动作对的概率。µπ(sa)µ^π(s,a)的物理意义是一种概率测度量,它计算对单个可接受的状态动作对的预期折扣访问次数。相应地,µπ(s)=μπ(sa)µ^π(s)=\sum \mu^π(s,a)是折扣状态探视频率,即由π引起的马尔可夫过程的平稳分布。通过占用措施,我们可以写出等式(4)作为
    在这里插入图片描述
    的内部乘积。这意味着求解一个MDP可以被看作是求解一个包含maxµµ(s、a)、R(s、a)
    的线性程序(LP),然后最优策略是
    在这里插入图片描述
    然而,这种解决MDP的方法仍然在教科书水平,旨在提供理论见解,但在具有数百万变量的大规模LP中实际上缺乏(帕帕迪米里和特西西克利斯,1987)。当MDP的状态动作空间连续时,LP配方也不能帮助解决。

    在最优控制的背景下(Bertsekas,2005),动态规划策略,如策略迭代和值迭代,也可以应用于求解能够最大化等式的最优策略(3)&等式(4),但这些方法需要了解模型的确切形式:转换函数P(s,a)P(·|s, a)和奖励函数R(sas)R(s、a、s')

    另一方面,在RL的设置中,代理在与环境的交互过程中通过反复试验过程学习最优策略,而不是使用模型的先验知识。“学习”一词本质上意味着代理将其在交互过程中获得的经验转化为关于环境模型的知识。基于求解目标、最优策略或最优值函数,RL算法可以分为两种类型:基于值的方法和基于策略的方法。

    3.1 基于价值的方法

    对于所有具有有限状态和动作的MDPs,至少存在一个确定性平稳最优策略(萨顿和Barto,1998;Szepesv´ari,2010)。引入了基于值的方法来寻找最大化等式(3)的最优q函数QQ^∗。相应地,通过采取π=argmaxaQ(sa)π^∗=argmax_aQ^∗(s,a)的贪婪作用,可以从q函数中得到最优策略。经典的Q-学习算法(Watkins和Dayan,1992)近似于Q^Q\hat Q的Q^∗,并通过时差学习更新其价值(Sutton,1988)。
    在这里插入图片描述
    理论上,给定了贝尔曼最优性算子HH^∗,定义为
    在这里插入图片描述
    我们知道它是一个收缩映射,最优的Q-函数是唯一的不动点,即H(Q)=QH^∗(Q^∗)=Q^∗。q-学习算法提取了等式中(saRs)(s、a、R、s')的随机样本(7)至接近等式(8),但在状态动作集是离散的和有限的,并且被无限次访问的假设下,仍然保证收敛到最优Q函数(Szepesv´ari和Littman,1999)。Munos和Szepesv´ari(2008)通过推导出具有有限数量样本的无限状态空间的高概率误差界,将收敛结果扩展到一个更现实的设置。

    最近,Mnih等人。(2015)应用神经网络作为更新等式的q函数的函数逼近器(7).具体来说,DQN优化了以下方程式:
    在这里插入图片描述
    神经网络参数θ通过绘图进行拟合。从重放缓冲区DD中的样本,然后以监督学习的方式更新。QθQ_θ-是一个缓慢更新的目标网络,可以帮助稳定训练。杨等人研究了DQN的收敛性和有限样本分析。(2019c)。

    3.2 基于策略的方法

    基于策略的方法被设计为直接搜索策略空间,以找到最优策略π∗。您可以参数化策略表达式ππθsπ^∗≈π_θ(·| s),并沿着使累积奖励θθ+αθVπθ(s)θ←θ+\alpha\nabla_\theta V^{\pi_\theta}(s)最大化的方向更新参数θ,以找到最优策略。然而,梯度将取决于政策变化对状态分布的未知影响。著名的策略梯度(PG)定理(Sutton等人,2000)推导出一个不涉及状态分布的解析解,即:
    在这里插入图片描述
    其中,µπθµ^{π_θ}是策略πθ下的状态占用度量,logπθ(as\nabla logπ_θ(a|s)是策略的更新分数。当策略是确定性的且动作集是连续的时,我们得到确定性策略梯度(DPG)定理(Silver等人,2014)作为
    在这里插入图片描述
    在这里插入图片描述
    图4:交叉点示例中的随机时间的快照。这个场景被抽象为有两辆车,每辆车都采取两种可能的行动之一:让路或冲。每个联合动作对的结果都用一个正常形式的游戏来表示,行玩家的奖励值用红色表示,列玩家的奖励值用黑色表示。该博弈的纳什均衡(NE)为(收益率、收益率)和(收益率、收益率)。如果两辆车自私地不考虑自己的奖励最大化,他们最终会发生事故。

    PG定理的一个经典实现是 REINFORCE(威廉姆斯,1992),它使用一个样本返回Rt=i=tTγitriR_t= \sum^T_{i=t} \gamma^{i-t}r_i来估计QπθQ^{π_θ}。或者,我们可以使用Qω模型(也称为批评者)来近似真实的QπθQ^{π_θ},并通过TD学习更新参数ω。这种方法产生了著名的演员-评论家的方法(Konda和Tsitsiklis,2000年;彼得斯和沙尔,2008年)。演员-评论家方法的重要变体包括信任区域方法(Schulman等人,2015、2017)、具有最优基线的PG(Weaver和Tao,2001;Zhao等人,2011)、软演员-评论家方法(Haarnoja等人,2018,)和深度确定性政策梯度(DDPG)方法(米勒克拉普等人,2015)。

    展开全文
  • 多智能体强化学习环境

    千次阅读 2020-03-20 21:54:09
    多智能体强化学习环境 环境是强化学习的核心要素之一。不同的环境一直是研究新的强化学习算法的动力。但是让智能体和真实环境交互的代价是很大的,不但费时费力,甚至有的时候根本不可能进行交互。 现在的多智能体...
  • 学会协作:通过多智能体强化学习进行多场景排名
  • 强化学习 作为我的论文的最后部分,“协作多智能体学习的方法和实现”,涉及从单一智能体到多智能体的RL研究,以及协作和协作多智能体学习的最新技术。...多智能体强化学习 集中式Q学习 滞后Q学习 多代理演员批评
  • 多智能体强化学习(一)

    千次阅读 2020-07-02 10:29:11
    在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化学习中,环境是复杂的、动态的,因此给学习过程带来很大的困难。 多智能体强化学习面临的问题: 维度爆炸:在单智能体强化学习中,需要...
  • 多智能体强化学习笔记 01

    千次阅读 2019-04-01 11:57:44
    跟单智能体强化学习相比,多智能体强化学习的入门似乎更难,想了想觉得有以下几个方面的原因: (1) 多智能体强化学习研究成果较少,没有一本经典的系统的书籍来介绍。而单智能体强化学习算法有本神作,即Sutton的...
  • 论文研究-基于多智能体强化学习的多机器人协作策略研究.pdf, 研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要...
  • 针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反馈(chain feedback,CF)学习算法相结合,提出了Q-CF多智能体强化学习算法,利用一种称为信息链式反馈的机制实现了多智能体之间的...
  • 多智能体强化学习-COMA 论文全称:Counterfactual Multi-Agent Policy Gradients 论文地址:https://arxiv.org/abs/1705.08926v1 摘要 协作多智能体系统可以很自然地用于建模许多现实世界的问题,例如网络分组路由或...
  • 本文首发于https://zhuanlan.zhihu.com/p/327129657,欢迎关注知乎专栏...QMIX是多智能体强化学习中比较经典的算法之一,其在DQN类的值函数强化学习的基础上进行改进
  • 多智能体强化学习综述-Lucian Busoniu

    万次阅读 多人点赞 2019-06-19 11:51:54
    这篇文章对多智能体强化学习(MARL)的背景,目标设置,常用算法进行了梳理,并对后续MARL的发展做出展望。
  • 本文研究了基于智能体动作预测的多智能体强化学习算法,使用朴素贝叶斯分类器来预测其他智能体的动作.并引入策略共享机制来交换多智能体所学习的策略,以提高多智能体强化学习的速度.最后,研究了所提出的方法在足球...
  • 多智能体强化学习入门Qmix

    热门讨论 2021-05-21 16:36:04
    Qmix是多智能体强化学习中比较经典的算法之一,在VDN的基础上做了一些改进,与VDN相比,在各个agent之间有着较大差异的环境中,表现的更好。 1. IQL与VDN IQL(Independent Q_Learning),是一种比较暴力的解决问题...
  • 多智能体强化学习笔记 02

    千次阅读 2019-04-01 11:58:20
    最早的探索多智能体强化学习的算法是对Qlearning算法的修改,即Qlearning+博弈均衡。如果对博弈论并不了解直接讲多智能强化学习算法如:极大极小Qlearning;纳什Qlearning,那么大家肯定会很懵,而且把握不住多智能...
  • 多智能体强化学习资料MARL 框架 https://github.com/oxwhirl/pymarl https://github.com/starry-sky6688/StarCraft https://github.com/openai/multiagent-particle-envs 环境 算法 ...
  • 为了解决这个问题,不同于传统的集中式资源分配算法,提出了基于多智能体强化学习的分布式无线资源分配算法.具有强化学习能力的机器类通信(MTC)设备可以自主选择资源块和功率等级,以达到在较低的功率消耗下得到较...
  • awesome-game-ai:多智能体强化学习的Awesome Game AI资料
  • 多智能体强化学习入门(九)——注意力图网络的多智能体博弈
  • ICLR 2020 多智能体强化学习论文总结

    千次阅读 2020-09-29 11:23:04
    ICLR 2020 多智能体强化学习论文总结如有错误,欢迎指正所引用内容链接Multi-Agent RL1.Multi-agent Reinforcement Learning For Networked System Control2.Intrinsic Motivation For Encouraging Synergistic ...
  • 多智能体强化学习算法致力于解决,在环境中,智能体需要和其他智能体协作等复杂问题。因为强化学习算法取样的复杂度相当高,因此从零开始,去训练一个复杂的多智能体系统是十分消耗计算资源的,甚至是不可能完成的...
  • 多智能体强化学习(MARL)近年研究概览

    千次阅读 多人点赞 2020-03-15 12:54:03
    ©PaperWeekly 原创 ·作者|李文浩学校|华东师范大学博士生研究方向|强化学习最近由于写论文的原因,梳理了一下近几年的多智能体强化学习(MA...
  • 到的强化学习的所具有的自主学习能力,本文提出了基于多智能体强化学习的交通信号控制方 法。没有预设的控制模型,多协作代理可以学习相应的实时交通状况下的最优控制策略。通过 实验结果证明了这种方法的可行性和...
  • 为了研究该方法的现状、存在问题及发展前景,系统跟踪了多智能体强化学习在国内外交通控制领域的具体应用,包括交通信号MARL控制概念模型、完全孤立的多智能体强化学习(MARL)的控制、部分状态合作的多智能体强化...
  • ©PaperWeekly 原创 ·作者|李文浩学校|华东师范大学博士生研究方向|强化学习下面总结几篇涉及到为使得多智能体强化学习(MARL)算法能够更好地解决协作问题,而对智能体回报函...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 526
精华内容 210
关键字:

多智能体强化学习