精华内容
下载资源
问答
  • 作为我的论文的最后部分,“协作多智能体学习的方法实现”,涉及从单一智能体多智能体的RL研究,以及协作协作多智能体学习的最新技术。的算法实现,在MATLAB中完成了某些RL方法的实现。 论文论文也被上传,...
  • 多智能体
  • 本篇美文将把单智能体多智能体强化学习基本概念做个初步介绍。主要围绕:什么是单智能体强化学习?单智能体强化学习中基本算法分类?为啥提出多智能体强化学习?多智能体强化学习基本概念?来进行介绍,大佬请自动...

    自拍
    如图所示,瞧这美美的发际线,是本人,错不了。本人,打酱油的栋栋拐,立个flag,坚持更随笔。在座的各位,Hello啊。

    什么是单智能体强化学习?

    在这里插入图片描述

    1、如图所示,单智能体强化学习的设置由两部分组成:一个智能体和环境。
    2、模型描述:马尔可夫决策过程,即<状态集S、动作集A、奖励R、状态转移概率P、奖励衰减因子、探索率、策略>,最大的特性为下一时刻的状态和奖励,只与前一时刻的状态与动作有关,与更早之前的状态与行为无关,详细分析见基于马尔可夫过程的强化学习入门。
    3、强化学习的原理:强化学习是让智能体以试错的方式来进行学习。智能体某个行为策略导致了好的奖赏,智能体产生这个行为策略的形式就会加强。智能体需要学习的就是:在一个环境中如何选择动作来获得最大奖励。其中,奖励值与智能体在环境中的任务息息相关。另外,智能体需要的主要学习任务是行为策略。其中,行为策略的学习目标是最优策略,也就是使用这样的策略,让智能体在特定环境中获得最大奖励值,从而实现任务目标。
    4、强化学习的目标:在每个状态下发现最优策略来使期望的折扣奖励最大化。
    5、强化学习可以解决的问题:可以描述为智能体在于环境交互过程中通过学习策略来达到回报最大化或实现特定目标的问题。目前,被广泛应用在各个领域。
    6、所述的动作可以简单描述为:连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、DDPG、A3C、PPO算法做决策)和离散动作(围棋、贪吃蛇游戏,Alpha Go,可通过算法Q-Learning、DQN、A3C及PPO算法做决策)。

    单智能体强化学习中基本算法分类?

    强化学习中有很多算法来寻找最优策略。另外,算法有很多分类。
    1、按照有无模型分:有模型(事先知道转移概率P,并且作为输入,算法为动态规划)、无模型(试错,事先不知道转移概率P,算法为:蒙特卡罗算法、Q-Learning、Sarsa、Policy Gradients);
    2、基于策略(输出下一步所采取的各种动作的概率,根据概率来采取动作:Policy Gradients)和基于价值(输出所有动作的价值,根据最高价值来选动作,不适用于连续动作:Q-Learning,Sarsa等)(由于基于策略和价值的算法都各有优缺点,由此集合在一起就有了Actor-Critic算法,其中Actor可以基于概率做出动作,而Critic会对做出的动作做出动作的价值,这就在前述的policy gradients上加速了学习过程);
    3、单步更新(游戏中每一步都在更新,可以边玩边学习:QLearning、Sarsa、升级版的policy
    gradients)和回合更新(游戏开始后,等游戏结束,再总结所有转折点,在更新行为准则:基础版的policy gradients、Monte-carlo learning);
    4、在线学习(必须我本人在场,边玩边学:一般只有一个策略,最常见的是e-贪婪,即SARSA算法)、离线学习(从过往的经验里,但是过往的经验没必要是自己的:一般有两个策略,常见的是e-贪婪来选择新的动作,另一个贪婪法更新价值函数,即,常见的Q-Learning)。
    5、千万注意,一定要明确不同的强化学习算法的优缺点以便于求解不同类型的问题。比如:Q-Learning适合解决低纬度且离散动作及状态空间,DQN适合解决低纬度动作和高纬度状态空间、DDPG适合求解高纬度(连续)动作空间及状态空间。
    6、详细分类,见后文附带的链接。

    为啥提出多智能体强化学习?

    *自然是传统的集中式单智能体强化学习某些场景下不适用奥。废话不多说,讲道理! *
    在这里插入图片描述
    1–传统的多智能体RL算法中,每个智能体走势在不断学习且改进其策略。由此,从每个智能体的角度来看,环境是不稳定的,不利于收敛。而传统的单智能体强化学习,需要稳定的环境
    2–由于环境的不稳定,无法通过仅改变智能体本身的策略来适应动态不稳定的环境。
    3–由于环境的不稳定,无法直接使用经验回放等DQN技巧。
    4–因为大量智能体的交互会导致不可避免的反馈开销。更重要的是,生成的马尔可夫过程通常很难处理。用于MDP的数值求解技术遭受所谓的“维数诅咒”,这使它们在计算上不可行。
    所以,多智能体强化学习被提出。

    多智能体强化学习基本概念?

    在这里插入图片描述
    1-如图所示,多智能体系统中至少有两个智能体。另外,智能体之间存在着一定的关系,如合作关系,竞争关系,或者同时存在竞争与合作的关系。每个智能体最终所获得的回报不仅仅与自身的动作有关系,还跟对方的动作有关系。
    2-多智能体强化学习的描述:马尔可夫博弈。也就是说,状态转换符合马尔可夫过程,关系符合博弈。可以表示为<N,S,A,Ri,T>,其中,N表示的是智能体的集合,S表示的是环境的状态空间、Ai表示的是智能体i的动作空间,A=A1A2…An表示为联合动作,R表示智能体i的奖励,T为状态转换函数。
    3-一般来说,在马尔可夫博弈中,每个智能体的目标为找到最优策略来使它在任意状态下获得最大的长期累积奖励。

    多智能体强化学习基本现状?

    1-多智能体强化学习研究成果较少,并且多智能体强化学习没有系统的网络课程。另外,多智能体强化学习算法缺少系统的开源代码。再就是多智能体强化学习所涉及到的理论知识更多,如马尔科夫决策过程,博弈论等。
    2-本人学习代码会参考Open AI提供的开源代码。强化学习对于代码能力要求好高,拐拐灰常菜,呜呜呜呜呜呜呜,再不学就失业啦。
    3-UCL的汪军老师结合MFG与MARL,提出了MFMARL对于解决部分超密集问题有效。在这里有详细证明嗷。拐拐好笨丫。

    参考

    多智能体现状、基本定义
    强化学习算法详细分类
    在座的各位,未完待续啊。拐拐🐖愿大家开学愉快。Happy!!!
    在这里插入图片描述

    展开全文
  • 低阶多智能体系统matlab仿真,主要是一阶多智能体的包含控制,以及没有包含的例子
  • 9.1 智能体的概念与结构 9.2 多智能体系统的概念与结构 9.3 多智能体系统的通信 9.4 多智能体系统的协调 9.5 多智能体系统的协作 9.6 多智能体系统的协商 ;9.1 智能体的概念与结构 ;9.1.2 智能体的特性;9.1.3 智能体...
  • 多智能体一致性
  • 多智能体强化学习背景知识为什么提出多智能体DDPG(MADDPG)?学习MADDPG算法的先验知识?Q-LearningDQNSPGDPGDDPG由DDPG算法到MADDPG算法?MADDPG算法的巧妙之处? 为什么提出多智能体DDPG(MADDPG)? 多智能体...

    在这里插入图片描述
    我,菜拐拐,今天又来了!废话少说,上重点。准备好课堂笔记┗|`O′|┛ 嗷~~

    为什么提出多智能体DDPG(MADDPG)

    多智能体环境下传统算法的短板

    1. 传统的Q学习算法不适用:随着训练的进行,每个智能体的策略都在发生变化。从任何一个单独的智能体的角度来看,环境都变得不稳定(其他智能体的动作带来环境变化),这带来了学习稳定性方面的挑战。由此,不适用于传统的Q学习算法。
    2. 经典的DQN不大适用:如果不知道其他智能体的状态,那么不同情况下自身的状态转移也会不同,这阻止了以往经验重放的直接使用。还有一个原因,请等后文分解。
    3. 策略梯度(PG)算法不适用:PG算法会由于智能体数量变多使固有的方差大的问题加剧。

    学习MADDPG算法的先验知识

    SPG与DPG简述

    • SPG
      基于策略的SPG (Stochastic Policy Gradient):(其更加适合在连续的或者较大的动作下运行,这不同于基于值的Q学习或DQN方法)该算法是直接优化累积回报来获得使回报最大的策略。目标公式如下:

      • 参数化的策略被假定为: π θ ( a ∣ s ) {\pi _\theta }(a|s) πθ(as)
      • 累积回报为: J ( θ ) = E s ∼ ρ π , a ∼ π θ [ ∑ t = 0 ∞ γ t r t ] J(\theta ) = {E_{s \sim {\rho ^\pi },a \sim {\pi _\theta }}}\left[ {\sum\limits_{t = 0}^\infty {{\gamma ^t}{r_t}} } \right] J(θ)=Esρπ,aπθ[t=0γtrt]
      • 为使累积回报最大,可以使用梯度上升方法来寻找局部最大值。Then,对策略参数求导得到策略更新梯度: ∇ θ J ( θ ) = E s ∼ ρ π , a ∼ π θ [ ∇ θ log ⁡ π θ ( a ∣ s ) Q π ( s , a ) ] {\nabla _\theta }J(\theta ) = {E_{s \sim {\rho ^\pi },a \sim {\pi _\theta }}}\left[ {{\nabla _\theta }\log {\pi _\theta }(a|s){Q^\pi }(s,a)} \right] θJ(θ)=Esρπ,aπθ[θlogπθ(as)Qπ(s,a)],可见SPG需要同时考虑状态概率分布以及动作概率分布。如果要进行学习训练,就需要大量的样本来覆盖整个二维的状态动作空间。
      • PG的思想就是沿着目标函数变大的方向调整策略的参数。
      • More importantly,所提的策略是从state到action概率分布的映射。
    • DPG

      • DPG是SPG的概率分布方差趋近于0的极限状态。也就是说,DPG的策略是从state到action的一个映射S->A。
      • 累积回报为: J ( μ θ ) = E s ∼ ρ μ [ r ( s , μ θ ( s ) ) ] J({\mu _\theta }) = {E_{s \sim {\rho ^\mu }}}\left[ {r(s,{\mu _\theta }(s))} \right] J(μθ)=Esρμ[r(s,μθ(s))],所提到的 μ θ \mu _\theta μθ用于对 Q π ( s , a ) {Q^\pi }(s,a) Qπ(s,a)取全局最优。
      • 利用链式法则对其求梯度,可得到 ∇ θ J ( μ θ ) = E s ∼ ρ π [ ∇ θ μ θ ( s ) ∇ a Q μ ( s , a ) ∣ a = μ θ ( s ) ] {\nabla _\theta }J({\mu _\theta }) = {E_{s\sim{\rho ^\pi }}}\left[ {{\nabla _\theta }{\mu _\theta }(s){\nabla _a}{Q^\mu }(s,a){|_{a = {\mu _\theta }(s)}}} \right] θJ(μθ)=Esρπ[θμθ(s)aQμ(s,a)a=μθ(s)]。由此可见,DPG仅需要考虑状态概率分布。
      • 综上所述,同SPG相比,DPG的优点是所需的样本较少,得出的策略更加明确。
      • 拐拐在这里只是进行了简要的描述。更详细的可以点击博文中的链接来了解。

    Q-Learning简述

    在这里插入图片描述

    • 如图所示,算法的伪代码被给定。
    • Q-Learning是强化学习算法中基于值的算法,Q 即为 Q(s,a),就是在某一时刻的 s 状态下,采取动作 a 能够获得收益的期望。环境会根据agent的动作反馈相应的回报 r。因此所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。
    • Q-table
    Q-Tablea1a2
    s1q(s1,a1)q(s1,a2)
    s2q(s2,a1)q(s2,a2)
    s3q(s3,a1)q(s3,a2)
    • 由此可见,表格容纳的状态及动作的数量是有限的。由此,该算法仅限应用于有限离散状态,有限离散动作的场景。

    由Q-Learning到DQN

    在这里插入图片描述

    • 如图所示为DQN算法伪代码(截图来自深入浅出)。

    • 神奇之处表现在这里:由于Q-Table不能适用于高维状态。由此,在Q-Learning算法的基础上,DQN算法被提出。DQN把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作。又因为,深度神经网络可以自动提取复杂特征。So,面对高维且连续的状态使用深度神经网络最合适不过了。如图所示:在这里插入图片描述

    • 技巧:基于Q-Learning构造Loss函数;通过经验池解决相关性及非静态分布问题;使用TargetNet解决稳定性问题。但是,还是无法解决连续动作的问题。详细可见DQN算法详述。

    由DQN到DDPG

    在这里插入图片描述

    • 如图所示,DDPG的伪代码被展示。DDPG(deep deterministic policy gradient)是解决连续控制型问题的一个算法。该算法很好的解决了DQN算法未解决连续空间的问题,接下来将详细解释下基于DQN算法的DDPG算法。在此感谢大佬

    • 首先,看下DQN不能解决连续动作的根源:伪代码[12]取最大值处(max函数只能处理离散型的)。

    • 上面说过,DQN算法用神经网络解决了Q-Learning不能解决的连续状态空间问题。同理,DDPG算法可以理解为用神经网络解决DQN不能解决的连续(动作)控制型问题就好了。就是说,用神经网络来代替max找action的功能。换句话说,期待神经网络的输入是状态,返回值为动作action,该取值可以让Q最大。由此,非常明显了,这就是DDPG中Actor的功能。

    • 接下来,借用大佬的图进行描述。在这里插入图片描述

    • 如图所示,DQN的深度网络,可以描述为用一张布去覆盖Q-Learning中的Q-table。Then,这也是DDPG中Critic的功能。在这里插入图片描述

    • 如图所示,把某个state输入到DDPG的Actor中的时候,相当于在这块布上做沿着state所在的位置剪开,这个时候大家会看到这个边缘是一条曲线。图中的红线是在某个状态下,选择某个动作值的时候,能获得的Q值。Actor的任务就是在寻找这个曲线的最高点,然后返回能获得这个最高点,也是最大Q值的动作。在这里插入图片描述

    • 下面给出Actor的功能:输出一个动作A,这个动作A输入到Crititc后,能够获得最大的Q值。注意:更新方式为梯度上升。

    • 下面给出critic的功能:预估Q。

    • 需要4个网络。Actor, Critic, Actor_target, Cirtic_target。

    由DDPG算法到MADDPG算法

    在这里插入图片描述

    • 整体如图所示。由DDPG到MADDPG,会容易一下,来瞅瞅。
    • 每个智能体的训练同单个DDPG的训练过程类似,不同的地方体现在训练的时候 Critic 的输入上。在单个智能体的DDPG算法中, Critic 的输入是一个 state-action 对信息。但是在 MADDPG 上,每个智能体的 Critic 输入除了自身 state-action 信息外,还有额外的信息,比如其他智能体的动作和状态。
    • 详细见下一个博文。

    MADDPG算法的巧妙之处

    • 采用集中式培训和分散式执行的框架:在训练时,使用额外的信息来输入各个 Critic ,在应用时只利用局部信息就能给出最优动作。注意,这里给出了Q学习不适用的另一个原因:Q函数通常在训练和测试时不能包含不同的信息。
    • 不仅适用于合作,而且适用于竞争性或合作竞争混合。
    • 不需要知道环境的动力学模型以及特殊的通信需求。

    在座的各位,未完待续啊。最近太放肆了,坚持更啊啊啊啊!这篇博文简单总结了RL算法的演进,来简单引出MADDPG算法!
    拐拐🐖愿大家天天顺利。Happy!!!
    在这里插入图片描述

    展开全文
  • 协同进化计算与多智能体系统B5.319_11692466
  • 该程序实现个有界输入的智能体状态趋于一致;并绘制出多智能体状态图以及一致函数曲线
  • 多智能体系统中二阶情况,有一个领导者四个跟随者
  • 采用二阶多智能体的协同控制程序,采用二阶多智能体控制算法
  • 多智能体系统是智能体组成的集合,它的目标是将大而复杂的系统建设成小的、彼此互相通信协调的,易于管理的系统。
  • 多智能体系统是智能体组成的集合,它的目标是将大而复杂的系统建设成小的、彼此互相通信协调的,易于管理的系统。
  • 采用二阶多智能体的协同控制程序,采用二阶多智能体控制算法
  • Q-Learning学习算法包含多智能体和单智能体,本代码是单智能体学习算法,障碍物起始点都可以设置,有gui,可以作为多智能体学习算法的设计参考。
  • 用于多智能体的一致性研究,尤其是初学者,程序通俗易懂,稍作修改就能用于多智能体编队控制的研究。
  • 一般线性多智能体系统,在有领导者时的仿真情况
  • 一般线性多智能体系统,在无领导者时的仿真情况
  • 1.单智能体 2.多智能体 Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 1.单智能体 连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、...

    相关文章:

    【一】MADDPG-单智能体|多智能体总结(理论、算法)

    【二】MADDPG--单智能体|多智能体总结算法实现--【追逐游戏】


    【一】-环境配置+python入门教学

    【二】-Parl基础命令

    【三】-Notebook、&pdb、ipdb 调试

    【四】-强化学习入门简介

    【五】-Sarsa&Qlearing详细讲解

    【六】-DQN

    【七】-Policy Gradient

    【八】-DDPG

    【九】-四轴飞行器仿真

    飞桨PARL_2.0&1.8.5(遇到bug调试修正)

    三步定位PARL飞桨报错原因,快速解决程序问题


    1.单智能体

    连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、DDPG、A3C、PPO算法做决策)和离散动作(围棋、贪吃蛇游戏,Alpha Go,可通过算法Q-Learning、DQN、A3C及PPO算法做决策)。

    算法分类:

    强化学习中有很多算法来寻找最优策略。另外,算法有很多分类。

    1、按照有无模型分:有模型(事先知道转移概率P,并且作为输入,算法为动态规划)、无模型(试错,事先不知道转移概率P,算法为:蒙特卡罗算法、Q-Learning、Sarsa、Policy Gradients);

    2、基于策略(输出下一步所采取的各种动作的概率,根据概率来采取动作:Policy Gradients)和基于价值(输出所有动作的价值,根据最高价值来选动作,不适用于连续动作:Q-Learning,Sarsa等)(由于基于策略和价值的算法都各有优缺点,由此集合在一起就有了Actor-Critic算法,其中Actor可以基于概率做出动作,而Critic会对做出的动作做出动作的价值,这就在前述的policy gradients上加速了学习过程);

    3、单步更新(游戏中每一步都在更新,可以边玩边学习:QLearning、Sarsa、升级版的policy

    gradients)和回合更新(游戏开始后,等游戏结束,再总结所有转折点,在更新行为准则:基础版的policy gradients、Monte-carlo learning);

    4、在线学习(必须我本人在场,边玩边学:一般只有一个策略,最常见的是e-贪婪,即SARSA算法)、离线学习(从过往的经验里,但是过往的经验没必要是自己的:一般有两个策略,常见的是e-贪婪来选择新的动作,另一个贪婪法更新价值函数,即,常见的Q-Learning)。

    5、千万注意,一定要明确不同的强化学习算法的优缺点以便于求解不同类型的问题。比如:Q-Learning适合解决低纬度且离散动作及状态空间,DQN适合解决低纬度动作和高纬度状态空间、DDPG适合求解高纬度(连续)动作空间及状态空间

    产生问题:

    1–传统的多智能体RL算法中,每个智能体走势在不断学习且改进其策略。由此,从每个智能体的角度来看,环境是不稳定的,不利于收敛。而传统的单智能体强化学习,需要稳定的环境

    2–由于环境的不稳定,无法通过仅改变智能体本身的策略来适应动态不稳定的环境。

    3–由于环境的不稳定,无法直接使用经验回放等DQN技巧。

    4–因为大量智能体的交互会导致不可避免的反馈开销。更重要的是,生成的马尔可夫过程通常很难处理。用于MDP的数值求解技术遭受所谓的“维数诅咒”,这使它们在计算上不可行。


    2.多智能体

                                                                                                                                                                                                                                                          (转)

    1-如图所示,多智能体系统中至少有两个智能体。另外,智能体之间存在着一定的关系,如合作关系,竞争关系,或者同时存在竞争与合作的关系。每个智能体最终所获得的回报不仅仅与自身的动作有关系,还跟对方的动作有关系。

    2-多智能体强化学习的描述:马尔可夫博弈。状态转换符合马尔可夫过程,关系符合博弈。可以表示为<N,S,A,Ri,T>,其中,N表示的是智能体的集合,S表示的是环境的状态空间、Ai表示的是智能体i的动作空间,A=A1A2…An表示为联合动作,R表示智能体i的奖励,T为状态转换函数。

    3-一般来说,在马尔可夫博弈中,每个智能体的目标为找到最优策略来使它在任意状态下获得最大的长期累积奖励。

     

     

    2.1 Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

    论文下载:【https://download.csdn.net/download/sinat_39620217/16203960

    • Multi-Agent:多智能体
    • Deep:与DQN类似,使用目标网络+经验回放
    • Deterministic:直接输出确定性的动作
    • Policy Gradient: 基于策略Policy来做梯度下降从而优化模型

    1.不过传统的RL方法,比如Q-Learning或者policy gradient都不适用于多智能体环境。主要的问题是,在训练过程中,每个智能体的策略都在变化,因此从每个智能体的角度来看,环境变得十分不稳定(其他智能体的行动带来环境变化)。对DQN来说,经验重放的方法变的不再适用(如果不知道其他智能体的状态,那么不同情况下自身的状态转移会不同),而对PG的方法来说,环境的不断变化导致了学习的方差进一步增大。

    2. 本文提出的方法框架是集中训练,分散执行的。我们先回顾一下DDPG的方式,DDPG本质上是一个AC方法。训练时,Actor根据当前的state选择一个action,然后Critic可以根据state-action计算一个Q值,作为对Actor动作的反馈。Critic根据估计的Q值和实际的Q值来进行训练,Actor根据Critic的反馈来更新策略。测试时,我们只需要Actor就可以完成,此时不需要Critic的反馈。因此,在训练时,我们可以在Critic阶段加上一些额外的信息来得到更准确的Q值,比如其他智能体的状态和动作等,这也就是集中训练的意思,即每个智能体不仅仅根据自身的情况,还根据其他智能体的行为来评估当前动作的价值。分散执行指的是,当每个Agent都训练充分之后,每个Actor就可以自己根据状态采取合适的动作,此时是不需要其他智能体的状态或者动作的DQN不适合这么做,因为DQN训练和预测是同一个网络,二者的输入信息必须保持一致,我们不能只在训练阶段加入其他智能体的信息。

    3. DDPG它是Actor-Critic 和 DQN 算法的结合体。

    我们首先来看Deep,正如Q-learning加上一个Deep就变成了DQN一样,这里的Deep即同样使用DQN中的经验池和双网络结构来促进神经网络能够有效学习

    再来看Deterministic,即我们的Actor不再输出每个动作的概率,而是一个具体的动作,这更有助于我们连续动作空间中进行学习

                                                                                                                                   

    采用了类似DQN的双网络结构,而且Actor和Critic都有target-net和eval-net。我们需要强调一点的事,我们只需要训练动作估计网络和状态估计网络的参数,而动作现实网络和状态现实网络的参数是由前面两个网络每隔一定的时间复制过去的。

    我们先来说说Critic这边,Critic这边的学习过程跟DQN类似,我们都知道DQN根据下面的损失函数来进行网络学习,即现实的Q值和估计的Q值的平方损失

                                                                                                                       

    上面式子中Q(S,A)是根据状态估计网络得到的,A是动作估计网络传过来的动作。而前面部分R + gamma * maxQ(S',A')是现实的Q,这里不一样的是,我们计算现实的Q值,不在使用贪心算法,来选择动作A',而是动作现实网络得到这里的A'。总的来说,Critic的状态估计网络的训练还是基于现实的Q值和估计的Q值的平方损失估计的Q值根据当前的状态S和动作估计网络输出的动作A输入状态估计网络得到,而现实的Q值根据现实的奖励R,以及将下一时刻的状态S'和动作现实网络得到的动作A' 输入到状态现实网络 而得到的Q值的折现值加和得到(这里运用的是贝尔曼方程)。

                                                                                                                     (DDPG)

    传统的DQN采用target-net网络参数更新,即每隔一定的步数就将eval-net中的网络参数赋值过去,而在DDPG中,采用的target-net网络参数更新,即每一步都对target-net网络中的参数更新一点点,这种参数更新方式经过试验表明可以大大的提高学习的稳定性。

                                                                                                                             

     

    每个Agent的训练同单个DDPG算法的训练过程类似,不同的地方主要体现在Critic的输入上:在单个Agent的DDPG算法中,Critic的输入是一个state-action对信息,但是在MADDPG中,每个Agent的Critic输入除自身的state-action信息外,还可以有额外的信息,比如其他Agent的动作。

     

     

    展开全文
  • 行业分类-物理装置-一种移动智能体群的单个智能体丢失位置找寻方法.zip
  • 多智能体集群算法,测试可以使用,需要具体修改
  • 多智能体一致性
  • 二阶一领导四跟随_领导跟随_多智能体_多智能体系统_智能体.zip
  • 多智能体一阶二阶一致性 matlab 仿真
  • consensus_多智能体一致_多智能体_matlab一致性控制问题_多智能体程序.zip
  • 二阶一领导四跟随_领导跟随_多智能体_多智能体系统_智能体_源码.zip
  • 一般线性有领导_一般线性_多智能体_线性多智能体_多智能体系统_一般线性系统.zip
  • 通过简单的程序,从而使智能体达到一致,从图像可以看出
  • 一致性文献

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 211,627
精华内容 84,650
关键字:

单智能体和多智能体