精华内容
下载资源
问答
  • 一种基于神经网络的多智能体建模技术.pdf
  • 基于机器加工能力的半导体生产线多智能体建模.pdf
  • 学习多智能体建模的论文,可供研究智能体建模应用等参考。。
  • 采用基于复杂系统多智能(Multi-Agent)的整体建模仿真方法,利用Swarm仿真软件平台建立进化博弈仿真模型(EGM),对该模型进行了描述和定义,运用EGM对各类对称博弈模型进行仿真运行,并对结果进行分析。...
  • 人工智能建模相关概念 2.人工智能的两个流派 21基于知识的人工智能系统 22人工神经网络 3.基于知识的人工智能建模 4.人工神经网络建模 5.人工智能建模发展趋势 6.小结 1.相关概念 人黑智能:通过人造物来模拟人的智能...
  • 大数据人工智能与用户建模 1 机器可以思维吗? 图灵测试 : 机器可以思维吗 " 人的模型 Whor Where e you? now? What next? 用户模型 用户移动模型 5 User Modeling Challenges? See next for an example Streaming ...
  • 1/20/2020 电力系统负荷建模人工智能方法综述 - 图文 - 百度文库 网页 资讯 视频 图片 知道 文库 贴吧 采购 地图 | 百度首页 登录 VIP新客立减2元 意见反馈 下载客户端 首页 分类 精品内容 申请认证 机构合作 频道...
  • 基于ICMMS框架的多智能体泵站系统建模技术研究.pdf
  • SWARM中的经济仿真 基于智能体建模与面向对象设计, 比较权威的学习Swarm软件的指导教材,中文版本
  • 智能体行为建模与方法

    千次阅读 2019-04-01 17:06:33
    5.智能体行为建模方法---状态机/行为树 6.智能体行为的量化分析 1.什么是智能体 2.智能体行为的产生 3. 智能体行为模型体系的组成 4.分层控制 5.智能体行为建模方法---状态机/行为树 6...

    目录

    1.什么是智能体 

    2.智能体行为的产生

    3. 智能体行为模型体系的组成

    4.分层控制

    5.智能体行为建模方法---状态机/行为树

    6.智能体行为的量化分析


     

    1.什么是智能体 

    2.智能体行为的产生

     

     

    3. 智能体行为模型体系的组成

     

    4.分层控制

     

    5.智能体行为建模方法---状态机/行为树

    6.智能体行为的量化分析

     

     参考:

    睿慕课---智能体行为建模与方法

     

    展开全文
  • 国内复杂性研究工作起步很早,但直到1997,才兴起复杂性研究的高潮,本文作者在国家自然科学基金项目复杂性研究专项——《基于多智能体的整体建模仿真方法及其应用研究》和校预研项目——《军事复杂适应系统理论、...
  • 是关于多智能体的一个博士毕业论文,感觉十分有用。
  • 这里基于一篇论文分享一种强化学习的建模过程,它是将通信当中的资源分配问题建立成强化学习方法,首先大概读一遍这个题目,叫“基于多智能体强化学习的无人机网络资源分配”,这里的network是通信网络不是神经网络...

            这里基于一篇论文分享一种强化学习的建模过程,它是将通信当中的资源分配问题建立成强化学习方法,首先大概读一遍这个题目,叫“基于多智能体强化学习的无人机网络资源分配”,这里的network是通信网络不是神经网络,资源分配是指通信网络中,频谱资源、信道、带宽、天线功率等等是有限的,怎么管理这些资源来保证能够通信的同时优化整个网络吞吐量、功耗,这个就是网络资源分配。这里多智能体就是涉及博弈论的思想。主要内容是分析这篇论文的一个建模过程。

             强化学习也是机器学习的一种,它属于以行为主义为代表的人工智能方法,相比于别的机器学习方法,我总结了他大概有四个特点:首先他和监督学习不同,监督学习他需要带标签的样本,但是强化学习的数据不带标签,只是环境在agent的动作下给了奖励信号;其次,他和无监督学习也不同,无监督学习试图通过没有标签的数据得到一种隐含结构,而强化学习只是通过与环境交互,最大化回报找到一种策略,并不是找出数据中的结构。然后是时隙的概念在强化学习中非常重要,针对不同的时隙划分方法他都有对应的算法。最后一个,我们知道神经网络或者深度学习,通过多层网络结构和非线性变换组合特征,对事物的感知和表示,而强化学习,通过最大化智能体系从环境中获得的累计奖励值来完成检测最优策略,所以,深度学习有较高的感知能力,而强化学习有较高的决策能力。

             左边图片显示的是强化学习作用的一般过程,然后我们首先定义一个智能体,它有一系列的动作,将这个动作作用于环境,环境就会发生改变,然后环境改变的同时,我们的agent会收到一个奖励信息,然后agent通过对环境的一个感知,也就是状态的输入和这个基于刚才得到的奖励信号,然后对下一步的动作做出决策,如此循环的过程就是强化学习的一个基本过程。我们把这个过程建立成把马尔科夫决策过程,决策过程一般包含五个元素,状态的集合S,动作集合a状态转移概率p,回报r,和折扣因子gama,

             下面举个简单例子(来源David Silver),假如我们今天有一节大课,然后他有三节小课,我们上第一节第一小节课的时候有个同学,他可能有50%的概率,在上课的时候玩手机你就刷微信刷微博,当他刷微信刷微博的时候摁可能就比较开心,然后他又有90%的概率继续刷微信刷微博。就这样持续一个过程,突然他发现就是老师提了个问题阿,那么他就有10%的概率,然后又回到这个第一小学的课堂的内容,然后他上了第一小节课,也有可能50%的概率,那么继续上第二小姐的课,在我们第二小节,可能他又有点累了,他有0.2的概率,睡睡觉,然后剩下80%的概率继续上第三小节课啊,上完第三上第三小节课的时候,那又有可能一年四的概率,你去参加什么party阿60%的概率,他就通过了这么大客或者通过了考试,那么通过考试呢,那么后面你就可以就医去睡觉了,去玩了是吧,这就是一个嗯,比较直接的马克福过程。在每一个状态的时候,我们可以根据他的动作,就是定义一个奖励值就是这里图中显示的红色的啊,他每每做出一个动作,根据你动作的好坏,他然后就定一个大小不一的奖励。

             有了上面的框架,那接下来我们要进行定量分析,所以要定义一些函数。首先是策略,他是从状态到每个动作的选择概率之间的映射,也表示一系列特定动作的集合,体现为概率的形式,所以他的值是0到1。然后是回报,每一时刻有即时奖励,就是这里的R,那么回报是各时刻收益的总和,但是这里引入一个额外的概念,折扣因子,这个值在0到1之间。在我们算t时刻回报时,如果一昧追求回报最大化,那距离t时刻比较远的即时奖励显得很重要,但事实上未来时刻的奖励对此刻影响是不重要的,所以需要乘上折扣因子。通过提取因子和合并,我们可以得到此刻回报与下一刻回报的关系。然后是两个价值函数:状态价值函数和动作价值函数,字面意思上,一个是衡量智能体处于一个状态的价值和智能体选定一个动作所带来的价值,状态价值是基于状态s和策略π对回报的期望,期望是什么?就是概率乘上对应的值再累加,我们可以看右边上图,空心圆代表智能体所处的状态,实心圆代表智能体所选的动作,比如智能体处于状态s,他有三种动作可选,分别对应一个选择概率π,那么每一个动作后又有可能产生两种状态,对应概率p,那么状态s的价值函数就等于状态s撇的价值乘上概率再累加,就是公式所对应。动作价值函数类似如下图,他基于一个动作开始,这个动作可能产生两种状态,每个状态又有两个动作可选,那动作a的价值函数等于动作a撇的价值乘上概率再累加。我们建立强化学习任务的目的是什么?就是通过最大化回报寻找出一个策略。有了上面的价值函数然后求最大就可以得到对应的策略了,分别加最优状态价值函数和最优动作价值函数。那么两个最优价值函数的关系由最后这个公式给出,代表的意思是:最优策略下的状态价值一定等于这个状态下最优动作的期望回报。也就是说我分别对两个价值函数求最优,得到的结果都是等价的,都是最优策略。

             有了上面的马尔科夫决策框架和一些定量的函数,接下来我们看下这篇论文是怎么把强化学习的模型建立在通信网络的资源分配问题上的。首先论文基于的大应用背景就是图中所示的,空中有m个无人机UAV,他们的轨迹是预先规划好的,地面总共有l个用户,然后考虑的网络是空对地通信的下行链路的资源分配,每个无人机选择若干用户进行信息交互,完成用户间的信息交互,但无人机之间是没有通信的,也就是每个无人机都不知道其他无人机的状态。对于每个无人机,他要从若干功率、若干用户和若干子信道中选择一个或多个,也就是图中显示的三个维度的动作集,也就是说论文的目的是寻找M个无人机中,每个无人机对应哪些功率值、用户数和子信道让整个通信网络的资源最大化利用,同时无人机之间是没有信息交互的,但根据通信原理,他们的信号是存在干扰的。

           基于上面的目的,接下来是如何定量分析,怎么评价选择一个动作所带来价值的多少呢,也就是说,怎样评价一个信道和用户通信的好坏呢?在通信领域,一般有个概念叫信道的信噪比(其实不仅通信里有,图像处理、好多地方都用到),通俗来讲就是一个信道中有用的信号比上噪声或者干扰,比值越大,信道质量越好。这篇论文是这么定义的:一个信道的信噪比等于信道增益乘功率比上干扰与衰减的和。这里的干扰就是除本无人机,接收到其他无人机的信号就为干扰。一个无人机总信干噪比就对用户数和信道数进行累加。有了信噪比就好办了,而且每个无人机的信噪比是可以测到的,那么就可以定义回报,这里的即时收益是:当我们给定一个阈值,当信噪比大于这个阈值时就定义有收益,小于则没收益为0,那么有收益具体为多少呢?W是信道总带宽,k是信道数,带宽越高、信噪比越高那收益值越高,而功率是消极值,所以收益和功率是负相关的。那么价值函数就是上面定义的,对回报取期望,所以最终的目标是最大化收益找到最佳策略。这里的策略是三个维度的动作集合。

             刚才我们定义回报时,它是包含信噪比当中的干扰的,这个干扰是来自其他无人机的信道,但是这个量虽然可以测量,但我们不知道其他无人机的子信道和功率水平以及信道增益,但是我们的目标是寻求整个网络的联合策略。所以怎么知道其他无人机的动作也是必须的,但是无人机相互间没有进行通信。这篇论文通过建立随机非合作博弈来解决这个矛盾。上面我们是从一个无人机的角度建立价值函数,接下来我们把联合策略融入回报和价值函数,对公式进行改写。首先假设每一个无人机的动作空间扩大至联合动作空间,分别表示所选用户、子信道和功率水平。那么信噪比改写成这样,这里θ-m是其他无人机的动作,G(t)是信道增益。这里我们再定义一个无人机状态,信噪比大于给定阈值时状态为1,其他状态为0。那么回报和上面是一样的,只不过里面的动作空间是联合策略下的空间。

             无人机 m 的优化目标是随着时间的推移使其期望回报最大化,我们对状态价值函数进行改写,在所建立的随机博弈中,玩家(uav)具有个体期望报酬,这取决于联合策略,而不取决于玩家的个体策略。因此,不能简单地期望玩家最大化他们的期望回报,因为不可能所有玩家同时达到这个目标。在随机博弈中,让整体最优的解就是纳什均衡解。在纳什均衡解的情况下,每个无人机的行动是对其他无人机选择的最佳反应,也就是说只要其他玩家无人机继续采用原来策略不变,该玩家无法通过改变自身策略获得更大回报时,这个策略是纳什均衡点。有了这个规则,我们不需要知道其他无人机的动作就可以找到自身的纳什均衡策略了。

             所以整个网络的框架就如图所示,具体来说,对于每一个无人机 m,左侧是在时隙 t 时的局部观察信息-状态 s t m 和奖励 r t m;右侧是在时隙 t 时无人机 m 的动作。当所有其他玩家选择固定策略时,随机博弈中玩家面临的决策问题相当于马尔可夫决策过程。所有 agent 独立地执行一个决策算法,但共享一个共同的结构。

          下面就是经典Q算法求解上面的价值函数,最终得到最优策略。

     

    源论文:

    Cui, Jingjing & Liu, Yuanwei & Nallanathan, Arumugam. (2019). Multi-Agent Reinforcement Learning Based Resource Allocation for UAV Networks. IEEE Transactions on Wireless Communications. PP. 10.1109/TWC.2019.2935201.

    https://arxiv.org/abs/1810.10408

     

    展开全文
  • 多智能体建模方法引入灾害风险评估领域,以期为灾害风险评估开拓新的研究思路。区别于一般静态评估 模型,基于智能体的风险评估模型自下而上,从微观上建立灾害系统各要素之间的相互关系,在风险情景下,仿 真模拟...
  • 采用多智能体遗传算法(MGA)进行投影寻踪聚类(PPC)建模,对投影向量约束条件采用两种不改变迭代进化过程的归一化处理方法,经三种不同类型的数据分别进行建模,得到了相同的建模结果,有效地解决了求解最佳投影...
  • 按照面向对象的分析和设计原则,在需求分析的基础上,对城市交通微观仿真系统进行了模块划分,提出了基于多智能体的微观交通仿真模型。探讨了面向Agent的微观交通仿真系统建模过程,从交通流生成模型、元胞自动机模型等...
  • 多智能体原理与技术

    2019-07-22 16:51:15
    资源名称:多智能体原理与技术内容简介: 本书旨在介绍自治智能体多智能体系统研究领域的理论和计算基础,并深入讨论开发各种基于智能体的系统的实用方法。全书分为7章,分别介绍智能体的概念,行为建模、规划与...
  • 利用Agent技术对道路交叉口进行建模,着重介绍了交叉口Agent的内部结构和控制策略。在交叉口控制中应用模糊理论和蚁群算法,提出了一种具有自学习机制的交叉口信号模糊控制方法。对模糊控制规则应用蚁群算法进行优化,...
  • 提出一种基于递归建模方法( RMM )的多智能体协调方法, 使智能体在分布式环境下对其它智 能体的 决策建模选择合理的行动。对 RMM 中的信念更新采用贝叶斯学习方法, 使智能体可以确定其 它智能体的准确模型...
  • 计算机技术、网络技术和通信技术的飞速发展,推动着无人驾驶飞行器的编队控制、传感器网络的分布控制、卫星的姿态控制等多智能体系统的建模与应用的逐步深入,也吸引了越来越的研究者致力于多智能体系统的动态编队...
  • 摘 要: 多智能体技术通过各自治智能体间的通讯、协调、合作来表达实际的复杂系统,特别适用于城市交通系统的建模。在分析了多智能体技术和城市交通系统特性的基础上,对多智能体在城市交通管理系统、出行信息系统和...
  • 基于Petri网的调控一体化智能防误系统的建模.pdf
  • 设计了一种使用角色来代替智能体多智能体协同学习方法。根据多智能体系统的特性在多智能体系统中划分若干角色,每个角色拥有其独立的状态空间和动作空间,为智能体的状态空间和动作空间来的子空间。把多智能体系统...
  • 然而,实际上多智能体系统具有大规模尺度、非线性耦合性特征,并且环境动态变化,使得系统精确建模非常困难,这给模型依赖的多智能体一致性控制协议设计带来了挑战。强化学习技术因其可以利用沿系统轨迹的测量数据...
  • 接着综述了近年来发展的, 包容了上述3 种方法且基于图论的编队控制理论的研究成果, 包括多智能体系统图论的建模, 基于代数图论和基于刚性图论的多智能体编队控制律设计、编队构型变换等方面的研究成果; 然后从图论...
  • 首先通过对手建模的方法, 分析对手的弱点或漏洞, 并采取相应的策略, 可以使智能体团队更加有效地自 主决策, 使其行动具有高度的针对性和目的性; 接着分析多智能体之间的信息共享, 通过压缩编码和选择性信息共享...
  • 基于Petri网的调控一体化智能防误系统的建模.rar
  • 研究了具有切换拓扑的离散时间多智能体系统的事件触发H∞滤波问题.构造了一种新的分布式事件触发控制方案,以确定是否每个智能体应该传输当前采样数据到滤波器,从而有效的节约网络资源.考虑到网络诱导时延的存在,...
  • 针对多智能体系统建模困难、不易推广应用的问题,根据其技术特点,提出了智能体制造系统体系结构,并利用Petri理论对系统进行了建模分析,不但使制造系统的智能化模型得以图形化地体现,而且降低了系统的复杂性,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 24,588
精华内容 9,835
关键字:

多智能体建模