精华内容
下载资源
问答
  • 微分对策理论是控制论和对策论的重要分支, 在军事对策和经济学研究领域具有非常广泛而重要的应用. 对此简述了半个世纪以来微分对策理论和应用发展的历史, 介绍了近年来微分对策理论发展的最新研究成果, 并对...
  • 采用伴随-BP技术, 将微分对策的两点边值求解问题转化为两个神经网络的学习问题, 训练后 的两个神经网络分别作为对策双方的最优控制器在线使用, 避免了直接求解复杂的两点边值问题。对追 逃微分对策问题的...
  • 求解非零和微分对策的自适应动态规划
  • 讨论了周期时变线性系统的一般线性二次型微分对策, 即状态方程非齐次且二次型赢得或损 失函数包含线性项的一般情况。给出了保性能对策问题和鞍点对策问题可解的充要条件和最优策略的 解析构造以及对策值。...
  • 对此, 基于微分对策理论, 提出一种适用于变速拦截情形的有界控制非线性制导律. 将对策双方的速度变化直接考虑到非线性相对运动关系中, 并通过适当选取的状态变量进行线性化, 从而设计制导律, 同时考虑可执行性, 并...
  • 研究线性二次微分对策鞍点策略的数值求解问题,基于小波多尺度多分辨逼近特性,提出一种 求解新方法。 该方法将原问题转化为代数问题,算法简捷明了, 适合于计算机求解。 数值例子表明该方法 是合理而可行的...
  • 采用由3个神经网络组成的自适应评判神经网络结构求解微分对策的2点边值问题,其中2个为控制神经网络,分别实现对微分对策系统中双边控制器的优化,一个为协态神经网络,用于对2点边值问题中的协态变量进行求解,协态网络...
  • 针对供应链系统中制造商和零售商的合作广告计划问题,利用微分对策构建动态模型,分别研究制造商和零售商在合作和非合作条件下的广告策略.运用动态规划原理,分别得出静态反馈Nash均衡和反馈Stackelberg均衡. 将两种...
  • 应用集值理论讨论以两个局中人对抗为主体、多个局中人间接参与的一类特殊微分对策,给出了其极小极大控制的存在性定理。
  • 由于用机器学习方法求解诸如最优控制、微分对策这样具有连续 动作和状态的问题时,效率(效果/算力)较低,特殊的微分对策问题将是测试机器学习方法的竞争案例。 一个古老的羊-犬博弈问题:羊在半径为 R 的圆形圈内...

    题目要求

    D题 基于一个微分对策问题的机器学习能力定量评价

    由于用机器学习方法求解诸如最优控制、微分对策这样具有连续 动作和状态的问题时,效率(效果/算力)较低,特殊的微分对策问题将是测试机器学习方法的竞争案例。

    一个古老的羊-犬博弈问题:羊在半径为 R 的圆形圈内具有定常速率 v 和满足以下限制的任意转弯能力:逃逸路径上每一点与圆心的距离随时间单调不减。羊逃出圆形圈则胜。犬沿着圆周以定常速率 V 围
    堵以防止羊逃逸,任何时刻具有选择圆周的两个方向之一的能力。

    任务:
    1.通过运动学精确建模求解犬的最优围堵策略;

    2.假设犬以最优策略围堵,基于精确建模求解羊可以逃逸胜出的条件;

    3.假设羊理解自己的能力、限制和躲避犬围堵而逃逸的目标,但不具备基于运动学的最优化决策知识,假设 2 中羊可以逃逸的条件被满足,给出一种机器学习方法,使得羊通过学习训练后实现逃逸;

    4.设计一套评价体系,定量评价 3 中给出的机器学习方法的学习能力;

    5.提出并定量评价更多的羊逃逸机器学习方法。

    思路

    已在公众号上免费共享,这道题目前有一定争议:多目标还是单目标是分析

    如果像稳拿奖的话建议先分析单目标,然后推广到多目标分析。

    如群或扫码关注下方公众号,学长第一时间更新赛题以及建模思路

    ① 公众号(学长建模)分享数模资料 回复资料即可

    ② CSDN博客搜索并关注:mathor_cup,可以到我主页看最新思路发布(最新思路及程序会置顶并会附上更新时间)

    [关键词]

    2021深圳杯建模 2021深圳杯 2021深圳杯建模 2021深圳杯 深圳杯数学建模 2021深圳杯数学建模 2021深圳杯杯建模思路 2021深圳杯A题思路 2021深圳杯B题思路 2021深圳杯C题思路 深圳杯 2021深圳杯 深圳杯思路 2021深圳杯思路 深圳杯赛题思路 2021深圳杯A题思路 2021深圳杯B题思路 2021深圳杯C题思路 2021深圳杯D题思路

    展开全文
  • 论文研究-导弹追逃博弈微分对策建模与求解.pdf, 针对导弹攻防对抗过程中拦截器追击具备较强机动能力弹头的追逃问题,建立了双方追逃微分对策模型并给出求解方法.一是给...
  • 论文研究-纵向合作广告的微分对策模型研究 .pdf,
  • 引入多人微分对策的最优均衡值和最优均衡解概念。在某种凸性条件下最优均衡解集是Pareto最优解的凸本质连通区域。利用最优均衡解将问题等价地转化为求解单目标最优控制问题。该方法可推广到求解局中人拥有不同权重的...
  • 一个简单的微分对策问题求解及其Matlab实现

    千次阅读 多人点赞 2021-04-16 15:51:25
    本文为《最优控制方法与Matlab实现》第八章 微分对策问题的实现。给出了文中例题的解法,以及matlab仿真代码,解题步骤和matlab均按照我习惯的方式给出。

    一个简单的微分对策问题求解及其Matlab实现

    理论知识


    注:本文为《最优控制方法与Matlab实现》第八章 微分对策问题的实现。给出了文中例题的解法,以及matlab仿真代码,解题步骤和matlab均按照我习惯的方式给出。

    全文的公式使用LaTex公式编辑器编辑而成。


    首先对微分对策的一般形式进行介绍。

    PE 是对策双方,动态系统状态方程为
    x ˙ ( t ) = f [ x ( t ) , u ( t ) , v ( t ) , t ] \dot {\boldsymbol x}(t)=\boldsymbol f[\boldsymbol x(t),\boldsymbol u(t),\boldsymbol v(t),t] x˙(t)=f[x(t),u(t),v(t),t]
    给定初始状态为
    x ( t ) = x 0 \boldsymbol x(t)=\boldsymbol x_0 x(t)=x0
    式中, x ( t ) \boldsymbol x(t) x(t) n n n P P P E E E 双方的状态变量; u ( t ) \boldsymbol u(t) u(t) m u m_u muP 方控制变量, v ( t ) \boldsymbol v(t) v(t) m v m_v mv E E E 方控制变量, u ( t ) \boldsymbol u(t) u(t) v ( t ) \boldsymbol v(t) v(t)的各分量 u i ( t ) u_i(t) ui(t) v i ( t ) v_i(t) vi(t) 均为 t t t 的分段连续函数, [ u ( t ) , v ( t ) ] [\boldsymbol u(t),\boldsymbol v(t)] [u(t),v(t)] 为容许控制策略或简称控制策略; f ( ⋅ ) \boldsymbol f(\cdot) f() n n n 维连续可微的向量函数; t ∈ [ t 0 , t f ] t \in [t_0,t_f] t[t0,tf] 。取性能指标为
    J [ u ( t ) , v ( t ) ] = θ [ x ( t f ) , t f ] + ∫ t 0 t f L [ x ( t ) , u ( t ) , v ( t ) , t ] d t J[\boldsymbol u(t),\boldsymbol v(t)]=\theta[\boldsymbol x(t_f),t_f]+\int_{t_0}^{t_f}L[\boldsymbol x(t),\boldsymbol u(t),\boldsymbol v(t),t]\mathrm{d}t J[u(t),v(t)]=θ[x(tf),tf]+t0tfL[x(t),u(t),v(t),t]dt
    【纳什-庞特里亚金最大最小原理】

    定义Hamilton函数如下:
    H [ x ( t ) , u ( t ) , v ( t ) , λ ( t ) , t ] = L [ x ( t ) , u ( t ) , v ( t ) , t ] + λ T f [ x ( t ) , u ( t ) , v ( t ) , t ] H[\boldsymbol x(t),\boldsymbol u(t),\boldsymbol v(t),\boldsymbol \lambda(t),t]=L[\boldsymbol x(t),\boldsymbol u(t),\boldsymbol v(t),t]+\boldsymbol \lambda^{\mathrm T} \boldsymbol f[\boldsymbol x(t),\boldsymbol u(t),\boldsymbol v(t),t] H[x(t),u(t),v(t),λ(t),t]=L[x(t),u(t),v(t),t]+λTf[x(t),u(t),v(t),t]
    【定理】 若 u ∗ ( t ) \boldsymbol u^*(t) u(t) v ∗ ( t ) \boldsymbol v^*(t) v(t) 是最优控制,则有:

    (1)状态变量 x ( t ) \boldsymbol x(t) x(t) 与协态变量 λ ( t ) \boldsymbol \lambda(t) λ(t) 满足以下协态方程
    x ˙ ( t ) = ∂ H ∂ λ λ ˙ ( t ) = − ∂ H ∂ x \dot {\boldsymbol x}(t)=\frac{\partial H}{\partial \lambda} \\ \dot {\boldsymbol \lambda}(t)=-\frac{\partial H}{\partial \boldsymbol x} x˙(t)=λHλ˙(t)=xH
    (2)边界条件
    x ( t 0 ) = x 0 λ ( t f ) = ∂ θ [ x ( t f ) , t f ] ∂ x ( t f ) \boldsymbol x(t_0)=\boldsymbol x_0 \\ \boldsymbol \lambda(t_f)=\frac{\partial \theta[\boldsymbol x(t_f),t_f]}{\partial \boldsymbol x(t_f)} x(t0)=x0λ(tf)=x(tf)θ[x(tf),tf]
    (3)对于任意 t ∈ [ t 0 , t f ] t \in [t_0,t_f] t[t0,tf],Hamilton函数满足下述条件
    H [ x ∗ ( t ) , u ∗ ( t ) , v ∗ ( t ) , λ ∗ ( t ) , t ] = min ⁡ u max ⁡ v H [ x ∗ ( t ) , u ( t ) , v ( t ) , λ ∗ ( t ) , t ] = max ⁡ v min ⁡ u H [ x ∗ ( t ) , u ( t ) , v ( t ) , λ ∗ ( t ) , t ] H[\boldsymbol x^*(t),\boldsymbol u^*(t),\boldsymbol v^*(t),\boldsymbol \lambda^*(t),t]=\min_{\boldsymbol u}\max_{\boldsymbol v}H[\boldsymbol x^*(t),\boldsymbol u(t),\boldsymbol v(t),\boldsymbol \lambda^*(t),t]\\ =\max_{\boldsymbol v}\min_{\boldsymbol u}H[\boldsymbol x^*(t),\boldsymbol u(t),\boldsymbol v(t),\boldsymbol \lambda^*(t),t] H[x(t),u(t),v(t),λ(t),t]=uminvmaxH[x(t),u(t),v(t),λ(t),t]=vmaxuminH[x(t),u(t),v(t),λ(t),t]


    【例题】

    在追逃对局中, y ( t ) y(t) y(t) v ( t ) v(t) v(t)分别表示追赶者与逃跑者的相对位移与速度,追赶者希望终端脱靶 ∣ y ( t f ) ∣ |y(t_f)| y(tf)最小,而逃跑者希望此值最大。该问题可描述为如下微分对策问题:

    系统状态方程为和初值为
    { y ˙ ( t ) = v ( t ) v ˙ ( t ) = a 1 ( t ) − a 2 ( t ) , { y ( t 0 ) = 0 v ( t 0 ) = v 0 \left\{\begin{matrix} \dot y(t)=v(t) \\ \dot v(t)=a_1(t)-a_2(t) \end{matrix}\right.,\quad \left\{\begin{matrix} y(t_0)=0 \\ v(t_0)=v_0 \end{matrix}\right. {y˙(t)=v(t)v˙(t)=a1(t)a2(t),{y(t0)=0v(t0)=v0
    t f t_f tf 给定,目标函数为
    J = 1 2 y 2 ( t f ) J=\frac{1}{2}y^2(t_f) J=21y2(tf)
    式中,追与逃的加速度 a 1 ( t ) a_1(t) a1(t) a 2 ( t ) a_2(t) a2(t) 是该问题的两个控制变量,其范围为
    ∣ a 1 ( t ) ∣ ≤ a 1 m , ∣ a 2 ( t ) ∣ ≤ a 2 m , a 1 m > a 2 m ≥ 0 |a_1(t)| \le a_{1m},\quad |a_2(t)| \le a_{2m},\quad a_{1m}>a_{2m}\ge0 a1(t)a1m,a2(t)a2m,a1m>a2m0


    【解】

    ① 构造Hamilton函数
    H = λ 1 v + λ 2 ( a 1 − a 2 ) H=\lambda_1v+\lambda_2(a_1-a_2) H=λ1v+λ2(a1a2)
    λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2 满足如下协态方程
    { λ ˙ 1 ( t ) = − ∂ H ∂ y = 0 λ ˙ 2 ( t ) = − ∂ H ∂ v = − λ 2 ⇒ { λ 1 ( t ) = C 1 λ 2 ( t ) = − C 1 t + C 2 (1) \left\{\begin{matrix} \dot \lambda_1(t)=-\frac{\partial H}{\partial y}=0 \\ \dot \lambda_2(t)=-\frac{\partial H}{\partial v}=-\lambda_2 \end{matrix}\right. \Rightarrow \left\{\begin{matrix} \lambda_1(t)=C_1 \\ \lambda_2(t)=-C_1t+C_2 \end{matrix}\right. \tag{1} {λ˙1(t)=yH=0λ˙2(t)=vH=λ2{λ1(t)=C1λ2(t)=C1t+C2(1)
    ② 边界条件

    可知
    φ = 1 2 y 2 ( t f ) \varphi=\frac{1}{2}y^2(t_f) φ=21y2(tf)
    那么边界条件为
    { y ( t 0 ) = 0 v ( t 0 ) = v 0 , { λ 1 ( t f ) = ∂ φ ∂ y ( t f ) = y ( t f ) λ 2 ( t f ) = ∂ φ ∂ v ( t f ) = 0 (2) \left\{\begin{matrix} y(t_0)=0 \\ v(t_0)=v_0 \end{matrix}\right.,\quad \left\{\begin{matrix} \lambda_1(t_f)=\frac{\partial \varphi}{\partial y(t_f)}=y(t_f) \\ \lambda_2(t_f)=\frac{\partial \varphi}{\partial v(t_f)}=0 \end{matrix}\right. \tag{2} {y(t0)=0v(t0)=v0,{λ1(tf)=y(tf)φ=y(tf)λ2(tf)=v(tf)φ=0(2)
    将式 ( 2 ) (2) (2) 与式 ( 1 ) (1) (1) 作对比,得到
    C 1 = y ( t f ) C_1=y(t_f) C1=y(tf)

    λ 2 ( t f ) = − y ( t f ) ⋅ t f + C 2 = 0 ⇒ C 2 = y ( t f ) ⋅ t f \lambda_2(t_f)=-y(t_f)\cdot t_f+C_2=0 \\ \Rightarrow C_2=y(t_f)\cdot t_f λ2(tf)=y(tf)tf+C2=0C2=y(tf)tf

    整理得到
    { λ 1 ( t ) = y ( t f ) λ 2 ( t ) = y ( t f ) ⋅ ( t f − t ) (3) \left\{\begin{matrix} \lambda_1(t)=y(t_f) \\ \lambda_2(t)=y(t_f)\cdot (t_f-t) \end{matrix}\right. \tag{3} {λ1(t)=y(tf)λ2(t)=y(tf)(tft)(3)
    ③ 极值条件

    根据纳什-庞特里亚金最大最小定理,可得到控制量 a 1 ( t ) a_1(t) a1(t) a 2 ( t ) a_2(t) a2(t) 的最优轨线如下
    { a 1 ∗ ( t ) = − a 1 m s g n [ λ 2 ( t ) ] a 2 ∗ ( t ) = − a 2 m s g n [ λ 2 ( t ) ] (4) \left\{\begin{matrix} a_1^*(t)=-a_{1m}\mathrm{sgn}[\lambda_2(t)] \\ a_2^*(t)=-a_{2m}\mathrm{sgn}[\lambda_2(t)] \end{matrix}\right. \tag{4} {a1(t)=a1msgn[λ2(t)]a2(t)=a2msgn[λ2(t)](4)
    将式 ( 3 ) (3) (3) 代入式 ( 4 ) (4) (4),则有
    { a 1 ∗ ( t ) = − a 1 m s g n [ y ( t f ) ( t f − t ) ] a 2 ∗ ( t ) = − a 2 m s g n [ y ( t f ) ( t f − t ) ] \left\{\begin{matrix} a_1^*(t)=-a_{1m}\mathrm{sgn}[y(t_f)(t_f-t)] \\ a_2^*(t)=-a_{2m}\mathrm{sgn}[y(t_f)(t_f-t)] \end{matrix}\right. {a1(t)=a1msgn[y(tf)(tft)]a2(t)=a2msgn[y(tf)(tft)]
    因为 t f − t > 0 t_f-t>0 tft>0 恒成立,上式可化简为
    { a 1 ∗ ( t ) = − a 1 m s g n [ y ( t f ) ] a 2 ∗ ( t ) = − a 2 m s g n [ y ( t f ) ] \left\{\begin{matrix} a_1^*(t)=-a_{1m}\mathrm{sgn}[y(t_f)] \\ a_2^*(t)=-a_{2m}\mathrm{sgn}[y(t_f)] \end{matrix}\right. {a1(t)=a1msgn[y(tf)]a2(t)=a2msgn[y(tf)]
    更清晰地,将上式改写为
    { a 1 ∗ ( t ) = − a 1 m , y ( t f ) > 0 a 1 ∗ ( t ) = a 1 m , y ( t f ) < 0 , { a 2 ∗ ( t ) = − a 2 m , y ( t f ) > 0 a 2 ∗ ( t ) = a 2 m , y ( t f ) < 0 (5) \left\{\begin{matrix} a_1^*(t)=-a_{1m},\quad y(t_f) > 0 \\ a_1^*(t)=a_{1m},\quad y(t_f) < 0 \end{matrix}\right.,\quad \left\{\begin{matrix} a_2^*(t)=-a_{2m},\quad y(t_f) > 0 \\ a_2^*(t)=a_{2m},\quad y(t_f) < 0 \end{matrix}\right. \tag{5} {a1(t)=a1m,y(tf)>0a1(t)=a1m,y(tf)<0,{a2(t)=a2m,y(tf)>0a2(t)=a2m,y(tf)<0(5)
    ④ 求解结果

    因为原状态方程为
    { y ˙ ( t ) = v ( t ) v ˙ ( t ) = ( a 2 m − a 1 m ) s g n [ y ( t f ) ] , { y ( t 0 ) = 0 v ( t 0 ) = v 0 \left\{\begin{matrix} \dot y(t)=v(t) \\ \dot v(t)=(a_{2m}-a_{1m})\mathrm{sgn}[y(t_f)] \end{matrix}\right.,\quad \left\{\begin{matrix} y(t_0)=0 \\ v(t_0)=v_0 \end{matrix}\right. {y˙(t)=v(t)v˙(t)=(a2ma1m)sgn[y(tf)],{y(t0)=0v(t0)=v0
    注意, ( a 1 m − a 2 m ) s g n [ y ( t f ) ] (a_{1m}-a_{2m})\mathrm{sgn}[y(t_f)] (a1ma2m)sgn[y(tf)]视作常数。对方程求积分,得到
    { y ( t ) = v 0 ( t − t 0 ) + 1 2 ( a 2 m − a 1 m ) s g n [ y ( t f ) ] ( t − t 0 ) 2 v ( t ) = ( a 2 m − a 1 m ) s g n [ y ( t f ) ] ( t − t 0 ) (6) \left\{\begin{matrix} y(t)=v_0(t-t_0)+\frac{1}{2}(a_{2m}-a_{1m})\mathrm{sgn}[y(t_f)](t-t_0)^2 \\ v(t)=(a_{2m}-a_{1m})\mathrm{sgn}[y(t_f)](t-t_0) \end{matrix}\right. \tag{6} {y(t)=v0(tt0)+21(a2ma1m)sgn[y(tf)](tt0)2v(t)=(a2ma1m)sgn[y(tf)](tt0)(6)
    疑问:我不懂为什么 y ( t ) y(t) y(t) 中还有 v ( t − t 0 ) v(t-t_0) v(tt0) 这一项,难道和初值条件有关系吗?

    所以,末端条件为
    y ( t f ) = v 0 ( t f − t 0 ) + 1 2 ( a 2 m − a 1 m ) s g n [ y ( t f ) ] ( t f − t 0 ) 2 y(t_f)=v_0(t_f-t_0)+\frac{1}{2}(a_{2m}-a_{1m})\mathrm{sgn}[y(t_f)](t_f-t_0)^2 y(tf)=v0(tft0)+21(a2ma1m)sgn[y(tf)](tft0)2
    根据式 ( 5 ) (5) (5) 的分段条件,有
    y ( t f ) > 0 时 , y ( t f ) = v 0 ( t f − t 0 ) + 1 2 ( a 2 m − a 1 m ) s g n [ y ( t f ) ] ( t f − t 0 ) 2 > 0 ⇒ 2 v 0 > − ( a 2 m − a 1 m ) ⋅ 1 ⋅ ( t f − t 0 ) ⇒ 2 v 0 > ( a 1 m − a 2 m ) ⋅ 1 ⋅ ( t f − t 0 ) ⇒ 2 v 0 ( a 1 m − a 2 m ) ( t f − t 0 ) > 1 y(t_f)>0时,\\ y(t_f)=v_0(t_f-t_0)+\frac{1}{2}(a_{2m}-a_{1m})\mathrm{sgn}[y(t_f)](t_f-t_0)^2>0 \\ \Rightarrow 2v_0>-(a_{2m}-a_{1m})\cdot 1 \cdot (t_f-t_0) \\ \Rightarrow 2v_0>(a_{1m}-a_{2m})\cdot 1 \cdot (t_f-t_0) \\ \Rightarrow \frac{2v_0}{(a_{1m}-a_{2m})(t_f-t_0)}>1\\ y(tf)>0,y(tf)=v0(tft0)+21(a2ma1m)sgn[y(tf)](tft0)2>02v0>(a2ma1m)1(tft0)2v0>(a1ma2m)1(tft0)(a1ma2m)(tft0)2v0>1

    y ( t f ) < 0 时 , y ( t f ) = v 0 ( t f − t 0 ) + 1 2 ( a 2 m − a 1 m ) s g n [ y ( t f ) ] ( t f − t 0 ) 2 < 0 ⇒ 2 v 0 < − ( a 2 m − a 1 m ) ⋅ ( − 1 ) ⋅ ( t f − t 0 ) ⇒ 2 v 0 < ( a 1 m − a 2 m ) ⋅ ( − 1 ) ⋅ ( t f − t 0 ) ⇒ 2 v 0 ( a 1 m − a 2 m ) ( t f − t 0 ) < − 1 y(t_f)<0时,\\ y(t_f)=v_0(t_f-t_0)+\frac{1}{2}(a_{2m}-a_{1m})\mathrm{sgn}[y(t_f)](t_f-t_0)^2<0 \\ \Rightarrow 2v_0<-(a_{2m}-a_{1m})\cdot (-1) \cdot (t_f-t_0) \\ \Rightarrow 2v_0<(a_{1m}-a_{2m})\cdot (-1) \cdot (t_f-t_0) \\ \Rightarrow \frac{2v_0}{(a_{1m}-a_{2m})(t_f-t_0)}<-1\\ y(tf)<0,y(tf)=v0(tft0)+21(a2ma1m)sgn[y(tf)](tft0)2<02v0<(a2ma1m)(1)(tft0)2v0<(a1ma2m)(1)(tft0)(a1ma2m)(tft0)2v0<1

    写在一起,有
    { y ( t f ) > 0 ⇒ 2 v 0 ( a 1 m − a 2 m ) ( t f − t 0 ) > 1 y ( t f ) < 0 ⇒ 2 v 0 ( a 1 m − a 2 m ) ( t f − t 0 ) < − 1 (7) \left\{\begin{matrix} y(t_f)>0\Rightarrow \frac{2v_0}{(a_{1m}-a_{2m})(t_f-t_0)}>1\\ y(t_f)<0\Rightarrow \frac{2v_0}{(a_{1m}-a_{2m})(t_f-t_0)}<-1 \end{matrix}\right. \tag{7} {y(tf)>0(a1ma2m)(tft0)2v0>1y(tf)<0(a1ma2m)(tft0)2v0<1(7)
    最后,最优控制为
    { a 1 ∗ ( t ) = − a 1 m , 2 v 0 ( a 1 m − a 2 m ) ( t f − t 0 ) > 1 a 1 ∗ ( t ) = a 1 m , 2 v 0 ( a 1 m − a 2 m ) ( t f − t 0 ) < − 1 { a 2 ∗ ( t ) = − a 2 m , 2 v 0 ( a 1 m − a 2 m ) ( t f − t 0 ) > 1 a 2 ∗ ( t ) = a 2 m , 2 v 0 ( a 1 m − a 2 m ) ( t f − t 0 ) < − 1 (8) \left\{\begin{matrix} a_1^*(t)=-a_{1m},\quad \frac{2v_0}{(a_{1m}-a_{2m})(t_f-t_0)}>1 \\ a_1^*(t)=a_{1m},\quad \frac{2v_0}{(a_{1m}-a_{2m})(t_f-t_0)}<-1 \end{matrix}\right.\\ \left\{\begin{matrix} a_2^*(t)=-a_{2m},\quad \frac{2v_0}{(a_{1m}-a_{2m})(t_f-t_0)}>1 \\ a_2^*(t)=a_{2m},\quad \frac{2v_0}{(a_{1m}-a_{2m})(t_f-t_0)}<-1 \end{matrix}\right. \tag{8} {a1(t)=a1m,(a1ma2m)(tft0)2v0>1a1(t)=a1m,(a1ma2m)(tft0)2v0<1{a2(t)=a2m,(a1ma2m)(tft0)2v0>1a2(t)=a2m,(a1ma2m)(tft0)2v0<1(8)

    思考

    就本文最简单的微分对策问题而言,其解题步骤与最优控制类似,参考最优控制的解题方法解微分对策即可。

    这里给出Matlab仿真代码:

    【例题2】

    现有追逃问题,题设【例题1】,其起始时刻 t 0 = 0 t_0=0 t0=0,终端时刻 t f = 1 t_f=1 tf=1,初始相对速度 v 0 = 3 m / s v_0=3m/s v0=3m/s,追赶者加速度 ∣ a 1 ( t ) ∣ ≤ a 1 m = 2 |a_1(t)| \le a_{1m}=2 a1(t)a1m=2,逃跑者加速度 ∣ a 2 ( t ) ∣ ≤ a 2 m = 1.5 |a_2(t)| \le a_{2m}=1.5 a2(t)a2m=1.5

    clear;clc;close all;
    % 题目条件
    t_0 = 0; t_f = 1;
    v_0 = 3;
    a_1m = 2; a_2m = 1.5;
    
    %% 01 构建Hamilton函数
    syms H lambda_1 lambda_2 y v a_1 a_2
    H = lambda_1*v + lambda_2*(a_1-a_2);
    % 求协态方程
    Dlambda_1 = -diff(H,y);
    Dlambda_2 = -diff(H,v);
    
    %% 02 边界条件
    % 性能指标中的常值型性能指标项
    syms varphi
    varphi = 0.5*y(1)^2;
    
    lambda_1 = diff(varphi,y);
    lambda_2 = diff(varphi,v);
    
    %% 03 极值条件
    % 省略没写
    
    %% 04 求解结果
    eq_1 = strcat('Dlambda_1=',char(Dlambda_1));
    eq_2 = strcat('Dlambda_2=',char(Dlambda_2));
    con_1 = strcat('lambda_1(1)=',char(y(1)));
    con_2 = strcat('lambda_2(1)=',char(lambda_2));
    [lambda_1,lambda_2] = dsolve(eq_1,eq_2,con_1,con_2);
    [v,y] = dsolve('Dy=v,Dv=(a2m-a1m)*sgnyf','y(0)=0,v(0)=3');
    % 求终端时刻相对位移
    t = tf;         % 这个位置有问题,代码错误
    y = simplify(y);
    y = expand(y);
    yf = subs(y);
    

    但是t = tf这一步存在问题,会提示t = Empty transfer function.。导致代码执行至yf = subs(y)处出错,显示Conversion to 'sym' from 'tf' is not possible.

    不知道什么原因,暂时无法解释。

    但是对于 λ ˙ 1 \dot \lambda_1 λ˙1 λ ˙ 2 \dot \lambda_2 λ˙2 λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2的求解是正确的,如下图所示。
    计算结果
    − − − E n d − − − ---\mathrm{End}--- End

    展开全文
  • 带随机跳跃的线性二次非零和微分对策问题,吴臻,于志勇,对于一类以布朗运动和泊松过程为噪声源的正倒向随机微分方程在单调性假设下, 给出了解的存在性和唯一性的结果。然后将这些结果应�
  • 论文研究-协商微分对策理论及其在多机空战分析中的应用.pdf, 针对多机空战的特点,建立了一种新颖的研究理论——协商微分对策理论,并提出了一种求解算法——广义微分...
  • 声誉、利他主义下的孵化器与创投合作微分对策研究 ,吴文清,吕卓燏,将孵化器与创投的动态合作抽象为
  • 研究线性二次微分对策鞍点策略的数值求解问题,基于小波多尺度多分辨逼近特性,提出-种求解新方法,该方法将原问题转化为代数问题,算法简捷明了,适合于计算机求解。数值例子表明该方法是合理而可行的。
  • 论文研究-多目标微分对策理论及其在多目标攻击中的应用.pdf, 本文首先提出了一种新颖的多机空战研究方法-多目标微分对策理论,并应用之对1:2多目标攻击空战进行了...
  • 基于演化博弈和微分对策论的充电站选择和定价策略,陈杰,杨博,本文主要提出了一个两层博弈框架来解决这样一个分层问题:多个充电站和一群混合动力汽车都想最大化自己的利益。对于混合动力汽车
  • 用stackelberg微分对策模型描述制造商与零售商的动态广告策略,并根据动态规划原理求出反馈stackelberg均衡解。结果显示,制造商对零售商的广告支持类型取决于双方的边际利润。在合作广告计划中双方的均衡广告策略中...
  • 这篇文章摘抄自沙昌基教授《数理战术学》第六章 单兵种和多兵种作战的微分对策模型。并附上了自己思考。

    准备工作

    这篇文章摘抄自沙昌基教授《数理战术学》第六章 单兵种和多兵种作战的微分对策模型。并附上了自己思考。

    注:全文的公式使用LaTex公式编辑器编辑而成

    预备知识

    设甲、乙双方进行直瞄武器交战,对每一时刻 t t t ,甲方仅有一类作战单位 X X X X X X 的数量为 x = x ( t ) x=x(t) x=x(t) ,乙方共有两类作战单位,第一类作战单位的个数为 y = y ( t ) y=y(t) y=y(t) ,第二类作战单位的个数为 z = z ( t ) z=z(t) z=z(t) ,双方的初始作战单位数量为
    x ( 0 ) = x 0 , y ( 0 ) = y 0 , z ( 0 ) = z 0 (1) x(0)=x_0,y(0)=y_0,z(0)=z_0 \tag{1} x(0)=x0,y(0)=y0,z(0)=z0(1)
    其中
    x 0 > 0 , y 0 > 0 , z 0 > 0 x_0>0,y_0>0,z_0>0 x0>0,y0>0,z0>0
    设甲方分配作战单位 X X X用于攻击乙方两类作战单位 Y Y Y Z Z Z的比例分别为 ϕ 1 = ϕ 1 ( t ) \phi_1=\phi_1(t) ϕ1=ϕ1(t) ϕ 2 = ϕ 2 ( t ) \phi_2=\phi_2(t) ϕ2=ϕ2(t),乙方分配作战单位 Y Y Y Z Z Z用于攻击甲方作战单位 X X X的比例分别为 ψ 1 = ψ 1 ( t ) \psi_1=\psi_1(t) ψ1=ψ1(t) ψ 2 = ψ 2 ( t ) \psi_2=\psi_2(t) ψ2=ψ2(t),则显然有
    { 0 ≤ ϕ 1 ( t ) ≤ 1 , 0 ≤ ϕ 2 ( t ) ≤ 1 0 ≤ ψ 1 ( t ) ≤ 1 , 0 ≤ ψ 2 ( t ) ≤ 1 ϕ 1 ( t ) + ϕ 2 ( t ) ≤ 1 (2) \left\{\begin{matrix} 0 \le \phi_1(t) \le 1, \quad 0 \le \phi_2(t) \le 1 \\ 0 \le \psi_1(t) \le 1, \quad 0 \le \psi_2(t) \le 1 \\ \phi_1(t) + \phi_2(t) \le 1 \end{matrix}\right. \tag{2} 0ϕ1(t)1,0ϕ2(t)10ψ1(t)1,0ψ2(t)1ϕ1(t)+ϕ2(t)1(2)
    此时交战双方的Lanchester方程为
    { x ˙ ( t ) = − ψ 1 c y − ψ 2 d z y ˙ ( t ) = − ϕ 1 a x z ˙ ( t ) = − ϕ 2 b x (3) \left\{\begin{matrix} \dot x(t) = -\psi_1cy-\psi_2dz \\ \dot y(t) = -\phi_1ax \\ \dot z(t) = -\phi_2bx \\ \end{matrix}\right. \tag{3} x˙(t)=ψ1cyψ2dzy˙(t)=ϕ1axz˙(t)=ϕ2bx(3)
    参数说明:

    • a:甲方攻击乙I时,单位时间内消灭乙I作战单位个数, a > 0 a>0 a>0
    • b:甲方攻击乙II时,单位时间内消灭乙II作战单位个数, b > 0 b>0 b>0
    • c:乙I攻击甲方时,单位时间内消灭甲方作战单位个数, c > 0 c>0 c>0
    • d:乙II攻击甲方时,单位时间内消灭甲方作战单位个数, d > 0 d>0 d>0

    作战结束的条件为:甲方有足够兵力将乙方两类作战单位消灭。

    对于甲方来说,目标是战斗结束时甲方剩余作战单位数 x ˉ \bar x xˉ 尽可能

    对于乙方来说,目标是战斗结束时甲方剩余作战单位数 x ˉ \bar x xˉ 尽可能

    在这里记状态向量为 S = ( x , y , z ) T S=(x,y,z)^{\mathrm{T}} S=(x,y,z)T,控制函数为 Φ = ( ϕ 1 , ϕ 2 ) \Phi=(\phi_1,\phi_2) Φ=(ϕ1,ϕ2) Ψ = ( ψ 1 , ψ 2 ) \Psi=(\psi_1,\psi_2) Ψ=(ψ1,ψ2)。当兵力分配矩阵 Φ \Phi Φ Ψ \Psi Ψ 确定后,战斗过程就确定了,甲方剩余实力 x ˉ \bar x xˉ 就确定了。

    因此可以将这个问题转化为微分对策问题,即微分动力系统 ( 3 ) (3) (3)在初值 ( 1 ) (1) (1)与控制函数约束 ( 2 ) (2) (2)的条件下,甲、乙双方的最优策略 Φ \Phi Φ Ψ \Psi Ψ 满足如下关系:
    max ⁡ Φ min ⁡ Ψ ( Φ , Ψ ) = min ⁡ Ψ max ⁡ Φ ( Φ , Ψ ) = g ( Φ ∗ , Ψ ∗ ) (4) \max_\Phi \min_\Psi(\Phi,\Psi)=\min_\Psi \max_\Phi(\Phi,\Psi)=g(\Phi^*,\Psi^*) \tag{4} ΦmaxΨmin(Φ,Ψ)=ΨminΦmax(Φ,Ψ)=g(Φ,Ψ)(4)
    这个公式的前提是
    x ( t ) ≥ 0 , y ( t ) ≥ 0 , z ( t ) ≥ 0 x(t) \ge 0,\quad y(t) \ge 0,\quad z(t) \ge 0 x(t)0,y(t)0,z(t)0

    微分对策问题的求解

    假定作战过程中乙II在 T T T 时刻被消灭,即
    z ( T ) = 0 z(T)=0 z(T)=0
    随后,按照单对单兵种直瞄武器Lanchester方程中给出的原则,甲、乙双方的最优策略是将各自全部兵力投入战斗。在此种策略下,战斗结束时,甲方剩余战斗单位数平方为
    J = x ˉ 2 = x 2 ( T ) − c a y 2 ( T ) J=\bar x^2=x^2(T)-\frac{c}{a}y^2(T) J=xˉ2=x2(T)acy2(T)
    那么式 ( 4 ) (4) (4) 可改写为
    max ⁡ Φ min ⁡ Ψ J = min ⁡ Ψ max ⁡ Φ J = J ∣ Φ ∗ , Ψ ∗ \max_\Phi \min_\Psi J=\min_\Psi \max_\Phi J=J \bigg |_{\Phi^*,\Psi^*} ΦmaxΨminJ=ΨminΦmaxJ=JΦ,Ψ
    求解兵力分配矩阵 Φ \Phi Φ Ψ \Psi Ψ

    【解】

    ① 构建Halmiton函数

    H = λ 1 ( − ψ 1 c y − ψ 2 d z ) + λ 2 ( − ϕ 1 a x ) + λ 3 ( − ϕ 2 b x ) H=\lambda_1(-\psi_1cy-\psi_2dz)+\lambda_2(-\phi_1ax)+\lambda_3(-\phi_2bx) H=λ1(ψ1cyψ2dz)+λ2(ϕ1ax)+λ3(ϕ2bx)

    协态方程为
    { λ ˙ 1 = − ∂ H ∂ x = λ 2 ϕ 1 a + λ 3 ϕ 2 b λ ˙ 2 = − ∂ H ∂ y = λ 1 ψ 1 c λ ˙ 3 = − ∂ H ∂ z = λ 1 ψ 2 d (5) \left\{\begin{matrix} \dot \lambda_1=-\frac{\partial H}{\partial x}=\lambda_2\phi_1a+\lambda_3\phi_2b \\ \dot \lambda_2=-\frac{\partial H}{\partial y}=\lambda_1\psi_1c \\ \dot \lambda_3=-\frac{\partial H}{\partial z}=\lambda_1\psi_2d \end{matrix}\right. \tag{5} λ˙1=xH=λ2ϕ1a+λ3ϕ2bλ˙2=yH=λ1ψ1cλ˙3=zH=λ1ψ2d(5)

    ② 边界条件

    由性能指标 J = x 2 ( T ) − c a y 2 ( T ) J=x^2(T)-\frac{c}{a}y^2(T) J=x2(T)acy2(T)
    φ = x 2 ( T ) − c a y 2 ( T ) \varphi=x^2(T)-\frac{c}{a}y^2(T) φ=x2(T)acy2(T)

    { λ 1 ( T ) = − ∂ φ ∂ x = 2 x ( T ) λ 2 ( T ) = − ∂ φ ∂ y = − 2 c a y ( T ) \left\{\begin{matrix} \lambda_1(T)=-\frac{\partial \varphi}{\partial x}=2x(T) \\ \lambda_2(T)=-\frac{\partial \varphi}{\partial y}=-\frac{2c}{a}y(T) \\ \end{matrix}\right. {λ1(T)=xφ=2x(T)λ2(T)=yφ=a2cy(T)

    ③ 终止条件

    由时间终止条件得
    H = 0 ⇒ λ 1 ( T ) ( − ψ 1 ( T ) c y ( T ) − ψ 2 ( T ) d z ( T ) ) + λ 2 ( T ) ( − ϕ 1 ( T ) a x ( T ) ) + λ 3 ( T ) ( − ϕ 2 ( T ) b x ( T ) ) = 0 H=0 \\ \Rightarrow \lambda_1(T)\bigg (-\psi_1(T)cy(T)-\psi_2(T)dz(T)\bigg )+\lambda_2(T)\bigg (-\phi_1(T)ax(T)\bigg )+\lambda_3(T)\bigg (-\phi_2(T)bx(T)\bigg )=0 H=0λ1(T)(ψ1(T)cy(T)ψ2(T)dz(T))+λ2(T)(ϕ1(T)ax(T))+λ3(T)(ϕ2(T)bx(T))=0
    由既定假设条件可知 z ( T ) = 0 z(T)=0 z(T)=0 ,代入上式,得到
    λ 1 ( T ) ( − ψ 1 ( T ) c y ( T ) ) + λ 2 ( T ) ( − ϕ 1 ( T ) a x ( T ) ) + λ 3 ( T ) ( − ϕ 2 ( T ) b x ( T ) ) = 0 ⇒ λ 3 ( T ) = − λ 1 ( T ) ψ 1 ( T ) c y ( T ) + λ 2 ( T ) ϕ 1 ( T ) a x ( T ) ϕ 2 ( T ) b x ( T ) ⇒ λ 3 ( T ) = − 2 x ( T ) ψ 1 ( T ) c y ( T ) − 2 c a y ( T ) ϕ 1 ( T ) a x ( T ) ϕ 2 ( T ) b x ( T ) ⇒ λ 3 ( T ) = − 2 c b ⋅ ψ 1 ( T ) − ϕ 1 ( T ) ϕ 2 ( T ) ⋅ y ( T ) \lambda_1(T)\bigg (-\psi_1(T)cy(T)\bigg )+\lambda_2(T)\bigg (-\phi_1(T)ax(T)\bigg )+\lambda_3(T)\bigg (-\phi_2(T)bx(T)\bigg )=0 \\ \Rightarrow \lambda_3(T)=-\frac{\lambda_1(T)\psi_1(T)cy(T)+\lambda_2(T)\phi_1(T)ax(T)}{\phi_2(T)bx(T)}\\ \Rightarrow \lambda_3(T)=-\frac{2x(T)\psi_1(T)cy(T)-\frac{2c}{a}y(T)\phi_1(T)ax(T)}{\phi_2(T)bx(T)}\\ \Rightarrow \lambda_3(T)=-\frac{2c}{b} \cdot \frac{\psi_1(T)-\phi_1(T)}{\phi_2(T)} \cdot y(T) λ1(T)(ψ1(T)cy(T))+λ2(T)(ϕ1(T)ax(T))+λ3(T)(ϕ2(T)bx(T))=0λ3(T)=ϕ2(T)bx(T)λ1(T)ψ1(T)cy(T)+λ2(T)ϕ1(T)ax(T)λ3(T)=ϕ2(T)bx(T)2x(T)ψ1(T)cy(T)a2cy(T)ϕ1(T)ax(T)λ3(T)=b2cϕ2(T)ψ1(T)ϕ1(T)y(T)
    将辅助函数 λ 1 ( T ) \lambda_1(T) λ1(T) λ 2 ( T ) \lambda_2(T) λ2(T) λ 3 ( T ) \lambda_3(T) λ3(T)归纳在一起,写为
    { λ 1 ( T ) = − ∂ φ ∂ x = 2 x ( T ) λ 2 ( T ) = − ∂ φ ∂ y = − 2 c a y ( T ) λ 3 ( T ) = − 2 c b ⋅ ψ 1 ( T ) − ϕ 1 ( T ) ϕ 2 ( T ) ⋅ y ( T ) (6) \left\{\begin{matrix} \lambda_1(T)=-\frac{\partial \varphi}{\partial x}=2x(T) \\ \lambda_2(T)=-\frac{\partial \varphi}{\partial y}=-\frac{2c}{a}y(T) \\ \lambda_3(T)=-\frac{2c}{b} \cdot \frac{\psi_1(T)-\phi_1(T)}{\phi_2(T)} \cdot y(T) \end{matrix}\right. \tag{6} λ1(T)=xφ=2x(T)λ2(T)=yφ=a2cy(T)λ3(T)=b2cϕ2(T)ψ1(T)ϕ1(T)y(T)(6)
    题目的假设条件为在 T T T 时刻乙II已经被消灭了,即 z ( T ) = 0 z(T)=0 z(T)=0 ,所以 ϕ 2 ( T ) > 0 \phi_2(T)>0 ϕ2(T)>0

    ④ 求解结果

    根据微分对策原理,对于任意使 Φ ∗ \Phi^* Φ Ψ ∗ \Psi^* Ψ 连续的时刻 t t t ,均使Hamilton函数达到鞍点,即
    H ( S ∗ ( t ) , λ ∗ ( t ) , Φ ∗ ( t ) , Ψ ∗ ( t ) , t ) = max ⁡ Φ min ⁡ Ψ H ( S ∗ ( t ) , λ ∗ ( t ) , Φ ( t ) , Ψ ( t ) , t ) = min ⁡ Ψ max ⁡ Φ H ( S ∗ ( t ) , λ ∗ ( t ) , Φ ( t ) , Ψ ( t ) , t ) H\bigg (S^*(t),\lambda^*(t),\Phi^*(t),\Psi^*(t),t \bigg ) \\ =\max_\Phi \min_\Psi H\bigg (S^*(t),\lambda^*(t),\Phi(t),\Psi(t),t \bigg ) \\ =\min_\Psi \max_\Phi H\bigg (S^*(t),\lambda^*(t),\Phi(t),\Psi(t),t \bigg ) H(S(t),λ(t),Φ(t),Ψ(t),t)=ΦmaxΨminH(S(t),λ(t),Φ(t),Ψ(t),t)=ΨminΦmaxH(S(t),λ(t),Φ(t),Ψ(t),t)
    其中, Φ \Phi Φ Ψ \Psi Ψ 满足式 ( 2 ) (2) (2)

    下面通过分析,简化最优解 S ∗ , λ ∗ , Φ ∗ , Ψ ∗ S^*,\lambda^*,\Phi^*,\Psi^* S,λ,Φ,Ψ 的求解过程。

    由式 ( 6 ) (6) (6) 可以对 λ 1 ∗ ( T ) \lambda_1^*(T) λ1(T) λ 2 ∗ ( T ) \lambda_2^*(T) λ2(T) 进行定性分析,有
    { λ 1 ∗ ( T ) = 2 x ( T ) > 0 λ 2 ∗ ( T ) = − 2 c a y ( T ) < 0 \left\{\begin{matrix} \lambda_1^*(T)=2x(T)>0 \\ \lambda_2^*(T)=-\frac{2c}{a}y(T)<0 \\ \end{matrix}\right. {λ1(T)=2x(T)>0λ2(T)=a2cy(T)<0
    为了方便分析,再重新写一遍Hamilton函数放在这里。
    H = λ 1 ( − ψ 1 c y − ψ 2 d z ) + λ 2 ( − ϕ 1 a x ) + λ 3 ( − ϕ 2 b x ) H=\lambda_1(-\psi_1cy-\psi_2dz)+\lambda_2(-\phi_1ax)+\lambda_3(-\phi_2bx) H=λ1(ψ1cyψ2dz)+λ2(ϕ1ax)+λ3(ϕ2bx)
    甲方的目标是使 H H H 取极大值;

    乙方的目标是使 H H H 取极小值。

    因为 λ 1 ∗ ( T ) > 0 \lambda_1^*(T)>0 λ1(T)>0,应使 ψ 1 ∗ ( t ) \psi_1^*(t) ψ1(t) ψ 2 ∗ ( t ) \psi_2^*(t) ψ2(t) 越大越好,取
    { ψ 1 ∗ ( t ) = 1 ψ 2 ∗ ( t ) = 1 (7) \left\{\begin{matrix} \psi_1^*(t)=1 \\ \psi_2^*(t)=1 \end{matrix}\right. \tag{7} {ψ1(t)=1ψ2(t)=1(7)
    λ 2 ∗ ( T ) < 0 \lambda_2^*(T)<0 λ2(T)<0 ,则应使 ϕ 1 ∗ ( t ) \phi_1^*(t) ϕ1(t) 越大越好,取
    ϕ 1 ∗ ( t ) = 1 − ϕ 2 ∗ ( t ) (8) \phi_1^*(t)=1-\phi_2^*(t) \tag{8} ϕ1(t)=1ϕ2(t)(8)
    那么 λ 3 ∗ ( T ) \lambda_3^*(T) λ3(T)
    λ 3 ∗ ( T ) = − 2 c b ⋅ ψ 1 ∗ ( T ) − ϕ 1 ∗ ( T ) ϕ 2 ∗ ( T ) ⋅ y ( T ) ⇒ λ 3 ∗ ( T ) = − 2 c b ⋅ 1 − ( 1 − ϕ 2 ∗ ( t ) ) ϕ 2 ∗ ( T ) ⋅ y ( T ) ⇒ λ 3 ∗ ( T ) = − 2 c b y ( T ) < 0 \lambda_3^*(T)=-\frac{2c}{b} \cdot \frac{\psi_1^*(T)-\phi_1^*(T)}{\phi_2^*(T)} \cdot y(T) \\ \Rightarrow \lambda_3^*(T)=-\frac{2c}{b} \cdot \frac{1-(1-\phi_2^*(t))}{\phi_2^*(T)} \cdot y(T) \\ \Rightarrow \lambda_3^*(T)=-\frac{2c}{b}y(T)<0 λ3(T)=b2cϕ2(T)ψ1(T)ϕ1(T)y(T)λ3(T)=b2cϕ2(T)1(1ϕ2(t))y(T)λ3(T)=b2cy(T)<0


    分析方法1:

    由式 ( 6 ) (6) (6) ,若有 λ 2 ( t ) < 0 \lambda_2(t)<0 λ2(t)<0 λ 3 ( t ) < 0 \lambda_3(t)<0 λ3(t)<0,则得到 λ ˙ 1 ( t ) < 0 \dot \lambda_1(t)<0 λ˙1(t)<0,说明 λ 1 \lambda_1 λ1 t ∈ [ 0 , T ] t \in [0,T] t[0,T] 单调下降。又因为 λ 1 ( T ) > 0 \lambda_1(T)>0 λ1(T)>0 ,那么可以看出 λ 1 \lambda_1 λ1 t ∈ [ 0 , T ] t \in [0,T] t[0,T] 处,恒有 λ 1 ( t ) > 0 \lambda_1(t)>0 λ1(t)>0

    然后,因为 λ 1 ( t ) > 0 \lambda_1(t)>0 λ1(t)>0,则有 λ ˙ 2 ( t ) > 0 \dot \lambda_2(t)>0 λ˙2(t)>0 λ ˙ 3 ( t ) > 0 \dot \lambda_3(t)>0 λ˙3(t)>0,说明 λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2 t ∈ [ 0 , T ] t \in [0,T] t[0,T] 单调上升,又因为 λ 2 ( T ) < 0 \lambda_2(T)<0 λ2(T)<0 λ 3 ( T ) < 0 \lambda_3(T)<0 λ3(T)<0,那么可以看出 λ 2 \lambda_2 λ2 λ 3 \lambda_3 λ3 t ∈ [ 0 , T ] t \in [0,T] t[0,T] 处,恒有 λ 2 ( t ) < 0 , λ 3 ( t ) < 0 \lambda_2(t)<0,\lambda_3(t)<0 λ2(t)<0,λ3(t)<0

    分析方法2:

    由微分对策的战术意义可知,甲方的目标是使 H H H 取极大值,乙方的目标是使 H H H 取极小值。那么下式恒成立。
    { λ 1 ( t ) > 0 λ 2 ( t ) < 0 λ 3 ( t ) < 0 \left\{\begin{matrix} \lambda_1(t) > 0 \\ \lambda_2(t) < 0 \\ \lambda_3(t) < 0 \end{matrix}\right. λ1(t)>0λ2(t)<0λ3(t)<0


    根据式 ( 7 ) (7) (7) ,Hamilton函数可改写为
    H = λ 1 c y − λ 1 d z − ( λ 2 ϕ 1 a + λ 3 ϕ 2 b ) x H=\lambda_1cy-\lambda_1dz-(\lambda_2\phi_1a+\lambda_3\phi_2b)x H=λ1cyλ1dz(λ2ϕ1a+λ3ϕ2b)x
    根据式 ( 8 ) (8) (8) 有, ϕ 1 ∗ ( t ) + ϕ 2 ∗ ( t ) = 1 \phi_1^*(t)+\phi_2^*(t)=1 ϕ1(t)+ϕ2(t)=1。所以实际上就是 − λ 2 a -\lambda_2a λ2a − λ 3 b -\lambda_3b λ3b 的加权平均。那么现在就得让 ( λ 2 ϕ 1 a + λ 3 ϕ 2 b ) (\lambda_2\phi_1a+\lambda_3\phi_2b) (λ2ϕ1a+λ3ϕ2b) 的数值尽可能小,这样减去的数值才会小, H H H 才会取极大值。所以要比较 λ 2 a \lambda_2a λ2a λ 3 b \lambda_3b λ3b 中谁更小。取小值进行加权,即
    { ϕ 1 ( t ) = 0 , ϕ 2 ( t ) = 1 , λ 2 ( t ) a > λ 3 ( t ) b ϕ 1 ( t ) = 1 , ϕ 2 ( t ) = 0 , λ 2 ( t ) a < λ 3 ( t ) b \left\{\begin{matrix} \phi_1(t)=0,\phi_2(t)=1, \quad \lambda_2(t)a>\lambda_3(t)b \\ \phi_1(t)=1,\phi_2(t)=0, \quad \lambda_2(t)a<\lambda_3(t)b \end{matrix}\right. {ϕ1(t)=0,ϕ2(t)=1,λ2(t)a>λ3(t)bϕ1(t)=1,ϕ2(t)=0,λ2(t)a<λ3(t)b
    构造辅助函数
    η ( T ) = λ 2 ( T ) a − λ 3 ( T ) b = − 2 c a y ( T ) a + 2 c b y ( T ) b = 0 \eta(T)=\lambda_2(T)a-\lambda_3(T)b \\ =-\frac{2c}{a}y(T)a+\frac{2c}{b}y(T)b =0 η(T)=λ2(T)aλ3(T)b=a2cy(T)a+b2cy(T)b=0

    其意义是,在 T T T 时刻, λ 2 a \lambda_2a λ2a λ 3 b \lambda_3b λ3b 两者数值一样大。

    再讨论 t ∈ [ 0 , T ) t\in[0,T) t[0,T) 的情况。


    η ˙ ( t ) = λ ˙ 2 ( t ) a − λ ˙ 3 ( t ) b = λ 1 ( t ) ψ 1 c a − λ 1 ( t ) ψ 2 d b = λ 1 ( t ) ⋅ 1 ⋅ c a − λ 1 ( t ) ⋅ 1 ⋅ b d = λ 1 ( t ) ( a c − b d ) \dot \eta(t) =\dot \lambda_2(t)a - \dot \lambda_3(t)b \\ =\lambda_1(t)\psi_1ca-\lambda_1(t)\psi_2db \\ =\lambda_1(t)\cdot1\cdot ca-\lambda_1(t)\cdot1\cdot bd \\ =\lambda_1(t)(ac-bd) η˙(t)=λ˙2(t)aλ˙3(t)b=λ1(t)ψ1caλ1(t)ψ2db=λ1(t)1caλ1(t)1bd=λ1(t)(acbd)
    λ 1 ( t ) > 0 \lambda_1(t)>0 λ1(t)>0 ,只需要看 ( a c − b d ) (ac-bd) (acbd) 的符号即可。当 a c < b d ac<bd ac<bd 时,有 η ˙ ( t ) < 0 , t ∈ [ 0 , T ] \dot \eta(t)<0,t \in [0,T] η˙(t)<0t[0,T],又因为 η ( T ) = 0 \eta(T)=0 η(T)=0,所以
    η ( t ) > 0 , t ∈ [ 0 , T ) \eta(t)>0,\quad t \in [0,T) η(t)>0,t[0,T)
    也就是说明
    η ( t ) = λ 2 ( T ) a − λ 3 ( T ) b ⇒ λ 2 ( T ) a > λ 3 ( T ) b \eta(t)=\lambda_2(T)a-\lambda_3(T)b \\ \Rightarrow \lambda_2(T)a>\lambda_3(T)b η(t)=λ2(T)aλ3(T)bλ2(T)a>λ3(T)b
    那么取
    ϕ 1 ∗ ( t ) = 0 , ϕ 2 ∗ ( t ) = 1 \phi_1^*(t)=0,\quad \phi_2^*(t)=1 ϕ1(t)=0,ϕ2(t)=1

    ⑤ 结论

    最优控制函数 Φ ∗ ( t ) \Phi^*(t) Φ(t) Ψ ∗ ( t ) \Psi^*(t) Ψ(t) 的取值为
    Φ ∗ ( t ) = [ ϕ 1 ∗ ( t ) ϕ 2 ∗ ( t ) ] = [ 0 1 ] , Ψ ∗ ( t ) = [ ψ 1 ∗ ( t ) ψ 2 ∗ ( t ) ] = [ 1 1 ] (9) \Phi^*(t)=\begin{bmatrix} \phi_1^*(t) \\ \phi_2^*(t) \end{bmatrix} =\begin{bmatrix} 0 \\ 1 \end{bmatrix},\quad \Psi^*(t)=\begin{bmatrix} \psi_1^*(t) \\ \psi_2^*(t) \end{bmatrix} =\begin{bmatrix} 1 \\ 1 \end{bmatrix} \tag{9} Φ(t)=[ϕ1(t)ϕ2(t)]=[01],Ψ(t)=[ψ1(t)ψ2(t)]=[11](9)
    如果甲方决定集中力量先消灭乙I的话,那么最优控制函数 Φ ∗ ( t ) \Phi^*(t) Φ(t) Ψ ∗ ( t ) \Psi^*(t) Ψ(t) 的取值变化如下。
    Φ ∗ ( t ) = [ ϕ 1 ∗ ( t ) ϕ 2 ∗ ( t ) ] = [ 1 0 ] , Ψ ∗ ( t ) = [ ψ 1 ∗ ( t ) ψ 2 ∗ ( t ) ] = [ 1 1 ] \Phi^*(t)=\begin{bmatrix} \phi_1^*(t) \\ \phi_2^*(t) \end{bmatrix} =\begin{bmatrix} 1 \\ 0 \end{bmatrix},\quad \Psi^*(t)=\begin{bmatrix} \psi_1^*(t) \\ \psi_2^*(t) \end{bmatrix} =\begin{bmatrix} 1 \\ 1 \end{bmatrix} Φ(t)=[ϕ1(t)ϕ2(t)]=[10],Ψ(t)=[ψ1(t)ψ2(t)]=[11]
    综上,体现了“集中兵力,攻击敌方”的作战原则。

    扩展

    考虑一般的单兵种对多兵种作战问题,给出1对 n n n 的直瞄武器战斗的Lanchester方程为
    { x ˙ = − ∑ j = 1 n b j ψ j y j y ˙ = − a j ϕ j x , j = 1 , ⋯   , n \left\{\begin{matrix} \dot x = -\sum_{j=1}^{n} b_j \psi_j y_j \\ \dot y = -a_j \phi_j x \end{matrix}\right. , \quad j = 1,\cdots,n\\ {x˙=j=1nbjψjyjy˙=ajϕjx,j=1,,n
    约束条件为
    { 0 ≤ ψ j ( t ) ≤ 1 0 ≤ ϕ j ( t ) ∑ j = 1 n ϕ j ≤ 1 , j = 1 , ⋯   , n \left\{\begin{matrix} 0 \le \psi_j(t) \le 1 \\ 0 \le \phi_j(t) \\ \sum_{j=1}^{n}\phi_j \le 1 \end{matrix}\right.,\quad j=1,\cdots,n 0ψj(t)10ϕj(t)j=1nϕj1,j=1,,n
    与上述讨论的结果类似,采用微分对策原理,同样会得出相同结论:

    • 乙方各类作战单位全部攻击甲方
    • 甲方集中兵力攻击乙方第 i i i 类作战单位,将其全部歼灭后,再转向另一类作战单位……如此反复

    这种原则与一对二作战的情况及其相似。即甲方的最优火力分配策略仍然是集中火力攻击乙方的一类作战单位,攻击顺序按照交战强度的高低进行分配,最优兵力分配策略与双方当时的实力无关,并且不依赖于时间。

    展开全文
  • 考虑了品牌广告和大类广告对供应链内企业行为决策的不同作用,利用微分对策理论研究了供应链中供应商和销售商的广告策略,提出了一个Nash博弈模型,通过汉密尔顿—雅可比—贝尔曼方程求解模型的反馈均衡解,得到供应...
  • 引进多组线性二次微分对策的非劣Nash策略的概念,证明非劣Nash策略存在的充分必要条件。在组与组之间Nash竞争而组内部合作的前提下考虑组内第二对策目标,以组内合作权向量为变量构造组与组之间的静态对策问题,得到...
  • 论文研究-基于微分对策的产品回收对供应链协同优化的影响.pdf, 考虑制造商负责回收和处理废旧产品的两级闭环供应链,建立制造商主导的Stackelberg博弈下的微分对策模型...
  • 基于一个微分对策问题的机器学习能力定量评价 由于用机器学习方法求解诸如最优控制、微分对策这样具有连续动作和状态的问题时,效率(效果/算力)较低,特殊的微分对策问题将是测试机器学习方法的竞争案例。 一个...

    基于一个微分对策问题的机器学习能力定量评价

    由于用机器学习方法求解诸如最优控制、微分对策这样具有连续动作和状态的问题时,效率(效果/算力)较低,特殊的微分对策问题将是测试机器学习方法的竞争案例。

    一个古老的羊-犬博弈问题:羊在半径为 R 的圆形圈内具有定常速率 v 和满足以下限制的任意转弯能力:逃逸路径上每一点与圆心的距离随时间单调不减。羊逃出圆形圈则胜。犬沿着圆周以定常速率 V 围堵以防止羊逃逸,任何时刻具有选择圆周的两个方向之一的能力。
    任务:

    1. 通过运动学精确建模求解犬的最优围堵策略;
    2. 假设犬以最优策略围堵,基于精确建模求解羊可以逃逸胜出
      的条件;
    3. 假设羊理解自己的能力、限制和躲避犬围堵而逃逸的目标,
      但不具备基于运动学的最优化决策知识,假设 2 中羊可以逃
      逸的条件被满足,给出一种机器学习方法,使得羊通过学习
      训练后实现逃逸;
    4. 设计一套评价体系,定量评价 3 中给出的机器学习方法的学
      习能力;
    5. 提出并定量评价更多的羊逃逸机器学习方法

    问题分析:

    对于问题一,通过对犬的运动进行分析,可以将其看作匀速圆周运动,对于羊,可以看作原理圆心的运动。通过对比羊犬的速度与场地半径之间的关系,分别建立犬的圆周运动微分方程以及羊的随机运动微分方程,通过羊全的运动范围确定犬的最优围堵方案。(需要列出具体的方程求解)。
    对于问题二,在问题一的条件下,结合羊犬的运动进行分析,分析极限情况下羊被犬抓住的概率,由此确定羊在犬的最优化策略下的胜出条件。
    对于问题三,通过对羊的运动轨迹进行分析,结合犬对于羊的限制条件,结合问题一与问题二中的条件,结合随机森林算法对羊的路线进行分析,以羊的运动轨迹坐标作为数据集,建立随机森林模型,使用matlab进行求解,最终得到羊通过训练后实现逃逸的路线。
    对于问题四,对羊逃逸学习的随机森林模型进行分析,对羊的运动轨迹、犬的限制以及数据集选取(随机森林模型选取部分数据进行学习)进行分析,采用模糊综合评价分析不同影响因素的判断矩阵,结合matlab得到不同影响因素的权重。并通过影响因素自身的得分得到最终的评价。
    对于问题五,通过最优化模型对羊犬博弈问题进行分析,结合问题四建立的模糊综合评价模型进行评价,得到不同的机器学习方法定量评价。对比不同的评价方法,得到适合本文的评价方法。
    

    模型的求解

    通过对羊的运动轨迹进行分析,结合犬对于羊的限制条件,结合问题一与问题二中的条件,结合随机森林算法对羊的路线进行分析,以羊的运动轨迹坐标作为数据集,建立随机森林模型,使用 matlab 进行求解,最终得到羊通过训练后实现逃逸的路线。

    在这里插入图片描述

    部分程序如下所示:

    import pandas as pd
    from sklearn import preprocessing
    from sklearn.ensemble import RandomForestRegressor
    from sklearn.datasets import load_boston
    boston_house = load_boston()
    boston_feature_name = boston_house.feature_names
    boston_features = boston_house.data
    boston_target = boston_house.target
    rgs = RandomForestRegressor(n_estimators=15)  ##随机森林模型
    rgs = rgs.fit(boston_features, boston_target)
    rgs.predict(boston_features)
    from sklearn import tree
    rgs2 = tree.DecisionTreeRegressor()           ##决策树模型,比较两个模型的预测结果!
    rgs2.fit(boston_features, boston_target)
    rgs2.predict(boston_features)
    
    #构造data子集
    def get_subsample(dataSet,ratio):
        subdataSet=[]
        lenSubdata=round(len(dataSet)*ratio)
        while len(subdataSet) < lenSubdata:
            index=randrange(len(dataSet)-1)
            subdataSet.append(dataSet[index])
        #print len(subdataSet)
        return subdataSet
     
    #选取任意的n个特征,在这n个特征中,选取分割时的最优特征
    def get_best_spilt(dataSet,n_features):
        features=[]
        class_values=list(set(row[-1] for row in dataSet))
        b_index,b_value,b_loss,b_left,b_right=999,999,999,None,None
        while len(features) < n_features:
            index=randrange(len(dataSet[0])-1)
            if index not in features:
                features.append(index)
        #print 'features:',features
        for index in features:
            for row in dataSet:
                left,right=data_spilt(dataSet,index,row[index])
                loss=spilt_loss(left,right,class_values)
                if loss < b_loss:
                    b_index,b_value,b_loss,b_left,b_right=index,row[index],loss,left,right
        #print b_loss
        #print type(b_index)
        return {'index':b_index,'value':b_value,'left':b_left,'right':b_right}
    

    解题关键:

    print("文档及全部程序请联系博主:qq2534659467")
    
    展开全文
  • 由于用机器学习方法求解诸如最优控制、微分对策这样具有连续动作和状态的问题时,效率(效果/算力)较低,特殊的微分对策问题将是测试机器学习方法的竞争案例。 一个古老的羊-犬博弈问题:羊在半径为R的圆形圈内...
  • 借助微分博弈研究由单个制造商与两个零售商组成的供应链系统中长期联合减排和低碳宣传的问题. 在消费者需求受产品减排量和零售商低碳宣传努力影响的情况下, 构建了3 种微分博弈模型. 研究发现, 在一定条件下, 成本...
  • #资源达人分享计划#
  • 目标拦截问题—微分对策

    千次阅读 2020-10-02 09:26:00
    目标拦截问题—微分对策 问题描述 求解思路 求解导弹速度关于时间的数值解序列点 角度求解 求解结果与程序 导弹能打到高度H时的最小射角 微分程序 拦截飞机的最小射程角 小结 笔者偏微分的一次小实验,利用微分对策...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 618
精华内容 247
关键字:

微分对策