群集是一种操作方法,在这种方法中,多个自治系统通过积极协调它们的行动,充当一个有凝聚力的单元。未来的多领域战斗将需要动态耦合、协调、异构的移动平台群,以战胜敌人的能力和针对美军的威胁。

陆军正在寻求蜂拥而至的技术能够执行耗时或危险的任务。在实时寻找这些蜂蜜车辆的最佳指导政策是提高Warfighters战术情境意识的关键要求。

加固学习提供了一种最佳地控制不确定代理,以在代理的精确模型不可用时实现多目标目标;然而,现有的加强学习方案只能以集中方式应用,这需要在中央学习者汇集整个群体的状态信息。这大大增加了计算复杂性和通信要求,导致了不合理的学习时间。

为了解决这一问题,研究人员解决了大规模的多智能体强化学习问题。这一努力的主要目标是为大规模群网络的数据驱动最优控制奠定理论基础,控制行动基于低维测量数据,而不是动态模型。

目前的方法被称为层次强化学习(HRL),它将全局控制目标分解为多个层次,即多个小群体层次的微观控制和一个大群体层次的宏观控制。每个层次都有自己的学习循环,具有各自的局部和全局奖励功能。并行运行循环大大减少了学习时间。

群体在线强化学习控制归结为利用系统或群体输入输出数据求解大规模代数矩阵Riccati方程。研究人员求解该方程的最初方法是将群划分为多个更小的组,并并行实现组级局部强化学习,同时在每个组的更小维度压缩状态上执行全局强化学习。

当前HRL计划使用一个解耦机制,允许团队等级近似大规模矩阵方程的解,首先解决当地的强化学习问题,然后综合全球控制从本地控制器(通过求解最小二乘问题)而不是运行一个全球性的强化聚合状态的学习。这进一步减少了学习时间。实验结果表明,与集中式算法相比,HRL算法在将优化损失控制在5%以内的同时,能够减少80%的学习时间。

目前,HRL的工作将允许开发针对无人机和地面车辆群的控制政策,以便它们能够最优地完成不同的任务集,即使群体agent的个体动力学未知。

该团队正在进一步改进HRL控制方案,考虑群中agent的最优分组,在限制最优间隙的同时最小化计算和通信复杂度。他们还在研究使用深度循环神经网络来学习和预测最佳分组模式,以及在密集城市地形的多领域作战中自主空中和地面车辆的最佳协调所开发的技术的应用。

有关更多信息,请在703-693-6477联系美国陆军CCDC陆军研究实验室公共事务。


yabovip16.com科技简报》杂志

本文首先出现在10月,2020年期问题yabovip16.com杂志。

阅读此问题的更多文章这里

阅读档案中的更多文章这里