规则耦合下的多异构子网络MADDPG博弈对抗算法OA北大核心CSTPCD

中文摘要

针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。

作者：张钰欣;赵恩娇;赵玉新;

作者单位：哈尔滨工程大学智能科学与工程学院,黑龙江哈尔滨150001

中文关键词：深度强化学习;多无人机;博弈对抗;MADDPG;Actor-Critic;规则耦合;经验回放;稀疏奖励

刊名：《智能系统学报》 2024 (001)

页码/页数：P.190-208 / 19

基金：国家自然科学基金项目(61903099);黑龙江省自然科学基金项目(LH2020F025);重庆市教育委员会科学技术研究计划(KJZD-K20200470);中国博士后科学基金面上项目(2021M690812);黑龙江省博士后基金面上项目(LBH-Z21048)。

DOI：10.11992/tis.202303037

下载量：0

点击量：0

规则耦合下的多异构子网络MADDPG博弈对抗算法OA北大核心CSTPCD

评论