摘要详情

ID / 提交时间

148 / 2025-06-30 21:03:07

标题

面向电子干扰情境的舰艇编队传感器-武器分配强化学习算法

关键字

传感器-武器分配；一体化防空；强化学习

主题及专题

六、体系博弈与智能决策 > 1.对抗场景设计与博弈策略生成

状态

摘要录用

作者

米万东 / 大连理工大学

刘洋 / 大连理工大学

邓博文 / 大连理工大学经济管理学院

摘要

OODA环（Observe–Orient–Decide–Act）是现代作战指挥的核心闭环模型，其思想是先以多源传感器全面感知战场（Observe）并进行情报融合与威胁定位（Orient），再在规定时间内完成决策（Decide）并实施拦截行动（Act）。在海上舰艇编队防空任务中，传感器-武器分配（SWTA）分别对应前半段的“观测-定位”和后半段的“决策-行动”，先为来袭目标分配合适的雷达、光电等传感器，确保我们及时、准确地掌握威胁信息，随后根据最新威胁评估和可用射击窗口，把有限的拦截武器分配给最危险的目标，并预留必要的弹药和火控资源应对下一波攻击。这样，SWTA能把“看到的情报”快速转化为“可以执行的打击方案”。合理的SWTA能显著提高OODA效率，协调多舰传感器共享、远中近程武器互补，从而提高拦截成功率并节省宝贵弹药。

目前已有一些代表性的研究对传感器-武器分配问题进行了探讨，一是将传感器-武器分配视为单阶段静态优化，如Bogdanowicz等提出的基于联合拍卖的分配算法以及后续的矩阵缩放改进，已能在数十目标规模内获得近最优解；二是面向大规模与异构资源，引入进化或混合智能算法（如异构传感器-武器协同的改进遗传算法、动态进化框架等）以提高求解效率。但上述研究假设在确定性的理想环境下，尚未充分考虑电子干扰条件下目标真实性的不确定性对防空资源分配策略的影响。在敌方高强度欺骗型电子干扰下，我方雷达能够捕获来袭目标的回波，但所得数据存在两大缺陷：一是目标真实性未知，回波既可能对应真实导弹、无人机，也可能是敌方电子诱饵，无真实威胁；二是位置和威胁估计误差大，无法直接精确定位或评估威胁等级。这种不足导致现有方法在复杂的电子干扰条件下难以保持较高的决策准确性和拦截成功率。

为了克服已有研究的不足，我们提出了一个基于马尔科夫模型的强化学习算法，能够在环境具有高度不确定性的情况下，对来袭目标进行传感器-武器分配，达到较高的拦截成功率并尽可能节省资源：

（1）使用马尔科夫模型建模，引入目标类型转换概率，表示观测类型最终真实为的概率。该概率可由历史对抗数据或专家经验给出，并在战时根据实时情报自适应更新。状态空间包括武器剩余弹药量、传感器可用状态、每个目标的观察身份以及置信度、目标剩余达到时间；动作空间包括对每个目标执行忽略、探测或发射导弹进行拦截，在每个决策周期估计真实威胁概率，据此决定①是否优先分配传感器波束以提高置信度；②是否直接派遣一枚或两枚拦截弹进行拦截。每一轮状态包括上一轮的拦截和探测结果，以及当前轮次新出现的目标信息；奖励函数包括对真实目标的拦截奖励以及对虚假目标的拦截惩罚。

（2）使用强化学习PPO算法进行求解，首先根据预设目标分布与电子干扰模型随机生成若干训练episode，智能体读取环境状态输出动作向量，执行忽略、探测或拦截的动作，依据真实身份计算奖励并返回新状态，然后收集一个批次的状态–动作–奖励轨迹，利用PPO进行梯度更新，接着按平均奖励、命中率、资源利用率等指标监控；策略不佳时回溯调参，最后当平均奖励稳定、漏拦率小于阈值、误击维持在可接受水平时，输出最优策略。

为系统评估本文提出的协同分配框架，我们采用“干扰强度×弹药充足性”的二因子正交方案，两两组合构成九个实验场景S1–S9，涵盖“低干扰-充裕”到“高干扰-紧缺”的全谱压力区间。采用拦截成功率、舰艇存活率以及资源使用效率来测试算法的效果。对每个场景，我们将本文算法与三类基线进行对比：①无干扰理想场景（理论上限），②遗传算法(GA)等遗传算法，③深度Q网络(DQN)。结果显示：在全部九个压力组合中，所提框架的拦截成功率高于平均值，舰艇存活率也高于平均值，同时在保持或降低资源使用率的前提下，实现综合奖励值的增益，验证了其在“电子干扰+资源受限”复合条件下的显著优势。

本研究聚焦“舰艇编队在电子干扰条件下的传感器–武器分配”这一困扰一体化防空指挥的核心难题。首先构建了一个以马尔可夫决策过程为骨架的决策模型，引入PPO强化学习算法，通过与仿真环境交互迭代更新策略，无需显式枚举高维转移矩阵即可逼近最优长期收益。同时，设计“目标双重身份+动态置信更新”机制，使策略能够在真假难辨的回波中动态权衡“先探测—再开火”与“抢时拦截”的利弊。实验部分采用干扰强度 × 弹药充足性的九格正交场景 (S1–S9)，并以拦截成功率、舰艇存活率、资源使用率与综合奖励四项指标进行评估。结果表明在四项指标上均优于其他算法。

重要日期

会议日期

08月02日

2025

至

08月04日

2025
07月07日 2025

初稿截稿日期

主办单位

国防科技大学系统工程学院

联系方式

唐帅文
ta******@aconf.org
186********
073*********

魏婉莹
we******@aconf.org
151********
073*********

登录查看完整联系方式

历届会议

2024年08月02日中国昆明市
第六届体系工程学术会议
2023年08月03日中国西宁市
第五届体系工程学术会议
2022年08月05日中国厦门市
第四届体系工程学术会议
2021年04月16日中国珠海市
第三届体系工程学术会议-复杂系统与体系工程管理

移动端

在手机上打开

小程序

打开微信小程序

客服

扫码或点此咨询

第七届体系工程学术会议·AI驱动的体系工程

摘要详情

重要日期

会议日期

主办单位

联系方式

历届会议