152 / 2025-06-30 22:22:51
基于深度强化学习的含禁区海上搜寻问题
海上搜救,无人机路径规划,深度强化学习,动态避障,Deep Q-Network (DQN)
摘要录用
徐子涵 / 国防科技大学
杨志伟 / 国防科技大学
张文清 / 国防科技大学系统工程学院
无人机(UAV)作为近年来新兴且快速发展的空中平台,已在军事行动、人道主义救援和海上救援任务中展现出显著效用。特别是在海上搜救(SAR)行动中,无人机作为保护生命和财产安全的最后一道关键防线,具有巨大的潜力。然而,海上搜救场景通常涉及复杂的挑战,包括动态环境条件、限制飞行区域和时效性强的任务目标。

为应对这些挑战,本文提出了一种新颖的基于深度Q网络(DQN)的路径规划算法,用于在包含限制区的环境中进行无人机海上搜索行动。该算法利用深度强化学习(DRL)在高维状态空间中快速学习最优策略并适应动态约束的能力,旨在遵守操作限制的同时最大化搜索效率。本研究的贡献总结为以下三个关键方面:

首先,建立了一个全面的海上搜索环境模型以形式化问题。该模型整合了地理数据、概率目标分布和限制飞行区,这对于模拟真实世界的搜救场景至关重要。无人机的操作约束,包括飞行续航时间、传感器覆盖范围和运动学限制,均进行了数学表征。搜索过程被建模为一个不确定性下的序贯决策问题,无人机必须在探索(覆盖未知区域)和利用(聚焦高概率区域)之间取得平衡。通过将主观搜索优先级(如时间敏感性、目标可能性和限制区规避)量化为可测量参数,该模型将直观的搜索策略转化为可通过计算方法求解的优化框架。

其次,设计并实现了一种专门针对带有限制区的海上搜救的基于DQN的路径规划算法。该算法的状态空间囊括了实时无人机定位、历史搜索覆盖范围、目标概率图和限制区边界。动作空间定义了无人机的运动原语(包括方向机动和高度调整),同时遵守运动学约束。精心设计了一个奖励函数,以优先考虑时间效率、惩罚接近限制区的行为,并激励发现高概率目标区域。为符合海上搜救的时间关键性,优化目标被定义为在有限操作时间范围内目标检测的累积概率。关键超参数——如学习率、折扣因子和探索-利用权衡(由ε-greedy策略控制)——通过对比实验进行系统调整,以增强训练收敛性和策略稳定性。通过在具有不同目标分布和限制区配置的场景中进行模拟,进一步验证了算法的鲁棒性。

第三,利用真实世界的海上搜救数据进行了广泛的仿真实验,以评估算法的有效性。处理来自国家海上搜救保障服务平台的历史事件数据,通过漂移建模(考虑洋流、风场和时间因素)生成概率目标分布。环境被离散化为基于网格的搜索地图,并在相同的操作约束(如飞行时长、限制区和传感器能力)下,将提出的DQN算法与经典的A搜索算法进行了基准测试。对累积检测概率、限制区违规次数和计算效率等性能指标进行了定量分析。结果表明,在存在多个限制区的复杂场景中,基于DQN的方法比A*算法实现了12%~18%更高的累积检测概率,同时保持了相当的计算效率。搜索轨迹的可视化进一步突显了DQN算法基于实时环境反馈动态调整路径的能力,而A*算法因其依赖静态启发函数而表现出僵化性。

本研究的实际意义体现在两个方面。对于海上搜救行动而言,所提算法提高了在救援任务关键的“黄金时间”内成功定位目标的可能性,直接有助于拯救生命。对于无人机路径规划研究而言,将深度强化学习与限制区约束相结合,提供了一个可扩展的框架,适用于灾害响应和监视等其他领域,同时对于所有深度强化学习都存在的稀疏状态空间以及收敛速度难题,本文提出的网络框架改进都可以能对于这类问题有一定改进,不仅局限于海上搜救同时对于其他问题框架下有一定意义。文中还讨论了局限性和未来方向,包括集成多无人机协调机制、实时环境数据同化,以及将深度强化学习与传统优化技术相结合的混合方法,指出多智能体强化学习算法当前遇到的难题。

 
重要日期
  • 会议日期

    08月02日

    2025

    08月04日

    2025

  • 07月07日 2025

    初稿截稿日期

主办单位
国防科技大学系统工程学院
联系方式
历届会议
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询