随着电子战的发展,抗干扰措施变得越来越复杂。关于干扰策略的研究成果已有一定的,但关于抗干扰策略的研究资料很少。难以模拟真实的干扰环境,没有合适的抗干扰决策模型进行研究。认知雷达能够感知环境并接收反馈,为解决抗干扰决策问题提供了可能。该文将抗干扰措施视为一种交互行为,建立认知雷达对抗环境模型,并使用强化学习算法解决抗干扰决策问题。
现代战争离不开雷达。在军用传感器中,雷达应用最广泛。现代战争也离不开雷达对抗措施。如果没有雷达对抗措施的支持,雷达及其所服务的系统,如指挥和控制系统、武器控制系统,将变得非常脆弱 [1]。雷达干扰和抗干扰一直是相互矛盾的方面,无线电干扰或电子对抗的历史已经近 110 年,雷达对抗的历史也超过了 70 年。雷达对抗技术是电子对抗的重要组成部分,由两个方面组成:一方面,雷达干扰是对方利用各种手段获取敌方雷达的信息和部署情报,从而扰乱和破坏敌方雷达的正常运行;另一方面,雷达抗干扰是双方采取各种措施隐藏自己雷达的信息和部署,试图使自己的雷达消除或减少对方干扰的影响 [2]。认知雷达专为应对复杂的传播和干扰环境而设计,因为它可以调整其工作模式和参数以适应复杂的工作环境并实现智能化。与传统的雷达信息传输相比,认知雷达系统包含反馈系统,可以存储历史信息,并具有学习和适应的能力 [3-7]。
随着雷达对抗技术的发展,在雷达干扰和抗干扰方面相互促进,两个方面都产生了优异的技术成果。一方面,雷达干扰技术的发展将推动雷达抗干扰技术的进步。例如,当采用噪声[8]、假目标[9]、欺骗波形[10]等有源干扰方法时,雷达需要采用脉冲压缩[11]、相控阵天线[12]、多普勒处理[13]、变脉冲参数[14]、认知雷达[15] 等,以提高信噪比、分辨率、适应性等。这样,雷达就可以在复杂的电磁环境中保持有效的探测和定位功能。另一方面,雷达抗干扰技术的进步也将刺激雷达干扰技术的创新。例如,当雷达采用跳频 [16]、频率捷变 [17]、极化变化 [18] 等抗干扰技术时,干扰机需要采用频率跟踪 [19]、极化匹配 [20]、波形识别 [21] 等干扰技术] 等来增加干扰效果。这样,干扰机可以在有限的资源和条件下实现对雷达的有效干扰和破坏。新型雷达系统的出现,必然会催生对新型干扰技术的研究,进一步刺激新型抗干扰技术的研究,以抑制新产生的干扰。此外,干扰和抗干扰的成功率是随时间变化的,取决于双方不断变化的能力和策略以及操作环境。因此,在雷达对策中,没有可以干扰一切的干扰措施或坚不可摧的抗干扰方法。目前的雷达通常配备了许多抗干扰措施,以应对各种干扰。而且,可以预见,未来雷达将面临越来越多的干扰技术,并使用更丰富的抗干扰技术库进行反击。因此,雷达需要从复杂的抗干扰措施库中选择合适的抗干扰措施成为一个决策问题。
要解决这个决策问题,首先必须解决两个挑战:如何选择应用抗干扰措施的最佳时机,以及如何评估抗干扰措施的有效性。
这两个挑战分别来自抗干扰决策系统的前端输入和后端反馈。在认知雷达中,决策系统的前端负责感知环境并确定决策的时机。前端除了接收自身的回波信号信息外,还可以通过其他传感器(如温度、湿度、压力和海况)获取环境的其他相关信息[7]。如果雷达感应到干扰信号,或丢失目标,或测量误差增大,前端应立即向抗干扰决策系统发送启动命令。显然,抗干扰措施实施的时机与以下三个因素有关:前端感知环境的延迟、抗干扰决策系统的调度时间以及抗干扰措施生效所需的时间。这三个因素分别对应于传感器的实时性能、决策算法的耗时和抗干扰措施的复杂程度。本研究将受收敛速度影响的决策算法的时间消耗视为一项挑战,并将简化为一个滞后时刻的另外两个因素。后端的主要功能是评估决策结果的抗干扰性能,然后提供反馈。雷达抗干扰性能的评价应基于雷达任务的多个方面。例如,如果雷达的任务是搜索,则探测概率和计算时间应该比分辨率和精度更重要;如果任务是跟踪或成像,则相反。雷达的时间和能量资源是有限的,大多数抗干扰方法的性能和效率呈反比关系。因此,资源调度器需要评估抗干扰措施对这些任务的贡献,并合理分配资源。与参考文献 [22] 一样,Chen 提出了一种多功能相控阵雷达的调度算法,该算法可以同时满足跟踪、搜索和成像等不同任务的需求。在参考文献 [23] 中,Miranda 提出了一种模糊逻辑方法,用于确定多个任务的优先级,以应对操作环境中的动态变化。
因此,抗干扰性能的评价方法应适应任务需求的变化。在本研究中,我们根据任务需求设计了抗干扰性能评价方法,然后用于评价抗干扰措施。在参考文献 [1] 中,崔介绍了传统雷达干扰和抗干扰的工作要求。Nicholas R. Osner 评估了雷达对抗环境中的干扰措施 [24],W. Yu 提出了相应的火控雷达抗干扰评价指标 [25]。本文尝试在前人研究的基础上建立可扩展的抗干扰评价框架,并完成抗干扰决策后端反馈系统的设计。
根据参考文献 [7] 中的作者,认知雷达的工作过程被认为是与环境交互的过程。这种交互从雷达的发射器开始,它发射信号。环境生成回声,接收器接收这些回声并馈送到两个系统:决策系统和评估系统。决策系统根据评估结果和历史回波信息做出决策,并将这些决策传递给发射机。发射机根据决策结果开始新一轮发射,然后一遍又一遍地重复这个循环。在众多的在线学习程序中,强化学习(RL)[26]是最适合认知雷达与环境交互并做出抗干扰决策的理论,也称为神经动力学规划[27],贝尔曼的动态规划(植根于控制理论)为该程序提供了理论基础。随着神经网络理论的发展,维度灾难的问题得到了解决 [28]。RL 算法包括 DP (Dynamic programming)、MC (Monte Carlo method)、TD (temporal-difference learning) 等 [29]。DP 需要一个完整的环境模型,其中 “complete” 意味着知道转换概率。
换句话说,当某个动作在某个状态下执行时,下一个状态的分布是已知的。在这个假设下,代理者有足够的先验知识,不需要试错(样本)来直接计算最优策略。然而,完整的环境模型只是一个理想的假设,计算所有状态需要极高的计算成本。虽然动态规划的假设在现实世界中大多是无效的,但所有方法都可以看作是 DP 的近似值,其中近似方法牺牲了决策的性能来削弱完整环境假设的约束。MC-Learning 与 DP 不同,因为 MC-Learning 不对环境做出任何假设,它依赖于大量的试验和错误来学习。换句话说,MC 学习不使用先验知识,完全依赖于真实经验。这意味着 MC-Learning 需要大量的试错(样本),并且它的学习过程是非平稳的,因为并非每次尝试都有积极的意义,因此学习在早期阶段往往会经历很多失败。TD 结合了 DP 和 MC-Learning 的思想,是强化学习中最核心、最新颖的思想。TD 继承自 MC-learning,TD 具有试错学习、无模型假设的优势;TD 继承自 DP,每次决策后都会更新,而 MC-Learning 必须做出多个决策,直到马尔可夫决策过程结束才更新。
在雷达和电子干扰的博弈中,干扰器会不断改变干扰策略,以产生更复杂和不可预测的干扰模式 [1,2]。这给雷达的抗干扰能力带来了严重的威胁和挑战 [3]。准确的决策是雷达抗干扰有效对抗的关键前提 [4]。当雷达面临简单干扰时,基于模板匹配的抗干扰决策是有效的 [5]。当雷达知识库中只有少数几个 ECCM 时,使用多属性决策方法 [6] 或模糊层次解析过程 [7] 也可以解决决策问题。然而,随着干扰的快速发展 [8],雷达 ECCM 的模式越来越多 [9,10,11,12,13]。传统的决策方法无法满足认知雷达对智能抗干扰的需求 [14]。强化学习 (RL) 的思想与智能雷达抗干扰决策问题不谋而合,因为它主要解决序列决策问题 [15]。RL已成功应用于通信抗干扰领域 [16,17,18,19]。因此,一些学者试图将RL应用于雷达抗干扰决策领域[20,21,22,23,24]。
对于频率捷变 (FA) 雷达,Q-learning [25] 和深度 Q 网络 (DQN) [26] 已被用于设计抗干扰策略来对抗智能干扰器。奖励函数不同;即信干噪比 (SINR) 和检测概率。然后,使用具有长短期记忆 (LSTM) 算法的 DQN 基于干扰器动力学不确定性的显式表达式研究雷达的两种跳频策略 [27]。针对FA雷达面临的主瓣干扰问题,以检测概率作为奖励信号,采用LSTM的近端策略优化(PPO)来对抗四种不同的干扰策略[28]。为解决电磁博弈中不理想观测和拦截导致的误差问题,设计了一种基于模仿学习和 Wasserstein 鲁棒强化学习(WR2L) [29]。为了解决基于强化学习的抗干扰方法无法处理非平稳干扰策略的问题,将强化学习和监督学习(SL)相结合,为FA雷达设计了抗干扰策略[30]。上述研究产生的一个问题是,它们都使用 FA 雷达来抑制噪声干扰,具有很强的针对性。在实际的电磁对策中,有各种各样的 ECCM 和干扰模式,它们不是一一对应的。许多 ECCM 可以抑制相同的干扰模式,一个 ECCM 也可以削弱多种形式的干扰 [31]。因此,在复杂的电磁环境中,雷达抗干扰知识库的规模越来越大,导致 ECCM 的优化过程中动作空间大,收敛时间长 [32]。还有许多其他 RL 算法。深度强化学习 (DRL) 是深度神经网络和 RL 的组合。DDPG 是一种基于 actor-critic 架构的 DRL 算法 [33\u201234]。它在处理策略优化问题方面具有良好的性能。多智能体深度确定性策略梯度(MADDPG)算法是DDPG算法在多智能体系统中的自然延伸[35],它采用了集中训练和分散执行的框架。然而,使用它们来解决雷达 ECCM 的优化问题仍需要改进和优化。
另一个需要考虑的问题是如何基于大规模知识库评估 ECCM 的性能,以及如何表达来自环境的反馈。上述研究大多使用 SINR 或检测概率作为 RL 的奖励函数,没有对抗干扰性能评估进行详细研究。Johnston于1974年首次提出ECMM改进因子(EIF),这反映了采用ECCM后雷达信干比(SIR)的提高[36]。为了获得更合理的雷达抗干扰评价,以角度测量性能为评价因素,研究了一种基于信息融合的评价方法 [37]。平均信噪比(SNR)被定义为一个评估因素,用于评估雷达抑制噪声-AM干扰的性能[38]。针对干扰和雷达 ECCM 的多样性,提出了一种结合鲁棒时频分析 (RTFA) 和峰均功率比 (PAPR) 的统一定量评估方法 [39]。面对干扰和雷达对策的动态性和不确定性,定义干扰威胁等级并将其作为评价标准来选择最佳抗干扰策略 [40]。上述研究研究了不同问题中的不同评价因素,一个 ECCM 可以抑制多种形式的干扰,从而产生不同的抗干扰效果。因此,有必要研究如何统一评估 ECCM 的性能以及如何表达来自环境的反馈的问题。
针对上述问题,该文提出一种基于DDPG-MADDPG算法的智能雷达抗干扰决策方法。基于雷达与干扰的典型工作场景,设计了智能雷达抗干扰决策模型,并制定了决策流程。为了在大规模知识库中建立干扰与 ECCM 之间的关系,我们提出了一种抗干扰改进因子和干扰与抗干扰的相关矩阵,为决策算法提供反馈。针对 ECCM 优化过程中动作空间高、收敛时间长等问题,我们提出了一种 DDPG-MADDPG 算法来生成抗干扰策略。这项工作的主要贡献总结如下:
建立了典型的电子雷达和干扰对抗场景,并根据不同类别划分了各种干扰模式和 ECCM。因此,通过分层减小了雷达抗干扰知识库的维度。根据雷达与干扰的动态交互过程,提出了一种智能雷达抗干扰决策模型。通过定义雷达的抗干扰决策要素,制定了雷达抗干扰决策流程。这是抗干扰决策算法设计的基础。
设计了抗干扰改进因子来评估 ECCM 的性能,从而为决策算法提供反馈。基于抗干扰改进因子,建立了干扰与 ECCM 的相关矩阵,为决策算法提供了先验知识。然后,根据雷达抗干扰资源的局限性,设计了 4 个决策目标和约束条件,以验证抗干扰决策算法的性能。
我们设计了 DDPG-MADDPG 算法来生成抗干扰策略,其中包括外部 DDPG 算法和内部 MADDPG 算法。通过两层的分层选择和联合优化,这不仅降低了动作空间的维数,而且在更短的收敛时间内找到了全局最优解。仿真结果表明,该方法具有更好的鲁棒性、更短的收敛时间、更高的决策准确性和更好的泛化性能。