基于DQN,的跳频信号干扰决策方法研究

时间:2023-08-10 13:55:02 来源:网友投稿

刘 铮,冯永新,钱 博

(沈阳理工大学信息科学与工程学院,沈阳 110159)

跳频技术拥有良好的通信性能及较强的抗干扰能力。

在微电子和数字信号处理技术高速发展的今天,跳频通信技术不仅在战术电台等军事领域中大显身手[1-2],同样广泛应用于全球移动通信、雷达、微波、无线局域网、室内无线通信、卫星通信、水下通信等多个领域[3-4]。

通信对抗是作战双方围绕电磁频谱掌控权,利用电子设备所展开的斗争。

现代化作战中,掌握信息权尤为重要。因此,针对跳频通信开展的通信对抗技术的研究具有重要的实用价值[5-7]。

随着人工智能的普及,基于强化学习的通信对抗研究取得较大突破[8-10],文献[11]针对认知通信对抗提出一种面向不同场景的策略并将K 摇臂赌博机等三种强化学习方法进行比对,证明智能方法的可行性。

文献[12]基于Q 学习研究了一种无线信号干扰方法,该方法通过决策出最佳干扰功率和信道达到干扰的目的。

文献[13]针对抗干扰技术,提出0 -1bit 量化状态表征,利用Q学习算法实现干扰规避。

文献[14]提出一种自举专家轨迹分层强化学习的方法对干扰资源的分配进行决策,按照检测出来的跳频点划分各子频段,再对干扰的带宽和频段进行分层决策,使其可以在有限干扰资源下,通过更小的干扰带宽实现最佳干扰效果。

以上文献的信号干扰技术研究大部分是基于调制样式、信道和功率,或只针对诸如带宽等单一数据进行决策,缺乏将强化学习与跳频干扰结合的案例。

本文围绕决策空间和优化配置干扰机资源的综合考量,针对跳频信号高效抗干扰的特性,结合深度强化学习理论,提出基于DQN 的跳频信号干扰决策方法,以干扰功率、驻留时间、跳频频率集作为决策因子进行最优干扰动作的决策,以达到优化配置干扰机资源的目的。

1.1 跳频通信原理

跳频通信利用二进制伪随机码序列对载波振荡器的输出频率进行离散控制,使发射信号的频率随着伪随机码的变化进行跳变[15]。

跳频通信系统示意图如图1 所示。

图1 跳频通信系统示意图

由伪码发生器、指令译码器和频率合成器组成跳频通信中的载波发生器和本地振荡器,二者的频率在常规通信系统中是相同的,在跳频通信系统中是随时间不断跳变的。

发射机的发射频率由伪码发生器控制在一个收发双方约定好的频率集内进行跳变,接收机的频率合成器依照同样的顺序跳变。

信号在接收机经过混频后得到一个频率不变的中频信号,经中频滤波器再送入解调器进行解调,恢复原始数据。

因为跳频通信的频率会随时间不断跳变且由伪随机码序列决定跳变顺序,提高了干扰跳频信号的难度。

1.2 跳频干扰原理

跳频通信是无线通信的一种,而无线通信开放的信号传输特性能够让干扰方通过阻塞物理层无线信道的方法对目标信号产生干扰,特别是在对通信方的先验知识了解不充足的情况下,仅对信号功率、传输时间、通信频率等参数信息通过频谱覆盖的方式即可实现对通信过程的有效干扰[16]。

针对不同的通信体制可以采取不同的干扰方式,目前常用的干扰方式有噪声干扰、音调干扰、扫频干扰、脉冲干扰、跟踪干扰以及灵巧干扰。针对跳频信号,应用最为广泛的干扰方式为跟踪干扰,跟踪干扰通常会将频率定位到跳频发射机的工作频率上并识别目标信号,实施干扰。

因跳频信号的传播时间和处理时间较快,为满足对跟踪时间的要求,干扰机需要安装在如图2 所示的椭圆上或椭圆内的任意方位,发射机和接收机在椭圆的两个焦点位置。

图2 干扰场景

该椭圆满足公式(1)所示条件。

式中:DTJ是干扰机到发射机的距离;
DJR是干扰机到接收机的距离;
DTR是发射机到接收机的通信距离;
TJ是干扰机的处理时间;
Td是通信信号的驻留时间;
c是电波传播的速度;
γ是必须受到有效干扰的驻留时间占比。

为使跟踪干扰有效,γ取决于发射机到接收机的距离与发射机到干扰机再到接收机的总距离之差,并会受到干扰机做出干扰策略的处理时间的影响。

实践证明,当信号传输被干扰30%以上,就会大大降低信息的理解度[17],可阻止信息的有效传输。

因此,30%可以作为影响通信正常传输的门限指标。

2.1 整体结构

跳频信号干扰整体结构框图如图3 所示。

图3 跳频信号干扰整体结构框图

图3 中左半部分为跳频通信过程,主要包含跳频通信系统中的发射机、信道和接收机三部分,用于验证干扰决策效果,同时为基于DQN 的干扰决策网络提供反馈参数。

图3 中右半部分为干扰决策过程,主要包含时频分析、数据预处理、基于DQN 的干扰决策网络和干扰信号四个部分。

通过对信道中的跳频信号进行时频分析、数据预处理,提取电磁频谱特征参数输入到基于DQN 的干扰决策网络中,进行干扰参数决策,并产生干扰信号对接收机实施干扰。根据反馈参数迭代调整决策网络中的参数,优化决策动作。

2.2 时频分析及数据预处理

本文算法采用短时傅里叶变换的方式进行时频分析,利用窗函数h(t)处理跳频信号。

将跳频信号在时间上划分为若干段,每一小段按平稳信号进行傅里叶变换,以估计出每一个时间窗内信号的频率,从而得到不同时间上信号的频谱。

对于信号s(t),其短时傅里叶变换的定义为

式中:STFTs(t,f)可以看作是信号s(t)在给定t时刻的频谱;
h(τ-t)为窗函数,常用的窗函数有海宁窗、海明窗等。

由于短时傅里叶变换需要对时域信号进行加窗处理,窗函数的大小影响时频分辨率,重新选择窗函数可以改变分辨率。

跳频信号的时频分析结果如图4(a)所示,图4(b)为时频分析结果三维图像。

图4 跳频信号时频分析结果

为降低时频分析结果中噪声成分的影响,将时频变换后的图像进行二值化处理,以便于识别信号峰值。

将二值化后的矩阵进行降维处理,提取信号频率信息。

图5 为将时频分析结果进行二值化处理和降维后结果。

图5 数据预处理结果

接收信号经时频分析和数据预处理后,将降维后结果作为干扰决策网络的跳频信号特征参数加入到决策网络中进行训练。

2.3 方法原理

2.3.1 决策参数

假设干扰机可以在信道中接收到该通信系统的跳频信号,若产生能够覆盖住该信号的干扰信号,即可以影响到该跳频通信系统的误码率。

本文中设定的干扰决策空间的决策参数有:P、T和F。P为干扰功率,即干扰信号的功率大小;
T为驻留时间,表示每一段干扰信号的跳频驻留时间占通信方跳频驻留时间的多少;
F为频率集,由通信系统输入的跳频信号进行短时傅里叶变换得到。

将以上决策参数进行组合,构成基于DQN 的干扰决策网络的干扰动作。

基于DQN 的干扰决策网络对环境中的干扰行为进行学习,并由此预测最佳动作。

2.3.2 反馈参数

强化学习一般会将决策的评估效果作为反馈参数以奖励的形式反馈给训练模型,如何评估干扰信号的干扰效果是干扰决策网络设计的考量,文献[18]论证了以误码率作为评估效果的方法,本文为了评估算法的决策效果,照此采用误码率作为通信过程向决策网络的反馈参数。

当无法获得误码率时,可以将吞吐量、功率值作为反馈参数。

在跳频信号干扰决策的应用中,为提升决策的有效性与适用性,需要汇总通信环境中更多的潜在信息。

假设当误码率大于阈值时认为干扰机正在进行有效干扰,否则干扰机的干扰无效。

本文设该阈值为0.03,误码率小于该阈值时奖励为零,当误码率大于0.03 时奖励r的计算方法为

式中:α为奖励调节系数,调节累计奖励不会过大或过小;
s0为干扰机输出功率;
BER为误码率。

由公式(3)可知,决策占用的干扰资源越少且达到的误码率越大,奖励值越大,即干扰资源消耗的多少会以奖励的形式反馈到决策网络中。

同时,通过调节公式(3)中奖励调节系数α,可以使误码率与功率在函数中达到所需配比。

2.3.3 干扰决策网络

在干扰决策过程中,干扰决策网络获取跳频信号时频分析和预处理后的特征参数,通过干扰动作影响跳频通信过程。

当执行一个干扰动作时,通信环境就会发生变化,干扰决策网络会根据设定的奖励计算方法计算出一个奖励值。

各时刻奖励按一定折扣率的积累值,称为折扣回报,计算式为

式中:Gt为折扣回报;
γ为折扣率;
Rt为t时刻获得的奖励,式(4)可以理解为t时刻及之后一段时间内的累计奖励,而干扰决策网络的目标是得到能使折扣回报最大的干扰动作。

本文采用的DQN 算法[10]综合了神经网络擅长提取特征和强化学习善于进行决策的特性。

由于干扰决策网络中的状态空间和干扰动作的参数维度少,本文选择BP 神经网络。

基于DQN 的干扰决策网络结构如图6 所示。

图6 基于DQN 的干扰决策网络结构图

图6 中的通信环境为包含跳频通信过程的交互环境并默认信号已通过时频分析与预处理环节。

干扰决策网络引入了回放记忆库功能,在每次行动后获取的经验存储到回放记忆库中,每条经验由(s,a,r,s′)组成的观察空间表示,其中s为当前通信环境状态,由跳频信号特征参数和干扰信号的决策参数组成;
a为干扰动作;
r为奖励,取值与反馈参数有关;
s′为受动作影响后的下一环境状态。

在干扰决策网络运行过程中,会随机从记忆库中间隔抽取一条经验作为预测网络的输入,以打乱输入内容的相关性,有利于决策网络的快速稳定更新。

为提升干扰决策网络的性能,设置两个结构完全一致但神经网络参数不同的网络,分别称为预测网络和目标网络。

预测网络用于估计预测Q函数pedictQ,目标网络用于估计目标Q 函数targetQ。pedictQ表示为Q(s,a;
θ),θ为神经网络参数。targetQ值的大小代表了干扰动作的好坏程度,是对行动过程的记录,计算方法为

式中 maxQ(s′,a′,θ)表示下一状态s′和动作a′的最大值函数。

预测网络中的参数θ通过梯度计算引导更新,计算方法为

式中η为学习率。

干扰决策网络每隔一定迭代次数将预测网络中的神经网络参数全部复制给目标网络。

由于周期内目标网络中的神经网络参数相对固定,因此在降低算法训练难度的同时也提升了稳定性。

通过预测Q 函数和目标Q 函数计算均方误差损失函数LOSS(θ),得

损失函数可以判断预测Q 函数向目标Q 函数收敛情况。

综合时频分析和数据预处理的内容,总结基于DQN 的跳频干扰决策算法步骤如下。

步骤1初始化训练参数,初始化记忆库D,设置记忆容纳数据条数N。

步骤2输入跳频信号,通过短时傅里叶变换生成时频矩阵c。

步骤3将时频矩阵c二值化并映射为二维数组c′,提取跳频驻留时间ti和跳频频点{fi}。

步骤4用随机参数θ初始化预测网络与目标网络。

步骤5将跳频驻留时间ti、跳频频点{fi}、干扰功率Pi、干扰驻留时间Ti、干扰频率集{Fi}、组成状态st输入到神经网络。

步骤6第一次运行时随机选择干扰动作at,之后的运行以探索率ε随机选择干扰动作at,或以 1 -ε的概率按at= argmaxaQ(st,a;
θ) 选择动作。

步骤7观察奖励rt和新状态st+1,并与动作at和状态st一同存入记忆库D中。

步骤8从记忆库D中随机间隔抽取样本送入网络。

步骤9循环过程中执行梯度算法,更新决策网络中的神经网络参数θ。

步骤10当损失函数小于阈值时输出干扰动作。

为验证提出方法的可行性,在Python 软件环境下进行仿真验证。

算法仿真参数为:干扰功率参数P包含0.5 W、2 W、8 W 和32 W 四种选择;
驻留时间参数T包含占比50%、75%和100%三种选择;
折扣率γ为 0.9;
学习率η为 0.001;
探索率ε为 0.1;
迭代次数为 1 000 次;
每间隔 200 次进行一次回放;
每间隔200 次进行一次目标网络与预测网络的同步。

回放记忆库中回放容量的大小会导致预测Q 函数和损失函数的变化,最终影响到决策结果的稳定性和准确度,实验观察不同大小的回放容量对预测Q 函数以及损失函数的影响,结果如图7、图8 所示。

图7 预测Q 函数分析

图8 损失函数分析

由图7 可见,随着测试次数的增加,预测Q 函数逐渐增大,说明网络选取了最优策略;
损失函数逐渐减小表明预测网络正向目标网络收敛,说明决策网络预测值接近真值。

同时可见回放容量越小,预测Q 函数虽然能够较快得到最优解但最优解之间波动较大,不够稳定,这可能引起高估问题。

由图8 可见,随着回放容量越大,损失函数的收敛速度越慢但收敛效果越好。

说明回放容量大小影响训练速度和训练效果,因此在训练时需要适当选择回放记忆库的回放容量。

奖励值大小反映了干扰动作的好坏程度,图9 给出了实验过程中一次训练中迭代次数与奖励值的关系。

由图9 可见,随着迭代次数的增加,奖励值大多数集中在2 000 附近,说明决策趋于稳定。

图9 奖励值分析

实验验证本文奖励函数与常规奖励函数对通信过程的误码率影响,如图10 所示。

图10 误码率分析

由图10 可见,未采用本文奖励函数时,误码率维持在0.45 左右,误码率较高,也表明了干扰机功耗更高。

采用本文的方法使误码率维持在0.13 左右,说明干扰决策选择了以少量消耗达到有效干扰的干扰动作,而不仅仅以高误码率为动作的选择依据。

在通信对抗的背景下,结合强化学习理论提出了基于DQN 的跳频干扰决策方法,通过对干扰功率、驻留时间和频率集参数进行决策,并设计一种奖励函数,使干扰机功耗与误码率之间互相约束,减少了干扰机资源的浪费。

通过建立跳频通信过程仿真环境,以仿真环境中误码率作为评价干扰效果的指标,经过仿真验证,算法中的预测Q 函数逐渐收敛到最佳,损失函数收敛于目标网络,奖励值趋于稳定;
在有效干扰的前提下,决策会选择误码率与干扰机输出功率维持平衡的干扰动作,以实现跳频信号特征参数的有效检测,对目标信号实施干扰的研究目的,并可达到合理消耗干扰机资源的效果。

猜你喜欢干扰机时频误码率面向通信系统的误码率计算方法雷达与对抗(2022年1期)2022-03-31雷声公司交付首套中频段下一代干扰机航天电子对抗(2019年4期)2019-12-04基于压缩感知的单脉冲雷达欺骗干扰机研究北京航空航天大学学报(2017年9期)2017-12-18空袭远距离支援干扰机阵位选择及航线规划军事运筹与系统工程(2016年4期)2016-07-10美国海军将研制新一代干扰机现代兵器(2016年6期)2016-06-25基于时频分析的逆合成孔径雷达成像技术舰船科学技术(2015年8期)2015-02-27对采样数据序列进行时频分解法的改进电测与仪表(2014年17期)2014-04-04泰克推出BERTScope误码率测试仪单片机与嵌入式系统应用(2014年7期)2014-03-24双线性时频分布交叉项提取及损伤识别应用振动、测试与诊断(2014年6期)2014-03-01关于OTN纠错前误码率随机波动问题的分析铁路通信信号工程技术(2014年3期)2014-02-28

推荐访问:干扰 决策 信号