电讯技术

参数	值
通信频谱带宽/MHz	400
通信子带宽/MHz	40
干扰带宽/MHz	40
通信子带数	10
每回合时隙数	10
仿真干扰功率p₁, p₂, p₃/dBm	10,19,26
子带间隔/MHz	40

参数	值
通信频谱带宽/MHz	400
通信子带宽/MHz	40
干扰带宽/MHz	40
通信子带数	10
每回合时隙数	10
仿真干扰功率p₁, p₂, p₃/dBm	10,19,26
子带间隔/MHz	40

参数	值
训练回合数episode	400
更新目标网络的周期δ	200个频率切换时隙
折扣因子γ	0.9
贪婪因子ε	0.8
经验池大小η	2000
初始奖励值reward_origin	10
信干噪比奖励值	-4,-6,-8
功率切换代价奖励值	-3,-4,-5
频率切换代价奖励值reward_F	-2
功率切换成功奖励	3,4,5
学习率α	0.1
每次用于训练的样本数sample	32个元组

参数	值
训练回合数episode	400
更新目标网络的周期δ	200个频率切换时隙
折扣因子γ	0.9
贪婪因子ε	0.8
经验池大小η	2000
初始奖励值reward_origin	10
信干噪比奖励值	-4,-6,-8
功率切换代价奖励值	-3,-4,-5
频率切换代价奖励值reward_F	-2
功率切换成功奖励	3,4,5
学习率α	0.1
每次用于训练的样本数sample	32个元组

基于多奖励值DDQN智能通信抗干扰决策方法

PDF下载

凌耀 ¹^,² , 谢世珺 ² , 梁豪 ² , 冯姣 ¹ , 高伟杰 ¹^,²

电讯技术 | 应用基础与前沿技术 2025,65(11): 1820-1827

收起

电讯技术 | 应用基础与前沿技术 2025, 65(11): 1820-1827

基于多奖励值DDQN智能通信抗干扰决策方法

全屏

凌耀¹^,², 谢世珺², 梁豪², 冯姣¹, 高伟杰¹^,²

作者信息

¹南京信息工程大学电子与信息工程学院，南京 210044

²国防科技大学第六十三研究所，南京 210007

凌耀男，1998年生于江苏盐城，2021年获工学学士学位，现为硕士研究生，主要研究方向为智能抗干扰决策。

谢世珺女，1980年生于贵州凯里，2005年获工学硕士学位，现为副研究员，主要研究方向为卫星通信。

梁豪男，1993年生于山东泰安，2020年获工学博士学位，现为助理研究员，主要研究方向为卫星通信。

冯姣女，1984年生于吉林延吉，2014年获工学博士学位，现为副教授，主要研究方向为无线通信。

高伟杰男，2000年生于江苏无锡，2022年获工学学士学位，现为硕士研究生，主要研究方向为智能抗干扰决策。

通讯作者:

谢世珺 Email: xsjxsj_520@163.com

An Intelligent Communication Anti-interference Decision Algorithm Based on Multiple Reward Value DDQN

Yao LING¹^,², Shijun XIE², Hao LIANG², Jiao FENG¹, Weijie GAO¹^,²

Affiliations

¹School of Electronic and Information Engineering，Nanjing University of Information Science & Technology，Nanjing 210044，China

²The 63rd Research Institute，National University of Defense Technology，Nanjing 210007，China

出版时间: 2025-11-28 doi: 10.20079/j.issn.1001-893x.240715002

文章导航

摘要

收起

在动态干扰环境下的卫星通信系统中，各信道的质量和干扰功率存在差异。有限的频谱资源和复杂的干扰环境对抗干扰通信决策提出了资源分配和业务需求的挑战，即如何在避开干扰频率和优化功率的同时，实现资源的高效利用。为解决这一问题，提出了一种基于多奖励值函数的深度强化学习抗干扰算法。该算法将发送方、接收方与干扰方之间的交互建模为马尔可夫决策过程。通过优化信道切换与功率切换代价的奖励函数，引入频率切换与功率切换机制，分析相邻时隙频谱中的干扰特征，并将交互过程中采集到的干扰信号特征与信道信息结合，用于训练抗干扰策略。该策略实现了频率域与功率域的联合抗干扰决策。仿真结果表明，该算法能够有效降低系统的受干扰概率，加快算法收敛速度，并优化功率资源的利用效率。

关键词

智能通信抗干扰 / 联合抗干扰决策 / 深度强化学习 / 多奖励值函数

Abstract

收起

In satellite communication systems operating in dynamic interference environments,the quality of channels and the interference power vary. Limited spectrum resources and complex interference environments pose challenges for anti-interference communication decisions, particularly in terms of resource allocation and service demands. Specifically, the challenge lies in efficiently utilizing resources while avoiding interference frequencies and optimizing power. To address this issue,a deep reinforcement learning-based anti-interference algorithm with multiple reward functions is proposed. The algorithm models the interaction between the transmitter,receiver,and interferer as a Markov decision process. By optimizing the reward function associated with the costs of channel and power switching,it introduces mechanisms for both frequency and power switching,analyzes the interference characteristics in the spectrum of adjacent time slots, and integrates the interference signal features collected during the interaction with channel information to train an anti-interference strategy. This strategy enables joint anti-interference decision-making in both the frequency and power domains. Simulation results demonstrate that the algorithm effectively reduces the probability of interference,accelerates convergence,and optimizes the utilization of power resources.

Key words

intelligent communication anti-interference / joint anti-interference decision / deep reinforcement learning / multiple reward value functions

引用本文

凌耀, 谢世珺, 梁豪, 冯姣, 高伟杰. 基于多奖励值DDQN智能通信抗干扰决策方法. 电讯技术, 2025 , 65 (11) : 1820 -1827 . DOI: 10.20079/j.issn.1001-893x.240715002

Yao LING, Shijun XIE, Hao LIANG, Jiao FENG, Weijie GAO. An Intelligent Communication Anti-interference Decision Algorithm Based on Multiple Reward Value DDQN[J]. Telecommunication Engineering, 2025 , 65 (11) : 1820 -1827 . DOI: 10.20079/j.issn.1001-893x.240715002

正文

收起

0　引言

收起

卫星通信作为一种空间信息基础设施，具有传播距离远、覆盖范围广、部署速度快、不受地理环境限制和可用通信频带宽等特点，被广泛应用于军事、水利和远洋航行等领域^[1]。在卫星通信网络中，空间段、地面段和用户段采用电磁波作为信息传输的媒介，并在暴露的无线信道中进行传输。这使得干扰设备可以轻易对通信链路进行干扰，因此在恶劣电磁环境中实现抗干扰的可靠传输成为一个重要的研究课题。随着软件无线电、人工智能等技术的飞速发展，抗干扰正向着智能抗干扰方向发展^[2-3]。深度学习、强化学习等技术作为实现智能抗干扰的有效手段，得到了大量研究。

文献[4]提出了一种基于深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）的频率间隔选择和跳频设置算法，在干扰环境下找到最优的频率间隔和跳频策略，以最大限度地提高信噪比，并将参数决策问题表述为马尔可夫决策^[5]过程（Markov Decision Process，MDP）。文献[6]则对动态干扰环境中的跳频通信系统进行建模，针对多信道干扰的情况下发射机和接收机未知干扰模式，提出了一种深度强化学习（Deep Q Network，DQN）跳频算法来解决跳频决策问题，实现抗干扰。文献[7]通过随机博弈^[8]的方法解决干扰问题，提出了一种强化学习（Q-learning）算法，获得干扰机和目标发射机的智能信道跳频序列，高发射功率目标用户利用智能信道跳变来迫使低发射功率用户同时使用目标用户未跳变的信道来混淆干扰器，低发射功率目标用户通过信道跳变来避开干扰器。

然而，上述文献大多只考虑了频率域或功率域的单域干扰，没有考虑到实际信道环境中存在的频率域和功率域的联合干扰^[9-10]，因此，这些算法通常只能针对单个干扰域制定抗干扰策略。为了提高发送方的通信质量，一方面需要躲避干扰频率，另一方面在遭遇干扰功率时需要以最优的资源效率适当提高发射功率来克服干扰。本文的抗干扰决策算法在考虑功率域和频率域联合抗干扰的同时，优化了资源利用。

本文主要贡献如下：

1）研究了在动态频率域和功率域联合干扰下的抗干扰策略，结合干扰的二维拓扑图建立了马尔可夫抗干扰决策模型，设计了相应的状态集、动作集和代价奖励函数。

2）提出了一种多奖励值函数的深度强化学习（Multiple Reward Value-Double Deep Q Network，MRV-DDQN）抗干扰算法。与以往的DQN抗干扰算法不同，该算法将信干噪比、功率切换代价和频率切换代价等信息分别作为多奖励值函数，通过奖励值函数引导算法以最少的频率切换和最小的功率开销，实现频率域和功率域的联合抗干扰及资源的合理利用。

1　系统模型

收起

1.1　抗干扰通信系统模型

如图1所示，本文研究发送方向接收方发送数据时的抗干扰通信方法，构建了一个由发送方、接收方、若干干扰方和抗干扰决策代理组成的通信系统模型。该模型中，前向通信链路包括多个可用信道。干扰方在每个通信时隙内对多个前向链路信道进行干扰。抗干扰决策代理根据每个通信时隙内信道受到干扰的情况，对下一通信时隙的频率切换和功率切换^[11-13]动作做出决策，并通过未被干扰的通信决策控制链路通知发送方。本文仅对单向通信链路的抗干扰进行研究，并假设信息反馈控制链路中没有干扰存在。发送方在下一传输时隙执行该决策，以最优的子带和功率通过前向链路发送信息。

图2模拟了前向通信链路中的干扰，横坐标代表系统通信时隙，纵坐标代表通信链路按频率从低到高划分的若干信道，频率中心为{f₁，f₂，f₃，…，f_N}。若干随机分布的干扰机产生N种不同功率的干扰，干扰随时隙和频率变化的二维拓扑图如图2所示。发送方在传输数据时，根据通信链路的动态干扰情况选择相应的频率和功率切换策略，从而实现抗干扰。抗干扰策略的最优目标是通过最少的频率切换和最小的发送功率开销进行通信。

1.2　状态及动作建模

状态空间定义为S_t=[f_n，t]，表示在第t个传输时隙占用第n个信道，n∈[1，N]，t∈[1，T]。因此，S_t在时间和频率维度上具有N×T个的可能状态，并且每个状态之间相互独立。由于信道中存在干扰功率，在抗干扰通信系统中，发送机需要根据抗干扰决策代理发送的频率切换动作，决定是否在当前信道上继续传输或跳转到其他N-1个信道之一，同时根据功率切换动作决定当前的发射功率。将频率切换动作和功率切换动作定义为二维元组A= [A_Fn，A_Pn]，A_Fn表示跳转到第n个子带，A_Pn表示发射功率切换为P_n。A_t∈A是第t个时隙中发送方采用的频率和功率切换动作。

1.3　奖励值函数建模

奖励值函数是引导算法实现频率域和功率域联合抗干扰的重要参数，在本节中建立了奖励初值、信噪比奖励值、频率及功率切换代价奖励值和功率切换成功奖励值。算法训练完成后的奖励值也作为该抗干扰决策算法性能的评价标准。

为了便于仿真，设置了奖励初值reward_origin，用于表示没有进行频率切换且子带没有干扰功率时的奖励值。接收方的信干噪比和传输速率分别表示为

式中：f_U，_t为发送方在t时刻的发送频率，发射功率为P_U，_t；f_j，_t为干扰方在t时刻选择干扰的通信频率，干扰功率为P_j，_t；n为信道噪声功率；g_u表示发送方到接收方之间的信道增益；g_j表示干扰方和接收方之间的信道增益；B_U是用户发送信道带宽；C_U是发送速率。发送方如果选择和干扰方相同的频率即（f_j，_t=f_U，_t），则δ（f_j，_t=f_U，_t）= 1，否则δ（f_j，_t=f_U，_t）= 0。为了表征接收端信号质量的好坏，将信干噪比建立为奖励值函数r

，根据式（1）计算不同信干噪比设置

，表示为

为了衡量功率切换和频率切换对通信过程的影响，将功率域和频率域的干扰量化为抗干扰决策算法中的奖励值函数。系统在频率切换后需要重新同步通信链路，因此产生频率切换代价，根据频率切换代价设置奖励值reward_F，当频率没有发生切换时则代价为0;发射功率大于干扰功率6 dBm以上即功率域抗干扰成功，根据功率切换成功代价设置奖励值reward_Ps，否则奖励值为0。

当选择有干扰功率的信道时，发射功率会根据信道中的干扰功率进行提高。在发射功率提高的过程中会产生功率切换代价。根据不同的干扰功率，设置了功率切换代价奖励值

，表示为

这样的多奖励值函数机制控制Q值的更新以及神经网络权值的优化，引导算法尽可能切换到空闲信道或干扰功率低的信道，通过发射功率的切换保证传输的可靠性。抗干扰策略的目标是最大化长期累积奖励值，使得发送方能在最小的频率切换和功率切换的代价下实现抗干扰。

1.4　状态动作值建模

在本文中将状态动作值定义为Q（S，A），表示在当前状态S经过神经网络计算输出的Q值元组，Q值元组的索引位置与动作所在集合的索引位置相对应。在MRV-DDQN算法中，Q值元组的更新表示为

式中：Q^∗（S，A）是状态S_t和A对应的状态动作更新值；γ是折扣因子，在0～1范围之间；θ为目标网络权值；θ′是策略网络权值；

中先由

取得目标网络中最大Q状态动作值对应的动作A_t+₁，再根据下一时刻的S_t+₁、A_t+₁动作更新策略网络的Q值。

本节对抗干扰策略的状态、动作、奖励值和状态动作值进行建模，为下一节的算法实现提供理论基础。通过不断优化Q状态动作值，确定最优抗干扰策略的问题可以等效于发射机在每个时隙选择最优动作。

2　基于多奖励值的DDQN智能抗干扰算法

收起

2.1　基于MRV-DDQN抗干扰算法框架

网络结构如图3所示，由输入、输出层和两个隐藏层组成，每层包含30个单元。3种层之间用权重参数θ={θ_Input，θ_Hidden，θ_Onput}全连接。特征输入层获取状态空间元组里的信道信息。隐藏层中使用relu激活函数如式（6）:

式中：x为每层的输出。激活函数使神经网络^[14]能够拟合复杂的非线性Q状态动作函数值。输出层的30个Q状态动作函数值单元对应不同的频率和功率切换动作。

基于MRV-DDQN抗干扰算法框架如图4所示。框图中展示了算法的执行过程，其中包含两张结构相同的MRV-DDQN网络分别是策略网络（policy net）和目标网络（target net）。

在发送方、干扰方、接收方交互过程中产生的状态、奖励、动作和下一状态组成的元组保存在经验池中，训练时从经验池中周期性随机取样32个样本来训练策略网络。目标网络输出的Q_target（S，A）与Q^∗（S，A）的差值作为损失值：

损失越小，MRV-DDQN神经网络的收敛性越好，抗干扰策略掌握得越准确，从而输出最优的抗干扰动作。损失值通过反向梯度计算更新网络中隐藏层的权值，如式（8）所示：

抗干扰策略随着网络权值的动态更新不断优化。为了加快网络收敛速度，周期地将该网络的权值复制给目标网络。在循环动态更新的过程中，目标网络作为最佳抗干扰策略的输出网络，根据Q（S，A）状态动作值来获得最佳动作。

2.2　MRV-DDQN抗干扰算法

MRV-DDQN抗干扰算法执行流程如下：

输入：

1）初始化算法参数：各奖励值reward,学习率α,折扣因子γ,贪婪策略选择概率ε,目标网络更新周期δ,经验池大小η,用于训练的样本数sample。

2）初始化环境参数：干扰功率P₁，P₂，…，P_n，初始化policy和target网络权值，训练回合数（episode）初始值为0，最大值为400。

输出：最优抗干扰动作[A_Fn, A_Pn]。

循环：for episode=0 to 400;

1）发送方、接收方和干扰方之间交互形成的状态动作空间存储到经验池η中；

2）从上述的经验池η中随机取出32样本元组输入到policy神经网络中得到状态动作的Q（S, A）值；

3）根据式（7）来更新Q（S, A）得到Q^∗（S, A）,并根据式（8）计算损失值Loss;

4）根据式（8）反向梯度算法更新policy网络中神经网络节点的权值θ′;

5）直到损失值收敛，得到最优抗干扰动作[A_Fn，A_Pn]，此时发送方使用最佳通信频率和发射功率。

开始之前，需要初始化算法参数和环境参数。算法参数包括第1.3节介绍的5种奖励值、用于控制网络更新幅度的学习速率α，以及用于控制未来奖励在当前决策中权重的折扣因子γ。在算法初期，发送方、干扰方和接收方需要相互交互，以探索信道中的干扰情况。贪婪策略的选择概率ε决定了算法进行探索的概率，概率越大，干扰情况统计得越全面，经验池也会越丰富。为防止算法出现Q值高估，设置了更新周期δ，该参数控制策略网络向目标网络更新权重的周期数。训练样本数sample表示每次从经验池中提取的用于训练网络的样本数量。环境参数包括信道中设置的动态干扰（P₁，P₂，…，P_n）、初始神经网络权值和训练回合数。

在算法执行过程中，进入训练循环。首先，在算法初期，贪婪策略选择概率ε控制发送方、干扰方和接收方之间的交互，以探索信道中的干扰情况，并将探索得到的状态-动作对存储在经验池中。同时，算法从经验池中随机抽取32个训练样本输入到策略神经网络中，计算得到状态-动作值Q（S，A）。根据第1.4节中的状态-动作值更新公式计算出Q^∗（S，A），并通过计算Q（S，A）和Q^∗（S，A）之间的差异确定算法的损失值。由于Q^∗（S，A）是依据奖励值引导的结果，相比之前的Q（S，A）更加符合算法在频率域和功率域的抗干扰需求。通过两者差值进行反向梯度更新，优化策略网络的权重，从而增强算法的抗干扰性能。最终，随着算法的收敛，输出的抗干扰动作[A_Fn，A_Pn]达到最优。

3　仿真与分析

收起

3.1　场景及模型参数设置

本节对基于MRV-DDQN抗干扰算法的性能进行分析，并展示MRV-DDQN与DQN抗干扰算法性能的对比。在训练过程中，定义每10个传输时隙为一个回合，总回合数为400次。为了更好地比较两种算法的性能，在前向链路的10个信道中设置了3个随机分布且不同功率的干扰机对通信链路进行干扰，干扰机以5个时隙为周期不断切换干扰频段，对通信子带动态干扰。仿真环境基于OpenAI提供的gym库^[15]。为了模拟实际通信过程中的抗干扰性能，算法中模拟了一些参数，如表1所示。

在表2中，参数δ为策略网络向目标网络复制权重的周期数。为了避免MRV-DDQN算法的Q值高估，目标网络的更新周期应适当延长。折扣因子γ决定未来奖励在当前决策中的权重，设为0.9能确保奖励有效引导算法输出最优策略。贪婪因子ε决定算法运行初期的探索力度，以积累足够的数据存储在经验池中，便于神经网络的训练。本文将经验池大小设为2000，每次从中提取32个样本用于训练，能够满足算法需求。初始奖励值设为正值，在频率或功率切换时将奖励值设为负值，以增强算法的抗干扰性能。学习速率控制参数更新幅度，速率过大可能导致参数过度更新和发散；过小则会减缓模型的收敛速度，延长训练时间。在调试过程中，逐步增大学习速率，最终确定0.1为合理值，算法的收敛效果较好。

3.2　性能对比

图5展示了本文MRV-DDQN抗干扰算法与传统DQN抗干扰算法的收敛性能对比，损失值越小，表明神经网络收敛得越好。在算法逐渐收敛的过程中，MRV-DDQN算法损失值最终达到0左右，DQN算法损失值在25附近。从图中可以看出，MRV-DDQN的损失值更低，能够掌握更好的抗干扰策略，输出更优的频率切换和功率切换动作。

由于奖励值函数包含无干扰的初始奖励和若干受干扰的奖励代价，它也反映了系统的数据吞吐能力，奖励值越大，单位时间内的数据吞吐量越高。图6展示了MRV-DDQN和DQN抗干扰算法每回合总奖励值的对比。随着回合数的增加，MRV-DDQN抗干扰算法的总奖励值不断增加，最终达到一个固定值，表明系统的数据吞吐能力不断提高并最终达到稳定状态。相比之下，DQN抗干扰算法每回合的总奖励值较低，传输数据能力较差。

图7展示了MRV-DDQN和DQN抗干扰算法在每个回合中的归一化受干扰率。结果显示，MRV-DDQN抗干扰算法在收敛后每回合的受干扰率为0，表明其能够有效摆脱周期性的动态干扰，而DQN抗干扰算法在收敛后每回合的受干扰率为0.3左右。因此，MRV-DDQN抗干扰算法在频率域的抗干扰性能明显优于DQN抗干扰算法。

在训练的400回合中，系统生成了4000个时隙，展示效果对比不明显。因此，在这4000个时隙中，每隔100个时隙进行一次干扰功率和发射功率的抽样，如图8所示。算法在运行过程中与环境不断交互，当抗干扰策略未完全优化时，频率切换动作可能导致发送方通信频段切换到带有干扰功率的信道中，并且可能出现发射功率低于干扰功率的情况（如抽样8、抽样12）。此时，算法仅掌握部分抗干扰策略，而功率切换动作也可能导致发射功率高于干扰功率6 dBm（如抽样2、抽样5、抽样9），实现部分功率域抗干扰。当算法收敛并完全掌握抗干扰策略时，频率切换动作将使发送方通信频段切换到空闲的子带，并以最低的发射功率（6 dBm）进行通信，以实现资源的最佳利用。

4　结束语

收起

本文研究了无线通信网络中功率域和频率域的联合抗干扰问题，综合考虑了资源利用、频率切换代价和功率切换代价等因素，重点解决了在有限频谱资源内如何选择合适的信道及发射功率以实现有效抗干扰。本文将发送方、接收方和干扰方之间的交互建模为马尔可夫决策过程，通过改进信道切换和功率切换代价的奖励函数，并利用干扰特征和信道信息训练抗干扰策略，实现了频率域和功率域的联合抗干扰决策。在有限资源的情况下，通过引入频率切换和功率切换机制提升了信道和功率资源的利用率，引入双神经网络则提升了系统的收敛性能。

在通信抗干扰领域仍然有许多问题有待分析和探讨：①在通信抗干扰的上下游领域包括智能干扰感知、智能抗干扰波形重构也是值得深入研究的方向；②未来抗干扰领域将由单域、多域向全域发展，这使得抗干扰的策略空间急剧膨胀，因此深度强化学习方面的策略优化是未来研究的重点。

参考文献

收起

文献

收起

参考文献引证文献

排序方式：

[1]

陈书恒, 莫嘉倩, 莫小欣.机载低轨卫星通信发展及关键技术综述[J].电讯技术, 2024, 64(1):149-157.

[2]

魏鹏.卫星通信智能抗干扰决策技术研究[D].长沙:国防科技大学, 2021.

[3]

FOURATI

, ALOUINI

M S

. Artificial intelligence for satellite communication: a review[J]. Intelligent and Converged Networks, 2021, 2(3):213-243.

[4]

ZHANG

Y P

, ZHAO

Z J

, ZHENG

S L

, et al. Intelligent anti-jamming decision with continuous action and state in bivariate frequency agility communication system[J]. IEEE Transactions on Cognitive Communications and Networking, 2023, 9(6):1579-1595.

[5]

X C

, CHEN

J N

, LING

, et al. Deep reinforcement learning-based anti-jamming algorithm using dual action network[J]. IEEE Transactions on Wireless Communications, 2023, 22(7):4625-4637.

[6]

, ZHANG

H M

, QI

X L

, et al. Deep reinforcement learning based hopping strategy for wideband anti-jamming wireless communications[J]. IEEE Transactions on Vehicular Technology, 2024, 73(3):3568-3579.

[7]

NOORI

, SADEGHI VILNI

. Jamming and anti-jamming in interference channels:a stochastic game approach[J]. IET Communications, 2020, 14(4):682-692.

[8]

HAN

, HUO

L Y

, TONG

X H

, et al. Spatial anti-jamming scheme for Internet of satellites based on the deep reinforcement learning and Stackelberg game[J].IEEE Transactions on Vehicular Technology, 2020, 69(5):5331-5342.

[9]

ZHOU

, LI

Y G

, NIU

Y T

. Intelligent anti-jamming communication for wireless sensor networks:a multi-agent reinforcement learning approach[J]. IEEE Open Journal of the Communications Society, 2021, 2:775-784.

[10]

王桂胜, 董淑福, 黄国策.无人系统认知联合抗干扰通信研究综述[J].计算机工程与应用, 2022, 58(8):1-11.

[11]

ZENG

X Y

, CAI

, TANG

X H

, et al. Optimal frequency hopping sequences of odd length[J]. IEEE Transactions on Information Theory, 2013, 59(5):3237-3248.

[12]

, CHENG

Y F

, WANG

P Y

. Jamming detection in broadband frequency hopping systems based on multi-segment signals spectrum clustering[J]. IEEE Access, 2021, 9:29980-29992.

[13]

J L

, GUO

F C

. Time-frequency parameter estimation method of frequency hopping signal based on morphology method under low SNR[C]//2021 IEEE 6th International Conference on Signal and Image Processing. Nanjing:IEEE, 2022:734-738.

[14]

DOANIS

, SPYROPOULOS

. Sample-efficient multiagent DQNs for scalable multi-domain 5G+ inter-slice orchestration[J].IEEE Transactions on Machine Learning in Communications and Networking, 2024, 2:956-977.

[15]

LIU

G S

, DENG

W J

, XIE

X R

, et al. Human-level control through directly trained deep spiking Q-networks[J]. IEEE Transactions on Cybernetics, 2023, 53(11):7187-7198.

2025年第65卷第11期

PDF下载

112

引用本文

BibTeX

文章信息

doi: 10.20079/j.issn.1001-893x.240715002

接收时间：2024-07-15
首发时间：2026-04-15
出版时间：2025-11-28

补充材料

相关文章

文章信息

作者

出版历史

收稿日期：2024-07-15
修回日期：2024-11-08

基金

作者信息

¹南京信息工程大学电子与信息工程学院，南京 210044

²国防科技大学第六十三研究所，南京 210007

通讯作者:

谢世珺 Email: xsjxsj_520@163.com

参考文献

分享链接

https://castjournals.cast.org.cn/joweb/dxjs/CN/10.20079/j.issn.1001-893x.240715002

分享至

全文二维码

扫描看全文

引用本文

BibTeX

本文的引用情况

2种不同金属材料的力学参数

科 Family	属数 Number of genus	种数 Number of species	占总种数比例 Percentage of total species (%)	属 Genus	种数 Number of species	占总种数比例 Percentage of total species (%)
鹅膏菌科Amanitaceae	2	11	5.26	鹅膏菌属 Amanita	10	4.78
小菇科 Mycenaceae	2	12	5.74	丝盖伞属 Inocybe	5	2.39
多孔菌科 Polyporaceae	8	14	6.70	蜡蘑属 Laccaria	5	2.39
红菇科 Russulaceae	3	23	11.00	小皮伞属 Marasmius	6	2.87
				小菇属 Mycena	11	5.26
				光柄菇属 Pluteus	5	2.39
				红菇属 Russula	17	8.13
				栓菌属 Trametes	5	2.39

关闭全屏

BibTeX
EndNote
RefWorks
TxT