科学技术与工程

组别	P/%	R/%	mAP@0.5/%	FPS/%
YOLOv7-tiny	93.6	95.1	94.8	96.4
YOLOv7-tiny+CSC	94.6	94.8	96.0	85.6
YOLOv7-tiny+SIoU	94.0	94.9	95.6	98.7
YOLOv7-tiny+SMCA	95.2	93.8	95.9	92.5
YOLOv7-tiny+CSC+SIoU	94.5	95.2	96.3	88.4
YOLOv7-tiny+CSC+SMCA	95.2	94.8	96.5	81.8
YOLOv7-tiny+SMCA+SIoU	95.1	94.5	96.3	94.0
YOLOv7-tiny+SMCA+ CSC+SIoU(SCS-YOLO)	95.6	95.3	97.0	82.9

组别	P/%	R/%	mAP@0.5/%	FPS/%
YOLOv7-tiny	93.6	95.1	94.8	96.4
YOLOv7-tiny+CSC	94.6	94.8	96.0	85.6
YOLOv7-tiny+SIoU	94.0	94.9	95.6	98.7
YOLOv7-tiny+SMCA	95.2	93.8	95.9	92.5
YOLOv7-tiny+CSC+SIoU	94.5	95.2	96.3	88.4
YOLOv7-tiny+CSC+SMCA	95.2	94.8	96.5	81.8
YOLOv7-tiny+SMCA+SIoU	95.1	94.5	96.3	94.0
YOLOv7-tiny+SMCA+ CSC+SIoU(SCS-YOLO)	95.6	95.3	97.0	82.9

类别	YOLOv7-tiny	YOLOv8	SCS-YOLO
飞机	0.932	0.952	0.960
油箱	0.969	0.974	0.983
立交桥	0.930	0.964	0.952
操场	0.968	0.976	0.985

类别	YOLOv7-tiny	YOLOv8	SCS-YOLO
飞机	0.932	0.952	0.960
油箱	0.969	0.974	0.983
立交桥	0.930	0.964	0.952
操场	0.968	0.976	0.985

CS-YOLO	SE	CA	CBAM	SMCA	P/%	R/%	mAP/%	参数量
_					94.5	95.2	96.3	6 548 674
_	_				94.8	94.3	96.0	6 581 442
_		_			95.0	94.7	96.4	6 574 322
_			_		95.1	94.9	96.7	6 586 245
_				_	95.6	95.3	97.0	6 552 463

CS-YOLO	SE	CA	CBAM	SMCA	P/%	R/%	mAP/%	参数量
_					94.5	95.2	96.3	6 548 674
_	_				94.8	94.3	96.0	6 581 442
_		_			95.0	94.7	96.4	6 574 322
_			_		95.1	94.9	96.7	6 586 245
_				_	95.6	95.3	97.0	6 552 463

损失函数	P/%	R/%	mAP/%
CIoU	95.2	94.8	96.5
DIoU	95.5	94.6	96.7
EIoU	95.0	94.3	96.0
SIoU	95.6	95.3	97.0

损失函数	P/%	R/%	mAP/%
CIoU	95.2	94.8	96.5
DIoU	95.5	94.6	96.7
EIoU	95.0	94.3	96.0
SIoU	95.6	95.3	97.0

数据集	组别	mAP@0.5/%	FPS/(帧·s^-1)
	YOLOv3	85.8	24.3
	YOLOv4	89.5	42.5
	YOLOv5	93.5	45.7
RSOD	YOLOv7-tiny	94.8	96.4
	YOLOv7	95.7	63.1
	YOLOv8	96.6	78.7
	SCS-YOLO	97.0	82.9
	YOLOv3	74.1	37.4
	YOLOv4	85.9	64.5
	YOLOv5	87.5	69.7
NWPU VHR-10	YOLOv7-tiny	88.2	153.2
	YOLOv7	89.9	95.6
	YOLOv8	90.5	120.7
	SCS-YOLO	90.9	132.5

数据集	组别	mAP@0.5/%	FPS/(帧·s^-1)
	YOLOv3	85.8	24.3
	YOLOv4	89.5	42.5
	YOLOv5	93.5	45.7
RSOD	YOLOv7-tiny	94.8	96.4
	YOLOv7	95.7	63.1
	YOLOv8	96.6	78.7
	SCS-YOLO	97.0	82.9
	YOLOv3	74.1	37.4
	YOLOv4	85.9	64.5
	YOLOv5	87.5	69.7
NWPU VHR-10	YOLOv7-tiny	88.2	153.2
	YOLOv7	89.9	95.6
	YOLOv8	90.5	120.7
	SCS-YOLO	90.9	132.5

基于改进YOLO的多尺度聚合遥感图像小目标检测算法

PDF下载

邝先验 , 王星星 ^* , 王龙锋 , 张祖梁

科学技术与工程 | 论文·自动化技术、计算机技术 2025,25(20): 8560-8570

收起

科学技术与工程 | 论文·自动化技术、计算机技术 2025, 25(20): 8560-8570

基于改进YOLO的多尺度聚合遥感图像小目标检测算法

全屏

邝先验, 王星星^*, 王龙锋, 张祖梁

作者信息

江西理工大学电气与自动化学院, 赣州 341000

邝先验(1976—),男,汉族,江西赣州人,博士,教授。研究方向:深度学习和计算机视觉。E-mail:xianyankuang@163.com。

通讯作者:

^* 王星星(2000—),男,汉族,江西抚州人,硕士硕士生。研究方向:深度学习和计算机视觉。E-mail:1772650505@qq.com。

Small Target Detection Algorithm for Multi-scale Aggregate Remote Sensing Images Based on Improved YOLO

Xian-yan KUANG, Xing-xing WANG^*, Long-feng WANG, Zu-liang ZHANG

Affiliations

School of Electrical and Automation, Jiangxi University of Science and Technology, Ganzhou 341000, China

出版时间: 2025-07-18 doi: 10.12404/j.issn.1671-1815.2405587

文章导航

摘要

收起

针对目前遥感图像小目标检测任务中易出现漏检和误检的问题,提出一种SCS-YOLO[SMCA+CSC+SIoU(shape-aware intersection over union loss)-you only look once]的遥感图像小目标检测算法。首先,针对遥感图像中目标小而聚集的问题,构建空间多尺度卷积注意力(spatial multi-scale convolutional attention, SMCA),提升模型对空间和通道信息的特征提取能力;其次,针对深层网络传递时小目标语义信息容易丢失的问题,设计聚合亚像素卷积(concentrated sub-pixel convolution, CSC),采用多尺度聚合特征提取方法,增强了网络对语义信息的提取能力;最后,将SIoU损失函数替代原模型中的CIoU(complete intersection over union loss)损失函数,加快了网络的收敛速度。SCS-YOLO模型在RSOD和NWPU VHR-10数据集上,平均精确率的平均值(mAP)分别达到97%和90.9%,相较于原模型分别提升了2.2%和2.7%,可见该方法在遥感图像小目标检测任务中的有效性。

关键词

遥感图像 / SCS-YOLO / 小目标 / 注意力 / 聚合亚像素卷积 / SIoU

Abstract

收起

In order to solve the problems of missed detection and false detection in the current remote sensing image small target detection task, a SMCA+CSC+shape-aware intersection over union loss(SIoU)-you only look once(SCS-YOLO) remote sensing image small target detection algorithm was proposed. Firstly, in response to the problem of small and clustered targets in remote sensing images, a spatial multi-scale convolutional attention module(SMCA) was constructed to improve the model’s feature extraction ability of spatial and channel information. Secondly, in order to solve the problem that the semantic information of small targets was easy to be lost during deep network transmission, the aggregation subpixel convolution module concentrated sub-pixel convolution(CSC) was designed, and the multi-scale aggregation feature extraction method was used to enhance the ability of the network to extract semantic information. Finally, the SIoU loss function was used to replace the complete intersection over union loss(CIoU) loss function in the original model, which accelerated the convergence speed of the network. The average of the average precision(mAP)of the SCS-YOLO model reaches 97% and 90.9% on the RSOD and NWPU VHR-10 datasets, respectively, which is 2.2% and 2.7% higher than that of the original model, which shows the effectiveness of the method in the small target detection task of remote sensing images.

Key words

remote sensing images / SMCA+CSC+SIoU you only look once(SCS-YOLO) / small target / attention / aggregated sub-pixel convolution / SIoU

引用本文

邝先验, 王星星, 王龙锋, 张祖梁. 基于改进YOLO的多尺度聚合遥感图像小目标检测算法. 科学技术与工程, 2025 , 25 (20) : 8560 -8570 . DOI: 10.12404/j.issn.1671-1815.2405587

Xian-yan KUANG, Xing-xing WANG, Long-feng WANG, Zu-liang ZHANG. Small Target Detection Algorithm for Multi-scale Aggregate Remote Sensing Images Based on Improved YOLO[J]. Science Technology and Engineering, 2025 , 25 (20) : 8560 -8570 . DOI: 10.12404/j.issn.1671-1815.2405587

正文

收起

遥感技术在航空航海动态监控、生态资源环境监测和军事工程目标检测等多个方面发挥重要作用^[1]。遥感图像中特定小目标的检测和精准定位可以给军事侦察、气象预测、导弹预警等领域带来诸多帮助。然而,由于拍摄遥感图像距离较远,导致拍摄的图片背景复杂,且目标分布小而密集。因此,研究一种提高遥感图像小目标检测精度的算法具有重要意义。

目前,针对遥感图像目标检测的研究方法主要分为传统方法和基于深度学习方法。传统方法主要有AdaBoost^[2]、支持向量机(support vector machine,SVM)^[3]等,早期,其在图像检测中得到广泛应用,核心思想是将线性不可分的问题转换为线性可分的问题,然后通过内积来解决,但在检测速度和检测精度上还有待提高。随着深度卷积神经网络^[4](convolutional neural networks,CNN)被应用于图像领域,并且取得了重大突破。受此影响,研究人员将深度学习迁移到遥感图像检测中。与传统的方法相比,CNN独特的结构特点,不仅能够降低模型的参数量,也使得模型可以更好地学习特征,基于深度学习的方法显著提升了目标检测精度和检测效率。基于深度学习的遥感图像检测算法分为一阶段和二阶段两种主流算法。其中二阶段检测算法的代表有Fast R-CNN^[5]、Faster R-CNN^[6]、SPP-Net^[7]等。以上算法先生成候选框,再对候选框进行目标分类与定位,能较准确检测出目标,但存在计算量和参数量大,检测效率低等问题。一阶段检测算法直接从输入图像中提取所有特征,预测目标的类别和位置。代表算法主要有:YOLO^[8-11](you only look once)、SSD^[12](single shot multibox detector)、RetinaNet^[13]、CenterNet^[14]等。这些算法具有高检测精度的同时显著提高了检测速度,因此得到了广泛的应用。在一阶段算法中,YOLO算法能更好地平衡检测精度和速度,但由于遥感图像中存在背景复杂,目标小而密集等特点,因此, YOLO算法在遥感图像上的应用还有待改进。

闫钧华等^[15]利用深度卷积神经网络逐级提取目标特征,得到高低层特征金字塔,然后在融合部分进行跨层级特征融合,在一定程度上能获取更多弱小目标的信息,但对小目标检测还存在不足。Shang等^[16]基于YOLOv5s模型,提出加权双向金字塔网络(multi-level bidirectional feature pyramid network,Mul-BiFPN),增强了多尺度特征图之间的信息传递,同时提出注意力机制M-SimAM模块,突出关键点信息,改进后的模型降低了参数量,但检测精度有待提高。Zhao等^[17]提出了小目标检测模型MS-YOLOv7,该模型通过多个检测头和卷积注意力来提取丰富的特征,但对于遮挡严重的目标检测效果不明显。孔建国等^[18]在YOLOv8模型基础上设计了特征融合C3(feature fusion C3,FFC3)模块,实现多尺度特征融合;设计CSPPF(CBAM-spatial pyramid pooling fast)模块,进一步提高了检测速度和精度;最后用数据集增强技术改良了数据集,改进后的模型提高了检测速度和精度,但对于背景复杂的目标检测还存在不足。李红岩等^[19]将引入BiFPN结构替代原有的PANet结构,提高对不同尺度特征的信息融合,但没有平衡好推理速度和检测精度。

以上方法在一定程度上提高了网络的检测精度,但对于背景复杂的小目标检测仍存在局限性。鉴于此,针对遥感图像小目标检测做出针对性改进,提出SCS-YOLOSCS-YOLO[SMCA+CSC+shape-aware intersection over union loss(SIoU)-you only lookonce]算法用于遥感图像小目标检测,针对遥感图像存在背景复杂,目标小而聚集的问题,设计空间多尺度卷积注意力(spatial multi-scale convolutional attention, SMCA)模块,将SMCA模块添加到主干网络特征提取部分,增强通道和空间语义信息的提取能力;针对从空间金字塔池化输出的照片分辨率低,存在着小目标信息丢失的问题,设计聚合亚像素卷积(concentrated sub-pixel convolution, CSC)模块,将CSC模块嵌入SPPCSP后面,不仅能获取更丰富的小目标语义信息的同时,同时增强了网络的特征融合能力;针对遥感图像目标形状多样化,引入SIoU(shape-aware intersection over union loss)损失函数替换网络中的CIoU(complete intersection over union loss),加快网络的收敛速度,提高检测精度。遥感图像目标检测在军事领域和民用领域都发挥着重要的作用。

1 模型设计

收起

SCS-YOLO模型如图1所示,其中红色为改进部分。该模型主要由主干网络模块(Backbone)、特征融合模块(Neck)和检测头模块(Head)组成,每个部分都有着相应的功能和作用。主干网络由多层CBS层、MP模块以及多个高效的E-ELAN模块构成,主要任务为从输入的遥感图像中提取丰富的特征信息。颈部网络主要采用PANet网络结构,主要目的是进行特征融合。在检测头部分提出了辅助头的训练方法来提升训练精度,每个检测头针对不同尺度的特征图进行预测,以检测不同大小的目标。

针对背景信息复杂的遥感图像小目标存在漏检和误检的问题,改进工作包括:首先,构造SMCA模块并将其添加到主干网络部分,使得网络更加关注目标区域,忽略背景区域,有效增强主干网络对通道和空间语义信息的提取能力;其次,针对卷积增多导致小目标语义信息丢失的问题,设计了CSC模块并将其嵌入空间金字塔池化(spatial pyramid pooling, SPP)和跨阶段部分通道连接(cross stage partial channel, CSPC)后面,通过多尺度的特征融合增强网络的特征融合能力,提高了吗小目标检测精度;最后为了使预测框适应遥感图像目标形状的多样性,引入SIoU替换原模型中的CIoU,提高网络的收敛速度。

1.1 SMCA注意力机制

输入的遥感图像存在着背景复杂的问题,在经过多次特征提取网络卷积操作后,背景信息大量累加会产生大量冗杂信息,给目标特征提取带来困难。因此,众多研究者尝试在主干网络部分融合注意力机制模块,注意力机制有弱化背景信息,强化特征信息的作用。常见的注意力机制有SE(squeeze-and-excitation)^[20]、CA(coordinate attention)^[21]、CBAM(convolutional block attention module)^[22]等。SE采用通道注意力和通道注意力融合的方式,抑制不重要通道的网络,但未涉及空间特征的关系;CA考虑通道语义信息同时注意到方向相关的位置信息,但网络需要对整个特征图计算权重,显著增加了计算量;CBAM同时涉及通道维度和空间维度,但忽视了空间和通道的相互影响,导致在小目标检测任务中效果不佳。因此,设计SMCA注意力机制。

SMCA注意力结合通道注意力和空间注意力,且根据它们的相互作用给予通道特征图和空间特征图对应的权重,提升网络的特征提取能力。利用深度可分离卷积捕捉特征之间的空间关系,使模。型轻量化的同时,更好的聚集空间信息,强化遥感图像中小目标的特征,同时降低了计算量。SMCA总体结构遵循着先通道(CA)后空间(SA)的顺序,其网络结构如图2所示。

SMCA注意力机制的前半部分为通道注意力。首先,对输入特征图同时做平均池化和最大池化的处理,相当于对输入特征图的每个通道计算其平均特征值和最大特征值,计算结束后生成两个包含通道数的向量;其次,这两个向量经过一个共享全连接层(MLP),这个全连接层计算每个通道的注意力权重,然后,为了使注意力权重不大于1,使用Sigmoid激活函数对每个通道的注意力权重进行处理;最后,将处理后的权重与原始特征图的每个通道相乘,得到通道特征图F_C。这将强调对当前任务有帮助的通道,并抑制无关的通道,见式(1)~式(4)所示。

(1)

P(F)=AvgPool(F)+MaxPool(F)

(2)

X(F)=MLP[P(F)]

(3)

CA=σ[X(F)]

(4)

F_C=CA(F)⊗F

式中:F∈R^C^×^H^×^W为输入特征图,其中C为通道数;H为高度;W为宽度;AvgPool(F)为平均池化的结果;MaxPool(F)为最大池化的结果;P(F)为最大池化和平均池化相加的结果;X(F) 为全连接层输出的结果;F_C为输出的通道特征图;σ为Sigmoid激活函数。

SMCA注意力机制的后半部分为空间注意力。将通道注意力的输出F_C作为空间注意力的输入,首先进入一个5×5的深度可分离卷积,捕捉特征之间的空间关系;其次,采用不同大小的卷积核卷积操作,提高网络捕获空间语义信息的能力;最后,使用一个1×1的卷积改变SA的通道数,使输出的空间特征图SA与通道特征图F_C的通道数保持一致。这一过程如式(5)~式(7)所示。

(5)

Q(F)=DwConv(F_C)

(6)Y(F)=$\stackrel{3}{\sum _{i=0}}$Branch_i[Q(F_C)]

(7)

SA(F)=Conv_1×1[Y(F_C)]

式中:Q(F)为输出的通道特征图进行深度卷积操作后的结果;Y(F)表示分别对Q(F)进行1×3、1×5、1×7的深度卷积操作,再将Q(F)与这3个结果进行拼接的结果;Branch_i为第i条支路,i∈{0,1,2,3};DwConv为深度卷积;Conv_1×1为1×1卷积;Branch₀为第0条支路,即Q(F)直接连接。

将得到的空间特征图SA与通道特征图FC的每个通道相乘,得到通道和空间维度上的分配权重,可表示为

(8)

R=SA(F_C)⊗F_C

1.2 聚合亚像素卷积(CSC)模块

在深度学习特征提取过程中,伴随着卷积的增多,每经过一层网络都会损失一部分特征,输入特征图经过多次特征提取,从空间金字塔池化层输出的特征图分辨率仅为8×8。由于图像分辨率的减小,会导致图像细节的丢失,从而出现小目标语义信息丢失的问题,这会导致对小目标任务检测精度不高,出现漏检的情况。为了提高图像的分辨率,Shi等^[23]引入亚像素卷积,但由于目标特征分布是不均匀的,在提取边界时会出现伪影现象,导致输出结果的不平滑。因此,设计聚合亚像素卷积(CSC)模块,使用focus和亚像素卷积获得更丰富的语义特征信息,同时增强网络的特征融合能力,提高小目标检测精度。CSC网络结构如图3所示。

focus操作把输入的空间信息变为通道信息,在x倍下采样比例下可以将通道扩增为原来的x²倍。亚像素卷积将通道信息变为空间信息,x²倍通道缩减时可以实现x倍的上采样效果,亚像素卷积与focus搭配使用可以在不改变输入特征图分辨率的前提下实现特征融合。首先,当输入特征图大小为(C,H,W)时,使用focus和亚像素卷积获得0.25、0.5、2、4倍采样率下的输出特征图共4组,其大小分别为(16C, 0.25H, 0.25W)、(4C, 0.5H, 0.5W)、(0.25C, 2H, 2W)、(0.062 5C, 4H, 4W),多尺度输出特征图包含比单个特征图更丰富的特征信息;然后,分别使用亚像素卷积和focus将4组特征图的大小恢复到(C,H,W)并沿通道方向进行拼接,得到大小为(4C,H,W)的特征图;再然后,使用GAM注意力机制对特征图进行加权,使重要参数的表现更加突出;最后,沿通道方向进行分割并求和,使最后的输出特征图跟输入特征图大小一样。

1.3 SIoU损失函数

损失函数IoU的定义为预测框和实际框的交集比上这两者并集。YOLOv7-tiny网络模型中损失函数由定位损失、置信度损失和分类损失组成,可表示为

(9)

L_total,Loss=L_loc,Loss+L_conf,Loss+L_class,Loss

式(9)中:L_loc,Loss 为定位损失;L_conf,Loss为置信度损失;L_class,Loss为分类损失。

定位损失是根据CIoU^[24]的计算公式得到的。CIoU引入长宽比,然而当预测框和实际框的长宽比相等时,长宽比的惩罚项就发挥不了作用,CIoU损失函数就无法发挥作用。

基于CIoU存在上述的缺陷,引入SIoU^[25]损失函数替换原网络的损失函数。SIoU损失函数包括角度成本、距离成本和形状成本。

SIoU损失函数计算公式所需参数如图4所示。根据 α和β 角度的大小,判断收敛过程首先是最小化α还是β,角度成本定义如式(10)所示。

(10)Λ=1-2sin²

$\left(\mathrm{a}\mathrm{r}\mathrm{c}\mathrm{s}\mathrm{i}\mathrm{n}x-\frac{\mathrm{\pi }}{4}\right)$

(11)x=$\frac{{c}_{h}}{\sigma \text{'}}$=sinα

(12)σ'=$\sqrt{({b}_{{c}_{x},\mathrm{g}\mathrm{t}}-{b}_{{c}_{x}}{)}^{2}+({b}_{{c}_{y},\mathrm{g}\mathrm{t}}-{b}_{{c}_{y}}{)}^{2}}$

(13)c_h=max(${b}_{{c}_{y},\mathrm{g}\mathrm{t}}$,${b}_{{c}_{y}}$)-min(${b}_{{c}_{y},\mathrm{g}\mathrm{t}}$,${b}_{{c}_{y}}$)

式中:Λ为角度成本;x为α角度的正弦值;c_h为预测框和真实框中心点的高度;σ'为预测框和真实框中心点距离;α为预测框和真实框中心点连线与水平方向的夹角;${b}_{{c}_{x},gt}$为预测框的横坐标;${b}_{{c}_{x}}$为真实框的横坐标,${b}_{{c}_{y},\mathrm{g}\mathrm{t}}$为预测框的纵坐标;${b}_{{c}_{y}}$为真实框的纵坐标。

距离成本表示;预测框和真实框两者中心点的距离。根据定义的角度成本,SIoU重新定义距离成本,如式(14)所示。

(14)Δ=$\sum _{t=x,y}$(1-${\mathrm{e}}^{-\gamma {\rho }_{t}}$)

(15)ρ_x=${\left(\frac{{b}_{c,\mathrm{g}\mathrm{t}}-{b}_{{c}_{x}}}{{c}_{w}}\right)}^{2}$

(16)ρ_y=${\left(\frac{{b}_{c,\mathrm{g}\mathrm{t}}-{b}_{{c}_{y}}}{{c}_{h}}\right)}^{2}$

(17)

γ=2-Λ

式中:Δ为距离成本;γ为调节系数;ρ_t为真实框与预测宽度框中心点的距离差;ρ_x为归一化的水平距离平方;ρ_y为归一化的垂直距离平方。

由距离成本公式得出,α越小,距离成本的贡献越小。相反,当α越接近$\frac{\mathrm{\pi }}{4}$,距离成本贡献越大。随着角度增大,γ被赋予时间优先的距离值。形状成本定义为

(18)Ω=$\sum _{t=w,h}(1-{\mathrm{e}}^{-{\omega }_{t}}{)}^{\theta }$

(19)ω_w=$\frac{\left|w-{w}_{\mathrm{g}\mathrm{t}}\right|}{\mathrm{m}\mathrm{a}\mathrm{x}(w,{w}_{\mathrm{g}\mathrm{t}})}$

(20)ω_h=$\frac{\left|h-{h}_{\mathrm{g}\mathrm{t}}\right|}{\mathrm{m}\mathrm{a}\mathrm{x}(h,{h}_{\mathrm{g}\mathrm{t}})}$

式中:Ω为形状成本;w_t为真实框与预测框的尺寸差异;θ为形状损失的关注程度,将θ设定为1;w为预测框宽度;w_gt为真实框宽度;h为预测框高度;h_gt为真实框高度。

(21)L_SIoU=1-I_IoU+$\frac{\Delta +\Omega }{2}$

式(21)中:L_SIoU为SIoU损失函数值;I_IoU为交并比。

SIoU引入向量角度,通过向量角度,能够更好反应目标的形状特征,算法能更快地找到最优收敛方向。SIoU损失函数还重新定义了惩罚指标,由于增加了向量角度,惩罚项为0,概率就降低了。相比于原来的CIoU损害函数,改进后的损失函数显著提高了收敛速度,提高了检测的精度。

2 实验数据与分析

收起

2.1 实验环境

模型训练环境为Windows 11操作系统,CPU使用13th Gen Intel(R) Core(TM) i7-13700H,内存为16 GB,GPU为8 G的NVIDIA GeForce RTX 4060 Laptop,编程语言为Python3.10,深度学习框架为Pytorch1.13.0。

训练参数设置如下:初始学习率(learning rate)为0.01,训练周期(epochs)为300,批处理量(batchsize)为16,输入照片分辨率为640×640。

2.2 实验数据集

本实验数据集选取RSOD和NWPU VHR-10。其中,RSOD数据集^[26]是一个开放的遥感图像目标检测数据集,数据集中包含飞机,油箱,运动场和立交桥四类。数据集共计976张图,6 950个目标。其中包含4 658个像素a为0<a<30²的小目标样本,764个30²<a<60²的中目标样本,以及1 528个a>60²的大目标样本,实验将数据集按8∶2随机分为训练集、测试集。NWPU VHR-10^[27] 也是一个公开且广泛使用的遥感图像目标检测数据集,数据集中包含飞机、船、储罐等10种类别,数据集一共有800张图,3 651个目标,按 8∶2 随机分为训练集、测试集。

2.3 实验评估指标

实验的评估指标由精确率(P)、召回率(R)和各类平均精度的均值(mAP)组成。

精确率是指正确预测为正样本的数量占预测为正样本总数量的的比例,其中正确预测为正样本的总数量用TP表示,错误预测为正样本的总数量用FP表示,则精确率的表达式为

(22)P=$\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}}$×100%

召回率指正确预测为正样本的数量占实际为正样本的总数量的比例,其中正确预测为正样本的总数量用TP表示,错误预测为正样本的总数量用FP表示,则召回率的表达式为

(23)R=$\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}}$×100%

计算mAP要先计算一种类别的平均精度AP,AP的定义为P-R曲线下所包围的面积,其计算公式为

(24)AP=${\int }_{0}^{1}\mathrm{ }$P(t)dt

因此,对于有M个类别的检测目标,mAP的表达式为

(25)mAP=$\frac{\stackrel{M}{\sum _{m=1}}A{\mathrm{P}}_{m}}{M}$×100%

理论上,上述指标完全能够衡量模型的性能,但在实际应用中还需要考虑模型的大小和检测速度。帧率(frames per second,FPS)常被用来衡量模型的检测速度,每秒钟读取图片的多少的值即为FPS,数值越大则检测速度越快。

2.4 数据分析

为了验证SMCA,CSC模块和SIoU损失函数对遥感图像小目标检测的效果,在RSOD数据集上进行消融实验,使用P、R和mAP@0.5(基于交并比阈值0.5的平均精度均值)作为性能评价指标,实验结果如表1所示。

从表1可以看出, YOLOv7-tiny模型在RSOD数据集上的mAP@0.5精度为94.8%,单独添加SMCA模块后的mAP@0.5精度为95.9%,说明SMCA模块通过调节通道和空间注意里的权重,有效地加强了网络对目标特征的捕获能力。在添加SMCA模块的基础上再引入CSC模块后精确度基本不变,召回率提升了约1.0%,各类平均精度均值提高了约0.6%,FPS降低了10.7 帧/s,说明添加CSC网络,提高了目标检测精度,但降低了检测速度,表明该模块能有效增强图像分辨率,减少小目标语义信息的丢失,并且加强网络特征融合能力,但也因此增加了模型的参数量。由于SIoU能加快收敛速度,理论上引入SIoU能提高检测速度,使FPS有所提高。在引入SMCA和CSC模块后添加SIoU损失函数,此时,精确度提升了约0.4%,召回率基提升了约0.5%,各类平均精度均值提高了约0.5%,FPS提高了1.1 帧/s,其他模型在引入SIoU后FPS也都有明显提高。

由实验数据分析可知,各种改进后的模块都对遥感图像小目标的检测有明显的效果,但由于模块的增加,模型的参数量也相应地增加,网络模型变大,使得FPS略有降低。。

由消融实验的结果可知,SCS-YOLO模型比其他消融实验的模型无论是精确度、召回率还是各类平均精度均值均有明显提高,FPS值也相差不大,证明了该模型的可行性和有效性。

表2为SCS-YOLO算法和YOLOv7-tiny算法、YOLOv8算法对RSOD数据集上每一类mAP结果对比。

从表2可以看出,SCS-YOLO算法比YOLOv7-tiny算法各个类的mAP值都有所提升,尤其是对飞机提升最大,mAP提升了2.8%,对油箱提升最小,mAP只提升了1.4%;SCS-YOLO算法对比YOLOv8算法,立交桥的mAP值低了1.2%,但另外三类的mAP都要更高,总体呈现的各类平均精度均值要高于YOLOv8,进一步证明了SCS-YOLO对遥感图像小目标检测效果比YOLOv7-tiny和YOLOv8更好。

为了验证SMCA注意力机制在遥感图像上的检测的优势,以YOLOv7-tiny+CSC+SIoU(CS-YOLO)为基础模型,引入主流的注意力机制做对比实验,实验结果如表3所示。可以看出,SE通过融合通道注意力方式来抑制不重要的通道,但没有考虑空间特征的关系,mAP反而下降了0.3%;CA考虑了方向相关的位置信息,但缺乏空间维度的信息,mAP上升了0.1%;CBAM通过学习通道特征和空间特征的权重,增强目标特征,mAP提升了0.4%,但增加了许多参数量;SMCA模块沿用了CBAM模块通道注意力,空间注意力部分使用可分离卷积,在减少大量参数量的前提下,mAP提升了0.7%,验证了SMCA模块在遥感图像检测中的优势。

为了体现SIoU损失函数在遥感图像相比于其他损失函数的优势,以YOLOv7-tiny+SMCA+CSC为实验模型基础,引入不同的损失函数做对比实验,实验结果如表4所示。可以看出,DIoU考虑了重叠面积和中心点距离,提高了收敛速度,但没有考虑到长宽比,因此mAP仅提高了0.2%;EIoU将高宽损失添加进惩罚项,进一步提高了收敛速度,但由于遥感图像中目标检测难易程度相差甚大,因此mAP反而下降了0.5%;SIoU重新定义了角度惩罚向量,它可以使预测框快速移动到距离最近的轴,然后只需要一个回归坐标,有效减少了自由度的总数,加快收敛速度的同时,mAP提升了0.5%,验证了SIoU在遥感图像检测上的优势。

为了进一步验证SCS-YOLO算法模型的性能,在同一台设备上将其YOLOv3、YOLOv4、YOLOv5、YOLOv7-tiny、YOLOv8做对比实验,仍然采用RSOD数据集,使用mAP@0.5和FPS为定量分析的定量指标,实验结果如表5所示。可以看出,SCS-YOLO的各类平均精度均值相比于其他目标检测算法都有明显的提升。分析原因在于:YOLOv3 主干网络使用的是darknet53,与其他深度学习网络相比,网络复杂,并且召回率差、定位不准确导致各类平均精度均值最低。YOLOv4对输入的特征图采用Mosaic数据增强,能更好地检测提取出目标特征,但由于没有利用全局上下文信息,对于目标密集的检测不稳定。YOLOv5对小目标特征难以定位和分类,会出现漏检或误检的情况。

YOLOv7模型参数量大,计算复杂,导致检测速度略慢。YOLOv8在目标检测的精度和检测效率方面都有不错的效果。

SCS-YOLO算法,各类平均精度均值达到97.0%,比其他算法都要高。与YOLOv7-tiny 对比各类平均精度有明显的提高,而FPS值略微有所下降;与YOLOv8对比,无论是各类平均精度还是FPS都有所提升。因此,SCS-YOLO算法综合性能对比其他算法更有优势。

为了验证SCS-YOLO算法的鲁棒性,在同一台设备上将其与YOLOv3、YOLOv4、YOLOv5、YOLOv7-tiny、YOLOv7、YOLOv8在NWPU VHR-10上继续做对比实验,使用mAP@0.5和FPS为定量分析的定量指标,实验结果如表5所示。

如表5所示,对于NWPU VHR-10数据集,主流目标检测算法YOLOv3算法各类平均精度均值和FPS值都最低,分别为74.1%和37.4 帧/s; YOLOv7-tiny的检测速度最快,FPS达到153.2 帧/s;SCS-YOLO算法的各类平均精度均值最高为97.0%。SCS-YOLO比其他主流目标检测算法的综合性能都要好,证明了SCS-YOLO算法具有鲁棒性。

为了有一个直观的效果,将SCS-YOLO算法与原YOLOv7-tiny算法在RSOD和NWPU VHR-10数据集上的检测结果进行可视化展示。图5和图6为YOLOv7-tiny算法与SCS-YOLO算法在几个遥感图像典型样本的检测结果示例图。

从可视化结果(图5、图6)分析可知,SCS-YOLO能减少检测目标错误的数量并且还检测出原始YOLOv7-tiny漏检的遥感小目标,从而提高了遥感图像小目标检测的精度。

3 结论

收起

提出一种SCS-YOLO算法,有效降低了遥感图像中小目标漏检和误检的比例。首先,设计SMCA模块,考虑通道注意力与空间注意力相互作用,通过给予通道特征图和空间特征图对应的权重,提升网络对通道和空间语义信息提取能力,增强网络对小目标语义信息的提取聚焦的能力;其次,构建CSC模块,通过多尺度特征图的输出,提高网络特征融合的能力,从而改善小目标检测精度;最后,引入SIoU损失函数更好反应目标的形状特征,提升网络的收敛速度。在ROSD和NWPU VHR-10数据集上进行消融实验和对比实验,验证其有效性,mAP分别提升2.2%和2.7%。结果表明,本文算法对遥感图像目标检测有一定的应用价值。但也存在两点不足:一是由于SCS-YOLO算法嵌入两个模块,使模型增加了许多参数量,FPS较原有模型略有降低,后续可以进行轻量化的研究;二是没有考虑到被遮挡的遥感图像目标的检测,未来可以通过调整网络结构和优化新训练等方法进一步提高检测精度。

基金

收起

国家自然科学基金(51268017)
国家自然科学基金(72061016)

参考文献

收起

文献

收起

参考文献引证文献

排序方式：

[1]

Khanal

, Kc

, Fulton

J P

, et al. Remote sensing in agriculture: accomplishments, limitations and opportunities[J]. Remote Sensing, 2020, 12(22): 3783.

[2]

Wang

, Sun

. The improved AdaBoost algorithms for imbalanced dataclassification[J]. Information Sciences, 2021, 563: 358-374.

[3]

Pisner

D A

, Schnyer

D M

. Support vector machine[M]. Hoboken: John Wiley International Publishing Group, 2020: 101-121.

[4]

Zhang

, Zuo

, Gu

, et al. Learning deep CNN denoiser prior for image restoration[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 3929-3938.

[5]

Bharati

, Pramanik

. Deep learning techniques: R-CNN to mask R-CNN: a survey[J]. Computational Intelligence in Pattern Recognition: Proceedings of CIPR, 2019, 20: 657-668.

[6]

Krizhevsky

, Sutskever

, Hinton

G E

. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25: DOI: 10.1016/j.aasri.2012.05.013.

[7]

, Yang

, Jiao

, et al. High-resolution SAR change detection based on ROI and SPP net[J]. IEEE Access, 2019, 7: 177009-177022.

[8]

Jiang

, Ergu

, Liu

, et al. A review of YOLO algorithm developments[J]. Procedia Computer Science, 2022, 199: 1066-1073.

[9]

Redmon

, Farhadi

. YOLO9000: better, faster, stronger[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 7263-7271.

[10]

Farhadi

, Redmon

. YOLOv3: an incremental improvement[C]// Computer Vision and Pattern Recognition. Berlin:Springer, 2018: 1-6.

[11]

Lee

Y H

, Kim

. Comparison of CNN and YOLO for object detection[J]. Journal of the Semiconductor & Display Technology, 2020, 19(1): 85-92.

[12]

Zhai

, Shang

, Wang

, et al. DF-SSD: an improved SSD object detection algorithm based on DenseNet and feature fusion[J]. IEEE Access, 2020, 8: 24344-24357.

[13]

Cheng

, Bai

, Li

, et al. Tiny-RetinaNet:a one-stage detector for real-time object detection[C]//11th International Conference on Graphics and Image Processing(ICGIP 2019). Bellingham: SPIE, 2020: 195-202.

[14]

Wang

, Xu

, Wang

, et al. CenterNet-auto: a multi-object visual detection algorithm for autonomous driving scenes based on improved CenterNet[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2023, 3: DOI: 10.1109/TETCI.2023.3235381.

[15]

闫钧华, 张琨, 施天俊, 等. 融合多层级特征的遥感图像地面弱小目标检测[J]. 仪器仪表学报, 2022, 43(3): 221-229.

Yan

Junhua

, Zhang

Kun

, Shi

Tianjun

, et al. Ground weak target detection in remote sensing images fused with multi-level features[J]. Chinese Journal of Scientific Instrument, 2022, 43(3): 221-229.

[16]

Shang

, Wang

, Liu

, et al. small target detection algorithm for UAV aerial photography based on improved YOLOv5s[J]. Electronics, 2023, 12(11): DOI: 10.3390/electronics12112434.

[17]

Zhao

L L

, Zhu

M L

. MS-YOLOv7: YOLOv7 based on multi-scale for object detection on UAV aerial photography[J]. Drones, 2023, 7(3): 188.

[18]

孔建国, 张向伟, 赵志伟, 等. 基于改进YOLOv8的机场飞鸟实时目标检测方法[J]. 科学技术与工程, 2024, 24(32): 13944-13952.

Kong

Jianguo

, Zhang

Xiangwei

, Zhao

Zhiwei

, et al. Real-time target detection method for flying birds in airports based on improved YOLOv8[J]. Science Technology and Engineering, 2024, 24(32): 13944-13952.

[19]

李红岩, 徐保庆, 张子扬, 等. 基于全局上下文信息的遥感图像小目标检测[J]. 光学学报, 2024, 44(24): 205-212.

Hongyan

, Xu

Baoqing

, Zhang

Ziyang

, et al. Small object detection in remote sensing images based on global context information[J]. Acta Optica Sinica, 2024, 44(24): 205-212.

[20]

, Shen

, Sun

. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 7132-7141.

[21]

Hou

, Zhou

, Feng

. Coordinate attention for efficient mobile network design[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13713-13722.

[22]

, Wang

, Han

, et al. Research on a U-Net bridge crack identification and feature-calculation methods based on a CBAM attention mechanism[J]. Buildings, 2022, 12(10): 1561.

[23]

Shi

, Caballero

, Huszár

, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 1874-1883.

[24]

Zheng

, Wang

, Liu

, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]// Proceedings of the AAAI Conference on Artificial Intelligence. Reston: AAAI, 2020: 12993-13000.

[25]

Gevorgyan

. SIoU loss: more powerful learning forbounding box regression[J]. arXiv Preprint, 2022: arXiv: 2205.12740.

[26]

Sun

, Dai

, Zhang

, et al. RSOD: real-time small object detection algorithm in UAV-based traffic monitoring[J]. Applied Intelligence, 2022, 22: 1-16.

[27]

Chen

, Jiang

, Li

, et al. An online continual object detector on VHR remote sensing images with class imbalance[J]. Engineering Applications of Artificial Intelligence, 2023, 117: 105549.

2025年第25卷第20期

PDF下载

引用本文

BibTeX

文章信息

doi: 10.12404/j.issn.1671-1815.2405587

接收时间：2024-07-25
首发时间：2026-05-13
出版时间：2025-07-18

补充材料

相关文章

文章信息

作者

出版历史

收稿日期：2024-07-25
修回日期：2025-04-21

基金

国家自然科学基金(51268017)

国家自然科学基金(72061016)

作者信息

江西理工大学电气与自动化学院, 赣州 341000

通讯作者:

^* 王星星(2000—),男,汉族,江西抚州人,硕士硕士生。研究方向:深度学习和计算机视觉。E-mail:1772650505@qq.com。

参考文献

分享链接

https://castjournals.cast.org.cn/joweb/kxjsygc/CN/10.12404/j.issn.1671-1815.2405587

分享至

全文二维码

扫描看全文

引用本文

BibTeX

本文的引用情况

2种不同金属材料的力学参数

科 Family	属数 Number of genus	种数 Number of species	占总种数比例 Percentage of total species (%)	属 Genus	种数 Number of species	占总种数比例 Percentage of total species (%)
鹅膏菌科Amanitaceae	2	11	5.26	鹅膏菌属 Amanita	10	4.78
小菇科 Mycenaceae	2	12	5.74	丝盖伞属 Inocybe	5	2.39
多孔菌科 Polyporaceae	8	14	6.70	蜡蘑属 Laccaria	5	2.39
红菇科 Russulaceae	3	23	11.00	小皮伞属 Marasmius	6	2.87
				小菇属 Mycena	11	5.26
				光柄菇属 Pluteus	5	2.39
				红菇属 Russula	17	8.13
				栓菌属 Trametes	5	2.39

关闭全屏

BibTeX
EndNote
RefWorks
TxT

组别	P/%	R/%	mAP@0.5/%	FPS/%
YOLOv7-tiny	93.6	95.1	94.8	96.4
YOLOv7-tiny+CSC	94.6	94.8	96.0	85.6
YOLOv7-tiny+SIoU	94.0	94.9	95.6	98.7
YOLOv7-tiny+SMCA	95.2	93.8	95.9	92.5
YOLOv7-tiny+CSC+SIoU	94.5	95.2	96.3	88.4
YOLOv7-tiny+CSC+SMCA	95.2	94.8	96.5	81.8
YOLOv7-tiny+SMCA+SIoU	95.1	94.5	96.3	94.0
YOLOv7-tiny+SMCA+ CSC+SIoU(SCS-YOLO)	95.6	95.3	97.0	82.9

组别

P/%

R/%

mAP@0.5/%

FPS/%

YOLOv7-tiny

93.6

95.1

94.8

96.4

YOLOv7-tiny+CSC

94.6

94.8

96.0

85.6

YOLOv7-tiny+SIoU

94.0

94.9

95.6

98.7

YOLOv7-tiny+SMCA

95.2

93.8

95.9

92.5

YOLOv7-tiny+CSC+SIoU

94.5

95.2

96.3

88.4

YOLOv7-tiny+CSC+SMCA

95.2

94.8

96.5

81.8

YOLOv7-tiny+SMCA+SIoU

95.1

94.5

96.3

94.0

YOLOv7-tiny+SMCA+
CSC+SIoU(SCS-YOLO)

95.6

95.3

97.0

82.9

类别	YOLOv7-tiny	YOLOv8	SCS-YOLO
飞机	0.932	0.952	0.960
油箱	0.969	0.974	0.983
立交桥	0.930	0.964	0.952
操场	0.968	0.976	0.985

类别

YOLOv7-tiny

YOLOv8

SCS-YOLO

飞机

0.932

0.952

0.960

油箱

0.969

0.974

0.983

立交桥

0.930

0.964

0.952

操场

0.968

0.976

0.985

CS-YOLO	SE	CA	CBAM	SMCA	P/%	R/%	mAP/%	参数量
_					94.5	95.2	96.3	6 548 674
_	_				94.8	94.3	96.0	6 581 442
_		_			95.0	94.7	96.4	6 574 322
_			_		95.1	94.9	96.7	6 586 245
_				_	95.6	95.3	97.0	6 552 463

CS-YOLO

CBAM

SMCA

P/%

R/%

mAP/%

参数量

94.5

95.2

96.3

6 548 674

94.8

94.3

96.0

6 581 442

95.0

94.7

96.4

6 574 322

95.1

94.9

96.7

6 586 245

95.6

95.3

97.0

6 552 463

损失函数	P/%	R/%	mAP/%
CIoU	95.2	94.8	96.5
DIoU	95.5	94.6	96.7
EIoU	95.0	94.3	96.0
SIoU	95.6	95.3	97.0

损失函数

P/%

R/%

mAP/%

CIoU

95.2

94.8

96.5

DIoU

95.5

94.6

96.7

EIoU

95.0

94.3

96.0

SIoU

95.6

95.3

97.0

数据集	组别	mAP@0.5/%	FPS/(帧·s^-1)
	YOLOv3	85.8	24.3
	YOLOv4	89.5	42.5
	YOLOv5	93.5	45.7
RSOD	YOLOv7-tiny	94.8	96.4
	YOLOv7	95.7	63.1
	YOLOv8	96.6	78.7
	SCS-YOLO	97.0	82.9
	YOLOv3	74.1	37.4
	YOLOv4	85.9	64.5
	YOLOv5	87.5	69.7
NWPU VHR-10	YOLOv7-tiny	88.2	153.2
	YOLOv7	89.9	95.6
	YOLOv8	90.5	120.7
	SCS-YOLO	90.9	132.5

数据集

组别

mAP@0.5/%

FPS/(帧·s^-1)

YOLOv3

85.8

24.3

YOLOv4

89.5

42.5

YOLOv5

93.5

45.7

RSOD

YOLOv7-tiny

94.8

96.4

YOLOv7

95.7

63.1

YOLOv8

96.6

78.7

SCS-YOLO

97.0

82.9

YOLOv3

74.1

37.4

YOLOv4

85.9

64.5

YOLOv5

87.5

69.7

NWPU VHR-10

YOLOv7-tiny

88.2

153.2

YOLOv7

89.9

95.6

YOLOv8

90.5

120.7

SCS-YOLO

90.9

132.5