科学技术与工程

算法	单类别检测精度/%	mAP/%
Faster R-CNN	63.51	99.26	88.59	92.82	86.04
SSD	45.42	99.06	68.73	91.95	76.29
YOLOv5	93.09	98.15	66.26	98.15	88.70
YOLOv7	92.29	98.77	75.17	96.88	90.78
本文算法	93.59	99.10	85.15	96.87	93.68

算法	单类别检测精度/%	mAP/%
Faster R-CNN	63.51	99.26	88.59	92.82	86.04
SSD	45.42	99.06	68.73	91.95	76.29
YOLOv5	93.09	98.15	66.26	98.15	88.70
YOLOv7	92.29	98.77	75.17	96.88	90.78
本文算法	93.59	99.10	85.15	96.87	93.68

类别	不同算法检测结果/%
飞机	98.31	90.40	99.95	100.00	99.99
棒球场	99.55	89.90	97.73	98.07	98.10
篮球场	95.35	80.60	83.18	89.86	96.05
桥梁	86.33	76.70	75.61	71.29	87.89
田径场	99.95	98.31	100.00	99.19	99.90
港口	95.75	73.40	89.39	91.35	94.56
舰船	75.60	60.90	82.44	86.64	85.40
油罐	65.60	79.80	98.33	93.12	95.51
网球场	81.80	82.60	91.11	90.48	93.89
车辆	47.82	52.10	73.93	81.97	86.83
mAP	84.61	78.40	89.17	90.20	93.81

类别	不同算法检测结果/%
飞机	98.31	90.40	99.95	100.00	99.99
棒球场	99.55	89.90	97.73	98.07	98.10
篮球场	95.35	80.60	83.18	89.86	96.05
桥梁	86.33	76.70	75.61	71.29	87.89
田径场	99.95	98.31	100.00	99.19	99.90
港口	95.75	73.40	89.39	91.35	94.56
舰船	75.60	60.90	82.44	86.64	85.40
油罐	65.60	79.80	98.33	93.12	95.51
网球场	81.80	82.60	91.11	90.48	93.89
车辆	47.82	52.10	73.93	81.97	86.83
mAP	84.61	78.40	89.17	90.20	93.81

算法	改进1	改进2	改进3	mAP/%
YOLOv7				90.78
HAT_Block	√			91.07
GAM_Att		√		91.02
NWD度量			√	90.90
本文算法	√	√	√	93.68

算法	改进1	改进2	改进3	mAP/%
YOLOv7				90.78
HAT_Block	√			91.07
GAM_Att		√		91.02
NWD度量			√	90.90
本文算法	√	√	√	93.68

融合多层特征与上下文信息的YOLO改进算法

PDF下载

费选 , 郭梦瑶 , 吴思佳 , 靳子泷 , 马丁

科学技术与工程 | 论文·自动化技术、计算机技术 2025,25(4): 1555-1562

收起

科学技术与工程 | 论文·自动化技术、计算机技术 2025, 25(4): 1555-1562

融合多层特征与上下文信息的YOLO改进算法

全屏

费选, 郭梦瑶, 吴思佳, 靳子泷, 马丁

作者信息

河南工业大学人工智能与大数据学院, 郑州 450001

费选(1986—),男,汉族,河南郑州人,博士,副教授。研究方向:高光谱遥感影像分析。E-mail:feixuan@haut.edu.cn。

Improved YOLO Algorithm via Fusing Multilayer Features and Contextual Information

Xuan FEI, Meng-yao GUO, Si-jia WU, Zi-long JIN, Ding MA

Affiliations

School of Artificial Intelligence and Big Data, Henan University of Technology, Zhengzhou 450001, China

出版时间: 2025-02-08 doi: 10.12404/j.issn.1671-1815.2309878

文章导航

摘要

收起

遥感图像目标检测在军事侦察、智慧农业等领域意义重大,特别是小目标检测一直获得持续关注。然而,遥感图像中的小目标面临特征信息不足、检测难度大等问题,成为困扰遥感检测应用发展的最大障碍。为此,提出YOLO-HF(you only look once-hybrid feature)算法,该算法在传统YOLOv7模型的网络中,引入通道注意力和自注意力的混合注意力机制提取目标深层特征,并将浅层特征和深层特征进行融合,增加局部特征的丰富性;为进一步加强对全局信息的关注,在提取特征后为小尺度目标添加全局注意力机制,实现全局特征表达能力的提升;为避免传统损失函数对小目标位置偏差敏感,导致检测效果不佳,选择使用一种新的度量方式,将其嵌入边界框损失函数的计算中,从而加快损失函数的收敛,实现小目标检测精度的提升。实验结果表明:与传统YOLOv7算法相比,所提算法在RSOD和NWPU VHR-10数据集上均表现出优越性,特别地,在RSOD数据集上均值平均精度提升了2.90%,在NWPU VHR-10数据集上均值平均精度实现了3.61%的提升。

关键词

遥感图像 / 目标检测 / YOLOv7 / 多层特征 / 注意力机制

Abstract

收起

Remote sensing image target detection is one of great significance in military reconnaissance, intelligent agriculture and other fields, especially small target detection has been gaining continuous attention. However, small targets in remote sensing images face the problems of insufficient feature information and difficult detection, which have become the biggest obstacles plaguing the development of remote sensing applications. To this end, the you only look once-hybrid feature(YOLO-HF) algorithm was proposed, which introduced a hybrid attention mechanism of channel attention and self-attention in the network of the traditional YOLOv7 model to extract the target’s deep features, and fused the shallow and deep features to increase the richness of local features; to further strengthen the attention to the global information, a global attention mechanism was added for the small-scale targets after the extraction of the features, to achieve the ability of global feature expression enhancement. In order to avoid that the traditional loss function was sensitive to the positional deviation of small targets, which leaded to poor detection effect, a new metric was selected for use, which was embedded into the computation of the bounding box loss function, so as to accelerated the convergence of the loss function and realized the enhancement of the detection accuracy of small targets. The experimental results show that compared with the traditional YOLOv7 algorithm, the proposed algorithm shows superiority on both RSOD and NWPU VHR-10 datasets, and in particular, the mean average accuracy on RSOD dataset is improved by 2.90%, and the mean average accuracy on NWPU VHR-10 dataset realizes an improvement of 3.61%.

Key words

remote sensing images / target detection / YOLOv7 / multilayer features / attention mechanism

引用本文

费选, 郭梦瑶, 吴思佳, 靳子泷, 马丁. 融合多层特征与上下文信息的YOLO改进算法. 科学技术与工程, 2025 , 25 (4) : 1555 -1562 . DOI: 10.12404/j.issn.1671-1815.2309878

Xuan FEI, Meng-yao GUO, Si-jia WU, Zi-long JIN, Ding MA. Improved YOLO Algorithm via Fusing Multilayer Features and Contextual Information[J]. Science Technology and Engineering, 2025 , 25 (4) : 1555 -1562 . DOI: 10.12404/j.issn.1671-1815.2309878

正文

收起

目标检测作为计算机视觉领域的重要研究方向,被众多研究者所关注。与传统自然图像领域的目标检测不同,遥感图像的目标检测对环境监测、动物保护、交通管理、国防军事等领域具有重要的理论意义和实用价值^[1]。基于不同传感器获取的遥感图像,往往蕴含丰富的数据信息,且类型多样、背景复杂,特别是数据集样本中含有大量特征不明显的小目标。此外,传统目标检测通过人工方式提取图像特征^[2],导致图像特征信息提取不足,无法有效甄别小目标,阻碍了遥感图像小目标检测的进一步发展和应用。

近年来,随着软硬件环境和计算资源的不断进步,有很多学者开始研究如何将深度学习方法,尤其是卷积神经网络,与各个领域进行结合,并取得了一定成果,这引起了目标检测领域研究者的广泛关注^[3]。Girshick等^[4]在目标检测领域应用卷积神经网络,并借助该网络提取图像区域特征,从而实现目标检测,即R-CNN(regions with CNN features)。与传统滑动窗通过滑动来逐个判断所有可能包含目标的区域截然不同,Girshick等^[4]提出预先提取最可能的目标候选区域,然后利用卷积神经网络对这些候选区域进行特征提取,以便判断和识别目标。这种创新性想法影响深远,为目标检测的研究开辟了新思路。紧随其后的Fast R-CNN算法^[5]在R-CNN的基础上取得了一定的发展,该算法引入RoI(region of interest pooling)池化层,目的是将各种尺寸的候选区域映射为统一大小的特征图。Ren等^[6]提出Faster R-CNN算法,快速生成候选区域的过程由区域生成网络(region proposal network,RPN)负责实现,同时利用RPN与共享卷积特征图的卷积操作,获取生成候选区域的边界框和置信度得分,从而结合RPN与Fast R-CNN形成了端到端的目标检测系统,能够在一定程度上提高目标检测的精度。

当前,以R-CNN系列算法为代表的两阶段方法检测速度无法满足实时性的需求,因而不需要生成候选框的单阶段方法逐渐成为主流。Redmon等^[7]提出的YOLO(you only look once)算法成为单阶段方法的重要代表,引起相关研究者的极大兴趣。与以往的目标检测工作不同,YOLO算法采用全新的方法,将目标检测过程视为空间分离的边界框和相关类概率的回归问题,进一步利用分割网格进行目标位置和类别的预测。在此基础上,YOLOv2^[8]使用Darknet-19作为特征提取网络,并考虑到尺度多样性,针对不同尺度利用锚框预测不同形状和大小的目标,提高了目标检测精度。YOLOv3利用Darknet-53作为特征提取的核心网络,并且在此之上嵌入特征金字塔网络(feature pyramid network,FPN)结构,以实现对多尺度目标的检测,这种更细粒度的锚框可以提升对检测目标的定位能力。YOLOv4^[9]选择CSPDarknet53作为主干网络,其中Neck结构主要采用SPP(spatial pyramid pooling)模块、FPN和路径聚合网络(path aggregation network,PAN)。YOLOv5则通过Mosaic数据增强处理数据,用Focus结构和CSP(cross-stage-partial-connections)结构进一步提升YOLO算法的目标检测精度。李启明等^[10]针对X射线图像危险品检测存在的问题对YOLOv5的网络进行改进,使用剪枝减小模型,并通过坐标注意力机制使网络聚焦检测目标,进一步使用数据增强实现检测性能优化。YOLOv7在YOLOv5基础上,引入ELAN模块代替CSP(cross-stage-partial-connections)模块,对池化操作进行修改使得目标检测能力得到进一步提高。

在许多方面,研究者都选用YOLO作为基础进行详尽的研究,周孟然等^[11]通过FReLU所形成的新卷积块来对空间的解析能力进行提升,引入位置注意来解决钢材缺陷的检测问题,取得成效。郭华玲等^[12]利用RepVGG和YOLOv5的结合对交通标志小目标进行检测得到了不错的效果。蒋启超等^[13]将Transform和YOLO相结合用于驾驶员的疲劳检测,其算法的检测精度和轻量上都具有一定的优势。

随着深度学习方法在遥感图像处理领域的引入和快速发展,遥感图像目标检测的精度得到较大提升。Li等^[14]在YOLOv4的基础上,将主干网络替换为MobileNext网络以减少参数量,并添加了RFB(receptive field block)和ECA(efficient channel attention)结构,通过实验验证了模型在遥感数据集上的检测有效性。张朝阳等^[15]针对遥感图像的多尺度、形态多样等问题,引入双向特征金字塔网络,并融合Swin Transformer的多头注意力机制,重构网络结构,对YOLO算法进行优化。此外,针对遥感图像中普遍存在的小目标遮挡导致漏检及误检问题,如何充分利用被检测目标所具有的独特先验知识对提高检测效果而言很重要。Li等^[16]考虑遥感图像中大量背景先验知识可能提供有效信息,首次在遥感目标检测中探索大卷积核机制,提出了LSKNet(large selective kernel network),优势在于相对其他检测器较轻量,检测精度在多个数据集上得到大幅提高,极大降低了误检率。针对遥感图像小目标检测性能不理想的问题,Rabbi等^[17]将GAN引入遥感图像目标检测领域,结合其他模块能够进一步提高遥感小目标检测能力。Zhang等^[18]通过融合多模态遥感图像中的互补信息来改善小目标检测能力,删除相应模块保留高分辨特征,利用像素级多模态融合提取信息,并通过超分辨辅助分支学习高分辨特征,在低分辨率输入的大背景下区分小物体,从而更好检测小目标。

基于此,针对遥感图像小目标特征信息过少的检测难点,YOLO-HF(you only look once-hybrid feature)以YOLOv7算法^[19]为基础,通过改进和优化,提升小目标检测能力。将混合注意力转换器(hybrid attention transformer,HAT)模型^[20]中对输入图像的浅层和深层特征提取模块添加到YOLOv7的主干网络所提取的特征信息之后,对所得到的特征信息进行处理,提取更多小目标的特征信息;引入全局注意力机制(global attention mechanism,GAM)^[21],增强模型对上下文信息的理解,提升模型检测性能;将归一化的Wassertein 距离(normalization Wassertein distance,NWD)^[22]嵌入边界框损失函数中,并调整相应参数,打破传统基于IoU度量对小目标位置偏差敏感的局限,提升检测器的检测性能,从而准确评估小目标间的相似度,进一步提高检测精度。

1 YOLO-HF

收起

1.1 网络模型

YOLOv7的原始网络中,主干网络是由卷积层堆叠得到,提取的不同层次特征信息不够充分。受图像超分辨可对小目标放大并增强信息的启发,在YOLOv7主干网络中增加HAT_Block对浅层特征和深层特征进行提取,以增强小目标特征提取能力,便于后续步骤中有较为充分的特征信息进一步对目标进行识别和定位。此外,通过在SPPCSPC模块之后引入全局注意力机制GAM_Att,增强对小目标上下文信息的关注,进一步提升小目标的检测性能。研究发现,原始YOLOv7使用基于IoU(intersection of union)的度量,对小物体位置偏差敏感,导致基于锚框的检测模型性能降低。因此,将NWD度量嵌入边界框与预测框的回归损失计算中,将加快损失函数的收敛速度,提高检测精度。修改后的整体网络模型图如图1所示。

1.2 添加多层特征提取模块

受图像超分辨重建的HAT模型启发,在提取浅层特征的基础上,通过引入通道注意力和自注意力的混合注意力机制来提取目标深层特征,为了提升小目标局部特征的多样性,将浅层特征和深层特征进行结合。具体来说,浅层特征提取依然采用卷积层,深层特征提取则使用混合注意力组(residual hybrid attention group,RHAG)结构。紧接着,将浅层特征和深层特征融合,融合是通过使用残差连接方式,最后得到融合了多层特征的结果。

所使用到的多层特征提取模块HAT_Block结构如图2所示,主要由RHAG模块、卷积模块和残差连接构成。其中,RHAG模块由混合注意力模块HAB(hybrid attention block)、重叠交叉注意力模块OCAB(overlapping cross-attention block)和卷积模块组成。由于HAB模块计算通道注意力权重时涉及全局信息,所以能激活更多的像素,从而增强网络的表示能力,而OCAB模块则通过构建跨窗口的连接进一步提高了表示能力。

1.3 添加上下文信息引导模块

为了增强神经网络对全局上下文的信息感知和获取能力,采用GAM注意力机制作为上下文信息引导模块是一种比较合适的选择。其主要思想是通过全局上下文的引入指导特征的加权和融合,将每个特征的重要性与全局上下文关联,可以捕捉全局结构,上下文关系和长距离依赖,从而优化网络模型。具体实现过程见式(1)。

(1)${F}_{3}={M}_{s}\left[{M}_{c}\right({F}_{1})\otimes {F}_{1}]\otimes {F}_{2}$

式(1)中:F₁为输入特征;M_c(*)表明*经过通道注意力后得到的输出;F₂为M_c(F₁)和F₁相互作用后的中间结果,也可作为输入,进入后续空间注意力模块中;M_s(*)为经过空间注意力后得到的输出;F₃为得到的输出特征。

所使用的上下文信息引导模块GAM_Att结构如图3所示,它是一种全局调度指挥控制机制,借助减少相关信息缩减和放大全局交互操作表示,达到在保留通道和空间信息的基础上,增强跨维度交互,有利于目标检测时对全局及远距离信息的把握,进而提高深度神经网络的性能,提升检测效果。

1.4 损失函数改进

YOLOv7的损失函数由目标置信度损失、类别置信度损失、预测框和真实框的回归损失3个指标组成。在预测框与真实框的回归损失计算中,采用的IoU度量对小目标位置偏差敏感,导致基于锚框的检测模型性能降低。而NWD对不同尺度的物体不敏感,更适合测量微小物体之间的相似性,因此使用NWD度量替换原来的IoU度量,以获得较好的小目标检测效果。

NWD度量方式的提出是为了减轻IoU对小物体位置偏差的敏感性,从而提升模型对小目标检测效能。主要思想是通过建模将边界框构造为二维高斯分布,期间需要使用表示框的中心点坐标(c_x,c_y)和宽w以及高h的参数。水平框(c_x,c_y,w, h)到二维高斯分布N(μ,Σ),其中,μ为高斯分布的均值,Σ为高斯分布的方差。

建模过程可由式(2)进行定义。

(2)$\mu =\left[\begin{array}{l}{c}_{x}\\ {c}_{y}\end{array}\right],\Sigma =\left[\begin{array}{ll}\frac{{w}^{2}}{4}& 0\\ 0& \frac{{ℎ}^{2}}{4}\end{array}\right]$

然后使用NWD来计算高斯分布的相似性。计算Wasserstein距离的计算公式为

(3)${n}_{1}=N({\mu }_{1},{\Sigma }_{1})$

(4)${n}_{2}=N({\mu }_{2},{\Sigma }_{2})$

(5)$\begin{aligned} W_{2}^{2}\left(n_{1}, n_{2}\right)= & \left\|\mu_{1}-\mu_{2}\right\|_{2}^{2}+\operatorname{tr}\left[\Sigma_{1}+\Sigma_{2}-\right. \\ & \left.2\left(\Sigma_{1}^{\frac{1}{2}} \Sigma_{1} \Sigma_{2}^{\frac{1}{2}}\right)^{\frac{1}{2}}\right] \end{aligned}$

式中:N为高斯分布;n₁、n₂均服从高斯分布;μ为高斯分布的均值;Σ为高斯分布方差;tr为矩阵的迹;有序的Wasserstein距离定义为${W}_{2}^{2}$。

将${W}_{2}^{2}$简化后得到式4,式中的${\Sigma }^{\frac{1}{2}}$为标准差,将式(3)中矩阵迹的计算简化为了Frobenius范数形式。

(6)${W}_{2}^{2}({n}_{1},{n}_{2})={‖{\mu }_{1}-{\mu }_{2}‖}_{2}^{2}+{‖{\Sigma }_{1}^{\frac{1}{2}}-{\Sigma }_{2}^{\frac{1}{2}}‖}_{F}^{2}$

在此基础上,再通过计算NWD作为新的度量,NWD可嵌入损失函数以及非极大值抑制中取代常用的IoU度量指标。利用对边界框a和b建立的高斯分布模型n_a和n_b,求得NWD。在嵌入过程中,可利用iou_ratio的参数调节实现对小目标友好的损失计算方式。它的值靠近0方向时,将更适用于数据集中小目标居多的情况。因此可根据数据集的小目标比例调整该参数值。考虑到所使用的数据集中小目标占比,在实验过程中将其值设为0.4。

特别地,当边界框a和b是以中心坐标(c_x,c_y)、宽w和高h来表示时,分别用n_a和n_b表示边界框a和b服从的高斯分布,先求出其Wasserstein距离,再根据Wasserstein距离求NWD,其表达式为

(7)${W}_{2}^{2}({n}_{a},{n}_{b})={‖{\left[{c}_{xa},{c}_{ya},\frac{{w}_{a}}{2},\frac{{ℎ}_{a}}{2}\right]}^{T},{\left[{c}_{xb},{c}_{yb},\frac{{w}_{b}}{2},\frac{{ℎ}_{b}}{2}\right]}^{T}‖}_{2}^{2}$

(8)$NWD({n}_{a},{n}_{b})=exp\left[\frac{\sqrt{{W}_{2}^{2}({n}_{a},{n}_{b})}}{C}\right]$

式(8)中:C为常数,与数据集相关,本文数据集中将其值设为2。2 实验结果与分析

2.1 实验数据集及对比算法

实验采用的两个遥感数据集均包含有大量的小目标,能够很好地验证模型的目标检测效果。一个是由武汉大学标注的RSOD数据集,共包含4类数据,分别是飞机、操场、立交桥和油桶。数据集一共有935张图像,其中飞机实例4 993个,操场191个,立交桥180个,油桶1 586个。另一个数据集是NWPU VHR-10数据集。这些是由西北工业大学标注的,分别指飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和车辆,而这10类实例分布于该数据集的800张图像之中,具体而言,背景图像150张,图像含目标的则有650张。在实验数据设计中进行了细致的分配,训练集、测试集、验证集之比为7∶2∶1,也就是说,训练集占据了数据集的70%,数据集的20%视为测试集,剩余部分为验证集。为了验证本文算法的有效性,选取有代表性的部分双阶段和单阶段算法进行比较,包括检测精度高但速度慢的Faster R-CNN算法、以VGGNet作为骨干网络的SSD(single shot multibox detector)算法^[23]、YOLO系列模型中的YOLOv5算法和YOLOv7算法。

2.2 实验评价指标

实验结果的优劣主要通过平均检测精度mAP来进行判定。同时,还涉及其他指标,如准确率P、召回率R和单个类别的平均精度mAP,其计算公式分别为

(9)$P=\frac{TP}{TP+FP}$

(10)$R=\frac{TP}{TP+FN}$

(11)$mAP=\frac{\sum _{i=1}^{n}{\int }_{0}^{1}P\left(R\right)dR}{n}$

式中:TP为检测结果为正例,实际也是正例;FP为被错误地判断为正例的负例的样本;FN为实际为正例,却被检测为负例,但这一情况不常见,因此值一般小一些;n为数据集总的类别数。

2.3 实验参数及实验结果

实验所使用的操作系统为64位Windows 10系统,显卡是NVIDIA GeForce RTX 3070Ti 8GB,CUDA版本为11.7,CUDNN版本为11.0,PyTorch版本为1.7.1,python版本为3.7.1。训练过程中的mAP(IoU=0.5)变化如图4所示。该数据集在训练过程中在40轮基本收敛,后续逐渐趋于平稳。

RSOD数据集上的对比检测结果如表1所示。本文算法相比Faster R-CNN,mAP提升7.64%;相比SSD,提升了17.39%;相比YOLOv5,提高了4.98%。相对于YOLOv7,修改后的本文算法在RSOD数据集的mAP提升了2.9%,其中飞机、操场和立交桥分别在增加了1.3%、0.4%和10.02%,油罐检测结果几乎无变化。

根据NWPU VHR-10数据集上的对比检测结果表2中呈现了相关数据。修改后的算法训练所得mAP在Faster R-CNN基础上提升了9.2%;相比SSD算法,提高了15.41%;相较YOLOv5算法,mAP提升4.64%;与YOLOv7 相比,mAP增加了3.61%。其中,篮球场、桥梁、港口、网球场、车辆的AP值提升较为明显。

为了直观展示目标检测效果,下面以RSOD数据集中的图像为例,在保持实验参数一致的基础上,根据图5所示,其中YOLOv7的检测结果如图5(a)所示,对于其中两个飞机的实例未检测出,本文算法的检测结果如图5(a)所示。可以看出,在相同的情况下,YOLOv7算法出现了漏检飞机实例的现象,而本文算法能够将更多小目标检测出来。

2.4 消融实验

为了验证所修改各个部分是否有效,在RSOD数据集上进行了消融实验,并在表3中展示实验结果。修改加入HAT_Block模块的mAP增长主要是由立交桥的值提高所引起的。在仅添加HAT_Block模块时,mAP提高了0.31%;仅添加GAM_Att模块时,mAP仅提高了0.36%;仅修改度量方式时,mAP提升较少,只有0.2%。当所提三部分都进行修改后,检测结果相较原YOLOv7算法提升了2.9%,在RSOD数据集上,改进后的算法显示出对各块的改进是有效的。

3 结论

收起

在遥感图像目标检测中,由于小目标信息量较少,有效鉴别特征提取困难,导致整体检测精度下降。为了增加小目标检测的准确性,在基于YOLOv7模型框架基础上,进行改进。通过实验得出以下结论。

(1)引入混合注意力机制提取深层特征,并融合浅层特征以增强多层局部特征的丰富性,进一步有效提升目标检测的准确性。

(2)利用上下文信息添加全局注意力机制,进一步实现全局特征表达能力的提升。

(3)NWD度量融入到边界框损失函数的计算过程中,以减弱原模型中IoU度量对小目标位置偏差敏感的缺陷,提高目标检测准确率。

基金

收起

国家自然科学基金青年科学基金(62006072)
河南省重点研发与推广专项(科技攻关)项目(222102210108)
粮食处理与控制教育部重点实验室开放课题(KFJJ2022013)
河南工业大学创新基金支持计划专项资助(2022ZKCJ11)
河南工业大学青年骨干教师培育计划

参考文献

收起

文献

收起

参考文献引证文献

排序方式：

[1]

马梁, 苟于涛, 雷涛, 等. 基于多尺度特征融合的遥感图像小目标检测[J]. 光电工程, 2022, 49(4): 49-65.

Liang

, Gou

Yutao

, Lei

Tao

, et al. Small target detection in remote sensing images based on multi-scale feature fusion[J]. Photovoltaic Engineering, 2022, 49(4): 49-65.

[2]

程塨, 周培诚, 韩军伟. 基于旋转不变卷积神经网络的高分辨率光学遥感图像目标检测[J]. 科学观察, 2020, 15(6): 75-76.

Cheng

Gong

, Zhou

Peicheng

, Han

Junwei

. Target detection in high-resolution optical remote sensing images based on rotationally invariant convolutional neural networks[J]. Scientific Observation, 2020, 15(6): 75-76.

[3]

院老虎, 常玉坤, 刘家夫. 基于改进 YOLOv5s 的雾天场景车辆检测方法[J]. 郑州大学学报(工学版), 2023, 44(3): 35-41.

Yuan

Laohu

, Chang

Yukun

, Liu

Jiafu

. Vehicle detection method based on improved YOLOv5s in foggy scene[J]. Journal of Zhengzhou University (Engineering Science), 2023, 44(3): 35-41.

[4]

Girshick

, Donahue

, Darrell

, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2014: 580-587.

[5]

Girshick

. Fast R-CNN[C]// IEEE International Conference on Computer Vision(ICCV). Piscataway: IEEE, 2016: 1440-1448.

[6]

Ren

S Q

, He

K M

, Girshick

, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[7]

Redmon

, Divvala

, Girshick

, et al. You only look once: unified, real-time object detection[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2016: 779-788.

[8]

Redmon

, Farhadi

. YOLO9000:better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, H. I.: IEEE, 2017: 6517-6525.

[9]

Bochkovskiy

, Wang

C Y

, Liao

H Y M

. YOLOv4: optimal speed and accuracy of object detection[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 1-17.

[10]

李启明, 阙祖航. 基于改进 YOLOv5 的 X 射线图像危险品检测[J]. 科学技术与工程, 2023, 23(4): 1598-1606.

Qiming

, Que

Zuhang

. Detection of dangerous objects in X-ray images based on improved YOLOv5[J]. Science Technology and Engineering, 2023, 23(4): 1598-1606.

[11]

周孟然, 王昊男, 高立鹏, 等. 基于YOLOv5s-FCS的钢材表面缺陷检测[J]. 科学技术与工程, 2024, 24(14): 5901-5910.

Zhou

Mengran

, Wang

Haonan

, Gao

Lipeng

, et al. YOLOv5s-FCS based steel surface defect detection study[J]. Science Technology and Engineering, 2024, 24(14): 5901-5910.

[12]

郭华玲, 刘佳帅, 郑宾, 等. 融合RepVGG的YOLOv5交通标志识别算法[J]. 科学技术与工程, 2024, 24(9): 3869-3875.

Guo

Hualing

, Liu

Jiashuai

, Zheng

Bin

, et al. YOLOv5 traffic sign recognition algorithm combined with RepVGG[J]. Science Technology and Engineering, 2024, 24(9): 3869-3875.

[13]

蒋启超, 余成波, 宣以国, 等. 基于轻量级主干的YOLOv5驾驶员疲劳检测算法[J]. 科学技术与工程, 2024, 24(16): 6766-6774.

Jiang

Qichao

, Yu

Chengbo

, Xuan

Yiguo

, et al. Driver fatigue detection algorithm based on lightweight YOLOv5[J]. Science Technology and Engineering, 2024, 24(16): 6766-6774.

[14]

, Xu

, Lü

, et al. Edge realtime object detection and DPU-based hardware implementation for optical remote sensing images[J]. Remote Sensing, 2023, 15(16): 3975.

[15]

张朝阳, 张上, 王恒涛, 等. 多尺度下遥感小目标多头注意力检测[J]. 计算机工程与应用, 2023, 59(8): 227-238.

Zhang

Chaoyang

, Zhang

Shang

, Wang

Hengtao

, et al. Remote sensing of small targets with multiple attention at multiple scales force detection[J]. Computer Engineering and Applications, 2023, 59(8): 227-238.

[16]

, Hou

, Zheng

, et al. Large selective kernel network for remote sensing object detection[J]. arXiv Preprint, 2023: https://arxiv.org/pdf/2303.09030.pdf. https://arxiv.org/pdf/2303.09030.pdf

[17]

Rabbi

, Ray

, Schubert

, et al. Small objectdetection in remote sensing images with end-to-end edge-enhanced GAN and object detector network[J]. Remote Sensing, 2020, 12: 1432.

[18]

Zhang

, Lei

, Xie

, et al. SuperYOLO: super resolution assisted object detection in multimodal remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-15.

[19]

Wang

C Y

, Bochkovskiy

, Liao

H Y M

. YOLOv7: trainable bag-of-freebies setsnew state-of-the-art for realtime object detectors[J]. arXiv Preprint, 2022: https://arxiv.org/abs/2207.02696. https://arxiv.org/abs/2207.02696

[20]

Chen

X Y

, Wang

X T

, Zhou

J T

, et al. Activating more pixels in image super-resolution transformer[J]. arXiv Preprint, 2022: https://arxiv.org/pdf/2205.04437.pdf. https://arxiv.org/pdf/2205.04437.pdf

[21]

Liu

, Shao

, Hoffmann

. Global attention mechanism: retain information to enhance channel-spatial interactions[J]. arXiv Preprint, 2021: https://arxiv.org/pdf/2112.05561.pdf. https://arxiv.org/pdf/2112.05561.pdf

[22]

Wang

J W

, Xu

, Yang

, et al. A normalized gaussian wasserstein distance for tiny object detection[J]. arXiv Preprint, 2021: https://arxiv.org/abs/2110.13389. https://arxiv.org/abs/2110.13389

[23]

Liu

, Anguelov

, Erhan

, et al. SSD: single shot multi box detector[C]// Proceedings of European Conference on Computer Vision. Cham: Springer, 2016: 21-37.

2025年第25卷第4期

PDF下载

365

146

引用本文

BibTeX

文章信息

doi: 10.12404/j.issn.1671-1815.2309878

接收时间：2023-12-14
首发时间：2025-07-29
出版时间：2025-02-08

补充材料

相关文章

文章信息

作者

出版历史

收稿日期：2023-12-14
修回日期：2024-11-19

基金

国家自然科学基金青年科学基金(62006072)

河南省重点研发与推广专项(科技攻关)项目(222102210108)

粮食处理与控制教育部重点实验室开放课题(KFJJ2022013)

河南工业大学创新基金支持计划专项资助(2022ZKCJ11)

河南工业大学青年骨干教师培育计划

作者信息

河南工业大学人工智能与大数据学院, 郑州 450001

参考文献

分享链接

https://castjournals.cast.org.cn/joweb/kxjsygc/CN/10.12404/j.issn.1671-1815.2309878

分享至

全文二维码

扫描看全文

引用本文

BibTeX

本文的引用情况

2种不同金属材料的力学参数

科 Family	属数 Number of genus	种数 Number of species	占总种数比例 Percentage of total species (%)	属 Genus	种数 Number of species	占总种数比例 Percentage of total species (%)
鹅膏菌科Amanitaceae	2	11	5.26	鹅膏菌属 Amanita	10	4.78
小菇科 Mycenaceae	2	12	5.74	丝盖伞属 Inocybe	5	2.39
多孔菌科 Polyporaceae	8	14	6.70	蜡蘑属 Laccaria	5	2.39
红菇科 Russulaceae	3	23	11.00	小皮伞属 Marasmius	6	2.87
				小菇属 Mycena	11	5.26
				光柄菇属 Pluteus	5	2.39
				红菇属 Russula	17	8.13
				栓菌属 Trametes	5	2.39

关闭全屏

BibTeX
EndNote
RefWorks
TxT

算法	单类别检测精度/%	mAP/%
Faster R-CNN	63.51	99.26	88.59	92.82	86.04
SSD	45.42	99.06	68.73	91.95	76.29
YOLOv5	93.09	98.15	66.26	98.15	88.70
YOLOv7	92.29	98.77	75.17	96.88	90.78
本文算法	93.59	99.10	85.15	96.87	93.68

算法

单类别检测精度/%

mAP/%

飞机

操场

立交桥

油罐

Faster R-CNN

63.51

99.26

88.59

92.82

86.04

SSD

45.42

99.06

68.73

91.95

76.29

YOLOv5

93.09

98.15

66.26

98.15

88.70

YOLOv7

92.29

98.77

75.17

96.88

90.78

本文算法

93.59

99.10

85.15

96.87

93.68

类别	不同算法检测结果/%
飞机	98.31	90.40	99.95	100.00	99.99
棒球场	99.55	89.90	97.73	98.07	98.10
篮球场	95.35	80.60	83.18	89.86	96.05
桥梁	86.33	76.70	75.61	71.29	87.89
田径场	99.95	98.31	100.00	99.19	99.90
港口	95.75	73.40	89.39	91.35	94.56
舰船	75.60	60.90	82.44	86.64	85.40
油罐	65.60	79.80	98.33	93.12	95.51
网球场	81.80	82.60	91.11	90.48	93.89
车辆	47.82	52.10	73.93	81.97	86.83
mAP	84.61	78.40	89.17	90.20	93.81

类别

不同算法检测结果/%

Faster R-CNN

SSD

YOLOv5

YOLOv7

本文算法

飞机

98.31

90.40

99.95

100.00

99.99

棒球场

99.55

89.90

97.73

98.07

98.10

篮球场

95.35

80.60

83.18

89.86

96.05

桥梁

86.33

76.70

75.61

71.29

87.89

田径场

99.95

98.31

100.00

99.19

99.90

港口

95.75

73.40

89.39

91.35

94.56

舰船

75.60

60.90

82.44

86.64

85.40

油罐

65.60

79.80

98.33

93.12

95.51

网球场

81.80

82.60

91.11

90.48

93.89

车辆

47.82

52.10

73.93

81.97

86.83

mAP

84.61

78.40

89.17

90.20

93.81

算法	改进1	改进2	改进3	mAP/%
YOLOv7				90.78
HAT_Block	√			91.07
GAM_Att		√		91.02
NWD度量			√	90.90
本文算法	√	√	√	93.68

算法

改进1

改进2

改进3

mAP/%

YOLOv7

90.78

HAT_Block

√

91.07

GAM_Att

√

91.02

NWD度量

√

90.90

本文算法

√

93.68