科学技术与工程

自动化技术、计算机技术基于深度学习的视觉多目标跟踪综述

PDF下载

李永 ¹^,² , 林坊 ¹^,³ , 陈煜昂 ¹^,³ , 吕纾涵 ¹^,³

科学技术与工程 | 综述·自动化技术、计算机技术 2025,25(22): 9211-9223

收起

科学技术与工程 | 综述·自动化技术、计算机技术 2025, 25(22): 9211-9223

自动化技术、计算机技术基于深度学习的视觉多目标跟踪综述

全屏

李永¹^,², 林坊¹^,³, 陈煜昂¹^,³, 吕纾涵¹^,³

作者信息

¹ 武警工程大学反恐指挥信息工程教育部重点实验室, 西安 710086

² 武警工程大学信息工程学院, 西安 710086

³ 武警工程大学研究生大队, 西安 710086

李永(1981—),男,汉族,陕西永寿人,博士,教授。研究方向:模式识别、深度学习和武警信息化建设。E-mail:lilili819@163.com。

A Comprehensive Review of Deep Learning-Based Visual Multi-Object Tracking

Yong LI¹^,², Fang LIN¹^,³, Yu-ang CHEN¹^,³, Shu-han LÜ¹^,³

Affiliations

¹ Key Laboratory of Counter-Terrorism Command & Information Engineering, Ministry of Education, Engineering University of PAP, Xi’an 710086, China

² College of Information Engineering, Engineering University of PAP, Xi’an 710086, China

³ Graduate Student Brigade, Engineering University of PAP, Xi’an 710086, China

出版时间: 2025-08-08 doi: 10.12404/j.issn.1671-1815.2409394

文章导航

摘要

收起

多目标跟踪是计算机视觉领域的一个重要分支,得益于当前计算机硬件以及深度学习技术的飞速发展,基于深度学习的多目标跟踪算法取得了显著进展和亮眼成绩。为了推动视觉多目标跟踪算的研究发展,通过汇总近年来本领域创新成果,对当前研究进展进行综合论述。在介绍了多目标跟踪的背景和应用场景的基础上,分别从基于检测的多目标跟踪算法、联合检测与跟踪的多目标跟踪算法、基于Transformer的多目标跟踪算法和融合语义指引的多目标跟踪算法4个方面阐述了当前的研究进展;汇总常用基准数据集和多跟踪算法的评价指标,并将本文算法在常用基准数据上进行对比分析;最后对基于深度学习的视觉多目标跟踪算法的未来发展进行展望。

关键词

深度学习 / 多目标跟踪 / 计算机视觉 / Transformer

Abstract

收起

Multi-object tracking is an important branch in the field of computer vision. Owing to the rapid development of computer hardware and deep learning technology, significant progress has been made in deep learning-based multi-object tracking, yielding remarkable results. To promote the research progress in the field of visual multi-object tracking, a comprehensive review of recent innovative outcomes was conducted to discuss the current state of research advancements.On the basis of introducing the background and application scenarios of multi-object tracking, the research progress was discussed in four aspects: tracking by detection,joint detecting and tracking,transformer-based tracking,referring multi-object tracking. Common benchmark datasets and evaluation metrics for multi-tracking algorithms were summarized, and a comparative analysis of the algorithms mentioned was conducted on these datasets. Ultimately, exploring the prospective evolution of deep learning-based visual multi-object tracking, three future research directions were proposed for scholars actively engaged in this field.

Key words

deep learning / multi-object tracking / computer vision / Transformer

引用本文

李永, 林坊, 陈煜昂, 吕纾涵. 自动化技术、计算机技术基于深度学习的视觉多目标跟踪综述. 科学技术与工程, 2025 , 25 (22) : 9211 -9223 . DOI: 10.12404/j.issn.1671-1815.2409394

Yong LI, Fang LIN, Yu-ang CHEN, Shu-han LÜ. A Comprehensive Review of Deep Learning-Based Visual Multi-Object Tracking[J]. Science Technology and Engineering, 2025 , 25 (22) : 9211 -9223 . DOI: 10.12404/j.issn.1671-1815.2409394

正文

收起

目标跟踪是当前计算机视觉领域的研究热点之一。经过多年研究,视觉目标跟踪在许多领域如智能监控、车辆智能驾驶和机器人视觉等方面被广泛应用。在智能监控领域中,目标跟踪可用于公共安全监控^[1]、交通监控^[2]、智能家居监控和矿井作业监控等方面。通过多目标跟踪技术,可以实时对监控画面中出现的行为进行识别跟踪,及时对可能出现的异常情况发出预警信号,从而能够提高用户的安全保障;在车辆智能驾驶领域,视觉目标跟踪可用于车道保持、车辆跟踪、智能避障和自动驾驶;在机器人视觉领域中,多目标跟踪可用于自主导航和避障,通过跟踪算法分析计算视觉传感器输入的数据,机器人可以实时感知周边环境中。

近来已经有一些相关文献对该方向研究成果进行综述,文献[3-4]从多摄像机应用角度对多目标跟踪进行综述;文献[5-6]从多模态角度对多目标跟踪算法进行综述;文献[7-8]对基于Transformer^[9]的多目标跟踪算法(transformer-based tracking,TbT)进行综述,但这些综述都基于特定视角或特定网络架构进行综述,从而导致分析不够全面。而文献[10 -12]虽然对基于深度学习的多目标跟踪算法进行了全面地概括,但是由于时间文章撰写较早,对当前新出现的算法和融合语义指引的多目标跟踪算法(referring multi-object tracking,RMOT)缺乏论述。结合当前多目标跟踪领域综述中存在的不足,现综合近期研究进展,按照算法分类分别进行综述,并对常用数据集及评价指标进行总结,同时做出对比分析。

1 算法分类

收起

多目标跟踪按照任务类型可以分为离线跟踪和在线跟踪两类。离线跟踪是指使用视频序列的全局信息对目标进行跟踪,这种方法可以认为是寻找全局最优解,通常可以达到较高的跟踪性能,但是由于其离线特性,故应用价值不如在线跟踪算法;在线跟踪是指在对目标进行处理时,只能使用当前帧以及之前帧的信息形成对当前帧中目标的跟踪。虽然离线跟踪方式在跟踪准确性以及鲁棒性上更好,但是由于在线跟踪方式更符合实际应用的特点,为本文主要关注的方向。

视觉目标跟踪旨在通过计算机图像处理技术对视频序列中感兴趣的区域持续跟踪,其一般步骤为:目标检测^[13]、特征提取、数据关联和持续跟踪4个步骤。根据算法网络结构,将算法分为4大类:基于检测的目标跟踪(tracking by detection,TbD)算法、联合检测的目标跟踪 (joint detecting and tracking,JDT)算法、基于Transformer的多目标跟踪算法、融合语义指引的多目标跟踪算法。在第2~5节分别网络架构的不同,按照4种分类对经典多目标跟踪算法进行回顾,并对近年来行出现研究进展进行综述。在第6节,对当前常用的基准数据集和算法性能评价指标进行了介绍,并对文中所提及的算法在基准数据集上进行对比分析。最后基于本文的论述分析,对基于深度学习的视觉多目标跟踪未来研究的可能方向进行展望。

基于深度学习的视觉多目标跟踪任务经过众多研究者的多年努力,目前已有许多成果,下面在图1中对本文涉及的算法按照网络结构的区别进行分类并汇总。

2 基于检测的多目标跟踪算法

收起

卷积神经网络^[14](convolutional neural networks, CNN)自2012年AlexNet^[15]出现后得到广泛研究与应用。随后的VGG^[16]和ResNet^[17]等进一步推动了深度学习的发展热潮。经过多年来众多科研学者的不断探索,深度学习在图像分类^[18]、目标检测、语义分割^[19]等许多计算机视觉任务的表现甚至开始超过人类。在目标检测领域,涌现出许多基于深度学习的目标检测器,如R-CNN^[20-22]、SSD^[23]、YOLO^[24]和Dert^[25-27]等,提升了计算机视觉任务中目标检测的准确率。

传统多目标跟踪算法^[28-29]主要有最近邻滤波法(nearest neighbor filter, NNF)、概率数据关联滤波(probability data association filter, PDAF)、联合概率数据滤波(joint probabilistic data association, JPDA)、多假设跟踪(multiple hypothesis tracking, MHT)等方法。随着基于CNN的目标检测算法的深入研究,多目标跟踪算法拓展出新的结构,基于深度学习的TbD算法占比逐渐增多,其通用网络结构如图2所示。基于深度学习的TbD算法通过使用性能强大的目标检测器,对感兴趣目标的检测能力更强,有助于减少错检和漏检,从而提高了整体算法的跟踪性能。并且TbD算法在经过大量数据训练后,对于目标自身的变化以及背景变化有着更强的鲁棒性,能够在更加复杂的情况下对目标进行跟踪。

基于检测的多目标跟踪算法中,目标检测是关键的第一步。通过检测器对视频序列中单独的帧进行目标检测得出检测框。随后对检测出的目标进行特征提取,通过提取到的特征进行帧间相似度匹配,分配跟踪目标的唯一ID,并完成跟踪任务。从算法框架看,TbD算法各项任务间存在时序性,其算法的跟踪性能很大程度上依赖于检测器的检测质量。在检测过程中,受到检测器性能、目标自身、背景的影响,会出现错检或漏检等问题,从而影响后续特征提取及跟踪匹配任务。

Bewley等^[30]提出SORT算法,该算法是最早将CNN运用在多目标跟踪领域的多目标跟踪算法之一。SORT算法通过使用Faster R-CNN检测器替换聚合通道滤波器(aggregate channel filter,ACF),而后将检测目标所得的检测框与目标由卡尔曼滤波器^[31](Kalman filter,KF)所得的预测框使用交互比(intersection over union,IoU)进行关联,从而实现跟踪任务,并在保持实时性的同时提升跟踪准确率。由于SORT算法由于缺乏对特征的提取,当目标运动不稳定或出现遮挡情况时,卡尔曼滤波过程就无法有效进行预测,因此存在严重的身份变化(ID switch,IDsw)问题。

2.1 基于外观特征提取方式

从SORT算法出现的问题可以发现,仅依靠于检测器而缺乏对目标特征提取的预测算法应用场景受限。为了解决这一问题,拥有强大特征提取能力的神经网络引起了研究者们的广泛关注。

为解决SORT算法中存在的问题,Wojke等^[32]提出DeepSORT算法。该算法在SORT算法的基础上,通过宽残差网络WRNs^[33]来提取目标的外观特征,再将外观特征与预测框外观特征采用余弦相似度来进行匹配,从而缓解了SORT算法中存在的频繁IDsw问题。Mahmoudi等^[34]提出CNNMTT算法,尝试使用CNN网络结构对外观特征提取,在保持一定帧率(frames per second,FPS)的同时提高了算法精确度。除了通过骨干网络提取外观特征外,侯建华等^[35]提出引进空间注意力机制的方式,改进特征融合阶段存在易丢失各通道空域结构信息的问题,通过使用IoU来进行特征融合,从而提升多目标算法跟踪性能。Sun等^[36]提出使用深度亲和网络(deep affinity network, DAN)对目标的外观特征进行提取,通过评估目标在帧与帧之间的亲和度来增强跟踪性能,在一定程度上提升跟踪器处理遮挡问题的能力。此外,对外观特征的提取方法上Ren等^[37]认为应当探索不同颗粒度的表示方法(FineTrack),分别从全局和局部两个角度全面地描述外观特征并提出多尺度特征对齐融合方法,从而提高了外观特征的一致性和区分性,有效地提升了目标在受到严重遮挡或存在相似外观时候的跟踪表现,提升了复杂场景下跟踪算法的鲁棒性。Hashempoor等^[38]基于DeepSORT进行了升级优化提出FeatureSORT算法,结合更强的检测器同时,提出先进后处理的方法来提升跟踪器性能,并增加多个检测不同外观的特征模块用于ReID网络,有效地提升了算法的跟踪性能。

基于外观特征提取的MOT算法在拥挤环境下有着优秀的跟踪能力,面对目标尺度变换时也有着很强的鲁棒性。但是仅依靠外观特征的多目标跟踪算法在面对相似目标干扰时,容易出现跟踪框和轨迹漂移的问题。

2.2 基于运动特征提取方式

除了外观特征外,运动特征也是目标的重要信息。充分运用目标的运动特征,可以有效增强算法跟踪性能。Du等^[39]基于DeepSORT提出以运动特征为主导StrongSORT和StrongSORT++的算法,通过使用无外观链接算法和高斯平滑差值算法,分别针对目标关联失败和目标漏检两个问题进行处理,从而在缺失外观特征的情况下对目标进行全局关联,并在准确度与速度之间取得平衡。但是,许多多目标跟踪算法仅对关联得分高的检测框进行跟踪,对得分较低检测框则直接丢弃,从而导致了真实目标的丢失以及目标轨迹的碎片化,基于这一现象,文献[40]中提出了ByteTrack算法。在利用高分检测框进行跟踪的同时,使用低分检测框与目标轨迹的匹配度来恢复跟踪目标并过滤背景信息。得益于良好的信息融合手段,ByteTrack算法在减少漏检数量、增强长距离关联能力和增强对遮挡的鲁棒性上具有很好的效果。Zhang等^[41]提出的ByteTrackV2能够将原有算法的应用场景扩展到三维场景的同时,提出了一种新的且更全面的运动预测策略,能结合速度检测和卡尔曼滤波法来处理运动速度突变和短时间遮挡问题。为了解决多目标长时间跟踪问题,文献[42]基于运动特征提取提出了MotionTrack算法,通过采用交互模块(interaction module)和定位模块(refined module)分别考虑短期和长期运动特征与轨迹之间的关联,从而增强在长时跟踪任务中的准确性与鲁棒性。

基于运动特征的多目标跟踪算法能够增强算法的鲁棒性,但是由于其算法对外观特征应用不足的原因,当跟踪目标处于密集场景、目标自身尺度变换或运动状态变化较大时,算法的跟踪性能会出现衰退情况。

2.3 融合运动与外观特征提取方式

仅单独依靠目标的运动特征或外观特征的多目标跟踪算法在复杂场景和目标自身属性多变的情况下在鲁棒性上存在不足。如何有效地将两种特征有机结合是增强算法鲁棒性的一个重要方向。

Chen等^[43]提出MOTDT算法并使用GoogLeNet^[44]作为特征提取骨干网络,通过搜集检测和预测产生的候选框组合,制定评分机制来选择更准确的候选框,再将外观特征与空间信息同现有轨迹与候选框进行分层关联,通过高评分的检测表现避免跟踪偏移现象以及通过高评分的跟踪表现降低因检测带来的偶然性。Lit等^[45]设计了一种能自调节的卡尔曼滤波法用作目标位置的预测,并采取循环神经网络来评估目标帧间匹配程度,该算法仅用少量的训练数据就可以在取得接近最优效果的同时拥有更快的处理速度。为了更有效融合两种特征并运用于多目标跟踪,Aharon等^[46]提出了BoT-SORT,该算法在使用卡尔曼滤波进行预测的同时通过引入相机运动补偿(camera motion compensation, CMC)的方法来提高跟踪准确性,同时在目标外观特征提取上运用BoT^[47]+ResNeSt50^[48]的策略,从而提升算法的跟踪性能。同样,Seidenschwarz等^[49]经过实验认为单纯依靠视觉特征进行ReID存在局限性,并提出了GHOST(good old hungarian simple tracker)算法,通过结合ReID模型与线性运动模型和动态域的自适应策略来增强模型的鲁棒性。在CVPR2024中,Qin等^[50]提出了基于“点到实例关系”构架的多目标跟踪算法,即GeneralTrack。该算法能够自动平衡运动特征和外观特征,实现算法运用在不同场景的泛化功能,通过实验证明该算法在处理未见过的新的数据集和数据类别时显示泛化潜力。

融合运动与外观特征提取的TbD算法具有较高的准确性和鲁棒性,能够在各种复杂场景下有着更好的跟踪表现。但是,融合双特征的TbD算法由于网络复杂度比较高的缘故,对计算资源要求更高,导致在实时性能上有所下降。

3 联合检测与跟踪的多目标跟踪算法

收起

TbD算法的在跟踪准确性和鲁棒性上有一定的优势,但是该类型算法没有将检测与跟踪两个子进行结合,从而使模型复杂度相对较高且难以做到全局优化。JDT算法将检测和跟踪任务通过单个网络模型同时进行,实现两者的紧密结合。

经典的JDT算法有FairMOT,Zhang等^[51]发现虽然使用单个网络进行跟踪受到了更多的关注,但是与TbD算法相比跟踪性能明显下降,经过研究发现大多算法将ReID过程视为次要任务,忽视了基于锚框的检测网络对ReID任务的不利影响。FairMOT使用基于CenterNet^[52]的无锚框检测网络,同时增加了两个网络分支分别用于检测目标和Re-ID特征的提取,该算法在增强泛化和跟踪性能的同时保持了较好实时性。Wu等^[53]发现之前大多数的研究都将检测器作为骨干网络独立于整个跟踪系统,即目标检测过程缺乏跟踪过程的负反馈,因此提出一个新的多目标跟踪算法TraDes。该算法能够继承跟踪信息用于辅助检测过程,而经过强化后的检测过程又可以辅助跟踪,从而给增强算法的跟踪性能。为了解决密集场景中跟踪对象因为频繁遮挡和外观相似造成的IDsw和跟踪丢失问题,Liu等^[54]基于FairMOT提出TPFairMOT算法,通过使用过去帧中目标的边界框和速度特征用于更新模型参数和预测目标位置。Wang等^[55]提出YONTD-MOT算法,这是一种采用激光雷达和图像数据多模态融合的算法框架,该算法使用KF和运动补偿将上一帧的3D运动轨迹转换到当前帧并将其轨迹投影到2D图像上并生成2D轨迹和置信度,通过2D和3D轨迹的与历史信息进行融合,根据轨迹置信度的排名顺序采用非极大值抑制(non-maximum suppression, NMS)^[56]的方法进行数据关联。Irampaye等^[57]提出了一种具有多尺度通道注意力和交互网络的多目标跟踪算法(visual multi-object tracking, VMOT),该算法采用了一个交互网络将目标检测和ReID任务中提取的特征进行区分,用于不同分支的特征学习,并通过一个结合局部和全局注意力的模块来增强与目标相关区域的影响力。经实验,聚合多特征的ID嵌入能在目标匹配过程中避免语义错位。

除了基于传统神经网络的JDT算法,也有部分学者采用孪生网络框架进行多目标跟踪任务。孪生网络是基于标准CNN的一种特殊结构,如图3所示。该结构拥有共享权重参数的两个或多个相同结构的神经网络,这些子网络可以并行处理输入数据并通过比较它们之间的输出来评估输入数据间的相似程度。

孪生网络最初提出是用来解决单目标跟踪^[58](single object tracking,SOT)任务,经典的孪生网络算法有SiamFC^[59]。受到SOT中的孪生网络模型的启发,Peng等^[60]将孪生网络迁移至MOT并提出CTracker,该算法将目标检测、特征提取和数据关联3个子任务集成到一个端到端的网络中,通过使用两个相邻帧作为输入后,在联合注意模块作用下回归目标的边界框对后使用IoU进行信息交互,通过将连续帧进行迭代,实现快速且有效的目标跟踪。Shuai等^[61]提出了基于候选区域的孪生多目标跟踪网络SiamMOT,该算法将前一帧中的跟踪框映射到下一帧中的候选区域并区域上搜索跟踪目标,通过评估帧与帧之间目标的移动关系从而进行关联。Hui等^[62]设计了SiamBAN-MOT算法,这种无锚框算法采用金字塔网络^[63]用于多尺度特征融合,可以在减少重复特征提取的同时提高跟踪器的性能,在目标关联过程中,作者还使用了一个简单新颖的IoU匹配方案来增强算法的实时性,并减少由孪生网络所导致的跟踪漂移现象。

联合检测与跟踪的多目跟踪算法是当前研究的重要方向,该结构算法在跟踪性能和实时性上都具有较强的潜能。在端到端的训练过程,JDT算法能够进行反向传播从而对网络系统进行全局优化。但是由于通过一个网络进行跟踪过程的多个子任务,如何在网络架构中平衡多个分支全局或局部的不一致性问题仍然需要持续研究。

4 基于Transformer的多目标跟踪算法

收起

Transformer最初提出是用于自然语言处理任务,一经出现便迅速取代了基于循环神经网络^[64](recurrent neural network, IDsw)的长短期记忆网络^[65](long short-term memory, LSTM)在该领域的主导地位,并在大语言模型GPT^[66]应用中取得了成功。随着研究不断深入,Transformer在视觉领域也引起了学者的研究兴趣,并设计出基于Transformer的骨干网络Vison Transformer^[67]和Swim Transfor-mer^[68]。Carion 等^[25]注意到该Transforme架构的特征提取能力与并行运算能力,将其运用到目标检测任务并提出Dert模型。同样在多目标跟踪领域也不断涌现TbT构架的算法。Sun等^[69]提出的TransTrack是首个基于Transformer的多目标跟踪算法,该算法使用Query-Key机制并通过两个解码器分别作用与检测与跟踪两个分支,然后形成检测框和跟踪框用于IoU匹配并完成跟踪任务,其中未被匹配到的检测框会被初始化为新出现的目标。文献[70]中提出了一个端到端的多目标跟踪算法TrackFormer,该算法解码器通过逐帧进行查询嵌入来实现变化目标的跟踪,并设计了自注意力机制与编码器-解码器注意力机制实现了帧与帧之间的无缝数据关联,从而在视频序列上高效地进行跟踪。Hu等^[71]提出的FFTransMOT通过使用特征融合模块,可以融合当前几帧的信息用于增强目标特征的鲁棒性,同时解码器也能够利用融合的特征来匹配目标从而增强模型的跟踪性能。Ding等^[72]提出的ADA-Track算法含有一个基于边缘增强交叉注意力的可学习数据关联模块。在该模块里,轨迹和检测之间的边特征代表着关联信息,通过注意力计算将这些特征整合,然后进行数据关联输出亲和度得分,随后解码器查询交叉注意力并细化数据从而实现跟踪任务。为了解决长时间跟踪中出现的目标丢失问题,Lin等^[73]提出LTTrack算法,该算法通过添加长期运动模式有效提高丢失目标的重识别率。作者还提出僵尸轨迹重匹配策略用于识别长时间丢失的目标,确保其不会过早被删除或是干扰其他目的轨迹关联。在多模态融合领域,TbT架构也有较好的表现。Hou等^[74]提出的SDSTrack算法,由于引入轻量级适配器因而可以通过少量训练参数便能够将RGB特征迁移至其他模态,此外还设计了一种互补掩码补丁蒸馏策略来增强跟踪器应对复杂挑战下的鲁棒性,并通过实验证明其RGB-D、RGB-T和RGB-E下的模态融合能力。

随着基于Transformer算法研究的不断深入,Transformer在数据关联上的强大能力被不断挖掘,其强大的全局和局部建模能力、并行计算能力对提升跟踪器的跟踪性能有很大作用。但基于Transformer的跟踪算法由于对计算量需求大,因此在跟踪速度上有所牺牲,在实际应上还有很大改进的空间。

5 融合语义指引的多目标跟踪算法

收起

通过融合自然语言信息来指引多目标跟踪是近年来刚出现的架构。传统多目标跟踪算法依赖于预训练的特征提取模块,当模型通过预训练调整参数后,难以在实际应用过程中选择所要跟踪的目标,算法在调整跟踪策略上缺乏灵活性。为了达到这一目的,研究者们在过往算法的基础上,融入自然语言这个新的特征信息,用以指引多目标跟踪算法灵活调整跟踪目标。

Wu等^[75]提出TransMOT算法,创新性地提出了一个跨模态编辑器用于融合语言特征与视觉特征,并将特征输入编码器后通过注意力机制对密集链接进行建模,从而实现语言表达指引目标多目标跟踪的预测。目前已有越来越多学者关注到这一架构。例如,Li等^[76]提出LaMOT,该算法能够解决之前相关RMOT算法使用自然语言存在灵活性上的限制,具备识别开放性词汇的能力,最大化了在多目标跟踪任务中使用自然语言的灵活性。文献[77]提出的ROMOT算法集成了相似性度量重建模块(reconstruction similarity metric, RSM) 和中心动量观测模块(observation-centric momentum, OCM),能够基于语言描述对训练集未包含的类别进行跟踪,解决特定任务需要专门对模型进行训练的要求,强化算法的泛化性能以适应现实生活中的各种应用场景。Li等^[78]提出的LG-MOT可以利用不同颗粒度的语言信息来增强目标的关联能力,同时可以利用预训练的CLIP^[79]文本编码器在训练期间来对传统外观特征进行对齐。然而以往融合语言特征的多目标跟踪算法设计中仅通过简单集成文本模块到多目标跟踪器中进行实现,因此需要重新对整个网络模型重新进行训练且在优化过程中存在困难。为了解决这一现象Du等^[80]提出了可插入知识统一网络(insertable knowledge unification network,iKUM),该模块可以以即插即用的形式接入现有的跟踪器便并能够根据自然语言指导自适应地提取特征信息,减少因引入自然语言特征提取模块所带来的模型训练量。

融合语言特征的多目标跟踪算法能够在结合外观特征与运动特征的基础上引入自然语言特征,在提升跟踪算法的各项性能的同时增强跟踪的灵活性。目前融合语言指引的多目标跟踪算法处于起步阶段,下步还需要进一步的摸索研究。

7 结论与展望

收起

多目标跟踪在现实生活中应用范围广泛,实用价值高,是当前计算机视觉研究的重要方向之一。同结构算法的优缺点及跟踪性能。随后对业内常用基准数据集及近年来新开发的数据集进行介绍,汇总了多目标跟踪任务常用评价指标,并对文中涉及的算法进行对比分析。

越来越多的技术在多目标跟踪任务中得到应用,基于深度学习的视觉多目标跟踪算法性能已有了显著提升。当前多目标跟踪仍然还存在寻多亟待解决的问题,如何做到长时间稳定跟踪;如何在面对遮挡、形变和模糊等多种干扰是保持鲁棒;如何在减小算法复杂度的同时保持高精度等方面都有着显著的挑战,离取得经济、稳定、可靠和长期有效的跟踪目标仍然还有一定距离。通过综合分析,未来多目标跟踪可能的发展方向如下。

(1)在多目标跟踪算法中引入无监督学习策略。目前大多数多目标跟踪算法都是采用监督或者半监督学习模式,然而随着算法的不断发展,训练过程中对训练数据的要求也在不断增加。但是当前MOT数据集的建立需要在每一帧对相同目标进行标注,这将给模型训练带来大量的人工成本,因此开发基于无监督学习的算法具有重大意义。例如,Lu等^[104]提出的路径一致性(path consistency)概念可以在不使用人工监督的情况下对目标身份进行匹配。但是由于无监督学习的方式对目标的先验知识上有所欠缺,开发无监督学习算法具有较大难度。

(2)在多目标跟踪算法中注重模型轻量化。随着多目标跟踪算法性能的提高,算法对计算性能的要求也显著提高。但是在许多现实应用场景微型机器人等算力比较有限的平台来讲,很难将性能优越但复杂度高的算法直接迁移运用。为了提升算法通用性,李润龙等^[105]通过对SqueezeNet算法进行轻量化改进,简化了算法复杂度,提升了模型运行效率。当前比较主流的轻量化方式有网络枝剪^[106]和知识蒸馏^[107]等,这些措施都能够显著加快算法运行速度,但是这些方式都一定程度牺牲了算法的跟踪性能。如何在保持算法跟踪性能的前提下增强算法实时性,仍然具有很大的研究价值。

(3)融合语义指引的多目标跟踪算法研究值得深入探索。当前融合语义指引的多目标跟踪算法取得了不错的成绩,也在渐渐走向研究者视线。RMOT算法可以根据应用场景灵活地选择跟踪目标,具有较强的实际应用价值。但是目前对融合语义指引的多目标跟踪算法的研究还在起步阶段,需要采取有效措施将自然语言特征与跟踪算法高效融合并运用于目标跟踪。

基金

收起

国防科技创新项目(ZZKY20222304)

参考文献

收起

文献

收起

参考文献引证文献

排序方式：

[1]

李永, 梁起明, 杨凯凯, 等. 基于深度学习的人体行为识别检测综述[J]. 科学技术与工程, 2021, 21(20): 8310-8320.

Yong

, Liang

Qiming

, Yang

Kaikai

, et al. A summary of human action recognition and detection based on deep learning[J]. Science Technology and Engineering, 2021, 21(20): 8310-8320.

[2]

蒲玲玲, 杨柳. 改进YOLOv5的多车辆目标实时检测及跟踪算法[J]. 科学技术与工程, 2023, 23(28): 12159-12167.

Lingling

, Yang

Liu

. Improved real-time detection and tracking algorithm for multi vehicle targets in YOLOv5[J]. Science Tech-nology and Engineering, 2023, 23(28): 12159-12167.

[3]

Amosa

T I

, Sebastian

, Izhar

L I

, et al. Multi-Camera multi-object tracking: a review of current trends and future advances[J]. Neurocomputing, 2023, 552: 1-9.

[4]

Lunlin

Fei

, Bing

Han

. Multi-object multi-camera tracking based on deep learning for intelligent transportation: a review[J]. Sensors, 2023, 23(8): 3852-3879.

[5]

Feng

M Z

, Su

J B

. RGBT tracking: a comprehensive review[J]. Information Fusion, 2024, 110. DOI: 10.1016/j.inffus.2024.102492.

[6]

Zhang

, Wang

, Lu

. Multi-modal visualtracking: review and experimental comparison[J]. Computational Visual Media, 2024(2): 193-214.

[7]

王利. 基于Transformer的多目标跟踪研究[D]. 南宁: 广西民族大学, 2023.

Wang

. Multi-object tracking research based on transformer[D]. Nanning: Guangxi Minzu University, 2023.

[8]

Kamboj

. The progression of transformers from language to vision to MOT: a literature review on multi-object tracking with Transformers[J]. arXiv, 2024.DOI: 10.48550/arXiv2406.16784.

[9]

Vaswani

, Shazeer

, Parmar

, et al. Attention is all you need[C]// NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: NIPS, 2017: 6000-6010.

[10]

Hassan

, Mujtaba

, Rajput

, et al. Multi-object tracking: a systematic literature review[J]. Multimedia Tools and Applications, 2023(14): 43439-43492.

[11]

Ciaparrone

, Sánchez

F L

, Tabik

, et al. Deep learning in video multi-object tracking: a survey[J]. Neurocomputing, 2020, 381: 61-88.

[12]

伍瀚, 聂佳浩, 张照娓, 等. 基于深度学习的视觉多目标跟踪研究综述[J]. 计算机科学, 2023(4): 77-87.

Han

, Nie

Jiahao

, Zhang

Zhaoweil

, et al. Deep learning-based visual multiple object tracking: a review[J]. Computer Science, 2023(4): 77-87.

[13]

Chen

, Luo

, Zhang

, et al. A review of object detection: datasets, performance evaluation, architecture, applications and current trends[J]. Multimedia Tools and Applications, 2024(24): 65603-65661.

[14]

Zhao

, Wang

L M

, Zhang

Y F

, et al. A review of convolutional neural networks in computer vision[J]. Artificial Intelligence Review, 2024, 57(4). DOI: 10.1007/s10462-024-10721-6.

[15]

Krizhevsky

, Sutskever

, Hinton

G E

. ImgeNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017(6): 84-90.

[16]

Simonyan

, Zisserman

. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014, abs/1409.1556.DOI: 10.48550/arXiv.1409.1556.

[17]

, Zhang

, Ren

, et al. Deep residual learning for image recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2016: 770-778.

[18]

, Xu

, Lin

Z S

, et al. Review of deep learning in classification of tongue image[J]. Jisuanji Kexue Yu Tansuo, 2023, 17(2): 303-323.

[19]

Rajeswari

, Ram

J M

, Kumar

D V T P

, et al. Review of semantic segmentation by using deep learning methods[C]// Internatio-nal Conference on Social and Sustainable Innovations in Technology and Engineering (SASI-ITE). Tadepalligudem: SASI-ITE, 2024: 272-277.

[20]

Girshick

, Donahue

, Darrell

, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2014: 580-587.

[21]

Girshick

. Fast R-CNN[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2015: 1440-1448.

[22]

Ren

, He

, Girshick

, et al. Faster R-CNN: towards real-time object detection with region proposal networks(Article)[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017(6): 1137-1149.

[23]

Liu

, Anguelov

, Erhan

, et al. SSD: single shot multibox detector[J]. Computer Vision-ECCV, 2016, 2016: 21-37.

[24]

Jiang

, Ergu

, Liu

, et al. A review of YOLO algorithm developments[J]. Procedia Computer Science, 2022(S): 1066-1073.

[25]

Carion

, Massa

, Synnaeve

, et al. End-to-end object detection with transformers[J]. Lecture Notes in Computer Science, 2020, 2020: 213-229.

[26]

Zhao

, Lü

, Xu

, et al. DETRs beat YOLOs on real-time object detection[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: CVPR, 2024: 16965-16974.

[27]

Wang

, Xia

, Lü

, et al. RT-DETRv3: real-time end-to-end object detection with hierarchical dense positive supervision[C]// IEEE/CVF Winter Conference Applment Computer Vision (WACV). Tucson: IEEE, 2025: 1628-1636.

[28]

龚轩, 乐孜纯, 王慧, 等. 多目标跟踪中的数据关联技术综述[J]. 计算机科学, 2020, 47(10): 136-144.

Gong

Xuan

, Le

Zichun

, Wang

Hui

, et al. Survey of data association technology in multi-target tracking[J]. Computer Science, 2020, 47(10): 136-144.

[29]

蔡秀梅, 王妍, 卞静伟, 等. 多目标跟踪数据关联算法综述[J]. 西安邮电大学学报, 2021, 26(2): 77-86.

Cai

Xiumei

, Wang

Yan

, Bian

Jingwei

, et al. Overview of multi-target tracking data association algorithms[J]. Journal of Xi’an University of Posts and Telecommunications, 2021, 26(2): 77-86.

[30]

Bewley

, Ge

, Ott

, et al. Simple online and realtime tracking[C]// IEEE International Conference on Image Processing. New York: IEEE, 2016: 3464-3468.

[31]

Kalman

R E

. A new approach to linear filtering and prediction problems[J]. Journal of Fluids Engineering, 1960(1): 35-45.

[32]

Wojke

, Bewley

, Paulus

. Simple online and realtime tracking with a deep association metric[C]// IEEE International Conference on Image Processing (ICIP). Beijing: IEEE, 2017: 3645-3649.

[33]

Zagoruyko

, Komodakis

. Wide residual networks[C]// Proceedings of the British Machine Vision Conference (BMVC). New York: BMVC, 2016.DOI: 10.5244/C.30.87.

[34]

Mahmoudi

, Ahadi

S M

, Rahmati

. Multi-target tracking using CNN-based features: C-NNMTT[J]. Multimedia Tools & Applications, 2019(6): 7077-7096.

[35]

侯建华, 麻建, 王超, 等. 基于空间注意力机制的视觉多目标跟踪[J]. 中南民族大学学报(自然科学版), 2020, 39(4): 413-419.

Hou

Jianhua

, Ma

Jian

, Wang

Chao

, et al. Visual multi-object tracking based on spatial attention mechanism[J]. Journal of South-Central University for Nationalities (Natural Science Edition), 2020, 39(4): 413-419.

[36]

Sun

, Akhtar

, Song

, et al. Deep affinity network for multiple object tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021(1): 104-119.

[37]

Ren

, Han

, Ding

, et al. Focus on details: online multi-object tracking with diverse fine-grained representation[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver: IEEE, 2023: 11289-11298.

[38]

Hashempoor

, Koikara

, Hwang

Y D

. FeatureSORT: essential features for effective tracking[J]. arXiv, 2024, abs/2407.04249.DOI: 10.48550/arXiv.2047.04249.

[39]

, Zhao

, Song

, et al. StrongSORT: make DeepSORT great again[J]. IEEE Transactions on Multimedia, 2023, 25: 1-14.

[40]

Zhang

, Sun

, Jiang

, et al. Bytetrack: multi-object tracking by associating every detection box[C]// Proceedings of the European Conference on Computer Vision (ECCV). New York: IEEE, 2022: 1-21.

[41]

Zhang

, Wang

X H

, Ye

, et al. ByteTrackV2: 2D and 3D multi-object tracking by associating every detection box[J]. arXiv, 2023, abs/2303.15334.DOI: 10.48550/arXiv.2303.15334.

[42]

Qin

, Zhou

, Wang

, et al. MotionTrack: learning robust short-term and long-term motions for multi-object tracking[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver: CVPR, 2023: 17939-17948.

[43]

Chen

, Ai

, Zhuang

, et al. Real-time multiple people tracking with deeply learned candidate selection and person reidentification[C]// IEEE International Confere-nce on Multimedia and Expo (ICME). San Diego: IEEE, 2018: 1-6.

[44]

Szegedy

, Liu

, Jia

, et al. Going dee-per with convolutions[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 1-9.

[45]

Lit

, Cai

, Wang

, et al. Multiple object tracking with GRU association and Kalman prediction[C]// International Joint Con-ference on Neural Networks (IJCNN). Shenzhen: UCNN, 2021: 1-8.

[46]

Aharon

, Orfaig

, Bobrovsky

. BoT-SORT: robust associations multi-pedestrian tracking[J]. arXiv, 2022, abs/2206. 14651.DOI: 10.48550/arXiv.2206.14651.

[47]

Luo

, Gu

, Liao

, et al. Bag of tricks and a strong baseline for deep person reidentification[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, CVPRW 2019. Long Beach: IEEE, 2019: 1487-1495.

[48]

Zhang

, Wu

, Zhang

, et al. ResNeSt: splitattention networks[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New Orleans: IEEE, 2022: 2735-2745.

[49]

Seidenschwarz

, Braso

, Serrano

V C

, et al. Simple cues lead to a strong multi-object tracker[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver: IEEE, 2023: 13813-13823.

[50]

Qin

, Wang

, Zhou

, et al. Towards generalizable multi-object tracking[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2024: 18995-19004.

[51]

Zhang

, Wang

, et al. FairMOT: on the fairness of detection and reidentification in multiple object tracking[J]. International Journal of Computer Vision, 2021(11): 3069-3087.

[52]

Duan

, Bai

, Xie

, et al. CenterNet: keypoint triplets for object detection[C]// IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019: 6568-6577.

[53]

, Cao

, Song

, et al. Track to detect and segment: an online multi-object tracker[C]// IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition (CVPR). Online: IEEE, 2021: 1-9.

[54]

Liu

, Wang

, Chen

, et al. Trajectory prediction combined with FairMOT for multi-object tracking[C]// Eighth International Symposium on Advances in Electrical, Electronics, and Computer Engineering (ISAEECE 2023). Hangzhou: ISAEECE, 2023. DOI: 10.1117/12.2680105.

[55]

Wang

, He

, Fu

, et al. You only need two detectors to achieve multi-modal 3D multi-object tracking[J]. arXiv, 2023. DOI: 10.48550/arXiv.2304.08709.

[56]

Neubeck

, Van

Gool L

. Efficient non-maximum suppression[C]// ICPR 2006.18th International Conference. Hong Kong: ICPR, 2006: 850-855.

[57]

Irampaye

, Chen

, Zhu

, et al. Visual multi-object tracking by interaction network[C]//7th International Symposium on Auto-nomous Systems (ISAS). Chongqing: ISAS, 2024: 1-6.

[58]

韩瑞泽, 冯伟, 郭青, 等. 视频单目标跟踪研究进展综述[J]. 计算机学报, 2022, 45(9): 1877-1907.

Han

Ruize

, Feng

Wei

, Guo

Qing

, et al. Single object tracking research: a survey[J]. Chinese Journal of Computers, 2022, 45(9): 1877-1907.

[59]

Bertinetto

, Valmadre

, Henriques

J F

, et al. Fully-convolutional siamese networks for object tracking[J]. Computer Vision, 2016, 9914(1): 850-865.

[60]

Peng

, Wang

, Wan

, et al. Chained-tracker: chaining paired attentive regression results for end-to-end joint multiple-object detection and tracking[J]. Lecture Notes in Computer Science, 2020, 12349: 145-161.

[61]

Shuai

, Berneshawi

, Li

X Y

, et al. SiamMOT: siamese multi-object tracking[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2021: 12367-12377.

[62]

Hui

, Feng

, Yao

, et al. Tracking multi-objects with anchor-free siamese network[J]. IFIP Advances in Information and Communication Technology, 2022, 2022: 402-408.

[63]

Lin

, Dollar

, Girshick

, et al. Feature pyramid networks for object detection[C]//30th IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2017). New York: IEEE, 2017: 936-944.

[64]

Jordan

M I

. Chapter 25 serial order: a parallel distributed processing approach[J]. Advances in Psychology, 1997, 1997: 471-495.

[65]

Hochreiter

S T U M

, Schmidhuber

. Long short-term memory[J]. Neural Computation, 1997(8): 1735-1780.

[66]

Tong

, Peng

, Dai

, et al. Improving natural language understanding by reverse mapping bytepair encoding[C]// Conference on Computational Natural Language Learning. Hong Kong: IEEE, 2019: 163-173.

[67]

Dosovitskiy

, Beyer

, Kolesnikov

, et al. An image is worth 16×16 words: transformers for image recognition at scale[J]. arXiv, 2020.DOI: 10.48550/arXiv.2010.11929.

[68]

Liu

, Lin

, Cao

, et al. Swin transformer: hierarchical vision transformer using shifted windows[J]. Proceedings of the IEEE International Conference on Computer Vision, 2021, 2021: 9992-10002.

[69]

Sun

, Jiang

, Zhang

, et al. TransTrack: multiple-object tracking with transformer[J]. arXiv, 2020.DOI: 10.48550/arXiv.2012.15460.

[70]

Meinhardt

, Kirillov

, Leal-taixe

, et al. TrackFormer: multi-object tracking with transformers[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans: IEEE, 2022: 1-9.

[71]

, Jeon

, Gwak

. FFTransMOT: feature-fused transformer for enhanced multi-object tracking[J]. IEEE Access, 2023, 2023: 130060-130071.

[72]

Ding

, Schneider

, Cordts

, et al. ADA-track: end-to-end multi-camera 3D multi-object tracking with alternating detection and association[C]// IEEE Conference. New York: IEEE, 2024.DOI: 10.1109/CVPR52733.2024.01438.

[73]

Lin

, Liang

, Zhang

. LTTrack: Rethinking the tracking framework for long-term multi-object tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34(10): 9866-9881.

[74]

Hou

, Xing

, Qian

, et al. SDSTrack: self-distillation symmetric adapter learning for multi-modal visual object tracking[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2024: 1-10.

[75]

, Han

, Wang

, et al. Referring multi-object tracking[J]. arXiv, 2023, abs/2303.03366.DOI: 10.48550/arXiv2303.03366.

[76]

, Liu

, et al. LaMOT: language-guided multi-object tracking[J]. arXiv, 2024, abs/2406.08324.DOI: 10.48550/arXiv2406.08324.

[77]

, Li

, Wang

, et al. ROMOT: referring-expression-comprehension open-set multi-object tracking[J]. Visual Computer, 2024, 2024: 1-13.

[78]

, Naseer

, Cao

, et al. Multi-granularity language-guided multi-object tracking[J]. arXiv, 2024, abs/2406.04844.DOI: 10.48550/arXiv2406.04844.

[79]

Radford

, Kim

J W

, Hallacy

, et al. Learning transferable visual models from natural language supervision[C]// International Conference on Machine Learning. New York: IEEE, 2022: 8748-8763.

[80]

, Lei

, Zhao

, et al. iKUN: speak to trackers without retraining[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2024: 19135-19144.

[81]

Leal-Taixé

, Milan

, Reid

, et al. MOT-challenge 2015: towards a benchmark for multi-target tracking[J]. Computer Science, 2015, 2015: 1508-2806.

[82]

Milan

, Leal-Taixe

, Reid

, et al. MOT16: a benchmark for multi-object tracking[J]. arXiv, 2016.abs/1603.00831.DOI: 10.48550/arXiv.1603.00831.

[83]

Dendorfer

, Ošep

, Milan

, et al. MOT-challenge: a benchmark for single-camera multiple target tracking[J]. International Journal of Computer Vision, 2021(4): 845-881.

[84]

Dendorfer

, Rezatofighi

, Milan

, et al. MOT20: a benchmark for multi object tracking in crowded scenes[J]. arXiv, 2020.abs/2003. 09003.DOI: 10.48550/arXiv.2003.09003.

[85]

Geiger

, Lenz

, Urtasun

. Are we ready for autonomous driving? the KITTI vision benchmark suite[C]// IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 3354-3361.

[86]

Geiger

A G A

, Lenz

P L P

, Stiller

C S C

, et al. Vision meets robotics: the KITTI dataset[J]. The International Journal of Robo-tics Research, 2013(11): 1231-1237.

[87]

, Chen

, Wang

, et al. BDD100K: a diverse driving dataset for heterogeneous multitask learning[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 2633-2642.

[88]

Wen

, Du

, Cai

, et al. UA-DETRAC: a new benchmark and protocol for multi-object detection and tracking[J]. Computer Vision and Image Understanding, 2020(S): 1-9.

[89]

Dave

, Khurana

, Tokmakov

, et al. TAO: a large-scale benchmark for tracking any object[J]. Lecture Notes in Computer Science, 2020, 12350: 436-454.

[90]

于明鑫, 王长龙, 张玉华, 等. 复杂环境下视觉目标跟踪研究现状及发展[J]. 航空兵器, 2024(3): 40-50.

Mingxin

, Wang

Changlong

, Zhang

Yuhua

, et al. Survey of visual tracking algorithms in the complex scenarios[J]. Aero Weaponry, 2024(3): 40-50.

[91]

Xiao

, Li

, Wang

, et al. End-to-end deep learning for person search[J]. arXiv, 2016.abs/1604.01850.DOI: 10.48550/arXiv.1604.01850.

[92]

Sun

, Cao

, Jiang

, et al. DanceTrack: multi-object tracking in uniform appearance and diverse motion[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans: IEEE, 2022: 20961-20970.

[93]

Cui

, Zeng

, Zhao

, et al. SportsMOT: a large multi-object tracking dataset in multiple sports scenes[C]// IEEE/CVF International Conference on Computer Vision (ICCV). Paris: IEEE, 2023: 9887-9897.

[94]

Zeng

, Fu

, Gao

, et al. Robust multivehicle tracking with wasserstein association metric in surveillance videos[J]. IEEE Access, 2020(10): 47863-47876.

[95]

, Li

, Zhang

, et al. The unmanned aerial vehicle benchmark: object detection, tracking and baseline[J]. International Journal of Computer Vision, 2020(5): 1141-1159.

[96]

Liu

L H

, Cheng

Y Q

, Deng

Z Y

, et al. TrafficMOT: a challenging dataset for multi-object tracking in complex traffic scenarios[C]// The 32nd ACM International Conference on Multimedia. New York: ACM, 2024: 1265-1273.

[97]

Zhu

, Wen

, Du

, et al. Detection and tracking meet drones challenge[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022(11): 7380-7399.

[98]

Wang

, Ma

, Liu

, et al. Multi-object tracking in the dark[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2024: 382-392.

[99]

Nguyen

, Quach

K G

, Kitani

, et al. Type-to-track: retrieve any object via prompt-based tracking[C]// 37th Conference on Neural Information Processing Systems, NeurIPS. Seattle: IEEE, 2023: 231-244.

[100]

, Nevatia

. Tracking

of multiple

, partially occluded humans based on static body part detection[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006, 1: 951-958.

[101]

Bernardin

, Stiefelhagen

. Evaluating multiple object tracking performance: the CLEAR MOT metrics[J]. EURASIP Journal on Image and Video Processing, 2008(1): 1-10.

[102]

Ristani

, Ergys

, Solera

, et al. Performance measures and a data set for multitarget, multicamera tracking[J]. Computer Vision-ECCV 2016 Workshops, 2016(9914): 17-35.

[103]

Luiten

, Ošep

, Dendorfer

, et al. HOTA: a higher order metric for evaluating multi-object tracking[J]. International Journal of Computer Vision, 2021, 129(2): 548-578.

[104]

, Shuai

, Chen

, et al. Self-supervised multi-object tracking with path consistency[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2024: 19016-19026.

[105]

李润龙, 王运圣, 徐识溥, 等. 基于轻量化卷积神经网络的改进模型与验证[J]. 科学技术与工程, 2020, 20(28): 11653-11658.

Runlong

, Wang

Yunsheng

, Xu

Shipu

, et al. A new module based on light-weight convolutional neural network[J]. Science Technology and Engineering, 2020, 20(28): 11653-11658.

[106]

Liu

, Li

, Shen

, et al. Learning efficient convolutional networks through network slimming[C]// IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2755-2763.

[107]

Hinton

, Vinyals

, Dean

. Distilling the knowledge in a neural network[J]. Computer Science, 2015, 14(7): 38-39.

2025年第25卷第22期

PDF下载

256

引用本文

BibTeX

文章信息

doi: 10.12404/j.issn.1671-1815.2409394

接收时间：2024-12-18
首发时间：2026-02-11
出版时间：2025-08-08

补充材料

相关文章

文章信息

作者

出版历史

收稿日期：2024-12-18
修回日期：2025-04-17

基金

国防科技创新项目(ZZKY20222304)

作者信息

¹ 武警工程大学反恐指挥信息工程教育部重点实验室, 西安 710086

² 武警工程大学信息工程学院, 西安 710086

³ 武警工程大学研究生大队, 西安 710086

参考文献

分享链接

https://castjournals.cast.org.cn/joweb/kxjsygc/CN/10.12404/j.issn.1671-1815.2409394

分享至

全文二维码

扫描看全文

引用本文

BibTeX

本文的引用情况

2种不同金属材料的力学参数

科 Family	属数 Number of genus	种数 Number of species	占总种数比例 Percentage of total species (%)	属 Genus	种数 Number of species	占总种数比例 Percentage of total species (%)
鹅膏菌科Amanitaceae	2	11	5.26	鹅膏菌属 Amanita	10	4.78
小菇科 Mycenaceae	2	12	5.74	丝盖伞属 Inocybe	5	2.39
多孔菌科 Polyporaceae	8	14	6.70	蜡蘑属 Laccaria	5	2.39
红菇科 Russulaceae	3	23	11.00	小皮伞属 Marasmius	6	2.87
				小菇属 Mycena	11	5.26
				光柄菇属 Pluteus	5	2.39
				红菇属 Russula	17	8.13
				栓菌属 Trametes	5	2.39

关闭全屏

BibTeX
EndNote
RefWorks
TxT