中国图象图形学报

郝雯, 左占彬, 卢翰森, 梁玮, 金海燕, 石争浩

中国图象图形学报. 2025, 30(12): 3914-3926.

目的

针对已有的特征融合策略难以充分挖掘语义—实例特征之间相关性问题，提出一种基于增强注意力的语义实例联合分割网络。

方法

首先，通过构建基于注意力机制的语义特征提取模块，有效捕获点间的局部上下文信息。然后，利用编码—解码模块获得点云的初始语义特征和初始实例特征，其中编码—解码模块包括基于注意力池化的PointNet++集合抽象层、PointConv的编码层、解码层以及PointNet++的特征传播层。接着，设计一个增强注意力模块，利用双重注意力机制，自适应地学习中心特征与邻近特征的相似性，动态确定注意力权重，并将得到的双重注意力权重进行求和，与初始语义特征相乘，获得增强后的语义特征。最后，将增强注意力模块内嵌到联合分割模块的语义分支中，将语义特征与实例特征有效融合，提高语义—实例联合分割的精度。

结果

相较对比算法中最优值，本文方法在S3DIS（stanford large-scale 3D indoor semantics dataset）数据集中语义分割平均交并比与实例分割平均加权覆盖率指标分别提升3.5%和1.2%。在ScanNet数据集中，语义分割平均交并比与实例分割中平均加权覆盖率指标分别提升3.2%和2.8%。

结论

本文提出的网络模型能够有效融合提取的语义特征与实例特征，其语义分割与实例分割的准确性明显优于现有的联合分割方法。

大语言模型下的视频问答方法综述

谢君琳, 张锐斐, 李冠彬

中国图象图形学报. 2025, 30(12): 3760-3781.

大语言模型在自然语言处理领域取得显著进展，展现出卓越的语言理解和生成能力。然而，尽管这些模型在文本处理方面表现出色，但在应对复杂多模态任务时，尤其在视频问答领域局限性逐渐显现。视频作为一种动态的视觉模态，具有显著的时序依赖性和跨模态信息融合的复杂性，对模型的时序信息处理能力和计算效率提出更高的要求。本文系统回顾基于大语言模型的视频问答模型的研究进展，详细分析非实时视频问答模型与实时视频问答模型的技术特点、优势及其在不同应用场景中的表现。同时，探讨了现有研究中常用的数据集及其评测标准，并总结了当前技术面临的挑战与瓶颈。在此基础上，对未来视频问答模型的发展方向进行前瞻性展望，旨在推动多模态人工智能的进一步发展与应用。

面向自下而上人体姿态估计的自适应真值热力图生成方法

江玲, 刘卓程, 熊源, 吴威, 李凯歌

中国图象图形学报. 2025, 30(12): 3870-3883.

目的

热力图回归方法因能够提供丰富的空间信息，在人体姿态估计领域受到广泛关注。然而，由于传统真值热力图通常由固定标准差的2D高斯核覆盖标注点位置生成，当人体尺度变化较大时，固定的高斯核覆盖范围可能与关键点的实际语义区域不匹配，导致模型对关键点定位的模糊性和语义不确定性。对此，提出面向自下而上人体姿态估计的自适应真值热力图生成方法。

方法

首先设计一种自适应真值热力图生成模块，通过学习图像中关键点的固有尺度信息以及近邻关键点之间的几何关系生成自适应尺度因子，为图像定制尺度自适应的真值热力图。另外，由于现有方法使用的热力图损失函数未能有效捕捉局部结构的相关性，导致其对关键点位置偏差不敏感。为此，提出局部概率一致性损失函数，通过在热力图的局部区域上计算结构相似性，提升模型对局部结构的学习和理解，同时引入动态权重来平衡样本的贡献，进一步引导模型优化方向，提高模型鲁棒性。

结果

在两个公开数据集MS COCO（Microsoft common objects in context）和CrowdPose上进行实验评估，实验结果表明所提方法相较对比工作，关键点检测平均准确率分别提高1.6%与6.5%，达到72.1%和74.1%，验证了所提方法的有效性。此外，所提方法在拥挤场景的CrowPose数据集上也能带来显著的性能提升，这进一步表明其能够有效缓解复杂场景中的人体尺度变化带来的问题。同时消融实验验证了所提方法的有效性。

结论

提出的面向自下而上人体姿态估计的自适应真值热力图生成方法，通过学习图像中关键点的固有尺度信息以及近邻关键点之间的几何关系生成自适应热力图作为真值，结合局部概率一致性损失函数来处理图像中尺度变化问题，有效提高了人体姿态估计准确率。

旋转不变点云网络研究进展

王正宝, 曾振轩, 欧阳轩, 陈昊哲, 李林杰, 杨佳琪

中国图象图形学报. 2025, 30(12): 3782-3803.

点云深度学习网络取得显著进展，表现出的强大语义理解能力推动着整个三维视觉领域的进步。然而三维点云通常表现出复杂的变换对称性，其中旋转是一个具有挑战性且必要的主题。不同旋转变换下点云的语义信息一致，但空间坐标不同，这影响了常规点云深度学习网络在语义感知方面的稳定性，难以应用到任意姿态的现实场景。早期的研究主要采用旋转数据增强的方式，但由于旋转本身的无限性和连续性，这种简易方案并不能满足需求。因此，越来越多的学者着手研究具有旋转不变属性的点云深度学习网络，在网络设计层面排除旋转对于特征提取的影响。本文对于旋转不变点云网络相关研究进行充分调研，分析其中存在的挑战，并系统整理相关主流方法，依据旋转不变能力获取方式的不同，将其划分为几何旋转不变方法、特征旋转不变方法和训练旋转不变方法。本文详细描述了当前学术界在该问题上的研究内容和方法，总结和对比各类方法的优缺点，并对常用的一些数据集和评价指标进行整理总结。最后，本文调研和总结了旋转不变点云深度学习网络的下游应用前景，并对未来发展和研究热点进行展望。

Transformer注意力引导的三维模型最优视图选择与分类方法

陈松乐, 黄茹玥, 黄思轩, 陈怡, 李骞

中国图象图形学报. 2025, 30(12): 3927-3940.

目的

现有的基于多视图的三维模型分类方法通常基于预设的多个视点渲染三维模型，然后将所有渲染的视图送入神经网络模型实现分类。显然由于冗余和无效视图的存在，每个视图对于分类目标的作用并不相同。选择对分类目标贡献大的视图，不仅有利于提高基于多视图的三维模型分类的性能，而且能够提供表征三维模型的代表性视图。

方法

提出一种Transformer注意力引导的三维模型最优视图选择与分类方法。在从正十二面体20个视角对待预测的三维模型渲染后，首先采用卷积神经网络从多个视图提取特征信息，获得多视图局部特征Token序列，并对其进行位置编码，以保留其空间位置信息。随后，将可学习的全局分类Token与多视图特征Token序列合并，输入至Transformer编码器进行全局视图特征融合，获得初始全局分类特征。接下来，最优视图选择模块基于全局视图特征融合过程中的注意力得分矩阵计算各视图对初始全局分类Token的贡献，并选择得分高的视图作为最优视图。最后，将最优视图特征Token序列与初始全局分类Token拼接后输入到Transformer编码器进行最优视图融合，并获得最终的全局分类Token，将其输入分类预测模块获得最终分类概率，并输出选择的最优视图。本文在训练过程中采用了随机丢弃视图和对比学习策略，以进一步提高模型的泛化性能。

结果

在ModelNet40基准数据集上，所提方法总体识别精度和平均识别精度分别为97.61%和96.36%，在达到当前先进分类水平的同时，基于Transformer注意力得分矩阵选择出的最优视图更具有表征性。

结论

本文方法利用Transformer实现不同视图特征之间的融合，通过自注意力、残差连接以及多层堆叠机制，Transformer能够有效学习数据的复杂特征，并捕捉不同视图之间的全局上下文关系。同时，其注意力得分矩阵为最优视图选择提供了依据，在实现高效分类的同时，能够选择出最具有表征性的视图。

融合高斯修正的双阶段指导弱监督语义分割

白雪飞, 王渊辉, 许文杰, 姜高霞, 王文剑

中国图象图形学报. 2025, 30(12): 3855-3869.

目的

端到端的弱监督语义分割模型因其高效的训练效率备受关注，然而现有研究还存在语义信息提取不充分、生成的伪标签质量较低等不足。针对上述问题，本文提出一种基于知识蒸馏的端到端弱监督语义分割框架，通过双阶段知识交互模块增强学生网络和教师网络之间的知识传递，同时借助高斯修正模块对伪标签进行修正。

方法

首先，设计双阶段知识交互模块强化教师网络和学生网络的特征学习过程，有效降低训练过程中的噪声干扰。其次，为了生成高质量的伪标签，设计了高斯修正模块，通过拟合类激活图的分布，利用EM（expectation maximization）算法估算每个像素点的噪声概率，并依据与邻域像素的相似度关系修正伪标签，进而提升弱监督语义分割网络的性能。

结果

本文方法在PASCAL VOC 2012（pattern analysis， statical modeling and computational learning visual object classes 2012）和MS COCO 2014（Microsoft common objects in context 2014）数据集上的mIoU（mean intersection over union）值分别达到74.8%和42.3%，优于其他对比方法。

结论

通过双阶段知识交互模块以及高斯修正模块，有效降低了图像内部噪声以及潜在的标签噪声对训练过程的影响，并且改善了伪标签生成不完整的问题，与现有方法相比取得了显著的性能提升，在端到端的弱监督语义分割方法中展现出明显的优越性，具有一定的研究价值。

结合社会约束与轨迹终点的逐步估计网络

吴恩泓, 纪庆革

中国图象图形学报. 2025, 30(12): 3900-3913.

目的

多数的行人轨迹预测方法专注于序列化数据的特征，忽略了对行人轨迹的社会语义进行学习。因此，本文着重研究行人轨迹中的社会特征与人类行走特征，提出结合社会约束与轨迹终点的路径逐步估计网络（path stepwise estimation network combining social constraints and trajectory endpoints，PSEN）。

方法

根据人在行走中对路径规划的3个特征：1）社会约束，将人群按照社交约束，依据运动学信息进行分类，并根据社交权重得到被预测行人与类内其他行人的社交注意力，从而影响后续的路径估计网络；2）通过模拟行人会先确定终点，有目的性地规划自己行走的路径这一特征，设计一个终点估计网络，通过时空序列对终点进行预测，对完整的路径规划提供参考价值；3）行人不断根据周边环境与终点进行局部路径微调并重新分配注意力的特征，搭建终点与路径微调网络，实现自动根据环境进行微调路径规划的效果。

结果

实验在ETH/UCY（Eidgenössische Technische Hochschule Zürich pedestrian and University of Cyprus pedestrain）数据集上与6种基线方法进行比较，在SDD（Stanford drone dataset）数据集上与5种基线方法进行对比。在ETH/UCY整个数据集中，平均位移误差（average displacement error，ADE）和最终位移误差（final displacement error，FDE）平均降低5.1%和7.5%，在SDD数据集中，ADE和FDE平均降低1%和2%。针对行人较为密集的场景，如ZARA1、ZARA2和UNIV数据集的预测效果均提升10%以上。在ETH/UCY数据集上进行消融实验，证明PSEN各模块均能够提高行人轨迹预测任务的效果，ADE和FDE分别平均降低19%和31%。

结论

本文提出的结合社会约束与轨迹终点的路径逐步估计网络（PSEN），综合了真实世界中行人场景的3个特点，在ETH/UCY和SDD数据集上取得了更优异效果。

融合多注意力机制的轻量化天基遥感目标检测算法

李强, 王智, 崔书玮, 何明一

中国图象图形学报. 2025, 30(12): 3955-3968.

目的

天基遥感图像覆盖范围大、被探测目标小而密集、成像背景复杂，大型神经网络在实时性要求高且计算资源受限的天基遥感任务中难以部署。针对以上问题，提出了一种融合空间与通道多注意力机制的轻量化天基遥感图像目标检测算法。

方法

首先，在YOLOv11n（you only look once version11）的基础上引入CPCA（channel prior convolutional attention）注意力机制，通过提取通道和空间上的注意力特征来丰富网络的目标特征，提升网络的特征提取能力。通过采用基于部分卷积（partial convolution，Pconv）的二维卷积层设计，避免了模型增加注意力模块带来的参数量过大的问题，使得改进后的模型参数量相较于YOLOv11n原始模型减少了0.48 M（约18.53%）。

结果

实验结果表明，本文算法在DIOR（object detection in optical remote sensing images）数据集上的验证中，模型参数量为2.11 M，并且与多种YOLO算法进行的目标检测实验均取得主要性能的提升。本文算法的模型参数量降低到81.47%，目标检测精度平均提高了1.9%，召回率平均提高了1.2%。此外，本文算法的NPU（neural network processing unit）推理耗时仅为14.8 ms，相对于YOLOv11n原始模型减少了4.8 ms，推理速度提升了24.49%。

结论

本文提出了一种融合多注意力机制和上下文信息的轻量化遥感图像目标检测算法，在有效降低模型参数量的同时显著提高了检测精度，为遥感图像目标检测算法的星上部署、天基遥感系统的快速在轨处理、解译及实时准确跟踪目标提供重要的技术支持。

面向人脸年龄估计的开集半监督多任务学习方法

张珂, 梁龙萍, 郭玉荣, 王子念

中国图象图形学报. 2025, 30(12): 3804-3823.

目的

人脸图像年龄估计在数字营销和人机交互等领域具有重要应用价值。然而，实现精确人脸年龄估计面临缺乏大规模有标签数据集的挑战。半监督学习方法能利用无标签数据集缓解此问题，但现有方法易引入错误伪标签，对年龄估计性能产生负面影响。因此，提出一种面向人脸年龄估计的开集半监督多任务学习方法。

方法

首先，为了增强模型对局部和全局特征的处理能力，提出SwinLEDF模型，该模型以Swin Transformer作为主干网络，用于提取全局特征，并通过融合LEFF（local enhanced feed-forward）模块和DFN（dynamic filter networks）模块，进一步提升模型对局部特征的提取能力。其次，为了有效利用有标签数据和无标签数据中的有效信息，设计开集半监督多任务学习框架。在此框架中，模型通过标准闭集分类器和多类二元分类器的协同工作有效排除异常数据的干扰，采用自适应阈值方法确定性别、种族和年龄的伪标签，并引入负学习策略，以提高对无标签数据的利用率。

结果

在MORPH数据集上，仅使用有标签数据集时，模型的平均绝对误差为1.908；同时使用有标签数据集和无标签数据集时，MAE（mean absolute error）降至1.885。在UTKface数据集上，仅使用有标签数据集时，MAE为4.343；而结合有标签数据集和无标签数据集时，MAE降至4.246。与现有的人脸年龄估计方法相比，本文方法提高年龄估计的性能，能够有效利用无标签数据集进一步优化年龄估计性能。

结论

本文提出一种面向人脸年龄估计的开集半监督多任务学习方法，能够从有标签数据集和无标签数据集中有效提取人脸图像的性别、种族和年龄特征，从而提升人脸年龄估计的精度。这为实现更加精准的人脸年龄估计提供了新的思路和解决方案。

跨模态特征融合与细节信息增强的RGB-D显著目标检测

宋霄罡, 谭裕平, 郭富强, 鲁晓锋, 黑新宏

中国图象图形学报. 2025, 30(12): 3838-3854.

目的

RGB-D显著目标检测通过整合RGB图像和深度图像的互补信息，可以提高应对复杂和具有挑战性场景的显著目标检测（salient object detection，SOD）能力，取得了比RGB显著性检测模型更好的性能，受到高度关注。然而，现有RGB-D 检测模型面临如何高效利用输入的多模态信息进行融合以及如何提高显著目标边缘检测精度等问题。为此，提出一种跨模态特征融合与边缘细节增强的RGB-D显著目标检测方法。

方法

通过跨模态注意力融合增强模块（cross-modal attention fusion enhancement module，CAFEM）对不同模态特征进行注意力整合，使RGB图像和深度图像的互补信息充分融合，使模型充分利用多模态特征，从而提高模型的性能。但是两种模态的输入容易出现背景信息混淆、噪声增多、深度图质量低和目标轮廓提取困难的情况。为应对上述问题，提出一种卷积神经网络（convolutional neural network，CNN）低层特征引导的边缘特征提取模块（boundary feature extraction module，BFEM），通过通道注意力对低层特征携带的噪声进行过滤，然后使用低层细节特征引导跨模态融合特征进行聚焦解码以得到更加准确的显著图像。

结果

在4个RGB-D显著目标检测数据集进行实验，与16种代表性方法进行定量和定性实验对比。在平均绝对误差（mean absolute error， MAE）指标上，本文方法相较于排名第2的方法，在4个数据集上分别提升6.9%、10.5%、9.7%和2.4%。结果表明，本文方法在各场景均有优异表现。

结论

提出一种用于RGB-D显著目标检测的跨模态特征融合与细节信息增强网络（cross-modal feature fusion and detail-enhanced network，CFADNet），通过跨模态注意力融合增强模块（CAFEM），较好地实现了RGB特征与深度特征的融合。此外，构建了边缘特征提取模块（BFEM）提取低层细节特征，最终较为准确地定位显著物体并增强了边缘细节的清晰度。