中国图象图形学报

王正宝, 曾振轩, 欧阳轩, 陈昊哲, 李林杰, 杨佳琪

中国图象图形学报. 2025, 30(12): 3782-3803. doi: 10.11834/jig.250029

点云深度学习网络取得显著进展，表现出的强大语义理解能力推动着整个三维视觉领域的进步。然而三维点云通常表现出复杂的变换对称性，其中旋转是一个具有挑战性且必要的主题。不同旋转变换下点云的语义信息一致，但空间坐标不同，这影响了常规点云深度学习网络在语义感知方面的稳定性，难以应用到任意姿态的现实场景。早期的研究主要采用旋转数据增强的方式，但由于旋转本身的无限性和连续性，这种简易方案并不能满足需求。因此，越来越多的学者着手研究具有旋转不变属性的点云深度学习网络，在网络设计层面排除旋转对于特征提取的影响。本文对于旋转不变点云网络相关研究进行充分调研，分析其中存在的挑战，并系统整理相关主流方法，依据旋转不变能力获取方式的不同，将其划分为几何旋转不变方法、特征旋转不变方法和训练旋转不变方法。本文详细描述了当前学术界在该问题上的研究内容和方法，总结和对比各类方法的优缺点，并对常用的一些数据集和评价指标进行整理总结。最后，本文调研和总结了旋转不变点云深度学习网络的下游应用前景，并对未来发展和研究热点进行展望。

基于Hermite插值函数的分段式牙弓线设计

刘伟杰, 马龙, 魏广顺, 范业莹, 周元峰

中国图象图形学报. 2025, 30(12): 3941-3954. doi: 10.11834/jig.240591

目的

近年来，数字化口腔正畸备受关注，其中牙弓线设计是计算牙齿目标位的关键。现有方法多采用Beta函数拟合牙弓线，但由于自由度的限制使其难以拟合出代表理想牙弓形态的牙弓线。为此，本文提出通过累加弦长参数化并基于Hermite插值函数的牙弓线拟合方法，以提高牙弓线拟合的精度和灵活性。

方法

首先，使用牙齿分割技术得到每颗牙齿的数据，并通过牙齿特征点检测方法得到对应牙齿的特征点。其次，选取指定牙齿的特征点，采用累加弦长参数化方法确定最终插值点。最后，通过构建待定系数矩阵，确定方程组，拟合出以分段函数表示的牙弓线。此外，本文基于特征点与拟合牙弓线之间的最短距离，提出两种评估数学函数拟合牙弓线能力的指标。

结果

本文方法克服了Beta函数原有的局限性，具有较强的可控性。医生可以通过调整控制点，拟合出符合正畸需求的理想牙弓线。各项评价指标均显示，本文方法优于对比的常用方法。此外，将本文方法拟合的牙弓线应用于现有的牙齿正畸自动排列方法中，验证结果显示正畸效果显著提升。

结论

本文方法拟合牙弓线的精度以及灵活性均优于对比方法，能够有效解决理想牙弓线拟合难的问题，为后续牙齿正畸治疗提供了帮助。

Transformer注意力引导的三维模型最优视图选择与分类方法

陈松乐, 黄茹玥, 黄思轩, 陈怡, 李骞

中国图象图形学报. 2025, 30(12): 3927-3940. doi: 10.11834/jig.250037

目的

现有的基于多视图的三维模型分类方法通常基于预设的多个视点渲染三维模型，然后将所有渲染的视图送入神经网络模型实现分类。显然由于冗余和无效视图的存在，每个视图对于分类目标的作用并不相同。选择对分类目标贡献大的视图，不仅有利于提高基于多视图的三维模型分类的性能，而且能够提供表征三维模型的代表性视图。

方法

提出一种Transformer注意力引导的三维模型最优视图选择与分类方法。在从正十二面体20个视角对待预测的三维模型渲染后，首先采用卷积神经网络从多个视图提取特征信息，获得多视图局部特征Token序列，并对其进行位置编码，以保留其空间位置信息。随后，将可学习的全局分类Token与多视图特征Token序列合并，输入至Transformer编码器进行全局视图特征融合，获得初始全局分类特征。接下来，最优视图选择模块基于全局视图特征融合过程中的注意力得分矩阵计算各视图对初始全局分类Token的贡献，并选择得分高的视图作为最优视图。最后，将最优视图特征Token序列与初始全局分类Token拼接后输入到Transformer编码器进行最优视图融合，并获得最终的全局分类Token，将其输入分类预测模块获得最终分类概率，并输出选择的最优视图。本文在训练过程中采用了随机丢弃视图和对比学习策略，以进一步提高模型的泛化性能。

结果

在ModelNet40基准数据集上，所提方法总体识别精度和平均识别精度分别为97.61%和96.36%，在达到当前先进分类水平的同时，基于Transformer注意力得分矩阵选择出的最优视图更具有表征性。

结论

本文方法利用Transformer实现不同视图特征之间的融合，通过自注意力、残差连接以及多层堆叠机制，Transformer能够有效学习数据的复杂特征，并捕捉不同视图之间的全局上下文关系。同时，其注意力得分矩阵为最优视图选择提供了依据，在实现高效分类的同时，能够选择出最具有表征性的视图。

大语言模型下的视频问答方法综述

谢君琳, 张锐斐, 李冠彬

中国图象图形学报. 2025, 30(12): 3760-3781. doi: 10.11834/jig.240535

大语言模型在自然语言处理领域取得显著进展，展现出卓越的语言理解和生成能力。然而，尽管这些模型在文本处理方面表现出色，但在应对复杂多模态任务时，尤其在视频问答领域局限性逐渐显现。视频作为一种动态的视觉模态，具有显著的时序依赖性和跨模态信息融合的复杂性，对模型的时序信息处理能力和计算效率提出更高的要求。本文系统回顾基于大语言模型的视频问答模型的研究进展，详细分析非实时视频问答模型与实时视频问答模型的技术特点、优势及其在不同应用场景中的表现。同时，探讨了现有研究中常用的数据集及其评测标准，并总结了当前技术面临的挑战与瓶颈。在此基础上，对未来视频问答模型的发展方向进行前瞻性展望，旨在推动多模态人工智能的进一步发展与应用。

融合高斯修正的双阶段指导弱监督语义分割

白雪飞, 王渊辉, 许文杰, 姜高霞, 王文剑

中国图象图形学报. 2025, 30(12): 3855-3869. doi: 10.11834/jig.250040

目的

端到端的弱监督语义分割模型因其高效的训练效率备受关注，然而现有研究还存在语义信息提取不充分、生成的伪标签质量较低等不足。针对上述问题，本文提出一种基于知识蒸馏的端到端弱监督语义分割框架，通过双阶段知识交互模块增强学生网络和教师网络之间的知识传递，同时借助高斯修正模块对伪标签进行修正。

方法

首先，设计双阶段知识交互模块强化教师网络和学生网络的特征学习过程，有效降低训练过程中的噪声干扰。其次，为了生成高质量的伪标签，设计了高斯修正模块，通过拟合类激活图的分布，利用EM（expectation maximization）算法估算每个像素点的噪声概率，并依据与邻域像素的相似度关系修正伪标签，进而提升弱监督语义分割网络的性能。

结果

本文方法在PASCAL VOC 2012（pattern analysis， statical modeling and computational learning visual object classes 2012）和MS COCO 2014（Microsoft common objects in context 2014）数据集上的mIoU（mean intersection over union）值分别达到74.8%和42.3%，优于其他对比方法。

结论

通过双阶段知识交互模块以及高斯修正模块，有效降低了图像内部噪声以及潜在的标签噪声对训练过程的影响，并且改善了伪标签生成不完整的问题，与现有方法相比取得了显著的性能提升，在端到端的弱监督语义分割方法中展现出明显的优越性，具有一定的研究价值。

基于增强注意力的点云语义实例联合分割

郝雯, 左占彬, 卢翰森, 梁玮, 金海燕, 石争浩

中国图象图形学报. 2025, 30(12): 3914-3926. doi: 10.11834/jig.240445

目的

针对已有的特征融合策略难以充分挖掘语义—实例特征之间相关性问题，提出一种基于增强注意力的语义实例联合分割网络。

方法

首先，通过构建基于注意力机制的语义特征提取模块，有效捕获点间的局部上下文信息。然后，利用编码—解码模块获得点云的初始语义特征和初始实例特征，其中编码—解码模块包括基于注意力池化的PointNet++集合抽象层、PointConv的编码层、解码层以及PointNet++的特征传播层。接着，设计一个增强注意力模块，利用双重注意力机制，自适应地学习中心特征与邻近特征的相似性，动态确定注意力权重，并将得到的双重注意力权重进行求和，与初始语义特征相乘，获得增强后的语义特征。最后，将增强注意力模块内嵌到联合分割模块的语义分支中，将语义特征与实例特征有效融合，提高语义—实例联合分割的精度。

结果

相较对比算法中最优值，本文方法在S3DIS（stanford large-scale 3D indoor semantics dataset）数据集中语义分割平均交并比与实例分割平均加权覆盖率指标分别提升3.5%和1.2%。在ScanNet数据集中，语义分割平均交并比与实例分割中平均加权覆盖率指标分别提升3.2%和2.8%。

结论

本文提出的网络模型能够有效融合提取的语义特征与实例特征，其语义分割与实例分割的准确性明显优于现有的联合分割方法。

面向人脸年龄估计的开集半监督多任务学习方法

张珂, 梁龙萍, 郭玉荣, 王子念

中国图象图形学报. 2025, 30(12): 3804-3823. doi: 10.11834/jig.250023

目的

人脸图像年龄估计在数字营销和人机交互等领域具有重要应用价值。然而，实现精确人脸年龄估计面临缺乏大规模有标签数据集的挑战。半监督学习方法能利用无标签数据集缓解此问题，但现有方法易引入错误伪标签，对年龄估计性能产生负面影响。因此，提出一种面向人脸年龄估计的开集半监督多任务学习方法。

方法

首先，为了增强模型对局部和全局特征的处理能力，提出SwinLEDF模型，该模型以Swin Transformer作为主干网络，用于提取全局特征，并通过融合LEFF（local enhanced feed-forward）模块和DFN（dynamic filter networks）模块，进一步提升模型对局部特征的提取能力。其次，为了有效利用有标签数据和无标签数据中的有效信息，设计开集半监督多任务学习框架。在此框架中，模型通过标准闭集分类器和多类二元分类器的协同工作有效排除异常数据的干扰，采用自适应阈值方法确定性别、种族和年龄的伪标签，并引入负学习策略，以提高对无标签数据的利用率。

结果

在MORPH数据集上，仅使用有标签数据集时，模型的平均绝对误差为1.908；同时使用有标签数据集和无标签数据集时，MAE（mean absolute error）降至1.885。在UTKface数据集上，仅使用有标签数据集时，MAE为4.343；而结合有标签数据集和无标签数据集时，MAE降至4.246。与现有的人脸年龄估计方法相比，本文方法提高年龄估计的性能，能够有效利用无标签数据集进一步优化年龄估计性能。

结论

本文提出一种面向人脸年龄估计的开集半监督多任务学习方法，能够从有标签数据集和无标签数据集中有效提取人脸图像的性别、种族和年龄特征，从而提升人脸年龄估计的精度。这为实现更加精准的人脸年龄估计提供了新的思路和解决方案。

面向自下而上人体姿态估计的自适应真值热力图生成方法

江玲, 刘卓程, 熊源, 吴威, 李凯歌

中国图象图形学报. 2025, 30(12): 3870-3883. doi: 10.11834/jig.240615

目的

热力图回归方法因能够提供丰富的空间信息，在人体姿态估计领域受到广泛关注。然而，由于传统真值热力图通常由固定标准差的2D高斯核覆盖标注点位置生成，当人体尺度变化较大时，固定的高斯核覆盖范围可能与关键点的实际语义区域不匹配，导致模型对关键点定位的模糊性和语义不确定性。对此，提出面向自下而上人体姿态估计的自适应真值热力图生成方法。

方法

首先设计一种自适应真值热力图生成模块，通过学习图像中关键点的固有尺度信息以及近邻关键点之间的几何关系生成自适应尺度因子，为图像定制尺度自适应的真值热力图。另外，由于现有方法使用的热力图损失函数未能有效捕捉局部结构的相关性，导致其对关键点位置偏差不敏感。为此，提出局部概率一致性损失函数，通过在热力图的局部区域上计算结构相似性，提升模型对局部结构的学习和理解，同时引入动态权重来平衡样本的贡献，进一步引导模型优化方向，提高模型鲁棒性。

结果

在两个公开数据集MS COCO（Microsoft common objects in context）和CrowdPose上进行实验评估，实验结果表明所提方法相较对比工作，关键点检测平均准确率分别提高1.6%与6.5%，达到72.1%和74.1%，验证了所提方法的有效性。此外，所提方法在拥挤场景的CrowPose数据集上也能带来显著的性能提升，这进一步表明其能够有效缓解复杂场景中的人体尺度变化带来的问题。同时消融实验验证了所提方法的有效性。

结论

提出的面向自下而上人体姿态估计的自适应真值热力图生成方法，通过学习图像中关键点的固有尺度信息以及近邻关键点之间的几何关系生成自适应热力图作为真值，结合局部概率一致性损失函数来处理图像中尺度变化问题，有效提高了人体姿态估计准确率。

基于自适应掩码的自监督矿井图像去噪

张亚茹, 刘健涛, 许国庆, 郝定溢

中国图象图形学报. 2025, 30(12): 3884-3899. doi: 10.11834/jig.240624

目的

受煤矿井下粉尘浓度高和光照不均匀等因素影响，矿井图像容易产生不同水平的噪声、降低图像的局部对比度、丢失细节信息和边缘纹理特征，从而影响矿井图像的信息提取精度和视觉质量。针对上述问题，提出一种基于自适应掩码的矿井图像自监督去噪算法，主要包含自适应掩码、掩码集成以及自适应集成损失3部分。

方法

首先，设计自适应掩码对矿井图像进行分块以减少后续计算消耗，逐次对各块中心像素外的边缘像素及角点像素进行掩码，避免恒等映射的同时增加数据多样性；然后，设计掩码集成对神经网络的输出和掩码区域进行重新组合，计算两者之间的Hadamard积以增强网络对噪声与信号边界的准确识别，综合考虑矿井图像的局部结构和全局特征，从而提升去噪后矿井图像的完整性和连贯性；最后，设计自适应集成损失，将集成图像作为训练标签，帮助模型更好地理解矿井图像中局部特征和全局特征之间的关系，加入原始噪声图像增强模型对信号变化的敏感性，适应不同场景下的去噪任务。

结果

在煤矿井下图像数据集和4个公共数据集进行实验，去噪后的图像质量在主观感受和客观指标上均优于其他对比算法。在高斯噪声水平为50的巷道场景下，相比B2U（blind2unblind）和NBR2NBR（neighbor2neighbor），峰值信噪比（peak signal-to-noise ratio， PSNR）分别提高4.2 dB和2.99 dB，结构相似性指数（structural similarity index， SSIM）分别提高0.055和0.077。在5至50的高斯噪声范围内，本文方法计算的PSNR相较TBSN（transformer-based blind-spot network）在Kodak24（Kodak lossless true color image suite 24）数据集上提升1.09%，在BSD300（Berkeley segmentation dataset 300）数据集上提升0.72%，相较NBR2NBR在BSD500数据集上提升0.68%。

结论

所提算法能够处理含有不同程度和类型噪声的矿井图像，有效去除噪声的同时保留图像的细节信息，展现出优越的鲁棒性和广泛的适用性。代码获取地址：https://www.sciclb.cn/anonymous/skpswk56.

融合多注意力机制的轻量化天基遥感目标检测算法

李强, 王智, 崔书玮, 何明一

中国图象图形学报. 2025, 30(12): 3955-3968. doi: 10.11834/jig.250002

目的

天基遥感图像覆盖范围大、被探测目标小而密集、成像背景复杂，大型神经网络在实时性要求高且计算资源受限的天基遥感任务中难以部署。针对以上问题，提出了一种融合空间与通道多注意力机制的轻量化天基遥感图像目标检测算法。

方法

首先，在YOLOv11n（you only look once version11）的基础上引入CPCA（channel prior convolutional attention）注意力机制，通过提取通道和空间上的注意力特征来丰富网络的目标特征，提升网络的特征提取能力。通过采用基于部分卷积（partial convolution，Pconv）的二维卷积层设计，避免了模型增加注意力模块带来的参数量过大的问题，使得改进后的模型参数量相较于YOLOv11n原始模型减少了0.48 M（约18.53%）。

结果

实验结果表明，本文算法在DIOR（object detection in optical remote sensing images）数据集上的验证中，模型参数量为2.11 M，并且与多种YOLO算法进行的目标检测实验均取得主要性能的提升。本文算法的模型参数量降低到81.47%，目标检测精度平均提高了1.9%，召回率平均提高了1.2%。此外，本文算法的NPU（neural network processing unit）推理耗时仅为14.8 ms，相对于YOLOv11n原始模型减少了4.8 ms，推理速度提升了24.49%。

结论

本文提出了一种融合多注意力机制和上下文信息的轻量化遥感图像目标检测算法，在有效降低模型参数量的同时显著提高了检测精度，为遥感图像目标检测算法的星上部署、天基遥感系统的快速在轨处理、解译及实时准确跟踪目标提供重要的技术支持。