图学学报

张行顺, 陈海永

图学学报. 2026, 47(1): 120-130.

航空发动机叶片作为发动机核心零部件，其表面微小缺陷可能导致严重安全事故，传统视觉检测技术受限于运动模糊、动态范围低及背景冗余等问题。针对上述挑战，提出一种基于动态视觉传感器(DVS)的航发叶片缺陷检测方法。动态视觉传感器数据格式为异步事件流，故也被称作事件相机，具有动态范围大、高帧率和微小目标捕捉能力强等优势。首先搭建基于DVS的缺陷检测平台，探索总结了其成像特点及优势。在此基础上，构建首个基于DVS的航发叶片缺陷检测数据集(EDD-AB)，涵盖划痕、点痕、边缘损伤3类缺陷近6 000张图像，精细标注近1.2万个目标标签，数据集已开源(链接： https://github.com/NiBieZhouMei5520/EDD-AB.git)。进一步提出基于异步事件流帧聚合的多尺度缺陷检测算法(AEAF-ABDD)：通过固定时间窗的帧聚合技术实现事件流可视化；构建多分辨率自适应特征金字塔网络(MRAFPN)增强多尺度缺陷特征提取能力；引入轻量级SimAM注意力机制强化关键区域聚焦；融合星形卷积模块(StarNet)提升高维非线性特征映射效率，实现复杂曲面工件多尺度缺陷的精准检测。实验表明，AEAF-ABDD在EDD-AB数据集上的平均精度均值(mAP)达97.7%，检测速度达105帧/秒，显著优于主流算法，为高反光曲面工件的自动化质检提供了高效解决方案，推动了DVS在工业检测领域的应用。

基于生成模型的无监督多视点立体视觉网络

潘宇轩, 金锐, 刘雨, 张琳

图学学报. 2026, 47(1): 29-38.

现有的多视点立体视觉研究利用深度估计算法，通过建立物理世界与数字世界的映射关系来实现立体表征。基于有监督学习的神经网络算法通过训练能够取得准确且高保真的三维重建结果。然而，由于缺乏深度先验信息且图像具备大视场的特性，面向自然场景的视觉重建仍然具有挑战性。研究应用无监督学习网络和基于语义优化的神经辐射场(NeRF)渲染，在没有先验信息的情况下实现对自然采集的多视点图像的深度估计。首先通过无监督学习无参考地生成多视点图像初步的深度信息，进一步在独立的NeRF模型中，利用扩散模型建立表面语义渲染损失来实现细粒度的三维表征。在基准数据集上的实验结果表明，该方法与其他最先进的方案相比整体重建的指标平均提高了24.6%；在宽基线数据集的泛化性能验证中，该方法将现有方法测得的重建误差最多降低了40.8%。

用于夜视辅助驾驶的轻量化图像眩光去除方法

李晔, 贾俊洋, 黄冠, 李玉洁, 齐文婷, 刘岩

图学学报. 2026, 47(1): 57-67.

夜视环境下，强光源引发的眩光干扰显著降低图像质量，影响夜视辅助驾驶系统的感知性能，现有眩光去除算法面临鲁棒性不足、计算复杂度高以及光源信息丢失等问题。为此，提出了一种面向夜视辅助驾驶的轻量化图像眩光去除方法(NFR-Net+)旨在提升图像清晰度并满足移动端实时计算需求。首先设计特征过滤机制，结合残差连接策略，增强网络对复杂夜视场景的特征提取能力，有效抑制过拟合，从而在不同光照条件和眩光类型下实现稳定的眩光去除效果。其次，引入非线性无激活特征注意力模块，通过轻量化设计构建高效注意力机制，显著提升图像细节重建质量，同时将模型参数量降低约8.28%，运行内存减少约11.1%，大幅优化计算效率。此外，针对传统方法中光源信息过度去除导致图像自然度下降的问题，优化了分割网络中的光源提取模块，通过改进的光源分离策略，精确保留光源区域的亮度和纹理信息，确保输出图像的真实性和自然感。实验结果表明，NFR-Net+在结构相似性(SSIM)、峰值信噪比(PSNR)和学习感知图像块相似度(LPIPS)等图像质量评估指标上均优于现有主流方法，表现出更高的去眩光性能和细节保留能力。同时，该方法在多种夜视场景和不同硬件设备上均展现出良好的适应性，能够满足实时处理的高效性要求，为智能视觉系统在资源受限的移动端部署提供了可行性。进一步的消融实验验证了各模块的有效性，凸显了特征过滤和注意力机制在提升性能与降低资源消耗中的关键作用。且为夜间自动驾驶和智能监控等应用场景提供了高效、轻量化的解决方案。

一种基于内存对齐的大模型混合精度量化方法

李章明, 关伟凡, 常政威, 张凌浩, 胡庆浩

图学学报. 2026, 47(1): 39-47.

随着大模型规模的不断增长，模型推理的内存占用和计算开销成为重要挑战。模型量化是降低模型资源消耗的有效方法，但现有方法在权重量化过程中存在离群点处理不足、量化精度损失显著以及内存访问效率低下等问题。为此，提出一种内存对齐的大模型混合精度量化方法，通过将模型参数表示成不同位宽的量化参数实现混合精度量化方法，在降低模型存储的同时缓解量化带来的精度损失问题。具体来说，基于小组显著性分析划分权重离群点，将模型参数按单指令多数据流(SIMD)单元对齐分组，并依据显著性对不同小组采用8 bit或2 bit量化；针对2 bit量化可能导致的精度损失，引入分块量化补偿策略。此外，设计了一种高效的混合精度权重打包与存储方案，通过位图(Bitmap)记录数据块位宽类型，支持随机访问。实验结果表明，该方法在保证模型精度的同时，显著降低了内存占用并提升了计算效率。通过在Llama2-7 B，13 B和70 B上进行验证，相比最先进的方法，在WikiText2和C4数据集上的困惑度(PPL)分别下降8.13，2.84，1.37及5.80，并且量化后的70 B模型相对BF16权重存储约减87%。此外在7个QA数据集上平均准确率提升6.24%。其结果表明，基于内存对齐的大模型混合精度量化方法能够同时提升压缩率、访存效率与模型性能。

融合双重注意力与加权动态卷积的车辆损伤分类模型

翟永杰, 王紫萱, 张祯琪, 周迅琪, 王乾铭

图学学报. 2026, 47(1): 17-28.

针对车险理赔客户上传的车辆损伤图像中存在损伤类型形态相似、分类困难的问题，提出了一种适用于车辆损伤分类的模型ResAWDNet。首先，为有效增强模型对损伤特征的提取能力，使用加权动态卷积代替原有的下采样操作，依据输入特征动态调整卷积核权重，提高模型对不同尺度和方向特征的适应性，从而更准确地捕捉损伤的细微差异。其次，为了使模型关注图像中的显著性判别区域和特征通道，在主干网络的卷积层后嵌入了双重注意力机制，同时学习空间和通道维度上的重要权重，提升模型对关键信息的捕捉能力，进一步提升模型在损伤分类任务中的决策准确性。最后，基于真实事故案例的车辆损伤图片数据集进行实验验证。实验结果表明，ResAWDNet模型在车辆损伤分类任务中切实可行且优势显著，整体分类准确率达到73.79%。与基线模型相比，ResAWDNet在多类损伤类型的分类上均展现出更高的准确率，有力地证明了该模型的有效性。

BSD-YOLO：基于动态稀疏注意力与自适应检测头的小目标车辆检测方法

杨彪, 王学, 官铮, 龙萍

图学学报. 2026, 47(1): 99-110.

在智能交通监控系统中，复杂场景下的小目标车辆检测面临特征分辨率低、遮挡干扰严重、模型计算冗余及边界框回归精度不足等挑战。为兼顾检测精度与边缘设备部署效率，提出一种基于动态稀疏注意力与轻量化双分支结构的改进YOLOv8检测框架。首先设计双向路由稀疏注意力机制(ReBiAttention)，通过双层动态路由筛选关键特征，增强对小目标浅层特征的保留能力；随后结合GSConv与VoV-GSCSP模块，在减小计算量的同时动态调整多尺度特征权重；并在检测头部分引入改进型DynamicHead结构，实现多任务自适应优化；最后改进ShapeIoU损失函数，引入形状与尺度感知机制，提升定位精度。在UA-DETRAC数据集上的实验表明，改进模型较基线YOLOv8n的Precision，Recall与mAP@0.5分别提升8.739%，1.685%和7.225%，参数量减少4.3%。该方法为复杂交通场景下的小目标车辆精准检测提供了高效解决方案。

无人机视角下施工场景目标检测性能评估

宋琢, 卢德辉, 黄志超, 田时雨, 颜嵘龙, 邓逸川

图学学报. 2026, 47(1): 68-77.

施工现场的组织管理是工程管理的关键环节，但传统的人力监管方法限制多、效率低。近年国家多部委发布有关政策，呼吁促进人工智能与实体经济深度融合，以人工智能推动经济高质高效发展。计算机视觉(CV)技术的准确性、高效性和自动化等优点使CV技术在施工监理领域的应用逐渐广泛，特别是无人机能高效获取复杂多变的施工场景视觉数据的特性显示出其在基于CV技术的施工监管任务中的应用潜力。但当前基于无人机的施工场景目标检测研究有限，且稀缺的无人机视角下的施工场景图像数据集限制着有关研究的深入发展。因此，采用大疆Mavic 3T无人机用于获取施工现场图像，以建立开源的施工场景俯拍图像数据集UB-CSD。选用多种先进目标检测算法在UB-CSD数据集上进行对比实验，从模型流程设计、计算原理和任务场景特性等维度分析各算法性能差异原因。各算法的mAP检测结果为YOLOv8和YOLOv10 (96.1%)，YOLOv9 (96.0%)，YOLO11 (95.7%)，DETR (95.3%)，Faster-RCNN (76.3%)和RetinaNet (72.1%)。分析结果表明，YOLO系列算法是基于无人机的施工场景目标检测任务算法的最优选。通过构建全新的开源专用数据集和开展对比实验得出的以上数据及结论，将为建筑业安全生产管理与日后相关检测研究提供有效数据与实验案例。

基于特征点引导干扰物识别的神经辐射场重建

任皓, 李少波, 弓茂, 王博

图学学报. 2026, 47(1): 111-119.

针对神经辐射场（NeRF）在干扰物体影响下难以实现高质量三维重建的问题，提出一种基于运动恢复结构(SfM)与多视图立体匹配(SAM)模型协同优化的方法。以SfM重建过程中的SIFT算法为基础，利用动态场景中的几何不一致性进行特征点的识别与匹配，将未匹配的特征点视为动态干扰物，进而引导可以接受点引导分割的SAM模型实现动态遮挡物分割，生成静态场景掩膜。基于分割结果，使用掩码感知体积渲染技术预测颜色，并建立四重损失函数：重建损失、结构一致性损失、对抗损失和自监督修补损失。通过联合优化目标的方式约束被修补区域的颜色输出，经多次迭代训练后，实现多视角下被遮挡区域的几何结构与外观的一致性修复，保证辐射场完整性的同时，实现遮挡物的消除。经公开动态场景数据验证表明，利用掩膜体积渲染和联合优化后的重建效果相较于基线模型和主流遮挡物消除方法峰值信噪比(PSNR)平均提升了5.24 dB，感知图像相似度(LPIPS)降低35%，该方法为复杂动态环境下的三维重建提供了新范式。

基于不确定性引导的智能强化主动学习图像分类方法

酒明远, 吴国伟, 宋旭光, 李书攀, 徐明亮

图学学报. 2026, 47(1): 47-56.

随着深度学习技术的快速发展，其在图像分类等任务中取得了显著成果。然而，这些模型的成功往往依赖于大量高质量的标注数据，而在实际应用中，标注数据通常稀缺，人工标注过程又极为耗时、费力，限制了模型的推广与应用。近年来，主动学习因其能够在有限标注预算下提升模型性能而受到广泛关注，其核心思想是根据样本的不确定性、多样性或代表性等指标，挑选最有价值的数据进行标注。针对传统主动学习方法多依赖手动设计的启发式采样策略，难以适应不同任务场景，且选择策略难以动态优化等问题，提出一种基于智能强化主动学习(SRAL)的图像分类方法，通过将样本选择过程建模为马尔科夫决策过程，利用强化学习的自适应策略优化能力，引导模型从未标注样本中动态挑选最具价值的样本用于标注。其中，状态由未标注样本提取的特征构成，动作表示是否选择样本进行标注，奖励函数则定义为当前样本加入训练集后模型准确率的变化差值。采用演员-评论家(Actor-Critic)算法进行策略优化，并引入不确定性启发式排序作为辅助信息以提升学习效率。实验结果表明，在CIFAR-10，SVHN和FASHION-MNIST等数据集上，所提出的SRAL方法在相同标注预算下，相比于其他主动学习方法，能够显著提高分类准确率，且在各数据集上均展现出较好的稳定性和泛化能力，验证了SRAL方法在提高图像分类模型性能方面的有效性与优势。

基于Revit二次开发的独立基础参数化建模方法研究

邓鹏, 谭文正, 罗慧明, 李帅, 杨斌

图学学报. 2026, 47(1): 194-203.

随着建筑信息模型(BIM)技术在工程设计领域的广泛应用，由Revit平台驱动的三维正向设计在上部结构中已形成了较为成熟的解决方案。然而，独立基础作为结构的重要组成部分，其三维建模与出图仍存在效率低、信息完整性差等问题，且因主流的结构分析软件数据接口封闭，直接提取基础数据库文件的配筋信息并同步至Revit构件属性也极具挑战。为此，利用Revit API与MVVM架构模式，提出了一种基于AutoCAD图层与字段识别的独立基础参数化建模算法。将YJK结构分析软件生成的基础平面布置与配筋标注图导入至Revit平台，通过图层识别方法计算基础中心定位坐标与平面尺寸，再根据基础与配筋标注的相对位置关系，建立两者间的匹配逻辑，进而利用字段识别获取基础对应标注中的编号、高度及配筋信息，并将其自动写入模型的族属性中。此外，通过提取模型属性与几何面参照，还实现了基础尺寸与配筋自动标注等功能。最后，以某冷柜自制厂房为工程案例开展了独立基础参数化建模及出图应用实践，并与常规方法进行了对比。结果表明，该算法能显著提高独立基础三维建模与标注出图效率，且对PKPM软件导出的计算文件具有良好的适配性。