现有的多视点立体视觉研究利用深度估计算法,通过建立物理世界与数字世界的映射关系来实现立体表征。基于有监督学习的神经网络算法通过训练能够取得准确且高保真的三维重建结果。然而,由于缺乏深度先验信息且图像具备大视场的特性,面向自然场景的视觉重建仍然具有挑战性。研究应用无监督学习网络和基于语义优化的神经辐射场(NeRF)渲染,在没有先验信息的情况下实现对自然采集的多视点图像的深度估计。首先通过无监督学习无参考地生成多视点图像初步的深度信息,进一步在独立的NeRF模型中,利用扩散模型建立表面语义渲染损失来实现细粒度的三维表征。在基准数据集上的实验结果表明,该方法与其他最先进的方案相比整体重建的指标平均提高了24.6%;在宽基线数据集的泛化性能验证中,该方法将现有方法测得的重建误差最多降低了40.8%。
随着大模型规模的不断增长,模型推理的内存占用和计算开销成为重要挑战。模型量化是降低模型资源消耗的有效方法,但现有方法在权重量化过程中存在离群点处理不足、量化精度损失显著以及内存访问效率低下等问题。为此,提出一种内存对齐的大模型混合精度量化方法,通过将模型参数表示成不同位宽的量化参数实现混合精度量化方法,在降低模型存储的同时缓解量化带来的精度损失问题。具体来说,基于小组显著性分析划分权重离群点,将模型参数按单指令多数据流(SIMD)单元对齐分组,并依据显著性对不同小组采用8 bit或2 bit量化;针对2 bit量化可能导致的精度损失,引入分块量化补偿策略。此外,设计了一种高效的混合精度权重打包与存储方案,通过位图(Bitmap)记录数据块位宽类型,支持随机访问。实验结果表明,该方法在保证模型精度的同时,显著降低了内存占用并提升了计算效率。通过在Llama2-7 B,13 B和70 B上进行验证,相比最先进的方法,在WikiText2和C4数据集上的困惑度(PPL)分别下降8.13,2.84,1.37及5.80,并且量化后的70 B模型相对BF16权重存储约减87%。此外在7个QA数据集上平均准确率提升6.24%。其结果表明,基于内存对齐的大模型混合精度量化方法能够同时提升压缩率、访存效率与模型性能。
复杂成形装备的传统研制方式通常采用基于文档的系统工程(DBSE)方法开展,存在需求分析不完善导致研发缓慢、文本二义性导致需求覆盖不全、装备进展落后于技术迭代等问题,造成设计出的复杂成形装备存在设计指标不满足使用要求、反复修改致使设计效率低下等问题。因此,在复杂成形装备概念设计阶段,参考美国国防部体系结构框架(DoDAF),结合基于模型的系统工程(MBSE),提出了基于MBSE的复杂成形装备概念设计方法。并以全景、能力、运行、系统及标准共5类视角作为复杂成形装备概念设计的切入点,通过多类视角切入分析开展复杂成形装备顶层需求获取、需求细化分析、功能分析及系统建模共4层级设计,并使用系统建模语言(SysML)建立起11种模型,实现复杂成形装备概念设计阶段的数字化和流程化表达。最后,以超塑成形装备作为典型实例进行设计方法的应用演示。通过实际应用解决了传统设计方式痛点问题,表明了方法对复杂成形装备的正向研制有良好的指导作用。
施工现场的组织管理是工程管理的关键环节,但传统的人力监管方法限制多、效率低。近年国家多部委发布有关政策,呼吁促进人工智能与实体经济深度融合,以人工智能推动经济高质高效发展。计算机视觉(CV)技术的准确性、高效性和自动化等优点使CV技术在施工监理领域的应用逐渐广泛,特别是无人机能高效获取复杂多变的施工场景视觉数据的特性显示出其在基于CV技术的施工监管任务中的应用潜力。但当前基于无人机的施工场景目标检测研究有限,且稀缺的无人机视角下的施工场景图像数据集限制着有关研究的深入发展。因此,采用大疆Mavic 3T无人机用于获取施工现场图像,以建立开源的施工场景俯拍图像数据集UB-CSD。选用多种先进目标检测算法在UB-CSD数据集上进行对比实验,从模型流程设计、计算原理和任务场景特性等维度分析各算法性能差异原因。各算法的mAP检测结果为YOLOv8和YOLOv10 (96.1%),YOLOv9 (96.0%),YOLO11 (95.7%),DETR (95.3%),Faster-RCNN (76.3%)和RetinaNet (72.1%)。分析结果表明,YOLO系列算法是基于无人机的施工场景目标检测任务算法的最优选。通过构建全新的开源专用数据集和开展对比实验得出的以上数据及结论,将为建筑业安全生产管理与日后相关检测研究提供有效数据与实验案例。
航空发动机叶片作为发动机核心零部件,其表面微小缺陷可能导致严重安全事故,传统视觉检测技术受限于运动模糊、动态范围低及背景冗余等问题。针对上述挑战,提出一种基于动态视觉传感器(DVS)的航发叶片缺陷检测方法。动态视觉传感器数据格式为异步事件流,故也被称作事件相机,具有动态范围大、高帧率和微小目标捕捉能力强等优势。首先搭建基于DVS的缺陷检测平台,探索总结了其成像特点及优势。在此基础上,构建首个基于DVS的航发叶片缺陷检测数据集(EDD-AB),涵盖划痕、点痕、边缘损伤3类缺陷近6 000张图像,精细标注近1.2万个目标标签,数据集已开源(链接: https://github.com/NiBieZhouMei5520/EDD-AB.git)。进一步提出基于异步事件流帧聚合的多尺度缺陷检测算法(AEAF-ABDD):通过固定时间窗的帧聚合技术实现事件流可视化;构建多分辨率自适应特征金字塔网络(MRAFPN)增强多尺度缺陷特征提取能力;引入轻量级SimAM注意力机制强化关键区域聚焦;融合星形卷积模块(StarNet)提升高维非线性特征映射效率,实现复杂曲面工件多尺度缺陷的精准检测。实验表明,AEAF-ABDD在EDD-AB数据集上的平均精度均值(mAP)达97.7%,检测速度达105帧/秒,显著优于主流算法,为高反光曲面工件的自动化质检提供了高效解决方案,推动了DVS在工业检测领域的应用。
目前主流的包围盒方法在三维场景渲染、光线追踪和碰撞检测等任务中广泛应用,但在拟合复杂几何形状时存在空间利用率低、拟合精度不足等问题,难以确保严格的保守性,并在降低误检率方面仍有改进空间。为解决上述问题,提出一种结合隐式几何编码与Lipschitz约束的保守包围盒构造方法,隐式几何编码通过位置编码将输入坐标映射至高维空间,从而捕捉局部及全局的几何信息,提升包围盒的适应性;随后,引入可训练的Lipschitz线性约束层,动态调整Lipschitz常数以控制梯度变化,并结合Lipschitz正则化损失与动态加权交叉熵损失,在优化边界拟合的同时降低假阳率。实验结果表明,该方法在多个三维模型上均能实现假阴率为0,且相比基准方法,误检率最高降低3.1%,单条光线查询方法提高1.7 ms,为高精度保守包围盒拟合提供了一种高效、稳健的解决方案。
在智能交通监控系统中,复杂场景下的小目标车辆检测面临特征分辨率低、遮挡干扰严重、模型计算冗余及边界框回归精度不足等挑战。为兼顾检测精度与边缘设备部署效率,提出一种基于动态稀疏注意力与轻量化双分支结构的改进YOLOv8检测框架。首先设计双向路由稀疏注意力机制(ReBiAttention),通过双层动态路由筛选关键特征,增强对小目标浅层特征的保留能力;随后结合GSConv与VoV-GSCSP模块,在减小计算量的同时动态调整多尺度特征权重;并在检测头部分引入改进型DynamicHead结构,实现多任务自适应优化;最后改进ShapeIoU损失函数,引入形状与尺度感知机制,提升定位精度。在UA-DETRAC数据集上的实验表明,改进模型较基线YOLOv8n的Precision,Recall与mAP@0.5分别提升8.739%,1.685%和7.225%,参数量减少4.3%。该方法为复杂交通场景下的小目标车辆精准检测提供了高效解决方案。
针对神经辐射场(NeRF)在干扰物体影响下难以实现高质量三维重建的问题,提出一种基于运动恢复结构(SfM)与多视图立体匹配(SAM)模型协同优化的方法。以SfM重建过程中的SIFT算法为基础,利用动态场景中的几何不一致性进行特征点的识别与匹配,将未匹配的特征点视为动态干扰物,进而引导可以接受点引导分割的SAM模型实现动态遮挡物分割,生成静态场景掩膜。基于分割结果,使用掩码感知体积渲染技术预测颜色,并建立四重损失函数:重建损失、结构一致性损失、对抗损失和自监督修补损失。通过联合优化目标的方式约束被修补区域的颜色输出,经多次迭代训练后,实现多视角下被遮挡区域的几何结构与外观的一致性修复,保证辐射场完整性的同时,实现遮挡物的消除。经公开动态场景数据验证表明,利用掩膜体积渲染和联合优化后的重建效果相较于基线模型和主流遮挡物消除方法峰值信噪比(PSNR)平均提升了5.24 dB,感知图像相似度(LPIPS)降低35%,该方法为复杂动态环境下的三维重建提供了新范式。
在建造场景所有安全事故中,碰撞事故被认为是最常见的伤害之一。为能有效预防监测碰撞事故的发生,采用计算机图形分析技术辅助碰撞检测分析,具有一定成效,但在检测的实时性与高精度的平衡上仍存在局限。为了解决这个问题,提出了一种基于动态体素化的碰撞检测方法,即融合空间动态体素树生成与资源动态球状体素化计算,构建了一种碰撞检测分析机制。核心思路在于:①基于拥挤度阈值,递归分割空间生成动态体素树,有效过滤非碰撞风险区域;②依据资源间相对距离和资源体积动态计算体素单元边长,实现体素粒度的自适应调节;③采用球状体素替代传统立方体体素,避免非轴对齐检测的计算负担;④引入空心化处理剔除内部无效体素,进一步优化检测效率。该方法能够在复杂动态建造环境中精准捕捉资源交互,显著提升检测精度并优化计算效率。实验结果表明,相较于传统方法,该方法在检测精度上显著提高,精确率与准确率分别达到94.64%与96.67%。在碰撞检测时间上,比多数现有方法更具效率,计算速度至少提升了11.36%。同时,研究分析了体素树深度、根节点尺寸和体素边长参数对性能的影响,并分析了不同规模场景的CPU资源与内存资源的消耗。消耗量处于可接受范围内,验证了其在建造场景的适用性。该方法为提升建造安全管理智能化水平提供了有效的信息化处理新思路。
小样本图像生成在医学成像、艺术创作等领域具有重要的应用价值。近年来,该任务取得了诸多研究成果,主流方法通常依赖将大规模源域数据集上预训练的生成模型迁移至目标域,以缓解目标数据稀缺带来的训练困难。然而,当源域与目标域之间存在显著语义差异时,直接迁移往往会引入不兼容的源域特征,从而引发生成图像真实性降低与风格一致性减弱等问题。现有方法虽通过静态剪枝(如固定阈值裁剪滤波器)去除冗余特征,但仍难以适应深度网络各层特征表达的动态演化规律,且易造成浅层通用特征被误删、深层冗余特征残留等问题,从而影响模型的迁移效果与生成质量。为此,提出了一种基于滤波器重要性估计的动态剪枝方法。首先,在训练过程中持续跟踪各层滤波器的Fisher信息变化,衡量其对图像生成质量的重要性程度。然后,结合Fisher信息构建了一种基于累积重要性权重的自适应剪枝机制,能够动态确定不同层级的剪枝比例,从而更精准地剔除冗余或不兼容特征的滤波器,保留通用的结构语义信息。实验在多个具有代表性的小样本目标域上进行,结果表明,该方法在生成图像质量指标(FID)和多样性指标(Intra-LPIPS)上显著优于现有方法。其中,在与源域语义相差较大的目标域中该方法FID优于现有最优方法,验证了其在跨域小样本图像生成任务中的稳定性与优越性。