受煤矿井下粉尘浓度高和光照不均匀等因素影响,矿井图像容易产生不同水平的噪声、降低图像的局部对比度、丢失细节信息和边缘纹理特征,从而影响矿井图像的信息提取精度和视觉质量。针对上述问题,提出一种基于自适应掩码的矿井图像自监督去噪算法,主要包含自适应掩码、掩码集成以及自适应集成损失3部分。
首先,设计自适应掩码对矿井图像进行分块以减少后续计算消耗,逐次对各块中心像素外的边缘像素及角点像素进行掩码,避免恒等映射的同时增加数据多样性;然后,设计掩码集成对神经网络的输出和掩码区域进行重新组合,计算两者之间的Hadamard积以增强网络对噪声与信号边界的准确识别,综合考虑矿井图像的局部结构和全局特征,从而提升去噪后矿井图像的完整性和连贯性;最后,设计自适应集成损失,将集成图像作为训练标签,帮助模型更好地理解矿井图像中局部特征和全局特征之间的关系,加入原始噪声图像增强模型对信号变化的敏感性,适应不同场景下的去噪任务。
在煤矿井下图像数据集和4个公共数据集进行实验,去噪后的图像质量在主观感受和客观指标上均优于其他对比算法。在高斯噪声水平为50的巷道场景下,相比B2U(blind2unblind)和NBR2NBR(neighbor2neighbor),峰值信噪比(peak signal-to-noise ratio, PSNR)分别提高4.2 dB和2.99 dB,结构相似性指数(structural similarity index, SSIM)分别提高0.055和0.077。在5至50的高斯噪声范围内,本文方法计算的PSNR相较TBSN(transformer-based blind-spot network)在Kodak24(Kodak lossless true color image suite 24)数据集上提升1.09%,在BSD300(Berkeley segmentation dataset 300)数据集上提升0.72%,相较NBR2NBR在BSD500数据集上提升0.68%。
所提算法能够处理含有不同程度和类型噪声的矿井图像,有效去除噪声的同时保留图像的细节信息,展现出优越的鲁棒性和广泛的适用性。代码获取地址:https://www.sciclb.cn/anonymous/skpswk56.
多数的行人轨迹预测方法专注于序列化数据的特征,忽略了对行人轨迹的社会语义进行学习。因此,本文着重研究行人轨迹中的社会特征与人类行走特征,提出结合社会约束与轨迹终点的路径逐步估计网络(path stepwise estimation network combining social constraints and trajectory endpoints,PSEN)。
根据人在行走中对路径规划的3个特征:1)社会约束,将人群按照社交约束,依据运动学信息进行分类,并根据社交权重得到被预测行人与类内其他行人的社交注意力,从而影响后续的路径估计网络;2)通过模拟行人会先确定终点,有目的性地规划自己行走的路径这一特征,设计一个终点估计网络,通过时空序列对终点进行预测,对完整的路径规划提供参考价值;3)行人不断根据周边环境与终点进行局部路径微调并重新分配注意力的特征,搭建终点与路径微调网络,实现自动根据环境进行微调路径规划的效果。
实验在ETH/UCY(Eidgenössische Technische Hochschule Zürich pedestrian and University of Cyprus pedestrain)数据集上与6种基线方法进行比较,在SDD(Stanford drone dataset)数据集上与5种基线方法进行对比。在ETH/UCY整个数据集中,平均位移误差(average displacement error,ADE)和最终位移误差(final displacement error,FDE)平均降低5.1%和7.5%,在SDD数据集中,ADE和FDE平均降低1%和2%。针对行人较为密集的场景,如ZARA1、ZARA2和UNIV数据集的预测效果均提升10%以上。在ETH/UCY数据集上进行消融实验,证明PSEN各模块均能够提高行人轨迹预测任务的效果,ADE和FDE分别平均降低19%和31%。
本文提出的结合社会约束与轨迹终点的路径逐步估计网络(PSEN),综合了真实世界中行人场景的3个特点,在ETH/UCY和SDD数据集上取得了更优异效果。
近年来,数字化口腔正畸备受关注,其中牙弓线设计是计算牙齿目标位的关键。现有方法多采用Beta函数拟合牙弓线,但由于自由度的限制使其难以拟合出代表理想牙弓形态的牙弓线。为此,本文提出通过累加弦长参数化并基于Hermite插值函数的牙弓线拟合方法,以提高牙弓线拟合的精度和灵活性。
首先,使用牙齿分割技术得到每颗牙齿的数据,并通过牙齿特征点检测方法得到对应牙齿的特征点。其次,选取指定牙齿的特征点,采用累加弦长参数化方法确定最终插值点。最后,通过构建待定系数矩阵,确定方程组,拟合出以分段函数表示的牙弓线。此外,本文基于特征点与拟合牙弓线之间的最短距离,提出两种评估数学函数拟合牙弓线能力的指标。
本文方法克服了Beta函数原有的局限性,具有较强的可控性。医生可以通过调整控制点,拟合出符合正畸需求的理想牙弓线。各项评价指标均显示,本文方法优于对比的常用方法。此外,将本文方法拟合的牙弓线应用于现有的牙齿正畸自动排列方法中,验证结果显示正畸效果显著提升。
本文方法拟合牙弓线的精度以及灵活性均优于对比方法,能够有效解决理想牙弓线拟合难的问题,为后续牙齿正畸治疗提供了帮助。
基于视觉的轨道缺陷检测方法大多存在高参数、计算复杂、检测速度慢以及精度低等缺陷,为了解决上述问题,提出一种使用RGB和深度图像进行轨道缺陷检测的轻量级金字塔交叉注意网络(lightweight pyramid cross-attention network for orbital image defect,LPCANet)。
LPCANet模型利用深度学习、RGB-D与显著性目标检测等技术,设计一种轻量级金字塔模块,能够从深度图像中提取多尺度特征图,而骨干模块从RGB图像中捕获金字塔特征细节;然后,将交叉注意力模块(cross-attention mechanism,CAM)应用于两种类型的特征映射;其次,利用空间特征提取子(spatial feature extractor,SFE)提高缺陷检测性能;最后,应用像素洗牌(pixel shuffle)操作恢复原始图像的大小。
在NEU-RSDDS-AUG、RSDD-TYPE1和RSDD-TYPE2 3种公开无服务RGB-D轨道数据集进行实验。结果表明,提出方法在NEU-RSDDS-AUG数据集的运行参数为9.90 M,计算量为2.50 G,模型大小为37.95 MB,运行速度为162.60帧/s,相比现有18种轨道缺陷检测方法,更为轻量化;与当前性能最优的CSEPNet相比,S-度量、交并比、最大F-度量、平均精度和平均绝对误差指标分别提高1.48%、0.86%、0.14%、0.03% 和1.77%;在消融实验中,像素洗牌方法表现出明显优势,更适合LPCANet模型。深入分析各种骨干网络性能,实验表明,LPCANet模型不仅适用现有各种骨干网络,而且检测结果更加优秀。在非轨道数据集DAGM2007、MT和Kolektor-SDD2上进行实验,LPCANet模型在mAP、MAE与IOU指标均有提高,具备一定的泛用性。
提出的LPCANet模型综合了传统模型和深度学习模型的优点,在轨道缺陷图像检测领域具备良好的实际应用价值。
针对已有的特征融合策略难以充分挖掘语义—实例特征之间相关性问题,提出一种基于增强注意力的语义实例联合分割网络。
首先,通过构建基于注意力机制的语义特征提取模块,有效捕获点间的局部上下文信息。然后,利用编码—解码模块获得点云的初始语义特征和初始实例特征,其中编码—解码模块包括基于注意力池化的PointNet++集合抽象层、PointConv的编码层、解码层以及PointNet++的特征传播层。接着,设计一个增强注意力模块,利用双重注意力机制,自适应地学习中心特征与邻近特征的相似性,动态确定注意力权重,并将得到的双重注意力权重进行求和,与初始语义特征相乘,获得增强后的语义特征。最后,将增强注意力模块内嵌到联合分割模块的语义分支中,将语义特征与实例特征有效融合,提高语义—实例联合分割的精度。
相较对比算法中最优值,本文方法在S3DIS(stanford large-scale 3D indoor semantics dataset)数据集中语义分割平均交并比与实例分割平均加权覆盖率指标分别提升3.5%和1.2%。在ScanNet数据集中,语义分割平均交并比与实例分割中平均加权覆盖率指标分别提升3.2%和2.8%。
本文提出的网络模型能够有效融合提取的语义特征与实例特征,其语义分割与实例分割的准确性明显优于现有的联合分割方法。
现有的基于多视图的三维模型分类方法通常基于预设的多个视点渲染三维模型,然后将所有渲染的视图送入神经网络模型实现分类。显然由于冗余和无效视图的存在,每个视图对于分类目标的作用并不相同。选择对分类目标贡献大的视图,不仅有利于提高基于多视图的三维模型分类的性能,而且能够提供表征三维模型的代表性视图。
提出一种Transformer注意力引导的三维模型最优视图选择与分类方法。在从正十二面体20个视角对待预测的三维模型渲染后,首先采用卷积神经网络从多个视图提取特征信息,获得多视图局部特征Token序列,并对其进行位置编码,以保留其空间位置信息。随后,将可学习的全局分类Token与多视图特征Token序列合并,输入至Transformer编码器进行全局视图特征融合,获得初始全局分类特征。接下来,最优视图选择模块基于全局视图特征融合过程中的注意力得分矩阵计算各视图对初始全局分类Token的贡献,并选择得分高的视图作为最优视图。最后,将最优视图特征Token序列与初始全局分类Token拼接后输入到Transformer编码器进行最优视图融合,并获得最终的全局分类Token,将其输入分类预测模块获得最终分类概率,并输出选择的最优视图。本文在训练过程中采用了随机丢弃视图和对比学习策略,以进一步提高模型的泛化性能。
在ModelNet40基准数据集上,所提方法总体识别精度和平均识别精度分别为97.61%和96.36%,在达到当前先进分类水平的同时,基于Transformer注意力得分矩阵选择出的最优视图更具有表征性。
本文方法利用Transformer实现不同视图特征之间的融合,通过自注意力、残差连接以及多层堆叠机制,Transformer能够有效学习数据的复杂特征,并捕捉不同视图之间的全局上下文关系。同时,其注意力得分矩阵为最优视图选择提供了依据,在实现高效分类的同时,能够选择出最具有表征性的视图。
热力图回归方法因能够提供丰富的空间信息,在人体姿态估计领域受到广泛关注。然而,由于传统真值热力图通常由固定标准差的2D高斯核覆盖标注点位置生成,当人体尺度变化较大时,固定的高斯核覆盖范围可能与关键点的实际语义区域不匹配,导致模型对关键点定位的模糊性和语义不确定性。对此,提出面向自下而上人体姿态估计的自适应真值热力图生成方法。
首先设计一种自适应真值热力图生成模块,通过学习图像中关键点的固有尺度信息以及近邻关键点之间的几何关系生成自适应尺度因子,为图像定制尺度自适应的真值热力图。另外,由于现有方法使用的热力图损失函数未能有效捕捉局部结构的相关性,导致其对关键点位置偏差不敏感。为此,提出局部概率一致性损失函数,通过在热力图的局部区域上计算结构相似性,提升模型对局部结构的学习和理解,同时引入动态权重来平衡样本的贡献,进一步引导模型优化方向,提高模型鲁棒性。
在两个公开数据集MS COCO(Microsoft common objects in context)和CrowdPose上进行实验评估,实验结果表明所提方法相较对比工作,关键点检测平均准确率分别提高1.6%与6.5%,达到72.1%和74.1%,验证了所提方法的有效性。此外,所提方法在拥挤场景的CrowPose数据集上也能带来显著的性能提升,这进一步表明其能够有效缓解复杂场景中的人体尺度变化带来的问题。同时消融实验验证了所提方法的有效性。
提出的面向自下而上人体姿态估计的自适应真值热力图生成方法,通过学习图像中关键点的固有尺度信息以及近邻关键点之间的几何关系生成自适应热力图作为真值,结合局部概率一致性损失函数来处理图像中尺度变化问题,有效提高了人体姿态估计准确率。
端到端的弱监督语义分割模型因其高效的训练效率备受关注,然而现有研究还存在语义信息提取不充分、生成的伪标签质量较低等不足。针对上述问题,本文提出一种基于知识蒸馏的端到端弱监督语义分割框架,通过双阶段知识交互模块增强学生网络和教师网络之间的知识传递,同时借助高斯修正模块对伪标签进行修正。
首先,设计双阶段知识交互模块强化教师网络和学生网络的特征学习过程,有效降低训练过程中的噪声干扰。其次,为了生成高质量的伪标签,设计了高斯修正模块,通过拟合类激活图的分布,利用EM(expectation maximization)算法估算每个像素点的噪声概率,并依据与邻域像素的相似度关系修正伪标签,进而提升弱监督语义分割网络的性能。
本文方法在PASCAL VOC 2012(pattern analysis, statical modeling and computational learning visual object classes 2012)和MS COCO 2014(Microsoft common objects in context 2014)数据集上的mIoU(mean intersection over union)值分别达到74.8%和42.3%,优于其他对比方法。
通过双阶段知识交互模块以及高斯修正模块,有效降低了图像内部噪声以及潜在的标签噪声对训练过程的影响,并且改善了伪标签生成不完整的问题,与现有方法相比取得了显著的性能提升,在端到端的弱监督语义分割方法中展现出明显的优越性,具有一定的研究价值。
大语言模型在自然语言处理领域取得显著进展,展现出卓越的语言理解和生成能力。然而,尽管这些模型在文本处理方面表现出色,但在应对复杂多模态任务时,尤其在视频问答领域局限性逐渐显现。视频作为一种动态的视觉模态,具有显著的时序依赖性和跨模态信息融合的复杂性,对模型的时序信息处理能力和计算效率提出更高的要求。本文系统回顾基于大语言模型的视频问答模型的研究进展,详细分析非实时视频问答模型与实时视频问答模型的技术特点、优势及其在不同应用场景中的表现。同时,探讨了现有研究中常用的数据集及其评测标准,并总结了当前技术面临的挑战与瓶颈。在此基础上,对未来视频问答模型的发展方向进行前瞻性展望,旨在推动多模态人工智能的进一步发展与应用。
点云深度学习网络取得显著进展,表现出的强大语义理解能力推动着整个三维视觉领域的进步。然而三维点云通常表现出复杂的变换对称性,其中旋转是一个具有挑战性且必要的主题。不同旋转变换下点云的语义信息一致,但空间坐标不同,这影响了常规点云深度学习网络在语义感知方面的稳定性,难以应用到任意姿态的现实场景。早期的研究主要采用旋转数据增强的方式,但由于旋转本身的无限性和连续性,这种简易方案并不能满足需求。因此,越来越多的学者着手研究具有旋转不变属性的点云深度学习网络,在网络设计层面排除旋转对于特征提取的影响。本文对于旋转不变点云网络相关研究进行充分调研,分析其中存在的挑战,并系统整理相关主流方法,依据旋转不变能力获取方式的不同,将其划分为几何旋转不变方法、特征旋转不变方法和训练旋转不变方法。本文详细描述了当前学术界在该问题上的研究内容和方法,总结和对比各类方法的优缺点,并对常用的一些数据集和评价指标进行整理总结。最后,本文调研和总结了旋转不变点云深度学习网络的下游应用前景,并对未来发展和研究热点进行展望。