北京邮电大学学报

模型	主干网络	参数量/M	NYUDepthv2	SUN-RGBD
TokenFusion	MiT-B2	26.0	480×640	55.2	53.3	—	530×730	71.1	—	—
TokenFusion	MiT-B3	45.9	480×640	94.4	54.2	—	530×730	122.1	—	—
CMX	MiT-B2	66.6	480×640	67.6	54.4	79.9	530×730	86.3	49.7	82.8
CMX	MiT-B4	139.9	480×640	134.3	56.3	79.9	530×730	173.8	52.1	83.5
CMX	MiT-B5	181.1	480×640	167.8	56.9	80.1	530×730	217.6	52.4	83.8
CMNext	MiT-B4	119.6	480×640	131.9	56.9	—	530×730	170.3	51.9	—
DFormer	DFormer-T	6.0	480×640	11.8	51.8	—	530×730	15.1	48.8	—
DFormer	DFormer-S	18.7	480×640	25.6	53.6	—	530×730	33.0	50.0	—
DFormer	DFormer-B	29.5	480×640	41.9	55.6	—	530×730	54.1	51.2	—
DFormer	DFormer-L	39.0	480×640	65.7	57.2	—	530×730	83.3	52.5	—
AFRF-Seg	MiT-B2	73.0	480×640	56.3	55.8	79.7	530×730	72.3	50.9	83.3
AFRF-Seg	MiT-B3	112.6	480×640	91.1	57.4	80.5	530×730	117.6	52.1	83.6

模型	主干网络	参数量/M	NYUDepthv2	SUN-RGBD
TokenFusion	MiT-B2	26.0	480×640	55.2	53.3	—	530×730	71.1	—	—
TokenFusion	MiT-B3	45.9	480×640	94.4	54.2	—	530×730	122.1	—	—
CMX	MiT-B2	66.6	480×640	67.6	54.4	79.9	530×730	86.3	49.7	82.8
CMX	MiT-B4	139.9	480×640	134.3	56.3	79.9	530×730	173.8	52.1	83.5
CMX	MiT-B5	181.1	480×640	167.8	56.9	80.1	530×730	217.6	52.4	83.8
CMNext	MiT-B4	119.6	480×640	131.9	56.9	—	530×730	170.3	51.9	—
DFormer	DFormer-T	6.0	480×640	11.8	51.8	—	530×730	15.1	48.8	—
DFormer	DFormer-S	18.7	480×640	25.6	53.6	—	530×730	33.0	50.0	—
DFormer	DFormer-B	29.5	480×640	41.9	55.6	—	530×730	54.1	51.2	—
DFormer	DFormer-L	39.0	480×640	65.7	57.2	—	530×730	83.3	52.5	—
AFRF-Seg	MiT-B2	73.0	480×640	56.3	55.8	79.7	530×730	72.3	50.9	83.3
AFRF-Seg	MiT-B3	112.6	480×640	91.1	57.4	80.5	530×730	117.6	52.1	83.6

校正模块	融合模块	参数量/M	mIoU/%	PA/%
—	相加	61.0	53.4	78.5
CM-FRM	相加	71.1	54.4	78.8
AFR	相加	69.9	54.9	78.8
—	FFM	67.6	54.2	78.7
—	AFF	64.1	54.6	78.9
CM-FRM	FFM	77.6	55.0	79.2
AFR	AFF	73.0	55.8	79.7

校正模块	融合模块	参数量/M	mIoU/%	PA/%
—	相加	61.0	53.4	78.5
CM-FRM	相加	71.1	54.4	78.8
AFR	相加	69.9	54.9	78.8
—	FFM	67.6	54.2	78.7
—	AFF	64.1	54.6	78.9
CM-FRM	FFM	77.6	55.0	79.2
AFR	AFF	73.0	55.8	79.7

k₁×k₂	评价指标
阶段1	阶段2	阶段3	阶段4	mIoU	PA
7×7	7×7	7×7	7×7	54.2	78.2
56×56	28×28	14×14	7×7	55.5	79.2
24×32	12×16	6×8	3×4	55.8	79.7

k₁×k₂	评价指标
阶段1	阶段2	阶段3	阶段4	mIoU	PA
7×7	7×7	7×7	7×7	54.2	78.2
56×56	28×28	14×14	7×7	55.5	79.2
24×32	12×16	6×8	3×4	55.8	79.7

解码器	参数量/M	mIoU/%	PA/%
MLPDecoder	62.0	54.7	78.8
Hamburger^*	66.7	55.5	79.3
Hamburger	67.9	55.3	79.1
所提解码器^*	72.5	55.5	79.4
所提解码器	73.0	55.8	79.7

解码器	参数量/M	mIoU/%	PA/%
MLPDecoder	62.0	54.7	78.8
Hamburger^*	66.7	55.5	79.3
Hamburger	67.9	55.3	79.1
所提解码器^*	72.5	55.5	79.4
所提解码器	73.0	55.8	79.7

对抗性训练	参数量/M	mIoU/%	PA/%
×	73.0	55.5	79.5
√	73.0	55.8	79.7

对抗性训练	参数量/M	mIoU/%	PA/%
×	73.0	55.5	79.5
√	73.0	55.8	79.7

基于非对称特征校正与融合的RGB-D语义分割

PDF下载

游新冬 ¹ , 沈文涛 ¹ , 韩晶 ¹ , 吕学强 ¹^,² , 才藏太 ²

北京邮电大学学报 | 研究报告 2025,48(5): 159-166

收起

北京邮电大学学报 | 研究报告 2025, 48(5): 159-166

基于非对称特征校正与融合的RGB-D语义分割

全屏

游新冬¹, 沈文涛¹, 韩晶¹, 吕学强¹^,², 才藏太²

作者信息

^1．北京信息科技大学　网络文化与数字传播北京市重点实验室，北京　100101

^2．青海师范大学　省部共建藏语智能信息处理及应用国家重点实验室，西宁　810008

游新冬（1979—），女，教授，硕士生导师。

通讯作者:

韩晶（1990—），女，讲师，硕士生导师，邮箱：hanjing@bistu.edu.cn。

RGB-D Semantic Segmentation Based on Asymmetric Feature Rectification and Fusion

Xindong YOU¹, Wentao SHEN¹, Jing HAN¹, Xueqiang LYU¹^,², Zangtai CAI²

Affiliations

^1.Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China

^2.The State Key Laboratory of Tibetan Intelligent Information Processing and Application, Qinghai Normal University, Xining 810008, China

doi: 10.13190/j.jbupt.2024-151

文章导航

摘要

收起

针对红绿蓝3通道颜色模型（RGB）单模态包含语义信息单一、易受噪声干扰且分割性能不佳的问题，提出了一种基于非对称特征交互方法的红绿蓝3通道颜色模型-深度信息（RGB-D）语义分割算法。首先，使用双流网络分别提取RGB模态和深度模态特征，并通过非对称特征校正模块，以利用一种模态校正另一种模态的特征，达到抑制模态内噪声的效果。然后，通过非对称融合模块进一步增强模态间的信息交互。此外，在解码器中引入了多尺度特征融合，并在训练过程中采用对抗性训练作为辅助，从而有效利用上下文信息并整体提升准确性。实验结果表明，所提算法有效抑制了模态内的噪声，增强了模态间有效语义信息的交互，在纽约大学深度数据集第2版（NYUDepthv2）和斯坦福大学RGB-D数据集（SUN-RGBD）上的平均交并比（mIoU）分别达到57.4%和52.1%。

关键词

红绿蓝3通道颜色模型-深度信息语义分割 / 编码器-解码器 / 红绿蓝3通道颜色模型-深度信息互补 / 深度学习

Abstract

收起

To address the issue that the single red-green-blue (RGB) modality contains limited semantic information, is susceptible to noise interference, and exhibits suboptimal segmentation performance, this paper proposes an RGB-depth (RGB-D) semantic segmentation algorithm based on an asymmetric feature interaction method. First, a two-stream network is employed to extract features from the RGB and depth modalities separately. By incorporating an asymmetric feature correction module, features from one modality are used to correct those of the other, thereby suppressing intra-modal noise. Then, an asymmetric fusion module is applied to further enhance information interaction between the modalities. Additionally, multi-scale feature fusion is introduced in the decoder, and adversarial training is adopted as an auxiliary strategy during the training process to effectively leverage contextual information and improve overall accuracy. Experimental results demonstrate that the proposed algorithm effectively suppresses intra-modal noise and enhances the interaction of valid semantic information across modalities，achieving mean intersection over union（mIoU）scores of 57.4% and 52.1% on the New York University depth dataset v2（NYUDepthv2）and the Stanford University RGB-D dataset（SUN-RGBD），respectively.

Key words

red-green-blue-depth semantic segmentation / encoder-decoder / red-green-blue-depth information complementary / deep learning

引用本文

游新冬, 沈文涛, 韩晶, 吕学强, 才藏太. 基于非对称特征校正与融合的RGB-D语义分割. 北京邮电大学学报, 2025 , 48 (5) : 159 -166 . DOI: 10.13190/j.jbupt.2024-151

Xindong YOU, Wentao SHEN, Jing HAN, Xueqiang LYU, Zangtai CAI. RGB-D Semantic Segmentation Based on Asymmetric Feature Rectification and Fusion[J]. Journal of Beijing University of Posts and Telecommunications, 2025 , 48 (5) : 159 -166 . DOI: 10.13190/j.jbupt.2024-151

正文

收起

近年来，基于红绿蓝3通道颜色模型-深度信息（RGB-D，red-green-blue-depth）数据的语义分割任务的主流方法之一是采用单网络架构实现模态交互。例如，Cao等^[1]在单个主干网络中使用形状感知卷积层，动态调整RGB卷积权重。Chen等^[2]则设计空间引导卷积，利用深度生成几何亲和矩阵优化特征聚合。这类方法通过在卷积操作中嵌入几何建模，显著超越传统输入级融合策略。然而，它们仍受限于深度噪声敏感性与严格模态对齐依赖，在复杂场景中泛化能力不足。

除了前述基于单个主干网络的算法之外，另一种主流算法是采用双分支编码解码器架构，RGB图像和深度图像的特征分别由2个单独的主干网络提取，并添加额外的特征融合模块实现2种模态间的交互，提高了性能。例如，Hu等^[3]先使用通道注意力机制分别处理2种模态的特征，之后通过简单的相加操作实现尺度间和模态间的信息交互。Chen等^[4]引入一种跨模态引导编码器，以期利用2种模态的通道相关性和空间相关性，通过模态间的交互抑制特征噪声，并校正RGB和深度特征。此外，Wang等^[5]则通过模态间的通道交换实现信息融合，在没有引入额外参数的情况下动态地控制融合过程。不过，这些算法均采用基于卷积神经网络（CNN，convolutional neural network）的主干网络，没有考虑远程依赖。

随着变换器架构在自然语言处理领域的巨大成功，将其引入视觉领域的语义分割任务也成为了一个流行趋势。Xie等^[6]利用变换器架构创建层次结构来提取多分辨率特征，并用于RGB图像的语义分割。基于这一工作，Zhang等^[7]提出的跨模态融合语义分割方法（CMX，cross-modal fusion for RGB-X）采用双分支架构，提出了一个特征校正模块，使用通道和空间注意力聚合跨模态特征，并通过交叉注意力实现了跨模态特征融合。Gao等^[8]则通过交叉注意力校正特征，通过跨场融合模块融合特征，并引入边界监督优化边界。然而，上述算法虽然利用了远程依赖，但是特征校正模块和融合模块均采用对称架构，没有考虑到RGB特征和深度特征包含语义信息的差异性。

针对以上问题，笔者提出了一种基于非对称特征校正与融合的RGB-D语义分割算法（AFRF-Seg，asymmetric feature rectification and fusion segmentation）。该算法在充分利用不同模态信息的基础上，采用了非对称架构，在特征校正与融合阶段进行模态间的信息交互。具体是在编码器的每个阶段设计了一种非对称的特征校正模块（AFR，asymmetric feature rectification）和非对称的特征融合模块（AFF，asymmetric feature fusion）。其中，AFR模块使用与交叉注意力相似的架构获得基于RGB特征的全局特征评估，使用普通卷积获得局部特征评估，并共同用于2种模态的特征校正。AFF模块则使用交叉注意力实现深度特征对RGB特征的互补融合。考虑到校正模块和融合模块目的不同，2个模块进行交叉注意力的操作也进行了差异化处理。此外，为了实现尺度间的特征融合，AFRF-Seg基于空洞空间金字塔池化提出了一种语义分割解码器，以利用来自不同编码器层级的特征之间的上下文信息。在训练过程中，还采用了对抗性训练策略，以进一步提升模型的整体准确性。实验结果显示，AFRF-Seg在2个公开的数据集上表现出色，相较于现有的RGB-D语义分割算法，实现了更加优秀的场景分割效果。

1　算法原理

收起

1.1　整体框架

AFRF-Seg基于双分支的编码解码器的网络架构，使用2个混合变换器网络（MiT，mix transformer）分别从RGB图像和深度图像中提取特征。如图1所示，这2个并行分支使用阶段性交互的方式，通过AFR模块用一种模态的特征校正另一种模态。被校正后的RGB模态和深度模态特征，分别被送入解码器的下一阶段，同时在经过AFF模块后被送入含有多尺度特征融合的解码器中。此外，受Taghavi等^[9]工作的启发，采用了对抗性训练的方法，通过衡量预测和真实分布之间的分布差异，提高算法的整体准确性。整体的损失函数如下：

其中：L_seg表示分割损失，L_gan表示判别器损失，λ为超参数，默认设置为0.1。

网络的整体流程如图1所示。其中，特征提取阶段采用的MiT编码器能够在给定输入图像的情况下，生成类似卷积神经网络的多级特征，这些特征包含高分辨率的细粒度特征和低分辨率的粗粒度特征，通常可以提高语义分割的性能。在解码器阶段中，由1×1卷积实现的多层感知机（MLP，multilayer perceptron）用于将每个阶段输出的特征嵌入到相同数量的通道中。

1.2　非对称特征校正模块

编码器阶段的RGB特征和深度特征通常是互补的，且2种模态的数据在采集和特征提取的过程中，不可避免地会引入噪声。从原始图像的角度进行解释，当RGB图像中的颜色或纹理过于接近难以区分时，模型应该更加关注深度图像。同样地，当深度图像中的深度值难以用来区分不同目标类别时，模型应该更加关注RGB图像。此外，特征校正还可以用其中一种模态抑制另一种模态中噪声的影响。如图2所示，AFR模块对2种模态的交互处理包括基于交叉注意力的全局特征评估和基于卷积的局部特征评估，2者共同提供特征校正。

1）基于交叉注意力的全局特征评估。考虑到RGB模态包含的语义信息更加丰富，AFR模块在进行全局特征评估时，采用非对称架构，仅计算2种模态对RGB模态的注意力。同时，为了减少因像素增加而2次增长的计算量，先将2种模态的特征在通道方向上串联，然后使用自适应平均池化对串联后的特征进行下采样，再通过1个1×1卷积得到2种模态共同的查询Q_AFR，以将2次全局注意力的计算合并为1次。为了获得计算注意力时所需要的键值（K_AFR，V_AFR），仅对RGB特征进行变换。上述过程可以表述为

其中：F_cat（·）表示沿通道方向的串联操作，

（·）表示在空间维度的自适应平均池化，将特征图下采样到k₁×k₂大小，B_1×1（·）是1个1×1普通卷积，用来执行通道间的线性变换，F_split（·）表示按通道方向进行划分。基于生成的Q_AFR∈

，K_AFR∈R^h×w×C和V_AFR∈R^h×w×C（其中，h，w和C是当前阶段特征图的高度、宽度和通道数），全局特征评估如下：

其中：F_UP（·）表示双线性插值以进行上采样，将特征图大小从k₁×k₂转换为h×w，@表示矩阵乘法。

2）基于卷积的局部特征评估。局部特征评估需要综合对比2种模态特征包含的语义信息，利用普通卷积实现通道间的交互。同时，由于特征包含语义信息的质量需要考虑一定大小区域内的信息，因此卷积模块使用了3×3的卷积核，以实现空间方向的对比评估。具体操作如下：

其中B_3×3表示3×3的普通卷积。

与CMX类似，获得2种模态共同的全局特征评估和各自的局部特征评估后，采用如下的方法对特征图进行校正：

其中：λ₁和λ₂是2个超参数，遵从CMX的设置，均设为默认值0.5，

和

t是综合校正后的特征，被送入主干网络的下一个阶段，同时送入融合模块进行各个阶段的特征融合。

1.3　非对称特征融合模块

特征校正模块利用2种模态之间的交互，对各自包含的噪声进行抑制，并将处理后的特征送到主干网络的下1个阶段进行特征提取。为了在各个阶段的特征送入到解码器前增强信息的交互，构建了1个特征融合模块。考虑到2种模态语义信息的差异性，该特征融合模块仍使用非对称架构，整体结构如图3所示。

在进行特征融合时，以RGB特征为主，通过交叉注意力获得RGB特征对深度特征的关注，从而提取出深度特征中对RGB特征有效的互补信息。具体做法与特征校正模块相似，为了减少提取互补信息时的计算量，使用自适应平均池化将RGB特征下采样并通过1个1×1卷积得到查询Q_AFF，与通过深度特征得到的键值（K_AFF，V_AFF）进行交叉注意力操作，然后使用双线性插值将注意力结果上采样至输入大小。具体操作过程如下：

经过上述操作，得到了深度特征中对RGB特征具有互补作用的语义信息。将该互补信息和RGB特征在通道方向上进行串联，然后使用如图3所示的跳跃连接，将大小为R^H×W×²^C的串联特征融合为大小为R^H×W×C的特征，以进行特征解码。

1.4　多尺度融合的解码器

先前使用变换器主干网络的语义分割工作通常仅在解码器中利用局部信息。由于早期特征为图像的语义分割提供了有价值的低级语义信息，AFRF-Seg的解码器为了增加算法性能和稳健性，不仅考虑了瓶颈特征的上下文，还利用来自不同编码器层级的上下文信息。解码器的架构如图1所示。在进行多尺度特征融合之前，通过1×1卷积将每个ϕ_i嵌入到相同数量的通道中，然后将各个层级的特征上采样到ϕ₁大小，并将它们拼接起来。之后使用多个并行的3×3深度可分离卷积和1个1×1卷积进行多尺度特征融合。受Geng等^[10]工作的启发，在后续阶段加入矩阵分解，以保证解码器处理后的信息不会因信息冗余或缺失而被损坏。最终，通过1个1×1卷积输出分割结果。

2　实验

收起

为了验证AFRF-Seg对于RGB-D语义分割任务的有效性，分别在2个RGB-D数据集上进行实验，其评价指标包括平均交并比（mIoU，mean intersection over union）和像素精度（PA，pixel accuracy），并与最先进的算法进行了比较。同时，进行全面的各个模块的消融研究，以验证不同模块的效果，最后进行了可视化实验。

2.1　数据集

在纽约大学深度数据集第2版（NYUDepthv2，New York University depth dataset v2）和斯坦福大学RGB-D数据集（SUN-RGBD，Stanford University RGB-D dataset）上对AFRF-Seg进行微调和评估。NYUDepthv2数据集包含1449张带有40类标签的RGB-D图像，其中795张图像用于训练，其余654张图像用于测试。所有RGB图像和深度图像的分辨率统一为480×640。SUN-RGBD包含10335张分辨率为530×730的RGB-D图像，其中对象分为37个类别，5285张图像用于训练，其余5050张图像用于测试。

2.2　实验方法

AFRF-Seg采用预训练的MiT编码器作为主干网络，并将多尺度融合阶段的嵌入维度设置为256，矩阵分解时的嵌入维度设置为512。特征提取网络选择权重衰减为0.01的AdamW优化器，其中NYUDepthv2数据集的初始学习率设置为0.00006，SUN-RGBD数据集的初始学习率设置为0.00008，并采用交叉熵作为损失函数。对抗性训练中的鉴别器则统一采用衰减为0.0001、初始学习率为0.0001的设置。在微调过程中，2个数据集均被裁剪为分辨率，并只采用2种常见的数据增强策略，即随机水平翻转和随机缩放（从0.50到1.75）。对MiT-B2和B3模型的批量大小均设置为8，其中NYUDepthv2数据集训练的轮次数设置为500，SUN-RGBD数据集训练的轮次数设置为300。

与训练过程类似，在评估NYUDepthv2和SUN-RGBD的测试结果时，同样使用带有水平翻转的多个尺度（从0.50到1.75）进行推理。所有实验均在4个V100型号的图形处理器上进行。

2.3　实验结果分析与评价

2.3.1　对比实验

将AFRF-Seg与4种最新的RGB-D语义分割算法的实验结果进行比较，结果如表1所示。从表1中可以看出，AFRF-Seg取得了良好的性能水平。在同样采用MiT-B2作为主干网络的情况下，AFRF-Seg在NYUDepthv2数据集中的mIoU相比TokenFusion^[11]和CMX分别提升了2.5%和1.4%，在SUN-RGBD上的mIoU和PA相比CMX则分别提高了1.2%和0.5%。值得注意的是，AFRF-Seg在采用MiT-B3作为主干网络时，在NYUDepthv2数据集上的性能已超过了基于MiT-B5的CMX和基于MiT-B4的跨模态下一代模型（CMNext，cross-modal next generation model）^[12]，在参数量和运算量较小的情况下，均获得了0.5%的mIoU提升，在SUN-RGBD数据集上的PA仅比基于MiT-B5的CMX低了0.2%。同时，与基于强大的RGB-D预训练模型的深度变换器（DFormer，depth transformer）^[13]相比，AFRF-Seg作为基于双流网络的算法，虽然参数量和运算量较大，但是在性能水平上亦有优势。在不同数据集上的实验结果表明，AFRF-Seg可以有效构建RGB特征和深度特征之间的互补融合，从而更加准确地进行RGB-D数据的语义分割。

2.3.2　消融实验

为了探索算法的不同模块如何影响分割性能，还进行了一系列的消融实验。除非另有说明，在消融实验中均使用MiT-B2作为主干网络，以模型在NYUDepthv2测试集上的语义分割性能为标准进行评估。

1）AFR和AFF模块的有效性。为了验证所提模块的有效性，把去除校正模块且以特征图相加作为融合方法的模型作为基准模型，之后分别添加AFR和AFF模块进行实验。此外，为了证明AFR和AFF模块的有效性，对CMX模型中引入的跨模态特征校正模块（CM-FRM，cross-modal feature rectification module）和特征融合模块（FFM，feature fusion module）也进行了实验。

如表2结果所示，与基准模型相比，仅使用AFR模块时，mIoU和PA分别提高了1.5%和0.3%。仅使用AFF模块时，mIoU和PA分别提高了1.2%和0.4%。同时，引入AFR和AFF模块，其最终的mIoU和PA分别提高了2.4%和1.2%。值得注意的是，对比仅使用CM-FRM与仅使用FFM的实验结果，单独使用AFR或AFF时，不仅参数量更低，而且性能表现均更优，mIoU分别获得了0.5%和0.4%的提升。同时使用AFR和AFF模块时，相比同时使用CM-FRM和FFM模块，模型的mIoU获得了0.8%的提升。

此外，实验还发现，AFRF-Seg的性能会受到式（2）和式（9）中自适应平均池化输出特征图的大小影响，具体结果如表3所示。以全阶段使用7×7的输出大小作为对比基准，动态地调整输出尺寸时，模型的mIoU和PA分别提高了1.3%和1.0%。考虑到NYUDepthv2和SUN-RGBD数据集的输入尺寸均为480×640，在自适应平均池化阶段，将输出尺寸的长宽比设置为3∶4，可以使池化后的每个像素点对应的区域保持为正方形，从而保证语义信息不会被破坏。当自适应平均池化输出的长宽比设置为3∶4且在不同阶段动态调整大小时，模型获得了mIoU为55.8%、PA为79.7%的最优性能。同时，由于平均池化输出尺寸的变化不会引入需要学习的参数，因此模型性能提高的同时，其参数量并不会发生变化。

2）解码器的消融实验。实验综合对比了使用多层感知机解码器（MLPDecoder，multilayer perceptron decoder）、Hamburger解码器与所提解码器的分割效果，同时为了探索不同层级的特征对性能的影响，进行了针对解码器输入不同层级特征的实验。实验结果如表4所示。其中，“*”表示解码器输入特征的层级索引为“1，2，3”，其余为“0，1，2，3”。

与MLPDecoder相比，Hamburger解码器和AFRF-Seg所采用的解码器中含有的矩阵分解模块，能够将编码器学习到的特征分解为子矩阵，以恢复干净的低秩特征子空间，确保解码器处理的信息不会存在冗余或缺失的问题，故而在性能表现上均优于MLPDecoder。在仅采用1，2，3级别特征时，由于特征多样性的缺乏，AFRF-Seg解码器中引入的多尺度融合模块优势并不明显。在使用全部尺度的特征时，多尺度融合模块丰富了特征的多样性及其之间的交互，相比使用同样尺度的Hamburger解码器参数量仅提高了5.1M，但获得了0.5%的mIoU提升和0.6%的PA提升，同时获得了mIoU为55.8%、PA为79.7%的最优性能。

3）对抗性训练的消融实验。考虑到模型推理结果和真实标签的巨大差异，在训练过程中，将鉴别器引入到网络架构中可以获得性能提升。结果如表5所示，相比在训练过程未引入对抗性训练，AFRF-Seg获得了mIoU和PA分别为0.3%和0.2%的性能提升。值得注意的是，在训练过程中引入预测标签和真实标签的鉴别器，并不会影响模型在推理时的参数量和计算量，在不增加计算开销的情况下，提升了模型语义分割的性能。

2.3.3　定性分析

为了进一步验证AFRF-Seg提出的特征校正模块、融合模块和算法整体的功能与优势，将第1个特征校正模块前后的RGB特征图、深度特征图和融合之后的特征图进行了可视化。同时，进行了AFRF-Seg、CMX（MiT-B5）和DFormer-L的语义分割结果之间的定性比较。

具体做法：将1个R^c×h×w的特征图视为h×w个维度为c的向量，利用主成分分析（PCA，principal component analysis）算法进行主成分分析后，取前3个重要的特征向量，并将h×w个向量对应的3个权重值作为可视化结果的RGB值。具体结果如图4所示，其中图4（b）、图4（c）、图4（e）和图4（f）分别代表RGB特征、深度特征在AFR模块前后的可视化结果，图4（g）为校正后的特征图经过AFF模块融合后的可视化结果。从图4中可以看出，特征校正模块AFR能够很好地抑制2种模态的特征中的噪声，进而突出有用的语义特征，而特征融合模块AFF能够进一步增强2种模态间的交互，以RGB模态为主体，利用深度特征中的有效语义信息进行补充，得到包含噪声较少、语义信息丰富的特征图。

AFRF-Seg、CMX（MiT-B5）和DFormer-L的定性比较结果如图5所示。可以看出，AFRF-Seg不仅能够很好地识别出物体的语义类别，而且能够高效应对RGB图像中由于反射产生的干扰纹理，而这种反射对于DFormer这种基于单个主干网络的算法来说，更加难以处理。

3　结束语

收起

对于RGB-D语义分割，考虑到2种模态包含语义信息的丰富性不同，笔者基于双流网络，引入了非对称特征校正模块和特征融合模块，有效抑制了2种模态中的噪声并增强了模态间的互补性。同时，采用了多尺度特征融合和对抗性训练的方法，充分利用上下文信息，提高了算法整体准确性。实验结果表明，AFRF-Seg在室内RGB-D数据集上均获得了具有竞争力的分割性能。

然而，AFRF-Seg基于双流网络，模型的计算量和参数量相比其他算法优势并不明显。如何将这种非对称特征交互的方法融入到单个网络，同时保持单个模态语义信息的独特性，是未来研究的一个可行方向。同时，提出的非对称特征交互方法仅针对主干网络的特征提取，因此可以尝试将该特征校正和融合方法应用于其他密集预测任务，如实例分割、全景分割、显著性目标检测等。

参考文献

收起

文献

收起

参考文献引证文献

排序方式：

[1]

CAO

, LENG

, LISCHINSKI

, et al. Shapeconv:Shape-aware convolutional layer for indoor RGB-D semantic segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 7088-7097.

[2]

CHEN

L Z

, LIN

, WANG

, et al. Spatial information guided convolution for real-time RGB-D semantic segmentation[J]. IEEE Transactions on Image Processing, 2021, 30: 2313-2324.

[3]

, YANG

, FEI

, et al. Acnet: Attention based network to exploit complementary features for RGB-D semantic segmentation[C]//2019 IEEE International Conference on Image Processing (ICIP), IEEE, 2019:1440-1444.

[4]

CHEN

, LIN

K Y

, WANG

, et al. Bi-directional cross-modality feature propagation with separation-and-aggregation gate for RGB-D semantic segmentation[C]//European Conference on Computer Vision. Cham:Springer International Publishing, 2020: 561-577.

[5]

WANG

, HUANG

, SUN

, et al. Deep multimodal fusion by channel exchanging[J]. Advances in Neural Information Processing Systems, 2020, 33: 4835-4845.

[6]

XIE

, WANG

, YU

, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 12077-12090.

[7]

ZHANG

, LIU

, YANG

, et al. CMX: Cross-modal fusion for RGB-X semantic segmentation with transformers[J]. IEEE Transactions on Intelligent Transportation Systems, 2023, 24(12): 14679-14694.

[8]

GAO

, YANG

, JIANG

, et al. Global feature-based multimodal semantic segmentation[J]. Pattern Recognition, 2024, 151: 110340.

[9]

TAGHAVI

, LANGARI

, PANDEY

. SwinMTL: A shared architecture for simultaneous depth estimation and semantic segmentation from monocular camera images[J]. arXiv preprint arXiv: 2403.10662, 2024.

[10]

GENG

, GUO

M H

, CHEN

, et al. Is attention better than matrix decomposition?[J]. arXiv preprint arXiv: 2109.04553, 2021.

[11]

WANG

, CHEN

, CAO

, et al. Multimodal token fusion for vision transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 12186-12195.

[12]

ZHANG

, LIU

, SHI

, et al. Delivering arbitrary modal semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 1136-1147.

[13]

YIN

, ZHANG

, LI

, et al. DFormer: Rethinking RGB-D representation learning for semantic segmentation[J]. arXiv preprint arXiv: 2309.09668, 2023.

2025年第48卷第5期

PDF下载

引用本文

BibTeX

文章信息

doi: 10.13190/j.jbupt.2024-151

接收时间：2024-07-17
首发时间：2026-04-16

补充材料

相关文章

文章信息

作者

出版历史

收稿日期：2024-07-17

基金

作者信息

^1．北京信息科技大学　网络文化与数字传播北京市重点实验室，北京　100101

^2．青海师范大学　省部共建藏语智能信息处理及应用国家重点实验室，西宁　810008

通讯作者:

韩晶（1990—），女，讲师，硕士生导师，邮箱：hanjing@bistu.edu.cn。

参考文献

分享链接

https://castjournals.cast.org.cn/joweb/bjyddxxb/CN/10.13190/j.jbupt.2024-151

分享至

全文二维码

扫描看全文

引用本文

BibTeX

本文的引用情况

2种不同金属材料的力学参数

科 Family	属数 Number of genus	种数 Number of species	占总种数比例 Percentage of total species (%)	属 Genus	种数 Number of species	占总种数比例 Percentage of total species (%)
鹅膏菌科Amanitaceae	2	11	5.26	鹅膏菌属 Amanita	10	4.78
小菇科 Mycenaceae	2	12	5.74	丝盖伞属 Inocybe	5	2.39
多孔菌科 Polyporaceae	8	14	6.70	蜡蘑属 Laccaria	5	2.39
红菇科 Russulaceae	3	23	11.00	小皮伞属 Marasmius	6	2.87
				小菇属 Mycena	11	5.26
				光柄菇属 Pluteus	5	2.39
				红菇属 Russula	17	8.13
				栓菌属 Trametes	5	2.39

关闭全屏

BibTeX
EndNote
RefWorks
TxT

模型	主干网络	参数量/M	NYUDepthv2	SUN-RGBD
TokenFusion	MiT-B2	26.0	480×640	55.2	53.3	—	530×730	71.1	—	—
TokenFusion	MiT-B3	45.9	480×640	94.4	54.2	—	530×730	122.1	—	—
CMX	MiT-B2	66.6	480×640	67.6	54.4	79.9	530×730	86.3	49.7	82.8
CMX	MiT-B4	139.9	480×640	134.3	56.3	79.9	530×730	173.8	52.1	83.5
CMX	MiT-B5	181.1	480×640	167.8	56.9	80.1	530×730	217.6	52.4	83.8
CMNext	MiT-B4	119.6	480×640	131.9	56.9	—	530×730	170.3	51.9	—
DFormer	DFormer-T	6.0	480×640	11.8	51.8	—	530×730	15.1	48.8	—
DFormer	DFormer-S	18.7	480×640	25.6	53.6	—	530×730	33.0	50.0	—
DFormer	DFormer-B	29.5	480×640	41.9	55.6	—	530×730	54.1	51.2	—
DFormer	DFormer-L	39.0	480×640	65.7	57.2	—	530×730	83.3	52.5	—
AFRF-Seg	MiT-B2	73.0	480×640	56.3	55.8	79.7	530×730	72.3	50.9	83.3
AFRF-Seg	MiT-B3	112.6	480×640	91.1	57.4	80.5	530×730	117.6	52.1	83.6

模型

主干网络

参数量/M

NYUDepthv2

SUN-RGBD

输入尺寸

运算量/G

mIoU/%

PA/%

输入尺寸

运算量/G

mIoU/%

PA/%

TokenFusion

MiT-B2

26.0

480×640

55.2

53.3

—

530×730

71.1

—

TokenFusion

MiT-B3

45.9

480×640

94.4

54.2

—

530×730

122.1

—

CMX

MiT-B2

66.6

480×640

67.6

54.4

79.9

530×730

86.3

49.7

82.8

CMX

MiT-B4

139.9

480×640

134.3

56.3

79.9

530×730

173.8

52.1

83.5

CMX

MiT-B5

181.1

480×640

167.8

56.9

80.1

530×730

217.6

52.4

83.8

CMNext

MiT-B4

119.6

480×640

131.9

56.9

—

530×730

170.3

51.9

—

DFormer

DFormer-T

6.0

480×640

11.8

51.8

—

530×730

15.1

48.8

—

DFormer

DFormer-S

18.7

480×640

25.6

53.6

—

530×730

33.0

50.0

—

DFormer

DFormer-B

29.5

480×640

41.9

55.6

—

530×730

54.1

51.2

—

DFormer

DFormer-L

39.0

480×640

65.7

57.2

—

530×730

83.3

52.5

—

AFRF-Seg

MiT-B2

73.0

480×640

56.3

55.8

79.7

530×730

72.3

50.9

83.3

AFRF-Seg

MiT-B3

112.6

480×640

91.1

57.4

80.5

530×730

117.6

52.1

83.6

校正模块	融合模块	参数量/M	mIoU/%	PA/%
—	相加	61.0	53.4	78.5
CM-FRM	相加	71.1	54.4	78.8
AFR	相加	69.9	54.9	78.8
—	FFM	67.6	54.2	78.7
—	AFF	64.1	54.6	78.9
CM-FRM	FFM	77.6	55.0	79.2
AFR	AFF	73.0	55.8	79.7

校正模块

融合模块

参数量/M

mIoU/%

PA/%

—

相加

61.0

53.4

78.5

CM-FRM

相加

71.1

54.4

78.8

AFR

相加

69.9

54.9

78.8

—

FFM

67.6

54.2

78.7

—

AFF

64.1

54.6

78.9

CM-FRM

FFM

77.6

55.0

79.2

AFR

AFF

73.0

55.8

79.7

k₁×k₂	评价指标
阶段1	阶段2	阶段3	阶段4	mIoU	PA
7×7	7×7	7×7	7×7	54.2	78.2
56×56	28×28	14×14	7×7	55.5	79.2
24×32	12×16	6×8	3×4	55.8	79.7

k₁×k₂

评价指标

阶段1

阶段2

阶段3

阶段4

mIoU

7×7

54.2

78.2

56×56

28×28

14×14

7×7

55.5

79.2

24×32

12×16

6×8

3×4

55.8

79.7

解码器	参数量/M	mIoU/%	PA/%
MLPDecoder	62.0	54.7	78.8
Hamburger^*	66.7	55.5	79.3
Hamburger	67.9	55.3	79.1
所提解码器^*	72.5	55.5	79.4
所提解码器	73.0	55.8	79.7

解码器

参数量/M

mIoU/%

PA/%

MLPDecoder

62.0

54.7

78.8

Hamburger^*

66.7

55.5

79.3

Hamburger

67.9

55.3

79.1

所提解码器^*

72.5

55.5

79.4

所提解码器

73.0

55.8

79.7

对抗性训练	参数量/M	mIoU/%	PA/%
×	73.0	55.5	79.5
√	73.0	55.8	79.7

对抗性训练

参数量/M

mIoU/%

PA/%

73.0

55.5

79.5

√

73.0

55.8

79.7