北京邮电大学学报

基线模型	LAB	LPM	SFB	D_dice	D_hd95
√	—	—	—	0.892	4.285
√	√	—	—	0.908	3.750
√	—	—	√	0.905	4.206
√	√	—	√	0.911	3.345
√	√	√	—	0.914	3.381
√	√	√	√	0.922	2.876

基线模型	LAB	LPM	SFB	D_dice	D_hd95
√	—	—	—	0.892	4.285
√	√	—	—	0.908	3.750
√	—	—	√	0.905	4.206
√	√	—	√	0.911	3.345
√	√	√	—	0.914	3.381
√	√	√	√	0.922	2.876

方法	Param/M	FLOPs/G	D_dice
V-Net	9.450	100.760	0.874	0.883	0.870	0.875
NestFormer	10.290	209.020	0.922	0.926	0.895	0.914
UNETR	148.560	41.190	0.915	0.895	0.896	0.902
UNETR++	19.979	137.520	0.926	0.916	0.900	0.914
ADHDC-Net	0.300	25.800	0.785	0.860	0.834	0.826
TransBTS	30.630	177.740	0.827	0.841	0.839	0.836
3D UX-Net	10.310	389.700	0.928	0.919	0.898	0.915
笔者方法	0.980	54.600	0.931	0.922	0.912	0.922

方法	Param/M	FLOPs/G	D_dice
V-Net	9.450	100.760	0.874	0.883	0.870	0.875
NestFormer	10.290	209.020	0.922	0.926	0.895	0.914
UNETR	148.560	41.190	0.915	0.895	0.896	0.902
UNETR++	19.979	137.520	0.926	0.916	0.900	0.914
ADHDC-Net	0.300	25.800	0.785	0.860	0.834	0.826
TransBTS	30.630	177.740	0.827	0.841	0.839	0.836
3D UX-Net	10.310	389.700	0.928	0.919	0.898	0.915
笔者方法	0.980	54.600	0.931	0.922	0.912	0.922

方法	D_hd95
V-Net	6.453	4.500	2.490	4.481
NestFormer	3.266	3.262	2.038	2.855
UNETR	5.322	5.075	2.626	4.341
UNETR++	4.411	4.464	3.118	3.998
ADHDC-Net	12.703	10.072	4.798	9.191
TransBTS	12.584	16.852	13.083	14.173
3D UX-Net	3.731	2.781	2.062	2.858
笔者方法	4.258	2.670	1.700	2.876

方法	D_hd95
V-Net	6.453	4.500	2.490	4.481
NestFormer	3.266	3.262	2.038	2.855
UNETR	5.322	5.075	2.626	4.341
UNETR++	4.411	4.464	3.118	3.998
ADHDC-Net	12.703	10.072	4.798	9.191
TransBTS	12.584	16.852	13.083	14.173
3D UX-Net	3.731	2.781	2.062	2.858
笔者方法	4.258	2.670	1.700	2.876

方法	D_dice
V-Net	0.895	0.879	0.869	0.881
NestFormer	0.900	0.882	0.859	0.880
ADHDC-Net	0.845	0.861	0.823	0.843
TransBTS	0.823	0.838	0.818	0.827
笔者方法	0.905	0.900	0.882	0.896

方法	D_dice
V-Net	0.895	0.879	0.869	0.881
NestFormer	0.900	0.882	0.859	0.880
ADHDC-Net	0.845	0.861	0.823	0.843
TransBTS	0.823	0.838	0.818	0.827
笔者方法	0.905	0.900	0.882	0.896

方法	D_hd95
V-Net	9.208	5.668	4.182	6.353
NestFormer	7.298	5.492	3.387	5.392
ADHDC-Net	9.724	9.467	7.630	8.940
TransBTS	12.534	14.142	9.586	12.087
笔者方法	6.196	4.353	3.364	4.638

方法	D_hd95
V-Net	9.208	5.668	4.182	6.353
NestFormer	7.298	5.492	3.387	5.392
ADHDC-Net	9.724	9.467	7.630	8.940
TransBTS	12.534	14.142	9.586	12.087
笔者方法	6.196	4.353	3.364	4.638

基于Transformer的轻量级脑肿瘤图像分割算法

PDF下载

侯蓓蓓 , 关赛宗 , 王亚敏

北京邮电大学学报 | 研究报告 2025,48(5): 151-158

收起

北京邮电大学学报 | 研究报告 2025, 48(5): 151-158

基于Transformer的轻量级脑肿瘤图像分割算法

全屏

侯蓓蓓, 关赛宗, 王亚敏

作者信息

河南理工大学　计算机科学与技术学院，焦作　454000

侯蓓蓓（1992—），女，讲师，硕士生导师，邮箱：houbeibei0120@hpu.edu.cn。

Lightweight Brain Tumor Image Segmentation Algorithm Based on Transformer

Beibei HOU, Saizong GUAN, Yamin WANG

Affiliations

School of Computer Science and Technology, Henan Polytechnic University, Jiaozuo 454000

doi: 10.13190/j.jbupt.2024-169

文章导航

摘要

收起

脑肿瘤分割是医学图像分析领域的关键任务，且脑肿瘤及其亚区域具有复杂和不规则的边界结构。针对现有脑肿瘤分割算法在建模长距离依赖和资源开销方面的不足，提出了一种轻量级的脑肿瘤图像分割算法。具体而言，设计了一种融合卷积神经网络（CNN）与Transformer的混合轻量级编码器。在浅层特征提取阶段引入深度可分离卷积，以降低计算复杂度；在深层特征提取阶段，提出局部-全局双分支特征提取模块（SFB），结合Transformer与ShuffleNet v2的优势，实现局部与全局上下文信息的融合。此外，在Transformer模块中引入轻量级全局注意力模块和局部感知模块，分别用于建模长距离依赖关系和增强局部特征感知能力。最后，在BraTS 2019数据集上进行了充分的实验。实验结果表明，该模型在仅使用0.98M参数量和54.60G每秒浮点运算次数的条件下，分别在整体肿瘤（WT）、肿瘤核心（TC）和增强肿瘤（ET）区域达到了93.1%、92.2%和91.2%的戴斯相似性系数。在保持极低计算成本的同时，模型在各关键区域的分割精度整体优于现有主流方法，实现了在效率与性能之间的最佳权衡。

关键词

轻量级 / Transformer / 脑肿瘤 / 图像分割

Abstract

收起

Brain tumor segmentation is a key task in medical image analysis due to the heterogeneous and irregular nature of tumor regions. To address the limitations of existing methods in modeling long-range dependencies and reducing resource consumption, we propose a lightweight segmentation model based on a hybrid convolutional neural network (CNN) and Transformer encoder. Depthwise separable convolutions are employed in shallow layers to reduce computation, while the proposed shuffle former block (SFB) integrates Transformer and ShuffleNet v2 to effectively capture both global and local context. Furthermore, lightweightattention modules are introduced to model long-range dependencies and enhance local perception. Experimental results on the BraTS 2019 dataset demonstrate that our model achieves Dice scores of 93.1% in whole tumor (WT) , 92.2% in tumor core (TC) , and 91.2% in enhancing tumor (ET) , with only 0.98M parameters and 54.60G floating point operations per second, achieving a superior balance between segmentation accuracy and computational efficiency for deployment in resource-constrained clinical settings.

Key words

lightweight / Transformer / brain tumors / image segmentation

引用本文

侯蓓蓓, 关赛宗, 王亚敏. 基于Transformer的轻量级脑肿瘤图像分割算法. 北京邮电大学学报, 2025 , 48 (5) : 151 -158 . DOI: 10.13190/j.jbupt.2024-169

Beibei HOU, Saizong GUAN, Yamin WANG. Lightweight Brain Tumor Image Segmentation Algorithm Based on Transformer[J]. Journal of Beijing University of Posts and Telecommunications, 2025 , 48 (5) : 151 -158 . DOI: 10.13190/j.jbupt.2024-169

正文

收起

在医学图像分析的各种任务中，脑肿瘤分割引起了研究界的广泛关注^[1]。脑胶质瘤由于其症状隐蔽，且脑组织的特殊性质限制了手术和治疗方法，导致高发病率和致死率^[2]。核磁共振成像（MRI，magnetic resonance imaging）在脑部肿瘤的诊断和治疗方面发挥着重要作用。临床上，常用的MRI序列有t1，t2，t1ce，flair，这些序列提供了丰富的互补信息。通常，脑胶质瘤包含水肿区域、坏死核心与非增强肿瘤核心区域、增强肿瘤核心区域^[3]。通过脑部多模态3维磁共振自动、准确地分割这些恶性肿瘤，对于临床诊断具有重要意义^[4]。

近年来，卷积神经网络（CNN，convolutional neural networks）已广泛应用于图像分割领域^[5]。U型网络（U-Net，u network）^[6]是在全卷积神经网络^[7]的基础上采用对称的编-解码结构，显著提高医学图像分割精度。许多U-Net的变体，如U-Net++ ^[8]，Attention U-Net^[9]，Res-UNet^[10]等网络，均取得了良好的性能。但由于CNN的局部感受野，模型的全局上下文信息提取能力有限。基于此，分割Transformer（SETR，segmentation transformer）^[11]、Segmenter^[12]、检测Transformer（DETR，detection transformer）^[13]等模型使用Transformer结构代替堆叠卷积层，捕获长距离依赖关系。然而在分割中，局部特征和全局特征都至关重要^[14]。因此，学者们提出了结合CNN和Transformer^[15]的方法。TransUNet^[16]、TransFuse^[17]、基于Transformer的脑肿瘤分割网络（TransBTS，transformer for brain tumor segmentation）^[18]、Swin-UNet^[19]、收缩3重注意力（STA-Former，shrinkage triplet attention in a hybrid CNN-transformer model）^[20]等模型通过3维CNN在体积空间上提取局部特征，将每个体素作为Token输入Transformer进行全局特征建模，实现对3维图像的全分辨率分割。但是，由于模型参数庞大、计算成本高、内存占用量大等问题，限制了它们在移动医疗应用等场景中的可行性。在此背景下，MobileNet^[21]、ShuffleNet^[22]、Mobile-Former^[23]、SeaFormer^[24]等轻量化模型通过各种策略实现语义分割任务中精度和推理延迟之间的有效权衡。然而Transformer中的自注意力机制在处理长序列时存在较高的时间和空间复杂度。

针对上述问题，提出了一种基于Transformer的轻量级脑肿瘤3维分割算法。算法采用轻量级的编码器，分为浅层特征提取和深层特征提取2部分。在浅层特征提取阶段，采用了深度可分离卷积。在深层特征提取阶段中引入了局部-全局双分支特征提取模块（SFB，shuffle former block），将Transformer与ShuffleNet v2相结合。此外，在Transformer模块中引入轻量级的注意力模块和局部感知模块，分别用来捕获长距离依赖关系和强化局部特征感知。进一步提升了在实际应用中的效果和性能。所提算法模型架构如图1所示。

1　算法描述

收起

1.1　局部-全局双分支特征提取模块

在图1中，编码器逐渐将输入图像编码为高级特征，输入图像的尺寸（D，W，H）逐渐缩小为（D/16，W/16，H/16），通道维度C = 4最终变为C= 128。编码器分为浅层特征提取、深层特征提取2部分。为减少模型计算复杂度，在浅层特征提取阶段，模型使用3×3×3（步长为1）的深度可分离卷积（DWConv，depthwise separable convolution）对多模态融合数据进行初步特征提取，可表示为

对于给定的输入图像X₀，通过浅层特征提取操作f₀（·），得到图像的初始特征矩阵X∈R^C×D×W×H。为了更好地集成局部和全局语义信息，在深层特征提取阶段，所提模型使用了局部-全局双分支特征提取模块SFB。通过改进ShuffleNet v2下采样架构，使用MetaFormer^[25]架构替代左分支的卷积，目的是在获得局部信息的同时，也能捕获全局上下文信息。MetaFormer作为从Transformer中抽象出来的通用架构，通过不指定具体的Token混合器，为研究者提供了一种新的思路。

SFB右分支使用了1×1×1Conv，3×3×3 DWConv，1×1×1Conv来获取输入特征的局部信息。左分支使用块嵌入和Transformer模块来获取全局上下文信息。定义经过2条分支得到的特征矩阵分别是X，Y∈R^C×D×W×H，SFB使用拼接融合了2条分支的局部信息和全局上下文信息：

其中：S_huffle表示通道混洗操作，C_oncat表示拼接操作，随后通过S_E注意力机制调整每个通道的权重，最终获得特征Z。

最后，使用1×1×1卷积来降低输入特征图的深度，减小计算复杂度，降低网络参数量，得到最终特征矩阵Z′为

1.2　Transformer模块

为了在SFB中构建轻量且快速的Transformer分支，所提模型基于MetaFormer架构提出了一种新的Transformer模块。如图2所示，Transformer模块由局部感知模块（LPM，local perception module）和长距离注意力模块（LAB，long-distance attention block）堆叠构成。

给定输入特征I，首先经过块嵌入层，通过使用3维卷积操作，使用了2×2×2的卷积核，步幅为2，映射为嵌入向量X∈R^C×D×W×H：

其中E_mb表示块嵌入。

LAB保留了MetaFormer的部署优势，在保证模型轻量的同时，也获得了Transformer块的优秀性能。LAB部分是为了建模长距离依赖关系而设计的，它引入了一种通道与空间注意力联合模块（CSM，channel-spatial module），将特征提取在通道和空间上分开进行。这种设计使得模型能够更好地理解数据中的全局上下文信息，并且能够关注对当前任务更为重要的区域。LAB可以表述为

其中：L_N表示归一化层，LAB遵循MetaFormer的通用架构，C_SM是MetaFormer架构中基于注意力的令牌混合器模块，用数学表达式表示为

其中：L（X）表示上下文分支，W_k表示上下文建模，W_ν1，W_ν2表示1×1×1卷积运算，g（X）表示空间分支，其中A_P表示平均池化。

为了解决Transformer容易忽视局部信息的问题，提出LPM模块。LPM使用残差结构和深度可分离卷积操作来捕捉图像中的局部信息。给定输入特征矩阵X，输出特征矩阵Z：

其中：D_w表示分组卷积，分组数等于通道数，P_w使用1×1×1的卷积核对深度上的每个位置进行卷积。总之，LPM是在保持计算效率的同时，提高模型对输入数据的局部特征提取能力，确保图像细节不会在层层传递中被模糊或丢失。

最后，采用了LPM×2 +LAB×2的堆叠策略，实现了局部和全局信息的融合。

2　实验及分析

收起

2.1　实验环境

所有实验均在NVIDIA GeForce RTX 3090图形处理器（GPU，graphics processing unit）硬件平台上进行，并采用PyTorch 1.12.1深度学习框架以构建和评估所提出的算法模型。鉴于3维医学数据的复杂性，原始数据被裁剪至192×192×140。在训练阶段，通过实施数据增强策略（包括随机裁剪、翻转、强度偏移、缩放等）提升模型的鲁棒性。模型的输入数据和网络输出的尺寸均统一设置为128×128×128。模型的分割结果通过3线性插值方法恢复到裁剪前的原始尺寸（192×192×140），并与相同尺寸的标签图像（192×192×140）进行对比，进而计算各项性能指标。由于受到GPU内存限制，实验选择了较小的批大小，设定为2进行模型训练，总的训练周期为300。优化器选用随机梯度下降优化器，其初始学习率设置为0.001。

2.2　数据集和评估指标

实验使用官方的BraTS 2019、BraTS 2020和BraTS 2021的数据集进行训练和验证，标签结果为整体肿瘤（WT，whole tumor）、肿瘤中心（TC，tumor core）和增强肿瘤（ET，enhancing tumor）。

由于BraTS 2019的训练集在BraTS 2018的基础上增加了50例数据，实验将BraTS 2018数据集随机分为训练集（256）、验证集（29），并将新增的50例数据作为测试集。另外，使用了BraTS 2020数据集进行训练，从BraTS 2021数据集中随机抽取了50个病例作为独立验证集。

对于医学图像，戴斯相似性系数（D_dice，Dice similarity coefficient）对mask的内部填充比较敏感，而95%豪斯多夫距离（D_hd95，95% Hausdorff distance）对分割出的边界比较敏感。因此，实验同时使用D_dice和D_hd95来评价分割精度。

D_dice是一种常用的评估图像分割算法精度的指标，特别是在医学图像分割中，其表达式为

其中：P和T分别表示预测和真实的肿瘤区域，|P|和|T|分别表示预测和真实肿瘤区域的像素数。D_dice越接近1，表示预测和真实的结果越相似。

D_hd95则是另一种评价图像分割算法精度的指标，它衡量的是2个非空点集之间的最远距离。在图像分割中，其表达式为

其中h₉₅（P，T）表示从预测肿瘤区域P到真实肿瘤区域T的豪斯多夫距离的95th百分位数：

其中d（p，t）表示点p和点t之间的欧氏距离。

2.3　消融实验结果

为了验证所提算法对类别不平衡的脑肿瘤图像分割的有效性，在BraTS 2019数据集上进行消融实验，评估了不同模块对模型性能的影响。基线模型在MetaFormer的基础上进行了改进和扩展，采用了MetaFormer作为编码器，并增加了相应的解码器模块。

由表1可知，基线模型的D_dice为0.892，D_hd95为4.285。基线模型加入SFB架构后，D_dice升至0.905，D_hd95降至4.206。在基线模型中引入LAB模块，D_dice升至0.908，D_hd95降至3.750。

当同时加入LAB和SFB模块时，模型性能进一步提升，D_dice为0.911，D_hd95为3.345。同时，引入LAB和LPM模块，D_dice为0.914，D_hd95为3.381。最后，当加入所有模块时，模型性能达到最佳，D_dice为0.922，D_hd95降至2.876。以上结果表明，所提算法的每个模块均对提高模型性能具有显著贡献。

2.4　对比实验结果

为了验证所提算法的有效性，所提算法与V型网络（V-Net，v-shaped network）^[26]、TransBTS、NestFormer^[27]、U型Transformer（UNETR，u-net transformer）^[28]、伴注意力的扩张分层解耦卷积网络（ADHDC-Net，dilated hierarchical decoupled convolution network withattention）^[29]、3维轻量化卷积网络（3D UX-Net，3 dimensional lightweight convnet）^[30]和UNETR + + ^[31]算法在相同的数据集和实验环境下进行实验对比，结果如表2～表5所示。

由表2可知，所提算法在WT，TC，ET上分别取得了93.1%，92.2%和91.2%的D_dice，平均D_dice为92.2%，总体优于其他几种算法。平均D_dice比V-Net，TransBTS，NestFormer，UNETR，ADHDC-Net，3D UX-Net和UNETR++算法分别领先了4.7%，8.6%，0.8%，2.0%，9.6%，0.7%和0.8%。在TC区域NestFormer表现最佳，为91.4%。在模型复杂度方面，虽然ADHDC-Net仅使用0.30M参数25.80G浮点运算，但是由于ADHDC-Net只关注局部特征信息，导致分割性能较低。相比而言，所提算法模型的参数数量（Param，parametres）和每秒浮点操作数（FLOPs，floating-point operations per second）在相差不大的同时，仅使用了0.98M参数和54.60G FLOPs达到了更高的性能指标。

由表3可知，所提算法在3个区域上的D_hd95分别为4.258，2.670和1.700。其中，平均D_hd95为2.876，与最优的NestFormer相差0.021。这可能因为NestFormer使用了嵌套模态感知特征聚合模块来实现多模态融合。但是，这加大了模型的复杂度，相比而言，所提算法具有较少的参数数量和计算复杂度，在提高分割性能的同时，保持了较高的效率。

由表4和表5可知，所提算法在BraTS 2020数据集进行训练，在BraTS 2021数据集随机抽取的50例验证表明，所提算法在3个区域的D_dice和D_hd95均表现最优。实验说明，所提算法在脑肿瘤分割中的性能更为鲁棒，更为准确。

如图3所示，可以清楚地观察到所提算法在BraTS 2019测试集中的50个样本在WT，TC，ET上的D_dice。其中，3个区域的中位数分别达到94%，96%，93%。外部包裹的就是核密度图，区域对应图形面积越大，该区域值附近分布的概率越大，可以看出，模型的结果具有较高的可靠性，不太容易出现偶然性的波动。

2.5　可视化结果分析

如图4所示，使用可视化软件ITK-SNAP对比所提算法与V-Net，TransBTS，NestFormer，UNETR这4种算法在BraTS 2019数据集上的分割掩膜与标签掩膜。图4中绿色为浮肿区域（ED，peritumoral edema）、黄色为ET、红色为坏疽（NET，necrotic and non-enhancing tumor）。可以发现，所提算法在脑肿瘤及瘤周水肿区域分割上更接近标签。通过引入LAB和LPM模块，模型有效捕获长距离依赖与局部特征，结合SFB融合局部与全局语义信息，从而提升分割精度与结果质量。

如图5所示，所提算法与TransBTS，UNETR等算法的分割结果在随机2维切片60层和70层中进行差异热力图对比，蓝色区域集中显示了模型分割结果与标签不一致的部分。对于其他算法，蓝色区域较为明显且范围更广，特别是在肿瘤边界复杂或形状不规则的区域，分割误差较大。而所提算法的热力图中蓝色部分显著减少，说明模型在这些区域的分割更精确，特别是在边界和关键区域对标签的拟合度更高。

3　结束语

收起

针对脑肿瘤图像分割的需求，提出了一种基于Transformer的轻量级3维医学图像分割算法，通过结合CNN和Transformer的优点，实现了快速、准确的分割。模型仅使用0.98M参数和54.60G浮点运算，在BraTS 2019数据集上WT，TC和ET的戴斯系数分别达到93.1%，92.2%和91.2%。编码器采用2阶段设计：在浅层特征提取阶段，采用深度可分离卷积进行初步特征提取；在深层特征提取阶段，使用SFB同时获取图像的局部信息和全局上下文信息。总体而言，所提算法在保持分割性能的同时，有效降低了计算成本，适用于脑肿瘤分割的移动端应用场景。下一步将探索将Mamba机制引入模型中，以增强模型对长程依赖的建模能力。

参考文献

收起

文献

收起

参考文献引证文献

排序方式：

[1]

LIU

, TONG

, CHEN

, et al. Deep learning based brain tumor segmentation: A survey[J]. Complex and Intelligent Systems, 2023, 9(1): 1001-1026.

[2]

MILLER

K D

, OSTROM

Q T

, KRUCHKO

, et al. Brain and other central nervous system tumor statistics[J]. CA: A Cancer Journal for Clinicians, 2021, 71(5): 381-406.

[3]

褚晶辉,李晓川,张佳琪,等.一种基于级联卷积网络的三维脑肿瘤精细分割[J].激光与光电子学进展, 2019, 56(10): 67-76.

CHU

J H

, LI

X C

, ZHANG

J Q

, et al. A fine segmentation method for 3D brain tumors based on cascaded convolutional networks[J]. Laser and Optoelectronics Progress, 2019, 56(10): 67-76.

[4]

ZHU

, SUN

, QI

, et al. Sparse dynamic volume TransUNet with multi-level edge fusion for brain tumor segmentation[J]. Computers in Biology and Medicine, 2024: 108284.

[5]

ISM

, DIREKOˇGLU

, ŞAH

. Review of MRI-based brain tumor image segmentation using deep learning methods[J]. Procedia Computer Science, 2016, 102: 317-324.

[6]

RONNEBERGER

, FISCHER

, BROX

. U-Net:Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015: 18th International Conference, Munich, Germany, Oct 5-9, 2015, Proceedings, Part III 18, Springer International Publishing, 2015:234-241.

[7]

LONG

, SHELHAMER

, DARRELL

. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.

[8]

ZHOU

, RAHMAN

S M M

, TAJBAKHSH

, et al. U-Net + +: A nested U-Net architecture for medical image segmentation[C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support: 4th International Workshop, DLMIA 2018, and 8th International Workshop, ML-CDS 2018, Held in Conjunction with MICCAI 2018, Granada, Spain, September 20, 2018, Proceedings 4, Springer International Publishing, 2018: 3-11.

[9]

OKTAY

, SCHLEMPER

, FOLGOC

L L

, et al. Attention U-Net: Learning where to look for the pancreas[J]. arXiv preprint arXiv: 1804.03999, 2018.

[10]

ZHANG

, LIU

, WANG

. Road extraction by deep residual U-Net[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(5): 749-753.

[11]

ZHENG

, LU

, ZHAO

, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 6881-6890.

[12]

STRUDEL

, GARCIA

, LAPTEV

, et al. Segmenter: Transformer for semantic segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 7262-7272.

[13]

CARION

, MASSA

, SYNNAEVE

, et al. End-toend object detection with transformers[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 213-229.

[14]

HEIDARI

, KAZEROUNI

, SOLTANY

, et al. Hiformer: Hierarchical multi-scale representations using transformers for medical image segmentation[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2023: 6202-6212.

[15]

DOSOVITSKIY

, BEYER

, KOLESNIKOV

, et al. An image is worth 16 ×16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

[16]

CHEN

, LU

, YU

, et al. Transunet: Transformers make strong encoders for medical image segmentation[J]. arXiv preprint arXiv: 2102.04306, 2021.

[17]

ZHANG

, LIU

, HU

. Transfuse: Fusing transformers and CNNs for medical image segmentation[C]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2021: 24th International Conference, Strasbourg, France, Sep 27-Oct 1, 2021, Proceedings, Part I 24, Springer International Publishing, 2021: 14-24.

[18]

WENXUAN

, CHEN

, et al. Transbts: Multimodal brain tumor segmentation using transformer[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2021: 109-119.

[19]

CAO

, WANG

, CHEN

, et al. Swin-UNet: U-Netlike pure transformer for medical image segmentation[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 205-218.

[20]

LIU

, HAN

, YAO

, et al. STA-former: Enhancing medical image segmentation with shrinkage triplet attention in a hybrid CNN-transformer model[J]. Signal, Image and Video Processing, 2024, 18 (2): 1901-1910.

[21]

HOWARD

A G

, ZHU

, CHEN

, et al. Mobilenets:Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv: 1704.04861, 2017.

[22]

ZHANG

, ZHOU

, LIN

, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6848-6856.

[23]

CHEN

, DAI

, CHEN

, et al. Mobile-former:Bridging mobilenet and transformer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 5270-5279.

[24]

WAN

, HUANG

, LU

, et al. Seaformer: Squeeze enhanced axial transformer for mobile semantic segmentation[J]. arXiv preprint arXiv: 2301.13156, 2023.

[25]

, LUO

, ZHOU

, et al. Metaformer is actually what you need for vision[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 10819-10829.

[26]

MILLETARI

, NAVAB

, AHMADI

S A

. V-Net:Fully convolutional neural networks for volumetric medical image segmentation[C]//2016 Fourth International Conference on 3D Vision (3DV), IEEE, 2016: 565-571.

[27]

XING

, YU

, WAN

, et al. NestedFormer: Nested modality-aware transformer for brain tumor segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham:Springer Nature Switzerland, 2022: 140-150.

[28]

HATAMIZADEH

, TANG

, NATH

, et al. UNE-TR: Transformers for 3D medical image segmentation[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2022: 574-584.

[29]

LIU

, HUO

, LI

, et al. Multiscale lightweight 3D segmentation algorithm with attention mechanism: Brain tumor image segmentation[J]. Expert Systems with Applications, 2023, 214: 119166.

[30]

LEE

H H

, BAO

, HUO

, et al. 3D UX-Net: A large kernel volumetric convnet modernizing hierarchical transformer for medical image segmentation[J]. arXiv preprint arXiv: 2209.15076, 2022.

[31]

SHAKER

A M

, MAAZ

, RASHEED

, et al. UNETR ++: Delving into efficient and accurate 3D medical image segmentation[J]. IEEE Transactions on Medical Imaging, 2024, 43(9): 3377-3390.

2025年第48卷第5期

PDF下载

116

引用本文

BibTeX

文章信息

doi: 10.13190/j.jbupt.2024-169

接收时间：2024-08-18
首发时间：2026-04-16

补充材料

相关文章

文章信息

作者

出版历史

收稿日期：2024-08-18

基金

作者信息

河南理工大学　计算机科学与技术学院，焦作　454000

参考文献

分享链接

https://castjournals.cast.org.cn/joweb/bjyddxxb/CN/10.13190/j.jbupt.2024-169

分享至

全文二维码

扫描看全文

引用本文

BibTeX

本文的引用情况

2种不同金属材料的力学参数

科 Family	属数 Number of genus	种数 Number of species	占总种数比例 Percentage of total species (%)	属 Genus	种数 Number of species	占总种数比例 Percentage of total species (%)
鹅膏菌科Amanitaceae	2	11	5.26	鹅膏菌属 Amanita	10	4.78
小菇科 Mycenaceae	2	12	5.74	丝盖伞属 Inocybe	5	2.39
多孔菌科 Polyporaceae	8	14	6.70	蜡蘑属 Laccaria	5	2.39
红菇科 Russulaceae	3	23	11.00	小皮伞属 Marasmius	6	2.87
				小菇属 Mycena	11	5.26
				光柄菇属 Pluteus	5	2.39
				红菇属 Russula	17	8.13
				栓菌属 Trametes	5	2.39

关闭全屏

BibTeX
EndNote
RefWorks
TxT

基线模型	LAB	LPM	SFB	D_dice	D_hd95
√	—	—	—	0.892	4.285
√	√	—	—	0.908	3.750
√	—	—	√	0.905	4.206
√	√	—	√	0.911	3.345
√	√	√	—	0.914	3.381
√	√	√	√	0.922	2.876

基线模型

LAB

LPM

SFB

D_dice

D_hd95

√

—

0.892

4.285

√

—

0.908

3.750

√

—

√

0.905

4.206

√

—

√

0.911

3.345

√

—

0.914

3.381

√

0.922

2.876

方法	Param/M	FLOPs/G	D_dice
V-Net	9.450	100.760	0.874	0.883	0.870	0.875
NestFormer	10.290	209.020	0.922	0.926	0.895	0.914
UNETR	148.560	41.190	0.915	0.895	0.896	0.902
UNETR++	19.979	137.520	0.926	0.916	0.900	0.914
ADHDC-Net	0.300	25.800	0.785	0.860	0.834	0.826
TransBTS	30.630	177.740	0.827	0.841	0.839	0.836
3D UX-Net	10.310	389.700	0.928	0.919	0.898	0.915
笔者方法	0.980	54.600	0.931	0.922	0.912	0.922

方法

Param/M

FLOPs/G

D_dice

均值

V-Net

9.450

100.760

0.874

0.883

0.870

0.875

NestFormer

10.290

209.020

0.922

0.926

0.895

0.914

UNETR

148.560

41.190

0.915

0.895

0.896

0.902

UNETR++

19.979

137.520

0.926

0.916

0.900

0.914

ADHDC-Net

0.300

25.800

0.785

0.860

0.834

0.826

TransBTS

30.630

177.740

0.827

0.841

0.839

0.836

3D UX-Net

10.310

389.700

0.928

0.919

0.898

0.915

笔者方法

0.980

54.600

0.931

0.922

0.912

0.922

方法	D_hd95
V-Net	6.453	4.500	2.490	4.481
NestFormer	3.266	3.262	2.038	2.855
UNETR	5.322	5.075	2.626	4.341
UNETR++	4.411	4.464	3.118	3.998
ADHDC-Net	12.703	10.072	4.798	9.191
TransBTS	12.584	16.852	13.083	14.173
3D UX-Net	3.731	2.781	2.062	2.858
笔者方法	4.258	2.670	1.700	2.876

方法

D_hd95

均值

V-Net

6.453

4.500

2.490

4.481

NestFormer

3.266

3.262

2.038

2.855

UNETR

5.322

5.075

2.626

4.341

UNETR++

4.411

4.464

3.118

3.998

ADHDC-Net

12.703

10.072

4.798

9.191

TransBTS

12.584

16.852

13.083

14.173

3D UX-Net

3.731

2.781

2.062

2.858

笔者方法

4.258

2.670

1.700

2.876

方法	D_dice
V-Net	0.895	0.879	0.869	0.881
NestFormer	0.900	0.882	0.859	0.880
ADHDC-Net	0.845	0.861	0.823	0.843
TransBTS	0.823	0.838	0.818	0.827
笔者方法	0.905	0.900	0.882	0.896

方法

D_dice

均值

V-Net

0.895

0.879

0.869

0.881

NestFormer

0.900

0.882

0.859

0.880

ADHDC-Net

0.845

0.861

0.823

0.843

TransBTS

0.823

0.838

0.818

0.827

笔者方法

0.905

0.900

0.882

0.896

方法	D_hd95
V-Net	9.208	5.668	4.182	6.353
NestFormer	7.298	5.492	3.387	5.392
ADHDC-Net	9.724	9.467	7.630	8.940
TransBTS	12.534	14.142	9.586	12.087
笔者方法	6.196	4.353	3.364	4.638

方法

D_hd95

均值

V-Net

9.208

5.668

4.182

6.353

NestFormer

7.298

5.492

3.387

5.392

ADHDC-Net

9.724

9.467

7.630

8.940

TransBTS

12.534

14.142

9.586

12.087

笔者方法

6.196

4.353

3.364

4.638