Segmentation of lung tumors based on PCU-Net
-
摘要: 深度学习技术可辅助医生进行肿瘤的精准分割。但肺肿瘤与周围组织界限不清楚,现有方法存在分割边缘模糊、模型参数量大等问题。提出一种对轻量级肺肿瘤分割的部分卷积坐标注意力U-net(partial convolution coordinate attention U-net,PCU-Net)算法。引入部分卷积降低模型参数量,同时提升模型特征提取的能力。在U-Net跳跃链接处添加坐标注意力模块,使网络更精准获取肿瘤的位置信息,提高分割精度。研究结果表明,改进的PCU-Net在参数量减少58.57%的同时,Dice值、IoU和Recall分别提高4.22%、4.26%和6.82%。将PCU-Net模型与其他语义分割模型对比显示,PCU-Net的Dice值比其他模型高出3~6百分点。Abstract: Deep learning techniques can assist doctors in precise tumor segmentation. However, existing methods often suffer from issues such as fuzzy segmentation edges and large model parameter counts due to the unclear boundaries between lung tumors and surrounding tissues. A partial convolution coordinate attention U-net (PCU-Net) algorithm for lightweight lung tumor segmentation was proposed. The partial convolution was introduced to reduce model parameters and enhance feature extraction capability. The coordinate attention module was added at skip connection of PCU-Net, so that more precise localization of tumors was achieved by network and segmentation accuracy was improved. The research result shows that the improved PCU-Net can reduce model parameters by 58.57% while increase Dice coefficient, Intersection over Union (IoU) and Recall by 4.22%, 4.26% and 6.82%, respectively. The comparison between PPU-Net and other semantic segmentation models shows that Dice coefficient of PCU-Net is 3-6 percentage points higher than that of other models.
-
2021年,国际癌症研究机构团队在美国癌症学会旗下权威杂志《临床医师癌症杂志》(CA: A Cancer Journal for Clinicians)发表的全球癌症统计报告显示,2020年全球肺癌新发病例220.7万例,死亡病例179.6万例,分别占癌症发病和死亡总数的11.4%和18.0%[1]。目前肺癌可分为小细胞肺癌和非小细胞肺癌两类。其中,非小细胞肺癌约占所有肺癌的85%。放射治疗是当前治疗肺癌最有效的手段之一。在放射治疗的过程中,肺癌肿瘤区域主要由医生手动勾画,费时费力。随着计算机辅助诊断技术的发展,利用图像分割算法辅助医生完成肿瘤区域的分割可以减轻医生负担,提高医生工作效率,使患者更早地接受放射治疗,具有十分重要的意义。
肿瘤分割是医学图像分割领域最主要的任务之一。由于肿瘤在形状、大小上差异较大,与周围组织相似度高,加大了肿瘤分割的难度,对分割模型的性能提出了更高要求。目前,针对肿瘤分割的方法包括基于传统机器学习和基于深度学习的肿瘤分割方法。在基于传统机器学习的肿瘤分割方法中,Soltani-Nabipour等[2]提出一种基于区域生长算法的肺肿瘤分割方法,该算法先根据先验信息限制生长区域并自动检测阈值,随后运行生长算法,在肺肿瘤分割中取得不错的分割效果。Rakesh等[3]将布谷鸟优化算法与主动轮廓法相结合,对肺结节进行粗分割,再使用马尔科夫随机场进行微调。Vorontsov等[4]先使用支持向量机对肝脏进行分割,再使用全方位可变形表面模型对肝脏上的肿瘤进行二次分割。总体而言,基于传统机器学习的肿瘤分割方法需要人工设计提取特征,分割效率低,无法实现肿瘤的自动分割。
随着深度学习技术的发展以及硬件性能的提高,其被广泛应用于医学图像分割任务。Long等[5]提出全卷积神经网络(fully convolutional networks, FCN),实现像素级的分类,开启语义分割的先河,其提出的编解码结构,为后续分割网络设计提供了借鉴。Ronneberger等[6]提出一种对称的语义分割网络U-Net,在小样本数据集中良好表现,并逐渐应用于其他医学分割任务。在U-Net基础上,学者又提出较多改进方法,如V-Net、Attention U-Net、U-Net + + 、Swin U-Net等[7 − 10]。在肿瘤分割领域,以U-Net为代表的深度学习模型发挥了很大作用。Zhou等[11]为了提取肺结节不同模态的特征,提出一种并行U-Net网络,在编码路径中加入混合注意力模块,利用多尺度特征聚合块提取解码路径不同尺度的特征。Jiang等[12]提出多分辨率残差连接网络用于肺肿瘤与肺结节的分割,通过残差连接同时结合多个图像分辨率和特征水平的特征对病灶进行分割。Hossain等[13]提出一种用于肺肿瘤分割的膨胀混合3D卷积网络模型,利用膨胀卷积从2D切片中提取特征图,通过3D卷积融合堆叠的特征图,最后将CT扫描体积中的3D信息整合到输出中。
现有模型大多比较复杂、参数量大。本研究提出一种轻量级分割模型PCU-Net,将U-Net的普通卷积替换为部分卷积(partial convolution, PConv),减少网络的冗余计算和内存访问量,从而有效提取空间特征;引入坐标注意力(coordinate attention, CA)使模型能够融合不同通道之间的信息,更好地定位肺肿瘤的位置;最后将提出的PCU-Net模型应用于肺肿瘤CT数据集,根据分割结果对方法的有效性进行验证。
1. 模型设计
1.1 总体网络结构
PCU-Net模型选用的基准网络为医学图像分割领域中常用的U-Net模型,其具有结构简单、参数量少的优势,能满足医学图像数据量少的特点。在U-Net基础上,首次将部分卷积引入U-Net中,通过将U-Net的普通卷积替换为部分卷积以降低网络参数量,同时提高网络的特征提取能力。将坐标注意力机制添加到U-Net的跳跃链接处,使网络在获取通道信息的同时,更精确定位肺肿瘤的位置,从而提高网络的分割精度。
PCU-Net主要由3部分组成:左半部分为编码器,负责特征的提取;右半部分为解码器,将图像尺寸恢复到输入图像的大小;中间的跳跃连接将浅层特征与深层特征相融合,充分利用上下文的语义信息,提高网络的性能。PCU-Net模型结构如图1所示。
1.2 部分卷积模块
Chen等[14]提出部分卷积方法。由于不同通道之间的特征图具有很高的相似性,这种相似性造成了特征冗余,部分卷积只对部分通道进行卷积操作,减少了信息冗余,有助于模型专注学习数据中的重要特征。普通卷积和部分卷积的结构对比如图2所示。图中,h为特征图的高度;w为特征图的宽度;c为特征图通道数;k为卷积核尺寸;cp为部分输入通道。普通卷积的每秒浮点运算次数(floating-point operations per second, FLOPs)为
h×w×k2×c2 。部分卷积利用特征映射中的冗余性,系统地对cp应用普通卷积,其余的通道保持不变。部分卷积的FLOPs为
h×w×k2×cp2 。当参与卷积的通道cp为普通卷积的1/2时,部分卷积的FLOPs仅为普通卷积的1/4。
此外,部分卷积具有更小的内存访问量,当参与卷积的通道数cp为普通卷积的1/2时,内存访问量为普通卷积的1/2,即
h×w×2cp+k2×cp2≈h×w×2cp (1) 1.3 坐标注意力机制模块
注意力机制的本质是增强感兴趣的信息,抑制无用信息,以提高网络性能。坐标注意力[15]将位置信息嵌入到通道注意力,不仅考虑了通道间关系,也能获取X轴与Y轴的位置信息,从而帮助网络更准确地定位肺肿瘤的位置。坐标注意力机制结构如图3所示。
坐标注意力模块共包含坐标信息嵌入和坐标注意力生成两个部分。其中,坐标信息嵌入对应图中X AvgPool和Y AvgPool,对于输入为C×H×W的特征图X,分别使用大小为(H,1)和(1,W)的池化核对水平方向和垂直方向的每个通道进行编码,从而使注意力块沿着横向空间获取远程依赖关系,在纵向空间保留准确的位置信息,表达式分别为
Zch(h)=1w∑0⩽ (2) {Z_{c}}^w(w) = \frac{1}{H}\sum\limits_{0 \leqslant i \leqslant H}^{} {{x_c}(j,w)} (3) 式中:W、H分别为特征图的宽和高;xc为输入的特征图;Zch(h)为在通道c中对高为h的垂直方向输出特征;Zcw(w)为在通道c中对宽为w的水平方向输出特征。
坐标注意力生成在Concat + Conv2d操作之后。首先将得到的特征图Zch(h)和Zcw(w)在同一维度上聚合,然后经过一个1 × 1的卷积F1改变输出通道数,再经过非线性变换函数δ,得到大小为C/r × 1 × (W+H)的特征图,公式为
f = \delta \left( {F1\left( {\left[ {{{\text{z}}_c}^h,{z_c}^w} \right]} \right)} \right) (4) 将f拆分成两个张量f h和f w后,利用卷积函数F将其通道数调整为C,经过Sigmoid激活函数后,得到水平与垂直方向上的注意力权重gcw和gch,公式为
{g_c}^h = \sigma \left( {{F_h}\left( {{f_h}} \right)} \right) (5) {g_c}^w = \sigma \left( {{F_w}\left( {{f_w}} \right)} \right) (6) 将得到的权重对输入的特征图xc(i,j)进行赋值,即可得到最终输出为
{y_c}\left( {i,j} \right) = {x_c}\left( {i,j} \right) \times {g_c}^h\left( i \right) \times {g_c}^w\left( j \right) (7) 2. 结果及讨论
2.1 数据集介绍
本研究使用的数据由同济大学附属上海市肺科医院提供,包括85例非小细胞肺癌CT图像,格式为DICOM,图像分辨率均为512像素×512像素。为保证肿瘤区域的标注质量,该数据集的标签均由经验丰富的医生手动标注。为便于后续试验开展,85例病人数据随机划分:训练集51例,共711张CT图像;验证集17例,共196张CT图像;测试集17例,共199张CT图像。随机患者的CT图像及对应标签如图4所示。
2.2 评价指标和试验环境
为评估PCU-Net性能,采用戴斯相似系数(Dice similariy coefficient, Dice)、交并比(intersection of union,IoU)、召回率(Recall)来评估模型分割性能。其中,Dice是一种集合相似度度量指标,也是医学图像分割领域中最常用的评价标准之一。Dice范围为[0, 1],其中0代表预测结果与真实标签没有重合,1代表预测结果与真实标签完全重合。3种评价指标公式分别为
{\mathrm{Dice}} = \frac{{2{\mathrm{TP}}}}{{{\mathrm{FP}} + 2{\mathrm{TP}} + {\mathrm{FN}}}} (8) {\mathrm{IoU}} = \frac{{{\mathrm{TP}}}}{{{\mathrm{FP}} + {\mathrm{FN}} + {\mathrm{TP}}}} (9) {\text{Recall}} = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}} + {\mathrm{FN}}}} (10) 式中:TP为肿瘤区域被正确分割,即真阳性;FN为肿瘤区域被错误分割为非肿瘤区域,即假阴性;FP为非肿瘤区域被错误分割,即假阳性。
试验的硬件环境包括:11th Gen Intel(R) Core(TM) i7-11850H处理器、Windows 11操作系统、Nvidia RTX3080显卡,采用Python 3.8编程语言和Pytorch深度学习框架。网络训练参数如下:输入图像大小为原始图片尺寸512像素× 512像素,批处理大小指每个批次中训练样本的数量,经过调整试验,批处理大小为4时效果最好。训练次数指训练集中数据对模型训练的次数,本试验设定为150,采用Momentum优化器,初始学习率设置为0.01,学习衰减率为1E-4。
2.3 对比试验
将PCU-Net与U-Net、Attention U-Net、Mobile U-Net等模型进行比较,验证模型的有效性。不同算法使用多个指标的分割结果见表1。从评价指标上看,U-Net为基准模型,表现出稳定的分割性能;将门控注意力机制加入Attention U-Net,使评价指标Recall提升较大,增加了对目标区域的识别率;Mobile U-Net作为轻量化模型,各项评价指标均差于其他模型。PCU-Net的3个评价指标Dice、IoU和Recall分别为73.16%,61.91%和76.35%,相较其他网络,均有3% ~ 6%的优势。
表 1 不同算法的分割结果Table 1. Segmentation results of different algorithms% 模型 Dice IoU Recall U-Net 68.94 57.65 69.53 Attention U-Net 68.71 57.29 72.38 Mobile U-Net 66.20 55.82 67.49 FCN 68.85 57.67 68.60 PCU-Net 73.16 61.91 76.35 为进一步对比分割效果,不同模型在3个肿瘤上的分割效果如图5所示。
图中,红色轮廓为医生勾画的肿瘤区域,蓝色轮廓对应算法预测的肿瘤区域。由图可见,本研究提出的PCU-Net在3个不同肿瘤上均取得最高的分割精度,分割的肿瘤区域与真实标签之间的一致性最为显著。对比发现,当肺肿瘤区域较大且与周围组织区别明显时(见图中第1行),各算法均达到较高的分割精度;U-Net与Attention U-Net虽然正确地将肺肿瘤区域分割出来,但把外部的正常组织误分割为肿瘤,导致Dice指标较低。当肿瘤区域与周围组织相近时(见图中第2行),各算法的分割精度均有所下降;除了PCU-Net依然维持了肺肿瘤分割图的完整性,其他算法都将周围相近组织误分割为肿瘤。当肺肿瘤区域较小时(见图中第3行),各算法的分割精度均比较低;5种算法虽然都识别出肿瘤位置,但均未将肿瘤区域完整分割,且U-Net、Attention U-Net、Mobile U-Net将外部大片正常区域误分割为肿瘤区域,导致分割精度较低;FCN误分割区域较小,但分割出的肺肿瘤区域也较小;PCU-Net也存在误分割现象,但正确分割的肺肿瘤区域较大,Dice指标达到72.44%,明显高于其他算法。相比而言,其他网络的分割结果过分割和欠分割问题较大,且对肺肿瘤边缘分割较粗糙,本研究提出的方法能保证较高的分割完整性,其分割结果与真实标签最为接近。
2.4 消融试验
本研究采用消融试验验证引入部分卷积、坐标注意力机制的有效性。以U-Net网络作为基准模型,网络未添加任何其他模块;用部分卷积替换U-Net中的普通卷积,用U-Net+PConv表示;在U-Net引入坐标注意力机制,用U-Net + CA表示;部分卷积和坐标注意力机制同时应用在U-Net上,即PCU-Net。消融试验结果见表2。
表 2 消融试验Table 2. Ablation experiment模型 Dice IoU Recall U-Net+PConv 71.84 60.44 74.39 U-Net+CA 71.21 59.31 75.60 PCU-Net 73.16 61.91 76.35 比较表1和表2可知,引入的部分卷积、坐标注意力机制在分割任务中均起到显著的效果。U-Net+PConv与基准模型U-Net相比,Dice、IoU和Recall分别提升2.90%、2.79%和4.86%,说明部分卷积增强了模型特征提取的能力。U-Net + CA与基准模型U-Net相比,Dice、MIoU和Recall分别提升2.27%、1.66%和6.07%,说明添加坐标注意力模块能使模型更精准地获取肿瘤的位置。将上述策略同时添加到基准模型后,PCU-Net相比基准模型U-Net,Dice、IoU和Recall分别提升4.22%,4.26%和6.82%。
消融试验效果如图6所示。相比原始U-Net,PCU-Net的分割效果均有一定程度改善,分割结果与标签最接近,识别出的边界与标签几乎重合,证明了添加部分卷积与坐标注意力的有效性。
Dice与参数量的关系图如图7所示。基准模型U-Net参数量为432万,Dice值为68.94%,U-Net + PConv参数量减少至179万,相比基准模型减少58.57%,且Dice提升2.90%,说明部分卷积在提升网络性能的同时,有效减少了模型的计算成本。PCU-Net参数量降至181万,相比U-Net降低了58.10%,Dice值提升4.22%,证明坐标注意力机制在增加少量参数的同时,有效提升了肺肿瘤分割的效果。
2.5 模型有效性验证
为验证模型的泛化能力,在乳腺肿瘤数据集BUSI上进行试验。BUSI包含647张良性和恶性肿瘤图像,将尺寸统一调整为256像素× 256像素,训练参数与前文相同,得出U-Net的Dice、IoU和Recall分别为80.84%、71.86%和80.74%,改进后PCU-Net的Dice、IoU和Recall分别为83.29%、74.32%和86.67%,相比U-Net,PCU-Net的各指标分别提升2.45%、2.46%和5.93%。试验证明本研究模型在不同数据集上的有效性。
3. 结 语
本研究提出一种轻量级肺肿瘤分割模型PCU-Net,通过引入部分卷积和坐标注意力机制,更准确地提取肺肿瘤的边缘和形状。改进后模型的参数量减少58.57%,Dice值为73.16%,提升4.22%。在乳腺数据集上的测试结果证实模型的有效性,用于实际肺肿瘤区域的分割具有一定的有效性及实用性。未来可针对小目标分割效果不佳的情况,提升对小目标的分割能力。
-
表 1 不同算法的分割结果
Table 1. Segmentation results of different algorithms
% 模型 Dice IoU Recall U-Net 68.94 57.65 69.53 Attention U-Net 68.71 57.29 72.38 Mobile U-Net 66.20 55.82 67.49 FCN 68.85 57.67 68.60 PCU-Net 73.16 61.91 76.35 表 2 消融试验
Table 2. Ablation experiment
模型 Dice IoU Recall U-Net+PConv 71.84 60.44 74.39 U-Net+CA 71.21 59.31 75.60 PCU-Net 73.16 61.91 76.35 -
[1] SUNG H, FERLAY J, SIEGEL R L, et al. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J] . CA: A Cancer Journal for Clinicians,2021,71(3):209 − 249. doi: 10.3322/caac.21660 [2] SOLTANI-NABIPOUR J, KHORSHIDI A, NOORIAN B. Lung tumor segmentation using improved region growing algorithm[J] . Nuclear Engineering and Technology,2020,52(10):2313 − 2319. doi: 10.1016/j.net.2020.03.011 [3] RAKESH S, MAHESH S. Nodule segmentation of lung CT image for medical applications[J] . Global Transitions Proceedings,2021,2(1):80 − 83. doi: 10.1016/j.gltp.2021.01.011 [4] VORONTSOV E, ABI-JAOUDEH N, KADOURY S. Metastatic liver tumor segmentation using texture-based omni-directional deformable surface models[C] //proceedings of the 6th International Workshop ABDI 2014. Cham: Springer, 2014: 74−83. [5] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J] . IEEE Transactions on Pattern Analysis and Machine Intelligence , 2015, 39(4): 640−651. [6] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C] //Proceedings of International Conference on Medical Image Computing and Computer Assisted Intervention. Munich: Springer International Publishing, 2015: 234−241. [7] MILLETARI F, NAVAB N, AHMAD SA. V-Net: fully convolutional neural networks for volumetric medical image segmentation[C] //Proceedings of 2016 the Fourth International Conference on 3D Vision (3DV). Piscataway: IEEE, 2016: 565−571. [8] OKTAY O, SCHLEMPER J, FOLGOC LL, et al. Attention U-net: Learning where to look for the pancreas[C] //Proceedings of IEEE on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. [9] ZHOU Z, SIDDIQUEE M M, TAJBAKHSH N, et al. Unet ++: Redesigning skip connections to exploit multiscale features in image segmentation[J] . IEEE Transactions on Medical Imaging,2019,39(6):1856 − 1867. [10] CAO H, WANG Y, CHEN J, et al. Swin-Unet: Unet-like pure transformer for medical image segmentation[J] . 2021. DOI: 10.48550/arXiv.2105.05537. [11] ZHOU T, DONG Y, LU H, et al. APU-Net: An attention mechanism parallel U-Net for lung tumor segmentation[J] . BioMed Research International , 2022, 2022, 5303651. [12] JIANG J, HU Y C, LIU C J, et al. Multiple resolution residually connected feature streams for automatic lung tumor segmentation from CT images[J] . IEEE Transactions on Medical Imaging,2019,38(1):134 − 144. doi: 10.1109/TMI.2018.2857800 [13] HOSSAIN S, NAJEEB S, SHAHRIYAR A, et al. A pipeline for lung tumor detection and segmentation from CT scans using dilated convolutional neural networks[C] //Proceedings of 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton: IEEE, 2019: 1348−1352. [14] CHEN J, KAO S, HE H, et al. Run, don't walk: Chasing higher FLOPs for faster neural networks[C] //Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver: IEEE, 2023: 12021−12031. [15] HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C] //Proceedings of Coordinate attention for efficient mobile network design. Nashville: IEEE, 2021: 13713−13722. -