CN116205936A - 一种引入空间信息和注意力机制的图像分割方法 - Google Patents
一种引入空间信息和注意力机制的图像分割方法 Download PDFInfo
- Publication number
- CN116205936A CN116205936A CN202310350733.7A CN202310350733A CN116205936A CN 116205936 A CN116205936 A CN 116205936A CN 202310350733 A CN202310350733 A CN 202310350733A CN 116205936 A CN116205936 A CN 116205936A
- Authority
- CN
- China
- Prior art keywords
- image
- attention mechanism
- feature
- spatial information
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
本发明涉及一种引入空间信息和注意力机制的图像分割方法,属于图像分割领域。具体包含如下步骤:S1:数据准备阶段:预处理大脑医学影像,从预处理过的图像中裁剪出图像块;S2:特征编码阶段:通过预激活的3D卷积提取图像特征;S3:特征解码阶段:将编码阶段得到的特征图通过反卷积以及具有位置编码的注意力机制恢复原图像尺寸大小,完成图像分割过程。本发明通过注意力机制去关注空间信息,提升了网络分割性能。
Description
技术领域
本发明属于图像分割领域,涉及一种引入空间信息和注意力机制的图像分割方法。
背景技术
随着计算机断层扫描(Computed Tomography,CT)、核磁共振图像(MagneticResonance Imaging,MRI)等人体医学成像技术的迅速发展,医学图像在临床医学诊断中发挥着越来越重要的作用。医学图像分割可以更好的在医务人员判断和诊断病情病因时提供科学参考,从而会大大减少因为人类本身视力分辨力不足或是医疗人员主观上临床经验不足产生的误诊率,进一步提高医学图像的利用率。U-Net被证明在医学图像处理任务上十分有效,在医学图像中,有一种3D图像,其解剖结构复杂,完全基于卷积的编解码结构不能够充分利用3D图像的空间信息。
发明内容
有鉴于此,本发明的目的在于提供一种引入空间信息和注意力机制的图像分割方法,通过使用3D相对位置编码以及注意力机制去充分挖掘3D图像的空间信息,在解码路径上,更准确的恢复图像的语义信息,从而提高模型分割精度。
为达到上述目的,本发明提供如下技术方案:
一种引入空间信息和注意力机制的图像分割方法,本方法设计了一种相对位置编码辅助的自注意力分割网络,在编码阶段,由预激活的3D卷积提取图像特征,在解码阶段,由反卷积逐渐恢复图像尺寸,并通过嵌入了相对位置编码的NonLocal自注意力模块恢复图像特征,该方法包含如下步骤:
S1:数据准备阶段:预处理大脑医学影像,从预处理过的图像中裁剪出图像块;
S2:特征编码阶段:通过预激活的3D卷积提取图像特征;
S3:特征解码阶段:将编码阶段得到的特征图通过反卷积以及具有位置编码的注意力机制恢复原图像尺寸大小,完成图像分割过程。
进一步,其特征在于,所述步骤S1包括以下步骤:
S11:对三维医学图像进行裁剪,沿任意两轴所形成的平面裁掉灰度值为0的背景区域;
S12:对裁剪过的图像使用Z-Score归一化,让图像灰度分布的均值为0,标准差为1,使其服从正态分布;
S13:把裁剪过的图像中切割成一个个32×32×32大小的图像切块,随机选择一个切块作为步骤S2中特征编码阶段的输入;如果是多模态的数据,则将所有模态的数据沿通道维度拼接起来,组成多通道图像作为步骤S2中特征编码阶段的输入。
进一步,所述步骤S2包括以下步骤:
S21:使用普通3D卷积提取对裁剪后的三维图像进行特征提取,得到32×32×32的特征映射;
S22:使用步长为2的3D卷积对S21的特征图进行下采样操作;
S23:重复操作S21和S22,最终得到4×4×4的特征图。
进一步,所述步骤S3具体包括以下步骤:
S31:针对编码阶段获取的3D特征图,分别以所有像素点为原点计算其他像素点的相对位置;
S32:把S31中生成的位置编码嵌入到NonLocal自注意力机制中,对编码阶段的特征图做特征融合;
S33:使用反卷积对特征图上采样,随后重复S32;
S34:重复步骤S33两次,实现图像分割。
本发明的有益效果在于:通过相对位置编码引入空间信息,并将其嵌入到自注意力机制中,使得注意力机制中权重的学习不仅依赖于灰度信息和还依赖于位置信息。通过注意力机制去关注空间信息,提升网络分割性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明中的图像分割模型的网络结构图;
图2为本发明中的相对位置编码结构示意图;
图3为本发明中网络的上采样模块。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅附图1~图3,本发明提供一种引入空间信息和注意力机制的图像分割方法,在本实施例中假设用于对脑组织图像进行分割,本方法设计了一种相对位置编码辅助的自注意力分割网络,网络结构图如附图1所示。在编码阶段,由预激活的3D卷积提取图像特征,在解码阶段,由反卷积逐渐恢复图像尺寸,并通过嵌入了相对位置编码的NonLocal自注意力模块(如附图3所示)恢复图像特征。该方法包含如下步骤:
步骤1:预处理大脑医学影像,从预处理过的图像中裁剪出32×32×32的图像块;
步骤101:对三维医学图像进行裁剪,沿任意两轴所形成的平面裁掉灰度值为0的背景区域;
步骤102:对裁剪过的图像使用Z-Score归一化,让图像灰度分布的均值为0,标准差为1,使其服从正态分布;
步骤103:把裁剪过的图像中切割成一个个32×32×32大小的图像切块,随机选择一个切块作为模型的输入;如果是多模态的数据,则将所有模态的数据沿通道维度拼接起来,组成多通道图像作为网络输入。
步骤2:特征编码阶段:通过预激活的3D卷积提取图像特征;
步骤201:使用普通3D卷积提取对三维图像进行特征提取,得到32×32×32的特征映射;
步骤202:使用步长为2的3D卷积对步骤201的特征图进行下采样操作;
步骤203:重复操作步骤201和步骤202,最终得到4×4×4的特征图。
步骤S3:特征解码阶段:将编码阶段得到的特征图通过反卷积以及具有位置编码的注意力机制恢复原图像尺寸大小,完成图像分割过程。
步骤301:针对编码阶段获取的3D特征图,分别以所有像素点为原点计算其他像素点的相对位置,如图2所示;
步骤302:如图3所示,把步骤301中生成的位置编码嵌入到NonLocal自注意力机制中,对编码阶段的特征图做特征融合。
步骤303:使用反卷积对特征图上采样,随后重复步骤302。
步骤304:重复步骤303两次实现图像分割。
通过相对位置编码引入空间信息,并将其嵌入到自注意力机制中,使得注意力机制中权重的学习不仅依赖于灰度信息和还依赖于位置信息。通过注意力机制去关注空间信息,提升网络分割性能。
为了验证本发明的效果,进行了以下实验:
基于该引入空间信息和注意力机制的图像分割方法,在IBSR18数据集上进行了测试。IBSR18数据集包含18个训练样本,测试目标是将大脑组织核磁共振图像分割成灰质(GM)、白质(WM)、脑脊液(CSF)以及背景。使用14个数据样本作为训练集,余下一个作为验证集。同时对比了同时使用空间注意力和通道注意力的方法1、使用自注意力机制的方法2、使用轴向注意力的方法3以及本发明的方法4。采用Dice系数作为评价指标,其公式如下:
其中A代表神经网络分割的结果,B代表数据集给出的金标准。
表1给出了数据集上测试的结果,可以看到在Dice系数上,基于本发明的神经网络在每个分割结果上都表现更加优秀。
表1
| CSF | GM | WM | AVG | |
| 方法1 | 85.88 | 95.30 | 95.05 | 92.08 |
| 方法2 | 86.12 | 95.38 | 95.04 | 92.17 |
| 方法3 | 86.20 | 95.37 | 95.01 | 92.19 |
| 方法4 | 86.77 | 95.48 | 95.06 | 92.44 |
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种引入空间信息和注意力机制的图像分割方法,其特征在于:包含如下步骤:
S1:数据准备阶段:预处理大脑医学影像,从预处理过的图像中裁剪出图像块;
S2:特征编码阶段:通过预激活的3D卷积提取图像特征;
S3:特征解码阶段:将编码阶段得到的特征图通过反卷积以及具有位置编码的注意力机制恢复原图像尺寸大小,完成图像分割过程。
2.根据权利要求1所述的引入空间信息和注意力机制的图像分割方法,其特征在于:其特征在于,所述步骤S1包括以下步骤:
S11:对三维医学图像进行裁剪,沿任意两轴所形成的平面裁掉灰度值为0的背景区域;
S12:对裁剪过的图像使用Z-Score归一化,让图像灰度分布的均值为0,标准差为1,使其服从正态分布;
S13:把裁剪过的图像中切割成多个32×32×32大小的图像切块,随机选择一个切块作为步骤S2中特征编码阶段的输入;如果是多模态的数据,则将所有模态的数据沿通道维度拼接起来,组成多通道图像作为步骤S2中特征编码阶段的输入。
3.根据权利要求1所述的引入空间信息和注意力机制的图像分割方法,其特征在于:其特征在于,所述步骤S2包括以下步骤:
S21:使用普通3D卷积提取对裁剪后的三维图像进行特征提取,得到32×32×32的特征映射;
S22:使用步长为2的3D卷积对S21的特征图进行下采样操作;
S23:重复操作S21和S22,最终得到4×4×4的特征图。
4.根据权利要求1所述的引入空间信息和注意力机制的图像分割方法,其特征在于:其特征在于,所述步骤S3具体包括以下步骤:
S31:针对编码阶段获取的3D特征图,分别以所有像素点为原点计算其他像素点的相对位置;
S32:把S31中生成的位置编码嵌入到NonLocal自注意力机制中,对编码阶段的特征图做特征融合;
S33:使用反卷积对特征图上采样,随后重复S32;
S34:重复步骤S33两次,实现图像分割。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310350733.7A CN116205936A (zh) | 2023-04-04 | 2023-04-04 | 一种引入空间信息和注意力机制的图像分割方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310350733.7A CN116205936A (zh) | 2023-04-04 | 2023-04-04 | 一种引入空间信息和注意力机制的图像分割方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116205936A true CN116205936A (zh) | 2023-06-02 |
Family
ID=86514874
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310350733.7A Pending CN116205936A (zh) | 2023-04-04 | 2023-04-04 | 一种引入空间信息和注意力机制的图像分割方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116205936A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118297941A (zh) * | 2024-06-03 | 2024-07-05 | 中国科学院自动化研究所 | 三维腹主动脉瘤及脏器血管管腔提取方法及装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110136122A (zh) * | 2019-05-17 | 2019-08-16 | 东北大学 | 一种基于注意力深度特征重建的脑mr图像分割方法 |
| WO2021147257A1 (zh) * | 2020-01-20 | 2021-07-29 | 上海商汤智能科技有限公司 | 网络训练、图像处理方法及装置、电子设备和存储介质 |
| CN114549538A (zh) * | 2022-02-24 | 2022-05-27 | 杭州电子科技大学 | 一种基于空间信息与特征通道的脑肿瘤医学图像分割方法 |
| CN115457051A (zh) * | 2022-08-31 | 2022-12-09 | 昆明理工大学 | 基于全局自注意力与多尺度特征融合的肝脏ct图像分割方法 |
-
2023
- 2023-04-04 CN CN202310350733.7A patent/CN116205936A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110136122A (zh) * | 2019-05-17 | 2019-08-16 | 东北大学 | 一种基于注意力深度特征重建的脑mr图像分割方法 |
| WO2021147257A1 (zh) * | 2020-01-20 | 2021-07-29 | 上海商汤智能科技有限公司 | 网络训练、图像处理方法及装置、电子设备和存储介质 |
| CN114549538A (zh) * | 2022-02-24 | 2022-05-27 | 杭州电子科技大学 | 一种基于空间信息与特征通道的脑肿瘤医学图像分割方法 |
| CN115457051A (zh) * | 2022-08-31 | 2022-12-09 | 昆明理工大学 | 基于全局自注意力与多尺度特征融合的肝脏ct图像分割方法 |
Non-Patent Citations (3)
| Title |
|---|
| MO ZHANG: "Joint Attention for Medical Image Segmentation", 2022 IEEE 19TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING (ISBI), 26 April 2022 (2022-04-26) * |
| 何健飞: "基于层级自注意力和空间信息表征的三维医学图像分割", 中国优秀硕士学位论文全文库, 5 March 2025 (2025-03-05) * |
| 黄莉: "基于U-Net改进模型的多模态脑肿瘤分割方法", 计算机技术与发展, 1 December 2022 (2022-12-01) * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118297941A (zh) * | 2024-06-03 | 2024-07-05 | 中国科学院自动化研究所 | 三维腹主动脉瘤及脏器血管管腔提取方法及装置 |
| CN118297941B (zh) * | 2024-06-03 | 2024-10-25 | 中国科学院自动化研究所 | 三维腹主动脉瘤及脏器血管管腔提取方法及装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113674253B (zh) | 基于U-Transformer的直肠癌CT影像自动分割方法 | |
| CN114565763B (zh) | 图像分割方法、装置、设备、介质及程序产品 | |
| US20230386067A1 (en) | Systems and methods for segmenting 3d images | |
| CN111311592A (zh) | 一种基于深度学习的三维医学图像自动分割方法 | |
| CN111429473B (zh) | 基于多尺度特征融合的胸片肺野分割模型建立及分割方法 | |
| CN112183541B (zh) | 一种轮廓提取方法及装置、电子设备、存储介质 | |
| Zhuang et al. | APRNet: A 3D anisotropic pyramidal reversible network with multi-modal cross-dimension attention for brain tissue segmentation in MR images | |
| CN112150429B (zh) | 一种注意力机制引导的肾ct图像分割方法 | |
| CN116228785A (zh) | 一种基于改进的Unet网络的肺炎CT影像分割方法 | |
| CN112396605B (zh) | 网络训练方法及装置、图像识别方法和电子设备 | |
| US10366488B2 (en) | Image processing used to estimate abnormalities | |
| CN114972362A (zh) | 一种基于RMAU-Net网络的医学图像自动分割方法与系统 | |
| CN110310289A (zh) | 基于深度学习的肺部组织图像分割方法 | |
| CN114529562B (zh) | 一种基于辅助学习任务与重分割约束的医学图像分割方法 | |
| CN111696126A (zh) | 一种基于多视角的多任务肝脏肿瘤图像分割方法 | |
| CN114596318A (zh) | 一种基于Transformer的乳腺癌磁共振成像病灶分割方法 | |
| CN105913431A (zh) | 低分辨率医学图像的多图谱分割方法 | |
| CN111583192A (zh) | Mri图像与深度学习乳腺癌图像处理方法及早筛系统 | |
| CN111462270A (zh) | 一种基于新型冠状病毒肺炎ct检测的重建系统及方法 | |
| CN112634265A (zh) | 基于dnn的胰腺全自动分割模型的构建、分割方法及系统 | |
| CN118314167A (zh) | 基于多通道和残差注意力机制的无监督医学图像配准方法及系统 | |
| CN118762177A (zh) | 一种基于ct图像的胰腺肿瘤自动分割方法 | |
| CN119445116A (zh) | 一种基于小波池化神经网络的缺血性脑卒中图像分割方法 | |
| CN118212418A (zh) | 一种基于多任务学习的肝脏肿瘤分割和检测方法 | |
| CN116205936A (zh) | 一种引入空间信息和注意力机制的图像分割方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |