BAAI、北大&港中文团队提出 SegVol：通用且可交互的医学体素分割模型

编辑 | ScienceAI

北京智源人工智能研究院（BAAI）、北京大学和香港中文大学的研究团队在上周发布了 SegVol 医学通用分割模型的开源版本

与过去一些很棒的 Medical SAM 工作不同，SegVol 是第一个能够同时支持 box，point 和 text prompt 进行任意尺寸原分辨率的 3D 体素分割模型。作为一个便捷的通用分割工具，研究人员将 SegVol 代码和模型开源到 GitHub:BAAI-DCAI/SegVol，欢迎大家使用。目前开源的模型权重文件包括（1）使用 96k CTs 预训练 2,000 epochs 的 ViT模型，（2）在预训练基础上，使用 6k Masked CTs 在 A100 上训练 30×24×8 个 GPU 小时得到的 SegVol。最新进展请关注 GitHub 仓库的更新，如果有疑惑或建议可以写评论、开 issue 或私信，欢迎大家讨论。

该研究以《SegVol: Universal and Interactive Volumetric Medical Image Segmentation》为题，发布在预印平台 arXiv 上。

GitHub 地址: https://github.com/BAAI-DCAI/SegVol 论文链接： https://arxiv.org/abs/2311.13385

摘要

精确的医学图像分割为临床研究提供了富有意义的结构信息。尽管深度学习在医学图像分割方面已经取得了显著的进展，但仍然缺乏一种能够通用分割各种解剖类别且易于用户交互的基础分割模型。

本文提出一种通用的交互式医学体素分割模型——SegVol。通过在 90k 无标注 CTs 和 6k 分割 CTs 数据上进行训练，该基础模型支持 point， box 和 text prompt，能够对 200 多个解剖类别进行分割。大量的进行实验时，需要遵循一定的步骤和方法。实验的目的是为了验证或证明一个假设或理论。在实验过程中，需要准备好所需的材料和设备，并按照实验方案进行操作。实验结果应该被记录下来，并进行数据分析和解释。实验的结果可以用来支持或反驳原始的假设或理论。实验的重复性和可靠性也是非常重要的，因此需要进行多次实验来验证结果的一致性。在进行实验时，还需要注意安全问题，遵守实验室的规定和操作规程。通过实验的方法，可以获取到一些新的知识和发现，对科学研究和技术发展起到了重要的推动作用证明，SegVol 在多个 benchmark 中表现出色。特别在三个具有挑战性的病变数据集上，SegVol 方法比 nnU-Net 的 Dice 得分高 20% 左右。SegVol 的代码和权重已经在https://github.com/BAAI-DCAI/SegVol 上公开。

需要重新表述的内容是：核心贡献

1.在 96k CTs 上对模型进行预训练，并使用伪标签解耦数据集和分割类别之间的虚假关联。

通过在分割模型中集成语言模型，并在超过25个数据集的200多个解剖类别上进行训练，可以实现文本提示的分割

实现高精度分割的方法之一是通过协同语义提示和空间提示

4.设计了一种 zoom-out-zoom-in 机制，显著降低计算成本，同时保持精确分割。

图片1：(a, b)模型结构图。(c, d)缩放-扩张机制图

图 2：(a)联合数据集概览。(b)联合数据集中，掩码数量排名前30的标签，人体四个主要部位的掩码标签数量占比。(c)样例。(a)中人体图来自brgfx on Freepik。

进行实验时，需要遵循一定的步骤和方法。实验的目的是为了验证或证明一个假设或理论。在实验过程中，需要准备好所需的材料和设备，并按照实验方案进行操作。实验结果应该被记录下来，并进行数据分析和解释。实验的结果可以用来支持或反驳原始的假设或理论。实验的重复性和可靠性也是非常重要的，因此需要进行多次实验来验证结果的一致性。在进行实验时，还需要注意安全问题，遵守实验室的规定和操作规程。通过实验的方法，可以获取到一些新的知识和发现，对科学研究和技术发展起到了重要的推动作用

研究人员在多个数据切片上对SegVol进行了全面评估

（1）19种重要解剖结构的进行实验时，需要遵循一定的步骤和方法。实验的目的是为了验证或证明一个假设或理论。在实验过程中，需要准备好所需的材料和设备，并按照实验方案进行操作。实验结果应该被记录下来，并进行数据分析和解释。实验的结果可以用来支持或反驳原始的假设或理论。实验的重复性和可靠性也是非常重要的，因此需要进行多次实验来验证结果的一致性。在进行实验时，还需要注意安全问题，遵守实验室的规定和操作规程。通过实验的方法，可以获取到一些新的知识和发现，对科学研究和技术发展起到了重要的推动作用结果

在Prompt Learning的支持下，SegVol可以支持超过200个类别的分割。研究人员选择了19个重要的解剖目标来展示其强大的分割能力，如表1所示。肝脏的Dice得分高达96.13%，而19个主要目标的平均得分为83.02%。它强大的通用分割功能来自于空间和语义的复合Prompt。一方面，空间Prompt可以让模型理解分割目标的具体空间和位置。由表1可知，对于各种器官的平均分割结果，“盒状文本”Prompt的Dice得分比文本Prompt高5.85%。另一方面，语义Prompt分割目标的语义指代，消除了多种可能的结果。这反映在表1中，“点状文本”Prompt的平均Dice得分比单独使用点状Prompt高4.62%。空间Prompt和语义Prompt相互支持，最终赋予模型强大的分割能力

（2）对比进行实验时，需要遵循一定的步骤和方法。实验的目的是为了验证或证明一个假设或理论。在实验过程中，需要准备好所需的材料和设备，并按照实验方案进行操作。实验结果应该被记录下来，并进行数据分析和解释。实验的结果可以用来支持或反驳原始的假设或理论。实验的重复性和可靠性也是非常重要的，因此需要进行多次实验来验证结果的一致性。在进行实验时，还需要注意安全问题，遵守实验室的规定和操作规程。通过实验的方法，可以获取到一些新的知识和发现，对科学研究和技术发展起到了重要的推动作用

研究人员对SegVol与四种最先进的方法在五个重要数据集上进行了比较，结果展示了其巨大的优势，如表2所示。对于医学体素数据集中的体积在数十到数百个病例之间的情况，SegVol在25个数据集上联合训练，相较于传统分割模型在单个数据集上训练要显著优越。从表2中可以看出，SegVol在肝、肾、脾等简单类别的分割上超过了传统模型，其平均Dice得分达到94.98%。这主要是因为它能够从其他数据集的相同或相似类别中学习到更多的知识。更重要的是，该方法在肝肿瘤、肺肿瘤、肾上腺等难分割类别上保持了领先地位。SegVol对于难分割类别的平均Dice得分比排名第二的nnU-net高出14.76%。这是因为SegVol能够通过空间提示和语义提示获得先验信息，从而增强对难样本的理解，显著改善了分割结果

图 3：数据集scale和病灶分割。(a)在不同数量的数据集中，CTs和相应的Ground Truth Mask数量。(b)不同数据规模训练SegVol的Dice Score。(c)病灶分割。

（3）病灶分割能力

研究人员使用nnU-net作为基线模型，它在传统的医学体素分割模型中表现出最强的分割能力。如表3所示，SegVol分割这些具有挑战性的病变的能力明显优于nnU-net。在这三个病变数据集中，SegVol的Dice score超过nnU-net 19.58%，这代表在复杂体素病灶分割方面SegVol的重大进步。图3c给出了一系列示例，展示了nnUnet和 SegVol 方法的病变分割性能。这些例子包括肝肿瘤、结肠癌和肺肿瘤。可视化结果显示，与nnU-net产生的结果相比，SegVol重建的这些病变解剖结构更接近于Ground Truth。

（4）消融进行实验时，需要遵循一定的步骤和方法。实验的目的是为了验证或证明一个假设或理论。在实验过程中，需要准备好所需的材料和设备，并按照实验方案进行操作。实验结果应该被记录下来，并进行数据分析和解释。实验的结果可以用来支持或反驳原始的假设或理论。实验的重复性和可靠性也是非常重要的，因此需要进行多次实验来验证结果的一致性。在进行实验时，还需要注意安全问题，遵守实验室的规定和操作规程。通过实验的方法，可以获取到一些新的知识和发现，对科学研究和技术发展起到了重要的推动作用

Zoom-out-zoom-in机制：研究人员在MSD-Liver数据集上进行了消融研究，以评估Zoom-out-zoom-in机制的贡献。MSD-Liver数据集包括肝脏和肝肿瘤两个类别，允许研究Zoom-out-zoom-in机制对“MegaStructures”和“MicroStructures”目标分割效果的影响。如表4所示，将Zoom-out-zoom-in机制应用于SegVol模型使肝脏类别的Dice score提高了6.07%。这种提升在肝肿瘤类别上更为明显，Zoom-out-zoom-in机制将SegVol的肝肿瘤Dice score提高了21.32%。有趣的是，Zoom-out-zoom-in机制对point prompt分割肝脏结果的改善十分微小。这可能归因于global一级的point prompt相对稀疏，当zoom in到local区域时，其稀疏性变得更加明显，从而限制了该机制的潜力

Dataset Scale：数据规模是基础模型构建的关键因素之一。研究人员进行了消融研究，以研究Image和Mask的数量对SegVol性能的影响。研究人员将包含13个重要器官的BTCV数据集作为测试锚点，分别对1、2和8个数据集上训练了500个epoch的模型，以及在25个数据集上训练的最终模型进行评估。详细的结果如图3 a和b所示。作为轻量级模型，当只使用一个数据集时，SegVol的性能不是最优的。然而，随着数据量的增加，SegVol的Dice score显著增加，特别是在使用text prompt进行分割的情况下。因为text prompt严重依赖带有语义信息的ground truth mask的数量。

需要进行重述的内容是：概括

研究人员提出了SegVol：一个基于交互式的通用医学体素分割的基础模型。该模型是通过使用90k个无标注数据和25个开源分割数据集进行训练和评估得到的。与最强大的传统体素分割方法nnU-net（自动为每个数据集配置参数）不同，SegVol的目标是将各种医学体素分割任务统一到一个单一的架构中。作为一个通用的分割工具，SegVol能够对超过200个解剖目标进行准确的分割响应

此外，与传统方法相比，SegVol具有最先进或接近最先进的体素分割性能，特别是对于病灶目标。尽管具有通用性和精确性，但与其他体素分割方法相比，SegVol保持了轻量级架构。SegVol作为一个开源的基础模型，将很容易适用于广泛的医学图像表征和分析领域，可以很容易地被研究人员和从业人员集成和利用。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

BAAI、北大&港中文团队提出 SegVol：通用且可交互的医学体素分割模型

相关推荐