量子位2026年4月22日

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token

9.2Score

用这条生成生成视频方案

AI 深度提炼

将分割任务建模为多步马尔可夫决策过程，保留语言推理能力
冷启动SFT与强化学习结合，驱动模型探索最优策略
实验显示在多种数据集上性能大幅领先现有方法

#医学图像分割#多模态模型#强化学习#CVPR

打开原文

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-04-22 15:17:04 来源：量子位

已被CVPR 2026接收

这个生物医学视觉推理框架，被CVPR 2026接收了！

人类专家在标注医学图像时，从不是“看一眼就画出来”。

他们会先扫视全图、锁定可疑区域，随后在分割工具上反复点击正负样本，根据每一步生成的mask形态重新判断，不断调整策略——

这是一个**多轮交互、边看边想、边想边做**的迭代推理过程。

然而，现有的医学多模态大模型普遍采用“单次前向推理”范式：

输入图像，输出mask，一步到位。

这种方式面对生物医学图像中**细微的病灶边界、复杂的解剖结构、模糊的视觉语义**时往往力不从心。

更深层的问题在于，为了赋予MLLM分割能力，现有方法普遍引入隐式分割token（如<SEG> ）并与外部pixel decoder联合微调——

这一设计破坏了大模型原有的文本输出空间，导致语言推理能力退化，泛化能力大打折扣。

上述范式存在四个核心瓶颈：

**单次推理无法自我纠错**：一旦第一步定位出现偏差，错误持续累积，最终影响分割质量。
**隐式token破坏推理能力**： <SEG>等token侵占文本空间，导致灾难性遗忘，细粒度视觉推理被严重压制。
**缺乏自主决策机制**：模型只能被动执行单次指令，无法像人类专家一样主动观察、反思、调整。
**训练数据瓶颈**：现有数据集只有最终mask，缺乏逐步交互的推理轨迹，难以直接监督多步行为。

鉴于上述问题，浙江大学蔡钰祥教授、上海人工智能实验室研究员江彦开等人联合提出了**IBISAgent**——

一个将分割重新定义为多步视觉决策过程的Agentic MLLM框架。

具体方法

概括而言，IBISAgent的主要创新点如下：

**将分割任务建模为多步马尔可夫决策过程**（MDP），以交错的文本推理与点击动作替代隐式token，保留MLLM完整的语言推理能力，同时实现自主多轮迭代精化。
提出**两阶段训练框架**。首先通过冷启动SFT在自动生成的推理轨迹上建立像素级推理先验；随后引入Agentic强化学习，以细粒度奖励信号驱动模型自主探索更优决策策略，超越对轨迹的简单模仿。
构建包含**456K**条高质量推理轨迹的冷启动数据集，覆盖正常标注与自我反思纠错两类轨迹，为多步视觉推理提供系统化的训练基础。

具体方法为，IBISAgent将整个分割过程建模为一条多步推理轨迹，每一步由三个核心元素构成闭环：

**推理**（Textual Thinking）：模型对当前分割图像的状态进行推理分析，如“当前mask偏左，需要在右侧肿瘤边缘补充正向点击”。
**行动**（Action）：模型输出结构化的空间点击指令，包含三个要素：分割目标类别（Target）、点击属性（正/负，Attribute）、归一化图像坐标（Coordinate_2d）。模型可在一步中同时输出多个点击。
**观测**（Observation）：点击被传入交互式分割工具MedSAM2，生成更新后的mask，并叠加到原图上作为下一步的视觉输入反馈给模型。

这一设计的关键在于：

**模型每一步都能“看到”自己上一步分割的结果**，形成视觉感知与语言推理的闭环。

整个过程不引入任何新的模型组件或隐式token，分割能力完全从MLLM内在的视觉推理中涌现，并天然支持从头分割与mask精化两类任务。

与此同时，IBISAgemt采用两阶段训练方案：

**第一阶段：冷启动SFT**。

现有生物医学分割数据集只有最终mask，没有逐步点击轨迹。

研究团队利用BiomedParseData（340万图像-mask对， 9种成像模态）开发了自动轨迹生成算法：

通过规则化的点击模拟策略自动推导点击序列，再用Gemini- 2.5-Pro为每步生成对应的自然语言推理。

为增强鲁棒性，额外合成两类自我反思轨迹：

（1）错误自纠正——检测到错误动作后回溯并重新推理；

（2）指令不一致纠正——遇到与初始mask不符的指令时主动丢弃并重新分割。最终构建出包含456K样本的高质量冷启动数据集。

**第二阶段：Agentic强化学习**。

SFT之后模型仍在模仿已有轨迹，研究团队进一步引入RL，设计细粒度奖励框架在每个交互步骤提供密集反馈：

其中区域点击奖励与渐进式分割改进奖励是核心创新——

前者引导模型将每次点击落在语义有效的区域，后者强制每步行动必须带来实质性的分割改善，从而彻底杜绝冗余操作与来回震荡。

RL训练使用GRPO算法，在**888K**VQA样本上进行优化。

实验结果

实验结果显示，IBISAgemt在域内测试集、域外泛化集（MeCOVQA-G+，涵盖5种成像模态）和自建私有数据集（1K CT/MRI/病理， 7类癌症）三个benchmark上，均大幅领先所有对比方法。

相比医学专用MLLM基线，平均IoU提升**35.13%**， DSC提升**37.58%**， F1提升**29.79%**。

值得注意的是， Citrus-V和UniBiomed均在比本方法更大规模的数据集上训练， IBISAgent仍能一致超越，说明性能提升来自方法设计本身，而非数据优势。

与工具增强Agent的对比实验

相比同样调用MedSAM2的工具增强型Agent（GPT-4o 、LLaVA-Med 、HuatuoGPT-Vision等）， IBISAgent在域外集和私有数据集上仍保持显著领先，充分说明多轮交互式推理带来的增益远超简单的工具调用。

两阶段训练消融实验

消融实验证明，冷启动SFT、自我反思轨迹和RL三个方案缺一不可，逐级叠加均带来明显收益。

RL阶段提供最大的性能跃升，说明强化学习的探索-利用机制对激发真正自主的像素级推理至关重要。

细粒度奖励设计消融实验

对于RL阶段的奖励设计，研究团队同样进行了逐项验证。

以仅使用格式奖励与答案奖励为基线，在域外集MeCOVQA-G+上的IoU仅为73.77；

逐步引入区域点击奖励后， IoU提升至76.60， mask定位准确性显著改善；

加入渐进式分割改进奖励后进一步跃升至80.61，同时平均交互步数从11.29步压缩至8.12步，模型学会了更高效的分割路径；

最终叠加轨迹长度奖励后，交互效率继续提升，步数降至4.26步，同时分割质量维持在最高水平。

这一结果表明，细粒度的逐步反馈信号是驱动模型在质量与效率之间取得最优平衡的关键，单纯依赖最终结果奖励无法达到同等效果。

小结一下

这项研究将生物医学图像分割从“单次推理输出”推进到“自主多轮交互决策”。

针对现有方法依赖隐式token导致的推理能力退化问题， IBISAgent以交错的文本推理与点击动作完全替代<SEG>token，保留了MLLM完整的语言能力，并通过多步MDP建模实现真正的自主迭代精化。

进一步地，冷启动SFT结合自动轨迹生成建立稳健的推理先验，Agentic强化学习与细粒度奖励驱动模型超越模仿、探索最优决策策略，最终实现了细粒度的视觉推理。

广泛的实验验证了IBISAgent在多模态、多疾病场景下的一致性优势，为未来面向真实临床的智能医学图像分析系统奠定了重要基础。

论文链接：

https://arxiv.org/abs/2601.03054

代码链接：

https://github.com/Yankai96/IBISAgent