7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

量子位

量子位2026年5月28日

7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

9.2内容质量

TL;DR · AI 摘要

Ophiuchus-7B在8个医学VQA基准上以68.0分超越OpenAI-o3（62.2）、Gemini 2.5 Pro（61.8）和GPT-5（59.9），核心突破在于提出‘Think with Images/Videos’新范式：模型在推理链中主动调用SAM2、BiomedParse等工具重新观察关键区域/时刻，使视觉证据成为思维过程的一部分，而非仅作输入。

核心要点

Ophiuchus-7B在8个医学VQA benchmark平均得分68.0，显著高于o3（62.2）、Gemini 2.5 Pro（61.8）与GPT-5（5
模型通过SAM2分割、BiomedParse定位、Zoom-in放大等工具实现‘看哪里、怎么看、如何修正’的闭环推理，工具调用准确率达97.9%
MedScope构建ClinVideoSuite（635K时间戳caption+254K证据QA+34K视觉CoT轨迹），三阶段训练+GA-GRPO强化学习实现

结构提纲

按章节快速跳转。

§问题本质：医学AI需证据驱动而非语言生成
传统医学多模态模型被动接收视觉特征生成解释，但微小病灶或几秒手术动作常决定诊断成败，导致‘解释完整≠看到证据’。
·Ophiuchus：图像诊断中的Think with Images范式
Ophiuchus将大模型改造为视觉智能体，可动态调用SAM2、BiomedParse、Zoom-in等工具获取局部观察结果，并将其作为推理链中的observation进行修正判断。
·MedScope：长视频场景下的Think with Videos机制
MedScope模拟临床医生行为，先建全局理解，再回看可疑时间窗，通过crop_video/get_frame截取关键片段，实现时序证据驱动的推理与可审查性。
›数据与训练：ClinVideoSuite与 GA-GRPO强化学习
ClinVideoSuite含635K时间戳caption、254K证据QA与34K视觉CoT轨迹；三阶段训练结合evidence-modulated advantage奖励，使R@0.5达40.1（去evidence reward后降至33.2）。
§范式升级：视觉从输入变为思维过程
两工作共同确立新范式：推理是语言、工具、图像区域、视频片段与证据反馈的闭环交互，推动医学AI向‘假设-查证-修正-回答’临床认知方式对齐。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

医学AI新范式：Think with Images/Videos
- Ophiuchus（图像）
  - 工具调用：SAM2/BiomedParse/Zoom-in
  - 推理闭环：observation→修正判断
  - 性能：7B模型68.0分，97.9%工具准确率
- MedScope（视频）
  - 关键机制：crop_video/get_frame回看
  - 数据集：ClinVideoSuite（635K+254K+34K）
  - 训练：三阶段+SFT+GA-GRPO强化
- 范式价值
  - 视觉=思维过程，非仅输入
  - 减少幻觉、增强可解释性、适配复杂流程
  - 临床对齐：假设-查证-修正-回答循环

金句 / Highlights

值得收藏与分享的关键句。

Ophiuchus-7B在8个VQA benchmark平均得分68.0, 高于OpenAI-o3（62.2）、Gemini 2.5 Pro（61.8）和GPT-5（59.9）
— 第5节
⬇︎ 下载 PNG 𝕏 分享到 X
模型不是外挂工具，而是让工具成为推理链一部分：学会何时调用、选哪个工具、如何解释输出、及结果不可靠时修正策略
— 第4节
⬇︎ 下载 PNG 𝕏 分享到 X
去掉evidence reward后，R@0.5从40.1降至33.2，mIoU从48.8降至38.8（原文笔误应为48.8→38.8），证明答案级监督不足以教会可靠证据选择
— 第7节
⬇︎ 下载 PNG 𝕏 分享到 X
MedScope的推理过程天然具备可审查性：不仅看它‘说了什么’，还可查它‘回看了哪段视频、找到了哪些帧’及其是否支持结论
— 第6节
⬇︎ 下载 PNG 𝕏 分享到 X

#医学AI#多模态大模型#智能体#ICML 2026#视觉推理

打开原文

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-05-28 16:01:57 来源：量子位

医学AI Agent到了关键拐点

上海创智学院 LeapQuest 团队投稿

量子位 | 公众号 QbitAI

医学AI会写解释，但不代表它真的“看到”了关键证据。

过去的医学多模态模型，大多是把一张影像或一段视频编码成视觉特征，然后让大模型生成答案与解释。

但问题在于——一个微小病灶、一个边界变化、一段几秒钟的手术动作，往往就决定了答案是否成立。

而模型“被动接收”视觉上下文时，很容易看错区域、漏看病灶。

为应对这一问题，上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学，一口气拿出了两篇ICML 2026接收论文，首次把Think with Images/Think with Videos范式应用在医学AI领域：

模型不再只是看完图像或视频后生成解释，而是在推理链中主动调用视觉工具，重新观察关键区域或关键时刻，并用新证据修正判断。

这意味着，视觉不再只是输入，视觉证据本身成了模型思考过程的一部分。

两篇工作的核心关键词如下：

两篇工作不是孤立模型升级，而是共同提出医学AI的新范式：

让视觉证据进入模型的中间思考过程，把“解释”从事后语言生成推进为推理过程中的证据查证。

△Ophiuchus：面向医学图像的tool-augmented Think with Images

△MedScope：面向临床长视频的Think with Videos

不是更会“写解释”，而是开始会“用视觉证据思考”

医学AI过去最常见的工作方式，是把一张影像或一段视频编码成视觉特征，然后让大模型生成答案与解释。

问题在于，解释看起来完整，并不代表模型真的看到了关键证据。尤其在医学场景里，一个微小病灶、一个边界变化、一段几秒钟的手术动作，往往就决定了答案是否成立。

Ophiuchus和MedScope共同把这个问题向前推进了一步：多模态模型不再只是“被动接收视觉上下文”，而是在推理过程中主动决定是否需要更多证据、应该看哪里、应该回看哪一段，并把工具返回的观察结果纳入后续推理。

这就是医学AI领域首次被系统化提出的 “think with images/think with videos” 范式：视觉不再只是输入，视觉证据本身成为模型思考过程的一部分。

△Think with Images

Think with Images：让模型在图像诊断中“重新看一眼”

Ophiuchus的切入点非常直接：现有医学多模态大模型虽然能写出逐步推理，但遇到需要细粒度视觉证据的任务时，仍然容易“看错区域、漏看病灶、误把正常结构当异常”。

这不是单纯语言能力不足，而是视觉交互机制不足。

因此，Ophiuchus将大模型改造成一个能与医学图像工具协同的视觉智能体。

它可以根据当前推理状态，决定是否调用外部视觉工具：用SAM2做精细分割，用BiomedParse根据文字提示定位医学结构，用Zoom-in放大关键区域。

工具调用后的输出不是孤立结果，而会以observation的形式回到推理链，驱动下一步判断。

更关键的是，Ophiuchus并不是把工具“外挂”在模型外面，而是让工具成为推理链的一部分。

模型要学会何时调用工具、选择哪个工具、如何解释工具输出，以及当工具结果不可靠时如何修正策略。

这使得模型从“会调用工具”走向“会用工具思考”。

△Ophiuchus 技术框架

Ophiuchus的价值不只是让医学大模型多了几个视觉工具，而是让模型学会在诊断过程中主动“看哪里、怎么看、看完如何修正”。

从闭源SOTA到医学Agent：Ophiuchus用结果证明“看得更细”才是关键

在同样外部工具配置下，Ophiuchus-7B在8个VQA benchmark上取得68.0的平均分，高于OpenAI-o3的62.2、Gemini 2.5 Pro的61.8和GPT-5的59.9。

在工具使用准确性评估中，Ophiuchus达到97.9%的平均工具调用准确率。

这些结果背后的含义，比“某个榜单第一”更重要：

当问题真正依赖局部结构、病灶边界和细胞级证据时，模型大小或语言推理并不是唯一瓶颈。

医学AI需要一种能让视觉证据不断进入推理过程的机制。

Think with Videos：从“看图思考”走向“回看关键时刻”

如果说Ophiuchus解决的是医学图像中的局部证据问题，那么MedScope则把这一范式推进到更难的长视频场景。

长临床视频的挑战在于：关键证据不仅细，而且稀疏；不仅要看对内容，还要看对时间。

一个手术动作、一个内镜视野变化、一个器械进入与离开的瞬间，可能只持续几秒，却决定模型是否真的理解了临床过程。

MedScope 提出的 “think with videos” 不是让模型把整段视频一次性压缩成上下文，而是模拟临床医生的观察方式：

先快速建立全局理解，再回到可疑时间窗，用crop_video截取片段，用get_frame获取关键帧，最后把这些局部观察结果整合进答案。

△Textual CoT与 Visual CoT的差别

这使MedScope的推理过程天然具备可审查性：模型为什么回答这个结果，不只看它“说了什么”，还可以看它“回看了哪一段视频、找到了哪些帧、这些证据是否支持结论”。

△MedScope 框架

ClinVideoSuite与GA-GRPO：让视频模型学会“找证据”，而不只是“猜答案”

为了让模型真正学会这种行为，MedScope构建了ClinVideoSuite：包含635K时间戳密集 caption、254K证据关联QA、34K视觉CoT轨迹，以及用于强化学习的交互式训练环境。

数据不是简单问答，而是强调问题必须依赖局部时间窗中的视觉证据。

训练上，MedScope 采用三阶段路线——

第一阶段进行临床推理warm-up，学习医学语义和长程视频理解；

第二阶段用visual-CoT cold-start SFT教会模型何时需要更多证据、如何调用工具；

第三阶段用GA-GRPO强化时序对齐的工具使用，通过grounding-aware reward和evidence-modulated advantage，让模型更偏向检索真正支持结论的视觉片段。

△ClinVideoSuite数据合成管线

在SVU-31K、ClinVideo-Eval等评测中，MedScope在多粒度视频理解、细粒度时序推理和grounded VQA上取得开源模型中的SOTA。

论文还显示，去掉evidence reward会显著降低定位质量，例如R@0.5从40.1下降到33.2，mIoU从4.3下降到38.8，说明答案级监督不足以教会模型可靠地选择证据。

真正的范式变化：视觉从“输入”变成“思维过程”

把两篇工作放在一起看，最重要的不是Ophiuchus处理图像、MedScope处理视频，而是它们共同定义了一种新的医学多模态智能范式：

模型的推理过程不再只是语言token的展开，而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互。

医学AI的下一个关键能力，不是生成更长的解释，而是在给出解释前主动寻找、验证并引用视觉证据。

Ophiuchus和MedScope把这一点从方法论变成了可训练、可评测、可扩展的技术路线。

为什么这可能成为医学AI Agent的关键拐点

医学任务与通用视觉问答最大的不同，是每一个结论都需要证据链。

放射科医生会放大病灶边缘，病理医生会寻找细胞形态，外科医生会回看关键操作，内镜医生会追踪病灶在时间中的出现与消失。

也就是说，临床视觉推理天然就是交互式、证据驱动和可复核的。

“Think with Images/Videos”的意义，正是让医学AI向这种真实临床认知方式靠近。

它不再满足于一次性预测，而是在模型内部建立“假设-查证-修正-回答”的循环。

这为临床可信AI提供了三类重要能力：更少幻觉、更强可解释性、更适合复杂流程。

医学AI开始真正“边看边想”

从Ophiuchus到MedScope，可以看到医学多模态大模型正在发生一次底层范式转向：

从看图、看视频，到在推理过程中持续地看；从输出答案，到主动寻找证据；从语言链条，到视觉证据参与的多模态思维链。

这也解释了为什么“think with images/videos”值得被单独提出。

它不是一个更花哨的工具调用框架，而是在医学AI里重新定义了“推理”的边界：推理不只是语言生成，而是围绕证据进行的动态视觉探索。

当模型能够在思考中主动回看影像、放大病灶、截取视频、验证证据，医学AI才真正从“会回答问题”走向“会进行临床视觉推理”。

LeapQuest［起跃界问］是上海创智学院面向下一代医学AI Agent、视觉推理与多模态大模型的青年交叉研究团队，聚焦Visual Reasoning、Agentic RL、Clinical Tools，推动模型从“生成答案”走向基于证据的观察、验证与行动。

项目GitHub：

_MedScope｜Think with Videos：https://github.com/SII-WenjieLisjtu/MedScope_

_Ophiuchus｜Think with Images：https://github.com/SII-zyj/Ophiuchus_

7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

上海创智学院 LeapQuest 团队 投稿

**△**Ophiuchus：面向医学图像的tool-augmented Think with Images

**△**MedScope：面向临床长视频的Think with Videos

**不是更会“写解释”，而是开始会“用视觉证据思考”**

**Think with Images：让模型在图像诊断中“重新看一眼”**

**从闭源SOTA到医学Agent：Ophiuchus用结果证明“看得更细”才是关键**

**Think with Videos：从“看图思考”走向“回看关键时刻”**

**ClinVideoSuite与GA-GRPO：让视频模型学会“找证据”，而不只是“猜答案”**

**真正的范式变化：视觉从“输入”变成“思维过程”**

**为什么这可能成为医学AI Agent的关键拐点**

**医学AI开始真正“边看边想”**

上海创智学院 LeapQuest 团队投稿

△Ophiuchus：面向医学图像的tool-augmented Think with Images

△MedScope：面向临床长视频的Think with Videos

不是更会“写解释”，而是开始会“用视觉证据思考”

Think with Images：让模型在图像诊断中“重新看一眼”

从闭源SOTA到医学Agent：Ophiuchus用结果证明“看得更细”才是关键

Think with Videos：从“看图思考”走向“回看关键时刻”

ClinVideoSuite与GA-GRPO：让视频模型学会“找证据”，而不只是“猜答案”

真正的范式变化：视觉从“输入”变成“思维过程”

为什么这可能成为医学AI Agent的关键拐点

医学AI开始真正“边看边想”