7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”
量子位2595 字 (约 11 分钟)
92
Ophiuchus-7B在8个医学VQA基准上以68.0分超越OpenAI-o3(62.2)、Gemini 2.5 Pro(61.8)和GPT-5(59.9),核心突破在于提出‘Think with Images/Videos’新范式:模型在推理链中主动调用SAM2、BiomedParse等工具重新观察关键区域/时刻,使视觉证据成为思维过程的一部分,而非仅作输入。
入选理由:Ophiuchus-7B在8个医学VQA benchmark平均得分68.0,显著高于o3(62.2)、Gemini 2.5 Pro(61.8)与GPT-5(59.9)
精选文章#医学AI#多模态大模型#智能体#ICML 2026#视觉推理中文
