全球首个医疗视频理解大模型开源!6k+组精标测试集与英雄榜同步上线,开发者速来!

- uAI Nexus MedVLM在手术安全评估等任务中准确率达89.7%,是GPT-5.4的近5.5倍。
- 开源包含6245个视频-指令对的标准测试集,为医疗视频理解提供公共评测基准。
- 模型支持术前优化、术中指引和术后报告生成,显著提升医疗效率与基层医生能力。
全球首个医疗视频理解大模型开源!6k+组精标测试集与英雄榜同步上线,开发者速来! – 量子位
[](https://www.qbitai.com/)
[](javascript:void(0))
扫码关注量子位

[](https://weibo.com/qbitai?is_all=1)
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
全球首个医疗视频理解大模型开源!6k+组精标测试集与英雄榜同步上线,开发者速来!
!Image 2_[田, 晏林](https://www.qbitai.com/author/tianyanlin "由 田, 晏林 发布")_ 2026-04-26 13:24:56 来源:量子位
开源,是最好的探针
田晏林 发自 凹非寺
量子位 | 公众号 QbitAI
手术视频的“黑盒”,被一脚踢爆了!
就在这两天,GitHub和Hugging Face社区上线了一枚医疗大模型领域的“核弹”。
全球**规模最大**、**性能最强**的医疗视频理解大模型——**uAI Nexus MedVLM**(中文名:元智医疗视频理解大模型)开源!
最惊人的是,这玩意儿是真的能看懂手术。
论文已经被CVPR 2026收录,团队还同步甩出了一套由6245个视频-指令对构成的标准测试集。
啥概念?医疗视频理解,终于有了一把“公共标尺”。
而如此兼具规模与精度的医疗视频数据开源,在**业内尚属首次**。
小编第一时间冲到Hugging Face,把模型拉下来实测了一波。
到底有多能打?
先交代一下uAI Nexus MedVLM的硬指标:
- 汇聚超53万条视频-指令数据;
- 支持4B/7B参数规模,单卡就能部署(对,一张卡就能跑);
- 整合8个专业医学数据集,覆盖内镜、腹腔镜、开放手术、机器人手术、护理操作……几乎你能想到的手术场景,它全包了。
实测效果咋样?
Demo的体验设计非常友好:界面核心模块清晰;支持上传手术视频文件。

你可以上传自己的医疗视频,也可以用预置示例直接测试。
我尝试用示例的腹腔镜胆囊切除术视频,测试了三个临床核心维度,并对比了通用大模型(GPT-5.4、Gemini-3.1、某国产大模型)和uAI Nexus MedVLM的输出差异。
**定量实测**的数据太残暴了!手术安全评估:**准确率89.7%。**
啥概念?GPT-5.4只有16.4%,Gemini-3.1是24.2%,某国产大模型是30.9%。
也就是说,**uAI Nexus MedVLM的准确率是GPT-5.4的近5.5倍,是Gemini-3.1的3.7倍,是国产大模型的近3倍。**
时空动作定位:uAI Nexus MedVLM的mIoU是Gemini-3.1的3.2倍,是国产大模型的3.7倍,是GPT-5.4的47倍,
视频报告生成(5分制):uAI Nexus MedVLM 拿到4.24分,GPT-5.4只有3.98分,某国产大模型只有3.5分,Gemini-3.1只有3.7分。
而通过**MedGRPO强化学习**优化后,相比基座模型,uAI Nexus MedVLM的**器械定位**能力提升14%;**手术步骤识别**能力暴涨52%;**手术描述质量**提升16%~25%。

uAI Nexus MedVLM覆盖内镜腔镜手术、开放式手术、机器人手术、护理操作等多类临床场景,涵盖了8个手术数据集中的8个任务:
视频摘要(VS)、关键安全视野评估(CVS)、下一步操作预测(NAP)、技能评估(SA)、时间动作定位(TAG)、密集视频描述(DVC)、区域级描述(RC)和时空基础化(STG)。
每项任务的表现都超越了GPT和Gemini。
再看**定性实测**的结果,把一段被标记了绿色框的手术视频发给大模型,让它描述。
**输入问题:**你是一名专攻微创手术的外科分析专家。这段视频展示了腹腔镜胆囊切除术的内镜画面。请描述0.0秒时,边界框内物体的状态,以及在0.0~29.0秒时间段内的操作。

**标准答案是:**钳持续夹持并将胆囊向手术视野的左上方牵拉,提供反向牵引和暴露。
GPT-5.4这边呢,它只能给出笼统的描述,未能识别出具体器械。
Gemini-3.1则将工具错误识别为“电凝钩”,描述成了不正确的操作。
某国产大模型:则无法识别出正确的手术操作步骤。
只有uAI Nexus MedVLM,给出了接近标准答案的描述:
位于左上方的抓钳持续向上并朝中央牵引胆囊,保持张力并为钩子暴露分离平面。
随后,我看了下示例给出的8个任务表现,一个比一个令人震撼。
为避免真实手术场景带来的观感不适,我们选取了一段温和的示例视频,内容是护士给患者监测身体指标。
视频涵盖了护士查看血压计、查看体温计、护理记录、洗手、测量血压、测量体温、脉搏测量、呼吸测量等工作。

现在,我们随机考察8个任务中的一个,比如「时间动作定位」。
**输入问题:**脉搏测量动作发生在什么时间?
**标准答案是:**46.0-61.8seconds。
模型给出的预测是:43.0-65.0seconds。前后**误差不超过4秒**,且正确答案就在预测范围内。
为什么手术视频是AI最难啃的骨头?
在AI医疗领域,将AI用于影像辅助诊断、病历书写、质控管理等场景早已不是新鲜事,在不少医院已经落地。
但有一个方向,至今仍是公认的“无人区”,那就是**手术视频理解**。
之前没人敢碰,为啥?三重地狱级难度,和静态影像完全不是一个量级:
**第一关:数据极难获取。**临床手术视频涉及患者隐私与医学伦理,获取本身就困难重重。
即便拿到了原始视频,你让专业医生逐帧标注?成本高到可以劝退99%的团队。
**第二关:没有统一评测标准。**这是行业里一个很尴尬的现实:各家用自己的数据集、自己的指标,模型效果根本没法横向比较。
你说你强,他说他强,谁说了都不算,严重阻碍整个赛道的发展。

**第三关:任务本身极端复杂。**手术视频的难就难在对空间、时序、语义的理解要高度专业。
比如,它需要精准识别毫米级的器械位置和解剖结构。稍微偏一点,可能就认错了。
而且胆囊得先分离再切除,不能反过来。AI如果看不懂时序,就根本无法理解手术进程。
各种约束叠加,再顶级的模型也只能歇菜。
但现在,这个无人区被uAI Nexus MedVLM**一脚踩穿**。
它不只是“炫技”,是真的能救命。
好了,说点实际的。这模型具体能干嘛?
**术前**:分析主刀老师上万台手术视频,挖掘临床规律、辅助优化方案。
想象你是一位刚站上手术台的临床医生,即将做一台胆结石微创手术。
以前你只能靠记忆和经验;现在AI把成千上万台顶级专家的**手术经验沉淀**下来,相当于有了最强的大脑,来辅助你完成这台手术。

**术中:**在分离胆囊管、显露安全视野等关键步骤,实时给出指引;对违规操作、动作偏差进行毫秒级预警,成为你的**“第三只眼”**。
**术后**:自动完成总结与结构化记录,这通常会占用医生大量时间,但现在,一键生成标准化报告。这台手术的经验,也能成为下一位医生的**“决策依据”**。
手术质控、术中安全、报告自动化、医学教学……uAI Nexus MedVLM的价值,远不止于技术突破。
在中国,优质医疗资源集中在三甲医院,基层医院医生成长周期长、手术经验积累慢。
而uAI Nexus MedVLM可以**把顶级专家的手术经验“沉淀”下来**,基层医院的医生也能获得“专家级”的术中辅助。
这或许才是AI真正理解手术视频的意义所在。
全球开发者,新机遇来了
这次发布,最值得关注的不仅是uAI Nexus MedVLM本身。
开发这一模型的背后玩家联影智能(联影集团旗下一家专注于AI医疗的创新公司),**首次向全球开源大规模高质量医疗视频标注数据和模型**,并提供了一个更具可比性的评测基准。
这意味着什么?终于有了一个手术视频理解垂直领域的**“全球公共测评体系”**了。
以前,各家模型各说各话,效果没法比。
现在,拉出来在同一个数据集上跑一跑,谁强谁弱,一目了然。
而这,还只是开始。
这支研发团队不想唱独角戏,上线了**医疗视频理解大模型榜单**,面向全世界开发者发出挑战。

这是一个综合基准测试,用于评估视频语言模型在医疗和外科视频理解方面的表现。
**开发者可提交自有模型结果**,由系统基于标准自动评分,形成**动态更新的统一排行榜。**
当全球开发者都能下载模型、使用数据集、上传自己的成果时,看谁能把对医疗视频理解的能力边界,再往前推一步了。
这个过程中,医生上传的罕见病例、复杂手术视频,尤其是现有模型表现不足的案例,都会成为极为珍贵的真实数据,持续驱动技术迭代。
医疗视频AI正在迎来面向全球开发者的黄金时代。
未来,uAI Nexus MedVLM将与具身智能融合,完善感知-推理-执行的能力闭环。从手术室拓展到更多临床场景,推动医疗全流程智能化。
数据开放、模型共享、全球协同……这条路,才刚刚开始。
开发者们,是时候上车了~
彩蛋:链接在此,请自取
1.在线Demo:
https://huggingface.co/spaces/UII-AI/MedGRPO-Demo
2.推理代码:
https://github.com/UII-AI/MedGRPO-Code
3.MedVidBench数据集:
https://huggingface.co/datasets/UII-AI/MedVidBench
4.公开榜单:
https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard
5.论文:
https://arxiv.org/abs/2512.06581
6. 项目介绍:
https://uii-ai.github.io/MedGRPO/
_版权所有,未经授权不得以任何形式转载及使用,违者必究。_
](http://www.qbitai.com/2026/04/407486.html#)
- [特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了](https://www.qbitai.com/2026/04/405325.html "特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了")_2026-04-23_
- [前小鹏汽车自动驾驶一号位李力耘出任众擎CTO,加速打造具身大脑](https://www.qbitai.com/2026/04/404124.html "前小鹏汽车自动驾驶一号位李力耘出任众擎CTO,加速打造具身大脑")_2026-04-21_
- [教育部等五部门关于印发《“人工智能+教育”行动计划》的通知](https://www.qbitai.com/2026/04/401190.html "教育部等五部门关于印发《“人工智能+教育”行动计划》的通知")_2026-04-14_
- [击败PI!星动纪元登顶具身奥林匹克,狂揽三项全球冠军](https://www.qbitai.com/2026/04/399351.html "击败PI!星动纪元登顶具身奥林匹克,狂揽三项全球冠军")_2026-04-10_
扫码分享至朋友圈
[](https://service.weibo.com/share/share.php?url=https://www.qbitai.com/2026/04/407486.html&title=%E5%85%A8%E7%90%83%E9%A6%96%E4%B8%AA%E5%8C%BB%E7%96%97%E8%A7%86%E9%A2%91%E7%90%86%E8%A7%A3%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BC%80%E6%BA%90%EF%BC%816k+%E7%BB%84%E7%B2%BE%E6%A0%87%E6%B5%8B%E8%AF%95%E9%9B%86%E4%B8%8E%E8%8B%B1%E9%9B%84%E6%A6%9C%E5%90%8C%E6%AD%A5%E4%B8%8A%E7%BA%BF%EF%BC%8C%E5%BC%80%E5%8F%91%E8%80%85%E9%80%9F%E6%9D%A5%EF%BC%81&appkey=4017757111&searchPic=true&ralateUid=6105753431 "分享到新浪微博")[](http://www.qbitai.com/2026/04/407486.html)
相关阅读

#### 在常州,这家医院携手商汤医疗实现“AI诊断准、AR导航快”
从技术革新到场景落地
十三2025-05-28

#### 我们走访全国百强三甲医院,发现40%都选了同一家AI公司
医疗AI进入验货期云知声
衡宇2025-12-23

#### 技术、场景、生态共振:京东健康发起“AI普惠医疗加速计划”
京东健康发布“AI医院”、升级“京医千询2.0”
鹭羽2025-09-25

“深思考”大医·医疗大模型
十三2025-06-30

医疗智能体重构未来医疗范式
十三2025-04-11

#### 樱智α·医疗可信平台全新发布,北电数智与中日友好医院联合打造
“数算模用”全栈赋能医疗数智化
十三2026-01-04
热门文章





扫码关注量子位 )[](https://weibo.com/qbitai?is_all=1)[](https://www.zhihu.com/org/liang-zi-wei-48/activities)[](https://www.toutiao.com/c/user/53624121633/#mid=1556041376883713)
[](http://www.qbitai.com/2026/04/407486.html#)追踪人工智能新趋势,报道科技行业新突破
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1