消费级显卡可以快速上手跑!面壁智能MiniCPM-o 4.5发技术报告

- MiniCPM-o 4.5是首个端到端全双工全模态模型,参数仅9B,支持视频、音频、文本流输入输出。
- 基于Omni-Flow框架,实现毫秒级实时感知与交互,降低延迟并提升流畅性。
- 开源Demo和API已上线,适配Windows、macOS,并支持开发者二次开发。
消费级显卡可以快速上手跑!面壁智能MiniCPM-o 4.5发技术报告 – 量子位
[](https://www.qbitai.com/)
[](javascript:void(0))
扫码关注量子位

[](https://weibo.com/qbitai?is_all=1)
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
消费级显卡可以快速上手跑!面壁智能MiniCPM-o 4.5发技术报告
!Image 2_[衡宇](https://www.qbitai.com/author/hengyu "由 衡宇 发布")_ 2026-04-28 22:50:10 来源:量子位
下载量突破25万
面壁智能 投稿
量子位 | 公众号 QbitAI
面壁智能公开了自己在全双工全模态交互领域的核心技术——
**Omni-Flow 流式全模态框架。**

今天,**面壁智能联合OpenBMB开源社区、清华大学THUNLP实验室和THUMAI实验室,正式发布MiniCPM-o 4.5技术报告。**
过往大模型均为半双工交互模式,类似对讲机式轮次对话。
用户与AI无法并行交流,AI无法实时感知环境、不能被打断插话,存在交互时空割裂,用户体验差,严重制约多模态AI落地应用。
MiniCPM-o 4.5是面壁智能今年2月发布的全双工全模态模型,也是业界首个端到端全双工全模态大模型。
△MiniCPM-o 4.5 实现了最右侧的全双工流式交互
该模型参数规模约9B,支持视频、音频、文本流输入及文本与语音的连续输出。
利用MiniCPM-o 4.5,不用联网、仅用一张消费级显卡,你就能在个人电脑上拥有一个“边看、边听、边说、还能主动提醒”的类人AI助手。
目前,MiniCPM-o 4.5已基于llama.cpp完成模型量化和推理性能优化,实测最低12GB显存的RTX 5070即可流畅运行全双工模式(RTF0.4),极大降低了个人端侧部署的准入门槛。M1-M5 Max(包含M5 Pro)的MAC设备亦可使用,建议内存超过16G。
下面这支视频展示了MiniCPM-o 4.5在个人笔记本上的完整部署与运行过程,包括全双工语音对话、实时视觉理解、主动提醒等能力演示。
模型发布至今,**抱抱脸下载量已突破25万+。**
技术报告发布之外,MiniCPM-o 4.5还同步推出在线体验Demo、全模态全双工API、端侧安装包Comni和Demo仓库。
核心依托Omni-Flow流式全模态框架
MiniCPM-o 4.5极致流畅的全双工交互体验,核心依托于面壁智能与清华大学联合研发的**Omni-Flow流式全模态框架**。
这也是本次技术报告公开的核心底层技术。
该框架打破传统模型孤立的回合式交互逻辑,搭建起毫秒级统一时间轴。
通过时分复用机制,Omni-Flow流式全模态框架将视觉、音频、文本等多模态并行信息流,精准对齐、拆分重组为周期性时序信息组。
模型以每秒一次的高频次持续刷新环境认知,实时更新对场景和用户意图的理解,全程无需依赖外部VAD语音活动检测工具,原生支持持续感知、即时响应、自由打断。
**在模型架构上**,MiniCPM-o 4.5采用轻量化端到端全模态设计,整体仅9B参数,由四大核心模块高效协同构成:
- 0.4B参数SigLIP-ViT视觉编码器负责环境视觉感知;
- 0.3B参数Whisper-Medium音频编码器完成声音信息采集;
- 8B参数Qwen3-8B LLM基座承担核心思考与语义理解;
- 搭配0.3B参数轻量级语音Token解码器实现语音生成。

模块化分工设计各司其职、高效联动,既保留了大模型强大的理解推理能力,又规避了复杂声学任务对核心算力的损耗。
同时搭配自研TAIL时间对齐交错语音生成方案,精准匹配文本与语音输出节奏。
在保证语音流畅自然、情感饱满的前提下,最大限度降低交互延迟,彻底解决流式对话卡顿、滞后、衔接生硬的行业难题。
参数不大,但实力不容小觑。
在多项权威评测基准中实现越级对标,MiniCPM-o 4.5综合性能比肩甚至超越多款行业前沿大模型。

**在视觉能力上**,模型OpenCompass综合得分77.6、MMBench英文得分87.6,整体表现对标Gemini 2.5 Flash,图像理解、数学推理、文档解析能力表现优异。
**在全模态动态交互、视频场景理解领域**,MiniCPM-o 4.5的优势更为突出。
Daily-Omni、Video-Holmes等多项评测数据显示,MiniCPM-o 4.5优于Gemini 2.5 Flash等大模型的表现;在LiveSports-3K-CC全双工视频基准测试中,胜率达到54.4%,领先各类专用流式视频模型。
同时**模型推理效率优势显著**。
INT4量化版本显存占用大幅降低,仅需12GB显存即可运行,解码速度可达212 tokens/s,相较同类模型提速40%以上,响应延迟更低,性价比与落地优势拉满。

除此之外,**模型搭载多项实用特色功能,适配多元化使用场景**。
MiniCPM-o 4.5全面支持中英双语实时语音对话,语音生成质量行业领先,中文CER、英文WER错误率低于CosyVoice2等主流模型,情感表现力更强。
支持简易参考音频即可完成声音克隆与角色扮演,音色自然逼真。
延续MiniCPM-V系列优势,**拥有前沿的OCR文档解析能力**,支持高清图像、高帧率视频处理,多语言解析能力覆盖30余种语言。
同时,模型**原生兼容传统轮次对话、Omni-Flow全双工流式交互两种模式**,无缝切换,兼顾精准问答与实时流式交互需求,适配各类使用场景。
兼顾普通用户体验与开发者二次开发需求
为让技术真正落地普惠,MiniCPM-o 4.5打造了全渠道、全人群的开放落地体系,兼顾普通用户体验与开发者二次开发需求。
**面向普通用户**,官方开放无需注册、无需下载的在线体验Demo,同时推出适配Windows、macOS系统的桌面端Comni一键安装包,简化部署流程,普通用户可快速上手体验全双工AI交互能力。
**面向广大开发者**,平台免费开放全双工实时WebSocket API,提供完整规范的接口文档,支持快速接入各类应用;同时完整开源Demo前后端代码,开放Linux部署方案,支持开发者自由二次开发、自定义调试,助力各类全模态AI应用快速落地。
依托原生全双工、持续感知、主动交互的核心能力,MiniCPM-o 4.5突破了传统AI单次问答的场景局限,解锁了大量全新流式交互应用场景。
**在生活服务领域**,有望作为沉浸式智能陪伴助手,在用户运动、烹饪、日常劳作时实时答疑、主动提醒、全程指导。
**在无障碍公益领域**,可为视障人群提供实时环境感知服务,主动播报路况、设备状态、环境变化,成为可靠的“视觉辅助助手”。
**在智能车载领域**,可以持续监测路况与驾驶员状态,主动预警风险、提示可用车位、辅助泊车,提升驾驶安全性。
**在具身智能领域**,可作为机器人核心大脑,持续感知动态环境、自主决策交互时机,适配智能机器人、智能家居等智能化场景,覆盖生活化、公益化、工业级多维度需求。
可以说,MiniCPM-o 4.5把“主动式AI”从概念变成了可以在你电脑上跑起来的东西。
当然,团队也在技术报告中坦诚指出了当前不足:
长时间交互的稳定性、主动行为的丰富性、对复杂场景的鲁棒性,都还有提升空间。
但这不妨碍它已经立起了一个新的起点——全双工全模态、端侧可部署、全栈开源,这条路线跑通了。
目前,MiniCPM-o 4.5**在线体验、API、端侧安装包、Demo代码仓库,所有入口都已在GitHub和面壁官网上线。**
感兴趣的小伙伴可以直接上手体验~
期待大家在评论区反馈。
技术报告PDF:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
在线体验:
https://minicpmo45.modelbest.cn/
在线体验(手机端推荐):
https://minicpmo45.modelbest.cn/mobile/
GitHub Demo(含本地安装包):
https://github.com/OpenBMB/MiniCPM-o-Demo
抱抱脸:
https://huggingface.co/openbmb/MiniCPM-o-4_5
魔搭:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
_版权所有,未经授权不得以任何形式转载及使用,违者必究。_
](http://www.qbitai.com/2026/04/410506.html#)
- [大厂AI抢人大战,从实习生开始](https://www.qbitai.com/2026/04/404470.html "大厂AI抢人大战,从实习生开始")_2026-04-22_
- [Kimi新论文:把KVCache玩成新商业模式了](https://www.qbitai.com/2026/04/403528.html "Kimi新论文:把KVCache玩成新商业模式了")_2026-04-19_
- [20亿美金苏度科技具身首秀即大招!0真机数据,zero-shot,跑出98%首次抓取成功率](https://www.qbitai.com/2026/04/403543.html "20亿美金苏度科技具身首秀即大招!0真机数据,zero-shot,跑出98%首次抓取成功率")_2026-04-20_
- [大模型架构的下半场](https://www.qbitai.com/2026/04/403515.html "大模型架构的下半场")_2026-04-19_
扫码分享至朋友圈
[](https://service.weibo.com/share/share.php?url=https://www.qbitai.com/2026/04/410506.html&title=%E6%B6%88%E8%B4%B9%E7%BA%A7%E6%98%BE%E5%8D%A1%E5%8F%AF%E4%BB%A5%E5%BF%AB%E9%80%9F%E4%B8%8A%E6%89%8B%E8%B7%91%EF%BC%81%E9%9D%A2%E5%A3%81%E6%99%BA%E8%83%BDMiniCPM-o%204.5%E5%8F%91%E6%8A%80%E6%9C%AF%E6%8A%A5%E5%91%8A&appkey=4017757111&searchPic=true&ralateUid=6105753431 "分享到新浪微博")[](http://www.qbitai.com/2026/04/410506.html)
相关阅读

#### 面壁发布首个纯端侧智能助手,构建汽车超性能端侧大脑
大模型必将变得越来越小,却越来越强。端侧模型的发展,必将是大势所趋。
明敏2025-03-30

#### 智能车速度刷新:仅10个月,首个纯端侧大模型上车量产!
端上的汽车大脑
十三2025-04-24

#### 面壁智能ChatDev火遍全球,GitHub星标超1.2万
ChatDev 又双叒叕霸榜了 GitHub Trending
量子位2023-10-10

#### 首创双NPU架构一鸣惊人!联发科天玑9500重磅加码主动式AI体验
让AI跑得久、跑得稳
克雷西2025-09-22

#### 建圈强链,2025高成长企业CEO大会在绵阳成功举办
2025高成长企业CEO大会暨中国(绵阳)科技城“三江杯”创新创业大赛在绵阳经开区成功举办。
明敏2025-06-23

#### AI端计算应用:如何快速训练高精度模型并在设备端加速计算 | 百度AI公开课报名
[](http://www.qbitai.com/?author=11)2020-10-23
热门文章





扫码关注量子位 )[](https://weibo.com/qbitai?is_all=1)[](https://www.zhihu.com/org/liang-zi-wei-48/activities)[](https://www.toutiao.com/c/user/53624121633/#mid=1556041376883713)
[](http://www.qbitai.com/2026/04/410506.html#)追踪人工智能新趋势,报道科技行业新突破
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1