Fireworks AI(@FireworksAI_HQ)
Fireworks AI 推出 Step 3.7 Flash:从设计出发的 198B 稀疏 MoE 视觉语言模型
8.2Score

TL;DR · AI 摘要
Fireworks AI 引入 Step 3.7 Flash:从推理效率出发设计的 198B 稀疏 MoE 视觉语言模型,集成 196B 语言与 1.8B 视觉编码器,实现实际代理任务最高 400 token/s 推理。
核心要点
- 从设计阶段即优化推理效率,非事后补强。
- 198B 稀疏 MoE 架构,语言与视觉编码器分别 196B 与 1.8B。
- 面向真实代理工作负载,推理达 400 token/s 顶峰。
结构提纲
按章节快速跳转。
- §模型概述
Step 3.7 Flash 是从推理效率出发设计的 198B 稀疏 MoE 视觉语言模型。
- ·性能指标
在实际代理工作负载上实现实时 400 token/s 推理吞吐。
- ·设计原则
强调从设计阶段即优化推理效率,而非事后补强。
- ·适用场景
面向机器人、导航、多模态对话等实时决策与动作执行场景。
由 StepFun.ai 开发,Fireworks AI 采用并集成到生产系统中。
- ·优化目标
在保持高精度与稳定性的同时显著提升推理吞吐与低时延保障。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Step 3.7 Flash 模型
- 架构设计
- 198B 稀疏 MoE
- 196B 语言主干
- 1.8B 视觉编码器
- 性能指标
- 400 token/s 推理
- 设计原则
- 从设计阶段优化推理
- 适用场景
- 机器人与导航
- 多模态对话
- 实时决策与动作执行
- 开发与集成
- StepFun.ai 开发
- Fireworks AI 采用
- 优化目标
- 高精度与稳定性
- 提升推理吞吐
- 低时延保障
金句 / Highlights
值得收藏与分享的关键句。
Step 3.7 Flash 采用 198B 稀疏 MoE 架构,语言与视觉编码器分别为 196B 与 1.8B,专为推理效率从设计出发。
在实际代理工作负载上实现实时 400 token/s 推理,显著提升吞吐与稳定性。
相较通用 VLM,Step 3.7 Flash 通过稀疏 MoE 与端到端优化,提供生产级低时延与高吞吐能力。
#Step3.7 Flash#稀疏 MoE#VLM#198B#400 token/s
打开原文