Fireworks AI 推出 Step 3.7 Flash：从设计出发的 198B 稀疏 MoE 视觉语言模型

Fireworks AI(@FireworksAI_HQ)2026年6月4日

8.2Score

TL;DR · AI 摘要

Fireworks AI 引入 Step 3.7 Flash：从推理效率出发设计的 198B 稀疏 MoE 视觉语言模型，集成 196B 语言与 1.8B 视觉编码器，实现实际代理任务最高 400 token/s 推理。

按章节快速跳转。

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

值得收藏与分享的关键句。

Step 3.7 Flash 采用 198B 稀疏 MoE 架构，语言与视觉编码器分别为 196B 与 1.8B，专为推理效率从设计出发。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
在实际代理工作负载上实现实时 400 token/s 推理，显著提升吞吐与稳定性。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
相较通用 VLM，Step 3.7 Flash 通过稀疏 MoE 与端到端优化，提供生产级低时延与高吞吐能力。
— 推导自全文定位与应用场景
⬇︎ 下载 PNG 𝕏 分享到 X

#Step3.7 Flash#稀疏 MoE#VLM#198B#400 token/s

不要错过正在发生的事情

许多研究实验室只是事后才考虑推理效率。Step 3.7 Flash 是由 @StepFun_ai 从一开始就为推理设计的 198B 稀疏 MoE 多模态大模型。它拥有 196B 的语言主干和 1.8B 的视觉编码器，专为真实世界的智能体工作负载打造，运行速度最高可达 400