T
traeai
登录
返回首页
Fireworks AI(@FireworksAI_HQ)

Fireworks AI 推出 Step 3.7 Flash:从设计出发的 198B 稀疏 MoE 视觉语言模型

8.2Score
Fireworks AI 推出 Step 3.7 Flash:从设计出发的 198B 稀疏 MoE 视觉语言模型

TL;DR · AI 摘要

Fireworks AI 引入 Step 3.7 Flash:从推理效率出发设计的 198B 稀疏 MoE 视觉语言模型,集成 196B 语言与 1.8B 视觉编码器,实现实际代理任务最高 400 token/s 推理。

核心要点

  • 从设计阶段即优化推理效率,非事后补强。
  • 198B 稀疏 MoE 架构,语言与视觉编码器分别 196B 与 1.8B。
  • 面向真实代理工作负载,推理达 400 token/s 顶峰。

结构提纲

按章节快速跳转。

  1. Step 3.7 Flash 是从推理效率出发设计的 198B 稀疏 MoE 视觉语言模型。

  2. 包含 196B 语言主干与 1.8B 视觉编码器,采用稀疏 MoE 机制。

  3. 在实际代理工作负载上实现实时 400 token/s 推理吞吐。

  4. 强调从设计阶段即优化推理效率,而非事后补强。

  5. 面向机器人、导航、多模态对话等实时决策与动作执行场景。

  6. StepFun.ai 开发,Fireworks AI 采用并集成到生产系统中。

  7. 在保持高精度与稳定性的同时显著提升推理吞吐与低时延保障。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Step 3.7 Flash 模型
    • 架构设计
      • 198B 稀疏 MoE
      • 196B 语言主干
      • 1.8B 视觉编码器
    • 性能指标
      • 400 token/s 推理
    • 设计原则
      • 从设计阶段优化推理
    • 适用场景
      • 机器人与导航
      • 多模态对话
      • 实时决策与动作执行
    • 开发与集成
      • StepFun.ai 开发
      • Fireworks AI 采用
    • 优化目标
      • 高精度与稳定性
      • 提升推理吞吐
      • 低时延保障

金句 / Highlights

值得收藏与分享的关键句。

  • Step 3.7 Flash 采用 198B 稀疏 MoE 架构,语言与视觉编码器分别为 196B 与 1.8B,专为推理效率从设计出发。

    正文

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 在实际代理工作负载上实现实时 400 token/s 推理,显著提升吞吐与稳定性。

    正文

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 相较通用 VLM,Step 3.7 Flash 通过稀疏 MoE 与端到端优化,提供生产级低时延与高吞吐能力。

    推导自全文定位与应用场景

    ⬇︎ 下载 PNG𝕏 分享到 X
#Step3.7 Flash#稀疏 MoE#VLM#198B#400 token/s
打开原文

不要错过正在发生的事情

图像 1:方形个人资料图片

许多研究实验室只是事后才考虑推理效率。Step 3.7 Flash 是由 @StepFun_ai 从一开始就为推理设计的 198B 稀疏 MoE 多模态大模型。它拥有 196B 的语言主干和 1.8B 的视觉编码器,专为真实世界的智能体工作负载打造,运行速度最高可达 400

图像 2:图像

AI 可能会生成不准确的信息,请核实重要内容

Fireworks AI 推出 Step 3.7 Flash:从设计出发的 198B 稀疏 MoE 视觉语言模型 | Fireworks AI(@FireworksAI_HQ) | traeai