高效推理MiniMax-M3:解锁1M令牌上下文和多模态能力
Together AI优化了MiniMax M3模型的部署,通过架构和工程创新实现81–125%吞吐量提升。
入选理由:MiniMax M3 supports 1M-token context and native multimodality, making it suitable for complex real-world tasks.
模型对比
MiniMax M3 和 Step 3.7 Flash 都是 AI 领域的模型。以下是基于 traeai 收录的真实报道数据的全面对比。
模型
也叫:M3
MiniMax推出的最新一代多模态大语言模型,支持1M令牌上下文和原生多模态推理。
6 篇相关报道
模型
也叫:step3.7flash
阶跃星辰发布的高效推理模型。
7 篇相关报道
6
MiniMax M3 相关
0
共同提及
7
Step 3.7 Flash 相关
Together AI优化了MiniMax M3模型的部署,通过架构和工程创新实现81–125%吞吐量提升。
入选理由:MiniMax M3 supports 1M-token context and native multimodality, making it suitable for complex real-world tasks.
MiniMax-M3 已上线 OpenRouter,是一款支持100万token上下文、前沿编码与代理性能、原生多模态(图像/视频)的开源模型,标志着大模型能力向长文本、多模态和自主执行方向的重要突破。
入选理由:MiniMax-M3 支持1M-token上下文窗口,显著超越主流模型如GPT-4o的32K限制。
开源模型MiniMax M3已达到与GPT-5.5和Opus 4.7相当的性能,尤其在编码任务上优于Gemini 3.1 Pro,且成本仅为它们的1/10,其权重将于下周在Hugging Face开放。
入选理由:MiniMax M3在SWE Bench Pro上与GPT-5.5性能相当
MiniMax M3 是首个开源权重模型,同时支持文本、视觉、文档和代码任务,在 SWE-Bench Pro 等基准测试中表现优异,上下文长度达 1M tokens。
入选理由:MiniMax M3 在 SWE-Bench Pro 达到 59.0%,Terminal Bench 2.1 达 66.0%,是当前开源模型中编程能力最强之一。
MiniMax M3在BU Bench测试中性能提升26%,达到Claude 4.6-sonnet和Gemini 3.5 Flash水平,但测试细节未公开。
入选理由:MiniMax M3在BU Bench上实现26%的性能提升,具体测试方法未详述。
OpenRouter 推出首周50%折扣促销,但文章仅为广告,未提供任何技术细节或工程指导,信息价值低。
入选理由:首周50%折扣仅限7天,无具体使用限制说明。
StepFun 推出新一代高效率编码代理模型 Step 3.7 Flash,支持多模态理解与长程规划;其最大亮点是在 Hermes Agent 中完全免费无限制使用,大幅降低开发者试用门槛。
入选理由:Step 3.7 Flash 是 StepFun 新一代 agentic coding 模型,含196B总参数 + 1.8B 视觉模块 + ~11B 激活参数,支持256K上下文窗口。
阶跃星辰发布的 Step 3.7 Flash 是面向生产级 AI Agent 的新一代 Flash 模型,具备原生多模态理解、高吞吐低延迟和联网搜索增强能力,在编程任务中性能接近 Claude Opus 4.6 的 97%,但成本仅为后者约 1/9,适合高频、复杂、真实工作流场景。
入选理由:Step 3.7 Flash 采用稀疏 MoE 架构,激活参数仅 11B,最高生成速度达 400 Tokens/s,支持 40 个 Agent 并行运行。
Step 3.7 Flash 是一个专为推理优化设计的 196B MoE 模型,采用 MFA 和 AFD 技术,KV-cache 占用仅为 DeepSeek 的 22%,支持高效代理、编码和多模态任务,已开源并可在 Fireworks 平台使用。
入选理由:Step 3.7 Flash 是 196B MoE 模型,从设计之初就聚焦推理效率,而非事后优化。
NVIDIA introduces Step 3.7 Flash for large-scale MoE models.
入选理由:Step 3.7 Flash 支持 198B 参数 MoE 模型,其中 11B 参数为活跃状态。
文章仅提供了一个链接,介绍如何在 NVIDIA GPU 上运行 Step 3.7 Flash,缺乏深度和技术细节。
入选理由:文章链接指向 NVIDIA 开发者博客,介绍 Step 3.7 Flash 的运行方法。
Step 3.7 Flash通过MFA + AFD技术显著降低KV-cache成本,实现高效推理,支持一键部署。
入选理由:Step 3.7 Flash采用MFA + AFD技术,将KV-cache成本降至原模型的分数。
Step 3.7 Flash模型以400 tokens/秒的速度显著降低Agent任务成本,仅为Claude的零头。
入选理由:处理速度达400 tokens/秒