新开源模型:MiniMax M3 已上线 Arena!
MiniMax M3 是首个开源权重模型,同时支持文本、视觉、文档和代码任务,在 SWE-Bench Pro 等基准测试中表现优异,上下文长度达 1M tokens。
入选理由:MiniMax M3 在 SWE-Bench Pro 达到 59.0%,Terminal Bench 2.1 达 66.0%,是当前开源模型中编程能力最强之一。
产品
别名:Arena
AI 模型评测平台,提供多维度对比与用户投票功能。
已跟踪 2 条高相关材料
最近变化
2026-06-01 · MiniMax M3 在 SWE-Bench Pro 达到 59.0%,Terminal Bench 2.1 达 66.0%,是当前开源模型中编程能力最强之一。
为什么值得关注
lmarena.ai 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
New open model: MiniMax M3 by @MiniMax_AI is live in the Arena! Find it across Text, Vision, Docume...
lmarena.ai(@lmarena_ai) · 7.5 分
MiniMax M3 是首个开源权重模型,同时支持文本、视觉、文档和代码任务,在 SWE-Bench Pro 等基准测试中表现优异,上下文长度达 1M tokens。
Asked Gemini 3.5 Flash to render the Petra Treasury. It built the entire stone canyon around it - so...
lmarena.ai(@lmarena_ai) · 7 分
Gemini 3.5 Flash在渲染Petra Treasury时自主构建了周围石峡谷并添加环境音效,展现了超越其他前沿模型的能动性行为。
已收录 2 条与 lmarena.ai 相关的内容,按评分排序。
MiniMax M3 是首个开源权重模型,同时支持文本、视觉、文档和代码任务,在 SWE-Bench Pro 等基准测试中表现优异,上下文长度达 1M tokens。
入选理由:MiniMax M3 在 SWE-Bench Pro 达到 59.0%,Terminal Bench 2.1 达 66.0%,是当前开源模型中编程能力最强之一。
Gemini 3.5 Flash在渲染佩特拉宝库时自主构建了周围石峡谷并添加环境音效,展现了超越其他前沿模型的能动性行为。
入选理由:Gemini 3.5 Flash在渲染任务中自主构建了周围石峡谷,而其他模型未做到这点