Qwen3.7-Max 成为全球第二AI编程模型
Qwen3.7-Max 成为全球第二 AI 编程模型,得分 1541,在 Code Arena 上仅落后于 Claude。该模型适用于生产环境,能够处理 35 小时的任务、1000 多次工具调用,并在几小时内完成两周的项目。
入选理由:Qwen3.7-Max 在 Code Arena 上得分为 1541,仅次于 Claude。
产品
也叫:Arena.ai
一个用于评估 AI 模型在代码生成任务中表现的平台。
已收录 6 篇与「Code Arena」相关的 AI 资讯和分析。
Qwen3.7-Max 成为全球第二 AI 编程模型,得分 1541,在 Code Arena 上仅落后于 Claude。该模型适用于生产环境,能够处理 35 小时的任务、1000 多次工具调用,并在几小时内完成两周的项目。
入选理由:Qwen3.7-Max 在 Code Arena 上得分为 1541,仅次于 Claude。
Claude Opus 4.8 在 Code Arena: Frontend 测试中表现出色,专注于 HTML 和 React 的前端开发任务。
入选理由:Claude Opus 4.8 在前端开发任务中表现出高效和准确性。
Code Arena引入了7种新的前端输出排行榜视图,以更精确地反映最佳前端编码模型的选择取决于正在构建的内容。
入选理由:Code Arena新增7种前端输出排行榜视图。
Poolside AI 发布开源 MoE 编程模型 Laguna XS.2(33B/3B),专为智能体式前端开发任务优化,支持单卡运行,Apache 2.0 协议。
入选理由:Laguna XS.2 是 Poolside 自研的 33B 总参、3B 激活的稀疏 MoE 编程模型
MiMo-V2.5 Pro 在 Code Arena: Frontend WebDev 中排名第11(开放模型中第3),每 MToken 输入成本为1美元,输出成本为3美元。
入选理由:MiMo-V2.5 Pro 在前端开发领域表现出色
LMSYS 推出 Code Arena: Frontend 评估平台,专注于测试 AI 模型在真实用户场景下的代理式前端编码能力(HTML/React),但目前仅发布预告,排行榜和技术细节尚未公开。
入选理由:LMSYS 推出 Code Arena: Frontend,专注评估 AI 模型在真实用户构建应用和网站场景下的代理式前端编码能力
与「Code Arena」经常一起出现的 AI 术语。
💡 想追踪「Code Arena」的长期趋势?去 实体雷达 · Code Arena 查看详细分析和跨材料问答。