最新开源成果（#21）：开源模型大爆发！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等

Q: 引言：最新开源模型发布

介绍本月发布的多个开源模型及其重要性。

Interconnects AI

Interconnects AI2026年5月16日

最新开源成果（#21）：开源模型大爆发！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等

8.5内容质量

TL;DR · AI 摘要

中国开源模型与美国前沿模型能力差距持续扩大，CAISI评估显示差距达3-7个月。

核心要点

CAISI评估显示中国开源模型在多个基准测试中落后于美国模型，差距达3-7个月。
DeepSeek V4在CTF-Archive-Diamond、PortBench和ARC-AGI-2等基准测试中表现不佳。
当前基准测试未充分反映模型真实能力，需使用更贴近训练环境的工具进行评估。

结构提纲

按章节快速跳转。

§引言：最新开源模型发布
介绍本月发布的多个开源模型及其重要性。
§CAISI评估结果
分析CAISI对DeepSeek V4及其他模型的评估结果。
§基准测试方法论
解释CAISI和Epoch AI使用的评估方法及局限性。
§评估结果对比
比较不同模型在多个基准测试中的表现差异。
§评估方法的不足
指出当前评估方法未能准确反映模型实际能力。
§未来展望
讨论改进评估方法以更准确衡量模型能力的必要性。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

开源模型评估
- CAISI评估
  - DeepSeek V4表现
  - 基准测试方法
- 评估局限
  - 测试环境不匹配
  - 结果偏差
- 改进方向
  - 使用训练环境工具
  - 模型特定提示

金句 / Highlights

值得收藏与分享的关键句。

DeepSeek V4在CTF-Archive-Diamond、PortBench和ARC-AGI-2等基准测试中表现不佳。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X
当前基准测试未充分反映模型真实能力，需使用更贴近训练环境的工具进行评估。
— 第4段
⬇︎ 下载 PNG 𝕏 分享到 X
因此，我们认为要进行开源与闭源模型的前沿比较，也需要更好地激发所有模型的能力。
— 第5段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI模型#开源#性能评估

打开原文

最新开源成果 (#21): 开源模型大爆发！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 及其他

URL 源地址: https://www.interconnects.ai/p/latest-open-artifacts-21-open-model

发布时间: 2026-05-16T17:00:11+00:00

Markdown 内容: 本月非常忙碌，所有开源前沿实验室，包括 DeepSeek 都发布了新的模型。后者引发了人工智能标准与创新中心 (CAISI) 的评估，该中心过去曾对开源模型及其风险进行过评估。其结果显示，开源模型在技术前沿方面落后于美国，且差距随着时间推移而不断扩大：

Image 1: 根据涵盖五个领域的基准测试套件，对美国和中国发布的能力最强的公开模型的综合能力随时间变化的比较

在报告中，他们基于项目反应理论计算了一个 Elo 分数，这是一种常用于比较不同模型的方法，即使这些模型是在不同的基准测试集上进行测试的。对于 V4，CAISI 使用了九个不同的基准测试：

巨大的 Elo 差距部分归因于 DeepSeek V4 在 CTF-Archive-Diamond（仅使用了基准测试的一部分，并通过 IRT 对 V4 进行外推）中的低分，以及 PortBench（一个 CAISI 私有基准测试）和 ARC-AGI-2（采用不同于公共排行榜的评分方法）中的表现。这些基准测试之间的差异对整体 Elo 产生了巨大影响，可能会加剧模型能力的差距。

当使用 Epoch AI 的 ECI，它同样基于一组不同的基准测试使用 IRT 时，我们看到差距大致保持在 R1 以来的 3 到 7 个月之间：

ECI 中的开源 <> 闭源差距（来源：https://mcnair.center/china/）

然而，CAISI 和 ECI 的分析并不完整，因为它们都使用标准化（且简单）的设置来比较模型的能力。更具体地说：编码任务的评估是通过访问 bash 和一个带有固定标记预算的 for 循环来进行的，而不是像 Claude Code 或 OpenCode 这样的工具，这些工具正是模型训练所使用的！这些设置导致基准测试声称目前无法将应用程序移植到另一种语言，而 Bun 已经从 Zig 移植到了 Rust，共进行了 100 万行代码的更改 1。

因此，我们认为，要对开源和闭源模型进行前沿对比，也需要更好地激发所有模型的能力，这意味着需要使用首选的工具包以及针对模型特定的提示方式。

本节主要由 Florian 撰写。Interconnects 内部的一个有趣动态是，Florian 更相信开源前沿模型在真实性能上接近闭源模型。Nathan 虽然也认为基准测试不完美，但他认为闭源模型领先更多。我们将继续在未来的文章中深入探讨这一点。

[MiMo-V2.5-Pro](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro) by XiaomiMiMo: 热心的 Artifacts 读者都知道，小米一直在开发开源模型；其首次亮相是在一年前。其发布的进展令人印象深刻，2.5 Pro（采用 Apache 2.0 协议发布）在基准测试和实际应用中的表现与 Kimi K2.6 和 GLM-5.1 等旗舰模型不相上下。

[gemma-4-26B-A4B-it](https://huggingface.co/google/gemma-4-26B-A4B-it) by google（完整连接体文章请见此处）：Gemma 系列的长期期待更新，包含多种尺寸：4B、9B 和 31B 密集模型，以及一个 26B-A4B 的 MoE 模型。更重要的是，Gemma 4 使用 Apache 2.0 许可证，消除了对自定义许可证进行解释时的不确定性与法律挑战。

[Kimi-K2.6](https://huggingface.co/moonshotai/Kimi-K2.6) by moonshotai：Kimi 系列的更新，整体性能更强，再次成为当前最佳开源模型之一。他们还专注于长距离性能，展示了开源模型能够运行数小时以完成任务或优化性能的能力。鉴于大家都致力于构建类似 autoresearch 的系统，看到开源模型迎头赶上是非常重要的。

Image 5: K2.6 Qwen3.5-0.8B Mac inference optimization case

[Laguna-XS.2](https://huggingface.co/poolside/Laguna-XS.2) by poolside：Poolside AI 发布了其首个面向编程的公开模型，包括开放权重的 XS.2。其规模（33B-A3B）使其在本地使用上更具吸引力，性能与其他同尺寸模型相当。配套的博客文章值得阅读，此外还有关于编码评估中奖励黑客行为的深入分析文章。

[DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash) by deepseek-ai：DeepSeek 最终发布了其 V3 系列的后续版本，该系列已持续更新数月。它有两个尺寸：Pro，为 1.6T-A49B 的 MoE；以及 Flash，为 284B-13B 的模型。根据他人的经验，后者似乎是真正的亮点，因为其性能相对较强，而 Pro 相对于其规模似乎表现不佳。技术报告详细介绍了包括用于实现更优且更低成本长上下文性能的架构变化。

[Qwen3.6-35B-A3B](https://huggingface.co/Qwen/Qwen3.6-35B-A3B) by Qwen：针对 Qwen 3.5 系列中最广泛使用的尺寸进行更新。

[LFM2.5-350M](https://huggingface.co/LiquidAI/LFM2.5-350M) by LiquidAI：拥有 28T 个 token 和 350M 个参数，这个模型可能是目前训练最充分的模型之一。

[Trinity-Large-Thinking](https://huggingface.co/arcee-ai/Trinity-Large-Thinking) by arcee-ai：Trinity 的推理版本，是目前最好的西方开源模型之一。它在 OpenRouter 上排名靠前，可以驱动如 OpenClaw 这样的代理应用。

[GLM-5.1](https://huggingface.co/zai-org/GLM-5.1) by zai-org：GLM-5 的更新，整体得分有所提升。此次更新的重点在于长距离任务。