T
traeai
登录
返回首页
Simon Willison's Weblog

The last six months in LLMs in five minutes

8.5Score
The last six months in LLMs in five minutes

TL;DR · AI 摘要

2025年11月是LLM发展的关键转折点,三大厂商的模型性能在六个月内五次易主,编码代理实现质的飞跃达到日常可用水平,同时Warelay等新兴工具开始出现。

核心要点

  • 2025年11月三大厂商模型性能排名变化5次,Claude Opus 4.5最终胜出
  • 编码代理通过RLVR训练实现突破,从经常可用变为基本可用
  • Warelay项目于2025年11月24日首次提交,预示新工具生态

结构提纲

按章节快速跳转。

  1. 2025年11月是LLM发展的关键月份,特别是在编码能力方面出现重大突破。

  2. Claude Sonnet 4.5GPT-5.1Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5在六个月内五次交替领先。

  3. 使用生成骑自行车鹈鹕SVG的测试来评估模型能力,因为该任务不可能被专门训练。

  4. 基于RLVR训练的编码代理在11月实现从经常可用到基本可用的质量飞跃。

  5. OpenAI和Anthropic使用可验证奖励强化学习来提升代码生成质量。

  6. 开发者现在可以日常使用编码代理完成实际工作,而不需要花费大量时间修复错误。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • LLM近六个月发展
    • 2025年11月转折点
      • 模型排名五次变化
      • 编码代理质量突破
    • 评测方法
      • 鹈鹕骑自行车测试
      • SVG生成质量对比
    • 技术进展
      • RLVR训练方法
      • 代码代理工具成熟

金句 / Highlights

值得收藏与分享的关键句。

  • 所谓的最佳模型(主要取决于感觉)在三大提供商之间五次易主

    第3段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 编码代理从经常可用变为基本可用,跨越了一个质量门槛,你可以将它们作为日常工具来完成实际工作

    第6段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • OpenAI和Anthropic在2025年大部分时间都在运行可验证奖励强化学习,以提高其模型编写的代码质量

    第6段

    ⬇︎ 下载 PNG𝕏 分享到 X
#LLM#AI编程#模型评测#Anthropic#OpenAI
打开原文

标题:五分钟速览过去六个月的大语言模型发展

来源网址:https://simonwillison.net/2026/May/19/5-minute-llms/

发布时间:2026年5月19日 星期二 01:22:41 GMT

2026年5月19日

这些带注释的幻灯片来自我在PyCon US 2026上的五分钟闪电演讲,使用了我带注释演示工具最新版本

图1:五分钟速览过去六个月的大语言模型发展 西蒙·威尔逊 - simonwillison.net  PyCon US 2026闪电演讲

#

我在PyCon US 2026上进行了这场闪电演讲,试图用五分钟总结过去六个月大语言模型的发展。

图2:十一月转折点

#

六个月是个非常合适的时间跨度,因为它涵盖了我所称的2025年11月转折点。十一月对大语言模型而言是关键月份,尤其在编程领域。

图3:"最佳"模型在Anthropic、OpenAI和谷歌之间五次易主

#

首先,所谓的"最佳"模型(主要凭感觉判断)在三大供应商之间五次易主。

图4:生成骑自行车的鹈鹕SVG图像

#

我依然使用生成骑自行车的鹈鹕SVG图像测试来展示模型间的差异。

为什么选这个测试?因为鹈鹕难画,自行车难画,而且鹈鹕_根本不会骑自行车_……没有任何AI实验室会为这种荒谬任务训练模型。

图5:五个鹈鹕图像,分别来自以下模型,质量参差不齐!

#

十一月初公认的"最佳"模型是9月29日发布的Claude Sonnet 4.5。它为我画了这个鹈鹕。

十一月先后被GPT-5.1Gemini 3GPT-5.1 Codex Max超越,最终Anthropic用Claude Opus 4.5重夺桂冠。

我认为Gemini 3画的鹈鹕最好,但鹈鹕不是全部。多数实践者会认同Opus 4.5在接下来几个月保持了领先地位。

图6:编程智能体变得好用

#

这一点经过一段时间才变得清晰,但十一月真正的新闻是编程智能体变得_好用_。

OpenAI和Anthropic在2025年大部分时间都在运用可验证奖励强化学习提升模型代码质量,特别是搭配他们的Codex和Claude Code智能体框架。

十一月这项工作的成果开始显现。编程智能体从"经常能用"升级到"基本可用",跨越了质量门槛,可以作为日常工具完成实际工作,无需花费大量时间修正低级错误。

图7:GitHub上steipete/Warelay仓库的"初始提交"截图,提交记录f6dd362,steipete于2025年11月24日提交 这是MIT许可证的副本

#

同样在十一月,发生了这件事——某个叫Pete的人向当时名不见经传的"Warelay"代码库进行了首次提交。

图8:十二月/一月(轻度大语言模型狂热症)

#

在十二月至一月的假期期间,我们许多人趁此机会探索这些新模型和编程智能体的能力边界。

它们确实能力惊人!有些人甚至有些过度兴奋。当我开始推进各种天马行空的项目测试极限时,自己也短暂经历了某种形式的大语言模型狂热症。

图片 9:微型 JavaScript 沙盒环境 在由 Pyodide 驱动的沙盒化微型 JavaScript 环境中执行 JavaScript 代码
javascript
var numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10];
var doubled = numbers.map(n => n * 2);
console.log('Doubled: "', doubled);
var evens = numbers.filter(n => n % 2 === 0);
console.log('Evens: ', evens);
var sum = numbers.reduce((a, b) => a + b, @);
console.log('Sum:", sum);
code
输出 27
Doubled: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20]
Evens: [2, 4, 6, 8, 10]
Sum: 55
执行时间: 8.00ms
关于:micro-javascript 是一个纯 Python 实现的 JavaScript 解释器,具有可配置的内存和时间限制。该沙盒环境完全在您的浏览器中使用 Pyodide(编译为 WebAssembly 的 Python)运行。在 GitHub 上查看
图片 10:在 WebAssembly 中运行的 Pyodide 中运行的 Python 中运行的 JavaScript

#

这个演示沙盒展示了使用我的 micro-javascript 库运行的 JavaScript 代码,该库在 Python 中运行,而 Python 又在 Pyodide 中运行,Pyodide 在 WebAssembly 中运行,WebAssembly 在 JavaScript 中运行,JavaScript 在浏览器中运行!

这非常酷!但是真的有人需要在 Python 中运行一个漏洞百出、速度缓慢、不安全的半成品 JavaScript 实现吗?

其实并没有。我在那个假期期间还做了很多其他项目,后来都悄悄退役了!

图片 11:2026 年 2 月

#

时间来到二月。还记得那个在 11 月底首次提交的 Warelay 项目吗?

图片 12:Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot →🦞 OpenClaw

#

在十二月和一月期间,它经历了多次名称变更……到了二月,它以最终名称 OpenClaw 席卷全球。

对于一个诞生不到三个月的项目来说,它获得的关注度相当惊人。

图片 13:通用术语:Claw

#

OpenClaw 是一个“个人 AI 助手”,我们实际上为这类产品确定了一个通用术语,基于 NanoClaw 和 ZeroClaw 等类似名称……它们被称为 Claws

图片 14:为您的 Claw 准备的水族箱

#

Mac Mini 在硅谷周边开始售罄,因为人们购买它们来运行自己的 Claws。

Drew Breunig 跟我开玩笑说,这是因为它们成了新的数字宠物,而 Mac Mini 就是安置你的 Claw 的完美水族箱。

图片 15:阿尔弗雷德·莫里纳在《蜘蛛侠 2》中饰演的章鱼博士,用他的四只机械爪撕毁纽约地铁列车。

#

我最喜欢的关于 Claws 的比喻是阿尔弗雷德·莫里纳在 2004 年电影《蜘蛛侠 2》中饰演的章鱼博士。他的机械爪由 AI 驱动,只要抑制芯片不受损坏就绝对安全……但之后它们会变得邪恶并反客为主。

图片 16:Gemini 3.1 Pro 绘制的一幅非常出色的鹈鹕骑自行车插图。

#

同样在二月:Gemini 3.1 Pro 发布了,并为我画了一幅非常出色的鹈鹕骑自行车的图。看这个!它甚至还在车篮里放了一条鱼。

图片 17:Gemini 3 Pro 的鹈鹕与 Gemini 3.1 Pro 的对比,以动画 SVG 形式呈现

#

随后谷歌的 Jeff Dean 在推特上发布了这段视频,展示了一只骑自行车的动画鹈鹕,还有骑高轮自行车的青蛙、开微型车的长颈鹿、穿轮滑鞋的鸵鸟、玩滑板踢翻动作的海龟以及驾驶加长豪华轿车的腊肠犬。

所以也许 AI 实验室终究还是在关注这些需求!

图片 18:2026 年 4 月

#

刚刚过去的一个月里发生了很多事情。

图片 19:Gemma 4 26B-A4B (17.99GB) 绘制的一幅相当不错的鹈鹕骑自行车图,不过自行车形状有点失真。

#

谷歌发布了 Gemma 4 系列模型,这是我从美国公司见到的最强大的开放权重模型。

图片 20:GLM-5.1 MIT 协议,7540 亿参数,1.51TB!

#

同样在上个月,中国 AI 实验室 GLM 推出了 GLM-5.1——一个开放权重的 1.5TB 巨无霸!这是一个非常高效的模型……如果你能负担得起运行它的硬件。

Image 21

#

GLM-5.1 给我画了这幅非常专业的骑自行车鹈鹕图。

Image 22: 自行车歪歪扭扭,鹈鹕悬浮在空中。

#

...不过当它尝试制作动画时,自行车弹到了顶部并且车身发生了扭曲。

Image 23: Bluesky 截图  Charles ‪@charles.capps.me‬ 我觉得你应该用另一种动物搭配另一种移动方式去烦它。  某种直觉告诉我它受过这方面的训练。我一时说不上来具体原因。/s 北弗吉尼亚负鼠骑电动滑板车!!

#

Bluesky 上的 Charles 建议我试试让北弗吉尼亚负鼠骑电动滑板车

Image 24: 北弗吉尼亚负鼠自黄昏起巡游联邦  还有一张非常酷的负鼠插画。

#

它居然做到了!我在其他模型上尝试过,它们连边都沾不上。“自黄昏起巡游联邦”这句话简直完美。它还有动画版本

Image 25: Qwen3.6-35B-A3B 是一个 20.9GB 的文件,可以在我的笔记本电脑上运行  它画的骑自行车鹈鹕比 Opus 4.7 更好,后者搞砸了自行车车架。
Image 26: 对比一下 Claude Sonnet 4.5 画的鹈鹕。

#

这是去年九月 Claude Sonnet 4.5 画的鹈鹕,放在这里作为对比。

Image 27: 过去6个月的主题:编程智能体变得非常强大 本地模型的表现远超预期

#

以上就是过去六个月的两个主要主题。编程智能体变得非常强大……而虽然笔记本电脑可运行的模型比前沿模型弱很多,但它们已经开始大幅超出预期。

AI 可能会生成不准确的信息,请核实重要内容

The last six months in LLMs in five minutes | Simon Willison's Weblog | traeai