The last six months in LLMs in five minutes

TL;DR · AI 摘要
2025年11月是LLM发展的关键转折点,三大厂商的模型性能在六个月内五次易主,编码代理实现质的飞跃达到日常可用水平,同时Warelay等新兴工具开始出现。
核心要点
- 2025年11月三大厂商模型性能排名变化5次,Claude Opus 4.5最终胜出
- 编码代理通过RLVR训练实现突破,从经常可用变为基本可用
- Warelay项目于2025年11月24日首次提交,预示新工具生态
结构提纲
按章节快速跳转。
2025年11月是LLM发展的关键月份,特别是在编码能力方面出现重大突破。
Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5在六个月内五次交替领先。
使用生成骑自行车鹈鹕SVG的测试来评估模型能力,因为该任务不可能被专门训练。
基于RLVR训练的编码代理在11月实现从经常可用到基本可用的质量飞跃。
- ·技术实现
OpenAI和Anthropic使用可验证奖励强化学习来提升代码生成质量。
- ·实践影响
开发者现在可以日常使用编码代理完成实际工作,而不需要花费大量时间修复错误。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- LLM近六个月发展
- 2025年11月转折点
- 模型排名五次变化
- 编码代理质量突破
- 评测方法
- 鹈鹕骑自行车测试
- SVG生成质量对比
- 技术进展
- RLVR训练方法
- 代码代理工具成熟
金句 / Highlights
值得收藏与分享的关键句。
所谓的最佳模型(主要取决于感觉)在三大提供商之间五次易主
编码代理从经常可用变为基本可用,跨越了一个质量门槛,你可以将它们作为日常工具来完成实际工作
OpenAI和Anthropic在2025年大部分时间都在运行可验证奖励强化学习,以提高其模型编写的代码质量
标题:五分钟速览过去六个月的大语言模型发展
来源网址:https://simonwillison.net/2026/May/19/5-minute-llms/
发布时间:2026年5月19日 星期二 01:22:41 GMT
2026年5月19日
这些带注释的幻灯片来自我在PyCon US 2026上的五分钟闪电演讲,使用了我带注释演示工具的最新版本。

我在PyCon US 2026上进行了这场闪电演讲,试图用五分钟总结过去六个月大语言模型的发展。

六个月是个非常合适的时间跨度,因为它涵盖了我所称的2025年11月转折点。十一月对大语言模型而言是关键月份,尤其在编程领域。

首先,所谓的"最佳"模型(主要凭感觉判断)在三大供应商之间五次易主。

我依然使用生成骑自行车的鹈鹕SVG图像测试来展示模型间的差异。
为什么选这个测试?因为鹈鹕难画,自行车难画,而且鹈鹕_根本不会骑自行车_……没有任何AI实验室会为这种荒谬任务训练模型。

十一月初公认的"最佳"模型是9月29日发布的Claude Sonnet 4.5。它为我画了这个鹈鹕。
十一月先后被GPT-5.1、Gemini 3、GPT-5.1 Codex Max超越,最终Anthropic用Claude Opus 4.5重夺桂冠。
我认为Gemini 3画的鹈鹕最好,但鹈鹕不是全部。多数实践者会认同Opus 4.5在接下来几个月保持了领先地位。

这一点经过一段时间才变得清晰,但十一月真正的新闻是编程智能体变得_好用_。
OpenAI和Anthropic在2025年大部分时间都在运用可验证奖励强化学习提升模型代码质量,特别是搭配他们的Codex和Claude Code智能体框架。
十一月这项工作的成果开始显现。编程智能体从"经常能用"升级到"基本可用",跨越了质量门槛,可以作为日常工具完成实际工作,无需花费大量时间修正低级错误。

同样在十一月,发生了这件事——某个叫Pete的人向当时名不见经传的"Warelay"代码库进行了首次提交。

在十二月至一月的假期期间,我们许多人趁此机会探索这些新模型和编程智能体的能力边界。
它们确实能力惊人!有些人甚至有些过度兴奋。当我开始推进各种天马行空的项目测试极限时,自己也短暂经历了某种形式的大语言模型狂热症。

var numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10];
var doubled = numbers.map(n => n * 2);
console.log('Doubled: "', doubled);
var evens = numbers.filter(n => n % 2 === 0);
console.log('Evens: ', evens);
var sum = numbers.reduce((a, b) => a + b, @);
console.log('Sum:", sum);输出 27
Doubled: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20]
Evens: [2, 4, 6, 8, 10]
Sum: 55
执行时间: 8.00ms
关于:micro-javascript 是一个纯 Python 实现的 JavaScript 解释器,具有可配置的内存和时间限制。该沙盒环境完全在您的浏览器中使用 Pyodide(编译为 WebAssembly 的 Python)运行。在 GitHub 上查看
这个演示沙盒展示了使用我的 micro-javascript 库运行的 JavaScript 代码,该库在 Python 中运行,而 Python 又在 Pyodide 中运行,Pyodide 在 WebAssembly 中运行,WebAssembly 在 JavaScript 中运行,JavaScript 在浏览器中运行!
这非常酷!但是真的有人需要在 Python 中运行一个漏洞百出、速度缓慢、不安全的半成品 JavaScript 实现吗?
其实并没有。我在那个假期期间还做了很多其他项目,后来都悄悄退役了!

时间来到二月。还记得那个在 11 月底首次提交的 Warelay 项目吗?

在十二月和一月期间,它经历了多次名称变更……到了二月,它以最终名称 OpenClaw 席卷全球。
对于一个诞生不到三个月的项目来说,它获得的关注度相当惊人。

OpenClaw 是一个“个人 AI 助手”,我们实际上为这类产品确定了一个通用术语,基于 NanoClaw 和 ZeroClaw 等类似名称……它们被称为 Claws。

Mac Mini 在硅谷周边开始售罄,因为人们购买它们来运行自己的 Claws。
Drew Breunig 跟我开玩笑说,这是因为它们成了新的数字宠物,而 Mac Mini 就是安置你的 Claw 的完美水族箱。

我最喜欢的关于 Claws 的比喻是阿尔弗雷德·莫里纳在 2004 年电影《蜘蛛侠 2》中饰演的章鱼博士。他的机械爪由 AI 驱动,只要抑制芯片不受损坏就绝对安全……但之后它们会变得邪恶并反客为主。

同样在二月:Gemini 3.1 Pro 发布了,并为我画了一幅非常出色的鹈鹕骑自行车的图。看这个!它甚至还在车篮里放了一条鱼。

随后谷歌的 Jeff Dean 在推特上发布了这段视频,展示了一只骑自行车的动画鹈鹕,还有骑高轮自行车的青蛙、开微型车的长颈鹿、穿轮滑鞋的鸵鸟、玩滑板踢翻动作的海龟以及驾驶加长豪华轿车的腊肠犬。
所以也许 AI 实验室终究还是在关注这些需求!

刚刚过去的一个月里发生了很多事情。

谷歌发布了 Gemma 4 系列模型,这是我从美国公司见到的最强大的开放权重模型。

同样在上个月,中国 AI 实验室 GLM 推出了 GLM-5.1——一个开放权重的 1.5TB 巨无霸!这是一个非常高效的模型……如果你能负担得起运行它的硬件。

GLM-5.1 给我画了这幅非常专业的骑自行车鹈鹕图。

...不过当它尝试制作动画时,自行车弹到了顶部并且车身发生了扭曲。

Bluesky 上的 Charles 建议我试试让北弗吉尼亚负鼠骑电动滑板车

它居然做到了!我在其他模型上尝试过,它们连边都沾不上。“自黄昏起巡游联邦”这句话简直完美。它还有动画版本。


这是去年九月 Claude Sonnet 4.5 画的鹈鹕,放在这里作为对比。

以上就是过去六个月的两个主要主题。编程智能体变得非常强大……而虽然笔记本电脑可运行的模型比前沿模型弱很多,但它们已经开始大幅超出预期。