The last six months in LLMs in five minutes

Simon Willison's Weblog

Simon Willison's Weblog2026年5月19日

The last six months in LLMs in five minutes

8.5内容质量

TL;DR · AI 摘要

2025年11月是LLM发展的关键转折点，三大厂商的模型性能在六个月内五次易主，编码代理实现质的飞跃达到日常可用水平，同时Warelay等新兴工具开始出现。

核心要点

2025年11月三大厂商模型性能排名变化5次，Claude Opus 4.5最终胜出
编码代理通过RLVR训练实现突破，从经常可用变为基本可用
Warelay项目于2025年11月24日首次提交，预示新工具生态

结构提纲

按章节快速跳转。

§2025年11月转折点
2025年11月是LLM发展的关键月份，特别是在编码能力方面出现重大突破。
·模型性能排名变化
Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5在六个月内五次交替领先。
·鹈鹕测试方法
使用生成骑自行车鹈鹕SVG的测试来评估模型能力，因为该任务不可能被专门训练。
§编码代理突破
基于RLVR训练的编码代理在11月实现从经常可用到基本可用的质量飞跃。
·技术实现
OpenAI和Anthropic使用可验证奖励强化学习来提升代码生成质量。
·实践影响
开发者现在可以日常使用编码代理完成实际工作，而不需要花费大量时间修复错误。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

LLM近六个月发展
- 2025年11月转折点
  - 模型排名五次变化
  - 编码代理质量突破
- 评测方法
  - 鹈鹕骑自行车测试
  - SVG生成质量对比
- 技术进展
  - RLVR训练方法
  - 代码代理工具成熟

金句 / Highlights

值得收藏与分享的关键句。

所谓的最佳模型（主要取决于感觉）在三大提供商之间五次易主
— 第3段
⬇︎ 下载 PNG 𝕏 分享到 X
编码代理从经常可用变为基本可用，跨越了一个质量门槛，你可以将它们作为日常工具来完成实际工作
— 第6段
⬇︎ 下载 PNG 𝕏 分享到 X
OpenAI和Anthropic在2025年大部分时间都在运行可验证奖励强化学习，以提高其模型编写的代码质量
— 第6段
⬇︎ 下载 PNG 𝕏 分享到 X

#LLM#AI编程#模型评测#Anthropic#OpenAI

打开原文

标题：五分钟速览过去六个月的大语言模型发展

来源网址：https://simonwillison.net/2026/May/19/5-minute-llms/

发布时间：2026年5月19日星期二 01:22:41 GMT

2026年5月19日

这些带注释的幻灯片来自我在PyCon US 2026上的五分钟闪电演讲，使用了我带注释演示工具的最新版本。

图1：五分钟速览过去六个月的大语言模型发展西蒙·威尔逊 - simonwillison.net PyCon US 2026闪电演讲

#

我在PyCon US 2026上进行了这场闪电演讲，试图用五分钟总结过去六个月大语言模型的发展。

#

六个月是个非常合适的时间跨度，因为它涵盖了我所称的2025年11月转折点。十一月对大语言模型而言是关键月份，尤其在编程领域。

#

首先，所谓的"最佳"模型（主要凭感觉判断）在三大供应商之间五次易主。

#

我依然使用生成骑自行车的鹈鹕SVG图像测试来展示模型间的差异。

为什么选这个测试？因为鹈鹕难画，自行车难画，而且鹈鹕_根本不会骑自行车_……没有任何AI实验室会为这种荒谬任务训练模型。

#

十一月初公认的"最佳"模型是9月29日发布的Claude Sonnet 4.5。它为我画了这个鹈鹕。

十一月先后被GPT-5.1、Gemini 3、GPT-5.1 Codex Max超越，最终Anthropic用Claude Opus 4.5重夺桂冠。

我认为Gemini 3画的鹈鹕最好，但鹈鹕不是全部。多数实践者会认同Opus 4.5在接下来几个月保持了领先地位。

#

这一点经过一段时间才变得清晰，但十一月真正的新闻是编程智能体变得_好用_。

OpenAI和Anthropic在2025年大部分时间都在运用可验证奖励强化学习提升模型代码质量，特别是搭配他们的Codex和Claude Code智能体框架。

十一月这项工作的成果开始显现。编程智能体从"经常能用"升级到"基本可用"，跨越了质量门槛，可以作为日常工具完成实际工作，无需花费大量时间修正低级错误。

图7：GitHub上steipete/Warelay仓库的"初始提交"截图，提交记录f6dd362，steipete于2025年11月24日提交这是MIT许可证的副本

#

同样在十一月，发生了这件事——某个叫Pete的人向当时名不见经传的"Warelay"代码库进行了首次提交。

#

在十二月至一月的假期期间，我们许多人趁此机会探索这些新模型和编程智能体的能力边界。

它们确实能力惊人！有些人甚至有些过度兴奋。当我开始推进各种天马行空的项目测试极限时，自己也短暂经历了某种形式的大语言模型狂热症。

javascript

var numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10];
var doubled = numbers.map(n => n * 2);
console.log('Doubled: "', doubled);
var evens = numbers.filter(n => n % 2 === 0);
console.log('Evens: ', evens);
var sum = numbers.reduce((a, b) => a + b, @);
console.log('Sum:", sum);

code

输出 27
Doubled: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20]
Evens: [2, 4, 6, 8, 10]
Sum: 55
执行时间: 8.00ms
关于：micro-javascript 是一个纯 Python 实现的 JavaScript 解释器，具有可配置的内存和时间限制。该沙盒环境完全在您的浏览器中使用 Pyodide（编译为 WebAssembly 的 Python）运行。在 GitHub 上查看

图片 10：在 WebAssembly 中运行的 Pyodide 中运行的 Python 中运行的 JavaScript

#

这个演示沙盒展示了使用我的 micro-javascript 库运行的 JavaScript 代码，该库在 Python 中运行，而 Python 又在 Pyodide 中运行，Pyodide 在 WebAssembly 中运行，WebAssembly 在 JavaScript 中运行，JavaScript 在浏览器中运行！

这非常酷！但是真的有人需要在 Python 中运行一个漏洞百出、速度缓慢、不安全的半成品 JavaScript 实现吗？

其实并没有。我在那个假期期间还做了很多其他项目，后来都悄悄退役了！