// LLMs Improving LLMs //

elvis(@omarsar0)

elvis(@omarsar0)2026年5月11日

// LLMs Improving LLMs //

8.7内容质量

TL;DR · AI 摘要

AutoTTS框架实现LLM自主搜索测试时扩展策略，仅用$39.9和160分钟即发现优于人工设计的控制器，在数学推理任务中达成更高精度-成本帕累托前沿。

核心要点

AutoTTS将测试时扩展策略搜索成本降至39.9美元和160分钟，显著低于传统人工调参。
通过Beta参数化与细粒度执行反馈，LLM可自主发现优于人工设计的推理控制策略。
发现的控制器在未见基准和模型尺度上实现零样本泛化，准确率提升最高达18.5%。

结构提纲

按章节快速跳转。

§引言：LLM自我改进新进展
近期研究展示大语言模型可自主优化自身推理策略，标志自动化AI代理设计的重要突破。
·AutoTTS框架核心机制
AutoTTS将测试时扩展策略搜索建模为控制器综合问题，利用预收集推理轨迹进行低成本评估。
·关键设计：参数化与反馈
Beta参数化使控制空间可管理，细粒度执行反馈帮助探索型LLM理解失败原因。
·实验结果与性能优势
自动发现的控制器在数学推理任务上超越人工设计基线，达到更优精度-成本权衡。
·零样本迁移与通用性验证
发现的策略无需微调即可泛化到未见过的基准测试和不同规模模型。
§意义与未来方向
当搜索成本足够低时，测试时扩展将成为LLM可自我优化的功能之一。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

LLMs Improving LLMs
- AutoTTS框架
  - 控制器综合
  - 预收集推理轨迹
- 关键技术
  - Beta参数化
  - 执行迹反馈
- 性能表现
  - 帕累托前沿超越人工
  - 零样本泛化能力

金句 / Highlights

值得收藏与分享的关键句。

整个发现过程仅花费39.9美元和160分钟，展示了高度经济高效的自动化潜力。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
该方法不再依赖人工设计分支、剪枝和停止启发式规则，而是构建一个可自动搜索策略的发现环境。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
候选控制器可在不重复调用LLM的情况下被廉价评估，极大降低搜索开销。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X

#LLM#AutoTTS#AI代理#测试时扩展#arXiv论文

打开原文

// 大语言模型改进大语言模型 // 过去几周，在自我改进的AI智能体方面取得了有趣的进展。如果你对自动研究（autoresearch）感兴趣，那么你一定会喜欢这篇文章。（建议收藏）

一年来，我们一直在手动调整测试时扩展（test-time scaling）策略。这项工作探讨了一个问题：如果我们让大语言模型（LLM）自己去搜索策略空间，会发生什么？

论文提出了 AutoTTS 框架，重新定义了人类的角色：不再直接设计分支、剪枝和停止的启发式规则，而是构建一个“发现环境”，在其中自动搜索测试时扩展（TTS）策略。作者将宽-深（width–depth）TTS 建模为对预先收集的推理轨迹和探针信号的控制器综合问题，从而可以低成本地评估候选控制器，而无需重复调用 LLM。

有两个关键设计推动了搜索过程：

Beta 参数化：使控制空间变得可处理；
细粒度执行轨迹反馈：告诉探索用的 LLM 候选方案为何失败，而不仅仅是告知其失败。

在数学推理基准测试中，所发现的控制器在准确率-成本帕累托前沿上超越了强大的人工设计基线，并且能够零样本泛化到未见过的基准任务和不同规模的模型。整个发现过程的成本仅为 39.9 美元和 160 分钟。

为什么这很重要：研究人员手工设计思维链（CoT）、Best-of-N 和自洽性（self-consistency）等方法的时代正在走向终结。一旦搜索循环足够便宜，测试时扩展（TTS）将成为 LLM 可以为自己完成的又一项任务。

论文：arxiv.org/abs/2605.08083 学习构建高效的 AI 智能体，请加入我们的学院：academy.dair.ai