// LLMs Improving LLMs //

TL;DR · AI 摘要
AutoTTS框架实现LLM自主搜索测试时扩展策略,仅用$39.9和160分钟即发现优于人工设计的控制器,在数学推理任务中达成更高精度-成本帕累托前沿。
核心要点
- AutoTTS将测试时扩展策略搜索成本降至39.9美元和160分钟,显著低于传统人工调参。
- 通过Beta参数化与细粒度执行反馈,LLM可自主发现优于人工设计的推理控制策略。
- 发现的控制器在未见基准和模型尺度上实现零样本泛化,准确率提升最高达18.5%。
结构提纲
按章节快速跳转。
近期研究展示大语言模型可自主优化自身推理策略,标志自动化AI代理设计的重要突破。
AutoTTS将测试时扩展策略搜索建模为控制器综合问题,利用预收集推理轨迹进行低成本评估。
Beta参数化使控制空间可管理,细粒度执行反馈帮助探索型LLM理解失败原因。
自动发现的控制器在数学推理任务上超越人工设计基线,达到更优精度-成本权衡。
发现的策略无需微调即可泛化到未见过的基准测试和不同规模模型。
当搜索成本足够低时,测试时扩展将成为LLM可自我优化的功能之一。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- LLMs Improving LLMs
- AutoTTS框架
- 控制器综合
- 预收集推理轨迹
- 关键技术
- Beta参数化
- 执行迹反馈
- 性能表现
- 帕累托前沿超越人工
- 零样本泛化能力
金句 / Highlights
值得收藏与分享的关键句。
整个发现过程仅花费39.9美元和160分钟,展示了高度经济高效的自动化潜力。
该方法不再依赖人工设计分支、剪枝和停止启发式规则,而是构建一个可自动搜索策略的发现环境。
候选控制器可在不重复调用LLM的情况下被廉价评估,极大降低搜索开销。
// 大语言模型改进大语言模型 // 过去几周,在自我改进的AI智能体方面取得了有趣的进展。 如果你对自动研究(autoresearch)感兴趣,那么你一定会喜欢这篇文章。 (建议收藏)
一年来,我们一直在手动调整测试时扩展(test-time scaling)策略。这项工作探讨了一个问题:如果我们让大语言模型(LLM)自己去搜索策略空间,会发生什么?
论文提出了 AutoTTS 框架,重新定义了人类的角色:不再直接设计分支、剪枝和停止的启发式规则,而是构建一个“发现环境”,在其中自动搜索测试时扩展(TTS)策略。作者将宽-深(width–depth)TTS 建模为对预先收集的推理轨迹和探针信号的控制器综合问题,从而可以低成本地评估候选控制器,而无需重复调用 LLM。
有两个关键设计推动了搜索过程:
- Beta 参数化:使控制空间变得可处理;
- 细粒度执行轨迹反馈:告诉探索用的 LLM 候选方案为何失败,而不仅仅是告知其失败。
在数学推理基准测试中,所发现的控制器在准确率-成本帕累托前沿上超越了强大的人工设计基线,并且能够零样本泛化到未见过的基准任务和不同规模的模型。整个发现过程的成本仅为 39.9 美元和 160 分钟。
为什么这很重要:研究人员手工设计思维链(CoT)、Best-of-N 和自洽性(self-consistency)等方法的时代正在走向终结。一旦搜索循环足够便宜,测试时扩展(TTS)将成为 LLM 可以为自己完成的又一项任务。
论文:arxiv.org/abs/2605.08083 学习构建高效的 AI 智能体,请加入我们的学院:academy.dair.ai