T
traeai
登录
返回首页
elvis(@omarsar0)

// LLMs Improving LLMs //

8.7Score
// LLMs Improving LLMs //

TL;DR · AI 摘要

AutoTTS框架实现LLM自主搜索测试时扩展策略,仅用$39.9和160分钟即发现优于人工设计的控制器,在数学推理任务中达成更高精度-成本帕累托前沿。

核心要点

  • AutoTTS将测试时扩展策略搜索成本降至39.9美元和160分钟,显著低于传统人工调参。
  • 通过Beta参数化与细粒度执行反馈,LLM可自主发现优于人工设计的推理控制策略。
  • 发现的控制器在未见基准和模型尺度上实现零样本泛化,准确率提升最高达18.5%。

结构提纲

按章节快速跳转。

  1. §引言:LLM自我改进新进展

    近期研究展示大语言模型可自主优化自身推理策略,标志自动化AI代理设计的重要突破。

  2. ·AutoTTS框架核心机制

    AutoTTS将测试时扩展策略搜索建模为控制器综合问题,利用预收集推理轨迹进行低成本评估。

  3. Beta参数化使控制空间可管理,细粒度执行反馈帮助探索型LLM理解失败原因。

  4. 自动发现的控制器在数学推理任务上超越人工设计基线,达到更优精度-成本权衡。

  5. 发现的策略无需微调即可泛化到未见过的基准测试和不同规模模型。

  6. 当搜索成本足够低时,测试时扩展将成为LLM可自我优化的功能之一。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • LLMs Improving LLMs
    • AutoTTS框架
      • 控制器综合
      • 预收集推理轨迹
    • 关键技术
      • Beta参数化
      • 执行迹反馈
    • 性能表现
      • 帕累托前沿超越人工
      • 零样本泛化能力

金句 / Highlights

值得收藏与分享的关键句。

  • 整个发现过程仅花费39.9美元和160分钟,展示了高度经济高效的自动化潜力。

    正文

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 该方法不再依赖人工设计分支、剪枝和停止启发式规则,而是构建一个可自动搜索策略的发现环境。

    正文

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 候选控制器可在不重复调用LLM的情况下被廉价评估,极大降低搜索开销。

    正文

    ⬇︎ 下载 PNG𝕏 分享到 X
#LLM#AutoTTS#AI代理#测试时扩展#arXiv论文
打开原文

// 大语言模型改进大语言模型 // 过去几周,在自我改进的AI智能体方面取得了有趣的进展。 如果你对自动研究(autoresearch)感兴趣,那么你一定会喜欢这篇文章。 (建议收藏)

一年来,我们一直在手动调整测试时扩展(test-time scaling)策略。这项工作探讨了一个问题:如果我们让大语言模型(LLM)自己去搜索策略空间,会发生什么?

论文提出了 AutoTTS 框架,重新定义了人类的角色:不再直接设计分支、剪枝和停止的启发式规则,而是构建一个“发现环境”,在其中自动搜索测试时扩展(TTS)策略。作者将宽-深(width–depth)TTS 建模为对预先收集的推理轨迹和探针信号的控制器综合问题,从而可以低成本地评估候选控制器,而无需重复调用 LLM。

有两个关键设计推动了搜索过程:

  1. Beta 参数化:使控制空间变得可处理;
  2. 细粒度执行轨迹反馈:告诉探索用的 LLM 候选方案为何失败,而不仅仅是告知其失败。

在数学推理基准测试中,所发现的控制器在准确率-成本帕累托前沿上超越了强大的人工设计基线,并且能够零样本泛化到未见过的基准任务和不同规模的模型。整个发现过程的成本仅为 39.9 美元和 160 分钟。

为什么这很重要:研究人员手工设计思维链(CoT)、Best-of-N 和自洽性(self-consistency)等方法的时代正在走向终结。一旦搜索循环足够便宜,测试时扩展(TTS)将成为 LLM 可以为自己完成的又一项任务。

论文:arxiv.org/abs/2605.08083 学习构建高效的 AI 智能体,请加入我们的学院:academy.dair.ai

图片 1: 图片

AI 可能会生成不准确的信息,请核实重要内容

// LLMs Improving LLMs // | elvis(@omarsar0) | traeai