T
traeai
登录
返回首页
Hunyuan(@TXhunyuan)

PlanningBench:让 LLM 从“说”到“做”的规划框架

5.0Score
PlanningBench:让 LLM 从“说”到“做”的规划框架

TL;DR · AI 摘要

腾讯与人大高岭人工智能学院发布 PlanningBench,开源可扩展、可验证的 LLM 规划评估与训练框架,包含 30+ 真实规划任务与自动验证功能。

核心要点

  • PlanningBench 提供 30+ 真实规划任务,支持 LLM 规划能力评估。
  • 框架实现自动验证,降低人工评测成本。
  • 支持评估与训练,可直接在 GitHub 与 HuggingFace 访问资源。

结构提纲

按章节快速跳转。

  1. 腾讯人大高岭人工智能学院联合发布 PlanningBench,旨在评估与训练 LLM 的规划能力。

  2. PlanningBench 提供 30+ 真实规划任务、自动验证以及评估与训练支持。

  3. 项目代码、数据集与论文均已在 GitHub、HuggingFace 与 arXiv 上公开。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • PlanningBench
    • 功能
      • 30+ 真实任务
      • 自动验证
      • 评估与训练支持
    • 资源
      • GitHub
      • HuggingFace
      • arXiv 论文

金句 / Highlights

值得收藏与分享的关键句。

#LLM#规划#开源#评估框架
打开原文

Tencent Hy, in collaboration with the Gaoling School of Artificial Intelligence at Renmin University of China, is excited to open-source PlanningBench - a scalable, verifiable framework for evaluating and training LLM https://t.co/KiPhjbfYWS" / X

Warning: This page maybe not yet fully loaded, consider explicitly specify a timeout.

Tencent Hy on X: "Planning is where LLMs move from “saying” to “doing.” Tencent Hy, in collaboration with the Gaoling School of Artificial Intelligence at Renmin University of China, is excited to open-source PlanningBench - a scalable, verifiable framework for evaluating and training LLM https://t.co/KiPhjbfYWS" / X

Don’t miss what’s happening

AI 可能会生成不准确的信息,请核实重要内容

PlanningBench:让 LLM 从“说”到“做”的规划框架 | Hunyuan(@TXhunyuan) | traeai