PlanningBench：让 LLM 从“说”到“做”的规划框架

Hunyuan(@TXhunyuan)

Hunyuan(@TXhunyuan)2026年6月5日

PlanningBench：让 LLM 从“说”到“做”的规划框架

5.0内容质量

TL;DR · AI 摘要

腾讯与人大高岭人工智能学院发布 PlanningBench，开源可扩展、可验证的 LLM 规划评估与训练框架，包含 30+ 真实规划任务与自动验证功能。

核心要点

PlanningBench 提供 30+ 真实规划任务，支持 LLM 规划能力评估。
框架实现自动验证，降低人工评测成本。
支持评估与训练，可直接在 GitHub 与 HuggingFace 访问资源。

结构提纲

按章节快速跳转。

§项目概述
腾讯与人大高岭人工智能学院联合发布 PlanningBench，旨在评估与训练 LLM 的规划能力。
§核心功能
PlanningBench 提供 30+ 真实规划任务、自动验证以及评估与训练支持。
§资源获取
项目代码、数据集与论文均已在 GitHub、HuggingFace 与 arXiv 上公开。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

PlanningBench
- 功能
  - 30+ 真实任务
  - 自动验证
  - 评估与训练支持
- 资源
  - GitHub
  - HuggingFace
  - arXiv 论文

金句 / Highlights

值得收藏与分享的关键句。

PlanningBench 是一个可扩展、可验证的框架，支持 30+ 真实规划任务。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
框架提供自动验证功能，显著降低人工评测成本。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
项目已在 GitHub、HuggingFace 与 arXiv 上公开，方便社区使用与贡献。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X

#LLM#规划#开源#评估框架

打开原文

Tencent Hy, in collaboration with the Gaoling School of Artificial Intelligence at Renmin University of China, is excited to open-source PlanningBench - a scalable, verifiable framework for evaluating and training LLM https://t.co/KiPhjbfYWS" / X

Warning: This page maybe not yet fully loaded, consider explicitly specify a timeout.

Tencent Hy on X: "Planning is where LLMs move from “saying” to “doing.” Tencent Hy, in collaboration with the Gaoling School of Artificial Intelligence at Renmin University of China, is excited to open-source PlanningBench - a scalable, verifiable framework for evaluating and training LLM https://t.co/KiPhjbfYWS" / X

Don’t miss what’s happening