Hunyuan(@TXhunyuan)
PlanningBench:让 LLM 从“说”到“做”的规划框架
5.0Score

TL;DR · AI 摘要
腾讯与人大高岭人工智能学院发布 PlanningBench,开源可扩展、可验证的 LLM 规划评估与训练框架,包含 30+ 真实规划任务与自动验证功能。
核心要点
- PlanningBench 提供 30+ 真实规划任务,支持 LLM 规划能力评估。
- 框架实现自动验证,降低人工评测成本。
- 支持评估与训练,可直接在 GitHub 与 HuggingFace 访问资源。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- PlanningBench
- 功能
- 30+ 真实任务
- 自动验证
- 评估与训练支持
- 资源
- GitHub
- HuggingFace
- arXiv 论文
金句 / Highlights
值得收藏与分享的关键句。
PlanningBench 是一个可扩展、可验证的框架,支持 30+ 真实规划任务。
框架提供自动验证功能,显著降低人工评测成本。
项目已在 GitHub、HuggingFace 与 arXiv 上公开,方便社区使用与贡献。
#LLM#规划#开源#评估框架
打开原文Tencent Hy, in collaboration with the Gaoling School of Artificial Intelligence at Renmin University of China, is excited to open-source PlanningBench - a scalable, verifiable framework for evaluating and training LLM https://t.co/KiPhjbfYWS" / X
Warning: This page maybe not yet fully loaded, consider explicitly specify a timeout.
Tencent Hy on X: "Planning is where LLMs move from “saying” to “doing.” Tencent Hy, in collaboration with the Gaoling School of Artificial Intelligence at Renmin University of China, is excited to open-source PlanningBench - a scalable, verifiable framework for evaluating and training LLM https://t.co/KiPhjbfYWS" / X
Don’t miss what’s happening