AI Engineer视频2026年6月6日

评估已崩坏，但无论如何请用起来 — Ara Khan, Cline

7.2Score

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

当前AI评估方法存在严重缺陷，但工程师仍必须使用它们。盲目迷信客观基准测试会导致“刷榜”错觉，而仅凭主观“体感”则缺乏可重复性，正确的做法是介于两者之间，分三阶段科学应用评估。

核心要点

客观指标派盲目相信基准测试分数，忽视了模型为刷榜而优化导致实际表现不符的问题。
体感派完全依赖主观交互感受（如拟人化偏好），缺乏可重复性和客观标准，同样不可取。
正确应用评估分三阶段：利用他人评估、用评估改进自有Agent、为特定场景构建专属评估。

结构提纲

按章节快速跳转。

§评估的现状与误区
当前业界对AI评估存在两种极端的错误认知：盲目迷信客观指标和完全依赖主观体感。
·客观指标派的缺陷
仅看基准测试分数会掩盖模型真实能力，因为厂商常针对基准进行优化（刷榜），导致分数与实际应用脱节。
·体感派的缺陷
仅凭主观交互感受（如拟人化体验）来评价模型缺乏可重复性和客观标准，无法指导工程实践。
§正确的评估应用路径
真理介于客观指标与主观体感之间，应分三个递进阶段科学地应用评估体系。
·评估应用三阶段
第一阶段利用他人评估，第二阶段用评估改进自有Agent，第三阶段为特定场景构建专属评估。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AI Evals的正确应用
- 两大错误认知
  - 客观指标派（刷榜 hoax）
  - 体感派（主观 vibes）
- 三阶段实践路径
  - 利用他人评估
  - 改进自有Agent
  - 构建专属评估

金句 / Highlights

值得收藏与分享的关键句。

大多数人对评估的理解是错误的……基本上有两派错误的人。
— 1:03
⬇︎ 下载 PNG 𝕏 分享到 X
这些数字在某种程度上就像是一场骗局……它根本经不起真实世界证据的考验。
— 2:08
⬇︎ 下载 PNG 𝕏 分享到 X
真相介于两者之间，评估不是万能的，但也绝非完全无用。
— 3:04
⬇︎ 下载 PNG 𝕏 分享到 X

#AI评估#大语言模型#基准测试#智能体工作流

评估已崩坏，但无论如何请用起来 — Ara Khan, Cline | AI Engineer | traeai