AI Engineer视频
评估已崩坏,但无论如何请用起来 — Ara Khan, Cline
7.2Score
可直接观看的视频资源打开原视频
TL;DR · AI 摘要
当前AI评估方法存在严重缺陷,但工程师仍必须使用它们。盲目迷信客观基准测试会导致“刷榜”错觉,而仅凭主观“体感”则缺乏可重复性,正确的做法是介于两者之间,分三阶段科学应用评估。
核心要点
- 客观指标派盲目相信基准测试分数,忽视了模型为刷榜而优化导致实际表现不符的问题。
- 体感派完全依赖主观交互感受(如拟人化偏好),缺乏可重复性和客观标准,同样不可取。
- 正确应用评估分三阶段:利用他人评估、用评估改进自有Agent、为特定场景构建专属评估。
结构提纲
按章节快速跳转。
当前业界对AI评估存在两种极端的错误认知:盲目迷信客观指标和完全依赖主观体感。
仅看基准测试分数会掩盖模型真实能力,因为厂商常针对基准进行优化(刷榜),导致分数与实际应用脱节。
仅凭主观交互感受(如拟人化体验)来评价模型缺乏可重复性和客观标准,无法指导工程实践。
真理介于客观指标与主观体感之间,应分三个递进阶段科学地应用评估体系。
第一阶段利用他人评估,第二阶段用评估改进自有Agent,第三阶段为特定场景构建专属评估。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI Evals的正确应用
- 两大错误认知
- 客观指标派(刷榜 hoax)
- 体感派(主观 vibes)
- 三阶段实践路径
- 利用他人评估
- 改进自有Agent
- 构建专属评估
金句 / Highlights
值得收藏与分享的关键句。
大多数人对评估的理解是错误的……基本上有两派错误的人。
这些数字在某种程度上就像是一场骗局……它根本经不起真实世界证据的考验。
真相介于两者之间,评估不是万能的,但也绝非完全无用。
#AI评估#大语言模型#基准测试#智能体工作流