# AI evals are becoming the new compute bottleneck

Canonical URL: https://www.traeai.com/articles/667e1690-b080-47fb-8622-4af2f7d4ae68
Original source: https://huggingface.co/blog/evaleval/eval-costs-bottleneck
Source name: Hugging Face Blog
Content type: article
Language: 英文
Score: 8.5
Reading time: 17 分钟
Published: 2026-04-29T16:45:09+00:00
Tags: AI, 机器学习, 基准测试

## Summary

随着AI评估成本的急剧上升，静态基准测试和代理评估的成本问题变得日益严重。文章探讨了如何通过压缩技术降低成本，并指出代理评估比静态预测更复杂。

## Key Takeaways

- 静态LLM基准测试的成本已经非常高昂，例如HELM项目的总成本约为10万美元。
- 压缩技术可以显著降低静态基准测试的成本，但代理评估由于其复杂性难以完全压缩。
- 代理评估的成本更高，单次GAIA运行可能需要2,829美元，且对架构选择非常敏感。

## Outline

- 引言 — 介绍AI评估成本上升的问题，以及一些具体的成本示例。
  - 静态LLM基准测试的成本问题 — 详细讨论了HELM等项目中的高成本问题，并提出了一些压缩技术来降低成本。
  - 代理评估的成本问题 — 探讨了代理评估的复杂性和高昂成本，并指出压缩技术在代理评估中的局限性。

## Highlights

- > HELM项目的总成本约为10万美元。 — 第4段
- > 压缩技术可以将计算量减少100到200倍，同时保持几乎相同的排名。 — 第7段
- > 单次GAIA运行可能需要2,829美元，且对架构选择非常敏感。 — 第1段

## Citation Guidance

When citing this item, prefer the canonical traeai article URL for the AI-readable summary and include the original source URL when discussing the underlying source material.