ITBench-AA: 前沿模型在第一个企业级自动化 IT 任务基准测试中得分低于 50% —— 由人工分析和 IBM 推出
Hugging Face Blog861 字 (约 4 分钟)
85
ITBench-AA 是一个针对企业级自动化 IT 任务的新基准测试,首次评估前沿模型在 Site Reliability Engineering 任务中的表现,结果显示所有前沿模型得分低于 50%,其中 Claude Opus 4.7 表现最佳,为 47%。
入选理由:Claude Opus 4.7 在 ITBench-AA 中表现最佳,得分为 47%
精选文章#ITBench-AA#Site Reliability Engineering#前沿模型#IBM#Kubernetes中文
