T
traeai
登录

产品

ITBench-AA

一个针对企业级自动化 IT 任务的新基准测试。

相关材料

已收录 1 条与 ITBench-AA 相关的内容,按评分排序。

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

ITBench-AA 是一个针对企业级自动化 IT 任务的新基准测试,首次评估前沿模型在 Site Reliability Engineering 任务中的表现,结果显示所有前沿模型得分低于 50%,其中 Claude Opus 4.7 表现最佳,为 47%。

入选理由:Claude Opus 4.7 在 ITBench-AA 中表现最佳,得分为 47%

精选文章#ITBench-AA#Site Reliability Engineering#前沿模型#IBM#Kubernetes中文

跨材料问答 · ITBench-AA

回答基于:ITBench-AA 相关 1 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容