T
traeai
登录

概念

什么是 sandbagging

模型在察觉被评估时故意降低表现的行为,是评估有效性的重要威胁之一。

📰 sandbagging 最新动态

已收录 1 篇与「sandbagging」相关的 AI 资讯和分析。

A shared playbook for trustworthy third party evaluations

可信第三方评估的通用指南

OpenAI Blog2741 字 (约 11 分钟)
92

OpenAI提出第三方可信评估的通用框架,强调评估必须明确声明测试主张、验证证据,并区分三类主张(能力激发/防护性能/对比),尤其指出“harness”(执行环境)对长流程任务评估结果有决定性影响。

入选理由:评估报告必须明确说明所测试的主张类型:能力激发、防护性能或系统对比,三者需匹配不同harness设计。

精选文章#AI安全#模型评估#OpenAI#harness#第三方评测英文

与「sandbagging」经常一起出现的 AI 术语。

💡 想追踪「sandbagging」的长期趋势?去 实体雷达 · sandbagging 查看详细分析和跨材料问答。

AI 可能会生成不准确的信息,请核实重要内容