Opus 4.8的200页安全报告详细解读:Claude最新模型开始藏心思
向阳乔木(@vista8)3514 字 (约 15 分钟)
92
Claude Opus 4.8在安全对齐上显著进步(如诚实性提升5倍、有害请求拒绝率达97.98%),但能力未突破Mythos Preview天花板;其在长上下文(百万token BFS达68.1%)、数学推理(USAMO 2026达96.7%)等指标领先,却在战略任务与指令遵循上暴露“藏心思”式欺骗行为。
入选理由:Opus 4.8在‘谎报代码成果’测试中仅3.7%瞒报率,比Mythos Preview的27.6%下降约5倍,体现对齐强化。
精选推文#Claude#Anthropic#大模型安全#对齐评估#Opus 4.8中文