用真实仓库任务评测
准备一个 bugfix、一个测试补齐、一个重构任务,比较两者是否能读懂上下文并通过测试。
真实 GSC 信号
基于真实 GSC 查询 Composer 2.5 vs Sonnet,给出 AI 编程模型在速度、代码质量、上下文和成本上的比较框架。
不要只比较模型名。真实选择应该按任务类型、代码库上下文、编辑器/Agent 集成、响应速度、修改可靠性和成本来测。
CTR 0.97% · 平均排名 7.69
准备一个 bugfix、一个测试补齐、一个重构任务,比较两者是否能读懂上下文并通过测试。
有些模型在短补全里很快,但在多文件修改和长上下文规划里表现不同,需要分开评估。
对 AI 编程工具来说,失败是否可解释、是否容易回滚,和一次成功率一样重要。