Anthropic 发布关于 Claude 代码质量下降的事后分析:三项产品层变更,而非模型问题

根据Beating的监测,Anthropic的工程团队确认,过去一个月用户报告的Claude Code质量下降,源于产品层面上的三个独立变更,影响了Claude Code、Claude Agent SDK和Claude Cowork,而API和底层模型保持不变。这三次问题分别在4月7日、10日和20日修复,最终版本为v2.1.116。第一次变更发生在3月4日,团队将Claude Code的默认推理强度从高调低到中,以减少在高推理负载下偶尔出现的长时间延迟(UI显示冻结)。用户普遍反映性能下降,导致4月7日回滚,目前Opus 4.7的默认设置为xhigh,其他模型为high。第二个问题是在3月26日引入的一个bug,旨在在会话空闲超过一小时后清除旧的推理记录,以节省会话恢复成本。实现中的缺陷导致清除操作不仅执行一次,而是在每一轮后都执行,导致模型逐渐丧失之前的推理上下文,表现为遗忘、重复操作和异常的工具调用。此bug还加快了用户配额的消耗,因为每次请求都发生缓存未命中的情况。团队表示,两个无关的内部实验掩盖了重现问题的条件,调查耗时一周以上,修复于4月10日完成。随后对有问题的PR使用Opus 4.7进行的代码审查显示,Opus 4.7可以检测到此bug,而Opus 4.6则不能。第三次变更于4月16日与Opus 4.7一同推出,团队在系统提示中加入了限制输出长度的指令:“工具调用之间的文本不应超过25个字,最终响应不应超过100个字,除非任务需要更详细。”内部测试显示数周内没有回归,但上线后与其他提示叠加,导致编码质量下降,影响了Sonnet 4.6、Opus 4.6和Opus 4.7。扩展评估发现Opus 4.6和4.7的性能下降了3%,因此在4月20日进行了回滚。这三次变更影响了不同的用户群体,并在不同时间生效,表现为广泛且不一致的质量下降,增加了排查难度。Anthropic表示,未来将要求更多内部员工使用与用户相同的公共版本,针对每次系统提示的修改运行完整模型评估套件,并设定灰色期。作为补偿,Anthropic已重置所有订阅用户的使用配额。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论