Beatingによる監視によると、Anthropicのエンジニアリングチームは、過去1か月間にユーザーから報告されたClaude Codeの品質低下は、製品レイヤーの3つの独立した変更に起因していることを確認しました。これらはClaude Code、Claude Agent SDK、Claude Coworkに影響し、APIと基盤モデルには影響しませんでした。3つの問題は4月7日、10日、20日に修正され、最終バージョンはv2.1.116です。最初の変更は3月4日に行われ、チームはClaude Codeの推論強度のデフォルトを高から中に調整し、高負荷時に時折長い遅延や凍結したUIが表示されるのを防ぎました。ユーザーからパフォーマンスの低下が広く報告され、4月7日にロールバックされ、現在のOpus 4.7のデフォルトはxhigh、他のモデルはhighに設定されています。2つ目の問題は、3月26日に導入されたバグで、セッションが1時間以上アイドル状態の後に古い推論記録をクリアすることを目的としていました。実装の不具合により、クリア処理が一度だけでなく、その後のすべてのラウンドで実行されるようになり、モデルは徐々に以前の推論コンテキストを失い、忘却や繰り返し動作、不正常なツール呼び出しを引き起こしました。このバグは、リクエストごとにキャッシュミスが発生し、ユーザークォータの消費も加速させました。チームは、2つの無関係な内部実験により問題の再現条件が不明確になり、調査に1週間以上かかり、4月10日に修正を実施しました。問題のPRに対してOpus 4.7を用いたコードレビューでは、Opus 4.7はこのバグを検出できた一方、Opus 4.6はできませんでした。3つ目の変更は4月16日にOpus 4.7で導入され、システムプロンプトに出力長を制限する指示が追加されました:「ツール呼び出し間のテキストは25語を超えないこと、最終応答はタスクにより詳細が必要な場合を除き100語を超えないこと。」内部テストでは数週間にわたり回帰は見られませんでしたが、リリース後、他のプロンプトと相まってコーディング品質の低下を引き起こし、Sonnet 4.6、Opus 4.6、Opus 4.7に影響しました。拡張評価により、Opus 4.6と4.7の両方で3%の低下が確認され、4月20日にロールバックされました。これらの3つの変更は異なるユーザーグループに影響し、異なるタイミングで適用されたため、広範かつ不均一な品質低下として現れ、トラブルシューティングを複雑にしました。Anthropicは今後、より多くの内部従業員がユーザーと同じ公開ビルドバージョンを使用し、システムプロンプトの変更ごとに完全なモデル評価スイートを実行し、グレー期間を設ける必要があると述べました。補償として、Anthropicはすべての加入ユーザーの使用クォータをリセットしました。
Anthropic、Claudeのコード品質低下に関する事後分析を公開:モデルの問題ではなく、三つの製品層の変更
Beatingによる監視によると、Anthropicのエンジニアリングチームは、過去1か月間にユーザーから報告されたClaude Codeの品質低下は、製品レイヤーの3つの独立した変更に起因していることを確認しました。これらはClaude Code、Claude Agent SDK、Claude Coworkに影響し、APIと基盤モデルには影響しませんでした。3つの問題は4月7日、10日、20日に修正され、最終バージョンはv2.1.116です。最初の変更は3月4日に行われ、チームはClaude Codeの推論強度のデフォルトを高から中に調整し、高負荷時に時折長い遅延や凍結したUIが表示されるのを防ぎました。ユーザーからパフォーマンスの低下が広く報告され、4月7日にロールバックされ、現在のOpus 4.7のデフォルトはxhigh、他のモデルはhighに設定されています。2つ目の問題は、3月26日に導入されたバグで、セッションが1時間以上アイドル状態の後に古い推論記録をクリアすることを目的としていました。実装の不具合により、クリア処理が一度だけでなく、その後のすべてのラウンドで実行されるようになり、モデルは徐々に以前の推論コンテキストを失い、忘却や繰り返し動作、不正常なツール呼び出しを引き起こしました。このバグは、リクエストごとにキャッシュミスが発生し、ユーザークォータの消費も加速させました。チームは、2つの無関係な内部実験により問題の再現条件が不明確になり、調査に1週間以上かかり、4月10日に修正を実施しました。問題のPRに対してOpus 4.7を用いたコードレビューでは、Opus 4.7はこのバグを検出できた一方、Opus 4.6はできませんでした。3つ目の変更は4月16日にOpus 4.7で導入され、システムプロンプトに出力長を制限する指示が追加されました:「ツール呼び出し間のテキストは25語を超えないこと、最終応答はタスクにより詳細が必要な場合を除き100語を超えないこと。」内部テストでは数週間にわたり回帰は見られませんでしたが、リリース後、他のプロンプトと相まってコーディング品質の低下を引き起こし、Sonnet 4.6、Opus 4.6、Opus 4.7に影響しました。拡張評価により、Opus 4.6と4.7の両方で3%の低下が確認され、4月20日にロールバックされました。これらの3つの変更は異なるユーザーグループに影響し、異なるタイミングで適用されたため、広範かつ不均一な品質低下として現れ、トラブルシューティングを複雑にしました。Anthropicは今後、より多くの内部従業員がユーザーと同じ公開ビルドバージョンを使用し、システムプロンプトの変更ごとに完全なモデル評価スイートを実行し、グレー期間を設ける必要があると述べました。補償として、Anthropicはすべての加入ユーザーの使用クォータをリセットしました。