Anthropic が Claude Code のために /goals コマンドをリリースし、タスクの実行と完了判定を二つの独立したモデルに分離しました。これは、同じAIに自分の仕事を評価させる設計が根本的に欠陥を抱えているためです。 (前提:Claude Codeは毎週のトークン使用上限を50%増加!2ヶ月間にわたりAnthropicが開発者エコシステムを獲得) (補足:Claude Codeの自動実行機能ルーチンが登場:スケジューリング、API、GitHubイベントの三つのトリガーをサポート)あなたもこんな状況に遭遇したことがあるかもしれません:AIがコード設計を完了し、「タスク完了」と返答したが、数日後に気づくといくつかのモジュールがコンパイルされていなかった。これはモデルの能力不足ではなく、モデル自身が「完了した」と判断した結果です。しかし実際にはそうではありません。この問題を改善するために、Anthropicは今週Claude Codeに新たに /goals コマンドを導入しました。ロジックは非常にシンプルです:タスクを実行するモデルと、そのタスクが完了したかどうかを判断するモデルは、別々の役割を担う必要があります。同じモデルが両方の役割を兼ねることはできません。なぜなら、そのモデルは自分の仕事を最も酷評する審査員だからです。> How do you keep Claude working until the job is done? Claude Code helps with this in a few ways, including one we shipped recently: /goal. pic.twitter.com/QtVPmwoKct > > — ClaudeDevs (@ClaudeDevs) May 13, 2026### AIエージェントが「早期終了」する理由AIコーディングエージェントの仕事はループです:ファイルを読み込み、コマンドを実行し、コードを修正し、最後にタスクが完了したかどうかを判断します。問題はこの最後のステップにあります。実行過程で蓄積されるコンテキスト:完了したステップ、試した方法、通ったエラー…これらがモデルの進捗認識に偏りをもたらします。モデルは「多くのことをした」=「完了した」と誤認しやすいのです。この問題は企業環境では高コストです。コードの移行やテスト修正が最終段階に達する前に停止すると、数日後に発見されることが多いです。現在の業界にはいくつかの解決策もあります。OpenAIはエージェントモデルに自己判断させ、いつ停止するかを決めさせ、開発者が外部評価器を接続できるようにしています。GoogleのADKはLoopAgentを通じて独立した評価を実現し、LangGraphも類似の仕組みをサポートしていますが、これらの方案には共通点があります:批評ノード(critic node)と終了ロジックは開発者自身が設計し、プラットフォームはデフォルトを提供しません。### 一つのコマンド、二つのモデル/goals のコア設計は、「実行」と「評価」を正式に二つの役割に分離することです。開発者は目標条件を入力します。例:/goal test/auth 目錄下のすべてのテストが通過し、lintの結果がクリーンであることエージェントが作業を終了しようとするたびに、評価モデルが引き継ぎ検査します。評価モデルはデフォルトでClaude Haiku(Anthropicの軽量モデル)を使用します。小さなモデルを選ぶ理由は単純です:評価者は二値判定だけを行えば良く、「条件を満たす」か「満たさない」かだけです。大きな推論能力は不要です。条件が満たされていなければエージェントは続行し、満たされれば評価モデルが結果を会話記録に記録し、目標をクリアします。全体の流れはClaude Code内部で完結し、外部の可観測性プラットフォームやカスタムログシステムは不要です。Anthropicの資料によると、有効な目標条件には通常、三つの要素が必要です: ・測定可能な最終状態(テスト結果、ビルドの退出コード、特定ファイル数) ・明確な検証方法(例:「npm testの退出コードが0」) ・途中で変更してはいけない制約(例:「他のテストファイルは変更しない」) 
Claude Code 新推 /goals 指令:分離執行與評估,避免 AI 代理偷懶說謊
Anthropic が Claude Code のために /goals コマンドをリリースし、タスクの実行と完了判定を二つの独立したモデルに分離しました。これは、同じAIに自分の仕事を評価させる設計が根本的に欠陥を抱えているためです。
(前提:Claude Codeは毎週のトークン使用上限を50%増加!2ヶ月間にわたりAnthropicが開発者エコシステムを獲得)
(補足:Claude Codeの自動実行機能ルーチンが登場:スケジューリング、API、GitHubイベントの三つのトリガーをサポート)
あなたもこんな状況に遭遇したことがあるかもしれません:AIがコード設計を完了し、「タスク完了」と返答したが、数日後に気づくといくつかのモジュールがコンパイルされていなかった。これはモデルの能力不足ではなく、モデル自身が「完了した」と判断した結果です。しかし実際にはそうではありません。
この問題を改善するために、Anthropicは今週Claude Codeに新たに /goals コマンドを導入しました。ロジックは非常にシンプルです:タスクを実行するモデルと、そのタスクが完了したかどうかを判断するモデルは、別々の役割を担う必要があります。同じモデルが両方の役割を兼ねることはできません。なぜなら、そのモデルは自分の仕事を最も酷評する審査員だからです。
AIエージェントが「早期終了」する理由
AIコーディングエージェントの仕事はループです:ファイルを読み込み、コマンドを実行し、コードを修正し、最後にタスクが完了したかどうかを判断します。問題はこの最後のステップにあります。
実行過程で蓄積されるコンテキスト:完了したステップ、試した方法、通ったエラー…これらがモデルの進捗認識に偏りをもたらします。モデルは「多くのことをした」=「完了した」と誤認しやすいのです。この問題は企業環境では高コストです。コードの移行やテスト修正が最終段階に達する前に停止すると、数日後に発見されることが多いです。
現在の業界にはいくつかの解決策もあります。OpenAIはエージェントモデルに自己判断させ、いつ停止するかを決めさせ、開発者が外部評価器を接続できるようにしています。GoogleのADKはLoopAgentを通じて独立した評価を実現し、LangGraphも類似の仕組みをサポートしていますが、これらの方案には共通点があります:批評ノード(critic node)と終了ロジックは開発者自身が設計し、プラットフォームはデフォルトを提供しません。
一つのコマンド、二つのモデル
/goals のコア設計は、「実行」と「評価」を正式に二つの役割に分離することです。開発者は目標条件を入力します。例:
/goal test/auth 目錄下のすべてのテストが通過し、lintの結果がクリーンであること
エージェントが作業を終了しようとするたびに、評価モデルが引き継ぎ検査します。評価モデルはデフォルトでClaude Haiku(Anthropicの軽量モデル)を使用します。小さなモデルを選ぶ理由は単純です:評価者は二値判定だけを行えば良く、「条件を満たす」か「満たさない」かだけです。大きな推論能力は不要です。
条件が満たされていなければエージェントは続行し、満たされれば評価モデルが結果を会話記録に記録し、目標をクリアします。全体の流れはClaude Code内部で完結し、外部の可観測性プラットフォームやカスタムログシステムは不要です。
Anthropicの資料によると、有効な目標条件には通常、三つの要素が必要です:
・測定可能な最終状態(テスト結果、ビルドの退出コード、特定ファイル数)
・明確な検証方法(例:「npm testの退出コードが0」)
・途中で変更してはいけない制約(例:「他のテストファイルは変更しない」)