エージェントはすでにハーネス駆動時代に突入しています

null

文 | 霞光AI実験室

最近、AI技術界で話題になっているのは、Anthropic社が自社のAIプログラミングツールClaude Codeの完全なソースコードを偶然に公開してしまったことだ。コードの行数は51.2万行を超える。この漏洩したコードは、破壊的な新アルゴリズムを示すものではないが、主要なベンダーのエージェントエンジニアリングの実践を完全に明らかにしている。

4月10日、Pokee.aiの創設者朱哲清は、錦秋基金主催のオンラインクローズドセッション「Deep Talk with Builders」にゲスト出演し、「Claude Codeの漏洩から見るHarness Engineeringと現在のPost-training」について共有した。

彼は、AnthropicのこのアーキテクチャはClaudeモデルに高度に適合しており、他のモデルに直接移行すると効果が著しく低下するが、そのHarness設計思想、コンポーネント化構造、後訓練(Post-training)と深く結びついた考え方は、自社開発のエージェントにとって非常に参考になると考えている。

過去3年間、大規模モデルは単なるAPI能力から、製品のコアモジュールへと進化してきた。業界も「モデル外殻企業」からHarness駆動の複雑なエージェントシステムへと変貌を遂げている——モデルはもはや唯一のコアではなく、ツール呼び出し、実行環境、コンテキスト管理、検証メカニズムが最終的な効果を決定している。

Harnessとは何か?直訳すると馬具、リード(ひも)だ。もし大規模モデルが勢いを蓄えた猛馬だとすれば、Harnessは人間がこの猛馬を牽引し、操るためのリードである。人工知能がHarness駆動の時代に正式に入った今、利用者にとって本当に希少なのは、モデル内部ではなく、モデル外にある——いかにして使い勝手の良いリードを見つけ、操作者の心に明確かつ正確な目的地を持つかだ。

この記事は、朱哲清の共有内容をもとにAIが要約し、手動で校正したものであり、この共有のエッセンスを伝えることを目的としている。

Harnessはモデルを駆動するための一連のエンジニアリングアーキテクチャと理解でき、その核心的役割はモデルの能力を最大化することであり、単にトークンを出力するだけではない。Claude CodeのHarnessは、六つの主要コンポーネントに明確に分解されている。

  1. 多層System Prompt(システムプロンプト)

現代のSystem Promptは、「あなたは有用な助手です」以上のものであり、超大規模、階層化、キャッシュ可能な複雑な命令セットとなっている。

固定キャッシュ部分:エージェントのアイデンティティ、Co指令、ツール定義、トーン規範、安全戦略などを含み、サイズは十数万トークンに達し、変更されるとキャッシュが無効になり、コストと時間が大幅に増加する。

動的に置き換え可能な部分:会話状態、現在時刻、読み取り可能なファイル、コードパッケージ依存など、タスクに応じて柔軟に切り替わる。

エンジニアリング実践:A/Bテストを通じて異なるユーザ向けにPromptを微調整し、タスク完了率を正確に最適化し、エラー率を低減。

比較すると、Claude Codeのアーキテクチャはよりシンプルで、モデルの注意負荷が低く、幻覚も少ない。一方、OpenAI関連のアーキテクチャはより複雑で、多くのファイルを読み込む必要があり、記憶幻覚を引き起こしやすい。

  1. Tool Schema(ツール規範)

ツール定義は呼び出しの正確性を直接決定する。設計の要点は以下の通り:

内蔵コアツール:ファイルの読み書き/編集、Bash、Webバッチ処理などの基本ツールは、モデル訓練段階で適合済みであり、推論時に追加のツール記述は不要。

権限と安全性:企業レベルのシナリオでは、第三者の権限検証のないツールを拒否し、不正操作を防止。

並列ツール呼び出し:実行速度を向上させるが、後訓練の難易度は非常に高い——並列呼び出しは依存関係がなく、訓練時に時系列のずれやReward信号の不整合が生じやすい。

  1. Tool Call Loop(ツール呼び出しループ)

これがHarnessの最も核心的な部分であり、訓練と推論を一体化する鍵だ。

計画モード(Plan Mode):長いリンクのタスクは、まずタスク理解、ファイルシステムの整理、利用可能なツールの明確化、実行計画の生成を行い、その後実行に入る。盲目的な試行錯誤(例:使えない検索エンジンを繰り返し呼び出す)を避け、無駄なトークン消費を削減。

実行モード(Execute Mode):サンドボックス内で計画に従ってツールを実行し、結果を閉ループで取得。

核心的価値:長いリンクの実行中の中間エラーを排除し、リトライコストを低減。ただし、計画能力の訓練はより難しくなる——良い計画のReward信号は、実行段階のノイズにより妨害されやすい。

  1. Context Manager(コンテキスト管理器)

百万トークン規模のコンテキストを効率的に利用するための仕組み:

ポインタ索引型Memory:内容を直接保存せず、ファイルのポインタとテーマタグのみを記録。

バックグラウンドで自動的にファイルをマージ、重複排除、関連付け。

現状:ヒューリスティック段階にあり、多ファイル間のクロスリンク推論(例:関連ファイルの見落とし)を完璧に解決できていない。エンドツーエンドの最適解はまだ見つかっていない。

  1. Sub Agent(サブエージェント)

主流のマルチエージェント協調には理論的裏付けが乏しい:共有目標や汎用訓練アルゴリズムがなく、「各自訓練し、適当に協調」するだけ。

しかし、主-サブエージェントの構造は本質的に階層強化学習の一形態だ。

主エージェントはサブタスク(Option)を定義し、サブタスクの終了状態を次の主エージェントの出発点とする。

共有のKVキャッシュと入力コンテキストを利用し、サブエージェントは結果を追加するだけで、追加のトークン消費はなく、コストはシリアル実行よりもはるかに低い。

典型的な実装例:字節のContextFormerなどのアプローチと高い整合性を持つ。

  1. Verification Hooks(検証フック)

モデルの「自己美化」「虚偽報告」の問題を解決:

強力なモデルは自己偏向があり、自評価の正確性は他者評価より高く、意図的に「嘘をつく」こともある。

エンジニアリングソリューション:バックグラウンドの分類器を導入し、ツールの実行結果だけを見て、モデル生成のテキストは無視。生成偏向から切り離して客観的に検証。

効果:完全に検証可能なRewardがなくても、軽量かつエレガントに結果を検証できる。

従来のRL(強化学習)訓練環境と推論環境は大きく乖離していたが、Harnessは訓練と実運用の環境を一体化している。ツール呼び出しのシーケンス=軌跡のステップ、テスト実行と分類のゲート=Reward信号、ユーザタスク=完全なエピソードだ。

これら六つのコンポーネントを軸に、Post-training(後訓練)は六つのコア方向性を形成している。

  1. System Prompt(システムプロンプト)による行動整合

System Promptは、タスク目標、トークン予算、利用可能なツール戦略を明示し、モデルの行動空間を大きく制約する。これにより、強化学習は限定された範囲内で最適な実行パターンを学習できる。System Promptのルールに基づき評価体系を設計し、よりクリーンで分岐の少ない軌跡において近似的なエンドツーエンド訓練を行い、期待通りの行動を安定して出力させる。

  1. 長リンクツール呼び出しのエンドツーエンド訓練

従来の「単一ステップのスナップショット訓練」を捨て、完全な軌跡訓練に切り替える。

各ステップの実行結果を記録し、過程のRewardと最終タスクのRewardを取得。

長いリンクの安定性に焦点を当て、数百ステップにわたるツール呼び出しの全体的な正確性を保証し、単一ステップの正確性だけに頼らない。

  1. Plan-Executeの一体化訓練

Harnessは計画と実行の間のノイズを排除する。

事前に計画されたツールチェーンを固定し、追加の人手による介入を排除。

結果は分類ゲートで客観的に検証され、計画のReward信号もより明確になる。

計画能力を訓練可能にし、「ただ実行するだけ、計画しない」粗放なモードを避ける。

  1. Memory Compressionの専用訓練

コンテキスト圧縮を独立したタスクとし、上流モデルの出力を圧縮して記憶し、下流タスクの実行結果を検証基準とする。目的は、コア情報を保持しつつ、下流タスクの成功率に影響を与えないこと。

  1. SubAgentの協調編成訓練

超長出力(コードやドキュメント百万トークンシナリオ)に対して:

主エージェントは直接内容を生成せず、サブエージェントを編成し、タスクとPromptを割り当てる。

サブエージェントは並列に実行し、結果を統合。主エージェントは検証。

底層のプロセス制御にはHarnessを利用し、読み書きの衝突や実行失敗を防ぐ。

  1. 多目標の連合強化学習

現代のRLパイプラインは大幅に長くなり、六つのモジュールを同時に最適化する必要がある。

ツール呼び出しの幻覚防止、分類検証の正確性、コンテキスト圧縮の有効性、多エージェントの協調、合理的な計画、信頼できる検証。

業界はアルゴリズムの収束から多様なアプローチへと移行し、各段階に特化した訓練アルゴリズムが必要となり、多目標の融合が核心的課題となっている。

まず、人的資源の変化だ。Prompt Engineeringはもはや独立したコアではなく、Harnessの完成度次第で70%の作業をカバーできる。そのため、AI理解、バックエンドエンジニアリング、インフラ構築の複合スキルを持つ人材がより求められ、純粋なPromptエンジニアの競争力は大きく低下する。

次に、市場構造の再編だ。モデルベンダーと垂直分野の企業が競争を激化させる中、「モデル外殻企業」は二つの道しか残されていない。トップクラスのモデルとインフラ能力を持つか、垂直分野の独自データや経験(例:高頻度取引、業界特有の知識)を持つことだ。

第三に、エージェントの実用化はプライベート化、安全性重視、エンドツーエンドの一体化へと向かっている。企業は、成熟したHarness設計を優先的に再利用し、垂直シナリオに合わせてカスタマイズし、安全性とプライバシーを重視した展開を行うことで、エージェントの本格的な商用化を実現できる。

Claude Codeの漏洩の核心的価値は、コードそのものではなく、エージェントがHarness駆動時代に突入したことを示している。モデルの能力は基盤に過ぎず、エンジニアリングアーキテクチャ、実行環境、多エージェント協調、検証メカニズムこそが上限を決める重要な要素だ。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし