Raindrop Workshop で Codex を使ってあなたの AI エージェントが自動的にバグを見つけて修正(無料オープンソース)

AIエージェント開発者ツール企業Raindropは今週、ローカルデバッグツールワークショップ(v0.1.6)をオープンソース化し、開発者がエージェントの各トークン出力やツール呼び出しをリアルタイムで追跡できるようにしました。また、MCPを通じてClaude Codeが自動的に読み取り、テスト作成や修正を行える仕組みも導入しています。
(前提:Claudeがプログラムを書くときに頻繁に間違える?アンドレイ・カーパシーの12ルールを改良し、誤り率を41%から3%に削減)
(補足:Anthropicが「Claude for Small Business」をリリース:中小企業向けのAI自動化支援)

あなたのAIエージェントが奇妙な結果を出しました。予期しないツールを選択し、曖昧な応答を返しています。ログを開くと、多くのAPI呼び出しとトークン数が記録されているだけで、どの決定が間違ったのか手がかりがありません。

Raindropは5月14日に、こうした状況を防ぐためのオープンソースツールを公開しました:完全ローカル、完全無料のAIエージェントデバッグワークショップです。開発者はエージェントの各トークン出力やツール呼び出しを即時に追跡し、デバッグ自体をClaude CodeやCodexに任せることができます。

AIエージェントのデバッグ問題はなぜ特に難しいのか?

従来のソフトウェアデバッグにはブレークポイントや完全なコールスタック、確定的な実行経路があります。AIエージェントのデバッグは異なります。行動は確率的で、同じ入力でも異なる実行では全く異なる経路をたどる可能性があります。決定は複数のLLM呼び出しの間に分散して形成されており、最終出力だけでは論理をほとんど理解できません。

問題の本質は、「どの行のコードが間違っているか」を探すのではなく、「エージェントが特定のコンテキストの組み合わせで予期しない判断をしたのはどの段階か」を見つけることにあります。この種の問題は、従来のデバッガでは答えを見つけられません。

既存の解決策は一般的に二つの道に分かれます:

  • 一つはクラウド監視プラットフォームにトレースを送信し、ダッシュボードで分析する方法
  • 二つはコードにカスタムロギングロジックを埋め込む方法

前者はデータプライバシーの懸念がある開発者には不向きで、後者は時間と労力がかかり、フレームワークのアップグレードごとに新しいロギングインフラを維持しなければなりません。さらに、どちらも共通の問題があります:それは「何が起きたか」を伝えるだけで、「どう修正するか」には答えないことです。

このワークショップは第三の道を選びました:完全ローカルで実行し、外部サーバーにデータを送信せず、オープンソースで無料。AIが直接デバッグループに参加します。

ワークショップの動作方式

起動後、ワークショップはローカルでビジュアルインターフェースを実行し、MCP(Model Context Protocol)サーバーを外部に公開します。MCPは「AIツールが外部能力を呼び出せる標準通信プロトコル」を意味し、Claude CodeなどのAIコーディングツールが外部データを読み取る橋渡しです。

対応SDKを接続すると、エージェントの各実行ノード—各トークン出力、各ツール呼び出し、各意思決定分岐—がストリーミング方式でリアルタイムにlocalhost:5899に表示され、ポーリングや手動リロードは不要です。

簡単に言えば、あなたのPC上に監視ウィンドウを開き、ライブ配信のようにAIエージェントの動作を即座に確認できる仕組みです。

このワークショップの最も重要な設計は、Claude Codeなどの設計支援ツールをデバッグループに組み込むことです。ワークショップはMCPサーバーを公開しているため、Claude Codeはトレース内容を直接読み取り、それに基づいて評価テストを作成し、実行します。失敗したアサーションを観察し、エージェントのコードを修正して再実行—これをすべて自動的に行い、すべてのテストに合格させるまで繰り返します。

Raindropはこのループを「自己修復評価ループ」と呼んでいます。全工程はローカルのクローズドループで、Claude Codeはトレースを読み取り、評価を書き、失敗を確認し、コードを修正し、再実行します。開発者が手動で介入する必要はありません。

さらに、ワークショップはReplay機能もサポートしています。オンライン環境のトレースをローカルに取り込み、実際のコードで再実行し、回帰テストを行います。これにより、「本番環境でエラーが出たがローカルで再現できない」ケースに特に有効です。実際のトレースを使って再現し、シナリオ構築の時間を短縮します。

CODEX-1.17%
TOKEN-0.39%
ANTHROPIC-2.13%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め