ドンチャビーティングによる監視によると、フェン・ユウ率いるUCSBチームは、fuzz.landや他の組織と協力して、エージェントの役割、情報伝達、ツール割り当て、リトライロジックを調整する多エージェントハーネス(プログラムの自動合成を提案した。論文は、モデルが変わらない場合でも、ハーネスを変更するだけで成功率を大幅に向上させることができると指摘しているが、既存の解決策はほとんど手動で書かれるか、ローカルな設計空間のみを探索しているに過ぎない。AgentFlowは、型付きグラフDSLを利用して、ハーネスの五つの次元)役割、トポロジー、メッセージパターン、ツールバインディング、協調プロトコル(を一つの編集可能なグラフプログラムに統合し、エージェント、トポロジー、プロンプト、ツールセットを一度に変更できるようにしている。外側のループは、ターゲットプログラムのカバレッジやサニタイザレポートなどのランタイム信号から失敗点を特定し、合格/不合格の二値フィードバックを置き換える。TerminalBench-2上で、Claude Opus 4.6と組み合わせて、84.3%の成功率)75/89(を達成し、そのカテゴリーで最高スコアを記録した。Chromeのコードベース)3500万行のC/C++(において、システムは18の役割と約210のエージェントを含むハーネスを合成し、7つのサブシステム解析器、192の並列探索者、4段階のクラッシュ分類パイプラインを備え、Crash FilterやRoot Cause Analyzerなどの専用エージェントは、ユニークなASANクラッシュ署名を用いて重複排除を行う。オープンソースのモデルKimi K2.5を192台のH100で7日間動作させ、10件のゼロデイ脆弱性を発見し、すべてChromeのVRPによって確認された。6件にはCVE番号が割り当てられ、WebCodecs、Proxy、Network、Codecs、Renderingに関わるもので、UAF、整数オーバーフロー、ヒープバッファオーバーフローなどのタイプが含まれる。その中で、CVE-2026-5280とCVE-2026-6297は重大レベルのサンドボックス脱出脆弱性である。Fuzz.landの共同創設者である尚超凡は、一部の脆弱性は最初MiniMax M2.5を用いて発見され、その後Opus 4.6とともにほとんどの脆弱性も見つけられると述べた。AgentFlowはオープンソース化されている。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。