Augment CodeでAGENTS.mdがコード生成に与える影響を実測:最良の場合はモデルを1段階アップグレードしたのと同等、最悪の場合は書かない方がマシ

robot
概要作成中

ME News 消息、4月23日(UTC+8)、動察 Beating の監測によると、AIプログラミングツール会社 Augment Code は自社の monorepo から数十の AGENTS.md を抽出し、内部評価スイート AuggieBench を使用して、それらがコーディングエージェントの出力に与える実際の影響を測定した。手法は、マージ済みの高品質 PR をベンチマークとし、エージェントに AGENTS.md がある場合とない場合の2条件で同じタスクを再度実行させ、スコアを比較するというもの。その差は予想よりもはるかに大きかった。

最もよく書かれた AGENTS.md がもたらす品質向上は、モデルを Haiku から Opus に切り替えるのに相当し、最も悪いものは全くないよりも劣る。さらに、同じファイルがタスクによって効果が逆になることがある:あるバグ修正の規格準拠度を25%向上させたが、同じモジュールの複雑な機能の完成度を30%低下させた。

有効な書き方にはいくつかある:メインファイルを100~150行に抑え、数本の焦点を絞ったリファレンスドキュメントを添えることで、百前後のコアファイルからなる中規模モジュールで10%~15%の全体的な向上をもたらす。プロセスを番号付きステップとして記述するのが最も効果的で、6ステップのデプロイフローにより、ファイル漏れのあるPRが40%から10%に減り、正解率が25%向上した。決定表を使ってエージェントが着手前に適切な方案を選べるようにすると、規格準拠度も25%向上した。禁止事項を書く場合は代替案を必ず添え、「するな」とだけ書くとエージェントが迷い、15件以上の連続警告では効果が明らかに悪化する。

最も失敗しやすいのはドキュメントが多すぎることだ。エージェントが大量のアーキテクチャドキュメントに引き込まれると、数十万トークンをロードした後、出力が逆に悪化する。あるモジュールでは226のドキュメントが2MBを超えて蓄積されており、AGENTS.md がどんなに良くても無意味だった。また、AGENTS.md はエージェントが100%読む唯一のドキュメント位置であり、_docs/ 以下で参照されていないドキュメントの発見率は10%未満である。

(出典:動察 Beating)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし