ME News メッセージ、4月23日(UTC+8)、動察Beatingの監測によると、AIプログラミングツール会社Augment Codeは、自社のモノレポから数十のAGENTS.mdを抽出し、内部評価キットAuggieBenchを使ってそれらがコーディングエージェントの出力に与える実際の影響を測定した。方法は、既にマージされた高品質のPRを基準とし、エージェントにAGENTS.mdの有無の2条件下で同じタスクをやり直させ、スコアを比較することだ。差は予想以上に大きい。最も良く書かれたAGENTS.mdがもたらす品質向上は、モデルをHaikuからOpusに切り替えるのに相当し、最も悪いものは全く劣らない。さらに、同じファイルでもタスクによって効果が逆になることがある:あるバグ修正の規範適合度は25%向上したが、同じモジュールの複雑な機能の完成度は30%低下した。効果的な書き方にはいくつかのポイントがある:メインファイルは100行から150行に抑え、いくつかの焦点を絞った参考資料を添付し、百数十のコアファイルの中規模モジュールで10%から15%の全体的な改善をもたらす。フローを番号付きのステップに書き換えると効果的で、6ステップの展開フローは漏れたファイルのPRを40%から10%に削減し、正確性を25%向上させる。意思決定表を使ってエージェントに事前に適切な方案を選ばせると、規範適合度も25%向上する。禁止事項には代替案を添える必要があり、「やらない」だけを書くだけではエージェントが迷い、15項目以上の連続警告は明らかに悪化させる。最も失敗しやすいのはドキュメントが多すぎることだ。エージェントが大量のアーキテクチャドキュメントに引き込まれると、数十万トークンを読み込んだ後の出力はむしろ悪化する。あるモジュールでは226のドキュメントが2MB超に蓄積されており、AGENTS.mdがいくら良くても役に立たない。さらに、AGENTS.mdはエージェントが100%読む唯一のドキュメント場所であり、_docs/以下の未引用ドキュメントの発見率は10%未満だ。(出典:BlockBeats)
Augment Code実測AGENTS.mdがコード生成に与える影響:最良はモデルのアップグレードと同じ効果、最悪は書かない方がまし
ME News メッセージ、4月23日(UTC+8)、動察Beatingの監測によると、AIプログラミングツール会社Augment Codeは、自社のモノレポから数十のAGENTS.mdを抽出し、内部評価キットAuggieBenchを使ってそれらがコーディングエージェントの出力に与える実際の影響を測定した。方法は、既にマージされた高品質のPRを基準とし、エージェントにAGENTS.mdの有無の2条件下で同じタスクをやり直させ、スコアを比較することだ。差は予想以上に大きい。最も良く書かれたAGENTS.mdがもたらす品質向上は、モデルをHaikuからOpusに切り替えるのに相当し、最も悪いものは全く劣らない。さらに、同じファイルでもタスクによって効果が逆になることがある:あるバグ修正の規範適合度は25%向上したが、同じモジュールの複雑な機能の完成度は30%低下した。効果的な書き方にはいくつかのポイントがある:メインファイルは100行から150行に抑え、いくつかの焦点を絞った参考資料を添付し、百数十のコアファイルの中規模モジュールで10%から15%の全体的な改善をもたらす。フローを番号付きのステップに書き換えると効果的で、6ステップの展開フローは漏れたファイルのPRを40%から10%に削減し、正確性を25%向上させる。意思決定表を使ってエージェントに事前に適切な方案を選ばせると、規範適合度も25%向上する。禁止事項には代替案を添える必要があり、「やらない」だけを書くだけではエージェントが迷い、15項目以上の連続警告は明らかに悪化させる。最も失敗しやすいのはドキュメントが多すぎることだ。エージェントが大量のアーキテクチャドキュメントに引き込まれると、数十万トークンを読み込んだ後の出力はむしろ悪化する。あるモジュールでは226のドキュメントが2MB超に蓄積されており、AGENTS.mdがいくら良くても役に立たない。さらに、AGENTS.mdはエージェントが100%読む唯一のドキュメント場所であり、_docs/以下の未引用ドキュメントの発見率は10%未満だ。(出典:BlockBeats)