動察Beating監測は、インテリジェントエージェントが外部装備の更新を通じて自己進化を実現していることを示しています。研究では、進化を装備の更新と装備の利益の二次元に分解し、装備の更新により基底能力が平坦化し、モデル間の利益差はわずか3.1%であることを発見しました。9BのQwen3.5-9Bの更新スキルはClaude Opus 4.6とほぼ同等であり、低コストのモデルを用いて進化を完了できることを示唆しています。装備の利益は非単調であり、トップレベルのモデルは天井に近づき、弱いモデルは改善の余地が大きいものの利益は少なく、「装備の起動失敗」や「装備の従順失敗」が起こりやすいです。Elvis Sarもこれに呼応し、計算能力をインテリジェントエージェントの実行に投資し、装備の自主的な起動と長距離指令の従順を強化することを提案しています。
エルビス・サーは正しい、計算力を実行層に投入する方がパラメータを積むより実用的だが、弱いモデルの装備が起動に失敗するこの落とし穴はどう埋めるのか