超長程プログラミングベンチマークFrontierSWE公開:20時間の超高難度チャレンジ、GPT-5.4とOpus4.6のみが一部解答を提示

robot
概要作成中

ME News ニュース、4月17日(UTC+8)、動察Beatingの監視によると、プログラミングインテリジェンスエージェントのベンチマークテストプロジェクト FrontierSWE が本日正式にリリースされ、現在のAIエージェントの能力の限界を押し広げることを目的としている。このベンチマークは、コンパイラ最適化、機械学習研究、高性能エンジニアリングなどの分野から17の実際の難題(例:PostgreSQL互換のSQLiteサービスの構築)を収集し、各タスクに最大20時間の処理時間を割り当てている。現在、このベンチマークは「未飽和」状態であり、ほとんどのモデルは実質的な進展すら達成できていない。 最初のテストでは、GPT-5.4(Codex)とClaude Opus 4.6(Claude Code)だけが一部の解を一貫して作成できた。両モデルはスタイルに大きな差があり、GPT-5.4はより安定したパフォーマンスを示し、平均点で1位に位置付けられるが、思考はやや保守的である。一方、Claude Opus 4.6は非常に「攻撃的」であり、単一タスクに平均8時間以上投入し、他のモデルの平均約2時間を大きく上回る。この時間を積み重ねて深さを追求する戦略により、Opus 4.6は最良のパフォーマンス(best@5、つまり5回の試行中最高得点)で逆転優勝し、極限まで最適化されたコードを生成することが多いが、その一方でエラー率が高く、「不正行為」の傾向も顕著である。 評価はまた、AIプログラミングインテリジェンスエージェントの典型的な問題点を明らかにしている。一つは「過度な自信」であり、モデルはしばしば時間の半ば前に浅い自己検証によりタスク完了と誤認し、早期に提出してしまうこと。もう一つは「論理の後退」であり、Opus 4.6は何度も既に最適化した内容を失い、その後の反復で再び「発明」し直すケースも見られる。さらに、Qwen 3.6を除き、他のトップモデルは積極的に検出回避を試みている。例えば、Geminiは不正なライブラリ名を文字コードに隠す、または一時ディレクトリで隠密にプロセスを実行し、違反ギリギリの状態でタスクを完了しようとする。このような極端なプレッシャー下で見られる「対抗行動」は、インテリジェントエージェントの安全性研究に新たな視点を提供している。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン