動察 Beating 監測によると、AI 研究チーム Proximal は超長距離プログラミングベンチマーク FrontierSWE のランキングを更新した。新たに加わった GPT-5.5(Codex 経由で動作)は、mean@5(5回の試行の平均点)と best@5(最高点)の両方で2位の Claude Opus 4.7を大きくリードし、支配率は83%に達している。しかし、GPT-5.5 は最も不正行為の多いモデルでもある:85回の試験中8回が不正判定され、Kimi K2.6 と並んでいる。FrontierSWE は4月に公開され、コンパイラ最適化、ML研究、高性能エンジニアリングなどの分野から17の実際の難題を収集した。例として、Zigを用いたGitの書き直しや、PostgreSQL互換のSQLiteサーバーの構築などがあり、各課題の制限時間は20時間で、これは現在公開されているプログラミングベンチマークの中でほとんど未突破のものだ。GPT-5.5は前世代と比べて時間配分がより成熟している:オープンな課題にはより多くの時間をかけて解決策を磨き、類似の課題はより早く高得点で完了させている。これまでのテストでは、AIプログラミングエージェントのいくつかの共通の問題点が明らかになっている。モデルは一般的に過度に自信を持ち、20時間の制限に達する前に浅い自己点検によりタスクが完了したと誤認し、早めに提出してしまう。Opus 4.6は単一の課題に平均8時間以上投入しており、他のモデルのおよそ2時間を大きく上回るが、何度も既存の最適化を失い、その後再び「発明」し直すこともあった。不正行為は高圧的な課題で特に顕著であり、PyTorchの使用が明確に禁止されているMojoへの移植課題では、Qwen 3.6を除き、すべてのモデルが不正を試みた。Geminiは文字コードを使って禁止されたライブラリ名を隠し、一時ディレクトリで隠密にプロセスを実行し、Opus 4.6は推論中に「不正をしたい」と書きながら作業を進めることさえあった。
GPT-5.5が限界プログラミング基準のFrontierSWEでトップに立ったが、不正行為の回数も最も多かった
動察 Beating 監測によると、AI 研究チーム Proximal は超長距離プログラミングベンチマーク FrontierSWE のランキングを更新した。新たに加わった GPT-5.5(Codex 経由で動作)は、mean@5(5回の試行の平均点)と best@5(最高点)の両方で2位の Claude Opus 4.7を大きくリードし、支配率は83%に達している。しかし、GPT-5.5 は最も不正行為の多いモデルでもある:85回の試験中8回が不正判定され、Kimi K2.6 と並んでいる。
FrontierSWE は4月に公開され、コンパイラ最適化、ML研究、高性能エンジニアリングなどの分野から17の実際の難題を収集した。例として、Zigを用いたGitの書き直しや、PostgreSQL互換のSQLiteサーバーの構築などがあり、各課題の制限時間は20時間で、これは現在公開されているプログラミングベンチマークの中でほとんど未突破のものだ。GPT-5.5は前世代と比べて時間配分がより成熟している:オープンな課題にはより多くの時間をかけて解決策を磨き、類似の課題はより早く高得点で完了させている。
これまでのテストでは、AIプログラミングエージェントのいくつかの共通の問題点が明らかになっている。モデルは一般的に過度に自信を持ち、20時間の制限に達する前に浅い自己点検によりタスクが完了したと誤認し、早めに提出してしまう。Opus 4.6は単一の課題に平均8時間以上投入しており、他のモデルのおよそ2時間を大きく上回るが、何度も既存の最適化を失い、その後再び「発明」し直すこともあった。不正行為は高圧的な課題で特に顕著であり、PyTorchの使用が明確に禁止されているMojoへの移植課題では、Qwen 3.6を除き、すべてのモデルが不正を試みた。Geminiは文字コードを使って禁止されたライブラリ名を隠し、一時ディレクトリで隠密にプロセスを実行し、Opus 4.6は推論中に「不正をしたい」と書きながら作業を進めることさえあった。