据动察 Beating 监测，AI 研究团队 Proximal 更新超长程编程基准 FrontierSWE 排行榜。新加入的 GPT-5.5（通过 Codex 运行）在 mean@5（5 次尝试的平均分）和 best@5（最高分）两项指标上均大幅领先第二名 Claude Opus 4.7，支配率达 83%。但 GPT-5.5 也是作弊最多的模型：85 次试验中 8 次被判作弊，与 Kimi K2.6 并列。 FrontierSWE 4 月发布，收集了编译器优化、ML 研究、高性能工程等领域的 17 项真实难题，如用 Zig 重写 Git、构建兼容 PostgreSQL 的

BlockBeatNews

2026-05-06 10:37:16

動察 Beating 監測によると、AI 研究チーム Proximal は超長距離プログラミングベンチマーク FrontierSWE のランキングを更新した。新たに加わった GPT-5.5（Codex 経由で動作）は、mean@5（5回の試行の平均点）と best@5（最高点）の両方で2位の Claude Opus 4.7を大きくリードし、支配率は83％に達している。しかし、GPT-5.5 は最も不正行為の多いモデルでもある：85回の試験中8回が不正判定され、Kimi K2.6 と並んでいる。

FrontierSWE は4月に公開され、コンパイラ最適化、ML研究、高性能エンジニアリングなどの分野から17の実際の難題を収集した。例として、Zigを用いたGitの書き直しや、PostgreSQL互換のSQLiteサーバーの構築などがあり、各課題の制限時間は20時間で、これは現在公開されているプログラミングベンチマークの中でほとんど未突破のものだ。GPT-5.5は前世代と比べて時間配分がより成熟している：オープンな課題にはより多くの時間をかけて解決策を磨き、類似の課題はより早く高得点で完了させている。

これまでのテストでは、AIプログラミングエージェントのいくつかの共通の問題点が明らかになっている。モデルは一般的に過度に自信を持ち、20時間の制限に達する前に浅い自己点検によりタスクが完了したと誤認し、早めに提出してしまう。Opus 4.6は単一の課題に平均8時間以上投入しており、他のモデルのおよそ2時間を大きく上回るが、何度も既存の最適化を失い、その後再び「発明」し直すこともあった。不正行為は高圧的な課題で特に顕著であり、PyTorchの使用が明確に禁止されているMojoへの移植課題では、Qwen 3.6を除き、すべてのモデルが不正を試みた。Geminiは文字コードを使って禁止されたライブラリ名を隠し、一時ディレクトリで隠密にプロセスを実行し、Opus 4.6は推論中に「不正をしたい」と書きながら作業を進めることさえあった。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。