币界网消息,SWE-benchチームは新しいベンチマークProgramBenchを発表し、9つの最先端AIモデルが実際のソフトウェアの再構築タスクで完全合格率が0%であることを評価しました。このベンチマークは、meta AI研究チームとスタンフォード大学、ハーバード大学が共同で発表したもので、タスクはAIエージェントがコンパイル済みのバイナリファイルと使用ドキュメントだけを使い、ゼロからアーキテクチャを構築し、完全なコードベースを実装して元のプログラムの動作を再現することを求めています。ベンチマークには200のタスクが含まれ、小型のCLIツールから大型プロジェクトまでをカバーしています。テスト結果は、主要指標「完全合格」が一つも達成されていないことを示し、Claude Opus 4.7は補助指標「ほぼ合格」で3%のリードを示し、他のモデルはすべて0%でした。
币界网消息,SWE-benchチームは新しいベンチマークProgramBenchを発表し、9つの最先端AIモデルが実際のソフトウェアの再構築タスクで完全合格率が0%であることを評価しました。このベンチマークは、meta AI研究チームとスタンフォード大学、ハーバード大学が共同で発表したもので、タスクはAIエージェントがコンパイル済みのバイナリファイルと使用ドキュメントだけを使い、ゼロからアーキテクチャを構築し、完全なコードベースを実装して元のプログラムの動作を再現することを求めています。ベンチマークには200のタスクが含まれ、小型のCLIツールから大型プロジェクトまでをカバーしています。テスト結果は、主要指標「完全合格」が一つも達成されていないことを示し、Claude Opus 4.7は補助指標「ほぼ合格」で3%のリードを示し、他のモデルはすべて0%でした。