币界网消息,SWE-benchチームは新しいベンチマークProgramBenchを発表し、9つの最先端AIモデルが実際のソフトウェアの再構築タスクで完全合格率が0%であることを評価しました。このベンチマークは、meta AI研究チームとスタンフォード大学、ハーバード大学が共同で発表したもので、タスクはAIエージェントがコンパイル済みのバイナリファイルと使用ドキュメントだけを使い、ゼロからアーキテクチャを構築し、完全なコードベースを実装して元のプログラムの動作を再現することを求めています。ベンチマークには200のタスクが含まれ、小型のCLIツールから大型プロジェクトまでをカバーしています。テスト結果は、主要指標「完全合格」が一つも達成されていないことを示し、Claude Opus 4.7は補助指標「ほぼ合格」で3%のリードを示し、他のモデルはすべて0%でした。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン