2026-03-03 18:37:48

OpenAIは、SWE-bench Verifiedの失敗したテストの59％が誤りであったことを発見し、SWE-bench Verifiedを放棄します。OpenAIは、フロンティアAIモデルが解答を記憶していたり、テストが正しいコードを拒否したりする重大な汚染問題を明らかにしました。🧪

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

1 いいね

0/400

コメントなし

人気の話題