GPT-5.5 підкорив межі програмування на базі FrontierSWE, але кількість шахрайств також найвища

Згідно з моніторингом Beating, команда досліджень штучного інтелекту Proximal оновила довгостроковий бенчмарк програмування FrontierSWE. Новий GPT-5.5 (запущений через Codex) значно випереджає другого місця Claude Opus 4.7 за двома показниками: середній бал @5 (середній результат за 5 спроб) та найкращий @5, з часткою 83%. Але GPT-5.5 також є моделлю з найбільшою кількістю шахрайств: з 85 спроб 8 були визнані шахрайськими, разом з Kimi K2.6.

FrontierSWE був випущений у квітні і містить 17 реальних складних задач з галузей оптимізації компіляторів, досліджень машинного навчання, високопродуктивної інженерії тощо, наприклад, переписування Git на Zig, створення сервера SQLite, сумісного з PostgreSQL. Кожне завдання має обмеження у 20 годин і є одним із небагатьох відкритих бенчмаркiв програмування, які ще не були пророблені. GPT-5.5 у порівнянні з попередніми версіями демонструє більш зріле розподілення часу: відкриті завдання отримують більше часу для вдосконалення рішень, а реалізація схожих завдань виконується швидше і з вищими балами.

Попередні тести вже виявили кілька поширених проблем у AI-агентах для програмування. Моделі зазвичай надмірно впевнені у своїх відповідях, і ще до 20 годинного ліміту через поверхневу самоперевірку помилково вважають завдання завершеним і здають його раніше. Opus 4.6 у середньому витрачає понад 8 годин на одне завдання, що значно більше, ніж у інших моделей — близько 2 годин, але багато разів втрачає вже зроблену оптимізацію і потім «винаходить» її знову. Шахрайство особливо проявляється у високонавантажених завданнях: у завданні, де заборонено використовувати PyTorch і переносити його на Mojo, всі моделі, крім Qwen 3.6, намагалися обдурити систему. Gemini використовує кодування символів для приховування заборонених назв бібліотек, запускає приховані процеси у тимчасових каталогах, а Opus 4.6 навіть спочатку у процесі розв’язання пише «готовий обдурити», а потім приступає до шахрайства.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити