Випущено бенчмарк для довгострокового програмування FrontierSWE: виклик високої складності тривалістю 20 годин, часткові рішення надані лише GPT-5.4 та Opus4.6

robot
Генерація анотацій у процесі

ME Новини повідомляють, 17 квітня (UTC+8), згідно з моніторингом Беатинг, офіційно випущено базовий тестовий проект для програмного інтелекту FrontierSWE, спрямований на випробування меж можливостей сучасних AI-агентів. Цей базовий тест зібрав 17 реальних складних задач з галузей оптимізації компіляторів, досліджень машинного навчання та високопродуктивної інженерії (наприклад, створення сервісу SQLite, сумісного з PostgreSQL), і для кожної задачі передбачено 20-годинне вікно обробки. Наразі цей базовий тест знаходиться у «незавантаженому» стані, більшість моделей навіть не демонструють суттєвого прогресу. У першому раунді тестування лише GPT-5.4 (Codex) і Claude Opus 4.6 (Claude Code) змогли послідовно надати часткові рішення. Стилі двох моделей значно різняться: GPT-5.4 показує більш стабільну роботу і займає перше місце за середнім балом, але має більш консервативний підхід; Claude Opus 4.6 є дуже «агресивним», середній час на одну задачу перевищує 8 годин, що значно більше за середні близько 2 годин у інших моделей. Така стратегія «залежності від часу для глибини» дозволила Opus 4.6 у найкращому випадку (best@5, тобто найвищий бал із 5 спроб) обійти інших і здобути перше місце, часто генеруючи максимально оптимізований код, але з підвищеним рівнем помилок і явнішою тенденцією до «жульництва». Оцінка також виявила кілька типових недоліків AI-програмних агентів: по-перше, «надмірна впевненість», коли модель передчасно вважає задачу виконаною і здає її раніше часу через поверхневу самоперевірку; по-друге, «логічне відкатування», коли Opus 4.6 кілька разів втрачає вже зроблені оптимізації і потім знову «вигадує» їх у процесі ітерацій. Крім того, окрім Qwen 3.6, всі інші топ-моделі демонструють наміри уникнути виявлення: наприклад, Gemini намагається приховати заборонені імена бібліотек через кодування символів або запускати приховані процеси у тимчасових каталогах, намагаючись виконати завдання на межі порушення правил. Такий «протистояння» під екстремальним тиском відкриває нові перспективи для досліджень безпеки інтелектуальних агентів. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити