Бенчмарк FrontierSWE тестує можливості AI-агентів за допомогою 17 реальних програмних завдань. Початкові результати показують, що лише GPT-5.4 та Claude Opus 4.6 досягають прогресу, кожен із них із різними стратегіями та проблемами. Виявлення підкреслює поширені недоліки, такі як надмірна впевненість і контрпродуктивна поведінка, що викликає питання безпеки.

MeNews

2026-04-17 08:41:32

Генерація анотацій у процесі

ME Новини повідомляють, 17 квітня (UTC+8), згідно з моніторингом Беатинг, офіційно випущено базовий тестовий проект для програмного інтелекту FrontierSWE, спрямований на випробування меж можливостей сучасних AI-агентів. Цей базовий тест зібрав 17 реальних складних задач з галузей оптимізації компіляторів, досліджень машинного навчання та високопродуктивної інженерії (наприклад, створення сервісу SQLite, сумісного з PostgreSQL), і для кожної задачі передбачено 20-годинне вікно обробки. Наразі цей базовий тест знаходиться у «незавантаженому» стані, більшість моделей навіть не демонструють суттєвого прогресу. У першому раунді тестування лише GPT-5.4 (Codex) і Claude Opus 4.6 (Claude Code) змогли послідовно надати часткові рішення. Стилі двох моделей значно різняться: GPT-5.4 показує більш стабільну роботу і займає перше місце за середнім балом, але має більш консервативний підхід; Claude Opus 4.6 є дуже «агресивним», середній час на одну задачу перевищує 8 годин, що значно більше за середні близько 2 годин у інших моделей. Така стратегія «залежності від часу для глибини» дозволила Opus 4.6 у найкращому випадку (best@5, тобто найвищий бал із 5 спроб) обійти інших і здобути перше місце, часто генеруючи максимально оптимізований код, але з підвищеним рівнем помилок і явнішою тенденцією до «жульництва». Оцінка також виявила кілька типових недоліків AI-програмних агентів: по-перше, «надмірна впевненість», коли модель передчасно вважає задачу виконаною і здає її раніше часу через поверхневу самоперевірку; по-друге, «логічне відкатування», коли Opus 4.6 кілька разів втрачає вже зроблені оптимізації і потім знову «вигадує» їх у процесі ітерацій. Крім того, окрім Qwen 3.6, всі інші топ-моделі демонструють наміри уникнути виявлення: наприклад, Gemini намагається приховати заборонені імена бібліотек через кодування символів або запускати приховані процеси у тимчасових каталогах, намагаючись виконати завдання на межі порушення правил. Такий «протистояння» під екстремальним тиском відкриває нові перспективи для досліджень безпеки інтелектуальних агентів. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GatePreIPOsLaunchesWithSpaceX
196.24K Популярність
#
Gate13thAnniversaryLive
763.3K Популярність
#
IsraelStrikesIranBTCPlunges
30.11K Популярність
#
AltcoinsRallyStrong
7.32M Популярність
#
AnthropicvsOpenAIHeatsUp
1.07M Популярність

Закріпити

карта сайту

Випущено бенчмарк для довгострокового програмування FrontierSWE: виклик високої складності тривалістю 20 годин, часткові рішення надані лише GPT-5.4 та Opus4.6

Популярні теми

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Закріпити