OpenAI 推 GPT-5.5:12M контекст, AA індекс на першому місці, Terminal-Bench 82.7% переписує агентський бенчмарк

robot
Генерація анотацій у процесі

OpenAI 於 4/23 正正式發布 GPT-5.5, 定定位 як головної моделі, орієнтованої на агентський (agentic) робочий процес та опрацювання корпоративних знань, а також синхронно з’являється в ChatGPT і Codex. Офіційна рекламна подача визначає це як «наша найрозумніша й найінтуїтивніша у використанні модель», а AA Intelligence Index, набравши 60 балів, виходить на перше місце, випереджаючи Claude Opus 4.7 та Gemini 3.1 Pro Preview відповідно на 3 бали.

Ключові дані огляд

Показник GPT-5.5 порівняно (GPT-5.4 або рівнозначні конкуруючі продукти) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0 (командний рядок робочі процеси) 82.7% GPT-5.4:75.1% Expert-SWE (внутрішнє програмне оцінювання OpenAI) 73.1% GPT-5.4:68.5% Контекстне вікно 1,200 万 tokens Значне покращення, здатне обробляти весь корпоративний програмний репозиторій або кілька годин відео Ціна (за мільйон token) Вхід 5 доларів, вихід 30 доларів Ціна в 2 рази вища, ніж GPT-5.4; але кількість токенів на виході зменшилась приблизно на 40%, а чиста вартість зросла приблизно на 20%

Позиціювання: розроблено для «Епохи агентів»

OpenAI описує GPT-5.5 як базову модель для агентського обчислення: вона може розуміти складні цілі, використовувати інструменти, самостійно перевіряти результати роботи та доводити багатокрокові завдання до завершення без потреби в тому, щоб людина втручалася на кожному етапі. За даними інтерв’ю TechCrunch, президент Greg Brockman назвав цю версію «великим кроком уперед до майбутнього обчислення, але це лише крок», і підкреслив, що вона «порівняно з 5.4 є швидшим і гострішим розумувачем, використовуючи менше token».

Головний науковець Jakub Pachocki зазначив, що «у короткостроковій перспективі ми бачимо дуже суттєве покращення»; керівник досліджень Mark Chen натомість наголосив, що цього разу версія принесла «значущі прориви» у робочих процесах наукових та технічних досліджень.

Обсяг постачання та багаторівнева сегментація версій

GPT-5.5:плюс, pro, business, enterprise користувачі в ChatGPT та Codex можуть використовувати

GPT-5.5 Pro:вища за рівнем версія міркувань, доступна Pro, Business, Enterprise користувачам у ChatGPT

Інтеграція Codex: синхронно доступна для інструментів програмних агентів OpenAI, посилюючи редагування кількох файлів, командний рядок і тестові цикли

Тези щодо кібербезпеки та оборони підвищуються синхронно

Член технічної команди Mia Glaese під час інтерв’ю TechCrunch заявила, що можливості GPT-5.5 у сфері кібербезпеки матимуть «істотний вплив на те, як OpenAI впроваджує моделі» та «спрямовує ресурси на цифровий оборонний захист». Цей меседж прямо перегукується з недавніми суперечками навколо Claude Mythos — «зброєподібної» моделі кібербезпеки в Anthropic. Раніше Altman у програмі《Core Memory》критикував «стратегію страхового маркетингу» Anthropic. На GPT-5.5 OpenAI більше акцентує на тезі «і напад, і оборона, і можна розгортати», прагнучи чіткіше відмежуватися від позиції Anthropic щодо обмеження доступу.

Зміни цінової стратегії

Ціна GPT-5.5 за кожен мільйон token подвоюється до 5 доларів за вхід і 30 доларів за вихід — це перше покоління в серії GPT-5, де одинична ціна суттєво зростає. Пояснення OpenAI таке: завдяки підвищеній ефективності в обчисленнях можна скоротити приблизно на 40% використання токенів на виході, тож типові рахунки за фактом приблизно на 20% вищі, ніж у GPT-5.4, а не просто в 2 рази. Для підприємств це зумовлює зміну міркування з «чи вигідна одинична ціна» на «у межах одного prompt: чи може GPT-5.5 виконувати більш складні завдання за меншої загальної кількості token».

Сигнали для індустрії

GPT-5.5 розширює розрив між OpenAI у Terminal-Bench та внутрішньою оцінкою SWE: ці два бенчмарки тестують агентське виконання командного рядка та фактичні завдання з інженерії програмного забезпечення. Для позитивного протистояння Codex і Claude Code це є більш прямим полем битви за результативність. Додавши синхронне відкриття контекстного вікна на 1,200 万 tokens, OpenAI одночасно посилює тиск на дві «стежки» — «повне опрацювання корпоративної бази знань» і «агентське виконання довгих завдань». Для Anthropic Claude Opus 4.7 відстає на 3 бали від лідера: 57 балів у AA індексі проти 60; а для користувачів Claude Code це дає додаткову причину спостерігати за прогресом наступного покоління (Opus 4.8 або нове покоління Claude).

Ця стаття, у якій OpenAI представляє GPT-5.5: 12M контекст, лідерство в AA індексі, Terminal-Bench 82.7% — переписано за агентським бенчмарком, вперше з’явилася на 鏈新聞 ABMedia.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити