Зрозуміло в один погляд GPT-5.5: з сьогоднішнього дня OpenAI «не продає» токени

Автор: Гелен

Місцевий час 23 квітня, OpenAI офіційно випустила нове покоління флагманської моделі GPT-5.5, офіційно позиціонуючи її як «новий рівень інтелекту для реальної роботи», що є важливим кроком на шляху до нових способів роботи з комп’ютерами.

Цього разу основна увага приділялася двом аспектам:

По-перше, прориву в ефективності: при однаковій затримці модель стала більшою, але швидкість не знизилася. Контекстне вікно GPT-5.5 досягає 100 тисяч токенів, але це не просто оновлення можливостей GPT-5.4, а підвищення інтелекту при збереженні тієї ж затримки.

По-друге, GPT-5.5 під час тренування залучалася до оптимізації власної інфраструктури розуміння. Коротко кажучи, AI вперше навчився допомагати собі налаштовувати параметри.

У тесті складних командних робочих процесів Terminal-Bench 2.0 GPT-5.5 отримала 82,7%, Claude Opus 4.7 — 69,4%, що на понад 13 відсоткових пунктів вище; у тесті незалежної роботи AI на реальному комп’ютері OSWorld-Verified успіх склав 78,7%, перевищуючи людську базову лінію; у тесті між 44 видами професійних знань у GDPval 84,9% завдань досягли або перевищили рівень фахівців галузі.

Однак ціна GPT-5.5 також суттєво зросла.

Ціноутворення API становить 5 доларів за мільйон токенів для введення та 30 доларів — для виведення, що у два рази більше, ніж у GPT-5.4 (2,50 долара за мільйон токенів для введення, 15 доларів — для виведення), але офіційно наголошується, що кількість токенів для виконання однакових завдань значно зменшилася, тому загальні витрати можуть не суттєво зрости. API GPT-5.5 Pro коштує 30 доларів за мільйон токенів для введення та 180 доларів — для виведення. Масове опрацювання та гнучке ціноутворення пропонуються за півціни, з пріоритетною обробкою у 2,5 рази дорожче за стандартну ціну.

У ChatGPT GPT-5.5 запущена у вигляді «GPT-5.5 Thinking», поступово замінюючи попередні версії.

Новий невеликий дизайн полягає в тому, що перед початком роздумів модель спочатку дає короткий огляд ідей, а користувач може в будь-який момент втрутитися, щоб скоригувати напрямок.

Якщо коротко охарактеризувати значення GPT-5.5: попередні моделі — це набір можливостей, а GPT-5.5 — ближче до системи роботи, яка планує, перевіряє та постійно рухається вперед.

01 84,9% завдань — на рівні професіоналів

Порівняння GPT-5.5 з конкурентами у ключових тестах Terminal-Bench 2.0, GDPval, OSWorld-Verified

Спершу розглянемо результати у реальних професійних сценаріях. OpenAI використала бенчмарк під назвою «GDPval», що вимагає від моделі виконання цілого набору професійних завдань. Тест охоплює 44 професійні сценарії, включаючи фінансове моделювання, юридичний аналіз, звіти з науки про дані, операційне планування тощо.

Результати показують: GPT-5.5 у 84,9% завдань досягла або перевищила рівень галузевих фахівців. Для порівняння, GPT-5.4 — 83,0%, Claude Opus 4.7 — 80,3%, Gemini 3.1 Pro — лише 67,3%.

Ця різниця проявляється не лише у сумарних баллах. У задачах моделювання електронних таблиць GPT-5.5 у внутрішньому тестуванні отримала 88,5%; у моделях високого рівня інвестиційного банкінгу — також переважає попередників. Відгуки перших тестувальників одностайні: відповіді GPT-5.5 Pro у цілісності, структурованості та практичності значно кращі, особливо у сферах бізнесу, права, освіти та науки про дані.

Легко звикнути до цифр, але OpenAI цього разу відкрила свої робочі місця для огляду.

Компанія повідомила, що понад 85% співробітників щотижня використовують Codex у таких відділах, як фінанси, комунікації, маркетинг, продукти, наука про дані. Команда комунікацій використала його для аналізу шести місяців даних про запрошення на виступи, створивши автоматизований процес класифікації; фінансовий відділ перевірив 24 771 форму K-1, загалом 71 637 сторінок, завершивши раніше запланованого терміну на два тижні; команда маркетингу автоматизувала створення щотижневих звітів, заощаджуючи кожному по 5-10 годин щотижня.

Це вже не демонстрація з лабораторії, а звичайна робоча практика.

02 Найсильніша модель автономного програмування

OpenAI стверджує, що GPT-5.5 — найпотужніша модель для автономного програмування.

У Terminal-Bench 2.0 (тест складних командних робочих процесів, що вимагають планування, ітерацій та координації інструментів) GPT-5.5 отримала 82,7%, порівняно з 75,1% у GPT-5.4, що дає майже 8 відсоткових пунктів приросту, при цьому витрати токенів зменшилися. У SWE-Bench Pro (оцінка здатності швидко вирішувати реальні задачі з GitHub) GPT-5.5 набрала 58,6%. У внутрішньому Expert-SWE (довгострокові програмні завдання, середній час виконання — близько 20 годин) GPT-5.5 також перевищила GPT-5.4.

Графіки результатів Terminal-Bench 2.0 та Expert-SWE

Під керівництвом GPT-5.5 Codex вже здатен починати з короткого підказки і самостійно виконувати весь цикл розробки — від генерації коду, тестування функцій до візуальної налагоджувальної роботи.

Офіційна демонстрація OpenAI показала, що застосунок для космічних місій на основі реальних даних NASA підтримує 3D-інтерактивне управління, моделювання орбіт з високою фізичною точністю; датчик землетрусів підключений до реальних джерел даних і візуалізує результати, що свідчить про здатність моделі викликати зовнішні API, обробляти динамічні дані та відображати їх у реальному часі.

Щодо зворотного зв’язку. Засновник і CEO Every, Dan Shipper, розповів історію: раніше він натрапляв на баги після запуску, і сам не міг їх швидко виправити, доводилося залучати найкращих інженерів компанії. Після появи GPT-5.5 він провів експеримент — повернув модель у стан, коли баг ще не був виправлений, і подивився, чи зможе вона самостійно знайти рішення, як інженер. GPT-5.4 цього зробити не могла, а GPT-5.5 — так. Він оцінив: «Це перша модель програмування, яка дійсно має чітке розуміння концепцій».

Більш прямий відгук дав інженер NVIDIA: «Втрата доступу до GPT-5.5 — все одно що ампутувати руку».

Засновник і CEO Cursor Michael Truell додав: GPT-5.5 розумніша і витриваліша за GPT-5.4, може довше зберігати зосередженість у довгих складних завданнях — і саме це потрібно в інженерній роботі.

03 Знання та робота з комп’ютером: AI вперше може «використовувати» комп’ютер

У тесті OSWorld-Verified (перевірка здатності моделі самостійно керувати реальним комп’ютером) GPT-5.5 показала успіх 78,7%, що вище за GPT-5.4 — 75,0%, і Claude Opus 4.7 — 78,0%.

Це не просто скріншоти або аналіз, а реальне управління екраном: перегляд інтерфейсу, натискання, введення даних, перемикання між інструментами, поки завдання не буде завершено. GPT-5.5 вперше дає відчуття, що AI може справді працювати разом із вами на одному комп’ютері.

Демонстраційне відео фінансового моделювання

У тесті Tau2-bench для роботи з телекомунікаційною підтримкою точність без підказок досягла 98,0%, тоді як у GPT-5.4 — 92,8%.

Це означає, що модель глибоко розуміє наміри завдання і може обробляти складні багатоступінчасті діалоги без ретельного підготовчого підказування.

У здатності до пошуку інструментів GPT-5.5 у тесті BrowseComp набрала 84,4%, а GPT-5.5 Pro — 90,1%, що свідчить про високі можливості тривалого пошуку та інтеграції інформації у дослідницьких задачах із кількома джерелами.

04 Наукові дослідження: допомога у відкритті нових математичних доказів

Цього разу GPT-5.5 показала, можливо, найнеочікуваніший результат у сфері науки.

Раніше AI використовували переважно як допоміжний інструмент — для пошуку літератури, написання коду, обробки даних. Тепер його роль суттєво змістилася вперед: він бере участь у найскладніших етапах — у глибокому логічному мисленні і навіть у відкриттях.

У GeneBench (оцінка багатоступінчастого аналізу генетичних даних) GPT-5.5 набрала 25,0%, GPT-5.4 — 19,0%. Ці завдання зазвичай займають кілька днів роботи фахівців, і модель має робити висновки з майже не контрольованих даних, враховуючи приховані фактори та застосовуючи сучасні статистичні методи.

З графіків видно, що з ростом кількості виведених токенів GPT-5.5 демонструє більш швидке зростання балів, ніж GPT-5.4, і при близько 15 000 токенах різко відстає — що свідчить про зростаючу перевагу при довгих завданнях із глибоким логічним навантаженням.

У BixBench (бенчмарк для реальних біоінформатичних задач) GPT-5.5 з результатом 80,5% випередила GPT-5.4 — 74,0%, посівши високі позиції серед моделей із опублікованими результатами.

Найбільш вражаючий приклад — внутрішня версія GPT-5.5 з кастомізованим інструментарієм, яка допомогла знайти новий математичний доказ числа Рамсі і підтвердила його у формалізаторі Lean. Число Рамсі — ключовий об’єкт у комбінаториці, і його результати — рідкість і дуже складні. Це не просто AI, що генерує код або пояснення, а справжній внесок у математичну теорему.

З прикладних застосувань. Професор імунології з Jackson Laboratory, Derya Unutmaz, використав GPT-5.5 Pro для аналізу набору даних з 62 зразків і майже 28 000 генів, створив детальний звіт і виділив ключові відкриття та питання дослідження — зазвичай цю роботу виконують місяцями.

Асистент професора математики з Адама Міцкевича у Познані, Bartosz Naskręcki, за один підказ, використовуючи Codex з GPT-5.5, за 11 хвилин побудував додаток для алгебраїчної геометрії, що візуалізує перетин двох квадратичних поверхонь і перетворює отриману криву у модель Вейерштрасса. Координати рівнянь можна одразу використовувати для подальших досліджень, а весь процес — від підказки до робочого інструменту — виконав модель.

Скріншот додатку для алгебраїчної геометрії, створеного Naskręcki — візуалізація перетину квадратичних поверхонь і реальний час обчислення рівнянь Вейерштрасса

Брендон White, співзасновник і CEO Axiom Bio, дав ще більш прямий відгук: «Якщо OpenAI збережуть цей темп, то основи відкриття ліків до кінця року зміняться».

05 Ефективність логіки: AI вперше допомогла собі оптимізувати інфраструктуру

Цього разу у релізі є один дрібний, але дуже важливий нюанс, що може стати найціннішим технічним проривом.

GPT-5.5 — це більша і потужніша модель, але її затримка на один токен у реальній роботі залишилася такою ж, як у GPT-5.4. Щоб зберегти цю ж затримку при більшій потужності, OpenAI повністю переробила систему розуміння — і Codex, і GPT-5.5 безпосередньо брали участь у цій оптимізації.

З графіка Artificial Analysis видно: по осі горизонтальній — кількість виведених токенів (логарифмічна шкала), по вертикальній — інтегральний інтелектуальний бал. Крива GPT-5.5 не лише випереджає GPT-5.4, Claude Opus 4.7 і Gemini 3.1 Pro Preview за балами, а й у діапазоні меншого споживання токенів вже досягає рівня, який інші моделі отримують лише за більших витрат. Це і є ілюстрація підвищеної ефективності.

Графік Artificial Analysis

Конкретна проблема — баланс навантаження. Раніше запити розбивалися на фіксовану кількість частин для рівномірного розподілу навантаження GPU, але статичне розбиття не було оптимальним для всіх типів трафіку. Codex проаналізував тижні даних і створив власний алгоритм, що підвищив швидкість генерації токенів більш ніж на 20%.

GPT-5.5 у співпраці з системами NVIDIA GB200 і GB300 NVL72 — спільне проектування, навчання і розгортання. Іншими словами, ця модель сама допомогла оптимізувати свою інфраструктуру — і це не метафора, а буквально «AI покращила свою систему».

06 Кібербезпека: покращення можливостей і посилення контролю

GPT-5.5 має чітке підвищення у сфері кібербезпеки. У тесті CyberGym він отримала 81,8%, GPT-5.4 — 79,0%, Claude Opus 4.7 — 73,1%. У внутрішньому змаганні «захоплення прапора» (CTF) GPT-5.5 набрала 88,1%, GPT-5.4 — 83,7%.

Графіки та діаграми

OpenAI оцінила кібербезпеку та біо/хімічні можливості GPT-5.5 як «високий» рівень у рамках аварійних сценаріїв, але не досягли «критичного». Водночас нові більш жорсткі системи ризик-класифікації можуть викликати початкові незручності у користувачів, і їх доопрацюють.

Щоб збалансувати захист і доступ, OpenAI запустила програму «Довірений доступ у кібербезпеці»: дослідники безпеки та ключові захисники інфраструктури можуть подати заявку на розширений доступ для більш зручного використання високорівневих можливостей.

Загалом, логіка така: можливості у сфері кібербезпеки та біо/хімії поширюються дуже швидко. Замість того, щоб обмежувати всіх, краще надати найкращі інструменти тим, хто їх дійсно використовує для захисту. Це не питання «відкрити чи ні», а «кому першому».

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити