Зрозуміло з однієї статті GPT-5.5: з сьогоднішнього дня OpenAI «не продає» токени

Автор: Лі Хайлун, Tencent Technology

Місцевий час 23 квітня, OpenAI офіційно випустила нову генерацію флагманської моделі GPT-5.5, офіційно позиціонуючи її як «новий рівень інтелекту для реальної роботи», що є важливим кроком на шляху до нових способів роботи з комп’ютерами.

Цього разу основна увага при випуску зосереджена на двох моментах:

  • По-перше, прорив у сфері ефективності: при однаковій затримці модель стала більшою, але швидкість не знизилася. Контекстне вікно GPT-5.5 досягає 100 тисяч токенів, але це не просто оновлення можливостей GPT-5.4, а підвищення інтелекту при тій же затримці та більшій ефективності.

  • По-друге, GPT-5.5 під час тренування залучена до оптимізації власної інфраструктури розуміння. Простими словами, AI вперше навчився допомагати собі налаштовувати параметри.

У тесті Terminal-Bench 2.0 для складних командних робочих процесів GPT-5.5 отримала 82,7%, Claude Opus 4.7 — 69,4%, що на понад 13 відсоткових пунктів більше; у тесті OSWorld-Verified, де AI самостійно керує реальним комп’ютером, успішність склала 78,7%, перевищуючи людську базову лінію; у GDPval, що тестує знання у 44 професійних сферах, 84,9% завдань виконано на рівні або вище за рівень фахівців.

Проте ціна GPT-5.5 значно зросла.

Ціноутворення API становить 5 доларів за мільйон токенів для вводу та 30 доларів — для виводу, що удвічі більше, ніж у GPT-5.4 (2,50 долара за мільйон токенів для вводу та 15 доларів — для виводу), але офіційно наголошується, що кількість токенів, необхідних для виконання однакових завдань, суттєво зменшилася, тому загальні витрати можуть не зрівнюватися. API GPT-5.5 Pro коштує 30 доларів за мільйон токенів для вводу та 180 доларів — для виводу. Масове опрацювання та гнучке ціноутворення пропонуються за півціни, пріоритетна обробка — у 2,5 рази дорожча за стандартну ціну.

У ChatGPT GPT-5.5 запущена у вигляді «GPT-5.5 Thinking», поступово замінюючи попередні версії.

Новий додатковий елемент — перед початком роздумів модель дає короткий огляд ідей, користувач може у будь-який момент вставляти свої коментарі, коригуючи напрямок.

Якщо коротко охарактеризувати значення GPT-5.5: попередні моделі — це набір можливостей, а GPT-5.5 — ближче до системи роботи, яка планує, перевіряє та постійно рухається вперед.

84.9% завдань — на рівні професіоналів

Зображення: порівняння GPT-5.5 з конкурентами у тестах Terminal-Bench 2.0, GDPval, OSWorld-Verified та інших ключових бенчмарках

Спершу розглянемо результати моделей у реальних професійних сценаріях. OpenAI використала бенчмарк під назвою «GDPval», що вимагає від моделі виконання цілого набору професійних завдань. Тест охоплює 44 професійні сфери, включаючи фінансове моделювання, юридичний аналіз, звіти з науки про дані, операційне планування тощо.

Результати показують: GPT-5.5 виконує або перевищує рівень професіоналів у 84,9% завдань. Для порівняння, GPT-5.4 — 83,0%, Claude Opus 4.7 — 80,3%, Gemini 3.1 Pro — лише 67,3%.

Ця різниця проявляється не лише у сумарних баллах. У внутрішньому тесті на моделювання таблиць GPT-5.5 отримала 88,5%; у моделях високого рівня для інвестиційного банкінгу — також переважає попередників. Відгуки перших тестувальників одностайні: відповіді GPT-5.5 Pro у цілісності, структурованості та практичності значно кращі за GPT-5.4 Pro, особливо у сферах бізнесу, права, освіти та науки про дані.

Легко звикнути до цифр, але OpenAI цього разу відкрила свої робочі місця для огляду.

Компанія повідомила, що понад 85% співробітників щотижня використовують Codex у різних відділах — фінансах, комунікаціях, маркетингу, продуктах, науці про дані. Команда маркетингу аналізувала шість місяців даних про запрошення на виступи, створила автоматизований процес класифікації; фінансовий відділ перевірив 24 771 форму K-1, загалом 71 637 сторінок, завершивши раніше запланованого терміну на два тижні; команда маркетингу автоматизувала створення щотижневих звітів, заощаджуючи кожному по 5-10 годин щотижня.

Це вже не демонстрація з лабораторії, а звичайна робоча практика.

Найпотужніша модель для автономного програмування

OpenAI стверджує, що GPT-5.5 — найпотужніша модель для автономного програмування.

У тесті Terminal-Bench 2.0 (складні командні робочі процеси, що вимагають планування, ітерацій та координації інструментів) GPT-5.5 отримала 82,7%, порівняно з 75,1% у GPT-5.4, що майже на 8 відсоткових пунктів вище, при цьому витрати токенів зменшилися. У тесті SWE-Bench Pro (оцінка здатності швидко вирішувати реальні задачі з GitHub) GPT-5.5 набрала 58,6%. У внутрішньому тесті Expert-SWE (довгострокові програмні завдання, середній час виконання — близько 20 годин) GPT-5.5 також перевершила GPT-5.4.

Зображення: розподіл результатів у Terminal-Bench 2.0 та Expert-SWE

Під керівництвом GPT-5.5 Codex вже здатен з однієї підказки самостійно пройти весь цикл розробки — від генерації коду, тестування функцій до візуальної налагоджувальної роботи.

Показані офіційні демонстрації OpenAI: космічні місії на основі реальних даних NASA, підтримка 3D-інтерактивного управління, моделювання орбіт із високою фізичною точністю; сейсмічний детектор із підключенням до реальних джерел даних і візуалізацією — модель вже має здатність викликати зовнішні API, обробляти динамічні дані та відображати їх у реальному часі.

Щодо зворотного зв’язку. Засновник і CEO Every Dan Shipper розповів історію: раніше він натрапляв на баги після запуску, і сам не міг їх швидко виправити, доводилося залучати найкращих інженерів компанії. Після появи GPT-5.5 він провів експеримент — повернув модель у стан із незв’язаним багом і подивився, чи зможе вона самостійно знайти рішення, яке б відповідає рішенням інженерів. GPT-5.4 цього зробити не змогла, а GPT-5.5 — так. Він оцінив: “Це перша модель програмування, яка дійсно має чітке розуміння концепцій”.

Більш прямий відгук від інженера NVIDIA: “Втрата доступу до GPT-5.5 — це як ампутація”.

Співзасновник і CEO Cursor Michael Truell додав: GPT-5.5 розумніша і витриваліша за GPT-5.4, може довше зберігати концентрацію у довгих складних завданнях — і саме це потрібно для інженерної роботи.

Знання та робота з комп’ютером: AI вперше справді може «використовувати» комп’ютер

У тесті OSWorld-Verified (перевірка здатності моделі керувати реальним комп’ютером) GPT-5.5 показала успішність 78,7%, що вище за GPT-5.4 — 75,0%, і Claude Opus 4.7 — 78,0%.

Це не просто скріншоти або аналіз, а реальне управління екраном: перегляд інтерфейсу, натискання, введення даних, перемикання між інструментами — до завершення завдання. GPT-5.5 вперше дає відчуття, що AI може справді працювати разом із вами на одному комп’ютері.

У тесті Tau2-bench для обслуговування клієнтів у телекомунікаціях точність без підказок досягла 98,0%, тоді як у GPT-5.4 — 92,8%.

Це означає, що модель глибоко розуміє намір завдання і може обробляти складні багатоступінчасті діалоги без ретельного підготовчого підказування.

У здатності до пошуку інструментів GPT-5.5 у тесті BrowseComp набрала 84,4%, а GPT-5.5 Pro — 90,1%, що свідчить про сильні можливості тривалого пошуку та інтеграції інформації у дослідницьких завданнях.

Наука та дослідження: допомога у відкритті нових математичних доказів

Цього разу GPT-5.5 у науці, можливо, найнеочікуваніша частина.

Раніше ми говорили про AI як про допоміжний інструмент для пошуку літератури, написання коду, обробки даних. Але тепер його роль явно зміщується до більш ключових етапів: складного логічного мислення і навіть відкриттів.

На GeneBench (бенчмарк для аналізу багатоступінчастих даних у генетиці та кількісній біології) GPT-5.5 набрала 25,0%, GPT-5.4 — 19,0%. Ці завдання зазвичай займають кілька днів роботи фахівців, і модель має робити висновки з майже неконтрольованих даних, враховуючи можливі помилки, приховані фактори та застосовуючи сучасні статистичні методи.

З графіків видно, що з ростом кількості виведених токенів GPT-5.5 демонструє більш швидке зростання балів, ніж GPT-5.4, і при близько 15 000 токенів різко відстає — що означає, що при довгих завданнях з глибоким логічним мисленням переваги GPT-5.5 ще більше зростають.

У BixBench (бенчмарк для біоінформатики та аналізу даних у реальному світі) GPT-5.5 отримала 80,5%, випереджаючи GPT-5.4 — 74,0%, і посідає високі позиції серед моделей.

Найбільш вражаючий приклад — внутрішня версія GPT-5.5 з кастомізованим інструментальним фреймворком, яка допомогла знайти новий математичний доказ числа Рамзі і підтвердила його у формалізаторі Lean. Це не просто код або пояснення, а справжній внесок у математичну теорему.

Що стосується практичного застосування. Професор імунології з Jackson Laboratory Derya Unutmaz використав GPT-5.5 Pro для аналізу набору даних з 62 зразків і майже 28 000 генів, створивши детальний дослідницький звіт і виділивши ключові відкриття та питання — зазвичай цю роботу виконують місяцями.

Асистент і доцент математики з Адама Міцкевича у Познані Bartosz Naskręcki, маючи лише один підказ, за 11 хвилин створив застосунок для алгебраїчної геометрії, що візуалізує перетин двох квадратичних поверхонь і перетворює отриману криву у модель Вейерштрасса. Координати рівнянь у реальному часі можна використовувати для подальших досліджень — весь процес від підказки до робочого інструменту виконав модель самостійно.

Зображення: скріншот застосунку для алгебраїчної геометрії, створеного професором Naskręcki — візуалізація перетину квадратичних поверхонь та інтерфейс обчислення рівнянь Вейерштрасса

Співзасновник і CEO Axiom Bio Brandon White дав більш прямий коментар: «Якщо OpenAI збережуть цей темп, то до кінця року основи відкриття ліків зміняться кардинально».

Ефективність логіки: AI вперше допомогла собі оптимізувати інфраструктуру

Цього разу у випуску є один дрібний, але дуже важливий нюанс, що може стати найціннішим технічним проривом.

GPT-5.5 — це більша і потужніша модель, але час затримки на один токен у реальних сервісах залишився на рівні GPT-5.4. Щоб зберегти цю ж затримку при більшій потужності, OpenAI повністю переробила систему розуміння — і Codex, і GPT-5.5 безпосередньо брали участь у цій оптимізації.

З графіка Artificial Analysis видно: по осі X — логарифмічна кількість виведених токенів, по осі Y — комплексний інтелектуальний бал. Крива GPT-5.5 не лише випереджає GPT-5.4, Claude Opus 4.7 і Gemini 3.1 Pro Preview за рівнем балів, а й у діапазоні меншого споживання токенів вже досягає рівня, який інші моделі досягали при більшому споживанні — що означає, що модель стала більш ефективною і дешевою.

Зображення: лінійний графік інтелектуального балу Artificial Analysis

Конкретно, команда стикнулася з проблемою балансування навантаження: раніше запити розбивалися на фіксовану кількість частин для рівномірного навантаження GPU, але статичне розбиття не було оптимальним для всіх типів трафіку. Codex проаналізував тижні даних і створив власний евристичний алгоритм, що підвищив швидкість генерації токенів більш ніж на 20%.

GPT-5.5 у співпраці з системами NVIDIA GB200 і GB300 NVL72 була залучена до спільного проектування, тренування і розгортання. Іншими словами, ця генерація безпосередньо допомогла оптимізувати власну інфраструктуру розуміння — і це не метафора, а буквальний факт «AI покращила свою систему».

Кібербезпека: підвищення можливостей і посилення контролю

GPT-5.5 демонструє явне покращення у сфері кібербезпеки. У тесті CyberGym GPT-5.5 отримала 81,8%, GPT-5.4 — 79,0%, Claude Opus 4.7 — 73,1%. У внутрішньому тесті «захоплення прапора» (CTF) GPT-5.5 набрала 88,1%, GPT-5.4 — 83,7%.

Зображення: стовпчастий графік CyberGym і розсіяння точок у CTF

OpenAI оцінила рівень кібербезпеки та біо/хімічних можливостей GPT-5.5 як «високий» у рамках аварійних сценаріїв, але ще не досяг «ключового» рівня. Водночас, новий більш строгий класифікатор ризиків «частково може викликати незручності для деяких користувачів», і його доопрацювання триває.

Щоб збалансувати потреби у захисті та обмеження доступу, OpenAI запустила програму «Достовірний доступ у кібербезпеці»: відповідальні дослідники та ключові захисники інфраструктури можуть подати заявку на більш ліберальний доступ для використання високорівневих можливостей.

Логіка тут така: поширення можливостей — незворотній тренд, і більш реалістичним шляхом є те, щоб захисники мали доступ до найсучаснішого інструментарію раніше за зловмисників.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити