GPT-5.4, 「Agent 原生」велика модель вже тут?

robot
Генерація анотацій у процесі

OpenAI нарешті зрозуміло.

Через два дні після чуток, 5 березня за місцевим часом, OpenAI офіційно випустила GPT-5.4. Ця оновлена модель зосереджена на найгарячішому напрямку — AI-агентах.

Перед GPT-5.4 межі можливостей великих моделей можна підсумувати однією фразою: вони можуть сказати вам «як зробити», але самі зробити не можуть.

Ви просите їх проаналізувати конкурентів — вони дадуть вам розгорнутий текстовий звіт; ви просите їх обробити Excel — вони напишуть для вас Python-код, щоб ви самі запустили; ви просите допомогти з бронюванням авіаквитків — вони поетапно скажуть, на яких сайтах і які кнопки натискати.

Межа — це «операція з комп’ютером».

GPT-5.4 — перша універсальна модель OpenAI, яка цю межу зняла.

GPT-5.4 порівняно з попередніми моделями|Зображення: OpenAI

Вона може розпізнавати вміст екрана за скріншотами, посилати команди миші та клавіатури, виконувати багатоступінчасті робочі процеси між різними додатками. За словами OpenAI, це їх «найпотужніша та найефективніша модель для професійної роботи на сьогодні».

Більш технічно, GPT-5.4 підтримує контекстне вікно до 1 мільйона токенів і може викликати бібліотеки, такі як Playwright, для безпосереднього керування браузерами та настільними додатками.

Це означає, що вона обробляє вже не «діалог щодо завдання», а саме «завдання».

01 Підготовка OpenAI

Якщо ви слідкуєте за останніми діями OpenAI, то зрозумієте, що GPT-5.4 — це не раптовий продукт, а новий крок у їхній стратегічній лінії.

Ще дві тижні тому OpenAI випустила GPT-5.3-Codex, піднявши Codex з «агента, що пише код», до «агента, здатного виконувати майже всі дії розробника на комп’ютері», і оновила бенчмарки Industry Standard на SWE-Bench Pro та Terminal-Bench.

Одночасно OpenAI запустила корпоративну платформу «Frontier», де вже працюють HP, Intuit, Uber.

GPT-5.4 у заповненні таблиць явно розумніша за 5.2|Зображення: OpenAI

Ще раніше, 2 березня, OpenAI і AWS розширили свою співпрацю з 3,8 мільярда доларів до понад 100 мільярдів доларів на 8 років, зробивши AWS ексклюзивним третім постачальником хмарних послуг для платформи OpenAI Frontier. Такий масштаб — це вже сигнал.

Оновлений раунд фінансування на 110 мільярдів доларів підтримують Amazon, SoftBank і Nvidia, що також відбувся у цей період.

Це не компанія, яка просто «розробляє хороші продукти», а компанія, яка цілеспрямовано бореться за «завоювання ринку корпоративних AI-агентів».

Внутрішні можливості комп’ютерної операції GPT-5.4 — це ключова зброя цієї боротьби.

02 Чи справді це зручно?

Демонстрації функцій на презентаціях завжди виглядають чудово, але справжня перевірка — у реальності.

Фінтех-компанія Walleye Capital повідомила, що під час внутрішніх тестів GPT-5.4 підвищила точність оцінки фінансових моделей у Excel на 30%, значно прискоривши автоматизацію сценарного аналізу.

Генеральний директор платформи оцінки талантів Mercor назвав її «найкращою моделлю, яку ми тестували», відзначаючи її високі результати у довготривалих завданнях, таких як створення презентацій, фінансове моделювання та юридичний аналіз.

Один незалежний розробник, що щодня використовує Codex, дав більш життєвий відгук: «GPT-5.4 — це моя нова рутина з Codex. Його мислення ближче до людського, ніж у 5.3, і він не так захоплений технічними деталями». Але він додав застереження: «Будьте обережні, я кілька разів стикався з тим, що модель помилково виконує завдання і приховує це».

Ця деталь викликає цікавість.

Бенчмарки також підтверджують покращення. За повідомленнями, GPT-5.4 перевищує 83% звичайних офісних співробітників у тесті GDPval. Це звучить вражаюче, але справжнє питання — не «скільки людей вона може перевершити», а «на яких завданнях вона може замінити людину».

Проте доктор Джефф Далтон з Інформаційної школи Единбурзького університету зазначив реальну проблему — у нинішніх демонстраціях майже немає достатніх доказй для підтвердження таких амбіційних заяв. Можливості є реальними, але межі ще потрібно досліджувати.

03 Битва агентів: без безпечної зони

Якщо GPT-5.4 — це амбіції OpenAI щодо агентів, то конкуренти не сидять склавши руки.

Claude 3.7 Sonnet від Anthropic ще у лютому цього року отримав функцію «Computer Use», позиціонуючи її як гібридну модель для складних завдань.

Google Gemini 2.0 також активно розвиває «агентські» можливості, проект Mariner вже може самостійно виконувати багатоступінчасті дії у браузері Chrome.

Але суттєва різниця між GPT-5.4 і конкурентами — у тому, що це перша модель OpenAI, яка вбудувала можливість комп’ютерних операцій прямо у універсальну модель — не окремий інструмент, не API, що викликається додатково, а саме модель із цими можливостями.

Це «внутрішнє» слово означає, що в реалізації воно дає менше затримки, більш природне виконання завдань і менше «клейового» коду. Для компаній, які прагнуть швидко впровадити агентські рішення, ця різниця безпосередньо впливає на вартість розгортання.

OpenAI також оголосила, що GPT-5.4 можна підключити безпосередньо до Microsoft Excel і Google Sheets для аналізу та автоматизації на рівні клітинок. Це явно спрямовано у серце процесу прийняття рішень в компанії.

Битва агентів — це не про швидкість, а про те, хто швидше інтегрує себе у робочі процеси компанії і стане незамінним.

Технічна презентація завжди наповнена ентузіазмом, але справжній тест — через 91 день: коли хвиля інтересу спадеться, і користувачі у реальних робочих сценаріях відкриють цей інструмент, чи зможе він стабільно виконати завдання — зробити скріншот, натиснути кнопку, тихо завершити роботу і повернути результат.

Той розробник, що говорив про «приховування помилок», — це найцінніше застереження у цій статті.

Можливості AI-агента ніколи не обмежуються тим, «що він може зробити», а тим, «наскільки ти готовий йому довіряти».

Довіра — це справжня валюта цієї боротьби агентів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити