GPT-5.4, 「Agent 原生」велика модель вже тут?

Question

OpenAI нарешті зрозуміло.Через два дні після чуток, 5 березня за місцевим часом, OpenAI офіційно випустила GPT-5.4. Ця оновлена модель зосереджена на найгарячішому напрямку — AI-агентах.Перед GPT-5.4 межі можливостей великих моделей можна підсумувати однією фразою: вони можуть сказати вам «як зробити», але самі зробити не можуть.Ви просите їх проаналізувати конкурентів — вони дадуть вам розгорнутий текстовий звіт; ви просите їх обробити Excel — вони напишуть для вас Python-код, щоб ви самі запустили; ви просите допомогти з бронюванням авіаквитків — вони поетапно скажуть, на яких сайтах і які кнопки натискати.**Межа — це «операція з комп’ютером»**.GPT-5.4 — перша універсальна модель OpenAI, яка цю межу зняла.GPT-5.4 порівняно з попередніми моделями｜Зображення: OpenAIВона може розпізнавати вміст екрана за скріншотами, посилати команди миші та клавіатури, виконувати багатоступінчасті робочі процеси між різними додатками. За словами OpenAI, це їх «**найпотужніша та найефективніша модель для професійної роботи на сьогодні**».Більш технічно, GPT-5.4 підтримує контекстне вікно до 1 мільйона токенів і може викликати бібліотеки, такі як Playwright, для безпосереднього керування браузерами та настільними додатками.Це означає, що вона **обробляє вже не «діалог щодо завдання», а саме «завдання»**.**01 Підготовка OpenAI**-----------------Якщо ви слідкуєте за останніми діями OpenAI, то зрозумієте, що GPT-5.4 — це не раптовий продукт, а новий крок у їхній стратегічній лінії.Ще дві тижні тому OpenAI випустила GPT-5.3-Codex, піднявши Codex з «агента, що пише код», до «агента, здатного виконувати майже всі дії розробника на комп’ютері», і оновила бенчмарки Industry Standard на SWE-Bench Pro та Terminal-Bench.Одночасно OpenAI запустила корпоративну платформу «Frontier», де вже працюють HP, Intuit, Uber.GPT-5.4 у заповненні таблиць явно розумніша за 5.2｜Зображення: OpenAIЩе раніше, 2 березня, OpenAI і AWS розширили свою співпрацю з 3,8 мільярда доларів до понад 100 мільярдів доларів на 8 років, зробивши AWS ексклюзивним третім постачальником хмарних послуг для платформи OpenAI Frontier. Такий масштаб — це вже сигнал.Оновлений раунд фінансування на 110 мільярдів доларів підтримують Amazon, SoftBank і Nvidia, що також відбувся у цей період.Це не компанія, яка просто «розробляє хороші продукти», а компанія, яка цілеспрямовано бореться за «завоювання ринку корпоративних AI-агентів».Внутрішні можливості комп’ютерної операції GPT-5.4 — це ключова зброя цієї боротьби.**02 Чи справді це зручно?**-------------Демонстрації функцій на презентаціях завжди виглядають чудово, але справжня перевірка — у реальності.Фінтех-компанія Walleye Capital повідомила, що під час внутрішніх тестів GPT-5.4 підвищила точність оцінки фінансових моделей у Excel на 30%, значно прискоривши автоматизацію сценарного аналізу.Генеральний директор платформи оцінки талантів Mercor назвав її «**найкращою моделлю, яку ми тестували**», відзначаючи її високі результати у довготривалих завданнях, таких як створення презентацій, фінансове моделювання та юридичний аналіз.Один незалежний розробник, що щодня використовує Codex, дав більш життєвий відгук: «GPT-5.4 — це моя нова рутина з Codex. Його мислення ближче до людського, ніж у 5.3, і він не так захоплений технічними деталями». Але він додав застереження: «**Будьте обережні, я кілька разів стикався з тим, що модель помилково виконує завдання і приховує це**».Ця деталь викликає цікавість.Бенчмарки також підтверджують покращення. За повідомленнями, **GPT-5.4 перевищує 83% звичайних офісних співробітників у тесті GDPval**. Це звучить вражаюче, але справжнє питання — не «скільки людей вона може перевершити», а «на яких завданнях вона може замінити людину».Проте доктор Джефф Далтон з Інформаційної школи Единбурзького університету зазначив реальну проблему — у нинішніх демонстраціях майже немає достатніх доказй для підтвердження таких амбіційних заяв. Можливості є реальними, але межі ще потрібно досліджувати.**03 Битва агентів: без безпечної зони**---------------------Якщо GPT-5.4 — це амбіції OpenAI щодо агентів, то конкуренти не сидять склавши руки.Claude 3.7 Sonnet від Anthropic ще у лютому цього року отримав функцію «Computer Use», позиціонуючи її як гібридну модель для складних завдань.Google Gemini 2.0 також активно розвиває «агентські» можливості, проект Mariner вже може самостійно виконувати багатоступінчасті дії у браузері Chrome.Але суттєва різниця між GPT-5.4 і конкурентами — у тому, що **це перша модель OpenAI, яка вбудувала можливість комп’ютерних операцій прямо у універсальну модель** — не окремий інструмент, не API, що викликається додатково, а саме модель із цими можливостями.Це «внутрішнє» слово означає, що в реалізації воно дає менше затримки, більш природне виконання завдань і менше «клейового» коду. Для компаній, які прагнуть швидко впровадити агентські рішення, ця різниця безпосередньо впливає на вартість розгортання.OpenAI також оголосила, що GPT-5.4 можна підключити безпосередньо до Microsoft Excel і Google Sheets для аналізу та автоматизації на рівні клітинок. Це явно спрямовано у серце процесу прийняття рішень в компанії.Битва агентів — це не про швидкість, а про те, хто швидше інтегрує себе у робочі процеси компанії і стане незамінним.Технічна презентація завжди наповнена ентузіазмом, але справжній тест — через 91 день: коли хвиля інтересу спадеться, і користувачі у реальних робочих сценаріях відкриють цей інструмент, чи зможе він стабільно виконати завдання — зробити скріншот, натиснути кнопку, тихо завершити роботу і повернути результат.Той розробник, що говорив про «приховування помилок», — це найцінніше застереження у цій статті.Можливості AI-агента ніколи не обмежуються тим, «що він може зробити», а тим, «наскільки ти готовий йому довіряти».Довіра — це справжня валюта цієї боротьби агентів.

GPT-5.4, 「Agent 原生」велика модель вже тут?

01 Підготовка OpenAI

02 Чи справді це зручно?

03 Битва агентів: без безпечної зони

Популярні теми

FebNonfarmPayrollsUnexpectedlyFall

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

PreciousMetalsAndOilPricesSurge

USIranTensionsImpactMarkets

Популярні активності Gate Fun

PS2

Playstation 2

BTW

Bitway

DS

DS

派友集合

派友集合

66

6神

Закріпити