GPT-5.4, «Agent нативная» большая модель уже в пути?

robot
Генерация тезисов в процессе

Через всего два дня после слухов, 5 марта по местному времени OpenAI официально выпустила GPT-5.4. Этот обновлённый модельный ряд сосредоточен на самом горячем направлении — AI-агентах.

До GPT-5.4 границы возможностей больших моделей можно было кратко описать так: они могут сказать вам «как сделать», но сами сделать не могут.

Вы просите их помочь проанализировать конкурентов — они предоставят вам развернутый текстовый отчёт; попросите их организовать Excel — они напишут для вас Python-скрипт, чтобы вы могли запустить его сами; попросите забронировать авиабилеты — они пошагово расскажут, на каком сайте и какие кнопки нажимать.

Эта стена называется «операции с компьютером».

GPT-5.4 — первый универсальный модельный ряд от OpenAI, который сломал эту стену.

Сравнение улучшений GPT-5.4 с предыдущими моделями|Источник: OpenAI

Он умеет распознавать содержимое экрана по скриншоту, посылать команды мыши и клавиатуры, выполнять многошаговые рабочие процессы между разными приложениями. По словам самой OpenAI, это их «самая мощная и эффективная передовая модель, ориентированная на профессиональную работу».

Более технически, GPT-5.4 поддерживает контекстное окно до 1 миллиона токенов и может вызывать библиотеки вроде Playwright для прямого управления браузером и настольными приложениями.

Это означает, что он уже не занимается «разговором о задаче», а — «самой задачей».

01 Подготовка от OpenAI

Если вы следите за действиями OpenAI за последние несколько месяцев, то заметите, что GPT-5.4 — не внезапное появление продукта, а очередной шаг в их стратегическом плане.

Всего две недели назад OpenAI выпустила GPT-5.3-Codex, превратив Codex из «агента, умеющего писать код», в «агента, способного выполнять практически все задачи разработчика на компьютере», и обновила отраслевые бенчмарки на SWE-Bench Pro и Terminal-Bench.

Одновременно OpenAI запустила корпоративную платформу «Frontier», в числе первых клиентов — HP, Intuit, Uber.

GPT-5.4 заметно умнее в заполнении таблиц по сравнению с 5.2|Источник: OpenAI

Ранее, 2 марта, OpenAI и AWS расширили своё сотрудничество с 3,8 миллиарда долларов до более чем 100 миллиардов долларов на 8 лет, сделав AWS эксклюзивным третьим облачным поставщиком для платформы OpenAI Frontier. Такой масштаб — уже сигнал.

Последний раунд финансирования на 110 миллиардов долларов был поддержан Amazon, SoftBank и Nvidia, вложившими сотни миллионов долларов, и прошёл одновременно.

Это не компания, которая просто «разрабатывает хорошие продукты», а — компания, которая полностью нацелена на «завоевание рынка корпоративных AI-агентов».

Внутренние вычислительные возможности GPT-5.4 — ключевое оружие этой гонки.

02 Работает ли это на практике?

Демонстрации на презентациях всегда впечатляют, но реальное качество — в практике.

Финтех-компания Walleye Capital сообщила, что в внутренних тестах GPT-5.4 повысила точность оценки финансовых моделей в Excel на 30 процентных пунктов, значительно ускорив автоматизацию сценарного анализа.

Генеральный директор платформы оценки талантов Mercor назвал его «лучшей моделью, которую мы тестировали», отметив его выдающиеся результаты в создании презентаций, финансовом моделировании и юридическом анализе.

Один независимый разработчик, ежедневно использующий Codex, дал более приземлённую оценку: «GPT-5.4 — мой новый ежедневный драйвер в Codex. Его мышление ближе к человеку, и он не так зациклен на технических деталях, как 5.3». Но он добавил предостережение: «Будьте осторожны, я сталкивался с ситуациями, когда модель ошибочно выполняла задачи, скрывая это».

Видно, что в операциях и визуализации GPT-5.4 достигла значительных улучшений|Источник: OpenAI

Этот нюанс заслуживает внимания.

Бенчмарки подтверждают рост возможностей. По данным, GPT-5.4 показывает результаты в GDPval, превосходящие 83% обычных офисных сотрудников. Этот показатель звучит впечатляюще, но важнее не «сколько людей он может превзойти», а — «на каких задачах он может заменить человека».

Однако доктор Джефф Далтон из Эдинбургского университета отметил, что в текущих демонстрациях практически нет достаточных данных для подтверждения таких масштабных заявлений. Возможности есть, но границы ещё требуют независимой проверки.

03 Поле битвы агентских систем — без безопасных зон

Если GPT-5.4 символизирует амбиции OpenAI в области агентов, то конкуренты не сидят сложа руки.

Anthropic выпустила Claude 3.7 Sonnet ещё в феврале с функцией «Computer Use», позиционируя его как гибридную модель для сложных задач с комбинированным рассуждением.

Google продолжает развивать серию Gemini 2.0 с возможностями «агентных» систем, а проект Mariner уже способен самостоятельно выполнять многошаговые операции в Chrome.

Но главное отличие GPT-5.4 и конкурентов — в том, что это первый продукт от OpenAI, в который встроена способность управлять компьютером прямо внутри универсальной модели — не отдельный инструмент, не API, вызываемый дополнительно, а — сама модель с этой функцией.

Это «родная» реализация, что в инженерном смысле означает меньшую задержку, более естественное выполнение задач и меньше «клеящих» кодов. Для компаний, стремящихся быстро внедрить агентские решения, это напрямую влияет на стоимость развертывания.

OpenAI также объявила, что GPT-5.4 сможет напрямую интегрироваться с Microsoft Excel и Google Sheets, выполняя анализ и автоматизацию на уровне ячеек. Это явно шаг в сторону автоматизации ключевых бизнес-процессов.

Поле битвы агентов — не кто бежит быстрее, а кто быстрее встроится в рабочие процессы компаний и станет незаменимым.

Техническая презентация всегда полна энтузиазма, но настоящий тест — на 91-й день: когда ажиотаж утихнет, и пользователи начнут применять инструмент в реальных рабочих сценариях. Тогда он сможет уверенно «подхватить» скриншот, точно нажать кнопку, тихо выполнить задачу и вернуть результат.

Тот разработчик, который говорил о «скрытии ошибок», — это, пожалуй, самое важное предупреждение в этой статье.

Предел возможностей AI-агентов — не в том, что они могут делать, а в том, доверите ли вы им это делать.

Доверие — настоящая валюта этой гонки за агентами.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить