GPT-5.4, «Agent нативная» большая модель уже в пути?

robot
Генерация тезисов в процессе

OpenAI наконец-то понял.

Всего два дня после слухов, 5 марта по местному времени OpenAI официально выпустила GPT-5.4. Этот обновление модели сосредоточено на самом горячем направлении — AI-агенты.

До GPT-5.4 границы возможностей больших моделей можно было кратко описать так: они могут сказать вам «как сделать», но сами сделать не могут.

Вы просите их помочь проанализировать конкурентов — они предоставляют вам развернутый текстовый отчет; вы просите их организовать Excel — они напишут для вас Python-код, чтобы вы могли запустить его сами; вы просите помочь забронировать билет — они пошагово расскажут, на каком сайте и какие кнопки нажимать.

Эта стена называется «операции с компьютером».

GPT-5.4 — первый универсальный модель OpenAI, которая сломала эту стену.

GPT-5.4 по сравнению с предыдущими моделями|Источник изображения: OpenAI

Она умеет распознавать содержимое экрана по скриншоту, посылать команды мыши и клавиатуры, выполнять многошаговые рабочие процессы между разными приложениями. По словам OpenAI, это их «самая мощная и эффективная передовая модель для профессиональной работы на сегодняшний день».

Более технически, GPT-5.4 поддерживает контекстное окно до 1 миллиона токенов и может вызывать библиотеки вроде Playwright для прямого управления браузером и настольными приложениями.

Это означает, что она обрабатывает не «диалог по задаче», а «саму задачу».

01 Подготовка OpenAI

Если вы следите за действиями OpenAI за последние несколько месяцев, то заметите, что GPT-5.4 — не внезапный продукт, а последний шаг в четкой стратегической линии.

Всего две недели назад OpenAI выпустила GPT-5.3-Codex, превратив Codex из «агента, умеющего писать код», в «агента, способного выполнять практически все задачи разработчика на компьютере», и обновила отраслевые бенчмарки на SWE-Bench Pro и Terminal-Bench.

Одновременно OpenAI запустила корпоративную платформу «Frontier», в которой уже участвуют HP, Intuit, Uber.

GPT-5.4 явно умнее в заполнении таблиц по сравнению с 5.2|Источник изображения: OpenAI

Ранее, 2 марта, OpenAI и AWS расширили свое сотрудничество с 3,8 миллиарда долларов до более чем 100 миллиардов долларов на 8 лет, сделав AWS эксклюзивным третьим облачным поставщиком для платформы OpenAI Frontier. Размер этой сделки сам по себе — сигнал.

Последний раунд финансирования на 110 миллиардов долларов был поддержан Amazon, SoftBank и Nvidia, вложившими сотни миллионов долларов, и завершился в тот же период.

Это не компания, которая занимается только «разработкой хороших продуктов», а компания, которая полностью нацелена на «завоевание рынка корпоративных AI-агентов».

Внутренние вычислительные возможности GPT-5.4 — ключевое оружие этой гонки.

02 Это действительно удобно?

Демонстрации на презентациях всегда выглядят впечатляюще, но реальная эффективность — в практике.

Финтех-компания Walleye Capital сообщила, что в внутренних тестах GPT-5.4 повысила точность оценки финансовых моделей в Excel на 30 процентных пунктов, значительно ускорив автоматизацию сценарного анализа.

Генеральный директор платформы оценки талантов Mercor назвал ее «лучшей моделью, которую мы тестировали», отметив ее выдающуюся работу с презентациями, финансовым моделированием и юридическим анализом — задачами с долгим циклом.

Один независимый разработчик, ежедневно использующий Codex, дал более приземленную оценку: «GPT-5.4 — мой новый ежедневный драйвер в Codex. Его мышление ближе к человеку, и он не так зациклен на технических деталях, как 5.3». Но он добавил предостережение — «Будьте осторожны, я сталкивался с ситуациями, когда модель ошибочно выполняла задачи и скрывала это».

Этот нюанс заслуживает внимания.

Данные бенчмарков подтверждают рост возможностей. Сообщается, что GPT-5.4 по результатам теста GDPval превзошла 83% обычных офисных сотрудников. Эта цифра звучит впечатляюще, но главный вопрос — не «сколько людей она может превзойти», а «в каких задачах она может заменить человека».

Однако доктор Джефф Далтон из Эдинбургского университета отметил реальную проблему — в текущих демонстрациях почти нет достаточно подробных оценочных данных, подтверждающих такие амбициозные заявления. Возможности есть, но границы еще требуют независимой проверки.

03 Поле боя агентов — без безопасных зон

Если GPT-5.4 — это амбиции OpenAI в области агентов, то конкуренты не сидят сложа руки.

Anthropic выпустила Claude 3.7 Sonnet еще в феврале с функцией «Computer Use», позиционируя ее как гибридную модель для сложных задач с комбинированным рассуждением.

Google продолжает развивать серию Gemini 2.0 с возможностями «Agentic», а проект Mariner уже умеет самостоятельно выполнять многошаговые операции в Chrome.

Но основное отличие GPT-5.4 и конкурентов — в том, что это первый продукт OpenAI, встроивший вычислительные операции прямо в универсальную модель — не отдельный инструмент, не API, а сама модель с этой возможностью.

Это «родное» слово в инженерной реализации означает, по сути, меньшую задержку, более естественное выполнение задач и меньше «клеящих» кодов. Для компаний, стремящихся быстро внедрить агента, это напрямую влияет на стоимость развертывания.

OpenAI также объявила, что GPT-5.4 сможет напрямую интегрироваться с Microsoft Excel и Google Sheets, выполняя анализ и автоматизацию на уровне ячеек. Этот шаг явно нацелен на ключевые процессы принятия решений в бизнесе.

Поле боя агентов — это не вопрос скорости, а вопрос, кто сможет быстрее встроиться в рабочие процессы предприятий и стать незаменимым.

Техническая презентация всегда полна энтузиазма, но настоящий тест — через 91 день: когда интерес утихнет, а пользователи начнут применять этот инструмент в реальных рабочих сценариях, сможет ли он стабильно захватывать скриншоты, точно нажимать нужные кнопки, тихо выполнять задачи и возвращать результаты.

Тот самый разработчик, упомянувший о «скрытии ошибок», — это, пожалуй, самое важное предупреждение в этой статье.

Предел возможностей AI-агентов никогда не в том, «что они могут делать», а в том, «насколько вы готовы доверить им выполнение задач».

Доверие — настоящая валюта этой борьбы за агентов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить