GPT-5.4 Pro набира 150 IQ на тесте MESNA Norway, побив собственный рекорд OpenAI

Сделайте CryptoSlate предпочтительным на

Последняя модель OpenAI GPT-5.4 Pro теперь набрала показатель IQ выше, чем у 99,96% всех людей, подавая рынкам свежий сигнал: улучшения в возможностях ИИ начинают обгонять обычный шум продуктовых циклов.

Pro-модель OpenAI GPT-5.4 набирает 150 по публичному бенчмарку IQ, поскольку рынки входят в еще одну неделю, насыщенную макроэкономическими событиями

Публичный лидерборд TrackingAI теперь размещает OpenAI GPT-5.4 Pro на уровне IQ 150 — резкий шаг вверх по сравнению с результатом 136, который модель OpenAI o3 показала на тесте Mensa Norway в прошлом году.

Прыжок происходит в момент, когда внимание рынка сузилось до Ирана, энергетики, мягкости на рынке труда и следующей публикации инфляции. Это создает другой вопрос на ближайшую неделю: как быстро накапливается “машинный интеллект”, и когда начнет накладываться это ускорение на экономическое позиционирование?

Почему это важно: Рост с 136 до 150 по широко понятному бенчмарку сжимает сложный сдвиг возможностей в простой сигнал. Для бизнеса этот сигнал напрямую влияет на решения по автоматизации, бюджетам на ПО и планированию численности персонала. Для рынков он добавляет еще одну переменную к ставкам, инфляции и ожиданиям по росту.

OpenAI представила GPT-5.4 как свою самую способную и эффективную “frontier”-модель для профессиональной работы: более сильные навыки в программировании, работе с инструментами и использовании компьютера, а также контекстное окно до 1 миллиона токенов. В том же релизе OpenAI заявила, что GPT-5.4 достиг нового уровня “state of the art” на GDPval и превзошла результаты человека на OSWorld-Verified.

Эти бенчмарки не связаны с публичным тестом IQ, однако направление движения совпадает. Возможности растут в рамках отдельных систем измерения, и это повышение становится достаточно быстрым, чтобы влиять на бюджетирование, планы найма, дизайн рабочих процессов и расходы на программное обеспечение.

Результат 150 в бенчмарке, похожем на публичный IQ-тест, сжимает более широкий сдвиг возможностей в один переносимый сигнал. Эту цифру легко понять даже до того, как будет обсуждаться методология.

Ранний результат o3 на Mensa задал сам бенчмарк и обозначил его ограничения. Контекстное окно GPT-4.1 на один миллион токенов показало, как OpenAI расширяет полезность моделей для задач с долгим горизонтом кода и работы с документами, а наш анализ расширяющегося “капитального цикла” OpenAI связал прогресс модели с расширением аппаратной базы, финансовыми контурами и ростом спроса на инфраструктуру.

Вместе эти события помещают последний IQ-счет в более широкий коммерческий и экономический контекст. Сам по себе переход с 136 до 150 на публичном бенчмарке впечатляет. Переход с 136 до 150, пока OpenAI углубляется в использование инструментов, использование компьютера, продуктивность на уровне предприятия и инфраструктуру, требующую капитальных вложений, несет более широкие последствия.

Публичные бенчмарки IQ ограничены, но кривая возможностей все еще идет вверх

Публичные тесты “в стиле IQ” остаются несовершенными инструментами для измерения “frontier”-моделей. TrackingAI проводит публичный бенчмарк в стиле Mensa и также поддерживает более жесткий частный офлайн-тест.

Тесты “в стиле IQ” сжимают узкую часть когнитивной производительности в одно число, скрывая различия между типами рассуждений, работой с контекстом, креативностью и решением реальных задач.

И для ИИ, и для людей результаты чувствительны к дизайну теста, объему обучающего воздействия и узнаваемости паттернов, поэтому такой показатель является шумной заменой общей способности.

IQ 150 находится в крайне верхней хвостовой части распределения — часто его связывают с такими людьми, как Альберт Эйнштейн или Ричард Фейнман. На практике это означает очень быструю абстракцию, сильное распознавание паттернов и способность ориентироваться в сложных задачах с несколькими шагами при ограниченном количестве подсказок.

Платформа сообщает баллы как скользящие средние по недавним завершениям, а методология поднимает знакомые вопросы о структуре промптов, воспроизводимости, загрязнении тренировочного набора и узнаваемости формата. Эти сомнения были видны еще тогда, когда o3 достиг 136, и они остаются актуальными сейчас, когда GPT-5.4 Pro находится на отметке 150.

Related Reading

OpenAI’s o3 scores 136 on Mensa Norway test, surpassing 98% of human population

Модель OpenAI o3 достигает IQ на уровне Mensa в независимых тестах.

Apr 17, 2025 · Liam ‘Akiba’ Wright

Даже с учетом этих ограничений, общий паттерн стало сложнее игнорировать. Один изолированный результат бенчмарка можно списать как “особенность”. Группа улучшений в публичных тестах “в стиле IQ”, в кодинге, использовании браузера, навигации по рабочему столу и в эффективности “knowledge work” несет больший аналитический вес.

Последний лидерборд TrackingAI размещает GPT-5.4 Pro на вершине своей публичной IQ-таблицы — впереди всех моделей Cluade, Gemini, Qwen и Grok, предлагая внешний, читаемый публичный бенчмарк, который быстро ложится на более широкий спор о возможностях.

Многим людям не нужно детально понимать дизайн бенчмарка, чтобы понять: 150 находится в редком диапазоне, и инвесторам не обязательно принимать каждую предпосылку теста “в стиле IQ”, чтобы увидеть, что такой скачок предполагает ускорение, а не дрейф.

Диаграмма под названием “AI IQ Test Results”, показывающая средние IQ-результаты Mensa Norway для ключевых AI-моделей на колоколообразной кривой, с вариантами OpenAI GPT-5.4, отмеченными near верхней границей диапазона.

Покупателям на уровне предприятий тоже не нужно верить, что IQ равен общему интеллекту, чтобы видеть: системы с более сильным распознаванием паттернов, более сильным использованием инструментов и более сильным умением справляться с задачами на длинном горизонте движутся в сторону экономически полезной территории — далеко за пределы решения головоломок.

Это указывает на системы, которые могут искать, планировать, проверять, ориентироваться и производить реальную работу в расширенных контекстах. В такой постановке показатель IQ работает меньше как “число-новинка” и больше как сигнал о плотности “frontier”-рассуждений.

Есть и конкурентная ценность в самом лидерборде. Позиция лидера в публичном бенчмарке укрепляет статус OpenAI в гонке за лидерство по видимым возможностям — особенно в момент, когда дифференциацию моделей все труднее различать лишь по заметкам об архитектуре.

Лидерство в бенчмарке сжимает сложность в простую иерархию. Оно дает разработчикам сигнал, корпоративным покупателям — понятный нарратив, а инвесторам — еще одну прокси-оценку того, где сейчас находится “frontier” возможностей.

CryptoSlate Daily Brief

Ежедневные сигналы, ноль шума.

Новостные заголовки, способные двигать рынок, и контекст — каждое утро в одном компактном обзоре.

5-минутный дайджест 100k+ читателей

Email address

Получить дайджест

Бесплатно. Спама нет. Отписаться можно в любое время.

Ой, похоже, возникла проблема. Попробуйте еще раз.

Вы подписаны. Добро пожаловать.

Поступательное движение в бенчмарках OpenAI начинает накладываться на ближайшую экономическую неделю

Ближайшая неделя все еще проходит через макроэкономику. Календарь Бюро статистики труда четко обозначает следующие ключевые релизы: протокол заседания FOMC с встречи 17–18 марта, due on 8 апреля; индекс потребительских цен за март, due on 10 апреля; и индекс цен производителей за март, due on 14 апреля.

Этот график держит в фокусе ставки, инфляцию и тревоги по росту, но под поверхностью формируется второй экономический трек, и OpenAI находится близко к его центру.

Рост возможностей в “frontier” AI все чаще пересекается с распределением капитала. Модель, которая повышает результат в публичных тестах рассуждений и при этом улучшает программирование, поиск и использование компьютера, меняет то, как компании думают о перестройке рабочих процессов. Это меняет то, чего покупатели ПО ожидают от copilots и агентов. Это меняет то, насколько быстро предприятия переходят от экспериментов к развертыванию.

Джек Дорси недавно опубликовал, что Block движется “от иерархии к интеллекту”, используя ИИ, чтобы взять на себя координационную работу, которую ранее выполняли управленческие уровни, пока компания реорганизуется вокруг индивидуальных участников — непосредственно ответственных людей и “player-coaches”

Рост возможностей также меняет, какие задачи можно вычленить из структур затрат на труд и передать на ПО. Эти эффекты сначала проходят по более узким каналам — включая документооборот, рабочие процессы в таблицах, поддержку клиентов, исследовательские задачи, автоматизацию браузера, внутренние операции, генерацию кода и циклы верификации.

Коммерческое направление OpenAI поддерживает такую интерпретацию. В материалах по запуску GPT-5.4 компания описала более сильную производительность в профессиональной работе, более мощный поиск по инструментам, нативное использование компьютера и улучшения в бенчмаркированной “knowledge work” по профессиям, которые напрямую сопоставляются с экономикой США.

Это помещает рост возможностей ИИ внутри знакомого вопроса рынка: куда пойдут траты, если эти системы продолжат улучшаться такими темпами.

Ответ выходит за рамки выручки от подписки на модели и охватывает спрос на облака, чипы, дата-центры, сети, энергетику, лицензии на ПО и допущения о производительности труда. Расширяющийся “капитальный цикл” OpenAI уже отражает часть этой структуры, а рост по бенчмарку добавляет более простой публично видимый сигнал поверх него.

Именно это пересечение дает последнему результату более широкую значимость в неделю, насыщенную макроэкономическими факторами. Рынки уже понимают настройку по CPI. Рынки уже знают, что цены на нефть могут подталкивать инфляционные ожидания. Рынки уже знают, что протоколы ФРС будут разбирать на предмет тональности политики.

Но начинает ли рост самого “интеллекта” вести себя как макропеременная? Более быстрый рост возможностей может изменить планы корпоративных расходов, усилить конкурентное давление в беловоротничковых функциях, поддержать более крупные капиталовложения в инфраструктуру и укрепить аргументы в пользу capex, связанных с ИИ, даже в среде более медленного номинального роста.

Когда TrackingAI показывает GPT-5.4 Pro на уровне 150, эта цифра попадает в рынок, где OpenAI уже воспринимают не просто как лабораторию. Это компания-платформа, компания для развертывания, клиент по инфраструктуре и генератор сигналов для смежных отраслей.

Следующий тест находится сразу в двух местах. Один — методологический: публичные бенчмарки “в стиле IQ” будут продолжать привлекать пристальное внимание, и они должны. Второй — экономический: рынки шаг за шагом решат, заслуживают ли такие скачки возможностей того, чтобы их оценивать вместе с данными по рынку труда, ожиданиями по ставкам и трендами по капитальным расходам.

Последний рост по бенчмаркам OpenAI приближает это решение. Оценка компактна, читаема и легко распространяется. Ее более глубокая значимость возникает из того же источника, что и более широкий рыночный толчок компании: “frontier” все еще растет, и экономический след этого роста становится сложнее удерживать в отдельной категории.

Упомянуто в этой статье

OpenAI Anthropic Google X Sam Altman

Опубликовано в

Featured US Technology Culture AI Community

Контекст

Похожие материалы

Переключите категории, чтобы углубиться или получить более широкий контекст.

US Local News      AI Top Category      Press Releases Newswire  

Анализ

Почему Биткоин ненадолго поднялся выше $70,000 на надеждах на сделку по Ирану, когда угроза Трампа по Ормузу удерживает ралли хрупким

Нефть около $112 и назревающие CPI и решения ФРС могут определить, сохранится ли этот отскок или превратится в более глубокую просадку.

2 mins ago

Анализ

Citadel Securities и Fidelity только что сделали свое самое явное движение, чтобы перестроить крипто как Wall Street

Заявление может перенести больше “бэкенда” криптоторговли под федеральный надзор, если институции последуют.

4 hours ago

Уолл-стрит видит “открытие” на $10 трлн, пока Вашингтон переписывает правила 401(k)

Анализ · 12 hours ago

Сильный отчет по занятости в США задерживает послабления ФРС, поскольку Биткоин проходит следующий макро-тест

Анализ · 1 day ago

Торговля казначейскими резервами Биткоина сталкивается с стресс-тестом, поскольку долговая нагрузка провоцирует продажи

Анализ · 2 days ago

Крипто-деривативы выводят предупреждение, поскольку $46B рынка откатываются от ралли на прекращение огня с Ираном

Анализ · 2 days ago

AI

Крипто AI-проект OpenServ утверждает, что обходит OpenAI в прямых сравнениях бенчмарков

Платформа AI-крипто делает более крупные заявления против OpenAI, повышая ставки для доказательств, развертываний и доверия к токену.

2 hours ago

Technology

Ripple продвигает более приватный блокчейн для банков и добавляет проверки AI-кода на фоне опасений, что она может оставить цену XRP позади

Ripple стремится произвести революцию в институциональном блокчейне за счет расширенной приватности и AI-функций безопасности на XRPL.

1 week ago

Крипто-победители от ИИ — не AI-монеты, поскольку агенты начинают тратить автономно

Анализ · 1 week ago

AI reset сейчас в процессе, поскольку сокращения ускоряются и одна группа получает самый сильный удар

AI · 4 weeks ago

Может ли крипто защитить нас от растущей паутины экономических AI-агентов?

AI · 4 weeks ago

ИИ нанимает больше senior-разработчиков, одновременно тихо удаляя те рабочие места, которые создают их

AI · 1 month ago

CoinRabbit снижает ставки по кредитованию крипто под займы в XRP и 300+ активов

Поскольку ставки по кредитам теперь начинаются с 11,95%, CoinRabbit расширяет заимствования с более низкой стоимостью под залог криптовалюты для XRP и 300+ поддерживаемых активов.

3 hours ago

ADI Chain объявляет ADI Predictstreet в качестве партнера по рынку прогнозов чемпионата мира по футболу FIFA 2026

Поддерживаемый ADI Chain, ADI Predictstreet дебютирует на самой большой сцене мирового футбола как официальный партнер по рынку прогнозов чемпионата мира по футболу FIFA 2026.

3 days ago

Биржа BTCC названа официальным региональным партнером Национальной сборной Аргентины

PR · 4 days ago

Encrypt Is Coming to Solana to Power Encrypted Capital Markets

PR · 6 days ago

Ika Is Coming to Solana to Power Bridgeless Capital Markets

PR · 6 days ago

Запуск TxFlow L1 Mainnet отмечает новый этап для мультиприложенческого on-chain финансирования

PR · 6 days ago

Отказ от ответственности

Мнения наших авторов принадлежат исключительно им самим и не отражают мнение CryptoSlate. Никакую информацию, которую вы читаете на CryptoSlate, нельзя рассматривать как инвестиционный совет; кроме того, CryptoSlate не поддерживает ни один проект, который мог быть упомянут или на который мог быть дана ссылка в этой статье. Покупка и торговля криптовалютами должны считаться деятельностью с высоким риском. Пожалуйста, проведите собственную due diligence перед тем, как предпринимать какие-либо действия, связанные с контентом в этой статье. Наконец, CryptoSlate не несет ответственности, если вы потеряете деньги при торговле криптовалютами. Для получения дополнительной информации см. наши корпоративные дисклеймеры.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить