GPT-5.4 Pro піднімається до 150 IQ на тесті MESNA Norway, встановлюючи новий рекорд OpenAI

Зробіть CryptoSlate кращим на

Найновіша модель OpenAI GPT-5.4 Pro досягла оцінки IQ, вищої за 99,96% усіх людей, тим самим даючи ринкам свіжий сигнал, що приріст можливостей ШІ починає випереджати звичний «шум» звичайного циклу продукту.

OpenAI’s GPT-5.4 Pro торкається 150 на публічному бенчмарку IQ, поки ринки входять в ще один тиждень, багатий на макродані

Публічна лідербордна TrackingAI тепер розміщує OpenAI GPT-5.4 Pro на оцінці IQ 150 — це різкий крок уперед від результату 136, який OpenAI’s o3 показав на тесті Mensa Norway минулого року.

Стрибок відбувається в момент, коли увага ринку звузилася до Ірану, енергетики, слабкості на ринку праці та наступного оприлюднення інфляційних даних. Це створює інше питання на найближчий тиждень: як швидко нарощується «машинний інтелект», і коли це прискорення почне накладатися на економічне позиціонування?

Чому це важливо: Перехід від 136 до 150 на широко зрозумілому бенчмарку стискає складний зсув у можливостях у простий сигнал. Для бізнесу цей сигнал безпосередньо живить рішення щодо автоматизації, бюджетів на програмне забезпечення та планування чисельності персоналу. Для ринків він додає ще одну змінну поруч із ставками, інфляцією та очікуваннями щодо зростання.

OpenAI представила GPT-5.4 як свою найздатнішу й найефективнішу «frontier»-модель для професійної роботи: з сильнішими можливостями в програмуванні, використанні інструментів і роботи з комп’ютером, а також контекстним вікном до 1 мільйона токенів. У тому ж релізі OpenAI заявила, що GPT-5.4 досягла нового рівня «state of the art» на GDPval і перевищила показники людей на OSWorld-Verified.

Ці бенчмарки відокремлені від публічного тесту IQ, однак напрям руху узгоджується. Можливості зростають у межах кількох окремих систем вимірювання, і це зростання стало достатньо швидким, щоб впливати на бюджетування, плани найму, дизайн робочих процесів і витрати на ПЗ.

Оцінка 150 на публічному бенчмарку в стилі IQ стискає ширший зсув у можливостях в один переносний сигнал. Число легко зрозуміти навіть до того, як буде дискусія про методологію.

Раніший результат o3 у Mensa заклав сам бенчмарк і його межі. Контекстне вікно GPT-4.1 на один мільйон токенів показало, як OpenAI розширює корисність моделей для задач із довгим горизонтом — у коді та документах, тоді як наш аналіз розширення «capital loop» OpenAI пов’язував прогрес моделей із розширенням апаратної бази, інвестиційними/фінансовими циклами та попитом на інфраструктуру.

У сукупності ці події ставлять найновішу IQ-оцінку в ширший комерційний і економічний контекст. Перехід від 136 до 150 на публічному бенчмарку сам по собі вражає. Перехід від 136 до 150 тоді, коли OpenAI заглиблюється у використання інструментів, роботу з комп’ютером, підвищення продуктивності підприємств і капіталомістку інфраструктуру, несе ширші наслідки.

Публічні бенчмарки IQ обмежені, але «крива можливостей» усе ще рухається вище

Публічні тести IQ залишаються недосконалими інструментами для вимірювання «frontier»-моделей. TrackingAI проводить публічний бенчмарк у стилі Mensa, а також підтримує складніший приватний офлайн-тест.

Тести в стилі IQ стискають вузьку частину когнітивної продуктивності в одне число, приховуючи варіації між типами міркувань, роботою з контекстом, креативністю та розв’язанням реальних задач.

І для ШІ, і для людей бали чутливі до дизайну тесту, експозиції до навчання та знайомості з патернами, що робить IQ-показник «шумною» проксі-оцінкою загальних можливостей.

IQ 150 розташовується на крайньому верхньому хвості розподілу, часто асоціюється з такими людьми, як Альберт Ейнштейн або Річард Фейнман. На практиці це означає дуже швидку абстракцію, сильне розпізнавання патернів і здатність орієнтуватися в складних багатокрокових задачах із обмеженими підказками.

Платформа повідомляє бали як ковзні середні за останні завершення, а методологія піднімає знайомі питання щодо структури промптів, відтворюваності, «забруднення» навчальними даними та знайомості з форматом. Ці застереження були видимими, коли o3 досяг 136, і залишаються актуальними зараз, коли GPT-5.4 Pro сидить на 150.

Related Reading

OpenAI’s o3 набирає 136 на тесті Mensa Norway, перевершуючи 98% населення

Модель OpenAI o3 досягає IQ на рівні Mensa в незалежному тестуванні.

Apr 17, 2025 · Liam ‘Akiba’ Wright

Навіть із цими обмеженнями ширший патерн стало важче відкидати. Один ізольований результат бенчмарку можна пояснити як дивакуватість. Сукупність зростань у публічному тестуванні в стилі IQ, у програмуванні, у використанні браузера, у навігації по робочому столу та в продуктивності для «knowledge work» має більше аналітичної ваги.

Остання лідербордна TrackingAI розміщує GPT-5.4 Pro на вершині її публічної IQ-таблиці попереду всіх моделей Cluade, Gemini, Qwen і Grok, пропонуючи зовнішній, читабельний публічний бенчмарк, який швидко накладається на ширшу дискусію про можливості.

Небагатьом людям потрібне детальне розуміння дизайну бенчмарку, щоб усвідомити, що 150 потрапляє в рідкісний діапазон, і інвесторам не обов’язково приймати кожну передумову тесту в стилі IQ, щоб визнати: стрибок такого масштабу більше схожий на прискорення, ніж на дрейф.

Діаграма під назвою “AI IQ Test Results” показує середні бали Mensa Norway IQ для основних AI-моделей на дзвоноподібній кривій, а варіанти OpenAI GPT-5.4 нанесені поруч із верхньою межею діапазону.

Покупцям на рівні підприємств також не потрібно вірити, що IQ дорівнює загальному інтелекту, щоб побачити: системи з сильнішим розпізнаванням патернів, сильнішим використанням інструментів і сильнішим опрацюванням задач із довгим горизонтом рухаються в бік економічно корисної території — далеко за межі розв’язання головоломок.

Це вказує на системи, які можуть шукати, планувати, верифікувати, навігувати та створювати реальну роботу в розширених контекстах. У такій конфігурації IQ-оцінка працює менше як «новинка-число» і більше як сигнал щільності «frontier»-міркувань.

Є також конкурентна цінність у самій лідербордній. Лідерська позиція на публічному бенчмарку підсилює позицію OpenAI в гонці за видиме лідерство за можливостями — особливо в момент, коли диференціацію моделей стає важче розпізнати лише з нотаток про архітектуру.

Лідерство за бенчмарком стискає складність у просту ієрархію. Воно дає розробникам сигнал, корпоративним покупцям — зручну «оповідь», а інвесторам — ще одну проксі-оцінку того, де зараз знаходиться «frontier» можливостей.

CryptoSlate Daily Brief

Щоденні сигнали, нуль шуму.

Новини, що рухають ринки, і контекст — щоранку в одному стислому огляді.

5-хвилинний дайджест 100k+ читачів

Email address

Отримати дайджест

Безкоштовно. Немає спаму. Відписатися можна будь-коли.

Ой, схоже, виникла проблема. Спробуйте ще раз.

Ви підписані. Ласкаво просимо.

Найновіше підняття бенчмарку OpenAI починає накладатися на економічний тиждень попереду

Попереду — тиждень, який усе ще повністю проходить крізь макродані. Календар Бюро статистики праці чітко розкладає наступні ключові релізи: протоколи засідання FOMC з 17–18 березня, які вийдуть 8 квітня; березневий індекс споживчих цін, який очікується 10 квітня; і березневий індекс цін виробників, який очікується 14 квітня.

Цей розклад тримає ставки, інфляційну тривогу та занепокоєння щодо зростання на передньому плані, але під поверхнею формується другий економічний трек, і OpenAI знаходиться майже в центрі цієї картини.

Зростання можливостей «frontier» ШІ дедалі частіше перетинається з розподілом капіталу. Модель, яка піднімається вище на публічних тестах з міркувань, водночас покращуючись у програмуванні, пошуку та використанні комп’ютера, змінює спосіб, у який бізнеси думають про переробку робочих процесів. Це змінює те, чого від копілотів і агентів очікують покупці ПЗ. Це змінює, як швидко підприємства переходять від експериментів до розгортання.

Джек Дорсі нещодавно опублікував, що Block рухається «від ієрархії до інтелекту», використовуючи ШІ, щоб перебрати на себе координаційну роботу, яку раніше виконували управлінські рівні, поки компанія реорганізується навколо індивідуальних учасників, напряму відповідальних осіб і гравців-тренерів

Зростання можливостей також змінює, які задачі можна «вичленити» з структур витрат на працю й переназначити на програмне забезпечення. Ці ефекти проходять спершу вузькими каналами — зокрема через документні робочі процеси, табличні робочі процеси, клієнтську підтримку, дослідницькі задачі, автоматизацію браузера, внутрішні операції, генерацію коду та цикли верифікації.

Комерційний напрям OpenAI підсилює це тлумачення. У своїх матеріалах запуску GPT-5.4 компанія описала сильніші показники в професійній роботі, сильніший інструментальний пошук, нативне використання комп’ютера, а також прирости в «benchmarked» knowledge work у професіях, які безпосередньо відповідають економіці США.

Це ставить зростання можливостей ШІ всередину звичної ринкової задачі, де потоки витрат ідуть далі, якщо ці системи продовжують покращуватися в такому темпі.

Відповідь виходить за межі доходів від підписки на моделі і охоплює попит на хмарні сервіси, чипи, дата-центри, мережі, електроенергію, ліцензії на програмне забезпечення та припущення щодо продуктивності праці. Розширення «capital loop» OpenAI уже відображає частину цієї структури, а приріст бенчмарку додає більш простий публічний сигнал поверх неї.

Саме це накладання надає останньому результату ширшу релевантність під час макродомінантного тижня. Ринки вже знають налаштування CPI. Ринки вже знають, що ціни на нафту можуть підживлювати інфляційні очікування. Ринки вже знають, що протоколи Феду буде розбиратися на предмет політичного тону.

Але чи починає зростання самого інтелекту поводитися як макроперемінна? Швидші прирости можливостей можуть змінити плани витрат підприємств, посилити конкурентний тиск у функціях офісної праці, підтримати вищі витрати на інфраструктуру та посилити аргумент щодо капітальних витрат, прив’язаних до ШІ, навіть у середовищі повільнішого номінального зростання.

Коли TrackingAI показує GPT-5.4 Pro на 150, це число потрапляє в сегмент ринку, який уже бачить OpenAI більше ніж як лабораторію. Це платформи компанія, компанія з розгортання, клієнт інфраструктури та генератор сигналів для суміжних секторів.

Наступний тест стоїть одразу в двох місцях. Одне — методологічне; публічні бенчмарки в стилі IQ й надалі викликатимуть прискіпливу увагу, і вони її заслуговують. Інше — економічне; ринки крок за кроком вирішать, чи заслуговують стрибки в можливостях такого масштабу на те, щоб їх цінили поруч із даними щодо праці, очікуваннями по ставках і трендами капітальних витрат.

Найновіше підняття бенчмарку OpenAI наближає це рішення. Оцінка компактна, читабельна й легка для поширення. Її глибша релевантність походить із того ж місця, що й ширший продуктовий поштовх компанії: «frontier» усе ще піднімається, і економічний слід цього підйому стає важче тримати в окремій категорії.

Згадано в цій статті

OpenAI Anthropic Google X Sam Altman

Опубліковано в

Featured US Technology Culture AI Community

Контекст

Суміжне висвітлення

Перемкніть категорії, щоб зануритися глибше або отримати ширший контекст.

US Local News      AI Top Category      Press Releases Newswire  

Аналіз

Чому Bitcoin ненадовго підскочив вище $70,000 на надіях на іранську угоду, коли загроза Ормузу від Трампа зберігає ралі крихким

Нафта біля $112 і загрозлива CPI та протоколи Феду можуть вирішити, чи витримає цей відскок або перетвориться на глибший спад.

2 хвилини тому

Аналіз

Citadel Securities і Fidelity щойно зробили найочевидніший крок, щоб відбудувати крипто, як Wall Street

Подання може зрушити більше «back end» криптотрейдингу в руки, яким довіряє федеральний нагляд, якщо інституції підуть прикладу.

4 години тому

Wall Street бачить відкриття на $10 трлн, оскільки Вашингтон переписує правила 401(k)

Аналіз · 12 годин тому

Пильний звіт по сильних робочих місцях у США затримує полегшення від Феду, поки Bitcoin проходить свій наступний макро-тест

Аналіз · 1 день тому

Торгівля резервами Bitcoin стикається зі стрес-тестом, коли тиск боргу запускає продажі

Аналіз · 2 дні тому

Біткоїн деривативи вмикають попередження, коли ринок на $46B відтягується від ралі на перемир’ї з Іраном

Аналіз · 2 дні тому

AI

Крипто AI-проєкт OpenServ стверджує, що обігнав OpenAI в прямих порівняннях бенчмарків

AI-крипто платформа робить більші заяви проти OpenAI, підвищуючи ставки для перевірки, розгортань і достовірності токенів.

2 години тому

Технології

Ripple просуває більш приватний блокчейн для банків і додає AI-перевірки коду, коли зростають страхи, що вона може залишити ціну XRP позаду

Ripple прагне революціонізувати інституційний блокчейн завдяки посиленій приватності та функціям AI-безпеки в XRPL.

1 тиждень тому

Криптові переможці від AI — не AI-коїни, бо агенти починають витрачати автономно

Аналіз · 1 тиждень тому

AI-reset уже розпочався, бо звільнення прискорюються, і одна група отримує найбільше

AI · 4 тижні тому

Чи може крипто захистити нас від зростаючої павутини економічних AI-агентів?

AI · 4 тижні тому

AI наймає більше старших розробників, тихо стираючи робочі місця, які створюють їх

AI · 1 місяць тому

CoinRabbit знижує ставки кредитування для позик у XRP та 300+ активів

Оскільки ставки кредитування тепер починають із 11,95%, CoinRabbit розширює позикові продукти з нижчою вартістю, забезпечені криптоактивами, для XRP та 300+ підтримуваних активів.

3 години тому

ADI Chain оголошує ADI Predictstreet як партнера з прогнозного ринку FIFA World Cup 2026

Підтримуваний ADI Chain, ADI Predictstreet дебютує на найбільшій футбольній сцені — як офіційний партнер із прогнозного ринку FIFA World Cup 2026.

3 дні тому

BTCC Exchange названо офіційним регіональним партнером національної збірної Аргентини

PR · 4 дні тому

Encrypt виходить у Solana, щоб забезпечити зашифровані ринки капіталу

PR · 6 днів тому

Ika виходить у Solana, щоб забезпечити безмостові ринки капіталу

PR · 6 днів тому

Запуск TxFlow L1 Mainnet започатковує нову фазу для багатозастосункових on-chain фінансів

PR · 6 днів тому

Disclaimer

Мнения наших авторів є суто їхніми власними і не відображають думку CryptoSlate. Жодну з інформації, яку ви читаєте на CryptoSlate, не слід сприймати як інвестиційну пораду, і CryptoSlate не підтримує жоден проєкт, який може бути згаданий або на який є посилання в цій статті. Купівлю та торгівлю криптовалютами слід вважати діяльністю з високим ризиком. Будь ласка, виконайте власну належну перевірку перед тим, як робити будь-які дії, пов’язані зі змістом цієї статті. Нарешті, CryptoSlate не несе відповідальності, якщо ви втратите гроші під час торгівлі криптовалютами. Щоб дізнатися більше, див. наші компанійські дисклеймери.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити