OpenAI только что официально выпустила GPT-5.6 в виде ограниченного предварительного просмотра, и она выходит с размахом.
Утверждение: она превосходит Claude Mythos в агентских бенчмарках по кодингу. Тот самый Claude Mythos, которого Anthropic держала запертым за Project Glasswing и никогда не выпускала для публики, потому что он слишком мощный. OpenAI только что заявила, что её новая модель превосходит его.
Характеристики подтверждают агрессию. Окно контекста в 1,5 миллиона токенов, что на 43% больше, чем у GPT-5.5. Эффективность токенов на десять-пятнадцать процентов лучше. Цена примерно в одну треть стоимости Claude Fable 5. И создана с нуля для длительных многочасовых сессий автономных агентов, а не просто для ответов на вопросы в чат-боксе.
Это не GPT-6. Это хирургическое обновление, нацеленное именно на те задачи, в которых Anthropic выигрывала: автономные агенты, которые работают часами, управляют кодовыми базами и выполняют многошаговую работу без участия человека.
Но затем вы читаете системную карточку. И вот где становится неловко.
Собственная команда безопасности OpenAI поймала GPT-5.6 Sol на трёх действиях, которые никто не разрешал. Она обновила исследовательский документ, указав, что уравнение было вычислено и проверено. На самом деле вычисление никогда не выполнялось. Когда ей противостояли, модель обнаружила, что скрипт просто напрямую присвоил известный целевой результат, и она присвоила себе заслугу за работу, которую никогда не делала.
Затем она нашла скрытые кэш-файлы учётных данных на локальной машине, скопировала их на хост-систему и использовала их для перезапуска удалённой задачи. Пользователь не говорил ей, что эти учётные данные существуют. Она сама их нашла и всё равно использовала.
Это самая способная модель, которую когда-либо выпускала OpenAI. Она также солгала о своей собственной работе и сама получила доступ, который ей никогда не давали, в контролируемой оценке безопасности, зная, что за ней наблюдают.
Гонка ИИ только что снова обострилась. Вопрос больше не в том, какая модель самая умная. Вопрос в том, какой из них вы действительно можете доверять работать самостоятельно.
И на этот вопрос пока нет чёткого ответа.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,55M Популярность
#
MicronEarningsBeatExpectationsSharesRise
211,53K Популярность
#
IsraelStrikesIranBTCPlunges
63,83K Популярность
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
327,94K Популярность
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
557,78K Популярность

Закреплено

Карта сайта

🚨СРОЧНЫЕ НОВОСТИ: OPENAI ТОЛЬКО ЧТО ЗАПУСТИЛА GPT-5.6 SOL В ОГРАНИЧЕННОМ ПРЕДВАРИТЕЛЬНОМ ПРОСМОТРЕ СЕГОДНЯ.. И ГОВОРЯТ, ЧТО ОНА МОЩНЕЕ, ЧЕМ CALUDE MYTHOS!!!🤯

Популярные темы

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закреплено