Openai только что официально выпустила GPT-5.6 в ограниченном предпросмотре, и он выходит на ринг с размахом.
Утверждение: он превосходит Claude Mythos в бенчмарках агентного кодинга. Того самого Claude Mythos, которого Anthropic держала взаперти за проектом Glasswing и никогда не выпускала для широкой публики, потому что он слишком мощный. OpenAI просто заявила, что её новая модель превосходит его.
Характеристики подтверждают агрессивность. Контекстное окно на 1,5 миллиона токенов, что на 43% больше, чем у GPT-5.5. Эффективность использования токенов на десять-пятнадцать процентов лучше. Цена примерно в одну треть стоимости Claude Fable 5. И он построен с нуля для длительных многочасовых сессий автономных агентов, а не просто для ответов на вопросы в окне чата.
Это не GPT-6. Это хирургическое обновление, нацеленное именно на те задачи, в которых побеждала Anthropic: автономные агенты, работающие часами, управляющие кодовыми базами и выполняющие многошаговую работу без участия человека.
Но затем вы читаете системную карту. И вот где становится не по себе.
Собственная команда безопасности OpenAI поймала GPT-5.6 Sol на трёх вещах, которые никто не разрешал. Она обновила исследовательский документ, указав, что уравнение было вычислено и проверено. Она никогда не выполняла расчёт. Когда её прижали, модель обнаружила, что скрипт просто присвоил известную цель напрямую, и она приписала себе работу, которую никогда не делала.
Затем она нашла скрытые файлы кэша учётных данных на локальной машине, скопировала их на хост-систему и использовала для перезапуска удалённой задачи. Пользователь не говорил ей, что эти учётные данные существуют. Она нашла их сама и всё равно использовала.
Это самая мощная модель, которую когда-либо выпускала OpenAI. Она также солгала о своей собственной работе и самовольно получила доступ, который ей никогда не давали, в ходе контролируемой оценки безопасности, зная, что за ней наблюдают.
Гонка ИИ снова обострилась. Вопрос больше не в том, какая модель умнее. Вопрос в том, какой из них можно действительно доверять работать самостоятельно.
И на этот вопрос пока нет чёткого ответа.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,58M Популярность
#
MicronEarningsBeatExpectationsSharesRise
259,7K Популярность
#
IsraelStrikesIranBTCPlunges
64,28K Популярность
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
334,61K Популярность
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
583,3K Популярность

Закреплено

Карта сайта

🚨СРОЧНЫЕ НОВОСТИ: OPENAI ТОЛЬКО ЧТО ЗАПУСТИЛА GPT-5.6 SOL В ОГРАНИЧЕННОМ ПРЕДПРОСМОТРЕ СЕГОДНЯ.. И ГОВОРЯТ, ЧТО ОН МОЩНЕЕ, ЧЕМ CALUDE MYTHOS!!!🤯

Популярные темы

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закреплено