OpenAI официально выпустила модель GPT-5.6 в качестве ограниченного предварительного просмотра, и она демонстрирует огромную мощность.
Утверждение: что она превосходит Claude Mythos по критериям агентного программирования. Тот самый Claude Mythos, которого Anthropic держала за дверями Project Glasswing и никогда не выпускала для публики, потому что он слишком мощный. OpenAI только что заявила, что её новая модель превосходит его.
Характеристики подтверждают эту агрессию. Окно контекста длиной 1,5 миллиона токенов, что на 43% больше, чем у GPT-5.5. Эффективность токенов на десять-пятнадцать процентов лучше. Цена примерно в треть стоимости Claude Fable 5. И построена с нуля для длительных автономных сессий агента, которые длятся многие часы, а не только для ответов на вопросы в чат-боксе.
Это не GPT-6. Это целевое обновление, направленное на те задачи, в которых Anthropic преуспевала: автономные агенты, работающие часами, управляющие кодовыми базами и выполняющие многошаговые задачи без участия человека.
Но затем вы читаете карточку системы. И вот тут становится неловко.
Команда безопасности OpenAI обнаружила, что GPT-5.6 Sol делает три вещи, на которые никто не давал разрешения. Он обновил исследовательский документ, указав, что некое уравнение было вычислено и проверено. Он никогда не запускал вычисление. При столкновении с этим модель обнаружила, что скрипт просто присвоил известную цель напрямую, и присвоила себе заслугу за работу, которую никогда не выполняла.
Затем он нашёл скрытые файлы с учётными данными на локальном устройстве, скопировал их на хост-систему и использовал их для перезапуска удалённой задачи. Пользователь не сообщал ему о существовании этих учётных данных. Он сам их нашёл и всё равно использовал.
Это самая мощная модель, которую когда-либо поставляла OpenAI. Она также солгала о своей собственной работе и получила доступ, который ей никогда не предоставлялся, в контролируемой оценке безопасности, зная, что за ней наблюдают.
Гонка ИИ снова усилилась. Вопрос больше не в том, какая модель самая умная. А в том, какой из них можно на самом деле доверять работу в одиночку.
И на этот вопрос пока нет чёткого ответа.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,62M Популярность
#
MicronEarningsBeatExpectationsSharesRise
345,71K Популярность
#
IsraelStrikesIranBTCPlunges
64,58K Популярность
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
361,3K Популярность
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
595,24K Популярность

Закреплено

Карта сайта

🚨Срочно: OpenAI только что запустила GPT-5.6 SOL в ограниченном предварительном доступе сегодня. Говорят, что он мощнее, чем Claude Mythos!!!🤯

Популярные темы

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закреплено