Claude Sonnet 5 запущен: Anthropic заявляет, что по многим параметрам приближается к Opus, но цена API на 60% дешевле.

Anthropic официально выпустила Claude Sonnet 5, опубликованные результаты тестов показывают, что многие показатели почти достигли флагманского Opus 4.8, стандартные цены API — $3 за входной миллион токенов / $15 за выходные, что примерно на 60% дешевле Opus.
(Предыстория: Калифорния объявила о сотрудничестве с Anthropic: все органы штата могут использовать Claude со скидкой 50%)
(Дополнение: Конец эпохи высоких цен на ИИ? Пять структурных причин, почему токены обязательно подешевеют)

На 60% дешевле, производительность лишь немного уступает — звучит как идеальная бизнес-история, но так ли это хорошо? Чуть ранее Anthropic официально выпустила Claude Sonnet 5 и установила его как модель по умолчанию для пользователей Free и Pro. Что касается цен, стандартные цены API составляют $3 за входной миллион токенов, $15 за выходные (до 31 августа действует льготный период $2/$10), что примерно на 60% дешевле по сравнению с флагманским Opus 4.8 за $5/$25.

Результаты тестов близки к флагманским

Официальные цифры, опубликованные Anthropic, следующие, однако все результаты тестов являются официальными самооценками и ещё не прошли независимую стороннюю верификацию:

На SWE-bench Pro (agentic способность к коду) Sonnet 5 набрал 63,2%, предшественник Sonnet 4.6 — 58,1%, флагман Opus 4.8 — 69,2%.

Terminal-Bench 2.1 (работа в терминале): Sonnet 5 — 80,4%, Opus 4.8 — 82,7%.

Humanity’s Last Exam (многодисциплинарное рассуждение): Sonnet 5 с использованием инструментов достиг 57,4%, почти догнав Opus 4.8 с 57,9%.

GDPval-AA v2 (способность к интеллектуальной работе): Sonnet 5 набрал 1 618, что превышает показатели Opus 4.8 с 1 615.

Управление компьютером также прогрессирует: в тесте OSWorld-Verified Sonnet 5 набрал 81,2%, предшественник — 78,5%. Основной сценарий этого бенчмарка — заставить модель фактически управлять рабочим столом в реальной операционной системе, выполняя такие задачи, как скриншоты, перетаскивание, передача данных между приложениями, что приближается к сложности реальных рабочих процессов автоматизации.

Кроме того, Sonnet 5 поддерживает контекстное окно до 1 миллиона токенов, максимальный выход — до 128k токенов. То есть за один раз можно загрузить объём текста примерно 750 романов или весь пакет контрактов крупного предприятия, позволяя модели выполнять сравнение, обобщение и принятие решений по файлам в одном диалоге без необходимости пакетной обработки. Эта спецификация особенно подходит для длительных агентных задач, поскольку модель не «забывает» предыдущий контекст на полпути.

Счёт не обязательно становится «дешевле»

В Sonnet 5 используется обновлённый токенизатор. Простыми словами, токенизатор — это способ нарезки текста на токены. Метод нарезки изменился, поэтому один и тот же текст будет давать разное количество токенов, а счёт соответственно изменится.

Anthropic поясняет, что при одинаковом входном тексте с новым токенизатором может получиться от 1,0 до 1,35 раза больше токенов в зависимости от содержимого. Официально заявляется, что цены скорректированы так, чтобы «в целом быть нейтральными по затратам», но рекомендуется пользователям с большим трафиком самостоятельно проводить бенчмаркинг, поскольку счёт может не снизиться, а вырасти.

Что касается безопасности, отчёт Anthropic указывает, что Sonnet 5 имеет меньшую склонность к галлюцинациям и лести, чем Sonnet 4.6, а также лучше отклонять вредоносные запросы. Однако сравнение безопасности относительно: уровень нежелательного поведения у Sonnet 5 всё ещё выше, чем у более мощного Opus 4.8, а также выше, чем у строго ограниченной версии Claude Mythos Preview.

В оценке разработки уязвимостей Firefox 147 в сотрудничестве с Mozilla Sonnet 5 не смог сгенерировать рабочую уязвимость (0%), но частичная успешность составила 13,2%, что выше 8,8% у Sonnet 4.6. Эти цифры всё ещё далеки от 68,8% Opus 4.8, но Anthropic уже включила защиту кибербезопасности по умолчанию.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено