SemiAnalysis实测:GPT-5.5回到前沿,但OpenAI悄悄藏了一项被Opus压过的成绩

robot
Генерация тезисов в процессе

По данным мониторинга Beating, аналитическая организация SemiAnalysis, специализирующаяся на полупроводниках и ИИ, опубликовала горизонтальный сравнительный анализ программных помощников, охватывающий GPT-5.5, Opus 4.7 и DeepSeek V4.
Ключевой вывод: GPT-5.5 — это первый за полгода передовой программный модель от OpenAI, SemiAnalysis начала переключаться между Codex и Claude Code, ранее почти все использовали только Claude.
GPT-5.5 основана на новой предварительной тренировке под кодовым названием «Spud», что делает её первой после GPT-4.5, расширяющей масштаб предварительной тренировки.

В ходе тестирования сформировался разделение ролей: Claude занимается планированием новых проектов и первоначальной настройкой, Codex — решением логически сложных ошибок.
Codex лучше понимает структуры данных и логическое мышление, но плохо угадывает неясные намерения пользователя.
Для одной и той же задачи на панели инструментов Claude автоматически воспроизвела макет страницы по образцу, но с большим количеством выдуманных данных, тогда как Codex пропустила макет, но данные были гораздо точнее.

Статья раскрывает детали операции с бенчмарком: в феврале этого года OpenAI опубликовала блог с призывом перейти на SWE-bench Pro в качестве нового стандарта для программирования, но объявление GPT-5.5 использовало новый бенчмарк под названием «Expert-SWE».
Причина скрыта в мелком шрифте в самом низу объявления: GPT-5.5 уступает Opus 4.7 на SWE-bench Pro и значительно ниже Mythos от Anthropic, который ещё не опубликован (77,8%).

Что касается Opus 4.7, Anthropic через неделю после релиза выпустила постмортем, в котором признала, что Claude Code имел три бага в период с марта по апрель, продолжавшиеся несколько недель и затронувшие почти всех пользователей.
Ранее несколько инженеров отмечали снижение производительности 4.6, что воспринималось как субъективное ощущение.
Кроме того, новый токенизатор 4.7 увеличивает расход токенов до 35%, что Anthropic признала, что фактически является скрытым повышением цен.

DeepSeek V4 оценена как «следящая за передовыми моделями, но не лидер», и станет самой дешёвой альтернативой закрытым моделям.
В статье также говорится, что «Claude всё ещё превосходит DeepSeek V4 Pro в сложных задачах на китайском языке» и комментируется: «Claude выиграла у китайской модели, используя язык оппонента».

Статья вводит ключевую концепцию: при оценке стоимости модели следует учитывать «затраты на задачу», а не «затраты на токен».
Цена GPT-5.5 составляет в два раза больше, чем GPT-5.4 (5 долларов за ввод, 30 долларов за вывод / миллион токенов), но при выполнении той же задачи с меньшим количеством токенов фактические затраты могут быть не выше.
Предварительные данные SemiAnalysis показывают, что соотношение входных и выходных токенов у Codex составляет 80:1, что ниже 100:1 у Claude Code.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить