SemiAnalysis 横向评测显示：GPT-5.5 半年来首次重返前沿，Claude 负责新项目规划、Codex 负责推理密集修复；Claude 复刻布局但大量数据造假，Codex 数据更准。基准改为 Expert-SWE，GPT-5.5 在该基准落后于 Opus 4.7，Opus 4.7 新 tokenizer 增加最高 35% token 量。DeepSeek V4 紧随前沿但非领先，中文写作仍优于对手。价格应按每任务成本衡量，GPT-5.5 单价比 GPT-5.4 高一倍，但实际成本取决于所用 token。Codex 输入输出比约 80:1，Claude Code 约 100:1。

BlockBeatNews

2026-04-27 05:22:31

Генерация тезисов в процессе

По данным мониторинга Beating, аналитическая организация SemiAnalysis, специализирующаяся на полупроводниках и ИИ, опубликовала горизонтальный сравнительный анализ программных помощников, охватывающий GPT-5.5, Opus 4.7 и DeepSeek V4.
Ключевой вывод: GPT-5.5 — это первый за полгода передовой программный модель от OpenAI, SemiAnalysis начала переключаться между Codex и Claude Code, ранее почти все использовали только Claude.
GPT-5.5 основана на новой предварительной тренировке под кодовым названием «Spud», что делает её первой после GPT-4.5, расширяющей масштаб предварительной тренировки.

В ходе тестирования сформировался разделение ролей: Claude занимается планированием новых проектов и первоначальной настройкой, Codex — решением логически сложных ошибок.
Codex лучше понимает структуры данных и логическое мышление, но плохо угадывает неясные намерения пользователя.
Для одной и той же задачи на панели инструментов Claude автоматически воспроизвела макет страницы по образцу, но с большим количеством выдуманных данных, тогда как Codex пропустила макет, но данные были гораздо точнее.

Статья раскрывает детали операции с бенчмарком: в феврале этого года OpenAI опубликовала блог с призывом перейти на SWE-bench Pro в качестве нового стандарта для программирования, но объявление GPT-5.5 использовало новый бенчмарк под названием «Expert-SWE».
Причина скрыта в мелком шрифте в самом низу объявления: GPT-5.5 уступает Opus 4.7 на SWE-bench Pro и значительно ниже Mythos от Anthropic, который ещё не опубликован (77,8%).

Что касается Opus 4.7, Anthropic через неделю после релиза выпустила постмортем, в котором признала, что Claude Code имел три бага в период с марта по апрель, продолжавшиеся несколько недель и затронувшие почти всех пользователей.
Ранее несколько инженеров отмечали снижение производительности 4.6, что воспринималось как субъективное ощущение.
Кроме того, новый токенизатор 4.7 увеличивает расход токенов до 35%, что Anthropic признала, что фактически является скрытым повышением цен.

DeepSeek V4 оценена как «следящая за передовыми моделями, но не лидер», и станет самой дешёвой альтернативой закрытым моделям.
В статье также говорится, что «Claude всё ещё превосходит DeepSeek V4 Pro в сложных задачах на китайском языке» и комментируется: «Claude выиграла у китайской модели, используя язык оппонента».

Статья вводит ключевую концепцию: при оценке стоимости модели следует учитывать «затраты на задачу», а не «затраты на токен».
Цена GPT-5.5 составляет в два раза больше, чем GPT-5.4 (5 долларов за ввод, 30 долларов за вывод / миллион токенов), но при выполнении той же задачи с меньшим количеством токенов фактические затраты могут быть не выше.
Предварительные данные SemiAnalysis показывают, что соотношение входных и выходных токенов у Codex составляет 80:1, что ниже 100:1 у Claude Code.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
277.02K Популярность
#
比特币Breaks79K
11.67M Популярность
#
IsraelStrikesIranBTCPlunges
34.28K Популярность
#
CryptoMarketsRiseBroadly
86.7K Популярность
#
WHCADinnerShootingIncident
14.1K Популярность

Закрепить

Карта сайта

SemiAnalysis实测：GPT-5.5回到前沿，但OpenAI悄悄藏了一项被Opus压过的成绩

Популярные темы

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закрепить