SemiAnalysis реальні випробування: GPT-5.5 повертається до передової, але OpenAI тихо приховала досягнення, яке було перевершене Opus

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, аналітична організація SemiAnalysis опублікувала горизонтальну оцінку програмних помічників, що охоплює GPT-5.5, Opus 4.7 та DeepSeek V4.
Основний висновок: GPT-5.5 — це перша за півроку передова модель програмування від OpenAI, SemiAnalysis почали перемикатися між Codex та Claude Code, раніше майже всі використовували лише Claude.
GPT-5.5 базується на новому попередньому навчанні під кодовою назвою «Spud», що є першим розширенням масштабу попереднього навчання після GPT-4.5 від OpenAI.

У практичних тестах сформувалася розподіл ролей: Claude займається плануванням нових проектів і початковим налаштуванням, Codex — виконує інтенсивне логічне виправлення помилок.
Codex сильніший у розумінні структур даних і логічному мисленні, але погано вгадує неясні наміри користувача.
Для однієї задачі на панелі інструментів Claude автоматично відтворила макет референсної сторінки, але з великою кількістю вигаданих даних, тоді як Codex пропустила макет, але дані були набагато точнішими.

Стаття розкриває деталі операцій з бенчмарками: у лютому цього року OpenAI опублікувала блог із закликом перейти на SWE-bench Pro як новий стандарт для програмування, але оголошення GPT-5.5 використовує новий бенчмарк під назвою «Expert-SWE».
Причина прихована у дрібному шрифті в кінці оголошення: GPT-5.5 у SWE-bench Pro поступилася Opus 4.7, а значно нижче — Mythos від Anthropic, який ще не був оприлюднений (77.8%).

Щодо Opus 4.7, Anthropic через тиждень після релізу опублікувала постмортем, у якому визнала, що Claude Code мав три баги з березня по квітень, що тривали кілька тижнів і впливали майже на всіх користувачів.
Раніше кілька інженерів повідомляли про зниження продуктивності 4.6, але це сприймалося як суб’єктивне відчуття.
Крім того, новий токенізатор 4.7 збільшує використання токенів до 35%, що Anthropic визнає як приховане підвищення цін.

DeepSeek V4 оцінено як «на передовій, але не лідер», і стане найдешевшою альтернативою закритим моделям.
У статті також зазначено, що «Claude все ще перевершує DeepSeek V4 Pro у складних завданнях китайського письма», і зроблено висновок: «Claude виграв у китайській моделі, використовуючи мову опонента».

Стаття вводить ключову концепцію: оцінювати ціну моделі слід за «вартостю за завдання», а не за «вартостю за токен».
Ціна GPT-5.5 у два рази вища за GPT-5.4 (5 доларів за вхід, 30 доларів за вихід / мільйон токенів), але вона виконує ті ж завдання з меншим кількістю токенів, тому фактична вартість може бути не вищою.
Попередні дані SemiAnalysis показують, що співвідношення вхідних та вихідних даних Codex становить 80:1, тоді як у Claude Code — 100:1.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити