SemiAnalysis горизонтальні оцінки показують: GPT-5.5 вперше за півроку повернувся до передової, Claude відповідає за планування нових проектів, Codex — за інтенсивне виправлення логіки; Claude відтворює макет, але багато даних підроблено, дані Codex більш точні. Базовий тест змінено на Expert-SWE, GPT-5.5 у цьому тесті поступається Opus 4.7, новий токенізатор Opus 4.7 додає до 35% максимум токенів. DeepSeek V4 йде слідом за передовими, але не є лідером, написання китайською все ще краще за конкурентів. Ціна має оцінюватися за вартістю кожного завдання, ціна GPT-5.5 у два рази вища за GPT-5.4, але фактична вартість залежить від використаних токенів. Відношення вхідних та вихідних даних Codex приблизно 80:1, у Claude Code — близько 100:1.

BlockBeatNews

2026-04-27 05:22:31

Генерація анотацій у процесі

Згідно з моніторингом Beating, аналітична організація SemiAnalysis опублікувала горизонтальну оцінку програмних помічників, що охоплює GPT-5.5, Opus 4.7 та DeepSeek V4.
Основний висновок: GPT-5.5 — це перша за півроку передова модель програмування від OpenAI, SemiAnalysis почали перемикатися між Codex та Claude Code, раніше майже всі використовували лише Claude.
GPT-5.5 базується на новому попередньому навчанні під кодовою назвою «Spud», що є першим розширенням масштабу попереднього навчання після GPT-4.5 від OpenAI.

У практичних тестах сформувалася розподіл ролей: Claude займається плануванням нових проектів і початковим налаштуванням, Codex — виконує інтенсивне логічне виправлення помилок.
Codex сильніший у розумінні структур даних і логічному мисленні, але погано вгадує неясні наміри користувача.
Для однієї задачі на панелі інструментів Claude автоматично відтворила макет референсної сторінки, але з великою кількістю вигаданих даних, тоді як Codex пропустила макет, але дані були набагато точнішими.

Стаття розкриває деталі операцій з бенчмарками: у лютому цього року OpenAI опублікувала блог із закликом перейти на SWE-bench Pro як новий стандарт для програмування, але оголошення GPT-5.5 використовує новий бенчмарк під назвою «Expert-SWE».
Причина прихована у дрібному шрифті в кінці оголошення: GPT-5.5 у SWE-bench Pro поступилася Opus 4.7, а значно нижче — Mythos від Anthropic, який ще не був оприлюднений (77.8%).

Щодо Opus 4.7, Anthropic через тиждень після релізу опублікувала постмортем, у якому визнала, що Claude Code мав три баги з березня по квітень, що тривали кілька тижнів і впливали майже на всіх користувачів.
Раніше кілька інженерів повідомляли про зниження продуктивності 4.6, але це сприймалося як суб’єктивне відчуття.
Крім того, новий токенізатор 4.7 збільшує використання токенів до 35%, що Anthropic визнає як приховане підвищення цін.

DeepSeek V4 оцінено як «на передовій, але не лідер», і стане найдешевшою альтернативою закритим моделям.
У статті також зазначено, що «Claude все ще перевершує DeepSeek V4 Pro у складних завданнях китайського письма», і зроблено висновок: «Claude виграв у китайській моделі, використовуючи мову опонента».

Стаття вводить ключову концепцію: оцінювати ціну моделі слід за «вартостю за завдання», а не за «вартостю за токен».
Ціна GPT-5.5 у два рази вища за GPT-5.4 (5 доларів за вхід, 30 доларів за вихід / мільйон токенів), але вона виконує ті ж завдання з меншим кількістю токенів, тому фактична вартість може бути не вищою.
Попередні дані SemiAnalysis показують, що співвідношення вхідних та вихідних даних Codex становить 80:1, тоді як у Claude Code — 100:1.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
277.12K Популярність
#
比特币Breaks79K
11.67M Популярність
#
IsraelStrikesIranBTCPlunges
34.28K Популярність
#
CryptoMarketsRiseBroadly
86.72K Популярність
#
WHCADinnerShootingIncident
14.1K Популярність

Закріпити

карта сайту

SemiAnalysis реальні випробування: GPT-5.5 повертається до передової, але OpenAI тихо приховала досягнення, яке було перевершене Opus

Популярні теми

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закріпити