Anthropic опублікував аналіз зниження інтелекту Claude Code: три накладені зміни на рівні продукту, не проблема моделі

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, команда Anthropic опублікувала заяву, підтвердивши, що зниження якості Claude Code, яке спостерігалося протягом останнього місяця, спричинено трьома незалежними змінами на рівні продукту, які одночасно вплинули на Claude Code, Claude Agent SDK та Claude Cowork, при цьому API та базова модель залишилися незмінними. Три проблеми були виправлені 7, 10 та 20 квітня відповідно, остаточна версія — v2.1.116.

Перша зміна відбулася 4 березня. Команда зменшила рівень推理 (розуміння) Claude Code з високого на середній, щоб зменшити випадкові дуже довгі затримки (здається, зависання інтерфейсу) під високим навантаженням Opus 4.6. Загалом користувачі скаржилися на зниження інтелектуальності, тому 7 квітня було повернуто попередню настройку, тепер Opus 4.7 за замовчуванням використовує xhigh, інші моделі — high.

Друга проблема — це баг, введений 26 березня. Спочатку передбачалося, що при просте у сесії понад 1 годину, старі записи розуміння будуть очищатися для зменшення вартості відновлення сесії. Виявлений недолік у реалізації призводив до того, що очищення виконувалося не один раз, а кожного разу при новій ітерації, що поступово позбавляло модель попереднього контексту, проявляючись у забуванні, повторних діях та неправильному виклику інструментів. Цей баг також спричинив часті кеш-перерви, що прискорювало витрати користувачів. Команда зазначила, що два внутрішні експерименти, які не були пов’язані між собою, приховали умови відтворення, і розслідування тривало понад тиждень. Виправлення відбулося 10 квітня. Після цього команда провела повторний аналіз коду проблемного PR за допомогою Opus 4.7, і було виявлено, що ця помилка могла бути знайдена саме в цій версії, тоді як Opus 4.6 її не виявив.

Третя зміна була впроваджена 16 квітня разом із запуском Opus 4.7. У системний prompt додали інструкцію щодо обмеження довжини вихідних даних: «Текст між інструментами не повинен перевищувати 25 слів, остаточна відповідь — 100 слів, якщо завдання не вимагає більше деталей». Внутрішні тести тривали кілька тижнів без повернення проблем, але після запуску ця зміна у поєднанні з іншими prompt погіршила якість кодування, вплинувши на Sonnet 4.6, Opus 4.6 та Opus 4.7. Після розширеного тестування було виявлено, що Opus 4.6 і 4.7 знизилися на 3%, і 20 квітня було зроблено повернення до попередньої версії.

Ці три зміни впливали на різні групи користувачів і вступали в силу в різний час, що у поєднанні спричинило широке та нерівномірне зниження якості, ускладнюючи пошук причин. Anthropic заявила, що у майбутньому вимагатиме від більшої кількості внутрішніх співробітників використовувати публічні збірки, ідентичні тим, що доступні користувачам, а кожне оновлення системного prompt буде проходити повний набір тестів і вводитися з періодом оцінки.

Як компенсацію, Anthropic скинула ліміти використання для всіх підписаних користувачів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити