Anthropic публікує аналіз післямортему щодо зниження якості коду Claude: три зміни у шарі продукту, а не проблеми моделі

Згідно з моніторингом Beating, інженерна команда Anthropic підтвердила, що зниження якості Claude Code, повідомлене користувачами за останній місяць, спричинене трьома незалежними змінами на рівні продукту, що вплинули на Claude Code, SDK агентів Claude та Cowork, тоді як API та базові моделі залишилися без змін. Три проблеми були виправлені 7, 10 та 20 квітня, остання версія — v2.1.116. Перша зміна відбулася 4 березня, коли команда налаштувала стандартну силу висновку Claude Code з високої на середню, щоб зменшити випадкові довгі затримки (UI, що з’являлися завислими) при високих навантаженнях на висновок. Користувачі широко повідомляли про зниження продуктивності, що призвело до відкату 7 квітня, при цьому стандартний режим для Opus 4.7 встановлено на xhigh, а для інших моделей — на high. Друга проблема — це помилка, введена 26 березня, яка була спрямована на очищення старих записів висновків після того, як сесія була неактивною понад годину, щоб зекономити на витратах відновлення сесії. Недолік у реалізації спричинив те, що очищення виконувалося не один раз, а у кожному наступному раунді, що призводило до поступової втрати контексту попередніх висновків моделлю, викликаючи забування, повторювані дії та аномальні виклики інструментів. Ця помилка також прискорила споживання квот користувачів через промахи кешу при кожному запиті. Команда заявила, що два не пов’язані внутрішні експерименти ускладнили відтворення проблеми, що зайняло понад тиждень на дослідження, з виправленням 10 квітня. Подальший перегляд коду з використанням Opus 4.7 на проблемному PR показав, що Opus 4.7 може виявити цю помилку, тоді як Opus 4.6 — ні. Третя зміна була запущена 16 квітня з Opus 4.7, де команда додала директиву для обмеження довжини вихідних даних у системному запиті: «Текст між викликами інструментів не повинен перевищувати 25 слів, а остаточна відповідь — 100 слів, якщо завдання не вимагає більшої деталізації». Внутрішні тести показали відсутність регресії протягом кількох тижнів, але після запуску вона ускладнилася іншими запитами, що погіршило якість кодування, вплинувши на Sonnet 4.6, Opus 4.6 та Opus 4.7. Розширені оцінки виявили 3% зниження якості в обох моделях Opus 4.6 і 4.7, що призвело до відкату 20 квітня. Три зміни вплинули на різні групи користувачів і набрали чинності в різний час, що ускладнило пошук причин і спричинило поширене та непослідовне погіршення якості. Anthropic заявила, що у майбутньому потрібно залучати більше внутрішніх співробітників для використання тих самих публічних версій збірки, що й користувачі, запускати повні комплекти оцінки моделей для кожної зміни системного запиту та встановити «сіру» період. В якості компенсації Anthropic скинуло квоти використання для всіх підписаних користувачів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити