Anthropic опубликовала анализ снижения интеллекта Claude Code: три слоя изменений продукта в совокупности, не проблема модели

robot
Генерация тезисов в процессе

Согласно мониторингу Beating, команда инженеров Anthropic опубликовала сообщение, подтверждающее, что снижение качества Claude Code, зафиксированное у пользователей за последний более месяца, вызвано тремя независимыми изменениями на уровне продукта, при этом затронуты Claude Code, Claude Agent SDK и Claude Cowork, API и базовая модель не пострадали. Три проблемы были исправлены 7, 10 и 20 апреля, окончательная версия — v2.1.116.

Первое изменение произошло 4 марта. Команда, чтобы снизить случайные очень длинные задержки (казавшиеся зависанием интерфейса) при высокой нагрузке Opus 4.6, по умолчанию переключила уровень推理 Claude Code с high на medium. Пользователи в целом жаловались на снижение умственных способностей, 7 апреля произошел откат, теперь Opus 4.7 по умолчанию использует xhigh, остальные модели — high.

Второй — баг, введённый 26 марта. Изначально предполагалось, что при простое сессии более часа старые записи推理 будут очищаться для снижения стоимости восстановления сессии. Недостаток реализации привёл к тому, что очистка происходила не один раз, а на каждой итерации, из-за чего модель постепенно теряла контекст推理, проявляясь в забывчивости, повторных действиях и ошибках при вызове инструментов. Этот баг также приводил к кешированию неудачных запросов, ускоряя расход лимитов пользователей. Команда отметила, что два несвязанных внутренних эксперимента скрыли условия воспроизведения, расследование заняло более недели, исправление — 10 апреля. После этого был проведён код-ревью и тестирование исправленного PR с Opus 4.7, который обнаружил этот баг, в то время как Opus 4.6 — нет.

Третье изменение было внедрено 16 апреля вместе с выпуском Opus 4.7. В системный prompt добавили инструкцию по ограничению длины вывода: «Текст между вызовами инструментов не более 25 слов, итоговый ответ — не более 100 слов, за исключением случаев, когда требуется больше деталей». Внутренние тесты в течение нескольких недель не выявили возврата к исходному состоянию, но после запуска это ограничение в совокупности с другими prompt ухудшило качество кодирования, повлияло на Sonnet 4.6, Opus 4.6 и Opus 4.7. После расширения оценки было обнаружено снижение на 3% у Opus 4.6 и 4.7, 20 апреля было выполнено откат.

Три изменения затронули разные группы пользователей и вступили в силу в разное время, в результате их совокупного воздействия наблюдалось широкое и разнородное снижение качества, что усложняло диагностику. Anthropic заявила, что в дальнейшем потребует от большего числа сотрудников использовать публичные сборки, идентичные пользовательским, и проводить полное тестирование модели при каждом изменении системных prompt с установкой периода градации.

В качестве компенсации Anthropic полностью сбросила лимиты использования для всех подписанных пользователей.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить