Anthropic публикует пост-мортем анализ снижения качества кода Claude: три изменения в слое продукта, а не проблемы модели

Согласно мониторингу Beating, инженерная команда Anthropic подтвердила, что снижение качества Claude Code, о котором сообщали пользователи за последний месяц, вызвано тремя независимыми изменениями на уровне продукта, затрагивающими Claude Code, SDK Claude Agent и Claude Cowork, в то время как API и базовые модели остались без изменений. Три проблемы были исправлены 7, 10 и 20 апреля, последняя версия — v2.1.116. Первое изменение произошло 4 марта, когда команда скорректировала стандартную силу вывода Claude Code с высокой на среднюю, чтобы снизить случайные долгие задержки (UI, появляющиеся при зависании) при высокой нагрузке на вывод. Пользователи широко сообщали о снижении производительности, что привело к откату 7 апреля, при этом текущий стандарт для Opus 4.7 установлен на xhigh, а для других моделей — на high. Вторая проблема — это баг, введённый 26 марта, предназначенный для очистки старых записей вывода после того, как сессия проста более часа, чтобы снизить затраты на восстановление сессии. Недоработка в реализации привела к тому, что очистка выполнялась не один раз, а в каждом последующем раунде, что постепенно приводило к потере контекста предыдущих выводов модели, вызывая забывчивость, повторяющиеся действия и аномальные вызовы инструментов. Этот баг также ускорил расход квоты пользователей из-за промахов кэша при каждом запросе. Команда заявила, что два несвязанных внутренних эксперимента затруднили воспроизведение проблемы, потребовав более недели на расследование, и исправление было внедрено 10 апреля. Последующий обзор кода с использованием Opus 4.7 по проблемному PR показал, что Opus 4.7 может обнаружить этот баг, тогда как Opus 4.6 — нет. Третье изменение было запущено 16 апреля с Opus 4.7, где команда добавила директиву для ограничения длины вывода в системном запросе: «Текст между вызовами инструмента не должен превышать 25 слов, а окончательный ответ — 100 слов, если задача не требует более подробного объяснения». Внутренние тесты показали отсутствие регрессий в течение нескольких недель, но после запуска это усугубилось другими подсказками, что привело к ухудшению качества кодирования, затронув Sonnet 4.6, Opus 4.6 и Opus 4.7. Расширенные оценки выявили снижение на 3% как в Opus 4.6, так и в 4.7, что привело к откату 20 апреля. Три изменения затронули разные группы пользователей и вступили в силу в разное время, проявляясь как широкое и непоследовательное снижение качества, усложняя устранение проблем. Anthropic заявил, что в будущем потребуется больше внутренних сотрудников использовать те же публичные сборки, что и пользователи, запускать полные комплекты оценки моделей для каждого изменения системного запроса и вводить серый период. В качестве компенсации Anthropic сбросила квоты использования для всех подписанных пользователей.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить