Anthropic publica análise post-mortem sobre o declínio da qualidade do código do Claude: Três alterações na camada do produto, não problemas no modelo

De acordo com o monitoramento realizado pela Beating, a equipa de engenharia da Anthropic confirmou que a queda na qualidade do Claude Code reportada pelos utilizadores ao longo do último mês resulta de três alterações independentes ao nível do produto, afetando o Claude Code, o SDK do Claude Agent e o Cowork do Claude, enquanto a API e os modelos subjacentes permanecem inalterados.
As três questões foram resolvidas a 7, 10 e 20 de abril, sendo a versão final a v2.1.116.
A primeira alteração ocorreu a 4 de março, quando a equipa ajustou a força de inferência padrão do Claude Code de alta para média para reduzir atrasos ocasionais longos (UI a parecer congelado) sob cargas elevadas de inferência.
Os utilizadores relataram amplamente uma diminuição no desempenho, levando a uma reversão a 7 de abril, com o padrão atual para o Opus 4.7 definido como xhigh e outros modelos como high.
A segunda questão foi um bug introduzido a 26 de março, concebido para limpar registros antigos de inferência após uma sessão ficar inativa por mais de uma hora para economizar nos custos de recuperação da sessão.
Uma falha na implementação causou a execução da limpeza não apenas uma vez, mas em cada rodada subsequente, levando o modelo a perder gradualmente o contexto de inferência anterior, resultando em esquecimento, ações repetitivas e chamadas anormais às ferramentas.
Este bug também acelerou o consumo de quotas pelos utilizadores devido a falhas de cache em cada pedido.
A equipa afirmou que dois experimentos internos não relacionados obscureceram as condições para reproduzir o problema, levando mais de uma semana a investigar, com uma correção implementada a 10 de abril.
Uma revisão de código subsequente usando o Opus 4.7 na PR problemática revelou que o Opus 4.7 podia detectar este bug, enquanto o Opus 4.6 não.
A terceira alteração foi lançada a 16 de abril com o Opus 4.7, onde a equipa adicionou uma diretiva para limitar o comprimento da saída no prompt do sistema: “O texto entre chamadas de ferramenta não deve exceder 25 palavras, e a resposta final não deve exceder 100 palavras, a menos que a tarefa exija mais detalhes.”
Testes internos mostraram ausência de regressões durante várias semanas, mas após o lançamento, ela agravou-se com outros prompts, degradando a qualidade do código, afetando o Sonnet 4.6, o Opus 4.6 e o Opus 4.7.
Avaliações expandidas revelaram uma diminuição de 3% tanto no Opus 4.6 como no 4.7, levando a uma reversão a 20 de abril.
As três alterações afetaram diferentes grupos de utilizadores e entraram em vigor em momentos distintos, apresentando-se como uma degradação generalizada e inconsistente da qualidade, complicando a resolução de problemas.
A Anthropic afirmou que, de agora em diante, será necessário que mais funcionários internos utilizem as mesmas versões públicas do sistema que os utilizadores, executando conjuntos completos de avaliação do modelo para cada modificação no prompt do sistema, e estabelecer um período de transição.
Como compensação, a Anthropic redefiniu as quotas de uso para todos os utilizadores subscritos.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar