Anthropic publica un análisis post-mortem sobre la disminución de la calidad del código de Claude: tres cambios en la capa del producto, no problemas en el modelo

Según la monitorización de Beating, el equipo de ingeniería de Anthropic confirmó que la disminución en la calidad de Claude Code reportada por los usuarios durante el último mes proviene de tres cambios independientes en la capa de producto, que afectan a Claude Code, Claude Agent SDK y Claude Cowork, mientras que la API y los modelos subyacentes permanecen sin cambios. Los tres problemas se solucionaron el 7, 10 y 20 de abril, siendo la versión final la v2.1.116. El primer cambio ocurrió el 4 de marzo, cuando el equipo ajustó la fuerza de inferencia predeterminada de Claude Code de alta a media para reducir retrasos largos ocasionales (UI que aparecían congelados) bajo cargas altas de inferencia. Los usuarios reportaron ampliamente una disminución en el rendimiento, lo que llevó a una reversión el 7 de abril, con la configuración predeterminada actual para Opus 4.7 en xhigh y para otros modelos en high. El segundo problema fue un error introducido el 26 de marzo, diseñado para borrar registros antiguos de inferencia después de que una sesión ha estado inactiva por más de una hora para ahorrar en costos de recuperación de sesión. Una falla en la implementación causó que el borrado se ejecutara no solo una vez sino en cada ronda subsiguiente, haciendo que el modelo perdiera gradualmente el contexto de inferencia anterior, lo que resultó en olvidos, acciones repetitivas y llamadas anormales a herramientas. Este error también aceleró el consumo de cuota de usuario debido a fallos en la caché en cada solicitud. El equipo afirmó que dos experimentos internos no relacionados oscurecieron las condiciones para reproducir el problema, lo que tomó más de una semana para investigar, con una solución implementada el 10 de abril. Una revisión de código posterior usando Opus 4.7 en la PR problemática reveló que Opus 4.7 podía detectar este error, mientras que Opus 4.6 no. El tercer cambio se lanzó el 16 de abril con Opus 4.7, donde el equipo añadió una directiva para limitar la longitud de salida en el prompt del sistema: “El texto entre llamadas a herramientas no debe exceder las 25 palabras, y la respuesta final no debe superar las 100 palabras a menos que la tarea requiera más detalle.” Las pruebas internas no mostraron regresiones durante varias semanas, pero después del lanzamiento, se agravó junto con otros prompts, degradando la calidad de codificación, afectando a Sonnet 4.6, Opus 4.6 y Opus 4.7. Evaluaciones ampliadas encontraron una disminución del 3% en Opus 4.6 y 4.7, lo que llevó a una reversión el 20 de abril. Los tres cambios afectaron a diferentes grupos de usuarios y entraron en vigor en diferentes momentos, presentándose como una degradación generalizada e inconsistente de la calidad, lo que complicó la resolución de problemas. Anthropic declaró que en adelante, será necesario que más empleados internos utilicen las mismas versiones públicas del sistema que los usuarios, ejecuten suites completas de evaluación del modelo para cada modificación en el prompt del sistema y establezcan un período de gracia. Como compensación, Anthropic ha restablecido las cuotas de uso para todos los usuarios suscritos.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado