Claude Code actualizado y "fallo", la profundidad de pensamiento cae un 67%, ¡ya no se puede confiar en su capacidad para manejar tareas complejas de ingeniería!

La herramienta de programación con IA Claude Code, propiedad de Anthropic, se enfrenta a una grave crisis de reputación. El director de IA de AMD presentó públicamente un informe de incidencias en el repositorio oficial de GitHub; basándose en un análisis cuantitativo de decenas de miles de registros de conversaciones, acusa que Claude Code ha sufrido una degradación sistemática de capacidades desde febrero de este año, con una reducción del 67% en la profundidad de pensamiento y un desvío total del comportamiento del modelo. Este informe desató rápidamente un intenso debate en la comunidad de desarrolladores, llevando a Anthropic al centro del escrutinio público.

La persona que presentó este informe de análisis es la responsable del equipo de IA de AMD, Stella Laurenzo. Ella abrió directamente un Issue en el repositorio oficial de GitHub, con un tono contundente: “Claude ya no puede considerarse fiable para ejecutar tareas complejas de ingeniería.” Dijo que el equipo ya cambió a otros proveedores y advirtió a Anthropic: “Hace 6 meses, Claude destacaba de forma singular en calidad de razonamiento y capacidad de ejecución. Pero ahora, los competidores necesitan ser observados y evaluados con mucha seriedad.”

Este Issue se intensificó rápidamente en Hacker News, obtuvo 975 votos a favor y 548 comentarios, convirtiéndose en uno de los posts con mayor tendencia reciente sobre discusiones relacionadas con Claude Code. Los comentarios de los usuarios señalaron directamente la médula del problema: “ClaudeCode antes era como un compañero inteligente de programación en pareja; ahora se siente como un becario demasiado entusiasta, que sigue arruinando las cosas y luego sugiere la solución temporal más simple”; “Últimamente siempre me dice ‘deberías ir a dormir. Ya es muy tarde, hasta aquí por hoy’; al principio pensé que yo, sin querer, había hecho que Claude conociera mi deadline.”

Anthropic respondió a esto. Un miembro del equipo de Claude Code, Boris, salió a aclarar y afirmó que la función oculta del contenido de pensamiento (redact-thinking) es solo un cambio a nivel de interfaz: “no afecta el razonamiento real dentro del modelo, ni afecta el presupuesto de pensamiento o el mecanismo subyacente de ejecución del razonamiento”.

Al mismo tiempo, admitió que el equipo realizó dos ajustes sustanciales en febrero: primero, introdujo el mecanismo de ‘pensamiento adaptativo’ (adaptive thinking) el 9 de febrero con el lanzamiento de Opus 4.6; segundo, el 3 de marzo ajustó el nivel de esfuerzo predeterminado de alto a medio (Medium). Boris sugirió que los usuarios recuperen manualmente el modo de pensamiento de alta intensidad mediante el comando /effort high o modificando el archivo de configuración.

Sin embargo, esta explicación no calmó las dudas de la comunidad. Varios desarrolladores dijeron que incluso al ajustar el esfuerzo al máximo, “la conducta de rendirse con ‘afán por terminar la tarea’ aún sigue presente”. Un usuario, richardjennings, dijo:

“Antes de la caída drástica en la calidad de salida, yo no tenía ni idea de que el effort predeterminado ya se había cambiado a Medium. Para corregir estos problemas, aproximadamente tuve que dedicar todo un día de trabajo.”

Prueba con datos: la profundidad de pensamiento se desploma y el comportamiento se desfigura por completo

El análisis de Laurenzo se basa en 6852 archivos Claude Code de tipo sesión JSONL acumulados en el directorio ~/.claude/projects/, cubriendo 17871 bloques de pensamiento, 234760 llamadas a herramientas y más de 18000 mensajes de usuario, con un intervalo temporal que va de finales de enero de 2026 hasta principios de abril; todo el tiempo se utilizó la API oficial de Anthropic conectando directamente al modelo Opus.

Los datos revelan una cronología de degradación claramente definida. En el periodo de “buena calidad” del 30 de enero al 8 de febrero, la mediana de la profundidad de pensamiento de Claude Code era de aproximadamente 2200 caracteres; para finales de febrero, ese número se desplomó a alrededor de 720 caracteres, una caída del 67%; a principios de marzo, se redujo aún más a unos 560 caracteres, una caída del 75%.

El colapso de la profundidad de pensamiento desencadena directamente un cambio fundamental en los patrones de uso de la herramienta. Durante el periodo de buena calidad, la proporción de “leer antes de cambiar” (número de lecturas de archivos antes de cada edición) en Claude Code antes de modificar el código era tan alta como 6.6, siguiendo un riguroso flujo de trabajo de “primero investigar y luego modificar”. Pero después del 8 de marzo, en el periodo de degradación, esta proporción cayó bruscamente a 2.0, reduciendo la inversión en investigación en aproximadamente un 70%. Más preocupante aún es que, dentro del periodo de degradación, en cada tres modificaciones de código había una realizada sin leer el archivo objetivo: esto provocó una frecuencia elevada de errores básicos, como insertar el código en ubicaciones incorrectas y romper la asociación semántica de comentarios.

Los indicadores cuantitativos a nivel de comportamiento también son alarmantes. Los scripts de ganchos de terminación (stop-phrase-guard.sh) utilizados para detectar conductas deficientes como “desplazar la responsabilidad, terminar anticipadamente y pedir permiso” nunca se activaron antes del 8 de marzo; y dentro de los 17 días posteriores a ese momento, el número de activaciones se disparó hasta 173 veces, con un promedio de 10 por día. La proporción de emociones negativas en los mensajes de los usuarios pasó de 5.8% a 9.8%, un aumento del 68%; la tasa de interrupción de los usuarios (es decir, la frecuencia con la que los usuarios detectan que el modelo comete un error y lo detienen forzosamente) se disparó 12 veces desde el periodo de buena calidad hasta el periodo posterior.

¿Función oculta de “ocultar contenido de pensamiento”: la degradación está siendo encubierta a propósito?

El análisis de Laurenzo señala que la degradación anterior coincide estrechamente con la línea temporal de despliegue de una función llamada redact-thinking-2026-02-12. Los datos muestran que esta función se implementó gradualmente desde el 5 de marzo (1.5%); para el 10 y 11 de marzo ya cubría más del 99% de las solicitudes; y a partir del 12 de marzo entró en vigor para todo.

El propósito de esta función es eliminar el contenido de pensamiento en las respuestas de la API, impidiendo que los usuarios observen desde fuera el proceso real de razonamiento del modelo. Laurenzo considera que este diseño hace, de manera objetiva, que la degradación de la profundidad de pensamiento sea invisible para los usuarios: “La función oculta lanzada a principios de marzo solo hace que esta degradación sea invisible para el usuario.**”

También señaló que la disminución de la profundidad de pensamiento en realidad comenzó antes de la puesta en marcha de esa función, ya a mediados de febrero. Esto coincide con la fecha en la que Anthropic lanzó Opus 4.6 el 9 de febrero e introdujo el modo de “pensamiento adaptativo” (adaptive thinking), y con el momento en el que el 3 de marzo se ajustó el nivel de pensamiento predeterminado a “Medium effort” (effort=85).

El informe además descubrió que después de la puesta en marcha de la función oculta, la profundidad de pensamiento presenta una clara característica de fluctuaciones por franjas horarias: las 17:00 (hora del Pacífico, durante la franja de salida del trabajo en la costa oeste de EE. UU.) es el peor tramo del día; la mediana estimada de la profundidad de pensamiento es solo 423 caracteres; las 19:00 es el segundo peor tramo, con solo 373 caracteres.

Este patrón no se ajusta a la asignación fija de presupuestos; se parece más a las características de un sistema de asignación dinámica sensible a la carga, lo que sugiere que los recursos de pensamiento pueden fluctuar en tiempo real con la carga de la plataforma.

Respuesta oficial de Anthropic: problema de configuración, no degradación del modelo

Ante la rápida intensificación del tema en GitHub, el miembro del equipo de Claude Code, Boris, respondió en cuestión de horas en ambas plataformas, GitHub y Hacker News, reconociendo parte de los problemas y aportando explicaciones técnicas.

Los puntos clave de aclaración de Boris incluyen:

  • Primero, la función de ocultar el contenido de pensamiento (redact-thinking) es un cambio a nivel de UI, no afecta el proceso real de razonamiento; los usuarios pueden restaurar la visualización mediante la opción showThinkingSummaries: true en settings.json;
  • Segundo, la caída de la profundidad de pensamiento a finales de febrero se debe principalmente a la introducción del mecanismo de pensamiento adaptativo (adaptive thinking) con Opus 4.6 el 9 de febrero, y al ajuste del nivel de effort predeterminado a medio el 3 de marzo; lo primero se puede desactivar mediante CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1, y lo segundo se puede aumentar manualmente con /effort high o /effort max.

Boris también dijo que el equipo planea probar ajustar el nivel de esfuerzo predeterminado a alto para usuarios de Teams y Enterprise, y que está investigando un problema reportado por algunos usuarios: que el mecanismo de pensamiento adaptativo no asigna suficiente capacidad de razonamiento en rondas específicas.

Sin embargo, esta explicación generó amplias dudas en la comunidad. El usuario koverstreet respondió:

“El problema va mucho más allá de que el nivel de pensamiento predeterminado se haya cambiado a medio. Incluso si ajustas el effort al máximo, la conducta de ‘desgana por terminar la tarea’ del modelo se ha vuelto claramente mucho más frecuente.”

Otro usuario señaló directamente que el presentador del informe original ya había utilizado, al presentarlo, todas las configuraciones públicas conocidas; el problema no se debe a una configuración incorrecta. Un usuario planteó una pregunta irónica:

“¿Qué tipo de postura es esta: decirle al usuario ‘ustedes ajustaron mal la configuración’?'”.

Cascada de costos y salida de usuarios

El costo de la degradación no solo implica una pérdida de calidad, sino que también desencadena una expansión catastrófica de costos.

Los datos de Laurenzo muestran que, de febrero a marzo, la cantidad de mensajes de prompts de sus equipos se mantuvo casi estable (5608 vs 5701), pero la cantidad de solicitudes de API se disparó 80 veces; el número total de tokens de entrada creció 170 veces; los tokens de salida crecieron 64 veces. Estimando con los precios de Bedrock Opus, el costo mensual pasó de 345 dólares a 42121 dólares, un aumento de 122 veces.

Laurenzo explicó que el aumento descontrolado de costos se debe en parte al escalamiento proactivo de la cantidad de agentes en paralelo del equipo, pero que la degradación en sí misma ocasionó bucles inútiles, interrupciones frecuentes y reintentos, lo que amplificó adicionalmente la cantidad de solicitudes de API consumidas por cada unidad de trabajo efectiva en 8 a 16 veces. Al final, el equipo se vio forzado a cerrar todo el clúster de agentes y volver al modo de supervisión manual en una sola sesión. Laurenzo escribió:

“La cantidad de trabajo que realiza el ser humano casi no cambió, pero el modelo consumió 80 veces más solicitudes de API y 64 veces más tokens de salida, y aun así produjo resultados claramente peores.”

En la discusión de Hacker News, muchos usuarios expresaron experiencias similares; algunos ya anunciaron que cambiaron a OpenAI Codex u otras alternativas. “Ya cancelé la suscripción y cambié a Codex”; “Ahora uso Qwen3.5-27b, aunque no es tan fino como Opus de hace dos meses, pero ahora podemos avanzar el trabajo con normalidad”.

Autosocorro del usuario: estrategias de respuesta temporal

Ante la degradación, algunos desarrolladores han encontrado varias estrategias temporales.

La autorización explícita en CLAUDE.md es el enfoque más común: al escribir en el archivo de configuración en la raíz del proyecto instrucciones como “tienes derecho a editar cualquier archivo de este proyecto” y “no pidas confirmación al hacer refactors”, en la práctica se puede reducir la frecuencia de interrupciones de seguridad en aproximadamente un 70%.

También se ha validado ampliamente que descomponer tareas complejas en sub-tareas con límites claramente definidos resulta efectivo. En comparación con “refactorizar todo el sistema de autenticación”, una instrucción con límites claros como “refactoriza solo auth.js; al terminar, genera un resumen de los cambios en la salida” puede reducir significativamente la conducta de terminación anticipada del modelo.

En el nivel de configuración, ajustar el effort a high o max y deshabilitar el pensamiento adaptativo mediante CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 es, por ahora, la intervención más directa reconocida oficialmente.

En su informe, Laurenzo plantea una solicitud más sistemática: Anthropic debería publicar cómo se asignan los tokens de pensamiento, lanzar un nivel de suscripción exclusivo de “pensamiento completo” orientado a flujos de trabajo de ingeniería complejos y exponer el campo thinking_tokens en las respuestas de la API para que los usuarios puedan supervisar por sí mismos si la profundidad de razonamiento alcanza el objetivo.

Aviso de riesgos y cláusulas de exención de responsabilidad

        Hay riesgos en el mercado; invierte con cautela. Este artículo no constituye asesoramiento de inversión personal y tampoco considera objetivos de inversión especiales de usuarios individuales, su situación financiera o necesidades. El usuario debe evaluar si cualquier opinión, punto de vista o conclusión en este artículo se ajusta a su situación específica. En base a esto, la inversión es por cuenta y riesgo propios.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado