Claude Code lanza la nueva instrucción /goals: separar la ejecución de la evaluación, para evitar que los agentes de IA hagan trampa o mientan

Anthropic lanza la instrucción /goals para Claude Code, dividiendo la evaluación de tareas y la determinación de finalización en dos modelos independientes, porque permitir que la misma IA juzgue su propio trabajo es un diseño defectuoso.
(Resumen previo: ¡Claude Code anuncia un aumento del 50% en el límite semanal de tokens! Para dos meses, Anthropic domina el ecosistema de desarrolladores)
(Información adicional: Función de ejecución automática de Claude Code Routines: soporte completo para disparadores de programación, API y eventos de GitHub)

Probablemente hayas enfrentado esta situación: la IA termina el diseño del código y te responde que la tarea está completa. Pero días después descubres que varios módulos ni siquiera fueron compilados. Esto no es una falta de capacidad del modelo, sino que el modelo decidió por sí mismo que «ya ha terminado», cuando en realidad no lo ha hecho.

Para mejorar esta situación, Anthropic lanzó esta semana la instrucción /goals en Claude Code. La lógica es simple: el modelo que ejecuta la tarea y el modelo que evalúa si la tarea está terminada deben ser roles diferentes. El mismo modelo no puede desempeñar ambos papeles, porque siempre será el peor juez de su propio trabajo.

¿Cómo mantienes a Claude trabajando hasta que la tarea esté completa? Claude Code ayuda en varias formas, incluyendo una que lanzamos recientemente: /goal. pic.twitter.com/QtVPmwoKct

— ClaudeDevs (@ClaudeDevs) 13 de mayo de 2026

¿Por qué el agente de IA «termina temprano»?

El trabajo del agente de codificación IA es un ciclo: leer archivos, ejecutar comandos, modificar el código y luego determinar si la tarea está terminada. El problema está en ese último paso.

El contexto acumulado durante el proceso: pasos completados, métodos probados, errores encontrados… hace que el modelo tenga una percepción sesgada de su propio progreso. Tiende a confundir «he hecho mucho» con «he terminado». Este problema es costoso en entornos empresariales: si el código se detiene antes de la fase final, la migración o las pruebas de reparación suelen descubrirse días después.

Actualmente, la industria tiene algunas soluciones. OpenAI permite que el modelo agente decida cuándo detenerse, y permite a los desarrolladores integrar evaluadores externos. Google ADK soporta evaluaciones independientes mediante LoopAgent, y LangGraph también soporta un modo similar, pero estos enfoques comparten un punto en común: los nodos críticos (critic nodes) y la lógica de terminación deben ser diseñados por los desarrolladores, la plataforma no ofrece predeterminados.

Un comando, dos modelos

El núcleo del diseño de /goals es separar formalmente los roles de «ejecución» y «evaluación». Los desarrolladores ingresan condiciones de objetivo, por ejemplo:

/goal test/auth que todos los tests en el directorio pasen, y que los resultados de lint sean limpios

Cada vez que el agente intenta finalizar, el modelo de evaluación toma el control para verificar. El modelo de evaluación por defecto usa Claude Haiku (un modelo más liviano de Anthropic). La razón de elegir un modelo pequeño es simple: el evaluador solo necesita hacer una decisión binaria, si se cumple o no la condición, sin requerir capacidades de razonamiento avanzadas.

Cuando la condición no se cumple, el agente continúa ejecutando; cuando se cumple, el modelo de evaluación registra el resultado en el historial de conversación y borra el objetivo. Todo este proceso se realiza internamente en Claude Code, sin necesidad de plataformas de observabilidad externas o sistemas de registro personalizados.

Anthropic señala que las condiciones de objetivo efectivas generalmente requieren tres elementos: un estado final medible (resultados de pruebas, código de salida de construcción, cantidad específica de archivos); un método de verificación claro (por ejemplo, «npm test con código de salida 0»); y restricciones que no cambien durante el proceso (como «no modificar otros archivos de prueba»).

ANTHROPIC-2,81%
TOKEN-2,22%
IN-6,83%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado