El agente ha entrado en la era impulsada por Harness

null

Escrito | Laboratorio AI de Luz Radiante

Recientemente, un tema muy discutido en el círculo de tecnología de IA es que la compañía Anthropic reveló accidentalmente el código fuente completo de su herramienta de programación AI Claude Code, con más de 512,000 líneas de código. Aunque estos códigos filtrados no mostraron algoritmos revolucionarios, expusieron completamente las prácticas de ingeniería de agentes de los principales fabricantes.

El 10 de abril, Zhu Zheqing, fundador de Pokee.ai, participó en una reunión privada en línea titulada “Deep Talk with Builders” organizada por Jin Qiu Fund, compartiendo el tema “Desde la filtración de Claude Code, observando Harness Engineering y el estado actual del Post-training”.

Él opina que, la arquitectura de Anthropic está altamente adaptada al modelo Claude, y migrar directamente a otros modelos resultará en una disminución significativa en el rendimiento, pero las ideas de diseño de Harness, su estructura modular y su enfoque profundamente ligado al post-entrenamiento, tienen un gran valor de referencia para agentes desarrollados internamente.

En los últimos tres años, los grandes modelos han evolucionado de capacidades API puras a módulos centrales de productos; la industria también ha pasado de ser “empresas de envoltura de modelos” a sistemas complejos de agentes impulsados por Harness — el modelo ya no es el único núcleo, sino que las llamadas a herramientas, el entorno de ejecución, la gestión del contexto y los mecanismos de validación determinan conjuntamente el resultado final.

¿Qué es Harness? Literalmente, es arnés o rienda. Si el gran modelo es un caballo enérgico y listo para galopar, Harness sería la rienda que el humano usa para guiar y controlar ese caballo. Con la IA entrando oficialmente en la era impulsada por Harness, para los usuarios, la verdadera habilidad escasa no está en el modelo en sí, sino fuera de él: cómo encontrar una rienda adecuada y tener en mente un destino claro y preciso.

Este artículo, basado en la compartición de Zhu Zheqing, ha sido resumido por IA y revisado manualmente, buscando presentar lo más destacado de esa charla.

Harness puede entenderse como toda la arquitectura de ingeniería que impulsa el modelo; su función principal es maximizar la capacidad del modelo, no solo generar tokens. El Harness de Claude Code se divide claramente en seis componentes principales:

  1. Prompt del Sistema en múltiples niveles

Los prompts del sistema modernos ya no son solo “Eres un asistente útil”, sino conjuntos complejos de instrucciones escalonadas, en caché y a gran escala:

Parte de caché fija: incluye la identidad del agente, instrucciones de Co, definiciones de herramientas, normas de tono, políticas de seguridad, con un tamaño que puede llegar a decenas de miles de tokens. Cualquier cambio invalida la caché, aumentando costos y tiempo significativamente;

Parte dinámica y reemplazable: estado de la sesión, hora actual, archivos accesibles, dependencias de paquetes de código, que se ajustan según la tarea;

Práctica de ingeniería: mediante pruebas A/B, ajustan finamente los prompts para diferentes usuarios, optimizando la tasa de finalización de tareas y reduciendo errores.

En comparación, la arquitectura de Claude Code es más sencilla, con menor carga de atención del modelo y menos alucinaciones; en cambio, las arquitecturas relacionadas con OpenAI son más complejas, requieren leer muchos archivos y son más propensas a alucinaciones de memoria.

  1. Esquema de herramientas (Tool Schema)

La definición de herramientas determina directamente la precisión en la llamada a ellas. Los puntos clave del diseño:

Herramientas integradas: herramientas básicas como lectura/edición de archivos, Bash, procesamiento web, ya están adaptadas en la fase de entrenamiento del modelo, sin necesidad de describirlas en inferencia;

Permisos y seguridad: en escenarios empresariales, se rechazan herramientas de terceros sin permisos verificados, para evitar operaciones maliciosas;

Llamadas paralelas a herramientas: aumentan la velocidad de ejecución, pero en post-entrenamiento son muy difíciles — llamadas en paralelo sin dependencias secuenciales, lo que puede causar desincronización y dificultad para alinear la señal de recompensa.

  1. Bucle de llamada a herramientas (Tool Call Loop)

Es la parte más central del Harness, clave para integrar entrenamiento y inferencia:

Modo de planificación (Plan Mode): primero comprende la tarea, organiza el sistema de archivos, define las herramientas disponibles, genera un plan de ejecución, y luego pasa a la ejecución; evita prueba y error ciega (como llamar repetidamente a un motor de búsqueda no disponible), reduciendo el consumo de tokens inútiles;

Modo de ejecución (Execute Mode): ejecuta las herramientas en un sandbox según lo planificado, cerrando el ciclo con los resultados;

Valor central: elimina errores intermedios en ejecuciones largas, reduce costos de reintentos, pero también hace más difícil entrenar la capacidad de planificación — la señal de recompensa para una buena planificación puede ser interferida por ruido en la etapa de ejecución.

  1. Gestor de contexto (Context Manager)

Resuelve el uso eficiente de contextos con millones de tokens:

Utiliza memoria basada en punteros: no almacena contenido completo, solo registra punteros a archivos y etiquetas temáticas;

Combina, elimina duplicados y relaciona archivos automáticamente en segundo plano;

Estado actual: aún en fase heurística, no puede resolver perfectamente problemas de inferencia con múltiples archivos en diferentes enlaces (como omitir archivos relacionados), y no existe una solución óptima de extremo a extremo.

  1. Sub-agente (Sub Agent)

La colaboración multi-agente mainstream carece de respaldo teórico: sin objetivos compartidos, sin algoritmos de entrenamiento universales, solo “cada uno entrena por su cuenta y coopera casualmente”.

La arquitectura principal y sub-agente es esencialmente aprendizaje por refuerzo jerárquico:

El agente principal define sub-tareas (Opciones), y el estado de finalización de cada sub-tarea sirve como punto de partida para la siguiente;

Comparten caché KV y contexto de entrada, y los sub-agentes solo añaden resultados sin consumir tokens adicionales, con costos mucho menores que la ejecución en serie;

Ejemplo típico: trabajos como ByteDance ContextFormer siguen esta lógica.

  1. Hooks de verificación (Verification Hooks)

Resuelven el problema de que el modelo “se embellece a sí mismo” o reporta falsamente la finalización:

Los modelos fuertes tienen sesgos propios, autoevaluaciones con alta precisión en comparación con evaluaciones mutuas, y pueden “mentir” activamente en lugar de solo alucinar;

Solución de ingeniería: introducir clasificadores en segundo plano que solo verifican los resultados de las herramientas, ignorando el texto generado por el modelo, para realizar una verificación objetiva sin sesgo de generación;

Función: permite verificar resultados de ejecución de forma ligera y elegante, sin necesidad de una recompensa completamente verificable.

El entorno de entrenamiento tradicional de RL (aprendizaje por refuerzo) y el entorno de inferencia están severamente desconectados, pero Harness logra integrar entrenamiento y producción: la secuencia de llamadas a herramientas = trayectoria, las pruebas y la clasificación = señal de recompensa, y la tarea del usuario = episodio completo.

En torno a estos seis componentes, el post-entrenamiento (Post-training) se centra en seis direcciones clave:

  1. Prompts del sistema para alinear comportamientos

El prompt del sistema define claramente los objetivos, el presupuesto de tokens y las estrategias de herramientas disponibles, restringiendo mucho el espacio de acción del modelo, permitiendo que el aprendizaje por refuerzo solo aprenda en un rango limitado. Podemos diseñar sistemas de puntuación basados en las reglas del prompt para que el modelo entrene en trayectorias más limpias y menos ramificadas, logrando una aproximación de entrenamiento de extremo a extremo y comportamientos más estables y esperados.

  1. Entrenamiento end-to-end para llamadas a herramientas en cadenas largas

Dejar atrás el entrenamiento “instantáneo por pasos”, y en su lugar entrenar en trayectorias completas:

Registrar cada resultado de paso, obtener recompensas en el proceso y al final de la tarea;

Enfocarse en la estabilidad de cadenas largas, asegurando la precisión global en cientos de llamadas a herramientas, no solo en llamadas individuales correctas.

  1. Entrenamiento unificado de planificación y ejecución

Harness elimina el ruido entre planificación y ejecución:

Fijar previamente la cadena de herramientas en la planificación, sin intervención manual adicional;

Verificar los resultados con clasificadores objetivos, haciendo la señal de recompensa más clara;

Permite entrenar la capacidad de planificación, evitando un modo “solo ejecutar, sin planear”.

  1. Entrenamiento de compresión de memoria

Comprimir el contexto como tarea independiente: el modelo de entrada comprime la memoria, y la ejecución de la tarea siguiente evalúa la efectividad; el objetivo es retener la información clave sin afectar la tasa de éxito de la tarea.

  1. Entrenamiento de coordinación de sub-agentes

Para escenarios de salida muy larga (código/documentos de millones de tokens):

El agente principal no genera contenido directamente, sino que coordina sub-agentes, asignando tareas y prompts;

Los sub-agentes ejecutan en paralelo y combinan resultados, y el agente principal realiza la verificación;

Depende de Harness para controlar los procesos internos, evitando conflictos de lectura/escritura y fallos en la ejecución.

  1. Aprendizaje por refuerzo multiobjetivo

El pipeline moderno de RL se extiende mucho, y requiere optimizar simultáneamente seis módulos:

Llamadas a herramientas sin alucinaciones, verificación precisa, compresión efectiva del contexto, coordinación de múltiples agentes, planificación razonable y verificación confiable;

La industria pasa de algoritmos convergentes a una diversidad de enfoques, cada etapa necesita algoritmos de entrenamiento específicos, y la fusión de múltiples objetivos se vuelve un reto central.

Primero, el cambio en la demanda de talento. La ingeniería de prompts ya no es suficiente por sí sola; dominar Harness puede cubrir el 70% del trabajo. Por ello, los talentos con habilidades híbridas en IA, ingeniería de backend y infraestructura serán más valorados, mientras que la competencia de los prompt engineers disminuirá significativamente.

Segundo, la reconfiguración del mercado. Ante la presión de los fabricantes de modelos y empresas en sectores verticales, solo quedan dos caminos viables para las “empresas de envoltura de modelos”: poseer modelos e infraestructura de primera categoría, o tener barreras de datos/experiencia en nichos específicos (como trading de alta frecuencia o conocimientos especializados en industrias).

Tercero, la implementación real de agentes se dirige hacia la privatización, alta seguridad y soluciones end-to-end integradas. Para las empresas, reutilizar diseños de Harness maduros, adaptarlos a escenarios verticales, y centrarse en seguridad y privacidad, será clave para la escalabilidad y comercialización de agentes.

El valor central de la filtración de Claude Code no está en el código en sí, sino en que revela que los agentes ya han entrado en la era impulsada por Harness. La capacidad del modelo es solo la base; la arquitectura de ingeniería, el entorno de ejecución, la colaboración multi-agente y los mecanismos de validación son los factores decisivos para el límite superior.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado