Taller de Raindrop usando Codex para que tu Agente de IA encuentre y arregle bugs automáticamente (gratuito y de código abierto)

Herramienta de desarrollador para agentes de IA Raindrop lanza esta semana un taller de depuración local de código abierto (v0.1.6), permitiendo a los desarrolladores rastrear en tiempo real cada salida de token y llamada a herramientas del Agente, y mediante MCP hacer que Claude Code lea, escriba pruebas y corrija automáticamente.
(Resumen previo: ¿Claude que escribe código y se hace el tonto? ¿Transformar las 12 reglas de Andrej Karpathy para reducir errores del 41% al 3%?)
(Información adicional: Anthropic lanza “Claude for Small Business”: dirigido a pymes para automatización con IA)

Tu AI Agent acaba de generar un resultado extraño. Eligió una herramienta que no esperabas y respondió con una respuesta ambigua. Abres el registro y ves una serie de llamadas API y números de tokens, pero sin ninguna pista de qué decisión fue incorrecta.

Raindrop lanzó el 14 de mayo una herramienta de código abierto que intenta que esto no vuelva a ocurrir: un taller de depuración de IA completamente local, gratuito y de código abierto. Permite a los desarrolladores rastrear en tiempo real cada token y llamada a herramienta del Agente, y dejar que la depuración en sí misma la haga Claude Code o Codex.

¿Por qué la depuración de agentes de IA es especialmente difícil?

La depuración de software tradicional tiene puntos de interrupción, una pila de llamadas completa y caminos de ejecución deterministas. La depuración de agentes de IA no es así. Su comportamiento es probabilístico, la misma entrada puede derivar en caminos completamente diferentes en distintas ejecuciones; sus decisiones están dispersas entre múltiples llamadas a LLM, y solo con la salida final casi no se puede discernir lógica alguna.

La esencia del problema es: no buscas “qué línea de código está mal”, sino “en qué paso, en un contexto específico, el Agente tomó una decisión no esperada, ¿dónde falló?”. Este tipo de problema no se puede resolver con un depurador tradicional.

Las soluciones existentes generalmente solo tienen dos caminos:

  • Uno, plataformas de monitoreo en la nube, enviando trazas a servicios de terceros para análisis en paneles
  • Dos, insertar lógica de logging personalizada en el código

El primero no es amigable para desarrolladores preocupados por la privacidad de datos, y el segundo es laborioso, requiere mantener una infraestructura de logging cada vez que se actualiza el framework. Además, ambos comparten un problema: te dicen “qué pasó”, pero no te ayudan a “arreglarlo”.

El taller opta por la tercera vía: ejecución completamente local, sin enviar datos a servidores externos, de código abierto, gratuito, y con IA participando directamente en el ciclo de depuración.

¿Cómo funciona el taller?

Al iniciarlo, el taller ejecuta en local una interfaz visual y expone un servidor MCP (Model Context Protocol). MCP es la “norma de comunicación que permite a las herramientas de IA llamar capacidades externas” — es el puente para que Claude Code u otros AI de codificación puedan leer datos externos.

Al integrar el SDK compatible, cada nodo de ejecución del Agente — cada token, cada llamada a herramienta, cada rama de decisión — aparece en tiempo real en localhost:5899, en streaming, sin necesidad de hacer polling ni refrescar manualmente.

En palabras sencillas, es como abrir una ventana de monitoreo en tu computadora, y ver en vivo lo que hace el AI Agent.

El diseño clave del taller es incorporar asistentes de diseño como Claude Code en el ciclo de depuración. Como el taller expone el servidor MCP, Claude Code puede leer directamente las trazas, escribir pruebas de evaluación basadas en ellas, ejecutar esas pruebas, observar los fallos en las aserciones, modificar el código del Agente y volver a correr — hasta que todas las pruebas pasen.

Raindrop llama a este ciclo “ciclo de auto reparación con evaluación”. Todo en un entorno cerrado localmente: Claude Code lee las trazas, escribe evaluaciones, observa fallos, modifica código, vuelve a correr, sin intervención manual del desarrollador en cada paso.

El taller también soporta la función de Replay: traer trazas del entorno en línea de vuelta a local, y re-ejecutar en el código real, haciendo pruebas de regresión. Esto es especialmente útil cuando el error ocurre en producción pero no se puede reproducir localmente; usando la traza real, ahorra tiempo en recrear el escenario.

CODEX-1,17%
TOKEN-0,39%
ANTHROPIC-2,13%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado