Atelier Raindrop utilise Codex pour que votre agent IA détecte automatiquement les bugs et les corrige (gratuit et open source)

AI Agent Développeur d’outils Raindrop publie cette semaine un Workshop de débogage local open source (v0.1.6), permettant aux développeurs de suivre en temps réel chaque sortie de token de l’Agent et chaque appel d’outil, et via MCP de faire lire, écrire, tester et réparer automatiquement le code de Claude.
(Précédent : Claude qui écrit du code en faisant des erreurs folles et joue la naïveté ? Transformez les 12 règles d’Andrej Karpathy pour réduire le taux d’erreur de 41% à 3%)
(Contexte supplémentaire : Anthropic lance « Claude for Small Business » : ciblant l’automatisation AI pour PME)

Votre AI Agent a produit un résultat étrange. Il a choisi un outil inattendu et a fourni une réponse ambiguë. Vous ouvrez le journal, et voyez une série d’appels API et de nombres de tokens, mais aucune indication claire sur l’endroit où la décision a déraillé.

Raindrop a publié le 14 mai un outil open source, visant à empêcher ce genre de situation : un Workshop de débogage AI entièrement local, gratuit, et open source. Permettant aux développeurs de suivre en temps réel chaque token produit et chaque appel d’outil, et de confier le débogage à Claude Code ou Codex.

Pourquoi le débogage des AI Agents est-il particulièrement difficile ?

Le débogage logiciel traditionnel a des points d’arrêt, une pile d’appels complète, et un chemin d’exécution déterministe. Le débogage d’un AI Agent est différent. Son comportement est probabiliste, le même input peut mener à des chemins complètement différents selon l’exécution ; ses décisions sont dispersées entre plusieurs appels LLM, et il est presque impossible de discerner une logique claire à partir de la seule sortie finale.

L’essence du problème : vous ne cherchez pas « quelle ligne de code est erronée », mais « à quel moment précis, dans un contexte spécifique, l’Agent a pris une décision inattendue, où le problème s’est produit ». Ce genre de problème ne peut pas être résolu avec un débogueur traditionnel.

Les solutions existantes se limitent généralement à deux approches :

  • La première est une plateforme de monitoring cloud, envoyant la trace à un service tiers pour analyse via un tableau de bord
  • La seconde consiste à insérer une logique de logging personnalisée dans le code

La première n’est pas conviviale pour les développeurs soucieux de la confidentialité des données, la seconde est fastidieuse, nécessitant de maintenir une nouvelle infrastructure de logging à chaque mise à jour du framework. Et toutes deux ont un problème commun : elles vous disent « ce qui s’est passé », mais ne vous aident pas à « le réparer ».

Le Workshop opte pour une troisième voie : une exécution entièrement locale, sans transmission de données à des serveurs externes, open source, gratuit, permettant à l’IA de participer directement au cycle de débogage.

Fonctionnement du Workshop

Une fois lancé, le Workshop exécute une interface visuelle localement, et expose un serveur MCP (Model Context Protocol). MCP, c’est « protocole de communication standard permettant aux outils IA d’appeler des capacités externes » — c’est le pont entre Claude Code et d’autres outils de codage IA pour accéder à des données externes.

En connectant le SDK supporté, chaque nœud d’exécution de l’Agent — chaque sortie de token, chaque appel d’outil, chaque branche décisionnelle — apparaît en flux continu en temps réel sur localhost:5899, sans besoin de polling ni de rafraîchissement manuel.

En termes simples, c’est comme ouvrir une fenêtre de monitoring sur votre ordinateur, vous permettant de voir en direct ce que fait l’AI Agent, comme si vous regardiez un flux vidéo.

La conception clé du Workshop est d’intégrer des assistants de conception comme Claude Code dans le cycle de débogage. En exposant le serveur MCP, Claude Code peut lire directement la trace, écrire des tests d’évaluation, exécuter ces tests, observer les assertions échouées, modifier le code de l’Agent, et relancer — jusqu’à ce que tous les tests soient passés.

Raindrop appelle cette boucle « boucle d’auto-réparation par évaluation ». Tout ce processus se fait en boucle fermée localement : Claude Code lit la trace, écrit des évaluations, observe les échecs, modifie le code, relance, sans intervention manuelle du développeur.

Le Workshop supporte aussi une fonction de Replay : ramener la trace d’un environnement en ligne vers le local, réexécuter le vrai code, faire des tests de régression. Utile notamment lorsque le problème survient en production mais ne peut pas être reproduit localement, en utilisant la trace réelle pour reproduire le scénario, évitant ainsi de construire une scène de reproduction complexe.

CODEX-1,7%
TOKEN0,73%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé