Pourquoi votre agent cesse-t-il de fonctionner après quelques minutes ? Ingénieur OpenAI : Il lui faut un tableau de scores et une mémoire externe

robot
Création du résumé en cours

Selon la surveillance de Dongcha Beating, le mode /goal de Codex permet à l’Agent de boucler en continu jusqu’à l’accomplissement de la tâche, mais cela amplifie les défauts des prompts humains vagues. L’ingénieur d’OpenAI, Chris Hayduk, a souligné d’après une expérience pratique interne que des instructions vagues comme « optimiser le code » peuvent amener le modèle à abandonner trop tôt faute de connaître le point final, ou à tomber dans une boucle de modifications aveugles. Pour garantir que l’Agent puisse fonctionner de manière stable pendant des jours ou même plus longtemps, il a résumé trois disciplines :

  • Éliminer les termes qualitatifs et les remplacer par des listes de contrôle : Le modèle ne peut pas évaluer ce qui est « meilleur », mais il peut comprendre « réduire le temps de 20 % sans échouer aux tests ». Lorsqu’il s’agit de tâches qualitatives comme la mise en forme de documents, il a même fourni directement à Codex une liste de contrôle en Markdown contenant 200 exigences de mise en forme, transformant brutalement des tâches abstraites en tâches quantitatives — « cocher toutes les cases signifie que c’est terminé ».
  • Réduire le temps de validation à quelques minutes : L’Agent doit valider ses actions par le biais de tests. Ne pas le laisser fonctionner pendant des heures dans un environnement de production massif ; à la place, lui fournir un jeu de données d’échantillon et un cadre léger pour rendre la boucle de rétroaction aussi courte que possible.
  • Créer trois fichiers en tant que « cerveau externe » : Même avec une grande fenêtre de contexte, il perdra la mémoire après quelques jours d’exécution. Il recommande de créer directement trois fichiers Markdown localement : PLAN.md (plan macro), EXPERIMENTS.md (enregistrement des expériences et résultats), et EXPERIMENT_NOTES.md (brouillons de réflexion en temps réel), forçant le modèle à écrire le processus d’essais et d’erreurs sur le disque dur.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé