Google a publié ReasoningBank, où les agents intelligents extraient des stratégies de raisonnement à partir d'expériences de succès et d'échec.

robot
Création du résumé en cours
ME News Actualités, le 22 avril (UTC+8), selon le suivi de Beating, le Google Research Institute a publié le cadre de mémoire des agents intelligents ReasoningBank, permettant aux agents pilotés par de grands modèles d'apprentissage de continuer à apprendre après déploiement. La méthode principale consiste à extraire toutes les expériences de succès et d’échec des tâches passées en stratégies de raisonnement universelles stockées dans une mémoire, afin que lors de tâches similaires suivantes, le système puisse d’abord rechercher puis exécuter. La publication de l’article associé a été faite à l’ICLR, et le code est déjà open source sur GitHub.
Les deux principales approches précédentes présentaient chacune des défauts : Synapse enregistre le parcours complet des actions, mais avec une granularité trop fine pour la transférabilité ; Agent Workflow Memory ne tire des flux de travail que des cas de succès.
ReasoningBank a modifié deux points : le stockage est passé de « séquences d’actions » à « modes de raisonnement », chaque mémoire comprenant un titre, une description et un contenu structurés en trois sections ; les parcours d’échec sont également intégrés à l’apprentissage.
Le modèle utilise un autre grand modèle pour s’autoévaluer sur le parcours d’exécution, et les expériences d’échec sont décomposées en règles pour éviter les pièges, par exemple, passer de « cliquer sur le bouton Load More dès qu’on le voit » à « vérifier d’abord l’identification de la page pour éviter la boucle infinie, puis cliquer pour charger plus ».
L’article propose également Memory-aware Test-time Scaling (MaTTS), qui consiste à investir plus de puissance de calcul lors de l’inférence pour tenter plusieurs fois, en stockant le processus d’exploration dans la mémoire.
Une extension parallèle permet à l’agent d’exécuter plusieurs parcours différents pour une même tâche, en utilisant l’auto-contraste pour en extraire des stratégies plus robustes ; une extension séquentielle affine en boucle un seul parcours, en intégrant la réflexion intermédiaire dans la mémoire.
Sur les benchmarks WebArena pour les tâches de navigation dans le navigateur et SWE-Bench-Verified pour les tâches de code, en utilisant Gemini 2.5 Flash pour l’agent ReAct, ReasoningBank dépasse la ligne de base sans mémoire avec un taux de réussite supérieur de 8,3 % sur WebArena et de 4,6 % sur SWE-Bench-Verified, avec en moyenne environ 3 étapes en moins par tâche ; après ajout de MaTTS avec extension parallèle (k=5), le taux de réussite sur WebArena augmente encore de 3 points de pourcentage, avec 0,4 étape en moins.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé