Google lanza ReasoningBank, donde los agentes extraen estrategias de razonamiento a partir de experiencias de éxito y fracaso.

robot
Generación de resúmenes en curso

La noticia de CoinWorld, según la monitorización de Beating, el Instituto de Investigación de Google publicó el marco de memoria de agentes inteligentes ReasoningBank, que permite que los agentes impulsados por grandes modelos aprendan continuamente después de su despliegue. La estrategia principal consiste en extraer las experiencias de éxito y fracaso de tareas pasadas en estrategias de razonamiento universales almacenadas en una memoria, y la próxima vez que encuentren tareas similares, primero recuperan y luego ejecutan. El artículo relacionado fue publicado en ICLR, y el código ya está abierto en GitHub. Anteriormente, las dos principales soluciones tenían defectos: Synapse registra la trayectoria completa de acciones, pero con granularidad demasiado fina para transferir; Agent Workflow Memory solo extrae flujos de trabajo de casos exitosos. ReasoningBank modificó dos aspectos: en lugar de almacenar «secuencias de acciones», ahora almacena «patrones de razonamiento», y cada memoria incluye un título, una descripción y un contenido en estructura de tres campos; también incorpora las trayectorias fallidas en el aprendizaje. El modelo llama a otro gran modelo para autoevaluar la trayectoria de ejecución, y las experiencias fallidas se descomponen en reglas para evitar errores, por ejemplo, de «hacer clic en el botón Cargar más al verlo» a «verificar primero la identificación de la página actual para evitar caer en desplazamiento infinito, y luego hacer clic en cargar más». El artículo también propone Memory-aware Test-time Scaling (MaTTS), que invierte más potencia de cálculo durante la inferencia para intentar repetidamente, y almacena el proceso de exploración en la memoria. La expansión paralela permite que el agente ejecute múltiples trayectorias diferentes para la misma tarea, extrayendo estrategias más robustas mediante auto comparación; la expansión secuencial refina repetidamente una sola trayectoria, almacenando los razonamientos intermedios en la memoria. En los benchmarks WebArena para tareas en navegador y SWE-Bench-Verified para tareas de código, usando Gemini 2.5 Flash como agente ReAct, ReasoningBank supera en éxito a la línea base sin memoria en un 8.3% en WebArena y en un 4.6% en SWE-Bench-Verified, con una reducción de aproximadamente 3 pasos en cada tarea; tras aplicar la expansión paralela MaTTS (k=5), la tasa de éxito en WebArena aumenta otros 3 puntos porcentuales y el número de pasos se reduce en 0.4.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado