Google lanza ReasoningBank, donde los agentes extraen estrategias de razonamiento a partir de experiencias de éxito y fracaso

robot
Generación de resúmenes en curso
ME News Noticias, 22 de abril (UTC+8), según Beating de Monitoreo de Dongcha, el Instituto de Investigación de Google publicó el marco de memoria de agentes inteligentes ReasoningBank, que permite a los agentes impulsados por grandes modelos aprender continuamente después de su despliegue. La estrategia principal es extraer las experiencias de éxito y fracaso de tareas pasadas en estrategias de razonamiento universales y almacenarlas en una memoria, para que la próxima vez que enfrenten tareas similares, primero recuperen y luego ejecuten. El artículo relacionado fue publicado en ICLR, y el código ya está abierto en GitHub. Anteriormente, dos enfoques principales tenían defectos: Synapse registra la trayectoria completa de acciones, pero su granularidad es demasiado fina para transferirse; Agent Workflow Memory solo extrae flujos de trabajo de casos exitosos. ReasoningBank cambió dos aspectos: en lugar de almacenar "secuencias de acciones", ahora almacena "patrones de razonamiento", con cada memoria incluyendo un título, una descripción y un contenido en tres campos estructurados; también se incorporaron las trayectorias de fracaso en el aprendizaje. El modelo llama a otro gran modelo para autoevaluar la trayectoria de ejecución, y las experiencias de fracaso se descomponen en reglas para evitar errores, por ejemplo, en lugar de "hacer clic en el botón Cargar más" al ver el botón, se actualiza a "verificar primero la identificación de la página actual para evitar caer en desplazamiento infinito, y luego hacer clic en cargar más". El artículo también propone Memory-aware Test-time Scaling (MaTTS), que invierte más potencia de cálculo durante la inferencia para intentar repetidamente, y almacena el proceso de exploración en la memoria. La expansión paralela permite que el agente ejecute múltiples trayectorias diferentes para la misma tarea, extrayendo estrategias más robustas mediante auto comparación; la expansión secuencial refina repetidamente dentro de una sola trayectoria, almacenando los razonamientos intermedios en la memoria. En los benchmarks WebArena para tareas de navegador y SWE-Bench-Verified para tareas de código, usando Gemini 2.5 Flash para agentes ReAct, ReasoningBank supera en éxito a la línea base sin memoria en un 8.3% en WebArena y en un 4.6% en SWE-Bench-Verified, con un ahorro de aproximadamente 3 pasos por tarea; tras agregar la expansión paralela MaTTS (k=5), la tasa de éxito en WebArena aumenta en 3 puntos porcentuales y los pasos se reducen en 0.4. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado