El equipo de Stanford propuso RAGEN-2, utilizando un regularizador de información mutua para abordar el problema de la conducta vacía en agentes de RL.

2026-04-09 17:21:17

ME News Noticias, 9 de abril (UTC+8), recientemente, un estudio llamado RAGEN-2 señaló que los agentes entrenados mediante aprendizaje reforzado, aunque parecen comportarse de manera diversa, en realidad solo repiten patrones, lo que conduce a una alta entropía pero a una información mutua casi nula, es decir, el modelo ha aprendido a decir cosas vacías de varias maneras. Para resolver este problema, los investigadores propusieron un regularizador de percepción de información mutua. Este estudio fue realizado conjuntamente por @wzenus, @ManlingLi_, @YejinChoinka y Fei-Fei Li. (Fuente: InFoQ)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.