El equipo de Stanford propuso RAGEN-2, utilizando un regularizador de información mutua para abordar el problema de la conducta vacía en agentes de RL.

ME News Noticias, 9 de abril (UTC+8), recientemente, un estudio llamado RAGEN-2 señaló que los agentes entrenados mediante aprendizaje reforzado, aunque parecen comportarse de manera diversa, en realidad solo repiten patrones, lo que conduce a una alta entropía pero a una información mutua casi nula, es decir, el modelo ha aprendido a decir cosas vacías de varias maneras. Para resolver este problema, los investigadores propusieron un regularizador de percepción de información mutua. Este estudio fue realizado conjuntamente por @wzenus, @ManlingLi_, @YejinChoinka y Fei-Fei Li. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado