L'équipe de Stanford a proposé RAGEN-2, utilisant un régularisateur d'information mutuelle pour résoudre le problème du vide comportemental des agents RL.

ME News Actualités, le 9 avril (UTC+8), récemment, une étude nommée RAGEN-2 a indiqué que, bien que les agents entraînés par apprentissage par renforcement semblent adopter un comportement varié, en réalité ils se contentent de répéter des modèles, ce qui entraîne une haute entropie mais une information mutuelle presque nulle, c’est-à-dire que le modèle a appris à parler dans plusieurs manières vides de sens. Pour résoudre ce problème, les chercheurs ont proposé un régularisateur basé sur la perception de l’information mutuelle. Cette étude a été réalisée par @wzenus, @ManlingLi_, @YejinChoinka et Fei-Fei Li conjointement. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler