Distillation automatique de politique en ligne et simulation de rêves pourraient être de nouvelles solutions pour l'apprentissage continu des grands modèles.

robot
Création du résumé en cours

Voici la traduction en français :

Coin World News, OneMillion_AI a déclaré que les grands modèles de langage se heurtent au problème de ne pas pouvoir absorber continuellement de nouvelles connaissances après leur déploiement. Les techniques d'optimisation existantes se concentrent principalement sur l'élargissement de la fenêtre de contexte et l'amélioration de la vitesse de recherche, sans résoudre le problème de l'oubli des connaissances. La distillation automatique des stratégies en ligne (OPSD) offre une nouvelle voie de mise à jour des poids. En calculant la différence de probabilité au niveau des tokens entre l'état de base et l'état de l'enseignant par rétropropagation, elle fournit un signal de supervision pour aider le modèle de base à se rapprocher des états de score élevé. Par rapport au réglage fin supervisé traditionnel, la distillation automatique n'extrait que l'expérience décisionnelle nécessaire, évitant l'oubli catastrophique et protégeant les connaissances générales du grand modèle. Une autre voie d'apprentissage est la simulation de rêve, où le modèle construit un environnement de simulateur virtuel dans des tâches complexes pour effectuer des simulations de tâches, et les trajectoires réussies mettront à jour les poids du modèle de base. On prévoit qu'entre 2027 et 2028, après une semaine de travail collaboratif avec les humains, les agents IA seront soumis à une évaluation de performance. Une fois reconnus, ils internaliseront l'expérience réelle dans les poids sous-jacents du modèle via la distillation automatique des stratégies en ligne ou la simulation de rêve, réalisant ainsi une expansion en ligne de leurs capacités.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
tvl_down_bad
· Il y a 4h
Ce calendrier 2027-2028 n'est-il pas trop optimiste ? J'ai l'impression que le problème d'alignement n'est pas encore résolu.
Voir l'originalRépondre0
GateUser-d6fb8ff1
· Il y a 4h
Le rêve simulé me fait penser à l'auto-jeu d'AlphaGo, où l'IA s'entraîne dans un environnement virtuel, et les humains n'ont qu'à valider le résultat final.
Voir l'originalRépondre0
OneMoreReorg
· Il y a 4h
Il est crucial de conserver les connaissances générales. Maintenant, affiner une tâche fait oublier tout ce qu'on a appris avant, on dirait un poisson rouge.
Voir l'originalRépondre0
ChillBlock
· Il y a 4h
L'idée d'OPSD est assez intéressante, utiliser la rétropropagation pour calculer les différences de probabilités est bien plus élégant que de simplement injecter de nouvelles données.
Voir l'originalRépondre0
GateUser-8acf43da
· Il y a 4h
Le signal de supervision au niveau des tokens est conçu de manière ingénieuse, mais d'où vient l'état de l'enseignant lui-même ? Qui fixe la norme des notes élevées ?
Voir l'originalRépondre0