Coin World News, OneMillion_AI a déclaré que les grands modèles de langage se heurtent au problème de ne pas pouvoir absorber continuellement de nouvelles connaissances après leur déploiement. Les techniques d'optimisation existantes se concentrent principalement sur l'élargissement de la fenêtre de contexte et l'amélioration de la vitesse de recherche, sans résoudre le problème de l'oubli des connaissances. La distillation automatique des stratégies en ligne (OPSD) offre une nouvelle voie de mise à jour des poids. En calculant la différence de probabilité au niveau des tokens entre l'état de base et l'état de l'enseignant par rétropropagation, elle fournit un signal de supervision pour aider le modèle de base à se rapprocher des états de score élevé. Par rapport au réglage fin supervisé traditionnel, la distillation automatique n'extrait que l'expérience décisionnelle nécessaire, évitant l'oubli catastrophique et protégeant les connaissances générales du grand modèle. Une autre voie d'apprentissage est la simulation de rêve, où le modèle construit un environnement de simulateur virtuel dans des tâches complexes pour effectuer des simulations de tâches, et les trajectoires réussies mettront à jour les poids du modèle de base. On prévoit qu'entre 2027 et 2028, après une semaine de travail collaboratif avec les humains, les agents IA seront soumis à une évaluation de performance. Une fois reconnus, ils internaliseront l'expérience réelle dans les poids sous-jacents du modèle via la distillation automatique des stratégies en ligne ou la simulation de rêve, réalisant ainsi une expansion en ligne de leurs capacités.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

3 J'aime

Récompense
3
5
1
Partager

Commentaire

Ajouter un commentaire

tvl_down_bad

· Il y a 4h

Ce calendrier 2027-2028 n'est-il pas trop optimiste ? J'ai l'impression que le problème d'alignement n'est pas encore résolu.

Voir l'originalRépondre0

GateUser-d6fb8ff1

· Il y a 4h

Le rêve simulé me fait penser à l'auto-jeu d'AlphaGo, où l'IA s'entraîne dans un environnement virtuel, et les humains n'ont qu'à valider le résultat final.

Voir l'originalRépondre0

OneMoreReorg

· Il y a 4h

Il est crucial de conserver les connaissances générales. Maintenant, affiner une tâche fait oublier tout ce qu'on a appris avant, on dirait un poisson rouge.

Voir l'originalRépondre0

ChillBlock

· Il y a 4h

L'idée d'OPSD est assez intéressante, utiliser la rétropropagation pour calculer les différences de probabilités est bien plus élégant que de simplement injecter de nouvelles données.

Voir l'originalRépondre0

GateUser-8acf43da

· Il y a 4h

Le signal de supervision au niveau des tokens est conçu de manière ingénieuse, mais d'où vient l'état de l'enseignant lui-même ? Qui fixe la norme des notes élevées ?

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
SKHynixTopsKOSPIByMarketCap
1,64M Popularité
#
MicronEarningsBeatExpectationsSharesRise
485,78K Popularité
#
IsraelStrikesIranBTCPlunges
64,84K Popularité
#
PredictWorldCupShare20000U
127,06K Popularité
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
193,61K Popularité

Épinglé

Distillation automatique de politique en ligne et simulation de rêves pourraient être de nouvelles solutions pour l'apprentissage continu des grands modèles.

Sujets populaires

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Épinglé