L'équipe de He Kai-ming ELF : le modèle de diffusion linguistique fonctionne enfin

robot
Création du résumé en cours

Selon la surveillance Beating, l’équipe de Hè Kǎimíng du MIT a publié un modèle de diffusion linguistique ELF (Embedded Language Flows). Il n’a pas suivi la voie autoregressive du style GPT « prédire le prochain token », mais a plutôt intégré la génération de texte dans un espace d’embedding continu, ne le convertissant en tokens discrets qu’à la dernière étape.

Les modèles de diffusion sont déjà matures dans la génération d’images, mais leur application au texte reste difficile : l’image est naturellement un signal continu, alors que le langage est composé de tokens discrets. Plusieurs modèles de diffusion continue pour le texte ont été proposés auparavant, soit en introduisant à plusieurs reprises une supervision au niveau des tokens dans la trajectoire de génération, soit en nécessitant un décodeur indépendant supplémentaire. La méthode d’ELF est plus propre : la plupart des étapes ne font que débruiter dans l’espace vectoriel continu, et la discrétisation finale est réalisée par un réseau à poids partagé.

Les résultats expérimentaux sont également percutants. Lors d’une évaluation de génération non conditionnelle avec OpenWebText, ELF-B, avec 105 millions de paramètres, a atteint environ 24,1 en perplexité générative (Gen. PPL) en utilisant 32 étapes d’échantillonnage, surpassant plusieurs modèles de référence en diffusion pour le langage, qu’ils soient discrets ou continus. Plus important encore, ELF-B n’a utilisé qu’environ 45 milliards de tokens d’entraînement, alors que les méthodes comparables dépassent généralement 500 milliards, ce qui représente une réduction d’environ un ordre de grandeur dans le nombre de tokens d’entraînement. Ce résultat indique au moins que la voie de diffusion continue n’est pas bloquée par la « discontinuité du langage » en modélisation, et que les problèmes rencontrés auparavant sont plus probablement liés à l’interface de modélisation et à la conception de l’échantillonnage.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler