ByteDance open source Cola DLM : redéfinir la génération de texte avec un modèle de diffusion

robot
Création du résumé en cours
ME News Actualités, le 16 mai (UTC+8), selon le monitoring de Dongcha Beating, l'équipe Seed de ByteDance a open-sourcé Cola DLM. Il s'agit d'une suite de modèles de diffusion continue pour le langage, tentant de contourner le chemin fixe de génération de grands modèles de langage qui produisent un token à la fois de gauche à droite, en transformant la génération de texte pour d'abord organiser des sémantiques de haut niveau, puis revenir aux mots spécifiques. Le cœur de Cola DLM est Text VAE + block-causal DiT. Text VAE mappe d'abord le texte discret dans un espace latent continu, puis le block-causal DiT apprend la priorité latente via Flow Matching, enfin un décodeur conditionnel restaure la variable latente en texte. Le processus de diffusion traite la représentation sémantique latente, et non la débruitation répétée au niveau des tokens. La version open-source actuelle est un modèle de niveau 2B, avec environ 2,3 milliards de paramètres totaux, dont le DiT principal compte 1,8 milliard, et 500 millions de paramètres VAE. Sur 8 évaluations telles que LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, Story Cloze, la publication indique qu'il possède une performance de scalabilité compétitive avec la ligne de base AR / LLaDA du même échelle dans un protocole d'évaluation générative unifié, atteignant les meilleurs résultats en moyenne finale. Cependant, il s'agit encore d'un point de contrôle de recherche, pas d'un modèle de dialogue prêt à l'emploi. La documentation officielle précise que ce modèle n'a pas été ajusté par instruction fine-tuning ni RLHF, son usage principal étant la recherche sur la diffusion continue pour la génération de texte. La publication montre également des expérimentations préliminaires sur une modélisation unifiée du texte et de l'image, mais ce dépôt open-source ne contient que la pipeline textuelle. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 3
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
BreadthHunter
· Il y a 5h
8 évaluations égalisent AR, mais sans RLHF, l'utilisation réelle pourrait encore laisser à désirer
Voir l'originalRépondre0
VineGeometry
· Il y a 5h
block-causal cette conception est-elle destinée aux textes longs ou à l'efficacité ? Détails dans l'article.
Voir l'originalRépondre0
GateUser-a4680931
· Il y a 5h
La diffusion à travers la couche sémantique latente peut-elle produire une qualité comparable ou supérieure à AR, selon les tests réels ?
Voir l'originalRépondre0