Cola DLM insère le texte dans un espace latent continu puis diffuse, le choix d'architecture Flow Matching+DiT est très Byte — très orienté ingénierie, mais sans SFT ni RLHF, le point de contrôle brut n'est qu'un jouet de recherche, en attendant que la pipeline multimodale sorte pour voir si ça peut tenir.

Voir l'original
MeNews
ByteDance open source Cola DLM : redéfinir la génération de texte avec un modèle de diffusion
ByteDance Seed open source Cola DLM, est un modèle de diffusion de texte basé sur la couche sémantique potentielle.
Text VAE mappe le texte dans un espace latent continu,
block-causal DiT apprend la priorité latente via Flow Matching,
finalement, le décodeur conditionnel restaure la variable latente en texte.
Le nombre total de paramètres est d'environ 2,3 milliards (DiT 1,8 milliard, VAE 500 millions).
Dans 8 évaluations, il rivalise avec les lignes de base AR/LLaDA de même taille et se classe en tête,
mais il reste un point de contrôle de recherche, sans fine-tuning d'instructions ni RLHF,
le dépôt actuel ne contient que la pipeline de texte,
et pourrait à l'avenir s'étendre au texte-image.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé