MIT 何恺明团队提出语言扩散模型 ELF（Embedded Language Flows），在连续嵌入空间扩散去噪，最后一步再将向量转回离散 token，避免自回归或独立解码器。ELF 以连续空间去噪为主，使用共享权重实现离散化。实验显示 ELF-B 105M 参数、32 步采样在 OpenWebText Gen. PPL 约 24.1，训练 token 仅约 45B，比对方法通常超 500B。这表明，语言的连续扩散路径仍具可行性，问题多出在建模接口与采样设计。

BlockBeatNews

2026-05-13 05:20:33

Création du résumé en cours

Selon la surveillance Beating, l’équipe de Hè Kǎimíng du MIT a publié un modèle de diffusion linguistique ELF (Embedded Language Flows). Il n’a pas suivi la voie autoregressive du style GPT « prédire le prochain token », mais a plutôt intégré la génération de texte dans un espace d’embedding continu, ne le convertissant en tokens discrets qu’à la dernière étape.

Les modèles de diffusion sont déjà matures dans la génération d’images, mais leur application au texte reste difficile : l’image est naturellement un signal continu, alors que le langage est composé de tokens discrets. Plusieurs modèles de diffusion continue pour le texte ont été proposés auparavant, soit en introduisant à plusieurs reprises une supervision au niveau des tokens dans la trajectoire de génération, soit en nécessitant un décodeur indépendant supplémentaire. La méthode d’ELF est plus propre : la plupart des étapes ne font que débruiter dans l’espace vectoriel continu, et la discrétisation finale est réalisée par un réseau à poids partagé.

Les résultats expérimentaux sont également percutants. Lors d’une évaluation de génération non conditionnelle avec OpenWebText, ELF-B, avec 105 millions de paramètres, a atteint environ 24,1 en perplexité générative (Gen. PPL) en utilisant 32 étapes d’échantillonnage, surpassant plusieurs modèles de référence en diffusion pour le langage, qu’ils soient discrets ou continus. Plus important encore, ELF-B n’a utilisé qu’environ 45 milliards de tokens d’entraînement, alors que les méthodes comparables dépassent généralement 500 milliards, ce qui représente une réduction d’environ un ordre de grandeur dans le nombre de tokens d’entraînement. Ce résultat indique au moins que la voie de diffusion continue n’est pas bloquée par la « discontinuité du langage » en modélisation, et que les problèmes rencontrés auparavant sont plus probablement liés à l’interface de modélisation et à la conception de l’échantillonnage.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.56M Popularité
#
IsraelStrikesIranBTCPlunges
46.57K Popularité
#
#DailyPolymarketHotspot
923.47K Popularité
#
JaneStreetReducesBitcoinETFHoldings
99.13K Popularité
#
TrumpVisitsChinaMay13
26.08M Popularité

Épingler

L'équipe de He Kai-ming ELF : le modèle de diffusion linguistique fonctionne enfin

Sujets populaires

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChinaMay13

Épingler