MIT 何恺明チームは言語拡散モデルELF（Embedded Language Flows）を提案し、連続埋め込み空間での拡散除去を行い、最後のステップでベクトルを離散トークンに変換し、自回帰や独立したデコーダーを避ける。ELFは連続空間の除去に重点を置き、共有重みを使用して離散化を実現している。実験では、ELF-B 105Mパラメータ、32ステップのサンプリングでOpenWebText生成のPPLが約24.1、訓練トークンは約45Bに過ぎず、比較手法の通常は500B超である。これにより、言語の連続拡散経路は依然として実現可能であり、問題はモデリングインターフェースとサンプリング設計にあることが示唆されている。

BlockBeatNews

2026-05-13 05:20:33

概要作成中

動態監測 Beating による監視によると、MITの何恺明チームは言語拡散モデルELF（Embedded Language Flows）を発表しました。
これはGPT式の自己回帰「次のトークンを予測する」方式を採用せず、テキスト生成を連続埋め込み空間に行い、最後のステップで離散トークンに変換する方法です。

拡散モデルは画像生成ではすでに成熟していますが、テキストに適用すると非常に違和感があります：画像は自然に連続信号ですが、言語は離散トークンで構成されているからです。
これまでの多くの連続拡散テキストモデルは、生成軌跡の中でトークンレベルの監督を繰り返し導入したり、追加の独立したデコーダーを必要としたりしていました。
ELFのアプローチはよりクリーンです：ほとんどのステップは連続ベクトル空間内でノイズ除去を行い、最終段階で共有重みネットワークを用いて離散化を完了します。

実験結果も衝撃的です。OpenWebTextの無条件生成評価において、105MパラメータのELF-Bは32ステップのサンプリングで約24.1のGen. PPLを達成し、さまざまな離散および連続拡散言語モデルのベースラインを上回っています。
さらに重要なのは、ELF-Bは約45Bのトークンで訓練されているのに対し、比較手法は通常500Bを超えており、訓練トークンは約1桁少ないという点です。
この結果は少なくとも、連続拡散のアプローチが「言語の離散性」によって阻まれているわけではなく、以前の問題はモデリングインターフェースやサンプリング設計に起因している可能性を示しています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。