動態監測 Beating による監視によると、MITの何恺明チームは言語拡散モデルELF(Embedded Language Flows)を発表しました。 これはGPT式の自己回帰「次のトークンを予測する」方式を採用せず、テキスト生成を連続埋め込み空間に行い、最後のステップで離散トークンに変換する方法です。 拡散モデルは画像生成ではすでに成熟していますが、テキストに適用すると非常に違和感があります:画像は自然に連続信号ですが、言語は離散トークンで構成されているからです。 これまでの多くの連続拡散テキストモデルは、生成軌跡の中でトークンレベルの監督を繰り返し導入したり、追加の独立したデコーダーを必要としたりしていました。 ELFのアプローチはよりクリーンです:ほとんどのステップは連続ベクトル空間内でノイズ除去を行い、最終段階で共有重みネットワークを用いて離散化を完了します。 実験結果も衝撃的です。OpenWebTextの無条件生成評価において、105MパラメータのELF-Bは32ステップのサンプリングで約24.1のGen. PPLを達成し、さまざまな離散および連続拡散言語モデルのベースラインを上回っています。 さらに重要なのは、ELF-Bは約45Bのトークンで訓練されているのに対し、比較手法は通常500Bを超えており、訓練トークンは約1桁少ないという点です。 この結果は少なくとも、連続拡散のアプローチが「言語の離散性」によって阻まれているわけではなく、以前の問題はモデリングインターフェースやサンプリング設計に起因している可能性を示しています。
何恺明チームELF:言語拡散モデルがついに動作しました
動態監測 Beating による監視によると、MITの何恺明チームは言語拡散モデルELF(Embedded Language Flows)を発表しました。
これはGPT式の自己回帰「次のトークンを予測する」方式を採用せず、テキスト生成を連続埋め込み空間に行い、最後のステップで離散トークンに変換する方法です。
拡散モデルは画像生成ではすでに成熟していますが、テキストに適用すると非常に違和感があります:画像は自然に連続信号ですが、言語は離散トークンで構成されているからです。
これまでの多くの連続拡散テキストモデルは、生成軌跡の中でトークンレベルの監督を繰り返し導入したり、追加の独立したデコーダーを必要としたりしていました。
ELFのアプローチはよりクリーンです:ほとんどのステップは連続ベクトル空間内でノイズ除去を行い、最終段階で共有重みネットワークを用いて離散化を完了します。
実験結果も衝撃的です。OpenWebTextの無条件生成評価において、105MパラメータのELF-Bは32ステップのサンプリングで約24.1のGen. PPLを達成し、さまざまな離散および連続拡散言語モデルのベースラインを上回っています。
さらに重要なのは、ELF-Bは約45Bのトークンで訓練されているのに対し、比較手法は通常500Bを超えており、訓練トークンは約1桁少ないという点です。
この結果は少なくとも、連続拡散のアプローチが「言語の離散性」によって阻まれているわけではなく、以前の問題はモデリングインターフェースやサンプリング設計に起因している可能性を示しています。