何恺明チームELF:言語拡散モデルがついに動作しました

robot
概要作成中

動態監測 Beating による監視によると、MITの何恺明チームは言語拡散モデルELF(Embedded Language Flows)を発表しました。
これはGPT式の自己回帰「次のトークンを予測する」方式を採用せず、テキスト生成を連続埋め込み空間に行い、最後のステップで離散トークンに変換する方法です。

拡散モデルは画像生成ではすでに成熟していますが、テキストに適用すると非常に違和感があります:画像は自然に連続信号ですが、言語は離散トークンで構成されているからです。
これまでの多くの連続拡散テキストモデルは、生成軌跡の中でトークンレベルの監督を繰り返し導入したり、追加の独立したデコーダーを必要としたりしていました。
ELFのアプローチはよりクリーンです:ほとんどのステップは連続ベクトル空間内でノイズ除去を行い、最終段階で共有重みネットワークを用いて離散化を完了します。

実験結果も衝撃的です。OpenWebTextの無条件生成評価において、105MパラメータのELF-Bは32ステップのサンプリングで約24.1のGen. PPLを達成し、さまざまな離散および連続拡散言語モデルのベースラインを上回っています。
さらに重要なのは、ELF-Bは約45Bのトークンで訓練されているのに対し、比較手法は通常500Bを超えており、訓練トークンは約1桁少ないという点です。
この結果は少なくとも、連続拡散のアプローチが「言語の離散性」によって阻まれているわけではなく、以前の問題はモデリングインターフェースやサンプリング設計に起因している可能性を示しています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし