MIT 何恺明團隊提出語言擴散模型 ELF（Embedded Language Flows），在連續嵌入空間擴散去噪，最後一步再將向量轉回離散 token，避免自回歸或獨立解碼器。ELF 以連續空間去噪為主，使用共享權重實現離散化。實驗顯示 ELF-B 105M 參數、32 步採樣在 OpenWebText Gen. PPL 約 24.1，訓練 token 僅約 45B，比對方法通常超 500B。這表明，語言的連續擴散路徑仍具可行性，問題多出在建模接口與採樣設計。

区块律动

2026-05-13 05:20:33

摘要生成中

據動察 Beating 監測，MIT 何恺明團隊發布語言擴散模型 ELF（Embedded Language Flows）。它沒有沿用 GPT 式的自回歸「預測下一個 token」路線，而是把文本生成放進連續 embedding 空間裡完成，直到最後一步才轉換回離散 token。

擴散模型在圖像生成裡已經成熟，但放到文本上一直很別扭：圖像天生是連續信號，語言卻由離散 token 組成。此前不少連續擴散文本模型，要么在生成軌跡中反覆引入 token 級監督，要么需要額外獨立解碼器。ELF 的做法更乾淨：大部分步驟只在連續向量空間裡去噪，最終一步再用共享權重網絡完成離散化。

實驗結果也有沖擊力。在 OpenWebText 無條件生成評測中，105M 參數的 ELF-B 用 32 步採樣達到約 24.1 的 Gen. PPL，優於多種離散和連續擴散語言模型基線。更關鍵的是，ELF-B 只用了約 45B 訓練 token，而對比方法通常超過 500B，訓練 token 少了約一個數量級。這個結果至少說明，連續擴散路線在語言建模裡並沒有被「語言離散性」堵死，之前的問題更可能出在建模接口和採樣設計上。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
TradFi交易分享挑戰
16.42萬熱度
#
PYTH今日解鎖21.3億枚代幣
136.89萬熱度
#
Polymarket每日熱點
42.76萬熱度
#
川普推遲打擊伊朗
1608.83萬熱度
#
Gate廣場披薩節
166.85萬熱度

何恺明團隊ELF：語言擴散模型終於跑通

熱門話題

TradFi交易分享挑戰

PYTH今日解鎖21.3億枚代幣

Polymarket每日熱點

川普推遲打擊伊朗

Gate廣場披薩節

已置頂