MIT 何恺明团队提出语言扩散模型 ELF（Embedded Language Flows），在连续嵌入空间扩散去噪，最后一步再将向量转回离散 token，避免自回归或独立解码器。ELF 以连续空间去噪为主，使用共享权重实现离散化。实验显示 ELF-B 105M 参数、32 步采样在 OpenWebText Gen. PPL 约 24.1，训练 token 仅约 45B，比对方法通常超 500B。这表明，语言的连续扩散路径仍具可行性，问题多出在建模接口与采样设计。

BlockBeatNews

2026-05-13 05:20:33

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, tim MIT Hao Kai Ming merilis model penyebaran bahasa ELF (Embedded Language Flows).
Ini tidak mengikuti jalur prediksi token berikutnya ala GPT yang autoregresif, melainkan menempatkan pembuatan teks ke dalam ruang embedding kontinu, dan baru di langkah terakhir dikonversi kembali ke token diskrit.

Model penyebaran sudah matang dalam pembuatan gambar, tetapi untuk teks selalu terasa aneh: gambar secara alami adalah sinyal kontinu, sedangkan bahasa terdiri dari token diskrit. Sebelumnya, banyak model teks penyebaran kontinu harus secara berulang memperkenalkan supervisi tingkat token dalam jalur generasi, atau membutuhkan dekoder terpisah tambahan. Pendekatan ELF lebih bersih: sebagian besar langkah hanya melakukan denoising di ruang vektor kontinu, dan langkah terakhir menggunakan jaringan berbobot berbagi untuk menyelesaikan diskritisasi.

Hasil eksperimen juga sangat mengesankan. Dalam evaluasi generasi tanpa syarat OpenWebText, ELF-B dengan 105 juta parameter mencapai sekitar 24,1 Gen. PPL dengan 32 langkah sampling, mengungguli berbagai baseline model bahasa penyebaran diskrit dan kontinu. Lebih penting lagi, ELF-B hanya menggunakan sekitar 45B token pelatihan, sementara metode pembanding biasanya lebih dari 500B, sehingga pelatihan token berkurang sekitar satu tingkat magnitudo. Hasil ini setidaknya menunjukkan bahwa jalur penyebaran kontinu dalam pemodelan bahasa tidak terhalang oleh “diskretisasi bahasa”, dan masalah sebelumnya lebih mungkin terletak pada antarmuka pemodelan dan desain sampling.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.56M Popularitas
#
IsraelStrikesIranBTCPlunges
46.57K Popularitas
#
#DailyPolymarketHotspot
923.47K Popularitas
#
JaneStreetReducesBitcoinETFHoldings
99.13K Popularitas
#
TrumpVisitsChinaMay13
26.08M Popularitas

Sematkan

peta situs

Tim ELF dari He Kai Ming: Model Penyebaran Bahasa Akhirnya Berfungsi

Topik Trending

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChinaMay13

Sematkan