Tim ELF dari He Kai Ming: Model Penyebaran Bahasa Akhirnya Berfungsi

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, tim MIT Hao Kai Ming merilis model penyebaran bahasa ELF (Embedded Language Flows).
Ini tidak mengikuti jalur prediksi token berikutnya ala GPT yang autoregresif, melainkan menempatkan pembuatan teks ke dalam ruang embedding kontinu, dan baru di langkah terakhir dikonversi kembali ke token diskrit.

Model penyebaran sudah matang dalam pembuatan gambar, tetapi untuk teks selalu terasa aneh: gambar secara alami adalah sinyal kontinu, sedangkan bahasa terdiri dari token diskrit. Sebelumnya, banyak model teks penyebaran kontinu harus secara berulang memperkenalkan supervisi tingkat token dalam jalur generasi, atau membutuhkan dekoder terpisah tambahan. Pendekatan ELF lebih bersih: sebagian besar langkah hanya melakukan denoising di ruang vektor kontinu, dan langkah terakhir menggunakan jaringan berbobot berbagi untuk menyelesaikan diskritisasi.

Hasil eksperimen juga sangat mengesankan. Dalam evaluasi generasi tanpa syarat OpenWebText, ELF-B dengan 105 juta parameter mencapai sekitar 24,1 Gen. PPL dengan 32 langkah sampling, mengungguli berbagai baseline model bahasa penyebaran diskrit dan kontinu. Lebih penting lagi, ELF-B hanya menggunakan sekitar 45B token pelatihan, sementara metode pembanding biasanya lebih dari 500B, sehingga pelatihan token berkurang sekitar satu tingkat magnitudo. Hasil ini setidaknya menunjukkan bahwa jalur penyebaran kontinu dalam pemodelan bahasa tidak terhalang oleh “diskretisasi bahasa”, dan masalah sebelumnya lebih mungkin terletak pada antarmuka pemodelan dan desain sampling.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan