LLM tingkat byte akhirnya mengalami kemajuan yang serius, 1,7 miliar dapat mendekati hasil pemisahan kata, perang daftar kata mungkin sudah usang

Lihat Asli
CoinNetwork
Nous Research membuktikan bahwa keuntungan dari pemisahan kata dapat sepenuhnya disimulasikan oleh ByteDance, model besar tanpa pemisahan kata menghadapi terobosan
Penelitian Nous Research menyatakan bahwa ketergantungan jangka panjang model bahasa besar terhadap pemisah kata di masa depan diharapkan dapat digantikan. Pengujian terkendali dengan 1,7 miliar parameter menunjukkan bahwa manfaat mekanisme pemisahan kata dapat disimulasikan secara rekayasa pada tingkat byte murni. Eksperimen menunjukkan bahwa meningkatkan throughput dalam model byte asli dan menyuntikkan batas morfologi secara signifikan mengurangi kesenjangan dengan model pemisah kata; dengan daya komputasi yang sama, simulasi kompresi meningkatkan jumlah gradien langkah tunggal, menjadi sumber kontribusi terbesar. Pada saat yang sama, menumpuk batas subkata ke byte input membangun bias induksi jangka panjang yang tidak mengungkapkan informasi masa depan. Meskipun efek kolaboratif parameter yang lebih besar masih perlu diverifikasi, pada 1,7 miliar, parameter daftar kata dan manfaat memprediksi subkata berikutnya terbatas. Ini memberikan ide untuk model besar tanpa pemisah kata, di mana arsitektur masa depan harus fokus meningkatkan throughput dan secara eksplisit mengintegrasikan prioritas morfologi tanpa mengungkapkan informasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan