Meta dan lain-lain meluncurkan metode percepatan BLT, bandwidth memori paling banyak berkurang 92%

AIMPACT Pesan, 12 Mei (UTC+8), tim penelitian dari Meta, Universitas Stanford, dan Universitas Washington baru-baru ini meluncurkan tiga metode baru, secara signifikan mempercepat kecepatan inferensi Byte Latent Transformer (BLT). BLT adalah model bahasa yang langsung berjalan di atas byte asli, secara dinamis mengelompokkan byte menjadi potongan panjang variabel melalui strategi pemisahan berbasis entropi, yang cocok dengan kinerja model berbasis tokenisasi. Karena decoding autoregressive per byte memerlukan banyak forward pass, bandwidth memori menjadi hambatan utama. Tiga metode percepatan adalah sebagai berikut: BLT-D menggunakan difusi diskret berbentuk blok, pelatihan menggabungkan prediksi byte berikutnya dan kerugian prediksi byte yang disembunyikan, setiap forward pass menghasilkan banyak byte, ukuran blok 4 kurang dari setengah bandwidth memori BLT, ukuran blok 16 mengurangi 87-92%; BLT-S memanfaatkan decoder lokal ringan sebagai penyalin spekulatif, tanpa pelatihan tambahan, menghasilkan output yang sepenuhnya konsisten dengan BLT standar di bawah decoding rakus, dapat mengurangi 77% bandwidth memori; BLT-DV menggabungkan penyalinan difusi dan verifikasi autoregressive, bobot model yang sama dapat digunakan secara dua arah, mengurangi bandwidth memori sebesar 81%. Semua metode paling banyak memberikan manfaat pada tugas terjemahan, tugas pengkodean sangat sensitif terhadap ukuran blok. Pada benchmark berbasis kemungkinan seperti ARC-Easy, ARC-Challenge, PIQA, HellaSwag, MMLU, dan lain-lain, skor BLT-D mendekati baseline BLT, kemampuan inferensi tetap stabil.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan