Arsitektur TwoTower dari NVIDIA Meningkatkan Efisiensi Model Besar dengan Model 30B Paralel

Menurut pemantauan oleh Beating, NVIDIA telah merilis arsitektur difusi teks diskrit Nemotron-Labs-TwoTower secara open-source, yang bertujuan untuk mengatasi hambatan kecepatan generasi model besar yang hanya dapat menghasilkan satu kata dalam satu waktu. Model difusi teks sebelumnya memaksa satu jaringan untuk menyeimbangkan pemahaman konteks satu arah dengan koreksi kesalahan paralel dua arah demi mengejar output paralel, yang mengakibatkan penurunan signifikan dalam kemampuan kognitif model. Arsitektur TwoTower menggunakan desain yang terpisah: di satu sisi, ia sepenuhnya membekukan model besar autoregresif yang telah dilatih sebelumnya sebagai 'menara konteks hanya-baca' untuk mempertahankan kemampuan penalaran dan akal sehat yang lengkap; di sisi lain, ia melatih secara terpisah 'menara penulisan denoising' yang membaca informasi kontekstual melalui perhatian silang di tingkat lapisan. Menara penulisan menggunakan mekanisme 'pembukaan topeng keyakinan', yang memprioritaskan penulisan kata-kata dengan keyakinan tinggi saat memprediksi blok, dan secara bertahap mengisi celah yang tersisa untuk mencapai penulisan paralel dari yang mudah ke yang sulit. Desain ini beradaptasi pada model arsitektur campuran tingkat 30B (Mamba-Transformer MoE) hanya menggunakan 1/12 data pra-pelatihan model dasar (2,1T token), mempertahankan 98,7% kualitas sambil meningkatkan kecepatan generasi aktual sebesar 2,42 kali, tanpa menambah overhead cache memori tambahan. Namun, karena perlu menyimpan kedua menara di memori, penggunaan memori statis model telah meningkat, dan masih ada sedikit penurunan akurasi dalam penalaran kode dan matematika yang sangat kompleks.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan