Arsitektur ZAYA1-8B ini cukup menarik, dari autoregressive diubah menjadi MoE diffusion masih bisa melakukan denoising satu kali ke depan untuk 16 token, percepatan 7.7x benar-benar mengubah tekanan memori GPU menjadi tekanan komputasi.

Lihat Asli
MeNews
Zyphra merilis model bahasa penyebaran ekosistem AMD pertama, dengan percepatan hingga 7,7 kali lipat
Zyphra merilis ZAYA1-8B-Diffusion-Preview, mengubah model bahasa besar autoregressive menjadi model difusi campuran pakar, menjadi model bahasa difusi pertama yang dilatih dalam ekosistem perangkat keras AMD. Melalui TiDAR, melewati pelatihan dari awal, dapat menghapus noise dari 16 token sekaligus dalam satu forward, mengubah bottleneck memori GPU menjadi bottleneck daya komputasi. Pengujian menunjukkan percepatan 4,6x dengan perhatian CCA + sampling tanpa kerugian, meningkat menjadi 7,7x setelah beralih ke sampler logit campuran.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan