Model bahasa penyebaran pertama dalam ekosistem AMD, TiDAR langsung melewati pra-pelatihan, ide 16 token paralel penghilangan noise cukup keren, operasi yang mengubah memori GPU menjadi kekuatan komputasi yang saya pelajari

Lihat Asli
MeNews
Zyphra merilis model bahasa penyebaran ekosistem AMD pertama, dengan percepatan hingga 7,7 kali lipat
Zyphra merilis ZAYA1-8B-Diffusion-Preview, mengubah model bahasa besar autoregressive menjadi model difusi campuran pakar, menjadi model bahasa difusi pertama yang dilatih dalam ekosistem perangkat keras AMD. Melalui TiDAR, melewati pelatihan pra-pelatihan dari awal, dapat menghapus 16 token sekaligus dalam satu forward, mengubah batasan memori GPU menjadi batasan daya komputasi. Pengujian menunjukkan percepatan 4,6x dengan perhatian CCA + sampling tanpa kerugian, meningkat menjadi 7,7x setelah beralih ke sampler logit campuran.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan