Ekosistem AMD akhirnya memiliki model bahasa yang mampu bersaing, berapa banyak perhitungan daya komputasi yang dihemat oleh langkah TiDAR ini

Lihat Asli
MeNews
Zyphra merilis model bahasa penyebaran ekosistem AMD pertama, dengan percepatan hingga 7,7 kali lipat
Zyphra merilis ZAYA1-8B-Diffusion-Preview, mengubah model bahasa besar autoregressive menjadi model difusi campuran pakar, menjadi model bahasa difusi pertama yang dilatih dalam ekosistem perangkat keras AMD. Melalui TiDAR, melewati pelatihan pra-pelatihan dari awal, dapat menghapus 16 token sekaligus dalam satu forward, mengubah batasan memori GPU menjadi batasan daya komputasi. Pengujian menunjukkan percepatan 4,6x dengan perhatian CCA + sampling tanpa kerugian, meningkat menjadi 7,7x setelah beralih ke sampler logit campuran.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan