Zyphra merilis model bahasa penyebaran ekosistem AMD pertama, dengan percepatan hingga 7,7 kali lipat

robot
Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 15 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Zyphra merilis model difusi campuran ahli (MoE) yang dikonversi dari model bahasa besar autoregressive bernama ZAYA1-8B-Diffusion-Preview. Meskipun secara resmi mengklaim sebagai "model pertama" yang mengimplementasikan arsitektur ini, jalur ini sebenarnya telah terlebih dahulu dijalankan oleh tim seperti SDAR dan LLaDA 2.0 pada akhir tahun lalu. Satu-satunya label keunikan ZAYA1 adalah bahwa ini adalah model bahasa difusi pertama yang dilatih dalam ekosistem perangkat keras AMD.

Mengabaikan bahasa pemasaran, model ini tetap membuktikan nilai peningkatan efisiensi rekayasa dari arsitektur difusi. Model autoregressive tradisional terbatas oleh generasi serial kata demi kata, dan akumulasi KV Cache akan membuat kecepatan generasi mencapai batas fisik. Seperti tren industri yang diungkapkan oleh tim He Kaiming dengan model difusi murni ELF baru-baru ini, denoising paralel adalah kunci untuk memecahkan hambatan ini.

ZAYA1 menggunakan skema TiDAR yang melewati pelatihan pra-pelatihan dari awal, dan dalam satu forward pass dapat secara bersamaan melakukan denoising terhadap 16 kandidat token, secara drastis mengubah bottleneck bandwidth memori menjadi bottleneck kekuatan komputasi.

Pengujian menunjukkan bahwa, dengan mekanisme perhatian CCA khusus ZAYA1, menggunakan sampler tanpa kehilangan standar dapat mencapai percepatan 4,6 kali tanpa menurunkan kualitas generasi. Setelah beralih ke sampler logit campuran, percepatan meningkat menjadi 7,7 kali, memberikan ruang pengurangan biaya yang substansial untuk tugas inferensi skala besar yang memakan waktu lama. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
GateUser-9008328f
· 6jam yang lalu
TiDAR menghemat biaya pelatihan awal, cukup untuk melatih berapa banyak tugas hilir
Lihat AsliBalas0
CrystalBallForSentiment
· 6jam yang lalu
Model bahasa difusi akhirnya tidak perlu lagi melihat wajah NV, ini kabar baik
Lihat AsliBalas0
GateUser-eccf92a1
· 6jam yang lalu
TiDAR melewati pelatihan awal, trik ini sangat hemat biaya, ekosistem AMD akhirnya memiliki model penyebaran yang kompetitif.
Lihat AsliBalas0
GateUser-4aa73916
· 6jam yang lalu
Dapat melakukan 16 token dalam satu kali forward, sangat cocok untuk skenario yang sensitif terhadap latensi.
Lihat AsliBalas0
Semi-MeltedIceCream
· 6jam yang lalu
CCA perhatian tanpa kehilangan sampel 4.6x, detail teknik ingin membuat blog teknologi
Lihat AsliBalas0
MosaicButterfly
· 6jam yang lalu
16 token sekaligus menghilangkan noise, konversi memori ke kekuatan komputasi, ide ini sangat ramah untuk kartu kelas konsumen
Lihat AsliBalas0
LookingAtTheCandlestickChart
· 6jam yang lalu
Dilatih di atas AMD bukan hanya porting, kekuasaan wacana ekosistem mulai berubah
Lihat AsliBalas0
  • Disematkan