Zyphra merilis ZAYA1-8B-Diffusion-Preview, mengubah model bahasa besar autoregressive menjadi model difusi campuran pakar, menjadi model bahasa difusi pertama yang dilatih dalam ekosistem perangkat keras AMD. Melalui TiDAR, melewati pelatihan pra-pelatihan dari awal, dapat menghapus 16 token sekaligus dalam satu forward, mengubah batasan memori GPU menjadi batasan daya komputasi. Pengujian menunjukkan percepatan 4,6x dengan perhatian CCA + sampling tanpa kerugian, meningkat menjadi 7,7x setelah beralih ke sampler logit campuran.

MeNews

2026-05-23 09:07:37

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 15 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Zyphra merilis model difusi campuran ahli (MoE) yang dikonversi dari model bahasa besar autoregressive bernama ZAYA1-8B-Diffusion-Preview. Meskipun secara resmi mengklaim sebagai "model pertama" yang mengimplementasikan arsitektur ini, jalur ini sebenarnya telah terlebih dahulu dijalankan oleh tim seperti SDAR dan LLaDA 2.0 pada akhir tahun lalu. Satu-satunya label keunikan ZAYA1 adalah bahwa ini adalah model bahasa difusi pertama yang dilatih dalam ekosistem perangkat keras AMD.

Mengabaikan bahasa pemasaran, model ini tetap membuktikan nilai peningkatan efisiensi rekayasa dari arsitektur difusi. Model autoregressive tradisional terbatas oleh generasi serial kata demi kata, dan akumulasi KV Cache akan membuat kecepatan generasi mencapai batas fisik. Seperti tren industri yang diungkapkan oleh tim He Kaiming dengan model difusi murni ELF baru-baru ini, denoising paralel adalah kunci untuk memecahkan hambatan ini.

ZAYA1 menggunakan skema TiDAR yang melewati pelatihan pra-pelatihan dari awal, dan dalam satu forward pass dapat secara bersamaan melakukan denoising terhadap 16 kandidat token, secara drastis mengubah bottleneck bandwidth memori menjadi bottleneck kekuatan komputasi.

Pengujian menunjukkan bahwa, dengan mekanisme perhatian CCA khusus ZAYA1, menggunakan sampler tanpa kehilangan standar dapat mencapai percepatan 4,6 kali tanpa menurunkan kualitas generasi. Setelah beralih ke sampler logit campuran, percepatan meningkat menjadi 7,7 kali, memberikan ruang pengurangan biaya yang substansial untuk tugas inferensi skala besar yang memakan waktu lama. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

8 Suka

Hadiah
8
7
2
Bagikan

Komentar

Tambahkan komentar

GateUser-9008328f

· 6jam yang lalu

TiDAR menghemat biaya pelatihan awal, cukup untuk melatih berapa banyak tugas hilir

Lihat AsliBalas0

CrystalBallForSentiment

· 6jam yang lalu

Model bahasa difusi akhirnya tidak perlu lagi melihat wajah NV, ini kabar baik

Lihat AsliBalas0

GateUser-eccf92a1

· 6jam yang lalu

TiDAR melewati pelatihan awal, trik ini sangat hemat biaya, ekosistem AMD akhirnya memiliki model penyebaran yang kompetitif.

Lihat AsliBalas0

GateUser-4aa73916

· 6jam yang lalu

Dapat melakukan 16 token dalam satu kali forward, sangat cocok untuk skenario yang sensitif terhadap latensi.

Lihat AsliBalas0

Semi-MeltedIceCream

· 6jam yang lalu

CCA perhatian tanpa kehilangan sampel 4.6x, detail teknik ingin membuat blog teknologi

Lihat AsliBalas0

MosaicButterfly

· 6jam yang lalu

16 token sekaligus menghilangkan noise, konversi memori ke kekuatan komputasi, ide ini sangat ramah untuk kartu kelas konsumen

Lihat AsliBalas0

LookingAtTheCandlestickChart

· 6jam yang lalu

Dilatih di atas AMD bukan hanya porting, kekuasaan wacana ekosistem mulai berubah

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
306.99K Popularitas
#
PlatinumCardCreatorExclusive
93.44K Popularitas
#
IsraelStrikesIranBTCPlunges
48.8K Popularitas
#
#DailyPolymarketHotspot
1.04M Popularitas
#
GateSquarePizzaDay
1.77M Popularitas

Disematkan

peta situs

Zyphra merilis model bahasa penyebaran ekosistem AMD pertama, dengan percepatan hingga 7,7 kali lipat

Topik Trending

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan