Dari makalah hingga produksi kalori nyata, kecepatannya tidak seperti akademik

Lihat Asli
CoinNetwork
Berita dari Coinjie.com, Zhipu bekerja sama dengan Yuxun Network dan Universitas Tsinghua mengusulkan arsitektur jaringan inferensi model besar generasi berikutnya ZCube, bertujuan untuk mengatasi masalah kemacetan jaringan struktural yang semakin parah dalam penerapan terpisah PD (pre-fill-decode) dari model besar. Arsitektur ZCube telah diterapkan di lingkungan produksi online GLM-5.1 coding dengan biaya rendah. Arsitektur ini menghilangkan switch lapisan spine, menggunakan topologi jaringan datar seluruh jaringan (diameter jaringan 2 lompatan), dikombinasikan dengan mekanisme akses campuran satu/multi-rail, untuk mencapai keseimbangan beban lalu lintas antara switch jaringan lintas node. Dalam pengujian benchmark, arsitektur ZCube mengurangi pengeluaran perangkat keras switch dan modul optik sebesar 33% dibandingkan arsitektur tradisional, sementara throughput inferensi GPU rata-rata meningkat sebesar 15%, dan kuantil P99 dari latensi token pertama (TTFT) menurun sebesar 40,6%.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan