Model open-source dengan triliunan parameter mencapai 981 kata/detik, Cerebras menguji Kimi K2.6 meningkatkan kecepatan 29 kali lipat.

robot
Pembuatan abstrak sedang berlangsung
ME News Berita, 20 Mei (UTC+8), menurut pemantauan Beating, perusahaan chip skala wafer Cerebras mengumumkan peluncuran model besar dengan triliunan parameter Kimi K2.6 dalam uji coba perusahaan, yang sepenuhnya menghilangkan latensi interkoneksi komunikasi papan tradisional dengan mengintegrasikan chip langsung pada seluruh wafer silikon 12 inci. Lembaga evaluasi pihak ketiga Artificial Analysis menunjukkan bahwa kecepatan pembuatannya mencapai 981 token/detik, 6,7 kali lebih cepat dari layanan cloud GPU mainstream. Dalam tugas teks panjang dengan input 10.000 token dan output 500 token, total waktu respons dipersingkat dari 163,7 detik di antarmuka resmi Kimi menjadi 5,6 detik, peningkatan kecepatan hingga 29 kali. Karena bobot model didistribusikan ke beberapa wafer untuk melakukan streaming nilai aktivasi, komunikasi antar lapisan sepenuhnya berjalan di jaring wafer internal, bandwidth komunikasi fisiknya mencapai lebih dari 200 kali lipat dari NVLink dalam arsitektur NVIDIA NVL72. Dengan optimalisasi komputasi terdistribusi, Kimi K2.6 menyimpan dengan bobot asli 4-bit (4 bit) untuk penyimpanan kerugian rendah, menggunakan angka floating point 16-bit (16 bit) untuk menjaga presisi saat komputasi, dan menggunakan kernel operator khusus serta decoding spekulatif untuk akhirnya mencapai operasi real-time. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar