Transformer dibuat menjadi rangkaian perangkat keras murni, tanpa GPU, mencapai 50.000 token/detik

Berita dari CoinWorld, pengembang Luthira Abeykoon dan Krish Chhajer memindahkan MicroGPT Karpathy (hanya 4.192 parameter) ke FPGA menggunakan SystemVerilog, menghasilkan kecepatan lebih dari 50.000 token/detik. Proyek ini, Talos-V2 (Tensor Accelerated Logic for On-Chip Systems), telah dirilis sebagai open source di GitHub, berjalan di FPGA Intel Cyclone V tingkat pengajaran DE1-SOC, dengan bobot disimpan dalam ROM on-chip dalam format fixed-point Q4.12. Perkalian matriks-vektor dalam model diimplementasikan sebagai array pulsa 16 saluran (Systolic Array), dengan proyeksi Q/K/V, MLP, dan Kepala LM berbagi unit ini, berjalan secara bergiliran. Implementasi mekanisme perhatian harus dibagi menjadi delapan langkah. Penulis menyatakan bahwa proyek ini bertujuan untuk mengubah setiap langkah inferensi Transformer menjadi hardware yang dapat divisualisasikan: memori, penghitung, mesin status, dan tabel pencarian.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan