Sebuah proyek open-source yang sangat menarik AirLLM


Mengoptimalkan penggunaan memori inferensi, sehingga model besar 70B dapat berjalan di GPU dengan memori 4G
Tanpa kuantisasi, distilasi, dan pruning.
Menjalankan Llama3.1 405B di memori 8G
Lebih ingin mencoba GLM 5.2. Bukankah saya yang memiliki lebih dari 40G memori bersama juga bisa menjalankan 700+B?
Star🌟 21.3k
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar