Gemma 4 di llama.cpp akhirnya stabil


Pada 2 April Google merilis Gemma 4, dukungan llama.cpp sudah ada sejak hari pertama tetapi banyak bug. Sekarang semua masalah sudah diperbaiki
E2B, E4B, 26B MoE, 31B Dense
31B berada di peringkat ke-3 dalam Arena AI, 26B di peringkat ke-6
Model sumber terbuka dalam jajaran terkuat
Gunakan --chat-template-file untuk memuat template interleaved
Disarankan membuka --cache-ram 2048
Panjang konteks disesuaikan dengan VRAM
Tahun lalu yang terbaik secara lokal adalah Llama 3.1 70B versi kuantisasi, cukup bisa digunakan
Sekarang Gemma 4 31B Q5 berjalan lancar di Mac Studio, mendekati level GPT-4
Aplikasi AI tanpa bergantung pada API mulai memiliki kelayakan komersial. Data tidak keluar dari mesin lokal, biaya nol, latensi sangat rendah
Bagi perusahaan satu orang, model lokal adalah infrastruktur yang sebenarnya. Kompetitor membayar biaya API, sedangkan biaya marginalmu adalah biaya listrik
Gemma 4 + llama.cpp = solusi inferensi lokal terbaik, bisa langsung digunakan untuk produksi
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan