PrismML meluncurkan model 1.58-bit Ternary Bonsai, pengurangan parameter 9 kali lipat, kecerdasan melampaui sejenisnya

robot
Pembuatan abstrak sedang berlangsung
ME News Berita, 17 April (UTC+8), menurut pemantauan Beating dari Dongcha, PrismML merilis model bahasa seri Ternary Bonsai, menggunakan teknologi bobot ternary 1,58 bit (), yang mengurangi penggunaan memori model hingga seper sembilan dari model 16 bit sambil mempertahankan kinerja tinggi. Seri ini mencakup tiga ukuran parameter yaitu 8B, 4B, dan 1,7B, dan sekarang telah dirilis secara terbuka di Hugging Face serta mendukung menjalankan secara native di perangkat Apple.
Model 1,58 bit yang dimaksud adalah membatasi bobot jaringan neural pada tiga nilai {-1, 0, +1}. Dibandingkan dengan model 1 bit sebelumnya yang berfokus pada kompresi ekstrem (bobot hanya {-1, +1}), pengenalan nilai "0" dapat secara efektif menghilangkan koneksi redundan, memungkinkan model mempertahankan kemampuan inferensi yang kompleks dalam ukuran yang sangat kecil.
File bobot Ternary Bonsai 8B yang dirilis kali ini hanya berukuran 1,75 GB, dengan skor pengujian rata-rata mencapai 75,5, yang tidak hanya 5 poin lebih tinggi dari versi 1 bit mereka sendiri, tetapi juga secara signifikan unggul dalam "efisiensi energi" (kinerja yang diberikan per GB memori) dibandingkan model densitas serupa seperti Qwen3.
Rasio efisiensi energi dan kecepatan operasi adalah keunggulan utama lainnya dari seri ini. Di iPhone 17 Pro Max, versi 8B dapat berjalan dengan kecepatan hingga 27 tok/s, meningkatkan rasio efisiensi energi sekitar 3 hingga 4 kali.
Ini berarti bagi pengembang yang perlu menerapkan AI berkinerja tinggi di perangkat seperti ponsel dan laptop, mereka dapat memperoleh performa cerdas yang mendekati model lengkap dengan biaya memori yang sangat kecil.
Saat ini, model Ternary Bonsai telah mendukung secara native di perangkat Apple melalui kerangka kerja MLX. Bobot model didistribusikan di bawah lisensi Apache 2.0.
(Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 8
  • 7
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
WalletHealthInspector
· 10jam yang lalu
Kuantisasi tiga nilai + MLX asli, ekosistem Apple tertutup, tekanan besar dari ekosistem Android
Lihat AsliBalas0
RouterRunner
· 15jam yang lalu
Mendominasi dengan skor 75,5 poin dibandingkan sejenis, tetapi berapa banyak perbedaannya dibandingkan dengan presisi penuh? Apakah ada eksperimen ablation untuk melihatnya?
Lihat AsliBalas0
NeonFusionIceCream
· 15jam yang lalu
Vram dip menjadi 1/9, biaya penerapan tepi turun secara drastis, rasanya titik balik AI sisi perangkat benar-benar telah tiba
Lihat AsliBalas0
GateUser-c29c3db9
· 15jam yang lalu
iPhone 17 Pro Max 27 tok/s,NPU chip Apple akhirnya habis tenaga, ekosistem MLX akan segera meluncur
Lihat AsliBalas0
OrderCancellerAfterTheRain
· 15jam yang lalu
Nama Bonsai ini bagus, memangkas hingga tersisa tiga nilai, modelnya benar-benar seperti bonsai yang dipangkas dengan cermat
Lihat AsliBalas0
TvlTeaTime
· 15jam yang lalu
Apache 2.0 sumber terbuka mendapatkan pujian, tetapi saya penasaran bagaimana pelatihannya dilakukan, bagaimana cara melakukan propagasi balik bobot tiga nilai
Lihat AsliBalas0
GateUser-8ca669fd
· 15jam yang lalu
Kuantisasi tiga nilai {-1,0,+1}, ide dari makalah lama sudah terimplementasi, dan PrismML melakukan pekerjaan rekayasa ini dengan sangat baik
Lihat AsliBalas0
BugBountyBuddy
· 15jam yang lalu
1.75GB menjalankan 8B? Rasio kompresi ini agak gila, menjalankan model besar secara lokal di ponsel akhirnya bukan lagi mimpi
Lihat AsliBalas0
  • Disematkan