Peramban menjalankan model besar akhirnya tidak perlu lagi melihat wajah penyedia layanan cloud, GPU lokal langsung meluncur

Lihat Asli
MeNews
llama.cpp resmi mendukung WebGPU, inferensi di browser mengurangi penggunaan memori GPU lebih dari 30%
llama.cpp dan ggml resmi merilis backend WebGPU, memungkinkan browser menjalankan model besar GGUF dengan akselerasi GPU lokal, murni di sisi perangkat, data tidak keluar dari perangkat, mewujudkan inferensi privasi tanpa konfigurasi. Penelitian menyebutkan bahwa perencanaan memori statis dan pemuatan yang efisien mengurangi penggunaan memori GPU di web hingga 29–33%, serta meningkatkan throughput decoding sebesar 45–69% di perangkat Intel, Apple, dan Nvidia. Demonstrasi berbasis wllama, dengan optimisasi tingkat rendah melebihi ekspektasi penelitian. Juga dapat dikompilasi secara lokal melalui Google C++ WebGPU Dawn, menyediakan benchmark perbandingan antara Vulkan dan WebGPU.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan