Ejecutar grandes modelos en el navegador finalmente ya no requiere depender de los proveedores de servicios en la nube, la GPU local se activa directamente

Ver original
MeNews
llama.cpp soporta oficialmente WebGPU, la inferencia en el navegador reduce el uso de memoria de video en más del 30%
llama.cpp y el backend oficial de ggml para WebGPU han sido lanzados oficialmente, permitiendo que los navegadores ejecuten modelos GGUF acelerados por GPU local, completamente en el lado del cliente, sin que los datos salgan del dispositivo, logrando inferencias privadas sin configuración. El artículo afirma que la planificación de memoria estática y la carga eficiente reducen el uso de memoria en la web en un 29-33%, y aumentan el rendimiento de decodificación en dispositivos de Intel, Apple y Nvidia en un 45-69%. La demostración basada en wllama, con optimizaciones de bajo nivel que superan las expectativas del artículo. También se puede compilar localmente usando Google C++ WebGPU Dawn, proporcionando comparativas de rendimiento entre Vulkan y WebGPU.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado