llama.cpp soporta oficialmente WebGPU, la inferencia en el navegador reduce el uso de memoria de video en más del 30%

robot
Generación de resúmenes en curso
MI IA Mensaje, según la monitorización de Beating, llama.cpp y el backend oficial de WebGPU de ggml han sido lanzados oficialmente, soportando la ejecución directa en navegadores mediante aceleración local de GPU para modelos grandes en formato GGUF. El nuevo backend elimina la dependencia de clientes nativos específicos o arquitecturas WebAssembly complejas, logrando inferencia privada en el lado del dispositivo sin que los datos salgan del equipo, abriendo una entrada de potencia computacional local sin configuración para el ecosistema web. La publicación del 20 de mayo señala que, al introducir planificación de memoria estática y mecanismos eficientes de carga de modelos, el consumo de memoria de GPU en tiempo de ejecución en la web se reduce entre un 29% y un 33% en comparación con los marcos existentes. En GPUs principales como Intel, Apple y Nvidia, la tasa de decodificación aumenta en promedio entre un 45% y un 69%. La demostración en la web se realiza usando la biblioteca de código abierto wllama, y las optimizaciones de bajo nivel recientemente implementadas lograron un control de memoria más eficiente que el descrito en el artículo. llama.cpp también puede compilarse de forma nativa en local mediante Dawn, usando WebGPU en C++ de Google, proporcionando una referencia para comparar el rendimiento entre Vulkan y WebGPU. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 10
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
UnderTheGlassDome
· hace4h
La adaptación de ggml para WebGPU en esta ocasión está muy bien hecha, una reducción del 29% en el uso de memoria gráfica es bastante significativa.
Ver originalResponder0
StargazerInTheWoods
· hace5h
¿El mayor obstáculo para la popularización de WebGPU es el soporte de Safari?
Ver originalResponder0
MountainBeforeTheStorm
· hace5h
El razonamiento puramente en el lado del dispositivo significa que finalmente ya no necesito subir mi historial de chat a la nube.
Ver originalResponder0
OwlMarketMonitoringLamp
· hace6h
¡Por fin se pueden ejecutar modelos grandes locales en el navegador, los defensores de la privacidad están eufóricos!
Ver originalResponder0
BridgeHopRanger
· hace6h
A partir de ahora, Chrome será mi IDE de IA.
Ver originalResponder0
APuppyInTheWarmSun
· hace6h
Mejora del rendimiento del 45-69%, la experiencia en la web debe ser una transformación cualitativa
Ver originalResponder0
LpGrandma
· hace6h
Formato GGUF + WebGPU, el ecosistema llama.cpp cada vez más completo
Ver originalResponder0
AirdropArchivist
· hace6h
Este ritmo de publicación, el equipo de llama.cpp realmente no duerme.
Ver originalResponder0
RetroRadioEcho
· hace6h
La terminología técnica de planificación de memoria estática suena como si ahorrara memoria de video.
Ver originalResponder0
ReboundAtTheStreetCornerAfter
· hace6h
Dawn compila esta ruta para dejar una puerta trasera a los jugadores hardcore, buena reseña
Ver originalResponder0
Ver más
  • Fijado