llama.cpp prend officiellement en charge WebGPU, la mémoire vidéo pour l'inférence côté navigateur chute de plus de 30 %

robot
Création du résumé en cours
ME AI Message, selon le suivi Beating, le backend officiel WebGPU de llama.cpp et ggml a été publié, permettant l'exécution directe de grands modèles au format GGUF dans le navigateur via l'accélération GPU locale. Le nouveau backend s'affranchit de la dépendance à un client natif spécifique ou à une architecture WebAssembly complexe, réalisant une inférence privée entièrement côté client, sans que les données ne quittent l'appareil, offrant une entrée de puissance de calcul locale sans configuration pour l'écosystème web. La publication d'un article le 20 mai indique que le backend WebGPU introduit une planification mémoire statique et un mécanisme de chargement efficace des modèles, réduisant la consommation de mémoire vidéo lors de l'exécution côté web de 29 % à 33 % par rapport aux cadres existants. Sur des GPU grand public comme Intel, Apple et Nvidia, le débit de décodage a été amélioré en moyenne de 45 % à 69 %. La démonstration côté web utilise la bibliothèque open source wllama, et les optimisations de bas niveau récemment réalisées ont permis d'obtenir une gestion de la mémoire vidéo encore meilleure que celle décrite dans l'article. llama.cpp peut également être compilé localement en utilisant Dawn via WebGPU en C++ de Google, fournissant une référence pour la comparaison des performances de bas niveau entre Vulkan et WebGPU. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 10
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
UnderTheGlassDome
· Il y a 6h
ggml cette adaptation WebGPU est vraiment soignée, une réduction de 29 % de la mémoire vidéo c'est impressionnant
Voir l'originalRépondre0
StargazerInTheWoods
· Il y a 7h
La plus grande barrière à la popularisation de WebGPU est-elle la prise en charge par Safari ?
Voir l'originalRépondre0
MountainBeforeTheStorm
· Il y a 7h
L'inférence pure côté client signifie que mon historique de chat n'a plus besoin d'être stocké dans le cloud.
Voir l'originalRépondre0
OwlMarketMonitoringLamp
· Il y a 8h
Enfin, il est possible d'exécuter un grand modèle local dans le navigateur, la communauté soucieuse de la vie privée est ravie
Voir l'originalRépondre0
BridgeHopRanger
· Il y a 8h
À l'avenir, Chrome sera mon IDE d'IA.
Voir l'originalRépondre0
APuppyInTheWarmSun
· Il y a 8h
Amélioration du débit de 45-69 %, l'expérience sur le web doit connaître une transformation qualitative
Voir l'originalRépondre0
LpGrandma
· Il y a 8h
Format GGUF + WebGPU, l'écosystème llama.cpp devient de plus en plus complet
Voir l'originalRépondre0
AirdropArchivist
· Il y a 8h
Ce rythme de publication, l'équipe llama.cpp ne dort vraiment pas.
Voir l'originalRépondre0
RetroRadioEcho
· Il y a 8h
La planification de la mémoire statique, ce terme technique, donne l'impression d'économiser de la mémoire vidéo.
Voir l'originalRépondre0
ReboundAtTheStreetCornerAfter
· Il y a 8h
Dawn compile cette voie pour laisser une porte dérobée aux joueurs hardcore, avis favorable
Voir l'originalRépondre0
Afficher plus
  • Épinglé