Utiliser un grand modèle dans le navigateur ne nécessite plus de dépendre du fournisseur de services cloud, le GPU local décolle directement

Voir l'original
MeNews
llama.cpp prend officiellement en charge WebGPU, la mémoire vidéo pour l'inférence côté navigateur chute de plus de 30 %
llama.cpp et le backend officiel WebGPU de ggml sont officiellement publiés, permettant aux navigateurs d'exécuter localement des grands modèles GGUF avec accélération GPU, entièrement côté client, sans sortie de données du dispositif, pour une inférence privée sans configuration. La publication indique que la planification de mémoire statique et le chargement efficace réduisent la consommation de mémoire vidéo sur le web de 29 à 33 %, avec une amélioration de 45 à 69 % du débit de décodage sur des dispositifs Intel, Apple et Nvidia. La démonstration basée sur wllama, avec une optimisation en profondeur dépassant les attentes de la publication. Il est également possible de compiler localement via Google C++ WebGPU Dawn, fournissant des benchmarks comparant Vulkan et WebGPU.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé