ME AI Message, selon le suivi Beating, le backend officiel WebGPU de llama.cpp et ggml a été publié, permettant l'exécution directe de grands modèles au format GGUF dans le navigateur via l'accélération GPU locale. Le nouveau backend s'affranchit de la dépendance à un client natif spécifique ou à une architecture WebAssembly complexe, réalisant une inférence privée entièrement côté client, sans que les données ne quittent l'appareil, offrant une entrée de puissance de calcul locale sans configuration pour l'écosystème web. La publication d'un article le 20 mai indique que le backend WebGPU introduit une planification mémoire statique et un mécanisme de chargement efficace des modèles, réduisant la consommation de mémoire vidéo lors de l'exécution côté web de 29 % à 33 % par rapport aux cadres existants. Sur des GPU grand public comme Intel, Apple et Nvidia, le débit de décodage a été amélioré en moyenne de 45 % à 69 %. La démonstration côté web utilise la bibliothèque open source wllama, et les optimisations de bas niveau récemment réalisées ont permis d'obtenir une gestion de la mémoire vidéo encore meilleure que celle décrite dans l'article. llama.cpp peut également être compilé localement en utilisant Dawn via WebGPU en C++ de Google, fournissant une référence pour la comparaison des performances de bas niveau entre Vulkan et WebGPU. （Source : BlockBeats）

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

13 J'aime

Récompense
13
10
2
Partager

Commentaire

Ajouter un commentaire

UnderTheGlassDome

· Il y a 6h

ggml cette adaptation WebGPU est vraiment soignée, une réduction de 29 % de la mémoire vidéo c'est impressionnant

Voir l'originalRépondre0

StargazerInTheWoods

· Il y a 7h

La plus grande barrière à la popularisation de WebGPU est-elle la prise en charge par Safari ?

Voir l'originalRépondre0

MountainBeforeTheStorm

· Il y a 7h

L'inférence pure côté client signifie que mon historique de chat n'a plus besoin d'être stocké dans le cloud.

Voir l'originalRépondre0

OwlMarketMonitoringLamp

· Il y a 8h

Enfin, il est possible d'exécuter un grand modèle local dans le navigateur, la communauté soucieuse de la vie privée est ravie

Voir l'originalRépondre0

BridgeHopRanger

· Il y a 8h

À l'avenir, Chrome sera mon IDE d'IA.

Voir l'originalRépondre0

APuppyInTheWarmSun

· Il y a 8h

Amélioration du débit de 45-69 %, l'expérience sur le web doit connaître une transformation qualitative

Voir l'originalRépondre0

LpGrandma

· Il y a 8h

Format GGUF + WebGPU, l'écosystème llama.cpp devient de plus en plus complet

Voir l'originalRépondre0

AirdropArchivist

· Il y a 8h

Ce rythme de publication, l'équipe llama.cpp ne dort vraiment pas.

Voir l'originalRépondre0

RetroRadioEcho

· Il y a 8h

La planification de la mémoire statique, ce terme technique, donne l'impression d'économiser de la mémoire vidéo.

Voir l'originalRépondre0

ReboundAtTheStreetCornerAfter

· Il y a 8h

Dawn compile cette voie pour laisser une porte dérobée aux joueurs hardcore, avis favorable

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
269.71K Popularité
#
PlatinumCardCreatorExclusive
80K Popularité
#
IsraelStrikesIranBTCPlunges
48.62K Popularité
#
#DailyPolymarketHotspot
1.03M Popularité
#
GateSquarePizzaDay
1.75M Popularité

Épinglé

llama.cpp prend officiellement en charge WebGPU, la mémoire vidéo pour l'inférence côté navigateur chute de plus de 30 %

Sujets populaires

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Épinglé