llama.cpp e o backend oficial do ggml para WebGPU foram lançados oficialmente, permitindo que navegadores executem modelos GGUF acelerados por GPU local, totalmente no lado do dispositivo, sem vazamento de dados, garantindo inferência privada sem configuração. O artigo afirma que o planejamento de memória estática e o carregamento eficiente reduzem o uso de memória de vídeo na web em 29–33%, com um aumento de 45–69% na taxa de decodificação em dispositivos Intel, Apple e Nvidia. A demonstração baseada em wllama, com otimizações de baixo nível que superam as expectativas do artigo. Também é possível compilar localmente usando Google C++ WebGPU Dawn, fornecendo benchmarks comparativos entre Vulkan e WebGPU.

MeNews

2026-05-22 13:03:46

Geração de resumo em curso

ME AI Mensagem, de acordo com o monitoramento do Beating, o backend oficial WebGPU do llama.cpp e ggml foi lançado oficialmente, suportando a execução direta de grandes modelos no formato GGUF acelerados por GPU local no navegador. O novo backend eliminou a dependência de clientes nativos específicos ou arquiteturas WebAssembly complexas, realizando inferência de privacidade puramente no lado do dispositivo, sem que os dados saiam do equipamento, abrindo uma entrada de poder de processamento local sem configuração para o ecossistema web.
O artigo relacionado publicado em 20 de maio aponta que o backend WebGPU introduz planejamento de memória estática e mecanismos eficientes de carregamento de modelos, reduzindo o consumo de memória de vídeo durante a execução no navegador em 29% a 33% em relação aos frameworks existentes.
Em dispositivos GPU mainstream como Intel, Apple e Nvidia, a taxa de transferência de decodificação aumentou em média de 45% a 69%.
A demonstração no navegador foi baseada na biblioteca de código aberto wllama, e as otimizações de baixo nível recentemente implementadas alcançaram um controle de memória de vídeo melhor do que o descrito na publicação.
O llama.cpp também pode ser compilado nativamente usando Dawn, uma implementação WebGPU em C++ do Google, fornecendo uma referência para comparação de desempenho entre Vulkan e WebGPU.
（Fonte: BlockBeats）

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

13 gostos

Recompensa
13
10
2
Partilhar

Comentar

Adicionar um comentário

UnderTheGlassDome

· 4h atrás

A adaptação do ggml para WebGPU nesta fase está realmente detalhada, a redução de 29% na memória de vídeo é bastante significativa

Ver originalResponder0

StargazerInTheWoods

· 5h atrás

O maior obstáculo para a popularização do WebGPU é o suporte do Safari?

Ver originalResponder0

MountainBeforeTheStorm

· 5h atrás

A inferência puramente local significa que o meu histórico de chat finalmente não precisa mais ser enviado para a nuvem

Ver originalResponder0

OwlMarketMonitoringLamp

· 6h atrás

Finalmente é possível executar modelos grandes locais no navegador, os defensores da privacidade estão em êxtase

Ver originalResponder0

BridgeHopRanger

· 6h atrás

No futuro, o Chrome será o meu IDE de IA.

Ver originalResponder0

APuppyInTheWarmSun

· 6h atrás

Aumento de 45-69% na capacidade de processamento, a experiência na web precisa de uma mudança qualitativa

Ver originalResponder0

LpGrandma

· 6h atrás

Formato GGUF + WebGPU, o ecossistema llama.cpp torna-se cada vez mais completo

Ver originalResponder0

AirdropArchivist

· 6h atrás

Este ritmo de lançamento, a equipa do llama.cpp realmente não dorme, hein

Ver originalResponder0

RetroRadioEcho

· 6h atrás

A expressão técnica de planeamento de memória estática soa como se economizasse memória de vídeo

Ver originalResponder0

ReboundAtTheStreetCornerAfter

· 6h atrás

A compilação Dawn deixa uma porta dos fundos para os jogadores hardcore, avaliação positiva

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
267.96K Popularidade
#
PlatinumCardCreatorExclusive
79.69K Popularidade
#
IsraelStrikesIranBTCPlunges
48.62K Popularidade
#
#DailyPolymarketHotspot
1.03M Popularidade
#
GateSquarePizzaDay
609.35K Popularidade

Fixado

llama.cpp passa a suportar oficialmente WebGPU, a inferência no navegador reduz o uso de memória de vídeo em mais de 30%

Tópicos em destaque

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado