llama.cpp e o backend oficial do ggml para WebGPU foram lançados oficialmente, permitindo que navegadores executem grandes modelos GGUF acelerados por GPU local, totalmente no lado do dispositivo, sem vazamento de dados, garantindo inferência privada sem configuração. O artigo afirma que o planejamento de memória estática e o carregamento eficiente reduzem o uso de memória de vídeo na web em 29–33%, e aumentam a taxa de decodificação em dispositivos Intel, Apple e Nvidia em 45–69%. A demonstração baseada em wllama, com otimizações de baixo nível que superam as expectativas do artigo. Também é possível compilar localmente usando Google C++ WebGPU Dawn, fornecendo benchmarks comparativos entre Vulkan e WebGPU.

MeNews

2026-05-22 13:03:46

Geração do resumo em andamento

ME AI Mensagem, de acordo com o monitoramento Beating, o backend oficial WebGPU do llama.cpp e ggml foi lançado oficialmente, suportando a execução direta de grandes modelos no formato GGUF acelerados por GPU local no navegador. O novo backend eliminou a dependência de clientes nativos específicos ou arquiteturas WebAssembly complexas, realizando inferência de privacidade puramente no lado do dispositivo, sem dados saindo do equipamento, abrindo uma entrada de poder de processamento local sem configuração para o ecossistema web. Um artigo publicado em 20 de maio aponta que o backend WebGPU introduz planejamento de memória estática e mecanismos eficientes de carregamento de modelos, reduzindo o consumo de memória de vídeo durante a execução no navegador em 29% a 33% em relação aos frameworks existentes. Em GPUs mainstream como Intel, Apple e Nvidia, a taxa de transferência de decodificação aumentou em média de 45% a 69%. A demonstração no navegador foi baseada na biblioteca de código aberto wllama, e as otimizações de baixo nível recentemente implementadas alcançaram um controle de memória de vídeo melhor do que o descrito na publicação. O llama.cpp também pode ser compilado nativamente usando Dawn via WebGPU em C++ do Google, fornecendo uma referência de avaliação de desempenho entre Vulkan e WebGPU. （Fonte: BlockBeats）

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

15 Curtidas

Recompensa
15
14
2
Compartilhar

Comentário

Adicionar um comentário

OrderflowOtter

· 05-24 22:55

Três palavras de configuração zero me atingiram demais, antes de ficar louco tentando implantar localmente

Ver originalResponder0

PopFruitCollage

· 05-24 07:21

wllama demonstra que é melhor que o artigo? Equipe de otimização de baixo nível ganha recompensa

Ver originalResponder0

SilverLiningOfPessimism

· 05-24 03:48

Vulkan vs WebGPU teste de benchmark no dispositivo rápido, quero ver a disputa

Ver originalResponder0

BittersweetArb

· 05-23 21:17

Entre Intel, Apple e Nvidia, essas três empresas, essa compatibilidade me faz chorar até morrer

Ver originalResponder0

UnderTheGlassDome

· 05-22 15:09

A adaptação do ggml para WebGPU foi realmente detalhada, uma redução de 29% no uso de memória de vídeo é bastante significativa

Ver originalResponder0

StargazerInTheWoods

· 05-22 13:32

O maior obstáculo para a popularização do WebGPU é o suporte do Safari?

Ver originalResponder0

MountainBeforeTheStorm

· 05-22 13:32

A inferência puramente local significa que meu histórico de conversas finalmente não precisa mais ser enviado para a nuvem

Ver originalResponder0

OwlMarketMonitoringLamp

· 05-22 13:15

Finalmente é possível rodar modelos grandes locais no navegador, os defensores da privacidade estão em êxtase

Ver originalResponder0

BridgeHopRanger

· 05-22 13:11

No futuro, o Chrome será meu IDE de IA.

Ver originalResponder0

APuppyInTheWarmSun

· 05-22 13:11

Aumento de 45-69% na capacidade de processamento, a experiência na web precisa de uma mudança qualitativa

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
StockTradingChallengeUpTo17000U
16.02M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
832.77K Popularidade
#
IsraelStrikesIranBTCPlunges
49.81K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M Popularidade
#
MicronMarketCapBreaks1Trillion
45.34K Popularidade

Fixado

sitemap

llama.cpp oficialmente suporta WebGPU, a inferência no navegador reduz o uso de memória de vídeo em mais de 30%

Tendências

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado