llama.cpp oficialmente suporta WebGPU, a inferência no navegador reduz o uso de memória de vídeo em mais de 30%

robot
Geração do resumo em andamento
ME AI Mensagem, de acordo com o monitoramento Beating, o backend oficial WebGPU do llama.cpp e ggml foi lançado oficialmente, suportando a execução direta de grandes modelos no formato GGUF acelerados por GPU local no navegador. O novo backend eliminou a dependência de clientes nativos específicos ou arquiteturas WebAssembly complexas, realizando inferência de privacidade puramente no lado do dispositivo, sem dados saindo do equipamento, abrindo uma entrada de poder de processamento local sem configuração para o ecossistema web. Um artigo publicado em 20 de maio aponta que o backend WebGPU introduz planejamento de memória estática e mecanismos eficientes de carregamento de modelos, reduzindo o consumo de memória de vídeo durante a execução no navegador em 29% a 33% em relação aos frameworks existentes. Em GPUs mainstream como Intel, Apple e Nvidia, a taxa de transferência de decodificação aumentou em média de 45% a 69%. A demonstração no navegador foi baseada na biblioteca de código aberto wllama, e as otimizações de baixo nível recentemente implementadas alcançaram um controle de memória de vídeo melhor do que o descrito na publicação. O llama.cpp também pode ser compilado nativamente usando Dawn via WebGPU em C++ do Google, fornecendo uma referência de avaliação de desempenho entre Vulkan e WebGPU. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 14
  • 2
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
OrderflowOtter
· 05-24 22:55
Três palavras de configuração zero me atingiram demais, antes de ficar louco tentando implantar localmente
Ver originalResponder0
PopFruitCollage
· 05-24 07:21
wllama demonstra que é melhor que o artigo? Equipe de otimização de baixo nível ganha recompensa
Ver originalResponder0
SilverLiningOfPessimism
· 05-24 03:48
Vulkan vs WebGPU teste de benchmark no dispositivo rápido, quero ver a disputa
Ver originalResponder0
BittersweetArb
· 05-23 21:17
Entre Intel, Apple e Nvidia, essas três empresas, essa compatibilidade me faz chorar até morrer
Ver originalResponder0
UnderTheGlassDome
· 05-22 15:09
A adaptação do ggml para WebGPU foi realmente detalhada, uma redução de 29% no uso de memória de vídeo é bastante significativa
Ver originalResponder0
StargazerInTheWoods
· 05-22 13:32
O maior obstáculo para a popularização do WebGPU é o suporte do Safari?
Ver originalResponder0
MountainBeforeTheStorm
· 05-22 13:32
A inferência puramente local significa que meu histórico de conversas finalmente não precisa mais ser enviado para a nuvem
Ver originalResponder0
OwlMarketMonitoringLamp
· 05-22 13:15
Finalmente é possível rodar modelos grandes locais no navegador, os defensores da privacidade estão em êxtase
Ver originalResponder0
BridgeHopRanger
· 05-22 13:11
No futuro, o Chrome será meu IDE de IA.
Ver originalResponder0
APuppyInTheWarmSun
· 05-22 13:11
Aumento de 45-69% na capacidade de processamento, a experiência na web precisa de uma mudança qualitativa
Ver originalResponder0
Ver projetos