llama.cpp passa a suportar oficialmente WebGPU, a inferência no navegador reduz o uso de memória de vídeo em mais de 30%

robot
Geração de resumo em curso
ME AI Mensagem, de acordo com o monitoramento do Beating, o backend oficial WebGPU do llama.cpp e ggml foi lançado oficialmente, suportando a execução direta de grandes modelos no formato GGUF acelerados por GPU local no navegador. O novo backend eliminou a dependência de clientes nativos específicos ou arquiteturas WebAssembly complexas, realizando inferência de privacidade puramente no lado do dispositivo, sem que os dados saiam do equipamento, abrindo uma entrada de poder de processamento local sem configuração para o ecossistema web.
O artigo relacionado publicado em 20 de maio aponta que o backend WebGPU introduz planejamento de memória estática e mecanismos eficientes de carregamento de modelos, reduzindo o consumo de memória de vídeo durante a execução no navegador em 29% a 33% em relação aos frameworks existentes.
Em dispositivos GPU mainstream como Intel, Apple e Nvidia, a taxa de transferência de decodificação aumentou em média de 45% a 69%.
A demonstração no navegador foi baseada na biblioteca de código aberto wllama, e as otimizações de baixo nível recentemente implementadas alcançaram um controle de memória de vídeo melhor do que o descrito na publicação.
O llama.cpp também pode ser compilado nativamente usando Dawn, uma implementação WebGPU em C++ do Google, fornecendo uma referência para comparação de desempenho entre Vulkan e WebGPU.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 10
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
UnderTheGlassDome
· 4h atrás
A adaptação do ggml para WebGPU nesta fase está realmente detalhada, a redução de 29% na memória de vídeo é bastante significativa
Ver originalResponder0
StargazerInTheWoods
· 5h atrás
O maior obstáculo para a popularização do WebGPU é o suporte do Safari?
Ver originalResponder0
MountainBeforeTheStorm
· 5h atrás
A inferência puramente local significa que o meu histórico de chat finalmente não precisa mais ser enviado para a nuvem
Ver originalResponder0
OwlMarketMonitoringLamp
· 6h atrás
Finalmente é possível executar modelos grandes locais no navegador, os defensores da privacidade estão em êxtase
Ver originalResponder0
BridgeHopRanger
· 6h atrás
No futuro, o Chrome será o meu IDE de IA.
Ver originalResponder0
APuppyInTheWarmSun
· 6h atrás
Aumento de 45-69% na capacidade de processamento, a experiência na web precisa de uma mudança qualitativa
Ver originalResponder0
LpGrandma
· 6h atrás
Formato GGUF + WebGPU, o ecossistema llama.cpp torna-se cada vez mais completo
Ver originalResponder0
AirdropArchivist
· 6h atrás
Este ritmo de lançamento, a equipa do llama.cpp realmente não dorme, hein
Ver originalResponder0
RetroRadioEcho
· 6h atrás
A expressão técnica de planeamento de memória estática soa como se economizasse memória de vídeo
Ver originalResponder0
ReboundAtTheStreetCornerAfter
· 6h atrás
A compilação Dawn deixa uma porta dos fundos para os jogadores hardcore, avaliação positiva
Ver originalResponder0
Ver mais
  • Fixado