Executar grandes modelos no navegador finalmente já não depende da cara dos fornecedores de serviços em nuvem, GPU local a decolar diretamente

Ver original
MeNews
llama.cpp passa a suportar oficialmente WebGPU, a inferência no navegador reduz o uso de memória de vídeo em mais de 30%
llama.cpp e o backend oficial do ggml para WebGPU foram lançados oficialmente, permitindo que navegadores executem modelos GGUF acelerados por GPU local, totalmente no lado do dispositivo, sem vazamento de dados, garantindo inferência privada sem configuração.
O artigo afirma que o planejamento de memória estática e o carregamento eficiente reduzem o uso de memória de vídeo na web em 29–33%, com um aumento de 45–69% na taxa de decodificação em dispositivos Intel, Apple e Nvidia.
A demonstração baseada em wllama, com otimizações de baixo nível que superam as expectativas do artigo.
Também é possível compilar localmente usando Google C++ WebGPU Dawn, fornecendo benchmarks comparativos entre Vulkan e WebGPU.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado