Um projeto de código aberto muito interessante, AirLLM


Otimiza o uso de memória na inferência, permitindo que grandes modelos de 70B rodem em uma GPU com apenas 4G de memória de vídeo
Sem quantização, destilação ou poda.
Executando um Llama3.1 de 405B em 8G de memória de vídeo
Quero mais o GLM 5.2. Não seria possível que minha memória compartilhada de mais de 40G também rodasse um de 700+B?
Star🌟 21.3k
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários