Um projeto de código aberto muito interessante, AirLLM


Otimiza o uso de memória na inferência, permitindo que grandes modelos de 70B rodem em uma única GPU com 4G de VRAM
Sem quantização, destilação ou poda.
Executando um Llama3.1 de 405B com 8G de VRAM
Estou mais interessado no GLM 5.2. Não seria possível que minha memória compartilhada de mais de 40G também rodasse um de 700+B?
Star🌟 21.3k
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado