Un proyecto de código abierto muy interesante, AirLLM


Optimiza el uso de memoria en inferencia, permitiendo que modelos grandes de 70B puedan ejecutarse en una sola tarjeta gráfica con 4G de memoria VRAM
Sin cuantificación, destilación ni poda.
Ejecutando un Llama3.1 de 405B en 8G de VRAM
Me gustaría más GLM 5.2. ¿No sería posible que mi memoria compartida de más de 40G también ejecute modelos de más de 700B?
Star🌟 21.3k
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios