Ejecutar modelos grandes localmente finalmente ya no requiere depender de la nube, compresión de 5 veces que aún mantiene la calidad, TurboQuant en esta oleada de código abierto realmente está lanzando una pistola a los desarrolladores de dispositivos en el borde.

Ver original
MarsBitNews
Tether abre código abierto TurboQuant, la caché KV de dispositivos AI locales puede alcanzar una compresión de hasta 5 veces
Tether AI anuncia la apertura del código de la versión de producción de TurboQuant e integración en QVAC SDK 0.12.0. TurboQuant se basa en el algoritmo de compresión de memoria de Google Research, permitiendo que la caché KV en tiempo de ejecución de IA sea comprimible hasta 5 veces, con una calidad de salida cercana a la sin comprimir. Esta tecnología permite a laptops, teléfonos móviles y dispositivos en el borde procesar diálogos más largos y archivos más grandes sin necesidad de la nube. Este lanzamiento incluye una línea de producción completa, adaptadores de marco de inferencia y documentación de desarrollo, dirigido a desarrolladores y startups en hardware de consumo, dispositivos en el borde y redes punto a punto.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado