Hugging Face retuitea la herramienta turboquant-gpu, que afirma ofrecer una compresión de caché KV de 5.02 veces

robot
Generación de resúmenes en curso

ME News Noticias, 6 de abril (UTC+8), Hugging Face retuiteó recientemente un mensaje publicado por anirudhbv_ce, anunciando el lanzamiento de la herramienta turboquant-gpu. La herramienta afirma poder ofrecer hasta 5.02 veces de compresión de caché KV en cualquier GPU (incluyendo RTX, H100, A100, B200). Según el artículo, sus características incluyen: compatibilidad con la biblioteca Hugging Face Transformers; API extremadamente sencilla, afirmando que solo se necesitan 3 líneas de código para comprimir y generar; uso de tecnología de compresión KV fusionada Lloyd-Max de 3 bits, y afirma alcanzar una similitud coseno de 0.98. El artículo opina que su rendimiento supera al de MXFP4 (compresión de 3.76 veces) y a otro esquema no nombrado. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado