ÚLTIMA HORA: Google presentó TurboQuant, una técnica que busca comprimir la memoria de trabajo de los modelos de lenguaje sin pérdida de información.


Si llega a producción como sugiere la investigación, podría aliviar uno de los principales cuellos de botella en la IA actual: el costo y la escasez de memoria necesaria para manejar contextos largos, agentes y cargas de trabajo de inferencia masivas.
TurboQuant pretende reducir el uso de caché KV hasta seis veces y acelerar el procesamiento en chip hasta ocho veces sin pérdida de datos.
Ver originales
post-image
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado