Faire tourner de grands modèles localement ne nécessite plus de regarder la réaction du cloud, une compression 5 fois plus petite tout en conservant la qualité, cette vague d'open source de TurboQuant est vraiment une bénédiction pour les développeurs d'appareils en périphérie.

Voir l'original
MarsBitNews
Tether open source TurboQuant, la mise en cache KV des appareils AI locaux peut atteindre un taux de compression allant jusqu'à 5 fois
Tether AI annonce l'open source de la version de production TurboQuant et son intégration dans le SDK QVAC 0.12.0. TurboQuant est basé sur l'algorithme de compression de mémoire de Google Research, permettant une compression jusqu'à 5 fois du cache KV en temps d'exécution AI, avec une qualité de sortie proche de celle sans compression. Cette technologie permet aux ordinateurs portables, téléphones et appareils en périphérie de traiter des dialogues plus longs et des fichiers plus volumineux sans cloud. Cette publication comprend une pipeline de quantification complète, un adaptateur de cadre d'inférence et une documentation de développement, destinés aux développeurs et startups sur du matériel grand public, des appareils en périphérie et des réseaux peer-to-peer.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé