Tether AI annonce l'intégration de TurboQuant open source dans le SDK QVAC 0.12.0. TurboQuant, initialement proposé par Google Research, peut compresser la mémoire cache KV nécessaire au fonctionnement des grands modèles jusqu'à 5 fois, permettant ainsi un contexte plus long, des documents plus volumineux et des conversations plus longues en local. Tether indique que cette technologie sera adaptée aux ordinateurs portables, téléphones, appareils en périphérie et réseaux d'IA décentralisés, en tant que partie de sa stratégie de promotion de l'IA localisée et décentralisée.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 13
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
ReflectionsOnTheStreetCorner
· Il y a 4h
Si la compression par un facteur de 5 peut encore préserver la précision, cette approche technologique sera probablement rapidement adoptée par les cadres principaux
Voir l'originalRépondre0
LeverageLatte
· Il y a 4h
La conversation longue sur mobile n'a enfin plus besoin de transmettre des données sensibles dans le cloud, la communauté soucieuse de la vie privée est ravie
Voir l'originalRépondre0
MirrorBallReflection
· Il y a 4h
Une compression de 5 fois signifie que mon ancien ordinateur portable pourra également faire tourner le modèle 7B localement ? J'attends avec impatience QVAC 0.12.0
Voir l'originalRépondre0
GateUser-a9315d81
· Il y a 4h
La compression du cache KV par un facteur de 5, combien la latence d'inférence augmenterait-elle ? Y a-t-il des benchmarks ?
Voir l'originalRépondre0
GateUser-6857a9c9
· Il y a 4h
Ce type d'optimisation en périphérie est ce dont un réseau d'IA décentralisé a besoin, réduisant à la fois la bande passante et le stockage.
Voir l'originalRépondre0
GateUser-665eb149
· Il y a 4h
Les bases de Google Research + la mise en œuvre de Tether, cette combinaison est plutôt intéressante
Voir l'originalRépondre0
ContrarianIndicatorBonsai
· Il y a 4h
Enfin capable d'exécuter de longues conversations sur mobile, la compression de TurboQuant est vraiment efficace
Voir l'originalRépondre0
PerpetualKing
· Il y a 4h
Il suffit de foncer 👊
Voir l'originalRépondre0
PerpetualKing
· Il y a 5h
Il suffit de foncer 👊
Voir l'originalRépondre0
PerpetualKing
· Il y a 5h
Il suffit de foncer 👊
Voir l'originalRépondre0
Afficher plus
  • Épinglé