Tether AI anunciou que irá integrar o TurboQuant de código aberto na SDK QVAC 0.12.0.


O TurboQuant, inicialmente proposto pelo Google Research, pode comprimir a memória de cache KV necessária para executar grandes modelos até 5 vezes, permitindo o funcionamento de contextos mais longos, documentos maiores e diálogos de maior duração em dispositivos locais.
A Tether afirmou que essa tecnologia será aplicada em laptops, smartphones, dispositivos de borda e redes de IA descentralizadas, como parte de sua estratégia de promover a IA local e descentralizada.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 13
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
ReflectionsOnTheStreetCorner
· 4h atrás
Se puder comprimir 5 vezes mantendo a precisão, é provável que essa abordagem tecnológica seja rapidamente adotada pelos principais frameworks.
Ver originalResponder0
LeverageLatte
· 4h atrás
A conversa de documentos longos no telemóvel finalmente já não precisa de enviar dados sensíveis na nuvem, os defensores da privacidade estão em êxtase
Ver originalResponder0
MirrorBallReflection
· 4h atrás
Significa que uma compressão de 5 vezes permitirá que o meu antigo portátil também execute localmente o modelo 7B? Ansioso pelo QVAC 0.12.0
Ver originalResponder0
GateUser-a9315d81
· 4h atrás
A compressão do cache KV em 5 vezes, quanto aumentará a latência de inferência? Existe algum benchmark?
Ver originalResponder0
GateUser-6857a9c9
· 4h atrás
A rede descentralizada de IA precisa desse tipo de otimização de borda, reduzindo simultaneamente a largura de banda e o armazenamento.
Ver originalResponder0
GateUser-665eb149
· 4h atrás
A base do Google Research + a implementação do Tether, esta combinação tem um pouco de interesse
Ver originalResponder0
ContrarianIndicatorBonsai
· 4h atrás
Finalmente é possível executar longas conversas no telemóvel, a compressão do TurboQuant é realmente excelente
Ver originalResponder0
PerpetualKing
· 4h atrás
Basta avançar 👊
Ver originalResponder0
PerpetualKing
· 4h atrás
Basta avançar 👊
Ver originalResponder0
PerpetualKing
· 4h atrás
Basta avançar 👊
Ver originalResponder0
Ver mais
  • Fixado