Tether AI anuncia que integrará a implementação de código aberto TurboQuant no SDK QVAC 0.12.0. TurboQuant, originalmente proposto pelo Google Research, pode comprimir a memória de cache KV necessária durante a execução de grandes modelos em até 5 vezes, permitindo o funcionamento de contextos mais longos, documentos maiores e diálogos de maior duração em dispositivos locais. A Tether afirmou que essa tecnologia será aplicada em laptops, celulares, dispositivos de borda e redes de IA descentralizadas, como parte de sua estratégia de promover IA local e descentralizada.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 13
  • 2
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
ReflectionsOnTheStreetCorner
· 9h atrás
Se puder comprimir 5 vezes mantendo a precisão, essa abordagem tecnológica provavelmente será rapidamente adotada pelos principais frameworks.
Ver originalResponder0
LeverageLatte
· 9h atrás
A conversa de documentos longos no celular finalmente não precisa mais enviar dados sensíveis na nuvem, os defensores da privacidade estão em êxtase
Ver originalResponder0
MirrorBallReflection
· 9h atrás
Significa que uma compressão de 5x também permitirá que meu antigo notebook execute localmente o modelo 7B? Ansioso pelo QVAC 0.12.0
Ver originalResponder0
GateUser-a9315d81
· 9h atrás
A compressão do cache KV em 5 vezes, quanto o atraso de inferência aumentará? Existe algum benchmark?
Ver originalResponder0
GateUser-6857a9c9
· 9h atrás
A rede centralizada de IA precisa desse tipo de otimização de borda, reduzindo simultaneamente a largura de banda e o armazenamento
Ver originalResponder0
GateUser-665eb149
· 9h atrás
A base do Google Research + a implementação do Tether, essa combinação tem um pouco de sentido
Ver originalResponder0
ContrarianIndicatorBonsai
· 9h atrás
Finalmente é possível rodar longas conversas no celular, a taxa de compressão do TurboQuant realmente é excelente
Ver originalResponder0
PerpetualKing
· 10h atrás
É só ir com tudo 👊
Ver originalResponder0
PerpetualKing
· 10h atrás
É só avançar e pronto 👊
Ver originalResponder0
PerpetualKing
· 10h atrás
É só avançar e vencer 👊
Ver originalResponder0
Ver projetos
  • Fixado