Executar grandes modelos localmente finalmente não depende de olhar para o estado da nuvem, compressão de 5 vezes mantendo a qualidade, a abertura do TurboQuant é realmente uma arma para os desenvolvedores de dispositivos de borda.

Ver original
MarsBitNews
Tether abre o código do TurboQuant, o cache KV de dispositivos AI locais pode atingir uma taxa de compressão de até 5 vezes
Tether AI anuncia a abertura do código da versão de produção do TurboQuant e sua integração no SDK QVAC 0.12.0.
TurboQuant é baseado no algoritmo de compressão de memória do Google Research, permitindo que o cache de KV de tempo de execução de IA seja comprimido até 5 vezes, com qualidade de saída próxima à não comprimida.
Essa tecnologia permite que laptops, telefones e dispositivos de borda processem diálogos mais longos e arquivos maiores sem precisar da nuvem.
Este lançamento inclui uma linha de produção completa de quantização, adaptador de estrutura de inferência e documentação de desenvolvimento, voltados para desenvolvedores e startups em hardware de consumo, dispositivos de borda e redes ponto a ponto.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado