Executar grandes modelos localmente finalmente não precisa mais depender da nuvem, compressão de 5 vezes mantendo a qualidade, a abertura do TurboQuant é realmente uma arma para os desenvolvedores de dispositivos de borda.

Ver original
MarsBitNews
Tether abre o código do TurboQuant, dispositivo AI local, a taxa de compressão do cache KV pode atingir até 5 vezes
Tether AI anuncia a abertura do código da versão de produção do TurboQuant e sua integração ao SDK QVAC 0.12.0. TurboQuant é baseado no algoritmo de compressão de memória do Google Research, permitindo que o cache de KV de tempo de execução de IA seja comprimido até 5 vezes, com qualidade de saída próxima à não comprimida. Essa tecnologia permite que laptops, celulares e dispositivos de borda processem diálogos mais longos e arquivos maiores sem precisar da nuvem. Este lançamento inclui uma linha de produção completa de quantização, adaptador de estrutura de inferência e documentação de desenvolvimento, voltados para desenvolvedores e startups em hardware de consumo, dispositivos de borda e redes ponto a ponto.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado