Tencent Hunyuan propõe o algoritmo de atenção esparsa Stem, reduzindo a latência do primeiro caractere em 3,6 vezes

Notícias do Mars Finance 5 de junho: Tencent Hun Yuan anunciou a proposta do algoritmo de atenção esparsa Stem, que já foi incluído na conferência de aprendizado de máquina ICML-26. Com base no esquema de aceleração de pilha completa do algoritmo Stem × HPC, no nível do algoritmo, o Stem realiza uma precisão quase sem perdas com um orçamento de 25% por meio de atenuação de posição de token (TPD) e métrica de percepção de saída (OAM); no nível do operador, o operador Stem+BSA de código aberto do HPC transforma os benefícios esparsos em aceleração de hardware real, reduzindo a latência do primeiro byte em 3,7 vezes em um contexto de cerca de 128K. (Observação ampla)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado