Tencent Hundun propõe o algoritmo de atenção esparsa Stem, reduzindo a latência do primeiro caractere em 3,6 vezes

Notícias do Mars Finance 5 de junho: Tencent Hun Yuan anunciou a proposta do algoritmo de atenção esparsa Stem, que já foi incluído na conferência de aprendizado de máquina ICML-26. De acordo com o plano de aceleração de pilha completa do algoritmo Stem × HPC, no nível do algoritmo, o Stem realiza uma precisão quase sem perdas com um orçamento de 25% através de atenuação de posição de token (TPD) e métrica de percepção de saída (OAM); no nível do operador, o operador Stem+BSA de código aberto HPC transforma os benefícios esparsos em aceleração de hardware real, reduzindo a latência de primeira palavra em 3,7 vezes em um contexto de cerca de 128K. (Observação ampla)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado