Nous Research lança o Lighthouse Attention, aceleração de 1,4 a 1,7 vezes no pré-treinamento de sequências longas

AIMPACT mensagem, 17 de maio (UTC+8), a Nous Research lançou o método Lighthouse Attention, que resolve o problema do crescimento quadrático do custo de cálculo de atenção em pré-treinamentos de sequências longas através de um mecanismo de atenção hierárquica seletiva.
Este método realiza uma pooling simétrica em Query, Key e Value, com a lógica de seleção fora do núcleo de atenção, podendo reutilizar o núcleo FlashAttention, e adota uma estratégia de treinamento em duas fases.
Testes práticos na NVIDIA B200 mostraram uma aceleração de 21 vezes na propagação direta com comprimento de contexto de cerca de 512K, uma aceleração combinada de 17,3 vezes na propagação direta + retropropagação, com uma taxa de throughput na primeira fase de 126.000 tokens/s/GPU (vs 46.000 do SDPA denso), uma aceleração de ponta a ponta de 1,40× a 1,69×, mantendo ou reduzindo o loss de treinamento.
Verificado em um modelo estilo Llama-3 com 530 milhões de parâmetros, três conjuntos de Lighthouse apresentaram um loss final (0,698-0,71) melhor que o benchmark SDPA denso treinado do zero (0,7237), economizando de 22,5 a 27 horas de treinamento.
Artigo arXiv:2605.06554.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado