Nous Research lança Lighthouse Attention, aceleração de pré-treinamento de sequências longas em 1,4 a 1,7 vezes

robot
Geração do resumo em andamento
AIMPACT mensagem, 17 de maio (UTC+8), Nous Research lançou o método Lighthouse Attention, que resolve o problema do crescimento quadrático do custo de cálculo de atenção em pré-treinamentos de sequências longas através de um mecanismo de atenção hierárquica seletiva.
Este método realiza uma pooling simétrica de Query, Key e Value, com a lógica de seleção fora do núcleo de atenção, podendo reutilizar o núcleo FlashAttention, e adota uma estratégia de treinamento em duas fases.
Testes práticos em NVIDIA B200 mostraram uma aceleração de 21 vezes na propagação direta com comprimento de contexto de cerca de 512K, uma aceleração combinada de 17,3 vezes na propagação direta + retropropagação, com uma taxa de throughput na primeira fase de 126 mil tokens/segundo/GPU (contra 46 mil do SDPA denso), uma aceleração de ponta a ponta de 1,40× a 1,69×, mantendo ou reduzindo o loss de treinamento.
Verificado em um modelo estilo Llama-3 com 530 milhões de parâmetros, três conjuntos de Lighthouse resultaram em loss final (0,698-0,71) melhores que o benchmark SDPA denso treinado do zero (0,7237), economizando de 22,5 a 27 horas de treinamento.
Artigo arXiv:2605.06554.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado