Lighthouse Attention esta abordagem é bastante engenhosa, faz uma triagem inicial antes de refinar, colocando o contexto longo dentro da zona de conforto do FlashAttention, sem precisar alterar a camada CUDA subjacente, rodando 512K em uma única GPU B200 com 17 vezes mais rapidez, e ao final do treino volta a usar atenção total para manter a precisão, o que demonstra um bom senso de engenharia

Ver original
MeNews
Nous de código aberto Lighthouse Attention: único B200 roda 512K com aumento de velocidade de 17 vezes
AIMPACT afirma que a pesquisa Nous Research abriu o mecanismo de pré-treinamento de contexto longo Lighthouse Attention. Com uma única GPU B200, processa aproximadamente 17 vezes mais rápido textos de 512K, e com 98K, acelera de ponta a ponta entre 1,4 e 1,7 vezes. Este mecanismo realiza uma triagem grosseira seguida de uma análise detalhada, filtrando os trechos centrais através de múltiplos níveis de resumo e combinando-os em textos curtos, que são então processados pelo FlashAttention; a lógica de triagem está fora do núcleo, eliminando a necessidade de código de baixo nível e objetivos de treinamento adicionais. Para evitar que o salto de leitura do modelo prejudique a capacidade de leitura palavra por palavra, durante o treinamento, a maior parte é concluída usando um modo acelerado, retornando temporariamente à atenção total no final. Em experimentos com 530 milhões de parâmetros e 50 bilhões de tokens, o tempo de processamento diminuiu significativamente e o desempenho final foi comparável ou até superior ao de métodos tradicionais.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado