Nova abordagem de código aberto para contexto longo, a ideia de triagem grosseira + cálculo preciso é bastante inteligente, e a mudança para atenção total durante o treinamento para evitar degradação também é cuidadosa

Ver original
MeNews
Nous open source Lighthouse Attention: single B200 roda 512K com 17 vezes de aceleração
AIMPACT afirma que a pesquisa Nous Research abriu o mecanismo de pré-treinamento de contexto longo Lighthouse Attention.
Apenas uma GPU B200 processa aproximadamente 17 vezes mais rápido textos de 512K, e com 98K o aumento de velocidade de ponta a ponta é de 1,4 a 1,7 vezes.
Esse mecanismo realiza uma triagem grosseira seguida de uma análise detalhada, filtrando os trechos principais por meio de resumos em múltiplos níveis e combinando-os em textos curtos, que são então processados pelo FlashAttention;
a lógica de filtragem está fora do núcleo, eliminando a necessidade de código de baixo nível e objetivos de treinamento adicionais.
Para evitar que o salto de leitura do modelo prejudique a capacidade de leitura palavra por palavra, durante o treinamento a maior parte do processamento é feita em modo acelerado, retornando ao modo de atenção total por um curto período no final.
Em experimentos com 530 milhões de parâmetros e 50 bilhões de tokens, o tempo de processamento caiu significativamente e o desempenho final foi comparável ou até superior ao de métodos tradicionais.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado