Nous open source Lighthouse Attention:single B200 roda 512K com 17 vezes de aceleração

robot
Geração do resumo em andamento
AIMPACT mensagem, 16 de maio (UTC+8), de acordo com o monitoramento do Beating do Dongcha, a Nous Research lançou o mecanismo de pré-treinamento de contexto longo Lighthouse Attention. Ao processar textos de 512K de comprimento em uma única GPU B200, essa solução é aproximadamente 17 vezes mais rápida do que o mecanismo tradicional, e alcançou uma aceleração de 1,4 a 1,7 vezes no treinamento de ponta a ponta em textos de 98K de comprimento.
O mecanismo de atenção tradicional precisa calcular todas as relações de pares de palavras, e quanto maior o texto, maior será o consumo de poder de processamento, crescendo de forma quadrática.
O Lighthouse Attention usa uma abordagem de triagem rápida seguida de cálculo preciso.
Ele primeiro faz uma varredura rápida nos resumos comprimidos do texto em diferentes níveis, pontuando e selecionando os trechos principais para formar um texto curto, que é então enviado diretamente para o operador eficiente FlashAttention.
Como a lógica de triagem foi completamente separada do núcleo, os desenvolvedores economizam o trabalho de escrever código de baixo nível manualmente, além de não precisar adicionar objetivos de treinamento extras.
Soluções de aceleração semelhantes adotadas no passado frequentemente tinham efeitos colaterais, pois o modelo, ao aprender a pular partes, facilmente perdia a capacidade de leitura detalhada palavra por palavra.
Para evitar essa armadilha, a equipe de desenvolvimento fez o modelo rodar na modo acelerado para completar a maior parte do progresso, retornando temporariamente ao cálculo tradicional de atenção completa apenas no final do treinamento para adaptação.
Nos testes com um modelo de 530 milhões de parâmetros treinado com 50 bilhões de tokens de dados, esse método de treinamento não só reduziu significativamente o tempo gasto, mas também alcançou um desempenho que igualou ou até superou a versão de referência treinada inteiramente com o método tradicional.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 9
  • 2
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
PartiallyMeltedIceCream
· 1h atrás
Aceleração de 17 vezes é um pouco exagerada, mas 98K é apenas 1,4 a 1,7 vezes, parece que quanto mais longo, maior o benefício.
Ver originalResponder0
ACalmnessWithAHintOfPomelo
· 2h atrás
Resumir textos curtos em múltiplos níveis e depois descartar o FlashAttention, essa dica de engenharia é muito inteligente
Ver originalResponder0
GateUser-8ca669fd
· 2h atrás
A competição de contexto longo entrou na fase de otimização de engenharia, mais interessante do que os parâmetros de pilha
Ver originalResponder0
TidalShell
· 2h atrás
É um pouco surpreendente que a linha de base tradicional tenha sido superada, achando que a aceleração sempre exigiria sacrificar a qualidade
Ver originalResponder0
GateUser-318a7dc8
· 2h atrás
Com 5,3 bilhões de parâmetros, já é possível validar, equipes pequenas também podem acompanhar
Ver originalResponder0
GateUser-d6fb8ff1
· 2h atrás
Vamos colocar o código para testar quantos K minha 4090 consegue suportar
Ver originalResponder0
Glass-HeartMarketMaker
· 2h atrás
Eliminar objetivos de treinamento adicionais es demasiado crucial, de lo contrario, incluso si se abre el código, nadie podrá entrenarlo.
Ver originalResponder0
OrderbookOtter
· 2h atrás
O nome Lighthouse foi bem escolhido, primeiro ilumina o ponto principal e depois examina com mais detalhes
Ver originalResponder0
TokenTinkerTao
· 2h atrás
B200 single card 512K, no futuro, o custo para indivíduos rodarem documentos longos com RAG caiu
Ver originalResponder0
Ver projetos
  • Fixado