Nous de código aberto Lighthouse Attention:único B200 executa 512K com 17 vezes de aceleração

robot
Geração de resumo em curso
AIMPACT mensagem, 16 de maio (UTC+8), de acordo com o monitoramento do Beating da Dongcha, a Nous Research lançou o mecanismo de pré-treinamento de contexto longo Lighthouse Attention. Quando processa textos de 512K de comprimento numa única placa B200, essa solução é aproximadamente 17 vezes mais rápida do que o mecanismo tradicional, e atinge uma aceleração de 1,4 a 1,7 vezes no treinamento de ponta a ponta com comprimento de 98K.
O mecanismo de atenção tradicional precisa calcular todas as relações entre palavras, e quanto maior o texto, maior será o consumo de poder de processamento, crescendo ao quadrado.
O Lighthouse Attention usa uma abordagem de triagem rápida seguida de cálculo preciso.
Primeiro, ele percorre rapidamente resumos comprimidos do texto em diferentes níveis, pontuando e selecionando os trechos principais para formar um texto curto, que é então processado diretamente pelo operador eficiente FlashAttention.
Como a lógica de triagem foi completamente separada do núcleo, os desenvolvedores economizam o trabalho de escrever código de baixo nível manualmente, sem precisar adicionar objetivos de treinamento extras.
Soluções de aceleração semelhantes no passado frequentemente tinham efeitos colaterais, pois o modelo, ao aprender a pular partes, facilmente perdia a capacidade de leitura detalhada palavra por palavra.
Para evitar essa armadilha, a equipe de desenvolvimento fez o modelo rodar na modo acelerado na maior parte do tempo, retornando brevemente ao cálculo tradicional de atenção completa apenas no final do treinamento para adaptação.
Nos testes com um modelo de 530 milhões de parâmetros treinado com 50 bilhões de tokens de dados, esse método não só reduziu significativamente o tempo gasto, como também alcançou desempenho igual ou até superior à versão de referência treinada inteiramente com o método tradicional.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 9
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
PartiallyMeltedIceCream
· 1h atrás
Aceleração de 17 vezes é um pouco exagerada, mas 98K é apenas 1,4 a 1,7 vezes, parece que quanto mais longo, maior o benefício.
Ver originalResponder0
ACalmnessWithAHintOfPomelo
· 1h atrás
Resumir textos curtos em múltiplos níveis e depois descartar o FlashAttention, essa técnica engenhosa é muito inteligente
Ver originalResponder0
GateUser-8ca669fd
· 2h atrás
A competição de contexto longo entra na fase de otimização de engenharia, mais interessante do que os parâmetros de pilha
Ver originalResponder0
TidalShell
· 2h atrás
Superar a linha de base tradicional foi um pouco inesperado, achando que a aceleração sempre exigiria sacrificar a qualidade
Ver originalResponder0
GateUser-318a7dc8
· 2h atrás
Com 5,3 bilhões de parâmetros, já é possível validar, pequenas equipas também podem acompanhar.
Ver originalResponder0
GateUser-d6fb8ff1
· 2h atrás
Vamos colocar o código para testar quanto de K a minha 4090 consegue suportar
Ver originalResponder0
Glass-HeartMarketMaker
· 2h atrás
Eliminar objetivos de treino adicionais é demasiado crucial, senão, mesmo que seja de código aberto, ninguém vai conseguir treiná-lo.
Ver originalResponder0
OrderbookOtter
· 2h atrás
O nome Lighthouse foi bem escolhido, primeiro ilumina o ponto principal e depois observa com mais detalhes
Ver originalResponder0
TokenTinkerTao
· 2h atrás
B200 cartão único 512K, no futuro o custo de execução de documentos longos por indivíduos com RAG será reduzido
Ver originalResponder0
Ver mais
  • Fixado