AIMPACT mensagem, 16 de maio (UTC+8), de acordo com o monitoramento do Beating do Dongcha, a Nous Research lançou o mecanismo de pré-treinamento de contexto longo Lighthouse Attention. Ao processar textos de 512K de comprimento em uma única GPU B200, essa solução é aproximadamente 17 vezes mais rápida do que o mecanismo tradicional, e alcançou uma aceleração de 1,4 a 1,7 vezes no treinamento de ponta a ponta em textos de 98K de comprimento.
O mecanismo de atenção tradicional precisa calcular todas as relações de pares de palavras, e quanto maior o texto, maior será o consumo de poder de processamento, crescendo de forma quadrática.
O Lighthouse Attention usa uma abordagem de triagem rápida seguida de cálculo preciso.
Ele primeiro faz uma varredura rápida nos resumos comprimidos do texto em diferentes níveis, pontuando e selecionando os trechos principais para formar um texto curto, que é então enviado diretamente para o operador eficiente FlashAttention.
Como a lógica de triagem foi completamente separada do núcleo, os desenvolvedores economizam o trabalho de escrever código de baixo nível manualmente, além de não precisar adicionar objetivos de treinamento extras.
Soluções de aceleração semelhantes adotadas no passado frequentemente tinham efeitos colaterais, pois o modelo, ao aprender a pular partes, facilmente perdia a capacidade de leitura detalhada palavra por palavra.
Para evitar essa armadilha, a equipe de desenvolvimento fez o modelo rodar na modo acelerado para completar a maior parte do progresso, retornando temporariamente ao cálculo tradicional de atenção completa apenas no final do treinamento para adaptação.
Nos testes com um modelo de 530 milhões de parâmetros treinado com 50 bilhões de tokens de dados, esse método de treinamento não só reduziu significativamente o tempo gasto, mas também alcançou um desempenho que igualou ou até superou a versão de referência treinada inteiramente com o método tradicional.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

7 Curtidas

Recompensa
7
9
2
Compartilhar

Comentário

Adicionar um comentário

PartiallyMeltedIceCream

· 1h atrás

Aceleração de 17 vezes é um pouco exagerada, mas 98K é apenas 1,4 a 1,7 vezes, parece que quanto mais longo, maior o benefício.

Ver originalResponder0

ACalmnessWithAHintOfPomelo

· 2h atrás

Resumir textos curtos em múltiplos níveis e depois descartar o FlashAttention, essa dica de engenharia é muito inteligente

Ver originalResponder0

GateUser-8ca669fd

· 2h atrás

A competição de contexto longo entrou na fase de otimização de engenharia, mais interessante do que os parâmetros de pilha

Ver originalResponder0

TidalShell

· 2h atrás

É um pouco surpreendente que a linha de base tradicional tenha sido superada, achando que a aceleração sempre exigiria sacrificar a qualidade

Ver originalResponder0

GateUser-318a7dc8

· 2h atrás

Com 5,3 bilhões de parâmetros, já é possível validar, equipes pequenas também podem acompanhar

Ver originalResponder0

GateUser-d6fb8ff1

· 2h atrás

Vamos colocar o código para testar quantos K minha 4090 consegue suportar

Ver originalResponder0

Glass-HeartMarketMaker

· 2h atrás

Eliminar objetivos de treinamento adicionais es demasiado crucial, de lo contrario, incluso si se abre el código, nadie podrá entrenarlo.

Ver originalResponder0

OrderbookOtter

· 2h atrás

O nome Lighthouse foi bem escolhido, primeiro ilumina o ponto principal e depois examina com mais detalhes

Ver originalResponder0

TokenTinkerTao

· 2h atrás

B200 single card 512K, no futuro, o custo para indivíduos rodarem documentos longos com RAG caiu

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
WinGoldBarsWithGrowthPoints
1.25M Popularidade
#
WTICrudeFallsBelow90Dollars
1.21M Popularidade
#
IsraelStrikesIranBTCPlunges
51.65K Popularidade
#
StockTradingChallengeUpTo17000U
210.46K Popularidade
#
USIranNegotiationGame
9.36M Popularidade

Fixado

sitemap

Nous open source Lighthouse Attention：single B200 roda 512K com 17 vezes de aceleração

Tendências

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado