AIMPACT mensagem, 16 de maio (UTC+8), de acordo com o monitoramento do Beating da Dongcha, a Nous Research lançou o mecanismo de pré-treinamento de contexto longo Lighthouse Attention. Quando processa textos de 512K de comprimento numa única placa B200, essa solução é aproximadamente 17 vezes mais rápida do que o mecanismo tradicional, e atinge uma aceleração de 1,4 a 1,7 vezes no treinamento de ponta a ponta com comprimento de 98K.
O mecanismo de atenção tradicional precisa calcular todas as relações entre palavras, e quanto maior o texto, maior será o consumo de poder de processamento, crescendo ao quadrado.
O Lighthouse Attention usa uma abordagem de triagem rápida seguida de cálculo preciso.
Primeiro, ele percorre rapidamente resumos comprimidos do texto em diferentes níveis, pontuando e selecionando os trechos principais para formar um texto curto, que é então processado diretamente pelo operador eficiente FlashAttention.
Como a lógica de triagem foi completamente separada do núcleo, os desenvolvedores economizam o trabalho de escrever código de baixo nível manualmente, sem precisar adicionar objetivos de treinamento extras.
Soluções de aceleração semelhantes no passado frequentemente tinham efeitos colaterais, pois o modelo, ao aprender a pular partes, facilmente perdia a capacidade de leitura detalhada palavra por palavra.
Para evitar essa armadilha, a equipe de desenvolvimento fez o modelo rodar na modo acelerado na maior parte do tempo, retornando brevemente ao cálculo tradicional de atenção completa apenas no final do treinamento para adaptação.
Nos testes com um modelo de 530 milhões de parâmetros treinado com 50 bilhões de tokens de dados, esse método não só reduziu significativamente o tempo gasto, como também alcançou desempenho igual ou até superior à versão de referência treinada inteiramente com o método tradicional.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

7 gostos

Recompensa
7
9
2
Partilhar

Comentar

Adicionar um comentário

PartiallyMeltedIceCream

· 1h atrás

Aceleração de 17 vezes é um pouco exagerada, mas 98K é apenas 1,4 a 1,7 vezes, parece que quanto mais longo, maior o benefício.

Ver originalResponder0

ACalmnessWithAHintOfPomelo

· 1h atrás

Resumir textos curtos em múltiplos níveis e depois descartar o FlashAttention, essa técnica engenhosa é muito inteligente

Ver originalResponder0

GateUser-8ca669fd

· 2h atrás

A competição de contexto longo entra na fase de otimização de engenharia, mais interessante do que os parâmetros de pilha

Ver originalResponder0

TidalShell

· 2h atrás

Superar a linha de base tradicional foi um pouco inesperado, achando que a aceleração sempre exigiria sacrificar a qualidade

Ver originalResponder0

GateUser-318a7dc8

· 2h atrás

Com 5,3 bilhões de parâmetros, já é possível validar, pequenas equipas também podem acompanhar.

Ver originalResponder0

GateUser-d6fb8ff1

· 2h atrás

Vamos colocar o código para testar quanto de K a minha 4090 consegue suportar

Ver originalResponder0

Glass-HeartMarketMaker

· 2h atrás

Eliminar objetivos de treino adicionais é demasiado crucial, senão, mesmo que seja de código aberto, ninguém vai conseguir treiná-lo.

Ver originalResponder0

OrderbookOtter

· 2h atrás

O nome Lighthouse foi bem escolhido, primeiro ilumina o ponto principal e depois observa com mais detalhes

Ver originalResponder0

TokenTinkerTao

· 2h atrás

B200 cartão único 512K, no futuro o custo de execução de documentos longos por indivíduos com RAG será reduzido

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
WinGoldBarsWithGrowthPoints
1.25M Popularidade
#
WTICrudeFallsBelow90Dollars
1.21M Popularidade
#
IsraelStrikesIranBTCPlunges
51.65K Popularidade
#
StockTradingChallengeUpTo17000U
210.22K Popularidade
#
USIranNegotiationGame
9.36M Popularidade

Fixado

Nous de código aberto Lighthouse Attention：único B200 executa 512K com 17 vezes de aceleração

Tópicos em destaque

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado