Lighthouse Attention Essa ideia é bastante inteligente, primeiro uma triagem grosseira e depois um cálculo preciso, cortando textos longos em trechos curtos para alimentar o FlashAttention, com uma GPU B200, 512K consegue ser 17 vezes mais rápido, no final do treinamento volta a atenção total para evitar saltos de leitura, o desempenho de um modelo de 5.3B ainda não cai, a otimização de contexto longo finalmente não precisa mais lutar contra o kernel de baixo nível

Ver original
O conteúdo original não está mais visível
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado