MiniMax biblioteca de atenção exclusiva Blackwell de código aberto, peso M3 previsto para ser lançado nesta sexta-feira

robot
Geração do resumo em andamento
ME AI Mensagem, de acordo com o monitoramento do Beating, o responsável pelo relacionamento com desenvolvedores do MiniMax, Ryan Lee, anunciou que a biblioteca de atenção de alto desempenho para GPU NVIDIA Blackwell (SM100), MiniMax Sparse Attention (MSA), foi oficialmente open source, adotando a licença MIT. Ryan Lee também afirmou que os pesos do MiniMax-M3 devem ser lançados nesta sexta-feira. O MSA foi aplicado na inferência de contexto de milhões de tokens do MiniMax-M3, filtrando os blocos KV mais relevantes em cada grupo GQA, realizando o cálculo de atenção apenas nos blocos selecionados. Os estudos mostram que, em um contexto de 1 milhão de tokens, em comparação com o GQA denso com a mesma configuração, o MSA pode reduzir a quantidade de cálculo de atenção em 28,4 vezes, além de alcançar uma aceleração de 14,2 vezes na pré-preenchimento e 7,6 vezes na decodificação no GPU H800. A versão open source integra duas implementações, C++ JIT e CuTe-DSL, no mesmo pacote Python, além de fornecer kernels de atenção FlashAttention denso e Sparse Top-k, suportando múltiplos formatos de precisão como BF16, FP8, NVFP4 e FP4. Atualmente, o foco principal é a implantação em GPUs NVIDIA Blackwell (SM100). (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado