MiniMax código aberto da biblioteca de atenção exclusiva Blackwell, o peso M3 está previsto para ser lançado nesta sexta-feira

robot
Geração de resumo em curso
ME AI Mensagem, de acordo com o monitoramento do Beating, o responsável pelo relacionamento com desenvolvedores do MiniMax, Ryan Lee, anunciou que a biblioteca de atenção de alto desempenho para GPU NVIDIA Blackwell (SM100), MiniMax Sparse Attention (MSA), foi oficialmente open source, adotando a licença MIT. Ryan Lee também afirmou que os pesos do MiniMax-M3 devem ser lançados nesta sexta-feira. O MSA já foi aplicado na inferência de contexto de milhões de tokens do MiniMax-M3, filtrando os blocos KV mais relevantes em cada grupo GQA, realizando o cálculo de atenção apenas nos blocos selecionados. Os estudos mostram que, em um contexto de 1 milhão de tokens, em comparação com o GQA denso com a mesma configuração, o MSA pode reduzir a quantidade de cálculo de atenção em 28,4 vezes, além de alcançar uma aceleração de 14,2 vezes na pré-carregamento e 7,6 vezes na decodificação no GPU H800. A versão open source integra duas implementações, C++ JIT e CuTe-DSL, no mesmo pacote Python, além de oferecer kernels de atenção FlashAttention denso e Top-k esparso, suportando múltiplos formatos de precisão como BF16, FP8, NVFP4 e FP4. Atualmente, o foco principal é a implantação em GPUs NVIDIA Blackwell (SM100). (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado