PyTorch TorchInductor integra CuteDSL como backend de auto-otimização de multiplicação de matrizes

robot
Geração de resumo em curso

Notícias do ME News, 7 de abril (UTC+8), a equipa oficial do PyTorch anunciou recentemente que integrou o CuteDSL como o quarto backend de otimização automática de multiplicação de matrizes no TorchInductor. A escolha deste backend baseou-se em três critérios: não aumentar demasiado a carga de manutenção, não atrasar o tempo de compilação ou testes de referência, e oferecer melhor desempenho na carga de trabalho alvo.
O CuteDSL, desenvolvido ativamente pela NVIDIA, fornece modelos de kernels otimizados, cujo tempo de compilação é comparável ao dos backends existentes e significativamente melhor do que o caminho CUTLASS C++ que requer compilação completa com \nvcc.
Este backend é construído com base na mesma abstração do CUTLASS C++, escrito em Python, com compilação mais rápida e manutenção mais simples, demonstrando forte desempenho na fusão de GEMM em FP8 e Epilogue.
A equipa concentra-se na otimização de GEMM (multiplicação de matrizes), pois representa a maior parte do custo computacional nos modelos Transformer.
O CuteDSL gera código de baixo nível através de modelos otimizados manualmente, evitando a complexidade de escrever kernels do zero, e expõe completamente a hierarquia de threads e memória, suportando funcionalidades específicas de arquitetura. (Fonte: InFoQ)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar