A equipa oficial do PyTorch anunciou a integração do CuteDSL no TorchInductor como o quarto backend de auto-tuning para multiplicação de matrizes. Este backend, desenvolvido pela NVIDIA, compila rapidamente, é fácil de manter e foi especialmente otimizado para cálculos GEMM em FP8, com o objetivo de melhorar o desempenho dos modelos Transformer.

MeNews

2026-04-23 21:23:33

Geração de resumo em curso

Notícias do ME News, 7 de abril (UTC+8), a equipa oficial do PyTorch anunciou recentemente que integrou o CuteDSL como o quarto backend de otimização automática de multiplicação de matrizes no TorchInductor. A escolha deste backend baseou-se em três critérios: não aumentar demasiado a carga de manutenção, não atrasar o tempo de compilação ou testes de referência, e oferecer melhor desempenho na carga de trabalho alvo.
O CuteDSL, desenvolvido ativamente pela NVIDIA, fornece modelos de kernels otimizados, cujo tempo de compilação é comparável ao dos backends existentes e significativamente melhor do que o caminho CUTLASS C++ que requer compilação completa com \nvcc.
Este backend é construído com base na mesma abstração do CUTLASS C++, escrito em Python, com compilação mais rápida e manutenção mais simples, demonstrando forte desempenho na fusão de GEMM em FP8 e Epilogue.
A equipa concentra-se na otimização de GEMM (multiplicação de matrizes), pois representa a maior parte do custo computacional nos modelos Transformer.
O CuteDSL gera código de baixo nível através de modelos otimizados manualmente, evitando a complexidade de escrever kernels do zero, e expõe completamente a hierarquia de threads e memória, suportando funcionalidades específicas de arquitetura. (Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingChallengeShare8MUSDT
832.4K Popularidade
#
CryptoMarketSeesVolatility
201.59K Popularidade
#
IsraelStrikesIranBTCPlunges
30.82K Popularidade
#
rsETHAttackUpdate
77.54K Popularidade
#
US-IranTalksStall
1.35K Popularidade

Fixar

PyTorch TorchInductor integra CuteDSL como backend de auto-otimização de multiplicação de matrizes

Tópicos em destaque

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Fixar