208 vezes de aceleração + previsão de 5 microssegundos, rodando KMeans no H200 atingindo diretamente 61% do pico de FLOPS, esse pessoal de Berkeley conseguiu fazer o Triton brilhar

Ver original
CoinNetwork
Aceleração máxima de 208 vezes com o cuML, biblioteca de aceleração de ML clássica de código aberto, como FlashLib, da Universidade da Califórnia, Berkeley, entre outras
O site CoinWorld afirma que a biblioteca de aceleração de aprendizado de máquina de código aberto FlashLib, divulgada pela OneMillion_AI, foi desenvolvida por equipes como a de Berkeley, cobrindo 15 operadores de alto nível, baseada em Triton e Cutedsl, e alcançou aceleração significativa em GPUs H200 para operadores como KMeans e KNN, até 208x.
Em comparação com o cuML 25.10, KMeans 26x, KNN 19x, HDBSCAN 40x, TruncatedSVD 208x;
O pico de FLOPS do KMeans atingiu 61%, e a largura de banda do KNN foi de 85,2%.
Além disso, o FlashLib também oferece uma API de previsão de desempenho em menos de 5 microssegundos, estimando o tempo de execução e o consumo de memória de vídeo, e o código já está open source no GitHub.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado