PyTorch TorchInductor integrado con CuteDSL como backend de ajuste automático para multiplicación de matrices

robot
Generación de resúmenes en curso

Noticias de ME: el 7 de abril (UTC+8), el equipo oficial de PyTorch anunció recientemente que ha integrado CuteDSL en TorchInductor como el cuarto backend de autoajuste para la multiplicación de matrices. La elección de este backend se basa en tres criterios: no aumentar en exceso la carga de mantenimiento, no ralentizar el tiempo de compilación ni el de las pruebas de referencia, y ofrecer un mejor rendimiento en las cargas de trabajo objetivo. CuteDSL se desarrolla activamente por NVIDIA y ofrece plantillas de núcleos optimizados; su tiempo de compilación es comparable al de los backends existentes y supera claramente la ruta de CUTLASS C++ que requiere una compilación completa de \nvcc\ . Este backend se basa en abstracciones construidas de forma similar a las de CUTLASS C++ , está escrito en Python, compila más rápido y es más fácil de mantener, y ya ha demostrado un rendimiento sólido en la fusión de FP8 GEMM y Epilogue. El equipo se centra en optimizar GEMM (multiplicación de matrices), ya que ocupa la mayor parte del gasto computacional en los modelos Transformer. CuteDSL genera el código de bajo nivel proporcionando plantillas optimizadas manualmente, evita la complejidad de escribir núcleos desde cero y expone completamente la estructura de los hilos y la jerarquía de memoria, lo que permite funcionalidades específicas de la arquitectura. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado