PyTorch TorchInductor інтегровано з CuteDSL як автоматичний бекенд для оптимізації матричного множення

robot
Генерація анотацій у процесі

ME Новини-повідомлення: 7 квітня (UTC+8), офіційна команда PyTorch нещодавно оголосила, що інтегрувала CuteDSL як четвертий бекенд автоматичного тюнінгу для операцій множення матриць у TorchInductor. Вибір цього бекенду ґрунтувався на трьох критеріях: не збільшувати надмірно навантаження з супроводу, не сповільнювати час компіляції або бенчмарків і забезпечити кращу продуктивність на цільових робочих навантаженнях. CuteDSL активно розробляється NVIDIA, надає оптимізовані шаблони ядер, час компіляції в ньому співставний із наявними бекендами та значно перевершує шлях CUTLASS C++ , який потребує повної компіляції \nvcc\ . Цей бекенд побудований на тих самих абстракціях, що й CUTLASS C++ , написаний на Python, компілюється швидше, а супроводжувати його простіше; він уже довів сильну продуктивність у FP8 GEMM і злитті Epilogue. Команда фокусується на оптимізації GEMM (множення матриць), оскільки в моделях Transformer саме вона становить основні витрати на обчислення. CuteDSL генерує базовий код, надаючи вручну оптимізовані шаблони, уникаючи складності написання ядер з нуля, і повністю розкриває структуру потоків та ієрархію пам’яті, підтримуючи функції, специфічні для архітектури. (Джерело: InFoQ)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити