PyTorch TorchInductor に CuteDSL を統合し、行列乗算の自動最適化バックエンドとして使用

robot
概要作成中

ME News ニュース、2023年4月7日(UTC+8)、PyTorch公式チームは最近、CuteDSLを第4の行列乗算自動最適化バックエンドとしてTorchInductorに統合したことを発表しました。
このバックエンドの選択基準は、メンテナンス負担を増やさず、コンパイルやベンチマーク時間を遅らせず、ターゲットワークロードでより良いパフォーマンスを提供することの3つです。
CuteDSLはNVIDIAによって積極的に開発されており、最適化されたカーネルテンプレートを提供します。
そのコンパイル時間は既存のバックエンドとほぼ同じであり、完全なnvccコンパイルを必要とするCUTLASS C++パスよりも顕著に高速です。
このバックエンドはCUTLASS C++と同じ抽象化に基づいて構築され、Pythonで書かれており、コンパイルがより高速でメンテナンスも簡単です。
FP8 GEMMとエピローグ融合において強力なパフォーマンスを証明しています。
チームはTransformerモデルで主要な計算負荷を占めるGEMM(行列乗算)の最適化に焦点を当てています。
CuteDSLは、手作業で最適化されたテンプレートを提供し、底層コードを生成します。
これにより、カーネルをゼロから書く複雑さを回避し、スレッドやメモリ階層を完全に公開し、アーキテクチャ固有の機能をサポートします。(出典:InFoQ)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン