將殘差網絡看作離散去噪,分數匹配搞定塊級訓練,不用塊間通信就能訓練,內存壓力小太多。

查看原文
ME News
DiffusionBlocks分塊訓練可將神經網絡內存降至1/B,多種架構驗證性能
DiffusionBlocks 將基於 Transformer 的網絡劃分為獨立可訓練的塊,把殘差網絡視為離散化去噪步驟,利用分數匹配實現塊級訓練且無需塊間通信,顯著降低訓練內存。實驗證明在多架構上有效,推理階段每步僅激活一個塊,12 層 DiT(B=3)算力降至原來的三分之一。該方法適用於 ViT/DiT/MDM/AR Transformer 等,但需輸入輸出維度匹配,不能用於 U-Net。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆