DiffusionBlocks分块训练可将神经网络内存降至1/B,多种架构验证性能
DiffusionBlocks 将基于 Transformer 的网络划分为独立可训练的块,把残差网络视为离散化去噪步骤,利用分数匹配实现块级训练且无需块间通信,显著降低训练内存。实验证明在多架构上有效,推理阶段每步仅激活一个块,12 层 DiT(B=3)算力降至原来的一三分之一。该方法适用于 ViT/DiT/MDM/AR Transformer 等,但需输入输出维度匹配,不能用于 U-Net。
122.37万 热度
118.24万 热度
18.78万 热度
941.41万 热度
320.27万 热度