残差网络看成离散去噪,分数匹配搞定块级训练,不用块间通信就能训,内存压力小太多。

ME News
DiffusionBlocks分块训练可将神经网络内存降至1/B,多种架构验证性能
DiffusionBlocks 将基于 Transformer 的网络划分为独立可训练的块,把残差网络视为离散化去噪步骤,利用分数匹配实现块级训练且无需块间通信,显著降低训练内存。实验证明在多架构上有效,推理阶段每步仅激活一个块,12 层 DiT(B=3)算力降至原来的一三分之一。该方法适用于 ViT/DiT/MDM/AR Transformer 等,但需输入输出维度匹配,不能用于 U-Net。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论