Sakana AI这波把深度模型的显存瓶颈给拆了,1/B显存就能训大网络,实验还吊打端到端

ME News
Sakana AI推出DiffusionBlocks,独立分块训练使显存降至B分之一
ICLR 2026 上,Sakana AI 与东京大学提出 DiffusionBlocks,将网络分块并把分块更新映射为扩散模型的逆向去噪,实现区块级独立训练。训练时仅加载一个区块,其他区块不载显存,显存降至原来1/B,突破深度带来的显存瓶颈。实验表明在视觉 Transformer、DiT 图像生成与文本生成任务中,分块训练可媲美甚至超越端到端;对 Looped Transformer 也可用单向前向更新,显著降低训练计算。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 置顶