Sakana AI на этот раз преодолела узкое место по видеопамяти глубоких моделей, обучая большие сети всего за 1/B видеопамяти, и эксперименты превосходят энд-ту-энд подходы

Посмотреть Оригинал
MeNews
Sakana AI выпустила DiffusionBlocks, независимое обучение блоками снизило использование видеопамяти до одной части B
在 ICLR 2026 上,Sakana AI 与东京大学提出了 DiffusionBlocks,将网络分块并将分块更新映射为扩散模型的逆向去噪,实现区块级的独立训练。训练时仅加载一个区块,其他区块不占用显存,显存降至原来的1/B,突破深度带来的显存瓶颈。实验表明,在视觉 Transformer、DiT 图像生成与文本生成任务中,分块训练可以媲美甚至超越端到端;对于 Looped Transformer 也可以使用单向前向更新,显著降低训练计算。
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено