Sakana AI цим кроком зняла вузьке місце пам’яті глибоких моделей, 1/Б пам’яті достатньо для тренування великих мереж, а експерименти навіть перевершують end-to-end.

Переглянути оригінал
MeNews
Sakana AI випустила DiffusionBlocks, незалежне навчання блоками зменшує використання пам’яті до однієї частини B
На ICLR 2026 року, Sakana AI та Токійський університет представили DiffusionBlocks, що розбиває мережу на блоки та перетворює оновлення блоків у зворотне шумоподавлення моделі дифузії, реалізуючи незалежне навчання на рівні блоків.
Під час навчання завантажується лише один блок, інші блоки не використовують відеопам’ять, зменшуючи використання пам’яті до 1/B від початкового, що подолало обмеження пам’яті, викликане глибиною мережі.
Експерименти показали, що при задачах з візуальним трансформером, DiT для генерації зображень та текстовим генератором, навчання за блоками може конкурувати або навіть перевищувати цілісне навчання;
для Looped Transformer також можливо використовувати одностороннє переднє оновлення, що значно знижує обчислювальні витрати на навчання.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено