Резервна мережа розглядається як дискретне видалення шуму, співставлення оцінок вирішує блокове навчання, без необхідності міжблочного зв'язку можна тренувати, навантаження на пам'ять набагато менше.

Переглянути оригінал
MeNews
DiffusionBlocks розбиття на блоки дозволяє зменшити пам’ять нейронної мережі до 1/B, перевіряючи продуктивність на різних архітектурах
DiffusionBlocks розділяє мережу на основі трансформера на незалежні треновані блоки, розглядає залишкову мережу як дискретизований крок шумозаглушення, використовує співвідношення для досягнення тренування на рівні блоків без обміну між блоками, значно знижуючи пам’ять для тренування. Експерименти показали ефективність на різних архітектурах, під час етапу виведення кожен крок активує лише один блок, обчислювальна потужність 12-слойного DiT (B=3) зменшується до третини від початкової. Цей метод підходить для ViT/DiT/MDM/AR Transformer та інших, але вимагає відповідності вхідних та вихідних розмірів, не може використовуватися з U-Net.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено