Резидуальные сети рассматриваются как дискретное удаление шума, матчинговая функция решает обучение блоков, без необходимости межблочного обмена, обучение возможно, нагрузка на память значительно меньше.

Посмотреть Оригинал
MeNews
DiffusionBlocks поэлементное обучение может снизить использование памяти нейронной сети до 1/B, проверка производительности на различных архитектурах
DiffusionBlocks разделяет сеть на основе Transformer на независимые обучаемые блоки, рассматривает остаточные сети как дискретизацию процесса удаления шума, использует сопоставление градиентов для обучения блоков без межблочной коммуникации, что значительно снижает память при обучении. Эксперименты показывают эффективность на различных архитектурах, при выводе на каждом шаге активируется только один блок, а вычислительная сложность 12-слойного DiT (B=3) снижается до трети от исходной. Этот метод подходит для ViT/DiT/MDM/AR Transformer и подобных, но требует совпадения входных и выходных размеров, не может использоваться с U-Net.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено