DiffusionBlocks поэлементное обучение может снизить использование памяти нейронной сети до 1/B, проверка производительности на различных архитектурах
DiffusionBlocks разделяет сеть на основе Transformer на независимые обучаемые блоки, рассматривает остаточные сети как дискретизацию процесса удаления шума, использует сопоставление градиентов для обучения блоков без межблочной коммуникации, что значительно снижает память при обучении. Эксперименты показывают эффективность на различных архитектурах, при выводе на каждом шаге активируется только один блок, а вычислительная сложность 12-слойного DiT (B=3) снижается до трети от исходной. Этот метод подходит для ViT/DiT/MDM/AR Transformer и подобных, но требует совпадения входных и выходных размеров, не может использоваться с U-Net.