Redes residuais vistas como denoising discreto, correspondência de pontuação resolve o treinamento em blocos, sem precisar de comunicação entre blocos, podendo treinar, com muito menos pressão de memória.

Ver original
MeNews
O treinamento em blocos do DiffusionBlocks pode reduzir a memória da rede neural para 1/B, validando o desempenho com várias arquiteturas
DiffusionBlocks divide the Transformer-based network into independently trainable blocks, treating residual networks as discretized denoising steps, utilizing score matching to achieve block-level training without inter-block communication, significantly reducing training memory. Experiments show effectiveness across multiple architectures, with only one block activated per step during inference, reducing the computational cost of 12-layer DiT (B=3) to one-third of the original. This method is suitable for ViT/DiT/MDM/AR Transformer, but requires input and output dimensions to match and cannot be used with U-Net.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado