A rede residual é vista como uma denoising discreto, a correspondência de pontuação resolve o treino em blocos, sem precisar de comunicação entre blocos, e o uso de memória é muito menor.

Ver original
MeNews
O treino em blocos do DiffusionBlocks pode reduzir a memória da rede neural para 1/B, validando o desempenho com várias arquiteturas
DiffusionBlocks divide Transformer-based networks into independently trainable blocks, treating residual networks as discretized denoising steps, utilizing score matching to achieve block-level training without inter-block communication, significantly reducing training memory. Experiments show effectiveness across multiple architectures, with only one block activated per step during inference, reducing the computational cost of 12-layer DiT (B=3) to one-third of the original. This method is suitable for ViT/DiT/MDM/AR Transformer, but requires input-output dimension matching and cannot be used with U-Net.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado