A Sakana AI resolveu o problema do gargalo de memória de vídeo dos modelos profundos, treinando grandes redes com apenas 1/B de memória, e os experimentos ainda superam o método de ponta a ponta.

Ver original
MeNews
Sakana AI lança DiffusionBlocks, o treino de blocos independentes reduz a memória de vídeo para uma fração de B
Na ICLR 2026, Sakana AI e a Universidade de Tóquio propuseram o DiffusionBlocks, que divide a rede em blocos e mapeia a atualização dos blocos como a denoising reverso de um modelo de difusão, permitindo o treino independente de blocos. Durante o treino, apenas um bloco é carregado, enquanto os outros blocos não ocupam memória de vídeo, reduzindo o uso de memória para 1/B do original, superando o gargalo de memória causado pela profundidade. Os experimentos mostram que, em tarefas de geração de imagens com Transformer visual, DiT e geração de texto, o treino por blocos pode igualar ou até superar o treino end-to-end; para o Looped Transformer, também é possível usar uma atualização unidirecional, reduzindo significativamente o cálculo de treino.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado