Sakana AI desta vez quebrou o gargalo de memória de vídeo dos modelos profundos, treinando grandes redes com apenas 1/B de memória, e os experimentos ainda superaram o método de ponta a ponta

Ver original
MeNews
Sakana AI lança DiffusionBlocks, treinamento de blocos independentes reduz a memória de vídeo para uma fração de B
Na ICLR 2026, Sakana AI e a Universidade de Tóquio propuseram o DiffusionBlocks, que divide a rede em blocos e mapeia a atualização dos blocos como a denoising reverso de um modelo de difusão, permitindo o treinamento independente de blocos. Durante o treinamento, apenas um bloco é carregado, enquanto os outros blocos não ocupam memória de vídeo, reduzindo o uso de memória para 1/B do original, superando o gargalo de memória causado pela profundidade. Experimentos mostram que, em tarefas de geração de imagens com Transformer visual, DiT e geração de texto, o treinamento por blocos pode igualar ou até superar o treinamento end-to-end; para o Looped Transformer, também é possível usar uma atualização unidirecional, reduzindo significativamente o cálculo de treinamento.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado