RAEv2 de código aberto: velocidade de convergência aumentada em 10 vezes, 80 rodadas de treino superam o recorde anterior de 800 rodadas

robot
Geração de resumo em curso
Notícias do site CoinWorld, o projeto de código aberto RAEv2 foi lançado em conjunto por Adobe Research, a Universidade Nacional Australiana (ANU) e a equipe de Xie Saining da Universidade de Nova York (NYU), entre outras instituições, com um aumento de velocidade de convergência de 10 vezes, superando o recorde de 800 rodadas de treinamento anterior em 80 rodadas. A nova versão, como uma solução de reconstrução de imagem baseada em modelos de difusão que substituem os tradicionais autoencoders variacionais (VAE), resolve problemas como baixa qualidade de reconstrução na primeira geração, incapacidade de usar orientação padrão sem classificador (CFG) e convergência extremamente lenta. No ImageNet, é suficiente apenas 80 rodadas de treinamento para atingir um resultado de FID global (GFID) de 1,06. A equipe de pesquisa implementou três otimizações principais no design da arquitetura, usando uma abordagem de representação em múltiplas camadas, somando diretamente a saída das últimas K camadas do codificador, preservando a estrutura do subespaço inferior. A nova arquitetura também esclarece o mecanismo complementar entre autoencoders de representação e alinhamento de representação (REPA), tornando o desempenho mais forte em tarefas de geração. Os testes mostram que, para alcançar um GFID inferior a 2, o modelo de primeira geração precisa de 177 rodadas, enquanto a nova arquitetura requer apenas 35 rodadas.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 9
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-b6d80ba0
· 2h atrás
A soma das últimas K camadas do codificador tem um sabor de conexão de salto do ResNet, mas aplicada no espaço latente
Ver originalResponder0
NeonVortexInTheSmog
· 3h atrás
Reconstrução de difusão + compatibilidade CFG, dívida técnica paga de uma só vez
Ver originalResponder0
CyberBridgeDeepPerspective
· 3h atrás
35 rodadas GFID<2, esta eficiência faz o alquimista ficar extasiado
Ver originalResponder0
RevokingPermissionsOnARainy
· 3h atrás
Finalmente alguém resolveu seriamente o problema do borrão na reconstrução do VAE, emociona-me
Ver originalResponder0
HoldingPositionsIsLikeTending
· 3h atrás
Adobe+ANU+NYU três empresas unidas, os recursos estão no máximo
Ver originalResponder0
CandleAfterTheRain
· 3h atrás
A representação em múltiplas camadas preserva a estrutura subjacente; este design é muito detalhado, não se trata apenas de empilhar profundidade.
Ver originalResponder0
BitByBitBenny
· 3h atrás
GFID 1.06 apenas 80 rodadas, a geração anterior de 177 rodadas foi cortada abruptamente, a velocidade de convergência disparou
Ver originalResponder0
GateUser-0f8d377b
· 3h atrás
A equipa de Xie Saining conseguiu integrar a reconstrução e a geração, o mecanismo de complementaridade do REPA tem potencial.
Ver originalResponder0
Salt-BakedSentimentChart
· 3h atrás
Usar modelos de difusão como VAE, a abordagem é realmente ousada
Ver originalResponder0
Ver mais
  • Fixado