RAEv2 de código aberto: velocidade de convergência aumentada em 10 vezes, treinamento de 80 rodadas supera o recorde anterior de 800 rodadas

robot
Geração do resumo em andamento
Notícias do CoinWorld, o projeto de código aberto RAEv2 foi lançado em conjunto por Adobe Research, a Universidade Nacional da Austrália (ANU) e a equipe de Xie Saining da Universidade de Nova York (NYU), entre outras instituições, com um aumento de velocidade de convergência de 10 vezes, superando o recorde de 800 rodadas de treinamento anterior em 80 rodadas. A nova versão, como uma alternativa ao modelo de reconstrução de imagem baseado em modelos de difusão que substitui o tradicional autoencoder variacional (VAE), resolve problemas como baixa qualidade de reconstrução na primeira geração, incapacidade de usar orientação padrão sem classificador (CFG) e convergência extremamente lenta. No ImageNet, é suficiente treinar por apenas 80 rodadas para atingir uma pontuação global FID (GFID) de 1,06. A equipe de pesquisa implementou três otimizações principais na arquitetura, usando uma abordagem de representação em várias camadas, somando diretamente a saída das últimas K camadas do codificador, preservando a estrutura do subespaço inferior. A nova arquitetura também esclarece o mecanismo complementar entre autoencoders de representação e alinhamento de representação (REPA), tornando o desempenho mais forte em tarefas de geração. Os testes mostram que, para atingir um GFID inferior a 2, o modelo de primeira geração precisa de 177 rodadas, enquanto a nova arquitetura requer apenas 35 rodadas.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 10
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
PaperSculptureSquidward
· 18h atrás
Como o REPA e a representação em múltiplas camadas trabalham juntos, aguarde a análise detalhada do artigo.
Ver originalResponder0
GateUser-b6d80ba0
· 05-22 11:38
A soma das últimas K camadas do codificador tem um sabor de conexão de salto do ResNet, mas aplicada no espaço latente
Ver originalResponder0
NeonVortexInTheSmog
· 05-22 11:26
Reconstrução de difusão + compatibilidade com CFG, quitação única da dívida técnica
Ver originalResponder0
CyberBridgeDeepPerspective
· 05-22 11:26
35ª rodada GFID<2, essa eficiência faz o alquimista ficar louco de alegria
Ver originalResponder0
RevokingPermissionsOnARainy
· 05-22 11:26
Finalmente alguém está levando a sério a resolução do problema de borrão na reconstrução do VAE, emocionado
Ver originalResponder0
HoldingPositionsIsLikeTending
· 05-22 11:26
Adobe+ANU+NYU três empresas unidas, recursos ao máximo
Ver originalResponder0
CandleAfterTheRain
· 05-22 11:26
A representação em várias camadas mantém a estrutura subjacente, esse design é bastante detalhado, não é uma simples profundidade de empilhamento.
Ver originalResponder0
BitByBitBenny
· 05-22 11:26
GFID 1.06 apenas 80 rodadas, a geração anterior de 177 rodadas foi cortada pela metade, a velocidade de convergência disparou
Ver originalResponder0
GateUser-0f8d377b
· 05-22 11:26
A equipe de Xie Saining conseguiu integrar reconstrução e geração nesta rodada, o mecanismo de complemento REPA tem algo interessante
Ver originalResponder0
Salt-BakedSentimentChart
· 05-22 11:26
Modelos de difusão usados como VAE, a ideia realmente é inovadora
Ver originalResponder0
Ver projetos
  • Fixado