Notícias do CoinWorld, o projeto de código aberto RAEv2 foi lançado em conjunto por Adobe Research, a Universidade Nacional da Austrália (ANU) e a equipe de Xie Saining da Universidade de Nova York (NYU), entre outras instituições, com um aumento de velocidade de convergência de 10 vezes, superando o recorde de 800 rodadas de treinamento anterior em 80 rodadas. A nova versão, como uma alternativa ao modelo de reconstrução de imagem baseado em modelos de difusão que substitui o tradicional autoencoder variacional (VAE), resolve problemas como baixa qualidade de reconstrução na primeira geração, incapacidade de usar orientação padrão sem classificador (CFG) e convergência extremamente lenta. No ImageNet, é suficiente treinar por apenas 80 rodadas para atingir uma pontuação global FID (GFID) de 1,06. A equipe de pesquisa implementou três otimizações principais na arquitetura, usando uma abordagem de representação em várias camadas, somando diretamente a saída das últimas K camadas do codificador, preservando a estrutura do subespaço inferior. A nova arquitetura também esclarece o mecanismo complementar entre autoencoders de representação e alinhamento de representação (REPA), tornando o desempenho mais forte em tarefas de geração. Os testes mostram que, para atingir um GFID inferior a 2, o modelo de primeira geração precisa de 177 rodadas, enquanto a nova arquitetura requer apenas 35 rodadas.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

13 Curtidas

Recompensa
13
10
Repostar
Compartilhar

Comentário

Adicionar um comentário

PaperSculptureSquidward

· 18h atrás

Como o REPA e a representação em múltiplas camadas trabalham juntos, aguarde a análise detalhada do artigo.

Ver originalResponder0

GateUser-b6d80ba0

· 05-22 11:38

A soma das últimas K camadas do codificador tem um sabor de conexão de salto do ResNet, mas aplicada no espaço latente

Ver originalResponder0

NeonVortexInTheSmog

· 05-22 11:26

Reconstrução de difusão + compatibilidade com CFG, quitação única da dívida técnica

Ver originalResponder0

CyberBridgeDeepPerspective

· 05-22 11:26

35ª rodada GFID<2, essa eficiência faz o alquimista ficar louco de alegria

Ver originalResponder0

RevokingPermissionsOnARainy

· 05-22 11:26

Finalmente alguém está levando a sério a resolução do problema de borrão na reconstrução do VAE, emocionado

Ver originalResponder0

HoldingPositionsIsLikeTending

· 05-22 11:26

Adobe+ANU+NYU três empresas unidas, recursos ao máximo

Ver originalResponder0

CandleAfterTheRain

· 05-22 11:26

A representação em várias camadas mantém a estrutura subjacente, esse design é bastante detalhado, não é uma simples profundidade de empilhamento.

Ver originalResponder0

BitByBitBenny

· 05-22 11:26

GFID 1.06 apenas 80 rodadas, a geração anterior de 177 rodadas foi cortada pela metade, a velocidade de convergência disparou

Ver originalResponder0

GateUser-0f8d377b

· 05-22 11:26

A equipe de Xie Saining conseguiu integrar reconstrução e geração nesta rodada, o mecanismo de complemento REPA tem algo interessante

Ver originalResponder0

Salt-BakedSentimentChart

· 05-22 11:26

Modelos de difusão usados como VAE, a ideia realmente é inovadora

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
TradfiTradingChallenge
314.35K Popularidade
#
PlatinumCardCreatorExclusive
113.07K Popularidade
#
IsraelStrikesIranBTCPlunges
48.92K Popularidade
#
#DailyPolymarketHotspot
1.05M Popularidade
#
GateSquarePizzaDay
646.13K Popularidade

Fixado

sitemap

RAEv2 de código aberto: velocidade de convergência aumentada em 10 vezes, treinamento de 80 rodadas supera o recorde anterior de 800 rodadas

Tendências

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado