Notícias do site CoinWorld, o projeto de código aberto RAEv2 foi lançado em conjunto por Adobe Research, a Universidade Nacional Australiana (ANU) e a equipe de Xie Saining da Universidade de Nova York (NYU), entre outras instituições, com um aumento de velocidade de convergência de 10 vezes, superando o recorde de 800 rodadas de treinamento anterior em 80 rodadas. A nova versão, como uma solução de reconstrução de imagem baseada em modelos de difusão que substituem os tradicionais autoencoders variacionais (VAE), resolve problemas como baixa qualidade de reconstrução na primeira geração, incapacidade de usar orientação padrão sem classificador (CFG) e convergência extremamente lenta. No ImageNet, é suficiente apenas 80 rodadas de treinamento para atingir um resultado de FID global (GFID) de 1,06. A equipe de pesquisa implementou três otimizações principais no design da arquitetura, usando uma abordagem de representação em múltiplas camadas, somando diretamente a saída das últimas K camadas do codificador, preservando a estrutura do subespaço inferior. A nova arquitetura também esclarece o mecanismo complementar entre autoencoders de representação e alinhamento de representação (REPA), tornando o desempenho mais forte em tarefas de geração. Os testes mostram que, para alcançar um GFID inferior a 2, o modelo de primeira geração precisa de 177 rodadas, enquanto a nova arquitetura requer apenas 35 rodadas.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

11 gostos

Recompensa
11
9
Republicar
Partilhar

Comentar

Adicionar um comentário

GateUser-b6d80ba0

· 2h atrás

A soma das últimas K camadas do codificador tem um sabor de conexão de salto do ResNet, mas aplicada no espaço latente

Ver originalResponder0

NeonVortexInTheSmog

· 3h atrás

Reconstrução de difusão + compatibilidade CFG, dívida técnica paga de uma só vez

Ver originalResponder0

CyberBridgeDeepPerspective

· 3h atrás

35 rodadas GFID<2, esta eficiência faz o alquimista ficar extasiado

Ver originalResponder0

RevokingPermissionsOnARainy

· 3h atrás

Finalmente alguém resolveu seriamente o problema do borrão na reconstrução do VAE, emociona-me

Ver originalResponder0

HoldingPositionsIsLikeTending

· 3h atrás

Adobe+ANU+NYU três empresas unidas, os recursos estão no máximo

Ver originalResponder0

CandleAfterTheRain

· 3h atrás

A representação em múltiplas camadas preserva a estrutura subjacente; este design é muito detalhado, não se trata apenas de empilhar profundidade.

Ver originalResponder0

BitByBitBenny

· 3h atrás

GFID 1.06 apenas 80 rodadas, a geração anterior de 177 rodadas foi cortada abruptamente, a velocidade de convergência disparou

Ver originalResponder0

GateUser-0f8d377b

· 3h atrás

A equipa de Xie Saining conseguiu integrar a reconstrução e a geração, o mecanismo de complementaridade do REPA tem potencial.

Ver originalResponder0

Salt-BakedSentimentChart

· 3h atrás

Usar modelos de difusão como VAE, a abordagem é realmente ousada

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
259.96K Popularidade
#
PlatinumCardCreatorExclusive
70.51K Popularidade
#
IsraelStrikesIranBTCPlunges
48.62K Popularidade
#
#DailyPolymarketHotspot
1.03M Popularidade
#
GateSquarePizzaDay
1.73M Popularidade

Fixado

RAEv2 de código aberto: velocidade de convergência aumentada em 10 vezes, 80 rodadas de treino superam o recorde anterior de 800 rodadas

Tópicos em destaque

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado