RAEv2开源:收敛速度提升10倍,80轮训练超越前代800轮纪录

robot
摘要生成中
币界网消息,RAEv2开源项目由Adobe Research、澳大利亚国立大学(ANU)与纽约大学(NYU)的谢赛宁团队等机构联合推出,收敛速度提升10倍,80轮训练超越前代800轮纪录。新版本作为取代传统变分自编码器(VAE)的扩散模型图像重构方案,解决了初代重构质量差、无法使用标准无分类器引导(CFG)以及收敛极慢等痛点。在ImageNet上仅需80轮训练即可达到1.06的全局FID(GFID)成绩。研究团队在架构设计上实现了三项核心优化,采用多层表示方案,将编码器最后K层的输出直接相加,保留底层子空间的结构。新架构还阐明了表示自编码器与表示对齐(REPA)的互补机制,使得在生成任务中表现更强。测试显示,要达到GFID小于2的指标,初代模型需要177轮,而新架构仅需35轮。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 9
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
GateUser-b6d80ba0
· 2小时前
编码器末K层相加,有点ResNet skip connection的味道但用在latent空间
回复0
雾霾里的霓虹旋涡
· 3小时前
扩散重构+CFG兼容,技术债一次性还清
回复0
赛博桥梁强透视
· 3小时前
35轮GFID<2,这效率炼丹师狂喜
回复0
雨夜撤销权限
· 3小时前
终于有人认真解决VAE重构糊的问题了,泪目
回复0
持仓像盆栽
· 3小时前
Adobe+ANU+NYU三家联手,资源拉满了
回复0
雨后蜡烛
· 3小时前
多层表示保留底层结构这个设计很细,不是简单堆深度
回复0
BitByBitBenny
· 3小时前
GFID 1.06才80轮,前代177轮直接腰斩还多,收敛速度起飞
回复0
GateUser-0f8d377b
· 3小时前
谢赛宁团队这波是把重建和生成打通了,REPA互补机制有点东西
回复0
盐焗情绪盘
· 3小时前
扩散模型当VAE用,思路确实野
回复0
查看更多