RAEv2 с открытым исходным кодом: скорость сходимости увеличена в 10 раз, 80 эпох обучения превосходит предыдущий рекорд в 800 эпох

robot
Генерация тезисов в процессе
币界网消息,RAEv2开源项目由Adobe Research、澳大利亚国立大学(ANU)与纽约大学(NYU)的谢赛宁团队等机构联合推出,收敛速度提升10倍,80轮训练超越前代800轮纪录。
Новые сведения с сайта CoinWorld: проект RAEv2 с открытым исходным кодом был совместно запущен командами Adobe Research, Австралийского национального университета (ANU) и Нью-Йоркского университета (NYU) под руководством Шесайнин, что позволило увеличить скорость сходимости в 10 раз, а 80 эпох обучения превзошли рекорд предыдущей версии в 800 эпох.
新版本作为取代传统变分自编码器(VAE)的扩散模型图像重构方案,解决了初代重构质量差、无法使用标准无分类器引导(CFG)以及收敛极慢等痛点。
Новая версия выступает в роли решения для реконструкции изображений на основе диффузионных моделей, заменяющих традиционные вариационные автокодировщики (VAE), и решает такие проблемы, как низкое качество первичной реконструкции, невозможность использования стандартных безклассовых руководств (CFG) и очень медленная сходимость.
在ImageNet上仅需80轮训练即可达到1.06的全局FID(GFID)成绩。
На ImageNet достаточно 80 эпох обучения для достижения глобального показателя FID (GFID) равного 1.06.
研究团队在架构设计上实现了三项核心优化,采用多层表示方案,将编码器最后K层的输出直接相加,保留底层子空间的结构。
Команда исследователей реализовала три ключевых оптимизации в архитектуре, использовав многоуровневую схему представления, при которой выходы последних K слоёв кодировщика напрямую складываются, сохраняя структуру базового субпространства.
新架构还阐明了表示自编码器与表示对齐(REPA)的互补机制,使得在生成任务中表现更强。
Новая архитектура также прояснила механизм взаимодополняемости между представлением автокодировщика и выравниванием представлений (REPA), что повышает эффективность при задачах генерации.
测试显示,要达到GFID小于2的指标,初代模型需要177轮,而新架构仅需35轮。
Тесты показали, что для достижения GFID менее 2 первоначальная модель требовала 177 эпох, тогда как новая архитектура — всего 35 эпох.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GateUser-b6d80ba0
· 4ч назад
Сложение последних K слоёв кодировщика напоминает соединение пропуска ResNet, но применяется в латентном пространстве
Посмотреть ОригиналОтветить0
NeonVortexInTheSmog
· 4ч назад
Расширенная реконструкция + совместимость с CFG, технический долг погашен за один раз
Посмотреть ОригиналОтветить0
CyberBridgeDeepPerspective
· 4ч назад
35 раундов GFID<2, эта эффективность вызывает восторг у алхимика
Посмотреть ОригиналОтветить0
RevokingPermissionsOnARainy
· 4ч назад
Наконец-то кто-то серьезно решил проблему размытости реконструкции VAE, слезы на глазах
Посмотреть ОригиналОтветить0
HoldingPositionsIsLikeTending
· 4ч назад
Adobe+ANU+NYU три компании объединились, ресурсы на максимум
Посмотреть ОригиналОтветить0
CandleAfterTheRain
· 4ч назад
Многоуровневое представление сохраняет базовую структуру, этот дизайн очень тонкий, а не просто глубокая иерархия.
Посмотреть ОригиналОтветить0
BitByBitBenny
· 4ч назад
GFID 1.06 всего 80 раундов, предыдущая версия 177 раундов была полностью обрезана, скорость сходимости взлетает
Посмотреть ОригиналОтветить0
GateUser-0f8d377b
· 4ч назад
Команда Се Сайнин связала восстановление и генерацию, механизм взаимодополнения REPA имеет потенциал
Посмотреть ОригиналОтветить0
Salt-BakedSentimentChart
· 4ч назад
Распространенная модель в качестве VAE, действительно, смелая идея
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено