RAEv2 з відкритим кодом: швидкість зближення збільшена у 10 разів, 80 епох тренування перевищують рекорд попередньої версії у 800 епох

robot
Генерація анотацій у процесі
Звіт з CoinWorld, відкритий проект RAEv2, спільно запущений дослідницькою командою Adobe Research, Австралійським національним університетом (ANU) та Нью-Йоркським університетом (NYU), зменшив час збіжності у 10 разів, а 80 раундів тренування перевищують попередній рекорд у 800 раундів. Новий варіант є рішенням для реконструкції зображень за допомогою дифузійної моделі, яка замінює традиційний варіаційний автокодер (VAE), вирішуючи проблеми низької якості реконструкції, неможливості використання стандартного безкласового керування (CFG) та дуже повільної збіжності. На ImageNet достатньо 80 раундів тренування для досягнення глобального показника FID (GFID) у 1.06. Дослідницька команда реалізувала три ключові оптимізації в архітектурі, використовуючи багаторівневу схему представлення, додаючи безпосередньо вихід останніх K шарів кодувальника, зберігаючи структуру підпростору нижнього рівня. Нова архітектура також пояснює взаємодоповнювальний механізм між автоенкодером та узгодженням представлень (REPA), що покращує продуктивність у задачах генерації. Тести показали, що для досягнення GFID менше 2, початкова модель потребує 177 раундів, тоді як нова архітектура — лише 35 раундів.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 9
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
GateUser-b6d80ba0
· 2год тому
Додавання останніх K шарів кодувальника має відтінок пропускного з’єднання ResNet, але застосовується у латентному просторі
Переглянути оригіналвідповісти на0
NeonVortexInTheSmog
· 3год тому
Розширене відновлення + сумісність з CFG, технічний борг погашається одразу
Переглянути оригіналвідповісти на0
CyberBridgeDeepPerspective
· 3год тому
35 раундів GFID<2, ця ефективність неймовірно радує алхіміків
Переглянути оригіналвідповісти на0
RevokingPermissionsOnARainy
· 3год тому
Нарешті хтось серйозно взявся за вирішення проблеми розмиття реконструкції VAE, сльози на очах
Переглянути оригіналвідповісти на0
HoldingPositionsIsLikeTending
· 3год тому
Adobe+ANU+NYU три компанії об'єдналися, ресурси максимально залучені
Переглянути оригіналвідповісти на0
CandleAfterTheRain
· 3год тому
Багаторівневе представлення зберігає нижню структуру, цей дизайн дуже детальний, а не просто глибина стосу.
Переглянути оригіналвідповісти на0
BitByBitBenny
· 3год тому
GFID 1.06 лише 80 раундів, попередня версія 177 раундів безпосередньо перервана, швидкість зближення стрімко зростає
Переглянути оригіналвідповісти на0
GateUser-0f8d377b
· 3год тому
Команда Сєсайняна поєднала відновлення та генерацію, механізм взаємодоповнення REPA має потенціал.
Переглянути оригіналвідповісти на0
Salt-BakedSentimentChart
· 3год тому
Модель дифузії використовується як VAE, ідея дійсно смілива
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено