RAEv2 مفتوح المصدر: تسريع التقارب بمقدار 10 أضعاف، وتجاوز سجل الجيل السابق البالغ 800 دورة بعد 80 دورة تدريبية

robot
إنشاء الملخص قيد التقدم
币界网消息،RAEv2开源项目由Adobe Research、澳大利亚国立大学(ANU)与纽约大学(NYU)的谢赛宁团队等机构联合推出,收敛速度提升10倍,80轮训练超越前代800轮纪录。
نسخة RAEv2 المفتوحة المصدر، التي أطلقتها أبحاث أدوبي، الجامعة الوطنية الأسترالية (ANU)، وفريق شيساينين من جامعة نيويورك (NYU)، زادت سرعة التقارب بمقدار 10 مرات، وتجاوزت سجل 800 دورة تدريبية للجيل السابق بعد 80 دورة.
新版本作为取代传统变分自编码器(VAE)的扩散模型图像重构方案,解决了初代重构质量差、无法使用标准无分类器引导(CFG)以及收敛极慢等痛点。
النسخة الجديدة كحل لإعادة بناء الصور باستخدام نموذج الانتشار الذي يحل محل المشفر التبايني التقليدي (VAE)، ويعالج مشاكل جودة إعادة البناء الضعيفة، وعدم القدرة على استخدام التوجيه بدون مصنف قياسي (CFG)، وبطء التقارب الشديد.
在ImageNet上仅需80轮训练即可达到1.06的全局FID(GFID)成绩。
على مجموعة ImageNet، يكفي 80 دورة تدريبية فقط لتحقيق درجة GFID العالمية (GFID) قدرها 1.06.
研究团队在架构设计上实现了三项核心优化,采用多层表示方案,将编码器最后K层的输出直接相加,保留底层子空间的结构。
فريق البحث حقق ثلاثة تحسينات رئيسية في تصميم الهيكل، باستخدام خطة تمثيل متعددة الطبقات، حيث يتم جمع مخرجات آخر K طبقات من المشفر مباشرة، مع الحفاظ على بنية الفضاء الفرعي الأساسية.
新架构还阐明了表示自编码器与表示对齐(REPA)的互补机制,使得在生成任务中表现更强。
كما أوضح الهيكل الجديد الآلية التكميلية بين التمثيل الذاتي للمشفر (المشفر التلقائي) ومحاذاة التمثيل (REPA)، مما يعزز الأداء في مهام التوليد.
测试显示,要达到GFID小于2的指标,初代模型需要177轮,而新架构仅需35轮。
أظهرت الاختبارات أنه لتحقيق مؤشر GFID أقل من 2، يحتاج النموذج الأولي إلى 177 دورة، بينما الهيكل الجديد يحتاج فقط إلى 35 دورة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 9
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
GateUser-b6d80ba0
· منذ 2 س
جمع آخر طبقات المشفر K، له طعم اتصال تخطي من نوع ResNet لكن يُستخدم في مساحة الكتمة
شاهد النسخة الأصليةرد0
NeonVortexInTheSmog
· منذ 3 س
إعادة الإعمار الانتشارية + التوافق مع CFG، تسوية ديون التقنية مرة واحدة
شاهد النسخة الأصليةرد0
CyberBridgeDeepPerspective
· منذ 3 س
35 جولة GFID<2، هذه الكفاءة تجعل معمل الأدوية يفرح بشكل جنوني
شاهد النسخة الأصليةرد0
RevokingPermissionsOnARainy
· منذ 3 س
أخيرًا هناك من يعالج بجدية مشكلة تشويش إعادة الإعمار في VAE، دموع
شاهد النسخة الأصليةرد0
HoldingPositionsIsLikeTending
· منذ 3 س
Adobe+ANU+NYU ثلاث شركات تتعاون، والموارد ممتلئة
شاهد النسخة الأصليةرد0
CandleAfterTheRain
· منذ 3 س
تمثيل متعدد الطبقات يحتفظ بالهيكل الأساسي، هذا التصميم دقيق جدًا، وليس مجرد تراكم عميق.
شاهد النسخة الأصليةرد0
BitByBitBenny
· منذ 3 س
GFID 1.06 فقط 80 جولة، الجيل السابق 177 جولة تم قطعها مباشرة وأكثر، سرعة التلاشي ترتفع بشكل كبير
شاهد النسخة الأصليةرد0
GateUser-0f8d377b
· منذ 3 س
فريق شي سينغ قاموا بدمج إعادة البناء والتوليد، وآلية التكامل في REPA لها بعض القيمة.
شاهد النسخة الأصليةرد0
Salt-BakedSentimentChart
· منذ 3 س
نموذج الانتشار عند استخدامه كـ VAE، الفكرة حقًا جريئة
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت