RAEv2オープンソース:収束速度10倍向上、80ラウンドの訓練で前世代の800ラウンド記録を超える

robot
概要作成中
币界网消息、RAEv2オープンソースプロジェクトは、Adobe Research、オーストラリア国立大学(ANU)、ニューヨーク大学(NYU)のシェセナンチームなどの機関によって共同で発表され、収束速度が10倍向上し、80回の訓練で前世代の800回の記録を超えました。新バージョンは、従来の変分自己符号化器(VAE)を置き換える拡散モデルの画像再構築方式として、初代の低品質な再構築、標準的な無分類器誘導(CFG)の使用不可、収束の遅さといった課題を解決しています。ImageNet上では、わずか80回の訓練で1.06のグローバルFID(GFID)スコアを達成しています。研究チームは、アーキテクチャ設計において三つのコア最適化を実現し、多層表現方式を採用、エンコーダの最後のK層の出力を直接加算し、下層サブスペースの構造を保持しています。新アーキテクチャはまた、表現自己符号化器と表現整列(REPA)の補完メカニズムを明らかにし、生成タスクにおける性能を向上させています。テスト結果によると、GFIDが2未満の指標を達成するには、初代モデルは177回の訓練が必要でしたが、新アーキテクチャはわずか35回で済みます。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 9
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
GateUser-b6d80ba0
· 2時間前
エンコーダの最後のK層を加算することは、ResNetのスキップコネクションのような感覚があり、潜在空間に適用されている
原文表示返信0
NeonVortexInTheSmog
· 3時間前
拡散再構築+CFG互換性、技術的負債を一括で清算
原文表示返信0
CyberBridgeDeepPerspective
· 3時間前
35ラウンドGFID<2、この効率に錬金術師は狂喜
原文表示返信0
RevokingPermissionsOnARainy
· 3時間前
ついに誰かが真剣にVAEの再構築のぼやけ問題を解決した、感動した
原文表示返信0
HoldingPositionsIsLikeTending
· 3時間前
Adobe+ANU+NYU三社連携、リソースを最大化した
原文表示返信0
CandleAfterTheRain
· 3時間前
多层表示保留底层结构这个设计很细,不是简单堆深度
返信0
BitByBitBenny
· 3時間前
GFID 1.06はわずか80ラウンド、前世代の177ラウンドはそのまま打ち切り、収束速度が急上昇
原文表示返信0
GateUser-0f8d377b
· 3時間前
シェセニンチームは今回、再構築と生成を連携させた。REPAの補完メカニズムには何かある。
原文表示返信0
Salt-BakedSentimentChart
· 3時間前
拡散モデルをVAEとして使う、アイデアは確かに斬新だ
原文表示返信0
もっと見る
  • ピン留め