Sakana AIはこの一波で深層モデルのメモリボトルネックを解消し、1/Bのメモリで大規模ネットワークの訓練を可能にし、実験でもエンドツーエンドを圧倒している

原文表示
MeNews
Sakana AIはDiffusionBlocksをリリースし、独立したブロックごとのトレーニングにより、メモリ使用量をB分の1に削減しました
ICLR 2026 で、Sakana AI と東京大学は DiffusionBlocks を提案し、ネットワークをブロックに分割し、ブロックの更新を拡散モデルの逆拡散にマッピングして、ブロック単位の独立した訓練を実現した。訓練時には一つのブロックのみをロードし、他のブロックはメモリに載せず、メモリ使用量を元の1/Bに削減し、深さによるメモリ制約を突破した。実験では、ビジュアルトランスフォーマー、DiT 画像生成、テキスト生成タスクにおいて、ブロック単位の訓練はエンドツーエンドに匹敵するか、あるいはそれを超える性能を示した;Looped Transformer にも単方向の前向き更新を適用でき、訓練計算量を大幅に削減した。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし