128枚A100からゼロから訓練!バイトがオープンソース化した3B全能多モーダルモデルLance

robot
概要作成中

ME News ニュース、5月19日(UTC+8)、動察Beatingの監視によると、字节跳动(ByteDance Research)は正式にネイティブの統一多模態大規模モデルLanceをオープンソース化しました。これは、活性化パラメータがわずか3Bの軽量モデルであり、単一のフレームワーク内で画像と動画の理解、生成、編集を同時にサポートします。現在主流の統一モデルはパラメータ規模の拡大や文生図アーキテクチャの採用に大きく依存していますが、Lanceは非常に低い計算能力の協調ルートを実現しています。研究開発チームはモデルをゼロから完全に訓練し、全訓練サイクルの総計算予算を128枚のA100 GPUに抑えました。異なるモダリティとタスク間の内部衝突を解決するために、Lanceはアーキテクチャ上で二つの硬性隔離を行っています:

  • 複雑に絡み合った多模態シーケンスを処理するために二流混合エキスパート(MoE)アーキテクチャを採用し、共有された基底コンテキストの下で理解と生成の計算経路をデカップリングします。
  • モダリティ感知の回転位置符号化を導入し、画像と動画の異種視覚トークン間の信号干渉を直接弱めます。
    極端な計算能力の圧縮にもかかわらず、性能の上限は下がっていません。わずか3Bの活性化パラメータで、Lanceの画像と動画の生成および編集のパフォーマンスは、ほとんどすべてのベンチマークテストで既存のオープンソース統一モデルをリードし、多タスクの協調により少ないパラメータで生成と意味理解の両立を低コストで実現するルートを走っています。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め