128枚A100からゼロから訓練!バイトがオープンソース化した3B全能多モーダルモデルLance

MEニュース 5月19日(UTC+8)、動察Beatingの監視によると、字节跳动(ByteDance Research)は正式にネイティブの統一多模態大規模モデルLanceをオープンソース化しました。これは、活性化パラメータがわずか3Bの軽量モデルであり、単一のフレームワーク内で画像と動画の理解、生成、編集を同時にサポートします。 現在の主流の統一モデルはパラメータ規模の拡大や文生図アーキテクチャの採用に大きく依存していますが、Lanceは非常に低い計算能力の協調ルートを実現しています。 研究開発チームはモデルをゼロから完全に訓練し、全体の訓練サイクルの総計算予算を128枚のA100 GPUに抑えました。 異なるモードやタスク間の内部衝突を解決するために、Lanceはアーキテクチャ上で二つの硬性隔離を行っています: - 双流混合エキスパート(MoE)アーキテクチャを採用し、交錯する多模態シーケンスを処理し、共有された基底コンテキストを維持しながら、理解と生成の計算パスをデカップリングします。 - モード感知の回転位置符号化を導入し、画像と動画の異種視覚トークン間の信号干渉を直接弱めます。 極端な計算圧縮にもかかわらず、性能の上限は下がっていません。 活性化パラメータ3Bのみで、Lanceの画像と動画の生成および編集のパフォーマンスは、ほとんどのベンチマークテストで既存のオープンソース統一モデルをリードし、多タスクの協調により、小さなパラメータで生成と意味理解の両立を低コストで実現するルートを確立しています。 (出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め