128張A100從零訓出!字節開源3B全能多模態模型Lance

ME News 消息,5 月 19 日(UTC+8),據 動察 Beating 監測,字節跳動(ByteDance Research)正式開源原生統一多模態大模型 Lance。這是一個激活參數僅為 3B 的輕量級模型,在單一框架內同時支持圖像與視頻的理解、生成及編輯。 目前主流統一模型高度依賴擴大參數規模或沿用文生圖架構,Lance 則跑通了極低算力的協同路線。研發團隊讓模型完全從零開始訓練,並將整個訓練週期的總計算預算壓低至 128 張 A100 GPU。 為解決不同模態與任務間的內部衝突,Lance 在架構上做了兩項硬性隔離: - 採用雙流混合專家(MoE)架構處理交織的多模態序列,在共享底層上下文的同時,解耦理解與生成的計算路徑。 - 引入模態感知的旋轉位置編碼,直接削弱圖像和視頻異構視覺 token 之間的信號干擾。 極端的算力壓縮並未拉低性能上限。在僅有 3B 激活參數的情況下,Lance 的圖像與視頻生成及編輯表現在絕大多數基準測試中領跑現有開源統一模型,通過多任務協同跑通了小參數兼顧生成與語義理解的低成本路線。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆