NVIDIA的雙塔架構透過並行30B模型提升大型模型效率

根據Beating的監控,NVIDIA已開源離散文本擴散架構Nemotron-Labs-TwoTower,旨在解決大型模型一次只能生成一個單詞的生成速度瓶頸。
先前的文本擴散模型為了追求平行輸出,強迫單一網路在單向上下文理解與雙向平行錯誤修正之間取得平衡,導致模型的認知能力大幅下降。
TwoTower架構採用解耦設計:一方面,完全凍結一個預訓練的自迴歸大型模型作為「唯讀上下文塔」,以保留完整的推理和常識能力;另一方面,單獨訓練一個「去噪寫作塔」,透過層級交叉注意力讀取上下文資訊。
寫作塔使用「信心去遮罩」機制,在預測一個區塊時優先寫入高信心的詞,並逐步填補剩餘空白,以實現從易到難的平行寫作。
此設計在30B等級的混合架構(Mamba-Transformer MoE)模型上進行調整,僅使用基線模型預訓練資料的1/12(2.1T tokens),保留了98.7%的品質,同時將實際生成速度提升了2.42倍,且未增加額外的記憶體快取開銷。
然而,由於需要在記憶體中同時保留兩個塔,模型的靜態記憶體使用量增加,並且在極其複雜的程式碼和數學推理中仍有輕微的準確度下降。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆