NVIDIAのTwoTowerアーキテクチャは、並列30Bモデルにより大規模モデルの効率を向上させる。

NVIDIAの監視によると、NVIDIAは離散テキスト拡散アーキテクチャ「Nemotron-Labs-TwoTower」をオープンソース化した。これは、一度に1単語しか生成できない大規模モデルの生成速度ボトルネックに対処することを目的としている。従来のテキスト拡散モデルは、並列出力を追求するために単一のネットワークに一方向コンテキスト理解と双方向並列誤差修正のバランスを強制し、モデルの認知能力が大幅に低下していた。TwoTowerアーキテクチャは分離設計を採用している。一方では、事前学習済みの自己回帰大規模モデルを完全にフリーズし、「読み取り専用コンテキストタワー」として完全な推論と常識能力を保持する。他方では、個別に「ノイズ除去ライティングタワー」を訓練し、層レベルのクロスアテンションを通じてコンテキスト情報を読み取る。ライティングタワーは「信頼度アンマスキング」メカニズムを使用し、ブロック予測時に信頼度の高い単語を優先的に書き込み、残りのギャップを徐々に埋めることで、易しいものから難しいものへの並列書き込みを実現する。この設計は、ベースラインモデルの事前学習データのわずか1/12(2.1Tトークン)を用いて30Bレベルの混合アーキテクチャ(Mamba-Transformer MoE)モデルに適応し、品質の98.7%を維持しながら実際の生成速度を2.42倍向上させ、追加のメモリキャッシュオーバーヘッドを発生させない。しかし、両方のタワーをメモリに保持する必要があるため、モデルの静的メモリ使用量が増加し、非常に複雑なコードや推論においてわずかな精度低下が依然として見られる。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め