AMDエコシステムにやっと戦える拡散型言語モデルが登場した。TiDARの一手でどれだけ計算能力のコストを節約できたのか

原文表示
MeNews
ZyphraがAMDエコシステム初の拡散型言語モデルをリリース、最大7.7倍の高速化を実現
ZyphraはZAYA1-8B-Diffusion-Previewをリリースし、自己回帰型大規模言語モデルをハイブリッドエキスパート拡散モデルに変換し、AMDハードウェアエコシステム内で訓練された最初の拡散言語モデルとなった。TiDARを通じてゼロからの事前訓練をスキップし、単一の前方パスで16トークンを同時にノイズ除去できるようにし、GPUメモリのボトルネックを計算能力のボトルネックに変換した。実測では、CCAアテンション+ロスレスサンプリング下で4.6倍の高速化を達成し、ハイブリッドロジットサンプラーに切り替えると7.7倍に向上した。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め