AIMPACT メッセージ、5 月 15 日(UTC+8)、動察 Beating 監測によると、Zyphra は自己回帰大規模言語モデルから変換されたハイブリッドエキスパート(MoE)拡散モデル ZAYA1-8B-Diffusion-Preview を公開しました。公式は宣伝の中で「最初の」このアーキテクチャを変換したモデルと自称していますが、この路線は昨年末に SDAR や LLaDA 2.0 などのチームによって先行して実現されています。ZAYA1 の真の唯一性のタグは、AMD ハードウェアエコシステム内で訓練を完了した最初の拡散言語モデルであることにあります。 マーケティングの話を剥ぎ取ると、このモデルは依然として拡散アーキテクチャの工学的効率向上の価値を証明しています。従来の自己回帰モデルは逐字列の逐次生成に制限され、KVキャッシュの蓄積は生成速度を物理的な限界に近づけます。最近の何恺明チームの純粋拡散モデル ELF が示す業界のトレンドと同様に、並列ノイズ除去はこのボトルネックを打破する鍵です。ZAYA1 は TiDAR 方式を採用し、ゼロからの事前訓練をスキップし、単一の前向き伝播で 16 個のトークン候補のノイズ除去を同時に行うことができ、メモリ帯域のボトルネックを計算能力のボトルネックに完全に変換しました。 実測では、ZAYA1 専用の CCA 注意メカニズムと組み合わせて、標準の不可逆サンプラーを使用することで、生成品質を損なうことなく 4.6 倍の高速化を達成しています。ハイブリッドロジットサンプラーに切り替えると、加速比はさらに 7.7 倍に跳ね上がり、大規模推論タスクの高コストを実質的に削減する余地を提供しています。(出典:BlockBeats)
ZyphraがAMDエコシステム初の拡散型言語モデルをリリース、最大7.7倍の高速化を実現