币界网消息、ZyphraオープンソースのZAYA1-74Bプレビュー版は、全AMDハードウェアを用いてエンドツーエンドのトレーニングを行い、モデルの総パラメータは740億に達し、1回の活性化で40億を処理します。このモデルはハイブリッドエキスパート(MoE)アーキテクチャに基づいており、事前学習とコンテキスト拡張の全工程はAMD MI300Xアクセラレータ上で完了しています。長文の効率を最適化するために、モデルはグローバルアテンション層を4Kウィンドウサイズのスライディングウィンドウアテンション(SWA)に置き換え、公式のテストではこの設計がパフォーマンスを犠牲にすることなく、KVキャッシュの占有を大幅に削減することを示しています。トレーニング過程では15兆トークンの事前学習コーパスを使用し、3兆トークンの中間トレーニングで段階的にコンテキストウィンドウを256Kに拡張しました。ZyphraはPASSスコアの公開を選び、この基盤が正しい推論ステップを生成する能力を持つことを証明しています。完全なフルバージョンのZAYA1-74Bは今後数週間以内にリリースされる予定です。
ZyphraオープンソースZAYA1-74Bプレビュー版:全AMDハードウェアでのエンドツーエンドトレーニング、4Bの活性化74Bの総パラメータ
币界网消息、ZyphraオープンソースのZAYA1-74Bプレビュー版は、全AMDハードウェアを用いてエンドツーエンドのトレーニングを行い、モデルの総パラメータは740億に達し、1回の活性化で40億を処理します。このモデルはハイブリッドエキスパート(MoE)アーキテクチャに基づいており、事前学習とコンテキスト拡張の全工程はAMD MI300Xアクセラレータ上で完了しています。長文の効率を最適化するために、モデルはグローバルアテンション層を4Kウィンドウサイズのスライディングウィンドウアテンション(SWA)に置き換え、公式のテストではこの設計がパフォーマンスを犠牲にすることなく、KVキャッシュの占有を大幅に削減することを示しています。トレーニング過程では15兆トークンの事前学習コーパスを使用し、3兆トークンの中間トレーニングで段階的にコンテキストウィンドウを256Kに拡張しました。ZyphraはPASSスコアの公開を選び、この基盤が正しい推論ステップを生成する能力を持つことを証明しています。完全なフルバージョンのZAYA1-74Bは今後数週間以内にリリースされる予定です。